注册 登录 进入教材巡展
#
  • #

出版时间:2022-08

出版社:电子工业出版社

以下为《语音识别:原理与应用》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 电子工业出版社
  • 9787121385025
  • 1-6
  • 293563
  • 48245416-2
  • 平塑
  • 16开
  • 2022-08
  • 370
  • 332
  • 工学
  • 计算机科学与技术
  • 计算机科学与技术
  • 本科 研究生(硕士、EMBA、MBA、MPA、博士)
作者简介

洪青阳,厦门大学副教授,天聪智能创始人,主要研究方向是语音识别、声纹识别,先后主持国家自然基金两项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领xmuspeech团队连续两届获东方语种识别(OLR)竞赛第一名,成功研发国内第一套闽南语合成系统。具有丰富的工业界研发经验,与华为、云从、掌数科技等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机和全国十五个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作,从动态时间规整(DTW)、隐马尔可夫模型(HMM)到E2E语音识别框架,与时俱进更新教学内容,积累了丰富的教学经验。



查看全部
目录
第1章 语音识别概论 1__eol__1.1 语音的产生和感知 1__eol__1.2 语音识别过程 4__eol__1.3 语音识别发展历史 8__eol__1.4 国内语音识别现状 15__eol__1.5 语音识别建模方法 19__eol__1.5.1 DTW 19__eol__1.5.2 GMM-HMM 20__eol__1.5.3 DNN-HMM 20__eol__1.5.4 端到端 22__eol__1.6 语音识别开源工具 22__eol__1.7 语音识别常用数据库 22__eol__1.8 语音识别评价指标 24__eol__1.9 参考资料 24__eol__第2章 语音信号基础 28__eol__2.1 声波的特性 28__eol__2.2 声音的接收装置 29__eol__2.2.1 麦克风阵列 31__eol__2.3 声音的采样 32__eol__2.4 声音的量化 33__eol__2.5 语音的编码 35__eol__2.6 WAV文件格式 38__eol__2.7 WAV文件分析 39__eol__2.8 本章小结 42__eol__思考练习题 43__eol__第3章 语音特征提取 44__eol__3.1 预处理 44__eol__3.2 短时傅立叶变换 48__eol__3.3 听觉特性 51__eol__3.4 线性预测 54__eol__3.5 倒谱分析 55__eol__3.6 常用的声学特征 56__eol__3.6.1 语谱图 57__eol__3.6.2 FBank 58__eol__3.6.3 MFCC 59__eol__3.6.4 PLP 61__eol__3.6.5 CQCC 62__eol__3.7 本章小结 65__eol__思考练习题 66__eol__第4章 HMM 67__eol__4.1 HMM的基本概念 69__eol__4.1.1 马尔可夫链 70__eol__4.1.2 双重随机过程 71__eol__4.1.3 HMM的定义 72__eol__4.2 HMM的三个基本问题 73__eol__4.2.1 模型评估问题 74__eol__4.2.2 最佳路径问题 77__eol__4.2.3 模型训练问题 79__eol__4.3 本章小结 81__eol__4.4 参考资料 82__eol__思考练习题 82__eol__第5章 GMM-HMM 83__eol__5.1 概率统计 84__eol__5.2 高斯分布 85__eol__5.3 GMM 88__eol__5.3.1 初始化 89__eol__5.3.2 重估计 90__eol__5.4 GMM-HMM 91__eol__5.5 GMM-HMM的训练 97__eol__5.6 模型自适应 99__eol__5.6.1 MAP 99__eol__5.6.2 MLLR 100__eol__5.6.3 fMLLR 100__eol__5.6.4 SAT 101__eol__5.7 本章小结 101__eol__5.8 参考资料 101__eol__思考练习题 102__eol__课程实践:基于HTK搭建GMM-HMM系统 103__eol__第6章 基于HMM的语音识别 104__eol__6.1 建模单元 104__eol__6.2 发音过程与HMM状态 107__eol__6.3 串接HMM 108__eol__6.4 固定语法的识别 112__eol__6.5 随机语法的识别 117__eol__6.6 本章小结 123__eol__思考练习题 124__eol__第7章 音素的上下文建模 125__eol__7.1 协同发音 125__eol__7.2 上下文建模 126__eol__7.3 决策树 128__eol__7.4 问题集 129__eol__7.4.1 手工设计 129__eol__7.4.2 自动生成 131__eol__7.5 三音子模型的训练 134__eol__7.6 本章小结 135__eol__思考练习题 135__eol__第8章 语言模型 136__eol__8.1 n-gram模型 138__eol__8.2 评价指标——困惑度 142__eol__8.3 平滑技术 143__eol__8.3.1 Good-Turing折扣法 143__eol__8.3.2 Jelinek-Mercer插值法 144__eol__8.3.3 Kneser-Ney插值法 144__eol__8.3.4 Katz回退法 146__eol__8.4 语言模型的训练 148__eol__8.5 递归神经网络语言模型 151__eol__8.6 本章小结 156__eol__8.7 参考资料 156__eol__思考练习题 157__eol__第9章 WFST解码器 158__eol__9.1 基于动态网络的Viterbi解码 159__eol__9.2 WFST理论 163__eol__9.3 HCLG构建 168__eol__9.3.1 H的构建 169__eol__9.3.2 C的构建 171__eol__9.3.3 L的构建 172__eol__9.3.4 G的构建 173__eol__9.3.5 HCLG合并 175__eol__9.4 WFST的Viterbi解码 177__eol__9.4.1 Token的定义 177__eol__9.4.2 Viterbi算法 178__eol__9.5 Lattice解码 185__eol__9.5.1 主要数据结构 185__eol__9.5.2 令牌传播过程 186__eol__9.5.3 剪枝策略 189__eol__9.5.4 Lattice 190__eol__9.6 本章小结 192__eol__9.7 参考资料 192__eol__思考练习题 193__eol__第10章 DNN-HMM 194__eol__10.1 深度学习 194__eol__10.2 DNN 195__eol__10.2.1 激活函数 196__eol__10.2.2 损失函数 198__eol__10.2.3 梯度下降算法 199__eol__10.3 DNN与HMM的结合 201__eol__10.4 不同的DNN结构 205__eol__10.4.1 CNN 205__eol__10.4.2 LSTM 210__eol__10.4.3 GRU 210__eol__10.4.4 TDNN 211__eol__10.4.5 TDNN-F 214__eol__10.5 本章小结 218__eol__10.6 参考资料 219__eol__思考练习题 219__eol__第11章 序列区分性训练 220__eol__11.1 区分性准则 221__eol__11.1.1 MMI 221__eol__11.1.2 BMMI 222__eol__11.1.3 MPE/sMBR 222__eol__11.2 MMI求导过程 223__eol__11.3 Lattice-based MMI 225__eol__11.4 Lattice-free MMI 227__eol__11.5 Kaldi Chain模型 230__eol__11.6 本章小结 231__eol__11.7 参考资料 231__eol__思考练习题 232__eol__第12章 端到端语音识别 233__eol__12.1 CTC 234__eol__12.1.1 损失函数 235__eol__12.1.2 前向算法 239__eol__12.1.3 后向算法 242__eol__12.1.4 求导过程 243__eol__12.1.5 CTC解码 245__eol__12.2 RNN-T 248__eol__12.3 Attention模型 251__eol__12.4 Hybrid CTC/Attention 254__eol__12.5 Transformer 256__eol__12.6 本章小结 259__eol__12.7 参考资料 260__eol__思考练习题 261__eol__第13章 Kaldi实践 262__eol__13.1 下载与安装Kaldi 263__eol__13.1.1 获取源代码 263__eol__13.1.2 编译 264__eol__13.2 创建与配置基本的工程目录 265__eol__13.3 aishell语音识别工程 266__eol__13.3.1 数据映射目录准备 267__eol__13.3.2 词典准备和lang目录生成 269__eol__13.3.3 语言模型训练 271__eol__13.3.4 声学特征提取与倒谱均值归一化 273__eol__13.3.5 声学模型训练与强制对齐 274__eol__13.3.6 解码测试与指标计算 277__eol__13.4 本章小结 279__eol__第14章 Espnet实践 280__eol__14.1 数据准备 280__eol__14.1.1 映射文件准备 280_