Kaldi语音识别实战
¥89.00定价
作者: 陈果果等
出版时间:2023-01
出版社:电子工业出版社
- 电子工业出版社
- 9787121378744
- 1-6
- 362538
- 48253248-8
- 平塑
- 16开
- 2023-01
- 338
- 336
- 工学
- 计算机科学与技术
- 计算机科学与技术
- 本科 研究生及以上
目录
1 语音识别技术基础1__eol__1.1 语音识别极简史1__eol__1.1.1 语音识别早期探索2__eol__1.1.2 概率模型一统江湖2__eol__1.1.3 神经网络异军突起3__eol__1.1.4 商业应用推波助澜4__eol__1.2 语音识别系统架构6__eol__1.2.1 经典方法的直观理解6__eol__1.2.2 概率模型7__eol__1.2.3 端到端语音识别10__eol__1.3 一些其他细节11__eol__1.3.1 语音信号处理11__eol__1.3.2 发音和语言学12__eol__1.3.3 语音识别系统的评价13__eol__2 Kaldi概要介绍15__eol__2.1 发展历史15__eol__2.1.1 名字的由来15__eol__2.1.2 约翰霍普金斯大学夏季研讨会16__eol__2.1.3 Kaldi发展简史17__eol__2.2 设计思想18__eol__2.2.1 初衷18__eol__2.2.2 开源19__eol__2.2.3 训练脚本19__eol__2.3 安装20__eol__2.3.1 下载Kaldi代码20__eol__2.3.2 安装CUDA20__eol__2.3.3 安装编译依赖库21__eol__2.3.4 安装第三方工具21__eol__2.3.5 选择其他的矩阵库23__eol__2.3.6 编译Kaldi代码23__eol__2.3.7 配置并行环境25__eol__2.4 一个简单的示例26__eol__2.4.1 运行run.sh26__eol__2.4.2 脚本解析28__eol__2.5 示例介绍34__eol__2.5.1 数据示例34__eol__2.5.2 竞赛示例38__eol__2.5.3 其他示例40__eol__2.5.4 示例结构41__eol__3 数据整理44__eol__3.1 数据分集44__eol__3.1.1 Librispeech示例的数据处理过程45__eol__3.1.2 数据下载和解压46__eol__3.2 数据预处理49__eol__3.2.1 环境检查51__eol__3.2.2 生成表单文件52__eol__3.2.3 数据检查55__eol__3.3 输入和输出机制56__eol__3.3.1 列表表单57__eol__3.3.2 存档表单60__eol__3.3.3 读写声明符60__eol__3.3.4 表单属性64__eol__3.4 常用数据表单与处理脚本69__eol__3.4.1 列表类数据表单70__eol__3.4.2 存档类数据表单72__eol__3.4.3 数据文件夹处理脚本77__eol__3.4.4 表单索引的一致性78__eol__3.5 语言模型相关文件79__eol__3.5.1 发音词典与音素集80__eol__3.5.2 语言文件夹85__eol__3.5.3 生成与使用语言文件夹92__eol__4 经典声学建模技术94__eol__4.1 特征提取95__eol__4.1.1 用 Kaldi 提取声学特征95__eol__4.1.2 特征在 Kaldi 中的存储99__eol__4.1.3 特征的使用104__eol__4.1.4 常用特征类型106__eol__4.2 单音子模型的训练107__eol__4.2.1 声学模型的基本概念108__eol__4.2.2 将声学模型用于语音识别112__eol__4.2.3 模型初始化113__eol__4.2.4 对齐115__eol__4.2.5 Transition 模型118__eol__4.2.6 GMM 模型的迭代124__eol__4.3 三音子模型训练128__eol__4.3.1 单音子模型假设的问题128__eol__4.3.2 上下文相关的声学模型129__eol__4.3.3 三音子的聚类裁剪130__eol__4.3.4 Kaldi中的三音子模型训练流程130__eol__4.4 特征变换技术139__eol__4.4.1 无监督特征变换139__eol__4.4.2 有监督特征变换141__eol__4.5 区分性训练143__eol__4.5.1 声学模型训练流程的变迁143__eol__4.5.2 区分性目标函数144__eol__4.5.3 分子、分母145__eol__4.5.4 区分性训练在实践中的应用146__eol__5 构图和解码147__eol__5.1 N元文法语言模型148__eol__5.2 加权有限状态转录机151__eol__5.2.1 概述151__eol__5.2.2 OpenFst153__eol__5.3 用WFST表示语言模型156__eol__5.4 状态图的构建158__eol__5.4.1 用 WFST 表示发音词典158__eol__5.4.2 WFST 的复合运算163__eol__5.4.3 词图的按发音展开165__eol__5.4.4 LG 图对上下文展开166__eol__5.4.5 用 WFST 表示 HMM 拓扑结构169__eol__5.5 图的结构优化170__eol__5.5.1 确定化170__eol__5.5.2 最小化173__eol__5.5.3 图的stochastic性质174__eol__5.6 最终状态图的生成174__eol__5.7 基于令牌传递的维特比搜索176__eol__5.8 SimpleDecoder源码分析178__eol__5.9 Kaldi 解码器家族187__eol__5.10 带词网格生成的解码189__eol__5.11 用语言模型重打分提升识别率192__eol____eol__6 深度学习声学建模技术195__eol__6.1 基于神经网络的声学模型195__eol__6.1.1 神经网络基础196__eol__6.1.2 激活函数198__eol__6.1.3 参数更新199__eol__6.2 神经网络在Kaldi中的实现200__eol__6.2.1 nnet1(nnet)200__eol__6.2.2 nnet2203__eol__6.2.3 nnet3208__eol__6.3 神经网络模型训练214__eol__6.3.1 输入特征的处理214__eol__6.3.2 神经网络的初始化215__eol__6.3.3 训练样本的分批与随机化217__eol__6.3.4 学习率的调整222__eol__6.3.5 并行训练224__eol__6.3.6 数据扩充227__eol__6.4 神经网络的区分性训练228__eol__6.4.1 区分性训练的基本思想228__eol__6.4.2 区分性训练的目标函数229__eol__6.4.3 区分性训练的实用技巧231__eol__6.4.4 Kaldi神经网络区分性训练示例232__eol__6.4.5 chain模型234__eol__6.5 与其他深度学习框架的结合242__eol__6.5.1 声学模型242__eol__6.5.2 语言模型243__eol__6.5.3 端到端语音识别243__eol__7 关键词搜索与语音唤醒245__eol__7.1 关键词搜索技术介绍245__eol__7.1.1 关键词搜索技术的主流方法245__eol__7.1.2 关键词搜索技术的主流应用247__eol__7.2 语音检索247__eol__7.2.1 方法描述248__eol__7.2.2 一个简单的语音检索系统248__eol__7.2.3 集外词处理之词表扩展254__eol__7.2.4 集外词处理之关键词扩展255__eol__7.2.5 集外词处理之音素/音节系统256__eol__7.2.6 一个实用的语音检索系统258__eol__7.3 语音唤醒263__eol__7.3.1 语音唤醒经典框架264__eol__7.3.2 语音唤醒进阶优化266__eol__7.3.3 语音唤醒的Kaldi实现思路267__eol__8 说话人识别269__eol__8.1 概述269__eol__8.2 基于i-vector和PLDA的说话人识别技术271__eol__8.2.1 整体流程271__eol__8.2.2 i-vector 的提取272__eol__8.2.3 基于余弦距离对 i-vector 分类274__eol__8.2.4 基于 PLDA 对 i-vector 分类276__eol__8.3 基于深度学习的说话人识别技术280__eol__8.3.1 概述280__eol__8.3.2 x-vector280__eol__8.3.3 基于 x-vector 的说话人识别示例283__eol__8.4 语种识别288__eol__9 语音识别应用实践292__eol__9.1 语音识别基本应用292__eol__9.1.1 离线语音识别与实时在线语音识别292__eol__9.1.2 语音识别应用模块293__eol__9.1.3 小结296__eol__9