数字语音信息处理 / 战略性新兴领域“十四五”高等教育系列教材
¥59.00定价
作者: 贾懋珅,陈仙红,马勇,熊文梦
出版时间:2025-04-29
出版社:机械工业出版社
- 机械工业出版社
- 9787111776710
- 1-1
- 547172
- 平装
- 2025-04-29
- 362
内容简介
本书为数字语音信息处理课程教材,结合信号处理、声学、计算机科学、统计学等多个学科,系统介绍了数字语音信息处理的基础知识、基本原理、重要方法以及该学科领域近年来取得的一些重大研究成果与技术突破。本书遵循了科学性、实用性、创新性原则。全书共10章,内容包括:绪论、语音产生与听觉感知、语音信号特征、常用建模算法、语音编码和质量评估、语音识别、说话人识别、语音合成、语音增强、语音分离。另外,在本书的每章末尾都加入了思考题与习题,供读者思考、练习。
本书以帮助读者快速、直观地理解概念为目标,展示了基本的数学公式,同时注重理论与实践相结合,在每节都详细地阐述了相关知识和具体方法,以便读者进一步融会贯通。
本书可作为高等院校计算机科学与技术、通信工程、电子信息、人工智能等相关专业及学科的高年级本科生、研究生教材,也可供相关领域的科研及工程技术人员参考。
本书配有以下教学资源:PPT课件、教学大纲、教案、习题答案、课程实验、教学视频。欢迎选用本书作教材的教师登录www.cmpedu.com注册后下载,或发邮件到jinacmp@163.com索取。
本书以帮助读者快速、直观地理解概念为目标,展示了基本的数学公式,同时注重理论与实践相结合,在每节都详细地阐述了相关知识和具体方法,以便读者进一步融会贯通。
本书可作为高等院校计算机科学与技术、通信工程、电子信息、人工智能等相关专业及学科的高年级本科生、研究生教材,也可供相关领域的科研及工程技术人员参考。
本书配有以下教学资源:PPT课件、教学大纲、教案、习题答案、课程实验、教学视频。欢迎选用本书作教材的教师登录www.cmpedu.com注册后下载,或发邮件到jinacmp@163.com索取。
目录
第1章?绪论 1
1.1?语音信号处理介绍 1
1.2?语音信号处理应用 5
思考题与习题 10
参考文献 10
第2章?语音产生与听觉感知 12
2.1?语音产生 12
2.1.1?发音器官 12
2.1.2?发音原理 13
2.2?心理声学原理 14
2.2.1?听觉范围 14
2.2.2 ?绝对听阈 15
2.2.3?临界频带 16
2.2.4?同时掩蔽 17
2.2.5?异时掩蔽 19
本章小结 19
思考题与习题 19
参考文献 20
第3章?语音信号特征 21
3.1?时域特征 22
3.1.1?短时平均过零率 22
3.1.2?短时平均幅度 23
3.1.3?短时平均能量 23
3.1.4?短时自相关函数 24
3.2?频域特征 25
3.2.1?语谱图特征 26
3.2.2?滤波器组特征 26
3.3?倒谱域特征 27
3.3.1?同态信号处理 27
3.3.2?倒谱特征 28
3.3.3?复倒谱特征 28
3.3.4?Mel频率倒谱特征 29
3.3.5?动态倒谱特征 30
3.4?线性预测特征 30
3.4.1?LPC基本原理 30
3.4.2?LPC的求解 32
3.4.3?LPC谱估计 35
3.4.4?LPC复倒谱 35
3.4.5?感知线性预测 36
3.4.6?LPC的推演参数 37
本章小结 38
思考题与习题 38
参考文献 40
第4章?常用建模算法 41
4.1?矢量量化 41
4.1.1?VQ基本原理 42
4.1.2?VQ的失真测度 42
4.1.3?VQ模型学习方法 44
4.1.4?VQ模型的改进 45
4.2?高斯混合模型 47
4.2.1?高斯混合模型的基本原理 47
4.2.2?期望最大化算法 48
4.3?隐马尔可夫模型 50
4.3.1?HMM的基本概念 50
4.3.2?HMM的三个基本问题 52
4.3.3?HMM的结构类型 57
4.3.4?GMM-HMM算法 58
4.3.5?HMM的自适应算法 59
4.4?支持向量机 60
4.4.1?SVM的基本原理 61
4.4.2?对偶优化 61
4.4.3?非线性SVM 62
4.4.4?支持向量回归 63
4.5?神经网络 64
4.5.1?NN的基本概念 64
4.5.2?多层感知器 64
4.5.3?误差反向传播算法 65
4.5.4?NN的过拟合问题 66
4.6?深度神经网络 67
4.6.1?浅层网络到深层网络 67
4.6.2?DNN的训练 67
4.6.3?常用的DNN模型 68
4.6.4?Transformer的基本概念 70
4.6.5?BERT模型和GPT模型 71
本章小结 72
思考题与习题 72
参考文献 73
第5章?语音编码和质量评估 74
5.1?量化和熵编码 74
5.1.1?概率密度函数 75
5.1.2?标量量化 76
5.1.3?矢量量化 78
5.1.4?比特分配算法 80
5.1.5?熵编码 80
5.2?波形编码 84
5.2.1?脉冲编码调制 85
5.2.2?差分脉冲编码调制 85
5.2.3?自适应差分脉冲编码调制 87
5.3?参数编码 87
5.3.1?线性预测编码 88
5.3.2?正弦变换编码 88
5.4?混合编码 89
5.5?变速率编码 90
5.6?神经网络语音编码 92
5.7?编码器主要属性 93
5.7.1?带宽 93
5.7.2?编码速率 94
5.8?质量评估 95
5.8.1?主观评价 95
5.8.2?客观评价 98
本章小结 100
思考题与习题 100
参考文献 101
第6章?语音识别 103
6.1?模版匹配方法 104
6.1.1?矢量量化技术 104
6.1.2?动态时间规整技术 105
6.2?统计概率模型方法 108
6.2.1?基于GMM-HMM的语音识别方法 108
6.2.2?基于DNN-HMM的语音识别方法 112
6.3?端到端语音识别方法 113
6.3.1?连接时序分类模型 114
6.3.2?递归神经网络转换器模型 117
6.3.3?LAS模型 118
6.3.4?联合CTC-注意力模型 121
本章小结 122
思考题与习题 123
参考文献 124
第7章?说话人识别 125
7.1?基于高斯混合模型的说话人识别 128
7.1.1?GMM说话人识别 128
7.1.2?GMM-UBM说话人识别 130
7.1.3?GMM-SVM说话人识别 132
7.2?基于i-vector的说话人识别 134
7.2.1?基于GMM的i-vector说话人识别 134
7.2.2?基于DNN的i-vector说话人识别 136
7.2.3?说话人相似度打分 138
7.3?基于深度神经网络的说话人识别 140
7.3.1?x-vector说话人识别 141
7.3.2?ResNet说话人识别 143
7.3.3?ECAPA-TDNN说话人识别 144
7.3.4?基于预训练大模型的说话人识别 146
7.4?说话人日志技术 146
7.4.1?基于分割聚类的说话人日志 148
7.4.2?基于端到端的说话人日志技术 150
7.4.3?难点和发展方向 151
本章小结 152
思考题与习题 152
参考文献 153
第8章?语音合成 154
8.1?参数合成法 155
8.2?波形拼接合成法 158
8.3?基于隐马尔可夫的语音合成 160
8.3.1?模型训练阶段 161
8.3.2?语音合成阶段 162
8.3.3?HMM语音合成的关键 164
8.4?基于深度学习的语音合成 165
8.4.1?Tacotron 167
8.4.2?FastSpeech 169
8.4.3?WaveNet 171
8.4.4?VITS 174
8.4.5?GPT-SoVITS 177
本章小结 178
思考题与习题 179
参考文献 179
第9章?语音增强 180
9.1?研究背景 180
9.2?信号模型与评价指标 181
9.2.1?信号模型 181
9.2.2?语音质量评价标准 181
9.3?单通道方法 183
9.3.1?谱减法 183
9.3.2?维纳滤波 184
9.3.3?深度学习方法 188
9.4?多通道方法 197
9.4.1?信号模型与特征提取 197
9.4.2?基于数字信号处理的波束形成方法 198
9.4.3?基于神经网络时频掩蔽的波束形成方法 201
9.4.4?基于神经网络的多通道语音增强方法 202
9.5?混响环境下的语音信号增强方法 205
9.5.1?信号模型 205
9.5.2?WPE去混响方法 205
本章小结 207
思考题与习题 208
参考文献 209
第10章?语音分离 210
10.1?研究背景 210
10.2?独立成分分析 211
10.2.1?定义 211
10.2.2 ICA目标函数 212
10.2.3?优化算法 214
10.3?非负矩阵分解 214
10.3.1?基于NMF的语音分离 214
10.3.2?NMF算法 215
10.3.3?加稀疏约束的NMF算法 217
10.3.4?加权NMF算法 217
10.4?稀疏分量分析 218
10.4.1?稀疏分量分析基本理论 218
10.4.2?信号稀疏化处理 218
10.4.3?混合矩阵估计 219
10.4.4?源信号重构 220
10.5?机器学习方法 223
10.5.1?深度聚类算法 223
10.5.2?置换不变性训练算法 224
10.5.3?时域端到端语音分离法 226
本章小结 230
思考题与习题 230
参考文献 231
1.1?语音信号处理介绍 1
1.2?语音信号处理应用 5
思考题与习题 10
参考文献 10
第2章?语音产生与听觉感知 12
2.1?语音产生 12
2.1.1?发音器官 12
2.1.2?发音原理 13
2.2?心理声学原理 14
2.2.1?听觉范围 14
2.2.2 ?绝对听阈 15
2.2.3?临界频带 16
2.2.4?同时掩蔽 17
2.2.5?异时掩蔽 19
本章小结 19
思考题与习题 19
参考文献 20
第3章?语音信号特征 21
3.1?时域特征 22
3.1.1?短时平均过零率 22
3.1.2?短时平均幅度 23
3.1.3?短时平均能量 23
3.1.4?短时自相关函数 24
3.2?频域特征 25
3.2.1?语谱图特征 26
3.2.2?滤波器组特征 26
3.3?倒谱域特征 27
3.3.1?同态信号处理 27
3.3.2?倒谱特征 28
3.3.3?复倒谱特征 28
3.3.4?Mel频率倒谱特征 29
3.3.5?动态倒谱特征 30
3.4?线性预测特征 30
3.4.1?LPC基本原理 30
3.4.2?LPC的求解 32
3.4.3?LPC谱估计 35
3.4.4?LPC复倒谱 35
3.4.5?感知线性预测 36
3.4.6?LPC的推演参数 37
本章小结 38
思考题与习题 38
参考文献 40
第4章?常用建模算法 41
4.1?矢量量化 41
4.1.1?VQ基本原理 42
4.1.2?VQ的失真测度 42
4.1.3?VQ模型学习方法 44
4.1.4?VQ模型的改进 45
4.2?高斯混合模型 47
4.2.1?高斯混合模型的基本原理 47
4.2.2?期望最大化算法 48
4.3?隐马尔可夫模型 50
4.3.1?HMM的基本概念 50
4.3.2?HMM的三个基本问题 52
4.3.3?HMM的结构类型 57
4.3.4?GMM-HMM算法 58
4.3.5?HMM的自适应算法 59
4.4?支持向量机 60
4.4.1?SVM的基本原理 61
4.4.2?对偶优化 61
4.4.3?非线性SVM 62
4.4.4?支持向量回归 63
4.5?神经网络 64
4.5.1?NN的基本概念 64
4.5.2?多层感知器 64
4.5.3?误差反向传播算法 65
4.5.4?NN的过拟合问题 66
4.6?深度神经网络 67
4.6.1?浅层网络到深层网络 67
4.6.2?DNN的训练 67
4.6.3?常用的DNN模型 68
4.6.4?Transformer的基本概念 70
4.6.5?BERT模型和GPT模型 71
本章小结 72
思考题与习题 72
参考文献 73
第5章?语音编码和质量评估 74
5.1?量化和熵编码 74
5.1.1?概率密度函数 75
5.1.2?标量量化 76
5.1.3?矢量量化 78
5.1.4?比特分配算法 80
5.1.5?熵编码 80
5.2?波形编码 84
5.2.1?脉冲编码调制 85
5.2.2?差分脉冲编码调制 85
5.2.3?自适应差分脉冲编码调制 87
5.3?参数编码 87
5.3.1?线性预测编码 88
5.3.2?正弦变换编码 88
5.4?混合编码 89
5.5?变速率编码 90
5.6?神经网络语音编码 92
5.7?编码器主要属性 93
5.7.1?带宽 93
5.7.2?编码速率 94
5.8?质量评估 95
5.8.1?主观评价 95
5.8.2?客观评价 98
本章小结 100
思考题与习题 100
参考文献 101
第6章?语音识别 103
6.1?模版匹配方法 104
6.1.1?矢量量化技术 104
6.1.2?动态时间规整技术 105
6.2?统计概率模型方法 108
6.2.1?基于GMM-HMM的语音识别方法 108
6.2.2?基于DNN-HMM的语音识别方法 112
6.3?端到端语音识别方法 113
6.3.1?连接时序分类模型 114
6.3.2?递归神经网络转换器模型 117
6.3.3?LAS模型 118
6.3.4?联合CTC-注意力模型 121
本章小结 122
思考题与习题 123
参考文献 124
第7章?说话人识别 125
7.1?基于高斯混合模型的说话人识别 128
7.1.1?GMM说话人识别 128
7.1.2?GMM-UBM说话人识别 130
7.1.3?GMM-SVM说话人识别 132
7.2?基于i-vector的说话人识别 134
7.2.1?基于GMM的i-vector说话人识别 134
7.2.2?基于DNN的i-vector说话人识别 136
7.2.3?说话人相似度打分 138
7.3?基于深度神经网络的说话人识别 140
7.3.1?x-vector说话人识别 141
7.3.2?ResNet说话人识别 143
7.3.3?ECAPA-TDNN说话人识别 144
7.3.4?基于预训练大模型的说话人识别 146
7.4?说话人日志技术 146
7.4.1?基于分割聚类的说话人日志 148
7.4.2?基于端到端的说话人日志技术 150
7.4.3?难点和发展方向 151
本章小结 152
思考题与习题 152
参考文献 153
第8章?语音合成 154
8.1?参数合成法 155
8.2?波形拼接合成法 158
8.3?基于隐马尔可夫的语音合成 160
8.3.1?模型训练阶段 161
8.3.2?语音合成阶段 162
8.3.3?HMM语音合成的关键 164
8.4?基于深度学习的语音合成 165
8.4.1?Tacotron 167
8.4.2?FastSpeech 169
8.4.3?WaveNet 171
8.4.4?VITS 174
8.4.5?GPT-SoVITS 177
本章小结 178
思考题与习题 179
参考文献 179
第9章?语音增强 180
9.1?研究背景 180
9.2?信号模型与评价指标 181
9.2.1?信号模型 181
9.2.2?语音质量评价标准 181
9.3?单通道方法 183
9.3.1?谱减法 183
9.3.2?维纳滤波 184
9.3.3?深度学习方法 188
9.4?多通道方法 197
9.4.1?信号模型与特征提取 197
9.4.2?基于数字信号处理的波束形成方法 198
9.4.3?基于神经网络时频掩蔽的波束形成方法 201
9.4.4?基于神经网络的多通道语音增强方法 202
9.5?混响环境下的语音信号增强方法 205
9.5.1?信号模型 205
9.5.2?WPE去混响方法 205
本章小结 207
思考题与习题 208
参考文献 209
第10章?语音分离 210
10.1?研究背景 210
10.2?独立成分分析 211
10.2.1?定义 211
10.2.2 ICA目标函数 212
10.2.3?优化算法 214
10.3?非负矩阵分解 214
10.3.1?基于NMF的语音分离 214
10.3.2?NMF算法 215
10.3.3?加稀疏约束的NMF算法 217
10.3.4?加权NMF算法 217
10.4?稀疏分量分析 218
10.4.1?稀疏分量分析基本理论 218
10.4.2?信号稀疏化处理 218
10.4.3?混合矩阵估计 219
10.4.4?源信号重构 220
10.5?机器学习方法 223
10.5.1?深度聚类算法 223
10.5.2?置换不变性训练算法 224
10.5.3?时域端到端语音分离法 226
本章小结 230
思考题与习题 230
参考文献 231