语音信号处理实用教程 / 21世纪高等院校信息与通信工程规划教材
¥56.00定价
作者: 吴进
出版时间:2015-02
出版社:人民邮电出版社
- 人民邮电出版社
- 9787115380876
- 1-1
- 29981
- 46212039-5
- 平装
- 16开
- 2015-02
- 530
- 338
- 工学
- 信息与通信工程
- TN912.3
- 信号处理
- 本科
内容简介
吴进编著的《语音信号处理实用教程》系统地介绍了语音信号处理的相关知识,系统地论述了语音信号处理的基础、概念、原理、方法与应用,以及该学科领域取得的一些新成果、新进展及新技术。全书分3篇共15章,其中第1篇语音信号处理基础篇,包括第1章绪论,第2章语音信号处理的基础知识;第2篇语音信号分析篇,包括第3章至第9章,介绍语音信号的各种分析方法和技术,包括传统方法,如时域、频域处理等,还包括新方法和新技术,如同态处理、线性预测分析、矢量量化、隐马尔可夫模型技术等;第3篇语音信号处理技术与应用篇,包括第10章至第15章,分别介绍语音编码、语音合成、语音识别、说话人识别、语音增强及语音处理的实时实现。
本书在编写上既重视基础知识,又跟踪前沿技术;既具有学术深度,又具有教材的系统性和可读性。全书层次分明,条理清晰,结构严谨,并注意各部分内容的有机结合;既有较强的理论系统性,又体现一定应用的观点。
本书可作为高等院校电子信息工程、通信工程、模式识别与人工智能等专业的高年级本科生、硕士研究生教材,也可供该领域的科研及工程技术人员参考。
本书在编写上既重视基础知识,又跟踪前沿技术;既具有学术深度,又具有教材的系统性和可读性。全书层次分明,条理清晰,结构严谨,并注意各部分内容的有机结合;既有较强的理论系统性,又体现一定应用的观点。
本书可作为高等院校电子信息工程、通信工程、模式识别与人工智能等专业的高年级本科生、硕士研究生教材,也可供该领域的科研及工程技术人员参考。
目录
第1篇 语音信号处理基础篇
第1章 绪论
1.1 语音信号处理概述
1.2 语音信号处理的发展
1.3 语音信号处理的应用
思考与练习
第2章 语音信号处理的基础知识
2.1 语音和语言
2.2 语音产生的过程及其声学特性
2.2.1 语音的发音器官
2.2.2 人类语音的产生过程
2.2.3 共振峰频率
2.3 语音信号的声学特性
2.3.1 语音信号的物理属性
2.3.2 语音信号的统计特性
2.3.3 语音信号的时间波形和频谱特性
2.4 语音信号产生的数字模型
2.4.1 激励模型
2.4.2 声道模型
2.4.3 辐射模型
2.4.4 完整的语音信号数字模型
2.5 人类的听觉功能
2.5.1 听觉器官
2.5.2 听觉感知
2.5.3 声音三要素
2.5.4 听觉掩蔽效应
思考与练习
第2篇 语音信号处理分析篇
第3章 语音信号的时域分析
3.1 语音信号的数字化和预处理
3.1.1 取样和量化
3.1.2 预处理
3.1.3 语音信号的加窗处理
3.2 短时能量分析
3.2.1 短时平均能量
3.2.2 短时平均幅度
3.3 短时过零分析
3.4 短时相关分析
3.4.1 短时自相关函数
3.4.2 修正的短时自相关函数
3.4.3 短时平均幅度差函数
3.5 基音周期估值
3.5.1 基于短时自相关法的基音周期估值
3.5.2 基于短时平均幅度差函数AMDF法的基音周期估值
3.5.3 基音周期估值的后处理
思考与练习
第4章 语音信号的频域分析
4.1 短时傅里叶变换的定义
4. 2 短时傅里叶变换的两种解释
4.2.1 标准傅里叶变换的解释
4.2.2 滤波器的解释
4.3 短时傅里叶变换的取样率
4.3.1 时域取样率
4.3.2 频域取样率
4.3.3 总取样率
4.4 语音信号的短时综合
4.4.1 滤波器组求和法
4.4.2 快速傅立叶变换求和法
4.5 语谱图
思考与练习
第5章 语音信号的同态处理
5.1 卷积同态处理的基本原理
5.2 复倒谱和倒谱
5.2.1 复倒谱
5.2.2 倒谱
5.3 语音信号的复倒谱
5.3.1 声门激励信号的复倒谱
5.3.2 声道冲激响应序列的复倒谱
5.4 复倒谱的几种计算方法
5.4.1 微分法
5.4.2 最小相位信号法
5.4.3 递推法
5.5 语音的倒谱分析及应用
5.5.1 语音同态滤波系统构成
5.5.2 语音的倒谱分析原理
5.5.3 语音的倒谱应用
思考与练习
第6章 语音信号的线性预测分析
6.1 线性预测分析的基本原理
6.1.1 信号模型
6.1.2 语音信号的线性预测模型
6.2 线性预测方程的建立
6.3 线性预测分析的经典解法
6.3.1 自相关法
6.3.2 协方差法
6.3.3 自相关法和协方差法的比较
6.4 格型法
6.4.1 格型法的基本原理
6.4.2 格型法的求解
6.5 线谱对LSP分析
6.5.1 LSP的定义和特点
6.5.2 LPC参数到LSP参数的转换
6.5.3 LSP参数到LPC参数的转换
6.6 导抗谱对ISP分析
6.6.1 ISP的定义和特点
6.6.2 LPC与ISP参数间的转换
6.7 LPC导出的其它语音参数
6.7.1 反射系数
6.7.2 对数面积比系数
6.7.3 LPC倒谱系数
6.8 LPC分析的频域解释
6.8.1 最小预测误差的频域解释
6.8.2 LPC谱估计
思考与练习
第7章 语音信号的矢量量化
7.1 矢量量化的基本原理
7.1.1 矢量量化的定义
7.1.2 矢量量化系统的工作过程
7.1.3 矢量量化与标量量化的比较
7.1.4 失真测度
7.2 最佳矢量量化器
7.2.1 最佳划分
7.2.2 最佳码书
7.3 矢量量化器的设计算法
7.3.1 LBG算法
7.3.2 初始码书的生成
7.3.3 空胞腔的处理
7.4 降低复杂度的矢量量化系统
7.4.1 树形搜索矢量量化器
7.4.2 多级矢量量化器
7.4.3 波形/增益矢量量化器
7.4.4 分离均值矢量量化器
7.4.5 有记忆的矢量量化器
7.5 语音参数的矢量量化
思考与练习
第8章 隐马尔可夫模型
8.1 隐马尔可夫模型的引入
8.2 隐马尔可夫模型的定义
8.3 隐马尔可夫模型的计算
8.3.1 概率Pr [Y/λ ]的计算
8.3.2 HMM的识别
8.4 HMM的各种结构类型
8.4.1 A矩阵参数分类
8.4.2 B矩阵参数分类
8.4.3 其他一些特殊的HMM形式
8.5 HMM的一些实际问题
8.5.1 下溢问题
8.5.2 参数的初始化问题
8.5.3 B矩阵参数的选择
思考与练习
第9章 语音信号检测分析
9.1 基音提取
9.1.1 自相关法
9.1.2 并行处理法
9.1.3 倒谱法
9.1.4 简化逆滤波法
9.2 共振峰估值
9.2.1 带通滤波器组法
9.2.2 离散傅里叶变换(DFT)
9.2.3 倒谱法
9.2.4 LPC法
思考与练习
第3篇 语音信号处理应用篇
第10章 语音编码
10.1 语音信号的压缩编码原理
10.1.1 语音压缩的基本原理
10.1.2 语音通信中的语音质量
10.1.3 语音编码的分类
10.2 语音编码性能的评价指标
10.2.1 编码速率
10.2.2 编码质量
10.2.3 编解码延时
10.2.4 算法复杂度
10.3 语音信号波形编码
10.3.1 脉冲编码调制
10.3.2 自适应预测编码
10.3.3 自适应差分脉冲编码调制
10.3.4 子带编码
10.3.5 变换编码
10.4 语音信号参数编码
10.4.1 声码器的工作原理
10.4.2 相位声码器
10.4.3 通道声码器
10.4.4 共振峰声码器
10.4.5 同态声码器
10.4.6 线性预测声码器
10.5 语音信号混合编码
10.5.1 合成分析技术
10.5.2 感觉加权滤波器
10.5.3 激励模型的改进
10.5.4 G.728语音编码标准简介
10.6 语音信号宽带变速率编码
10.7 各种语音编码方法的比较
10.7.1 波形编码的信号压缩技术
10.7.2 波形编码和声码器的比较
10.7.3 各种声码器的比较
思考与练习
第11章 语音合成
11.1 概述
11.2 语音合成原理
11.2.1 波形合成法
11.2.2 参数合成法
11.2.3 规则合成法
11.3 语音合成系统的特性
11.3.1 合成单元
11.3.2 合成参数
11.3.3 合成音质
11.4 共振峰合成
11.4.1 共振峰合成原理
11.4.2 级联型共振峰模型
11.4.3 并联型共振峰模型
11.4.4 共振峰合成实例
11.5 线性预测合成
11.6 基音同步叠加法
11.6.1 算法原理
11.6.2 算法实现步骤
11.7 文语转换系统
11.7.1 文语转换系统的组成
11.7.2 汉语按规则合成
11.8 语音合成技术的应用
11.8.1 语音合成的典型应用
11.8.2 专用语音合成硬件及语音合成器芯片
思考与练习
第12章 语音识别
12.1 概述
12.2 语音识别原理
12.3 动态时间规整
12.4 有限状态矢量量化技术
12.4.l FSVQ原理及FSVQ声码器
12.4.2 FSVQ语音识别器
12.5 孤立词识别系统
12.6 连续语音识别
12.6.1 识别基元的选择与切分
12.6.2 发音变化及音征提取
12.6.3 训练及新的识别方法
12.6.4 基于HMM统一框架的大词汇量非特定人连续语音识别
思考与练习
第13章 说话人识别
13.1 概述
13.2 特征选取
13.2.1 说话人识别所用特征
13.2.2 特征类型的优选准则
13.3 说话人识别系统的结构
13.4 说话人识别中的识别方法
13.4.1 模板匹配法
13.4.2 概率统计方法
13.4.3 动态时间规整方法
13.4.4 矢量量化方法
13.4.5 隐马尔可夫模型方法
13.4.6 人工神经网络方法
13.5 声纹识别应用前景
13.5.1 声纹识别特性
13.5.2 声纹识别应用
13.5.3 声纹识别未来
思考与练习
第14章 语音增强
14.1 概述
14.2 语音特性、人耳感知特性及噪声特性
14.2.1 语音特性
14.2.2 人耳感知特性
14.2.3 噪声特性
14.3 语音增强算法
14.3.1 参数方法
14.3.2 非参数方法
14.3.3 统计方法
14.3.4 其他方法
14.4 滤波器法
14.4.1 固定滤波器
14.4.2 自适应滤波
14.4.3 变换技术
14.5 非线性处理语音增强
14.5.1 中心削波
14.5.2 同态滤波法
14.6 谱减法
14.6.1 谱减法的原理
14.6.2 谱减法的改进形式
14.6.3 谱减法语音增强的仿真实现
14.7 自相关相减法
14.8 自适应噪声对消
14.8.1 自适应滤波
14.8.2 具有参考信号的自适应噪声
对消
14.8.3 利用延迟来建立参考信号的自
适应噪声对消
思考与练习
第15章 语音处理的实时实现
15.1 可编程DSP芯片应用基础
15.1.1 DSP的发展历程
15.1.2 DSP芯片的特点
15.1.3 DSP芯片的分类
15.1.4 DSP芯片的基本结构
15.1.5 常用DSP芯片简介
15.1.6 DSP芯片的应用
15.2 基于DSP的语音处理系统
15.2.1 基于DSP的实时语音处理系统的构成
15.2.2 基于DSP的实时语音处理系统的特点
15.2.3 基于DSP的实时语音处理系统的设计过程
15.3 DSPCCS集成开发环境
15.3.1 DSP的开发工具
15.3.2 CCS概述
15.3.3 CCS的构成
l5.4 基于TMS320C5409的实时语音识别系统
15.4.1 硬件介绍
15.4.2 软件设计
15.4.3 独立系统形成
思考与练习
附录 汉英名词术语对照
参考文献
第1章 绪论
1.1 语音信号处理概述
1.2 语音信号处理的发展
1.3 语音信号处理的应用
思考与练习
第2章 语音信号处理的基础知识
2.1 语音和语言
2.2 语音产生的过程及其声学特性
2.2.1 语音的发音器官
2.2.2 人类语音的产生过程
2.2.3 共振峰频率
2.3 语音信号的声学特性
2.3.1 语音信号的物理属性
2.3.2 语音信号的统计特性
2.3.3 语音信号的时间波形和频谱特性
2.4 语音信号产生的数字模型
2.4.1 激励模型
2.4.2 声道模型
2.4.3 辐射模型
2.4.4 完整的语音信号数字模型
2.5 人类的听觉功能
2.5.1 听觉器官
2.5.2 听觉感知
2.5.3 声音三要素
2.5.4 听觉掩蔽效应
思考与练习
第2篇 语音信号处理分析篇
第3章 语音信号的时域分析
3.1 语音信号的数字化和预处理
3.1.1 取样和量化
3.1.2 预处理
3.1.3 语音信号的加窗处理
3.2 短时能量分析
3.2.1 短时平均能量
3.2.2 短时平均幅度
3.3 短时过零分析
3.4 短时相关分析
3.4.1 短时自相关函数
3.4.2 修正的短时自相关函数
3.4.3 短时平均幅度差函数
3.5 基音周期估值
3.5.1 基于短时自相关法的基音周期估值
3.5.2 基于短时平均幅度差函数AMDF法的基音周期估值
3.5.3 基音周期估值的后处理
思考与练习
第4章 语音信号的频域分析
4.1 短时傅里叶变换的定义
4. 2 短时傅里叶变换的两种解释
4.2.1 标准傅里叶变换的解释
4.2.2 滤波器的解释
4.3 短时傅里叶变换的取样率
4.3.1 时域取样率
4.3.2 频域取样率
4.3.3 总取样率
4.4 语音信号的短时综合
4.4.1 滤波器组求和法
4.4.2 快速傅立叶变换求和法
4.5 语谱图
思考与练习
第5章 语音信号的同态处理
5.1 卷积同态处理的基本原理
5.2 复倒谱和倒谱
5.2.1 复倒谱
5.2.2 倒谱
5.3 语音信号的复倒谱
5.3.1 声门激励信号的复倒谱
5.3.2 声道冲激响应序列的复倒谱
5.4 复倒谱的几种计算方法
5.4.1 微分法
5.4.2 最小相位信号法
5.4.3 递推法
5.5 语音的倒谱分析及应用
5.5.1 语音同态滤波系统构成
5.5.2 语音的倒谱分析原理
5.5.3 语音的倒谱应用
思考与练习
第6章 语音信号的线性预测分析
6.1 线性预测分析的基本原理
6.1.1 信号模型
6.1.2 语音信号的线性预测模型
6.2 线性预测方程的建立
6.3 线性预测分析的经典解法
6.3.1 自相关法
6.3.2 协方差法
6.3.3 自相关法和协方差法的比较
6.4 格型法
6.4.1 格型法的基本原理
6.4.2 格型法的求解
6.5 线谱对LSP分析
6.5.1 LSP的定义和特点
6.5.2 LPC参数到LSP参数的转换
6.5.3 LSP参数到LPC参数的转换
6.6 导抗谱对ISP分析
6.6.1 ISP的定义和特点
6.6.2 LPC与ISP参数间的转换
6.7 LPC导出的其它语音参数
6.7.1 反射系数
6.7.2 对数面积比系数
6.7.3 LPC倒谱系数
6.8 LPC分析的频域解释
6.8.1 最小预测误差的频域解释
6.8.2 LPC谱估计
思考与练习
第7章 语音信号的矢量量化
7.1 矢量量化的基本原理
7.1.1 矢量量化的定义
7.1.2 矢量量化系统的工作过程
7.1.3 矢量量化与标量量化的比较
7.1.4 失真测度
7.2 最佳矢量量化器
7.2.1 最佳划分
7.2.2 最佳码书
7.3 矢量量化器的设计算法
7.3.1 LBG算法
7.3.2 初始码书的生成
7.3.3 空胞腔的处理
7.4 降低复杂度的矢量量化系统
7.4.1 树形搜索矢量量化器
7.4.2 多级矢量量化器
7.4.3 波形/增益矢量量化器
7.4.4 分离均值矢量量化器
7.4.5 有记忆的矢量量化器
7.5 语音参数的矢量量化
思考与练习
第8章 隐马尔可夫模型
8.1 隐马尔可夫模型的引入
8.2 隐马尔可夫模型的定义
8.3 隐马尔可夫模型的计算
8.3.1 概率Pr [Y/λ ]的计算
8.3.2 HMM的识别
8.4 HMM的各种结构类型
8.4.1 A矩阵参数分类
8.4.2 B矩阵参数分类
8.4.3 其他一些特殊的HMM形式
8.5 HMM的一些实际问题
8.5.1 下溢问题
8.5.2 参数的初始化问题
8.5.3 B矩阵参数的选择
思考与练习
第9章 语音信号检测分析
9.1 基音提取
9.1.1 自相关法
9.1.2 并行处理法
9.1.3 倒谱法
9.1.4 简化逆滤波法
9.2 共振峰估值
9.2.1 带通滤波器组法
9.2.2 离散傅里叶变换(DFT)
9.2.3 倒谱法
9.2.4 LPC法
思考与练习
第3篇 语音信号处理应用篇
第10章 语音编码
10.1 语音信号的压缩编码原理
10.1.1 语音压缩的基本原理
10.1.2 语音通信中的语音质量
10.1.3 语音编码的分类
10.2 语音编码性能的评价指标
10.2.1 编码速率
10.2.2 编码质量
10.2.3 编解码延时
10.2.4 算法复杂度
10.3 语音信号波形编码
10.3.1 脉冲编码调制
10.3.2 自适应预测编码
10.3.3 自适应差分脉冲编码调制
10.3.4 子带编码
10.3.5 变换编码
10.4 语音信号参数编码
10.4.1 声码器的工作原理
10.4.2 相位声码器
10.4.3 通道声码器
10.4.4 共振峰声码器
10.4.5 同态声码器
10.4.6 线性预测声码器
10.5 语音信号混合编码
10.5.1 合成分析技术
10.5.2 感觉加权滤波器
10.5.3 激励模型的改进
10.5.4 G.728语音编码标准简介
10.6 语音信号宽带变速率编码
10.7 各种语音编码方法的比较
10.7.1 波形编码的信号压缩技术
10.7.2 波形编码和声码器的比较
10.7.3 各种声码器的比较
思考与练习
第11章 语音合成
11.1 概述
11.2 语音合成原理
11.2.1 波形合成法
11.2.2 参数合成法
11.2.3 规则合成法
11.3 语音合成系统的特性
11.3.1 合成单元
11.3.2 合成参数
11.3.3 合成音质
11.4 共振峰合成
11.4.1 共振峰合成原理
11.4.2 级联型共振峰模型
11.4.3 并联型共振峰模型
11.4.4 共振峰合成实例
11.5 线性预测合成
11.6 基音同步叠加法
11.6.1 算法原理
11.6.2 算法实现步骤
11.7 文语转换系统
11.7.1 文语转换系统的组成
11.7.2 汉语按规则合成
11.8 语音合成技术的应用
11.8.1 语音合成的典型应用
11.8.2 专用语音合成硬件及语音合成器芯片
思考与练习
第12章 语音识别
12.1 概述
12.2 语音识别原理
12.3 动态时间规整
12.4 有限状态矢量量化技术
12.4.l FSVQ原理及FSVQ声码器
12.4.2 FSVQ语音识别器
12.5 孤立词识别系统
12.6 连续语音识别
12.6.1 识别基元的选择与切分
12.6.2 发音变化及音征提取
12.6.3 训练及新的识别方法
12.6.4 基于HMM统一框架的大词汇量非特定人连续语音识别
思考与练习
第13章 说话人识别
13.1 概述
13.2 特征选取
13.2.1 说话人识别所用特征
13.2.2 特征类型的优选准则
13.3 说话人识别系统的结构
13.4 说话人识别中的识别方法
13.4.1 模板匹配法
13.4.2 概率统计方法
13.4.3 动态时间规整方法
13.4.4 矢量量化方法
13.4.5 隐马尔可夫模型方法
13.4.6 人工神经网络方法
13.5 声纹识别应用前景
13.5.1 声纹识别特性
13.5.2 声纹识别应用
13.5.3 声纹识别未来
思考与练习
第14章 语音增强
14.1 概述
14.2 语音特性、人耳感知特性及噪声特性
14.2.1 语音特性
14.2.2 人耳感知特性
14.2.3 噪声特性
14.3 语音增强算法
14.3.1 参数方法
14.3.2 非参数方法
14.3.3 统计方法
14.3.4 其他方法
14.4 滤波器法
14.4.1 固定滤波器
14.4.2 自适应滤波
14.4.3 变换技术
14.5 非线性处理语音增强
14.5.1 中心削波
14.5.2 同态滤波法
14.6 谱减法
14.6.1 谱减法的原理
14.6.2 谱减法的改进形式
14.6.3 谱减法语音增强的仿真实现
14.7 自相关相减法
14.8 自适应噪声对消
14.8.1 自适应滤波
14.8.2 具有参考信号的自适应噪声
对消
14.8.3 利用延迟来建立参考信号的自
适应噪声对消
思考与练习
第15章 语音处理的实时实现
15.1 可编程DSP芯片应用基础
15.1.1 DSP的发展历程
15.1.2 DSP芯片的特点
15.1.3 DSP芯片的分类
15.1.4 DSP芯片的基本结构
15.1.5 常用DSP芯片简介
15.1.6 DSP芯片的应用
15.2 基于DSP的语音处理系统
15.2.1 基于DSP的实时语音处理系统的构成
15.2.2 基于DSP的实时语音处理系统的特点
15.2.3 基于DSP的实时语音处理系统的设计过程
15.3 DSPCCS集成开发环境
15.3.1 DSP的开发工具
15.3.2 CCS概述
15.3.3 CCS的构成
l5.4 基于TMS320C5409的实时语音识别系统
15.4.1 硬件介绍
15.4.2 软件设计
15.4.3 独立系统形成
思考与练习
附录 汉英名词术语对照
参考文献