深度学习 / 战略性新兴领域“十四五”高等教育系列教材
¥59.80定价
作者: 方勇纯等
出版时间:2025-03-24
出版社:机械工业出版社
- 机械工业出版社
- 9787111776109
- 1-1
- 547170
- 平装
- 2025-03-24
- 435
内容简介
本书主要介绍深度学习方面的基本理论和方法,包括基础性内容、提高性内容和应用三部分。其中,第一部分基础性内容是深度学习最核心的部分,具体包括深度学习基础、全连接网络、卷积神经网络、循环神经网络以及优化算法。第二部分是提高性内容,主要阐述最新发展的一些技术,可供课时充足的专业进行学习。这部分主要包括生成对抗网络与扩散模型、图神经网络、Transformer与Mamba架构以及强化学习。第三部分是应用部分,具体包括计算机视觉、自然语言处理以及大语言模型。
本书可作为普通高等院校人工智能、智能科学与技术、计算机、自动化等专业深度学习课程的教材和参考书,也可供从事深度学习等方面工作的研究生和工程技术人员参考使用。
本书可作为普通高等院校人工智能、智能科学与技术、计算机、自动化等专业深度学习课程的教材和参考书,也可供从事深度学习等方面工作的研究生和工程技术人员参考使用。
目录
前言
第1章 深度学习基础1
1.1 深度学习应用举例1
1.1.1 ChatGPT1
1.1.2 图像及视频生成4
1.1.3 古卷轴破译5
1.2 机器学习基础6
1.2.1 机器学习简介与基本概念6
1.2.2 机器学习问题分类7
1.2.3 数据准备和预处理10
1.2.4 构建机器学习模型11
1.2.5 模型训练与评估13
1.2.6 模型泛化能力15
1.3 微积分基础15
1.3.1 微分与导数16
1.3.2 函数近似与泰勒展开16
1.3.3 多元函数及其偏导数16
1.3.4 复合函数及链式法则17
1.4 线性代数基础17
1.4.1 向量17
1.4.2 矩阵18
1.4.3 梯度20
1.4.4 特征分解与奇异值分解20
1.5 概率统计基础21
1.5.1 随机变量21
1.5.2 概率分布21
1.5.3 期望与方差22
1.5.4 条件概率与贝叶斯法则23
1.5.5 极大似然估计23
本章小结24
思考题与习题24
参考文献24
第2章 全连接网络25
2.1 网络结构25
2.1.1 生物神经结构26
2.1.2 隐藏层26
2.2 激活函数27
2.2.1 ReLU函数28
2.2.2 SoftPlus函数28
2.2.3 Sigmoid函数29
2.2.4 tanh函数30
2.2.5 GeLU函数31
2.2.6 其他激活函数31
2.3 损失函数31
2.3.1 均方误差损失32
2.3.2 平均绝对误差损失32
2.3.3 平滑L1损失33
2.3.4 交叉熵损失33
2.3.5 KL散度损失35
2.3.6 其他损失函数35
2.4 反向传播36
2.4.1 标量形式的反向传播36
2.4.2 梯度消失与梯度爆炸37
2.4.3 计算图38
2.4.4 向量形式的反向传播42
2.5 异或问题44
本章小结45
思考题与习题45
参考文献46
第3章 卷积神经网络47
3.1 卷积层47
3.1.1 卷积运算47
3.1.2 卷积的特点50
3.1.3 卷积的数学性50
3.2 其他卷积类型51
3.2.1 转置卷积51
3.2.2 空洞卷积53
3.2.3 分组卷积54
3.2.4 可分离卷积55
3.3 池化层57
3.3.1 平均池化57
3.3.2 最大池化58
3.3.3 最大池化和平均池化的区别59
3.3.4 PyTorch实现59
3.4 卷积层与全连接层比较60
3.5 经典网络结构60
3.5.1 LeNet60
3.5.2 AlexNet61
3.5.3 VGG62
3.5.4 GoogleNet63
3.5.5 ResNet63
3.6 卷积神经网络代码实现64
本章小结65
思考题与习题65
参考文献65
第4章 循环神经网络67
4.1 序列问题67
4.2 循环神经网络结构68
4.2.1 隐状态69
4.2.2 权值共享69
4.2.3 输入与输出编码70
4.2.4 深度循环网络71
4.2.5 双向循环网络72
4.2.6 梯度消失与爆炸73
4.2.7 PyTorch实现74
4.3 门控循环单元74
4.3.1 GRU单元74
4.3.2 PyTorch实现76
4.4 长短时记忆网络76
4.4.1 长短时记忆网络中的门控单元76
4.4.2 LSTM的历史和相关变体78
4.4.3 PyTorch实现79
4.5 编码器-解码器架构81
本章小结81
思考题与习题82
参考文献82
第5章 优化算法83
5.1 训练深度网络的挑战83
5.1.1 凸函数与非凸函数83
5.1.2 局部极小值点与鞍点84
5.1.3 深度学习训练中的其他挑战85
5.2 随机梯度下降85
5.2.1 梯度下降85
5.2.2 随机梯度下降86
5.2.3 小批量SGD88
5.2.4 初始化88
5.2.5 学习率89
5.2.6 梯度截断91
5.3 动量法92
5.3.1 重球法94
5.3.2 指数移动平均94
5.3.3 Nesterov加速法95
5.3.4 PyTorch实现96
5.4 自适应学习率算法97
5.4.1 AdaGrad97
5.4.2 RMSProp98
5.4.3 Adam99
5.4.4 AdamW101
5.5 批量规范化和层规范化102
本章小结104
思考题与习题105
参考文献105
第6章 生成对抗网络与扩散模型107
6.1 生成对抗网络107
6.1.1 什么是生成对抗网络107
6.1.2 生成对抗网络的应用范围108
6.2 生成对抗网络的原理110
6.2.1 生成模型110
6.2.2 判别模型112
6.2.3 训练过程113
6.3 生成对抗网络的可视化与实践114
6.3.1 生成对抗网络训练过程可视化114
6.3.2 生成对抗网络的衍生结构115
6.4 扩散模型116
6.4.1 什么是扩散模型116
6.4.2 扩散模型的使用范围117
6.5 扩散模型的原理117
6.5.1 扩散模型的基础117
6.5.2 扩散模型的核心思想119
6.5.3 扩散模型的数学原理119
6.6 生成对抗网络与扩散模型的结合123
6.6.1 结合的优势123
6.6.2 结合的改进策略124
6.6.3 扩散模型与AIGC应用124
本章小结126
思考题与习题126
参考文献126
第7章 图神经网络127
7.1 图嵌入向量127
7.1.1 节点嵌入127
7.1.2 边嵌入128
7.1.3 图嵌入128
7.1.4 图嵌入方法128
7.2 图生成模型129
7.2.1 一种图生成网络IDGL129
7.2.2 GAN在图上的应用131
7.2.3 基于VAE的图生成模型(GraphVAE)132
7.2.4 基于GAN的图生成模型(GraphGAN)132
7.3 图神经网络方法133
7.3.1 图卷积神经网络133
7.3.2 图注意力网络136
7.3.3 动态图神经网络138
7.3.4 异构图神经网络139
7.3.5 大规模图神经网络训练策略141
7.4 图神经网络设计——以GCN为例142
7.4.1 模型构建142
7.4.2 基于PyTorch的GCN模型实现142
7.4.3 网络训练143
7.5 典型应用举例144
7.5.1 图神经网络用于节点分类144
7.5.2 图神经网络用于链接预测145
7.5.3 图神经网络用于图分类145
7.5.4 图神经网络在推荐系统中的应用145
7.5.5 图神经网络在交通预测中的应用145
7.5.6 图神经网络在计算化学和药物发现中的应用146
7.5.7 图神经网络在社交网络分析中的应用146
本章小结146
思考题与习题146
参考文献147
第8章 Transformer与Mamba架构148
8.1 自注意力机制148
8.1.1 自注意力机制的定义148
8.1.2 自注意力机制的数学逻辑149
8.1.3 多头自注意力149
8.2 Transformer150
8.2.1 定义与原理150
8.2.2 模型结构151
8.2.3 架构分析156
8.3 Vision Transformer157
8.3.1 定义与原理157
8.3.2 模型结构158
8.3.3 架构分析160
8.4 Mamba架构161
8.4.1 定义与原理161
8.4.2 模型结构161
8.4.3 架构分析162
8.5 Vision Mamba163
8.6 性能对比167
8.6.1 Transformer性能分析167
8.6.2 Mamba架构性能分析167
8.6.3 对比与展望168
本章小结168
思考题与习题168
参考文献169
第9章 强化学习170
9.1 有限马尔可夫决策过程170
9.1.1 形式化定义170
9.1.2 策略与值函数171
9.1.3 最优策略与最优值函数172
9.2 深度值函数强化学习172
9.2.1 Q学习算法172
9.2.2 深度Q网络173
9.2.3 DQN的改进算法175
9.3 直接策略搜索方法176
9.3.1 策略梯度算法176
9.3.2 近端策略优化算法177
9.3.3 深度确定性策略梯度算法178
9.4 多智能体强化学习180
9.4.1 多智能体系统的挑战性180
9.4.2 MADDPG算法181
9.4.3 值分解强化学习算法183
9.4.4 MAPPO算法184
9.5 典型应用举例185
9.5.1 可控核聚变185
9.5.2 AlphaGo系列机器人186
9.5.3 AlphaStar187
本章小结188
思考题与习题188
参考文献188
第10章 计算机视觉190
10.1 概述190
10.2 图像分类191
10.2.1 基本概念191
10.2.2 图像分类基本方法195
10.2.3 应用场景200
10.2.4 发展趋势201
10.3 目标检测202
10.3.1 基本概念203
10.3.2 常用数据集204
10.3.3 R-CNN系列模型205
10.3.4 YOLO系列模型207
10.3.5 评价指标209
10.3.6 应用场景209
10.3.7 发展趋势210
10.4 语义分割211
10.4.1 基本概念211
10.4.2 常用数据集211
10.4.3 经典语义分割模型212
10.4.4 评价指标215
10.4.5 应用场景216
10.4.6 发展趋势217
本章小结218
思考题与习题218
参考文献218
第11章 自然语言处理220
11.1 概述220
11.2 NLP问题简介223
11.2.1 自然语言理解223
11.2.2 自然语言生成225
11.3 词嵌入226
11.3.1 预训练226
11.3.2 Word2Vec228
11.3.3 负采样229
11.4 情感分析230
11.4.1 情感分析及数据预处理231
11.4.2 使用循环神经网络233
11.4.3 使用卷积神经网络236
11.4.4 使用Transformer238
11.5 NLP应用——聊天机器人240
11.5.1 问答系统简介240
11.5.2 基于大语言模型的聊天机器人实践242
本章小结249
思考题与习题249
参考文献250
第12章 大语言模型251
12.1 BERT模型 251
12.1.1 BERT模型架构251
12.1.2 BERT预训练技术253
12.1.3 用BERT表示文本253
12.2 GPT模型254
12.2.1 GPT模型架构254
12.2.2 GPT预训练254
12.2.3 GPT1到GPT4的联系与区别255
12.3 大语言模型微调方法255
12.3.1 提示词调优256
12.3.2 前缀调优256
12.3.3 LoRA257
12.3.4 适配器调优257
12.4 多模态语言大模型258
12.4.1 模型架构259
12.4.2 多模态大模型训练260
12.4.3 多模态语言大模型实例260
12.5 大语言模型驱动的智能体系统261
12.5.1 AI Agent架构262
12.5.2 推理关键技术262
12.5.3 智能系统实例266
本章小结267
思考题与习题267
参考文献268
第1章 深度学习基础1
1.1 深度学习应用举例1
1.1.1 ChatGPT1
1.1.2 图像及视频生成4
1.1.3 古卷轴破译5
1.2 机器学习基础6
1.2.1 机器学习简介与基本概念6
1.2.2 机器学习问题分类7
1.2.3 数据准备和预处理10
1.2.4 构建机器学习模型11
1.2.5 模型训练与评估13
1.2.6 模型泛化能力15
1.3 微积分基础15
1.3.1 微分与导数16
1.3.2 函数近似与泰勒展开16
1.3.3 多元函数及其偏导数16
1.3.4 复合函数及链式法则17
1.4 线性代数基础17
1.4.1 向量17
1.4.2 矩阵18
1.4.3 梯度20
1.4.4 特征分解与奇异值分解20
1.5 概率统计基础21
1.5.1 随机变量21
1.5.2 概率分布21
1.5.3 期望与方差22
1.5.4 条件概率与贝叶斯法则23
1.5.5 极大似然估计23
本章小结24
思考题与习题24
参考文献24
第2章 全连接网络25
2.1 网络结构25
2.1.1 生物神经结构26
2.1.2 隐藏层26
2.2 激活函数27
2.2.1 ReLU函数28
2.2.2 SoftPlus函数28
2.2.3 Sigmoid函数29
2.2.4 tanh函数30
2.2.5 GeLU函数31
2.2.6 其他激活函数31
2.3 损失函数31
2.3.1 均方误差损失32
2.3.2 平均绝对误差损失32
2.3.3 平滑L1损失33
2.3.4 交叉熵损失33
2.3.5 KL散度损失35
2.3.6 其他损失函数35
2.4 反向传播36
2.4.1 标量形式的反向传播36
2.4.2 梯度消失与梯度爆炸37
2.4.3 计算图38
2.4.4 向量形式的反向传播42
2.5 异或问题44
本章小结45
思考题与习题45
参考文献46
第3章 卷积神经网络47
3.1 卷积层47
3.1.1 卷积运算47
3.1.2 卷积的特点50
3.1.3 卷积的数学性50
3.2 其他卷积类型51
3.2.1 转置卷积51
3.2.2 空洞卷积53
3.2.3 分组卷积54
3.2.4 可分离卷积55
3.3 池化层57
3.3.1 平均池化57
3.3.2 最大池化58
3.3.3 最大池化和平均池化的区别59
3.3.4 PyTorch实现59
3.4 卷积层与全连接层比较60
3.5 经典网络结构60
3.5.1 LeNet60
3.5.2 AlexNet61
3.5.3 VGG62
3.5.4 GoogleNet63
3.5.5 ResNet63
3.6 卷积神经网络代码实现64
本章小结65
思考题与习题65
参考文献65
第4章 循环神经网络67
4.1 序列问题67
4.2 循环神经网络结构68
4.2.1 隐状态69
4.2.2 权值共享69
4.2.3 输入与输出编码70
4.2.4 深度循环网络71
4.2.5 双向循环网络72
4.2.6 梯度消失与爆炸73
4.2.7 PyTorch实现74
4.3 门控循环单元74
4.3.1 GRU单元74
4.3.2 PyTorch实现76
4.4 长短时记忆网络76
4.4.1 长短时记忆网络中的门控单元76
4.4.2 LSTM的历史和相关变体78
4.4.3 PyTorch实现79
4.5 编码器-解码器架构81
本章小结81
思考题与习题82
参考文献82
第5章 优化算法83
5.1 训练深度网络的挑战83
5.1.1 凸函数与非凸函数83
5.1.2 局部极小值点与鞍点84
5.1.3 深度学习训练中的其他挑战85
5.2 随机梯度下降85
5.2.1 梯度下降85
5.2.2 随机梯度下降86
5.2.3 小批量SGD88
5.2.4 初始化88
5.2.5 学习率89
5.2.6 梯度截断91
5.3 动量法92
5.3.1 重球法94
5.3.2 指数移动平均94
5.3.3 Nesterov加速法95
5.3.4 PyTorch实现96
5.4 自适应学习率算法97
5.4.1 AdaGrad97
5.4.2 RMSProp98
5.4.3 Adam99
5.4.4 AdamW101
5.5 批量规范化和层规范化102
本章小结104
思考题与习题105
参考文献105
第6章 生成对抗网络与扩散模型107
6.1 生成对抗网络107
6.1.1 什么是生成对抗网络107
6.1.2 生成对抗网络的应用范围108
6.2 生成对抗网络的原理110
6.2.1 生成模型110
6.2.2 判别模型112
6.2.3 训练过程113
6.3 生成对抗网络的可视化与实践114
6.3.1 生成对抗网络训练过程可视化114
6.3.2 生成对抗网络的衍生结构115
6.4 扩散模型116
6.4.1 什么是扩散模型116
6.4.2 扩散模型的使用范围117
6.5 扩散模型的原理117
6.5.1 扩散模型的基础117
6.5.2 扩散模型的核心思想119
6.5.3 扩散模型的数学原理119
6.6 生成对抗网络与扩散模型的结合123
6.6.1 结合的优势123
6.6.2 结合的改进策略124
6.6.3 扩散模型与AIGC应用124
本章小结126
思考题与习题126
参考文献126
第7章 图神经网络127
7.1 图嵌入向量127
7.1.1 节点嵌入127
7.1.2 边嵌入128
7.1.3 图嵌入128
7.1.4 图嵌入方法128
7.2 图生成模型129
7.2.1 一种图生成网络IDGL129
7.2.2 GAN在图上的应用131
7.2.3 基于VAE的图生成模型(GraphVAE)132
7.2.4 基于GAN的图生成模型(GraphGAN)132
7.3 图神经网络方法133
7.3.1 图卷积神经网络133
7.3.2 图注意力网络136
7.3.3 动态图神经网络138
7.3.4 异构图神经网络139
7.3.5 大规模图神经网络训练策略141
7.4 图神经网络设计——以GCN为例142
7.4.1 模型构建142
7.4.2 基于PyTorch的GCN模型实现142
7.4.3 网络训练143
7.5 典型应用举例144
7.5.1 图神经网络用于节点分类144
7.5.2 图神经网络用于链接预测145
7.5.3 图神经网络用于图分类145
7.5.4 图神经网络在推荐系统中的应用145
7.5.5 图神经网络在交通预测中的应用145
7.5.6 图神经网络在计算化学和药物发现中的应用146
7.5.7 图神经网络在社交网络分析中的应用146
本章小结146
思考题与习题146
参考文献147
第8章 Transformer与Mamba架构148
8.1 自注意力机制148
8.1.1 自注意力机制的定义148
8.1.2 自注意力机制的数学逻辑149
8.1.3 多头自注意力149
8.2 Transformer150
8.2.1 定义与原理150
8.2.2 模型结构151
8.2.3 架构分析156
8.3 Vision Transformer157
8.3.1 定义与原理157
8.3.2 模型结构158
8.3.3 架构分析160
8.4 Mamba架构161
8.4.1 定义与原理161
8.4.2 模型结构161
8.4.3 架构分析162
8.5 Vision Mamba163
8.6 性能对比167
8.6.1 Transformer性能分析167
8.6.2 Mamba架构性能分析167
8.6.3 对比与展望168
本章小结168
思考题与习题168
参考文献169
第9章 强化学习170
9.1 有限马尔可夫决策过程170
9.1.1 形式化定义170
9.1.2 策略与值函数171
9.1.3 最优策略与最优值函数172
9.2 深度值函数强化学习172
9.2.1 Q学习算法172
9.2.2 深度Q网络173
9.2.3 DQN的改进算法175
9.3 直接策略搜索方法176
9.3.1 策略梯度算法176
9.3.2 近端策略优化算法177
9.3.3 深度确定性策略梯度算法178
9.4 多智能体强化学习180
9.4.1 多智能体系统的挑战性180
9.4.2 MADDPG算法181
9.4.3 值分解强化学习算法183
9.4.4 MAPPO算法184
9.5 典型应用举例185
9.5.1 可控核聚变185
9.5.2 AlphaGo系列机器人186
9.5.3 AlphaStar187
本章小结188
思考题与习题188
参考文献188
第10章 计算机视觉190
10.1 概述190
10.2 图像分类191
10.2.1 基本概念191
10.2.2 图像分类基本方法195
10.2.3 应用场景200
10.2.4 发展趋势201
10.3 目标检测202
10.3.1 基本概念203
10.3.2 常用数据集204
10.3.3 R-CNN系列模型205
10.3.4 YOLO系列模型207
10.3.5 评价指标209
10.3.6 应用场景209
10.3.7 发展趋势210
10.4 语义分割211
10.4.1 基本概念211
10.4.2 常用数据集211
10.4.3 经典语义分割模型212
10.4.4 评价指标215
10.4.5 应用场景216
10.4.6 发展趋势217
本章小结218
思考题与习题218
参考文献218
第11章 自然语言处理220
11.1 概述220
11.2 NLP问题简介223
11.2.1 自然语言理解223
11.2.2 自然语言生成225
11.3 词嵌入226
11.3.1 预训练226
11.3.2 Word2Vec228
11.3.3 负采样229
11.4 情感分析230
11.4.1 情感分析及数据预处理231
11.4.2 使用循环神经网络233
11.4.3 使用卷积神经网络236
11.4.4 使用Transformer238
11.5 NLP应用——聊天机器人240
11.5.1 问答系统简介240
11.5.2 基于大语言模型的聊天机器人实践242
本章小结249
思考题与习题249
参考文献250
第12章 大语言模型251
12.1 BERT模型 251
12.1.1 BERT模型架构251
12.1.2 BERT预训练技术253
12.1.3 用BERT表示文本253
12.2 GPT模型254
12.2.1 GPT模型架构254
12.2.2 GPT预训练254
12.2.3 GPT1到GPT4的联系与区别255
12.3 大语言模型微调方法255
12.3.1 提示词调优256
12.3.2 前缀调优256
12.3.3 LoRA257
12.3.4 适配器调优257
12.4 多模态语言大模型258
12.4.1 模型架构259
12.4.2 多模态大模型训练260
12.4.3 多模态语言大模型实例260
12.5 大语言模型驱动的智能体系统261
12.5.1 AI Agent架构262
12.5.2 推理关键技术262
12.5.3 智能系统实例266
本章小结267
思考题与习题267
参考文献268