大模型十讲 / 计算机科学前沿丛书,十讲系列
定价:¥99.00
作者: 李崇轩
出版时间:2025-09-11
出版社:机械工业出版社
- 机械工业出版社
- 9787111785552
- 1-1
- 562160
- 平装
- 2025-09-11
- 395
内容简介
大模型通过在海量数据上进行学习得到通用知识和模式,在自然语言处理、计算机视觉和强化学习等领域表现出强大的通用性和迁移学习能力,BERT、GPT、Stable Diffusion、Sora等功能强大的模型引发了广泛的关注。大模型可能是人工智能领域的颠覆性新范式,因此应当作为计算机、人工智能相关方向的研究生教学的一个重要内容。本书共十讲,按照基本原理、预训练技术、重要应用三个层面展开,从生成模型、自监督学习、强化学习的基本原理出发,系统介绍大语言模型、多模态大模型、决策大模型的预训练技术,以及衍生的自主智能体和世界模拟器等重要应用。本书适合作为计算机、人工智能方向高年级本科生、研究生的教材,也适合作为人工智能领域研究人员和从业人员的参考书。
目录
前言
第 1 讲 绪论 /1
1.1 概述 /2
1.1.1 大模型前的人工智能历史 /2
1.1.2 大模型的起源 /5
1.1.3 大模型的特点 /7
1.2 大模型的理论基础、技术与前沿应用 /8
1.2.1 大模型的理论基础 /9
1.2.2 大模型的训练技术 /12
1.2.3 大模型的扩展与前沿应用 /14
1.3 大模型的发展展望 /16
1.3.1 大模型的应用前景 /16
1.3.2 大模型的未来研究方向 /17
参考文献 /19
第 2 讲 生成模型 /23
2.1 生成模型概述 /24
2.1.1 三个基本问题 /25
大模型十讲
2.1.2 深度生成模型 /27
2.2 自回归模型 /28
2.2.1 自回归模型的表示 /28
2.2.2 自回归模型的学习 /31
2.2.3 自回归模型的推断 /32
2.3 变分自编码器 /33
2.3.1 变分自编码器的表示 /33
2.3.2 变分自编码器的学习 /34
2.3.3 变分自编码器的推断 /37
2.4 扩散概率模型 /38
2.4.1 扩散概率模型的表示 /38
2.4.2 扩散概率模型的学习 /40
2.4.3 扩散概率模型的推断 /43
2.5 生成对抗网络 /44
2.5.1 生成对抗网络的表示 /44
2.5.2 生成对抗网络的学习 /45
2.5.3 生成对抗网络的推断 /46
2.6 本讲小结 /47
2.7 延伸阅读 /48
2.8 课后习题 /48
参考文献 /49
第 3 讲 自监督学习 /53
3.1 自监督模型概述 /54
vi
目 录
3.1.1 自监督学习的由来 /54
3.1.2 两个基本问题 /56
3.2 自我预测 /58
3.2.1 自编码器 /59
3.2.2 掩码预测 /65
3.2.3 其他自我预测的方法 /72
3.3 对比学习 /73
3.3.1 噪声对比估计的基本原理 /74
3.3.2 对比预测编码 /75
3.3.3 对比检索器 /78
3.4 本讲小结 /81
3.5 延伸阅读 /81
3.6 课后习题 /82
参考文献 /82
第 4 讲 强化学习 /85
4.1 决策式人工智能 /86
4.1.1 预测、生成与决策 /86
4.1.2 决策式任务分类 /87
4.1.3 序贯决策 /88
4.2 强化学习的基本概念 /89
4.2.1 什么是强化学习 /89
4.2.2 强化学习的环境建模:马尔可夫决策过程 /90
4.2.3 智能体策略、价值与优化目标 /91
vii
大模型十讲
4.2.4 强化学习中的数据分布 /92
4.2.5 探索与利用 /93
4.3 表格式强化学习 /94
4.3.1 动态规划方法 /94
4.3.2 无模型的强化学习方法 /96
4.4 基于参数化函数的近似 /98
4.4.1 参数化的价值函数 /98
4.4.2 参数化的策略 /99
4.4.3 ActorCritic
方法 /100
4.5 深度强化学习 /102
4.5.1 深度学习和强化学习的结合 /102
4.5.2 深度价值函数 /103
4.5.3 深度策略方法 /104
4.6 延伸阅读 /106
4.6.1 强化学习的启示 /106
4.6.2 强化学习技术落地挑战 /107
4.7 课后习题 /108
参考文献 /110
第 5 讲 预训练模型基础 /113
5.1 预训练模型概述 /114
5.2 模型架构 /115
5.2.1 简单神经网络 /115
5.2.2 循环神经网络 /116
viii
目 录
5.2.3 Transformer /119
5.3 预训练任务 /128
5.3.1 语言模型类任务 /129
5.3.2 对比学习类任务 /131
5.4 典型预训练模型 /132
5.4.1 Word2vec /133
5.4.2 ELMo /134
5.4.3 BERT /135
5.4.4 GPT /136
5.4.5 T5 /137
5.5 本讲小结 /139
5.6 延伸阅读 /139
5.7 课后习题 /140
参考文献 /141
第 6 讲 大语言模型 /145
6.1 大语言模型概述 /146
6.2 大语言模型的动机 /147
6.2.1 扩展定律 /147
6.2.2 能力涌现 /148
6.3 大语言模型的调优 /149
6.3.1 指令调优 /150
6.3.2 对齐调优 /153
6.4 典型大语言模型 /158
ix
大模型十讲
6.5 大语言模型的问题 /160
6.5.1 幻觉 /160
6.5.2 安全 /165
6.5.3 其他问题 /169
6.6 本讲小结 /170
6.7 延伸阅读 /171
6.8 课后习题 /172
参考文献 /173
第 7 讲 多模态大模型 /187
7.1 图文对齐模型 /188
7.1.1 双流模型 /188
7.1.2 单流模型 /192
7.1.3 混合模型 /195
7.2 文到图生成模型 /197
7.2.1 基于生成对抗网络架构的方法 /198
7.2.2 基于 Transformer 架构的方法 /201
7.2.3 基于扩散模型架构的方法 /202
7.3 多模态生成与对话模型 /205
7.3.1 多模态信息理解 /205
7.3.2 多模态内容生成 /210
7.4 本讲小结 /212
7.5 延伸阅读 /212
7.6 课后习题 /213
x
目 录
参考文献 /214
第 8 讲 决策大模型 /219
8.1 决策任务与大模型 /220
8.1.1 基于 Transformer 架构的强化学习 /220
8.1.2 决策任务的知识模态 /222
8.1.3 面向大模型的决策任务学习范式 /223
8.2 决策策略的表示学习 /225
8.2.1 决策序列数据的离散化 /225
8.2.2 状态 --动作的表示学习 /227
8.2.3 奖励的表示学习 /229
8.3 策略学习 /232
8.3.1 离线策略学习 /233
8.3.2 在线策略学习 /233
8.3.3 多智能体策略学习 /234
8.4 预训练大模型与强化学习 /235
8.4.1 大模型辅助的层次化任务分解 /235
8.4.2 工具使用的策略优化 /236
8.4.3 基于强化反馈的大模型推理增强 /236
8.5 本讲小结 /237
8.6 延伸阅读 /238
8.7 课后习题 /240
参考文献 /241
xi
大模型十讲
第 9 讲 大语言模型的适配技术与自主智能体 /245
9.1 参数微调 /246
9.1.1 全参数微调 /246
9.1.2 高效参数微调 /248
9.2 提示学习 /255
9.2.1 任务指令设计 /257
9.2.2 任务映射方式设计 /258
9.2.3 思维链推理提示 /259
9.3 大模型自主智能体与工具学习 /263
9.3.1 大模型自主智能体构建 /263
9.3.2 大模型自主智能体应用 /273
9.4 本讲小结 /276
9.5 延伸阅读 /276
9.6 课后习题 /277
参考文献 /278
第 10 讲 多模态大模型的扩展与世界模拟器 /285
10.1 图像可控生成与编辑 /286
10.1.1 图到图翻译 /287
10.1.2 个性化生成 /292
10.1.3 引入额外控制条件 /294
10.1.4 交互式拖拽生成 /295
10.2 文到视频生成 /297
xii
目 录
10.2.1 基于文到图模型的视频生成与编辑 /298
10.2.2 文到视频基础模型 /300
10.3 文到三维内容生成 /304
10.3.1 三维内容的表示与渲染 /305
10.3.2 基于文到图模型的零样本三维内容生成 /307
10.3.3 基于文到图模型的多视图生成 /310
10.3.4 文到三维内容的基础模型 /311
10.4 本讲小结 /313
10.5 延伸阅读 /314
10.6 课后习题 /314
参考文献 /315
第 1 讲 绪论 /1
1.1 概述 /2
1.1.1 大模型前的人工智能历史 /2
1.1.2 大模型的起源 /5
1.1.3 大模型的特点 /7
1.2 大模型的理论基础、技术与前沿应用 /8
1.2.1 大模型的理论基础 /9
1.2.2 大模型的训练技术 /12
1.2.3 大模型的扩展与前沿应用 /14
1.3 大模型的发展展望 /16
1.3.1 大模型的应用前景 /16
1.3.2 大模型的未来研究方向 /17
参考文献 /19
第 2 讲 生成模型 /23
2.1 生成模型概述 /24
2.1.1 三个基本问题 /25
大模型十讲
2.1.2 深度生成模型 /27
2.2 自回归模型 /28
2.2.1 自回归模型的表示 /28
2.2.2 自回归模型的学习 /31
2.2.3 自回归模型的推断 /32
2.3 变分自编码器 /33
2.3.1 变分自编码器的表示 /33
2.3.2 变分自编码器的学习 /34
2.3.3 变分自编码器的推断 /37
2.4 扩散概率模型 /38
2.4.1 扩散概率模型的表示 /38
2.4.2 扩散概率模型的学习 /40
2.4.3 扩散概率模型的推断 /43
2.5 生成对抗网络 /44
2.5.1 生成对抗网络的表示 /44
2.5.2 生成对抗网络的学习 /45
2.5.3 生成对抗网络的推断 /46
2.6 本讲小结 /47
2.7 延伸阅读 /48
2.8 课后习题 /48
参考文献 /49
第 3 讲 自监督学习 /53
3.1 自监督模型概述 /54
vi
目 录
3.1.1 自监督学习的由来 /54
3.1.2 两个基本问题 /56
3.2 自我预测 /58
3.2.1 自编码器 /59
3.2.2 掩码预测 /65
3.2.3 其他自我预测的方法 /72
3.3 对比学习 /73
3.3.1 噪声对比估计的基本原理 /74
3.3.2 对比预测编码 /75
3.3.3 对比检索器 /78
3.4 本讲小结 /81
3.5 延伸阅读 /81
3.6 课后习题 /82
参考文献 /82
第 4 讲 强化学习 /85
4.1 决策式人工智能 /86
4.1.1 预测、生成与决策 /86
4.1.2 决策式任务分类 /87
4.1.3 序贯决策 /88
4.2 强化学习的基本概念 /89
4.2.1 什么是强化学习 /89
4.2.2 强化学习的环境建模:马尔可夫决策过程 /90
4.2.3 智能体策略、价值与优化目标 /91
vii
大模型十讲
4.2.4 强化学习中的数据分布 /92
4.2.5 探索与利用 /93
4.3 表格式强化学习 /94
4.3.1 动态规划方法 /94
4.3.2 无模型的强化学习方法 /96
4.4 基于参数化函数的近似 /98
4.4.1 参数化的价值函数 /98
4.4.2 参数化的策略 /99
4.4.3 ActorCritic
方法 /100
4.5 深度强化学习 /102
4.5.1 深度学习和强化学习的结合 /102
4.5.2 深度价值函数 /103
4.5.3 深度策略方法 /104
4.6 延伸阅读 /106
4.6.1 强化学习的启示 /106
4.6.2 强化学习技术落地挑战 /107
4.7 课后习题 /108
参考文献 /110
第 5 讲 预训练模型基础 /113
5.1 预训练模型概述 /114
5.2 模型架构 /115
5.2.1 简单神经网络 /115
5.2.2 循环神经网络 /116
viii
目 录
5.2.3 Transformer /119
5.3 预训练任务 /128
5.3.1 语言模型类任务 /129
5.3.2 对比学习类任务 /131
5.4 典型预训练模型 /132
5.4.1 Word2vec /133
5.4.2 ELMo /134
5.4.3 BERT /135
5.4.4 GPT /136
5.4.5 T5 /137
5.5 本讲小结 /139
5.6 延伸阅读 /139
5.7 课后习题 /140
参考文献 /141
第 6 讲 大语言模型 /145
6.1 大语言模型概述 /146
6.2 大语言模型的动机 /147
6.2.1 扩展定律 /147
6.2.2 能力涌现 /148
6.3 大语言模型的调优 /149
6.3.1 指令调优 /150
6.3.2 对齐调优 /153
6.4 典型大语言模型 /158
ix
大模型十讲
6.5 大语言模型的问题 /160
6.5.1 幻觉 /160
6.5.2 安全 /165
6.5.3 其他问题 /169
6.6 本讲小结 /170
6.7 延伸阅读 /171
6.8 课后习题 /172
参考文献 /173
第 7 讲 多模态大模型 /187
7.1 图文对齐模型 /188
7.1.1 双流模型 /188
7.1.2 单流模型 /192
7.1.3 混合模型 /195
7.2 文到图生成模型 /197
7.2.1 基于生成对抗网络架构的方法 /198
7.2.2 基于 Transformer 架构的方法 /201
7.2.3 基于扩散模型架构的方法 /202
7.3 多模态生成与对话模型 /205
7.3.1 多模态信息理解 /205
7.3.2 多模态内容生成 /210
7.4 本讲小结 /212
7.5 延伸阅读 /212
7.6 课后习题 /213
x
目 录
参考文献 /214
第 8 讲 决策大模型 /219
8.1 决策任务与大模型 /220
8.1.1 基于 Transformer 架构的强化学习 /220
8.1.2 决策任务的知识模态 /222
8.1.3 面向大模型的决策任务学习范式 /223
8.2 决策策略的表示学习 /225
8.2.1 决策序列数据的离散化 /225
8.2.2 状态 --动作的表示学习 /227
8.2.3 奖励的表示学习 /229
8.3 策略学习 /232
8.3.1 离线策略学习 /233
8.3.2 在线策略学习 /233
8.3.3 多智能体策略学习 /234
8.4 预训练大模型与强化学习 /235
8.4.1 大模型辅助的层次化任务分解 /235
8.4.2 工具使用的策略优化 /236
8.4.3 基于强化反馈的大模型推理增强 /236
8.5 本讲小结 /237
8.6 延伸阅读 /238
8.7 课后习题 /240
参考文献 /241
xi
大模型十讲
第 9 讲 大语言模型的适配技术与自主智能体 /245
9.1 参数微调 /246
9.1.1 全参数微调 /246
9.1.2 高效参数微调 /248
9.2 提示学习 /255
9.2.1 任务指令设计 /257
9.2.2 任务映射方式设计 /258
9.2.3 思维链推理提示 /259
9.3 大模型自主智能体与工具学习 /263
9.3.1 大模型自主智能体构建 /263
9.3.2 大模型自主智能体应用 /273
9.4 本讲小结 /276
9.5 延伸阅读 /276
9.6 课后习题 /277
参考文献 /278
第 10 讲 多模态大模型的扩展与世界模拟器 /285
10.1 图像可控生成与编辑 /286
10.1.1 图到图翻译 /287
10.1.2 个性化生成 /292
10.1.3 引入额外控制条件 /294
10.1.4 交互式拖拽生成 /295
10.2 文到视频生成 /297
xii
目 录
10.2.1 基于文到图模型的视频生成与编辑 /298
10.2.2 文到视频基础模型 /300
10.3 文到三维内容生成 /304
10.3.1 三维内容的表示与渲染 /305
10.3.2 基于文到图模型的零样本三维内容生成 /307
10.3.3 基于文到图模型的多视图生成 /310
10.3.4 文到三维内容的基础模型 /311
10.4 本讲小结 /313
10.5 延伸阅读 /314
10.6 课后习题 /314
参考文献 /315