- 电子工业出版社
- 9787121508912
- 1-1
- 568534
- 平塑
- 16开
- 2025-09
- 656
- 416
- 工学
- 计算机类
- 计算机科学与技术
- 本科 高职 研究生及以上
内容简介
大语言模型(Large Language Model,LLM)是人工智能领域研究和应用的前沿焦点,现已成为人工智能发展的新方向和新一代人工智能的基础设施。本书较系统地介绍了语言大模型的基本内容,主要包括发展语言大模型的三次热潮、深度学习基础、注意力机制、残差链接与逐层归一化、Transformer模型、预训练语言模型、LLM结构与训练、迁移学习、人类反馈强化学习、元学习、GPT系列LLM、BERT模型、T5模型、统一语言模型和提示工程等。 本书适合作为本科院校相关专业的教材。
目录
目 录
第1章 大语言模型概述 1
1.1 LLM的产生与发展 1
1.1.1 LLM的产生 2
1.1.2 LLM的发展 2
1.2 LLM的特点与分类 4
1.2.1 LLM的特点 4
1.2.2 LLM的分类 5
1.3 自然语言处理与LLM 6
1.3.1 自然语言处理 6
1.3.2 LLM的主要功能 9
1.3.3 LLM扩展法则 10
1.3.4 LLM的涌现现象与涌现能力 12
1.4 LLM技术 13
1.4.1 LLM基本技术 13
1.4.2 LLM关键技术 14
1.4.3 LLM知识体系与人工智能引擎 16
1.4.4 LLM的评价指标 19
1.5 LLM应用场景与LLM下游任务 19
1.5.1 LLM应用场景 20
1.5.2 LLM下游任务 20
1.5.3 LLM应用场景与LLM下游任务的区别 20
本章小结 20
第2章 深度学习基础 21
2.1 深度学习概述 21
2.1.1 深度学习的产生与发展 21
2.1.2 深度学习的内涵与外延 22
2.2 机器学习方式 24
2.2.1 监督式学习方式 25
2.2.2 无监督式学习方式 27
2.2.3 半监督式学习方式 27
2.2.4 强化学习方式 28
2.3 增强泛化能力方法 28
2.3.1 泛化能力与泛化误差 28
2.3.2 拟合 29
2.3.3 逼近正确拟合的方法 29
2.3.4 超参数和验证集 31
2.4 神经网络模型基础 33
2.4.1 神经网络模型及特点 33
2.4.2 学习方式与学习规则 39
2.4.3 神经网络学习原理 47
2.5 深度学习 48
2.5.1 神经网络与深度学习 48
2.5.2 深度学习在LLM中的应用 51
2.6 模型评价指标 52
2.6.1 混淆矩阵 52
2.6.2 评价模型的主要参数 53
本章小结 55
第3章 注意力机制 56
3.1 编码器?解码器架构 56
3.1.1 编码器功能与解码器功能 57
3.1.2 编码器?解码器框架 57
3.1.3 序列到序列模型 61
3.2 注意力机制特点与计算 63
3.2.1 注意力机制特点 63
3.2.2 注意力机制的计算过程 64
3.3 自注意力模型 67
3.3.1 自注意力机制的核心思想 67
3.3.2 自注意力模型计算 67
3.3.3 注意力机制与自注意力机制比较 71
3.3.4 多头注意力计算 71
3.4 NLP注意力机制 74
3.4.1 软注意力机制 74
3.4.2 硬注意力机制 75
3.4.3 局部注意力机制 77
3.4.4 点积注意力机制 78
3.4.5 加性注意力机制 79
3.4.6 稀疏注意力机制 80
3.5 注意力机制与编码器?解码器结构 81
3.5.1 在编码器?解码器中引入注意力机制 81
3.5.2 注意力机制的优势与应用场景 82
本章小结 83
第4章 残差连接与逐层归一化 84
4.1 逐层归一化 84
4.1.1 BN的计算过程与训练 85
4.1.2 BN层的作用 86
4.2 残差与残差分析 87
4.2.1 残差 87
4.2.2 残差分析 88
4.3 残差模块 89
4.3.1 残差模块的结构 89
4.3.2 残差模块的类型 91
4.3.3 残差模块的优势 93
4.4 逐层归一化与残差连接在LLM中的应用 94
4.4.1 逐层归一化在LLM中的应用 94
4.4.2 残差连接在LLM中的应用 94
本章小结 95
第5章 Transformer模型 96
5.1 Transformer模型术语与特点 96
5.1.1 Transformer模型术语 96
5.1.2 Transformer模型特点 97
5.2 Transformer模型结构 97
5.2.1 Transformer模型架构 98
5.2.2 Transformer模型位置向量 98
5.2.3 Transformer模型编码器 101
5.2.4 Transformer模型解码器 106
5.2.5 基于Transformer模型的机器翻译 114
5.3 Transformer模型推理与训练 117
5.3.1 Transformer模型推理 117
5.3.2 Transformer模型训练所涉及的结构 119
5.3.3 Transformer模型训练关键步骤 123
5.3.4 Transformer模型并行训练与测试 124
5.4 Transformer-XL模型 126
5.4.1 长文本问题与解决策略 126
5.4.2 Transformer-XL模型技术 127
本章小结 135
第6章 预训练语言模型 137
6.1 PLM特点、结构与分类 138
6.1.1 PLM特点 138
6.1.2 PLM结构 140
6.1.3 PLM分类 141
6.2 自回归语言模型 142
6.2.1 自回归语言模型原理 142
6.2.2 自回归语言模型结构 143
6.2.3 解码器自回归语言模型构建过程 144
6.2.4 训练和推理的局限性 145
6.3 自编码语言模型 145
6.3.1 自编码语言模型原理 145
6.3.2 自编码语言模型结构 145
6.3.3 自编码语言模型训练 146
6.4 编码器?解码器预训练语言模型 146
6.4.1 编码器?解码器预训练语言模型原理 146
6.4.2 编码器?解码器预训练语言模型结构 148
6.5 前缀语言模型 148
6.5.1 前缀语言模型原理 148
6.5.2 前缀语言模型结构 149
6.6 排列语言模型 150
6.6.1 排列语言模型原理 151
6.6.2 排列语言模型结构 151
6.6.3 排列语言模型的特点与应用 153
6.6.4 排列语言模型结构比较 153
6.7 PLM训练 153
6.7.1 预训练过程与作用 154
6.7.2 预训练策略 156
6.7.3 预训练与微调比较 158
6.8 PLM微调 158
6.8.1 微调方法分类 158
6.8.2 高效微调 159
6.8.3 P-Tuning微调 160
6.8.4 指令微调 161
6.8.5 LoRA微调 163
6.8.6 前缀调优 165
6.8.7 Prompt微调 166
6.8.8 RLHF微调 170
6.8.9 微调输出层 171
6.9 PLM应用方法 172
6.9.1 PLM的应用过程 172
6.9.2 应用于文本生成过程 173
本章小结 174
第7章 LLM结构与训练 175
7.1 LLM结构 175
7.1.1 LLM架构 175
7.1.2 LLM架构选择 177
7.1.3 LLM构建 178
7.1.4 LLM评估 179
7.2 LLM结构优化 181
7.2.1 LLM优化目标 181
7.2.2 LLM优化部分介绍 182__eo
第1章 大语言模型概述 1
1.1 LLM的产生与发展 1
1.1.1 LLM的产生 2
1.1.2 LLM的发展 2
1.2 LLM的特点与分类 4
1.2.1 LLM的特点 4
1.2.2 LLM的分类 5
1.3 自然语言处理与LLM 6
1.3.1 自然语言处理 6
1.3.2 LLM的主要功能 9
1.3.3 LLM扩展法则 10
1.3.4 LLM的涌现现象与涌现能力 12
1.4 LLM技术 13
1.4.1 LLM基本技术 13
1.4.2 LLM关键技术 14
1.4.3 LLM知识体系与人工智能引擎 16
1.4.4 LLM的评价指标 19
1.5 LLM应用场景与LLM下游任务 19
1.5.1 LLM应用场景 20
1.5.2 LLM下游任务 20
1.5.3 LLM应用场景与LLM下游任务的区别 20
本章小结 20
第2章 深度学习基础 21
2.1 深度学习概述 21
2.1.1 深度学习的产生与发展 21
2.1.2 深度学习的内涵与外延 22
2.2 机器学习方式 24
2.2.1 监督式学习方式 25
2.2.2 无监督式学习方式 27
2.2.3 半监督式学习方式 27
2.2.4 强化学习方式 28
2.3 增强泛化能力方法 28
2.3.1 泛化能力与泛化误差 28
2.3.2 拟合 29
2.3.3 逼近正确拟合的方法 29
2.3.4 超参数和验证集 31
2.4 神经网络模型基础 33
2.4.1 神经网络模型及特点 33
2.4.2 学习方式与学习规则 39
2.4.3 神经网络学习原理 47
2.5 深度学习 48
2.5.1 神经网络与深度学习 48
2.5.2 深度学习在LLM中的应用 51
2.6 模型评价指标 52
2.6.1 混淆矩阵 52
2.6.2 评价模型的主要参数 53
本章小结 55
第3章 注意力机制 56
3.1 编码器?解码器架构 56
3.1.1 编码器功能与解码器功能 57
3.1.2 编码器?解码器框架 57
3.1.3 序列到序列模型 61
3.2 注意力机制特点与计算 63
3.2.1 注意力机制特点 63
3.2.2 注意力机制的计算过程 64
3.3 自注意力模型 67
3.3.1 自注意力机制的核心思想 67
3.3.2 自注意力模型计算 67
3.3.3 注意力机制与自注意力机制比较 71
3.3.4 多头注意力计算 71
3.4 NLP注意力机制 74
3.4.1 软注意力机制 74
3.4.2 硬注意力机制 75
3.4.3 局部注意力机制 77
3.4.4 点积注意力机制 78
3.4.5 加性注意力机制 79
3.4.6 稀疏注意力机制 80
3.5 注意力机制与编码器?解码器结构 81
3.5.1 在编码器?解码器中引入注意力机制 81
3.5.2 注意力机制的优势与应用场景 82
本章小结 83
第4章 残差连接与逐层归一化 84
4.1 逐层归一化 84
4.1.1 BN的计算过程与训练 85
4.1.2 BN层的作用 86
4.2 残差与残差分析 87
4.2.1 残差 87
4.2.2 残差分析 88
4.3 残差模块 89
4.3.1 残差模块的结构 89
4.3.2 残差模块的类型 91
4.3.3 残差模块的优势 93
4.4 逐层归一化与残差连接在LLM中的应用 94
4.4.1 逐层归一化在LLM中的应用 94
4.4.2 残差连接在LLM中的应用 94
本章小结 95
第5章 Transformer模型 96
5.1 Transformer模型术语与特点 96
5.1.1 Transformer模型术语 96
5.1.2 Transformer模型特点 97
5.2 Transformer模型结构 97
5.2.1 Transformer模型架构 98
5.2.2 Transformer模型位置向量 98
5.2.3 Transformer模型编码器 101
5.2.4 Transformer模型解码器 106
5.2.5 基于Transformer模型的机器翻译 114
5.3 Transformer模型推理与训练 117
5.3.1 Transformer模型推理 117
5.3.2 Transformer模型训练所涉及的结构 119
5.3.3 Transformer模型训练关键步骤 123
5.3.4 Transformer模型并行训练与测试 124
5.4 Transformer-XL模型 126
5.4.1 长文本问题与解决策略 126
5.4.2 Transformer-XL模型技术 127
本章小结 135
第6章 预训练语言模型 137
6.1 PLM特点、结构与分类 138
6.1.1 PLM特点 138
6.1.2 PLM结构 140
6.1.3 PLM分类 141
6.2 自回归语言模型 142
6.2.1 自回归语言模型原理 142
6.2.2 自回归语言模型结构 143
6.2.3 解码器自回归语言模型构建过程 144
6.2.4 训练和推理的局限性 145
6.3 自编码语言模型 145
6.3.1 自编码语言模型原理 145
6.3.2 自编码语言模型结构 145
6.3.3 自编码语言模型训练 146
6.4 编码器?解码器预训练语言模型 146
6.4.1 编码器?解码器预训练语言模型原理 146
6.4.2 编码器?解码器预训练语言模型结构 148
6.5 前缀语言模型 148
6.5.1 前缀语言模型原理 148
6.5.2 前缀语言模型结构 149
6.6 排列语言模型 150
6.6.1 排列语言模型原理 151
6.6.2 排列语言模型结构 151
6.6.3 排列语言模型的特点与应用 153
6.6.4 排列语言模型结构比较 153
6.7 PLM训练 153
6.7.1 预训练过程与作用 154
6.7.2 预训练策略 156
6.7.3 预训练与微调比较 158
6.8 PLM微调 158
6.8.1 微调方法分类 158
6.8.2 高效微调 159
6.8.3 P-Tuning微调 160
6.8.4 指令微调 161
6.8.5 LoRA微调 163
6.8.6 前缀调优 165
6.8.7 Prompt微调 166
6.8.8 RLHF微调 170
6.8.9 微调输出层 171
6.9 PLM应用方法 172
6.9.1 PLM的应用过程 172
6.9.2 应用于文本生成过程 173
本章小结 174
第7章 LLM结构与训练 175
7.1 LLM结构 175
7.1.1 LLM架构 175
7.1.2 LLM架构选择 177
7.1.3 LLM构建 178
7.1.4 LLM评估 179
7.2 LLM结构优化 181
7.2.1 LLM优化目标 181
7.2.2 LLM优化部分介绍 182__eo









