注册 登录 进入教材巡展
#

出版时间:2024-05

出版社:电子工业出版社

以下为《解构大语言模型:从线性回归到通用人工智能》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 电子工业出版社
  • 9787121477409
  • 1-1
  • 525031
  • 48254049-9
  • 平塑勒
  • 16开
  • 2024-05
  • 432
  • 计算机科学与技术
  • 本科 研究生及以上
内容简介
本书从模型的结构和数据基础两个方面解构大语言模型,以便帮助读者理解和搭建类似ChatGPT的系统。在模型的结构方面,大语言模型属于深度神经网络,其设计核心是注意力机制,因此,本书涵盖了多层感知器、卷积神经网络和循环神经网络等经典模型。在模型的数据基础方面,本书既涉及模型训练的工程基础,如反向传播,又涉及数据的使用方式,如迁移学习、强化学习,以及传统的监督学习和无监督学习。此外,本书还阐述了如何从计量经济学和经典机器学习模型中汲取灵感,以提高模型的稳定性和可解释性。__eol__本书既适用于希望深入了解大语言模型、通过人工智能技术解决实际问题的读者,也适合作为高等院校计算机及相关专业的师生参考用书。
目录
第1章 绪论 2__eol__1.1 是数字鹦鹉,还是自我意识 3__eol__1.1.1 电车难题 3__eol__1.1.2 任务分解 4__eol__1.2 数据基础 5__eol__1.3 模型结构 7__eol__1.4 关于本书 9__eol__第2章 数学基础:不可或缺的知识 12__eol__2.1 向量、矩阵和张量 13__eol__2.1.1 标量、向量、矩阵与张量 13__eol__2.1.2 数学记号与特殊矩阵 14__eol__2.1.3 矩阵运算 15__eol__2.1.4 向量夹角 18__eol__2.1.5 矩阵的秩 19__eol__2.1.6 高维张量运算 20__eol__2.2 概率 21__eol__2.2.1 定义概率:事件和概率空间 22__eol__2.2.2 条件概率:信息的价值 23__eol__2.2.3 随机变量 24__eol__2.2.4 正态分布:殊途同归 27__eol__2.2.5 P-value:自信的猜测 28__eol__2.3 微积分 30__eol__2.3.1 导数和积分 30__eol__2.3.2 极限 32__eol__2.3.3 链式法则 33__eol__2.3.4 偏导数与梯度 34__eol__2.3.5 极值与最值 34__eol__2.4 本章小结 35__eol__第3章 线性回归:模型之母 38__eol__3.1 一个简单的例子 39__eol__3.1.1 机器学习的建模方式 40__eol__3.1.2 统计分析的建模方式 43__eol__3.2 模型实现 47__eol__3.2.1 机器学习的代码实现 47__eol__3.2.2 统计分析的代码实现 49__eol__3.3 模型陷阱 52__eol__3.3.1 过拟合:模型越复杂越好吗 53__eol__3.3.2 假设检验:统计分析的解决方案 56__eol__3.3.3 惩罚项:机器学习的解决方案 57__eol__3.3.4 比较两种方案 60__eol__3.4 面向未来的准备 60__eol__3.4.1 图形表示与数学表达 61__eol__3.4.2 模型的生命周期与持久化 62__eol__3.5 本章小结 63__eol__3.5.1 要点回顾 63__eol__3.5.2 常见面试问题 64__eol__第4章 逻辑回归:隐藏因子 68__eol__4.1 二元分类问题:是与否 68__eol__4.1.1 线性回归:为何失效 69__eol__4.1.2 窗口效应:看不见的才是关键 70__eol__4.1.3 逻辑分布 72__eol__4.1.4 似然函数:统计分析的参数估计 74__eol__4.1.5 损失函数:机器学习的参数估计 75__eol__4.1.6 最终预测:从概率到类别 76__eol__4.2 模型实现 76__eol__4.2.1 初步分析数据:直观印象 77__eol__4.2.2 搭建模型 79__eol__4.2.3 理解模型结果 81__eol__4.3 评估模型效果 82__eol__4.3.1 查准率与查全率 83__eol__4.3.2 F-score 85__eol__4.3.3 ROC空间 86__eol__4.3.4 ROC曲线与AUC 88__eol__4.3.5 AUC的概率解释 89__eol__4.4 非均衡数据集 90__eol__4.4.1 准确度悖论 90__eol__4.4.2 模型效果影响 91__eol__4.4.3 解决方案 93__eol__4.5 多元分类问题:超越是与否 94__eol__4.5.1 多元逻辑回归 94__eol__4.5.2 One-vs.-All:从二元到多元 95__eol__4.5.3 模型实现 96__eol__4.6 本章小结 97__eol__4.6.1 要点回顾 97__eol__4.6.2 常见面试问题 98__eol__第5章 计量经济学的启示:他山之石 100__eol__5.1 定量与定性:特征的数学运算合理吗 101__eol__5.2 定性特征的处理 102__eol__5.2.1 虚拟变量 102__eol__5.2.2 定性特征转换为定量特征 104__eol__5.3 定量特征的处理 105__eol__5.3.1 定量特征转换为定性特征 106__eol__5.3.2 基于卡方检验的方法 108__eol__5.4 多重共线性:多变量的烦恼 109__eol__5.4.1 多重共线性效应 110__eol__5.4.2 检测多重共线性 113__eol__5.4.3 解决方法 114__eol__5.4.4 虚拟变量陷阱 116__eol__5.5 本章小结 117__eol__5.5.1 要点回顾 117__eol__5.5.2 常见面试问题 118__eol__第6章 最优化算法:参数估计 120__eol__6.1 算法思路:模拟滚动 121__eol__6.2 梯度下降法 122__eol__6.2.1 算法使用的窍门 124__eol__6.2.2 算法的局限性:局部最优与鞍点 125__eol__6.3 梯度下降法的代码实现 126__eol__6.3.1 PyTorch基础 127__eol__6.3.2 利用PyTorch的封装函数 130__eol__6.4 随机梯度下降法:更优化的算法 133__eol__6.4.1 算法细节 133__eol__6.4.2 代码实现 134__eol__6.4.3 进一步优化 135__eol__6.5 本章小结 137__eol__6.5.1 要点回顾 137__eol__6.5.2 常见面试问题 138__eol__第7章 反向传播:神经网络的工程基础 140__eol__7.1 计算图和向前传播 141__eol__7.1.1 什么是计算图 141__eol__7.1.2 代码实现 142__eol__7.2 链式法则和反向传播 145__eol__7.2.1 拓扑排序 146__eol__7.2.2 代码实现 146__eol__7.2.3 梯度传播过程 148__eol__7.3 参数估计的全流程 151__eol__7.3.1 随机梯度下降法回顾 151__eol__7.3.2 计算图膨胀 152__eol__7.4 动态优化 155__eol__7.4.1 梯度累积 155__eol__7.4.2 参数冻结 158__eol__7.4.3 随机失活 159__eol__7.5 真实世界:针对大规模模型的优化技巧 162__eol__7.5.1 GPU计算 162__eol__7.5.2 混合精度训练 164__eol__7.5.3 梯度检查点 166__eol__7.5.4 分布式计算 167__eol__7.6 本章小结 170__eol__7.6.1 要点回顾 170__eol__7.6.2 常见面试问题 171__eol__第8章 多层感知器:神经网络的“创世记” 174__eol__8.1 感知器模型 175__eol__8.1.1 神经元的数字孪生 175__eol__8.1.2 图示与计算图 177__eol__8.1.3 Sigmoid感知器与逻辑回归 178__eol__8.1.4 Softmax函数 179__eol__8.2 从神经网络的视角重新理解逻辑回归 181__eol__8.2.1 回顾窗口效应 182__eol__8.2.2 代码实现 183__eol__8.2.3 损失函数为模型注入灵魂 185__eol__8.2.4 神经网络的建模文化:搭积木 186__eol__8.3 多层感知器 187__eol__8.3.1 图形表示 187__eol__8.3.2 数学基础 189__eol__8.3.3 令人惊讶的通用性 192__eol__8.3.4 代码实现 193__eol__8.3.5 模型的联结主义 195__eol__8.4 训练优化的关键:激活函数 197__eol__8.4.1 坏死的神经细胞 198__eol__8.4.2 数学基础 200__eol__8.4.3 监控模型训练 201__eol__8.4.4 不稳定的梯度 205__eol__8.4.5 激活函数的改进 206__eol__8.5 从第一步开始优化训练 208__eol__8.5.1 模型损失的预估 208__eol__8.5.2 参数初始化的初步优化 209__eol__8.5.3 参数初始化的进一步优化 212__eol__8.5.4 归一化层 214__eol__8.6 本章小结 218__eol__8.6.1 要点回顾 218__eol__8.6.2 常见面试问题 219__eol__第9章 卷积神经网络:深度学习的“出埃及记” 222__eol__9.1 利用多层感知器识别数字 223__eol__9.1.1 视觉对象的数字化 223__eol__9.1.2 搭建模型 224__eol__9.1.3 代码实现 226_