全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

多模态大模型：新一代人工智能技术范式 / 通用智能与大模型丛书

￥119.00定价

作者：刘阳

出版时间：2025-01

出版社：电子工业出版社

以下为《多模态大模型：新一代人工智能技术范式》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：电子工业出版社
ISBN：9787121475474
版次：1-4
图书编号：525011
本季征订号：49255593-3
装帧：平塑
开本：16开
出版时间：2025-01
页数：304
适用专业：计算机科学与技术
适用分级：本科研究生及以上

内容简介

本书以深入浅出的方式介绍近年来人工智能领域最热门的技术——多模态大模型的技术方法、开源平台和应用场景，并详细阐述因果推理、世界模型及多智能体与具身智能等前沿技术领域，有助于读者全面了解多模态大模型的特点及发展方向，对新一代人工智能技术范式和通用人工智能的发展起到重要推动作用。全书共5章，第1章深入探讨最具代表性的大模型结构，第2章深度剖析多模态大模型的核心技术，第3章介绍多个具有代表性的多模态大模型，第4章深入分析视觉问答、AIGC 和具身智能这3个典型应用，第5章探讨实现通用人工智能的可行思路。本书不仅适合高校相关专业高年级本科生和研究生作为教材使用，更是各类IT 从业者的必备参考之作。

1 大模型全家桶 1__eol__1.1 多模态大模型基本概念 3__eol__1.1.1 多模态 4__eol__1.1.2 大模型和基础模型 4__eol__1.1.3 多模态大模型 5__eol__1.2 BERT技术详解 6__eol__1.2.1 模型结构 6__eol__1.2.2 预训练任务 10__eol__1.2.3 下游应用场景 13__eol__1.3 ViT技术详解 14__eol__1.3.1 模型结构 15__eol__1.3.2 预训练任务 17__eol__1.4 GPT系列 19__eol__1.4.1 GPT-1结构详解 20__eol__1.4.2 GPT-2结构详解 23__eol__1.4.3 GPT-3结构详解 24__eol__1.5 ChatGPT简介 28__eol__1.5.1 InstructGPT 28__eol__1.5.2 ChatGPT 32__eol__1.5.3 多模态GPT-4V 37__eol__1.6 中英双语对话机器人ChatGLM 40__eol__1.6.1 ChatGLM-6B模型 41__eol__1.6.2 千亿基座模型GLM-130B的结构 43__eol__1.7 百川大模型 46__eol__1.7.1 预训练 47__eol__1.7.2 对齐 51__eol__1.8 本章小结 53__eol__2 多模态大模型核心技术 54__eol__2.1 预训练基础模型 55__eol__2.1.1 基本结构 56__eol__2.1.2 学习机制 57__eol__2.2 预训练任务概述 59__eol__2.2.1 自然语言处理领域的预训练任务 59__eol__2.2.2 计算机视觉领域的预训练任务 59__eol__2.3 基于自然语言处理的预训练关键技术 60__eol__2.3.1 单词表征方法 61__eol__2.3.2 模型结构设计方法 63__eol__2.3.3 掩码设计方法 63__eol__2.3.4 提升方法 64__eol__2.3.5 指令对齐方法 65__eol__2.4 基于计算机视觉的预训练关键技术 67__eol__2.4.1 特定代理任务的学习 68__eol__2.4.2 帧序列学习 68__eol__2.4.3 生成式学习 69__eol__2.4.4 重建式学习 70__eol__2.4.5 记忆池式学习 71__eol__2.4.6 共享式学习 72__eol__2.4.7 聚类式学习 74__eol__2.5 提示学习 75__eol__2.5.1 提示的定义 76__eol__2.5.2 提示模板工程 78__eol__2.5.3 提示答案工程 81__eol__2.5.4 多提示学习方法 82__eol__2.6 上下文学习 85__eol__2.6.1 上下文学习的定义 86__eol__2.6.2 模型预热 86__eol__2.6.3 演示设计 88__eol__2.6.4 评分函数 90__eol__2.7 微调 91__eol__2.7.1 适配器微调 92__eol__2.7.2 任务导向微调 95__eol__2.8 思维链 98__eol__2.8.1 思维链的技术细节 99__eol__2.8.2 基于自洽性的思维链 100__eol__2.8.3 思维树 103__eol__2.8.4 思维图 106__eol__2.9 RLHF 110__eol__2.9.1 RLHF技术分解 111__eol__2.9.2 RLHF开源工具集 114__eol__2.9.3 RLHF的未来挑战 115__eol__2.10 RLAIF 115__eol__2.10.1 LLM的偏好标签化 116__eol__2.10.2 关键技术路线 118__eol__2.10.3 评测118__eol__2.11 本章小结119__eol__3 多模态基础模型 120__eol__3.1 CLIP 122__eol__3.1.1 创建足够大的数据集 122__eol__3.1.2 选择有效的预训练方法 123__eol__3.1.3 选择和扩展模型 124__eol__3.1.4 预训练 124__eol__3.2 BLIP 125__eol__3.2.1 模型结构 125__eol__3.2.2 预训练目标函数 126__eol__3.2.3 标注过滤 127__eol__3.3 BLIP-2 128__eol__3.3.1 模型结构 129__eol__3.3.2 使用冻结的图像编码器进行视觉与语言表示学习 129__eol__3.3.3 使用冻结的LLM进行从视觉到语言的生成学习 130__eol__3.3.4 模型预训练 131__eol__3.4 LLaMA 132__eol__3.4.1 预训练数据 132__eol__3.4.2 网络结构 133__eol__3.4.3 优化器 134__eol__3.4.4 高效实现 134__eol__3.5 LLaMA-Adapter 134__eol__3.5.1 LLaMA-Adapter的技术细节 136__eol__3.5.2 LLaMA-Adapter V2 137__eol__3.6 VideoChat 140__eol__3.6.1 VideoChat-Text 142__eol__3.6.2 VideoChat-Embed 143__eol__3.7 SAM 146__eol__3.7.1 SAM任务 149__eol__3.7.2 SAM的视觉模型结构 150__eol__3.7.3 SAM的数据引擎 151__eol__3.7.4 SAM的数据集 152__eol__3.8 PaLM-E 153__eol__3.8.1 模型结构155__eol__3.8.2 不同传感器模态的输入与场景表示 157__eol__3.8.3 训练策略 158__eol__3.9 本章小结 159__eol__4 多模态大模型的应用 160__eol__4.1 视觉问答 160__eol__4.1.1 视觉问答的类型 161__eol__4.1.2 图像问答 162__eol__4.1.3 视频问答 179__eol__4.1.4 未来研究方向 190__eol__4.2 AIGC 191__eol__4.2.1 GAN和扩散模型 192__eol__4.2.2 文本生成 194__eol__4.2.3 图像生成 198__eol__4.2.4 视频生成 203__eol__4.2.5 三维数据生成 204__eol__4.2.6 HCP-Diffusion统一代码框架 204__eol__4.2.7 挑战与展望 209__eol__4.3 具身智能 209__eol__4.3.1 具身智能的概念 210__eol__4.3.2 具身智能模拟器 212__eol__4.3.3 视觉探索 216__eol__4.3.4 视觉导航 219__eol__4.3.5 具身问答 223__eol__4.3.6 具身交互 225__eol__4.3.7 存在的挑战 228__eol__4.4 本章小结 231__eol__5 多模态大模型迈向AGI 232__eol__5.1 研究挑战 233__eol__5.1.1 缺乏评估准则 233__eol__5.1.2 模型设计准则模糊 233__eol__5.1.3 多模态对齐不佳 234__eol__5.1.4 领域专业化不足 234__eol__5.1.5 幻觉问题 236__eol__5.1.6 鲁棒性威胁 236__eol__5.1.7 可信性问题 238__eol__5.1.8 可解释性和推理能力问题 242__eol__5.2 因果推理 246__eol__5.2.1 因果推理的基本概念 247__eol__5.2.2 因果的类型 251__eol__5.2.3 LLM的因果推理能力 252__eol__5.2.4 LLM和因果发现的关系 254__eol__5.2.5 多模态因果开源框架CausalVLR 255__eol__5.3 世界模型 257__eol__5.3.1 世界模型的概念 258__eol__5.3.2 联合嵌入预测结构 261__eol__5.3.3 Dynalang：利用语言预测未来 264__eol__5.3.4 交互式现实世界模拟器 266__eol__5.3.5 Sora：模拟世界的视频生成模型 267__eol__5.4 超级智能体AGI Agent 271__eol__5.4.1 Agent的定义 272__eol__5.4.2 Agent的核心组件 274__eol__5.4.3 典型的AGI Agent模型 275__eol__5.4.4 AGI Agent的未来展望 284__eol__5.5 基于Agent的具身智能 286__eol__5.5.1 具身决策评测集 287__eol__5.5.2 具身知识与世界模型嵌入 288__eol__5.5.3 具身机器人任务规划与控制 289__eol__5.6 本章小结 296__eol__