强化学习 / 智能科学与技术丛书
¥119.00定价
作者: [荷]马可·威宁,马丁·范·奥特罗著;赵地,刘莹,邓仰东等译
出版时间:2018-07
出版社:机械工业出版社
- 机械工业出版社
- 9787111600220
- 1版
- 283867
- 47229791-0
- 平装
- 16开
- 2018-07
- 680
- 486
- 工学
- 软件工程
- TP181
- 计算机通信类
- 本科
作者简介
内容简介
本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。
目录
目 录Reinforcement Learning: State-of-the-Art译者序序言前言作者清单第一部分 绪论第1章 强化学习和马尔可夫决策过程 21.1 简介 21.2 时序决策 31.2.1 接近时序决策 41.2.2 在线学习与离线学习 41.2.3 贡献分配 51.2.4 探索–运用的平衡 51.2.5 反馈、目标和性能 51.2.6 表达 61.3 正式的框架 61.3.1 马尔可夫决策过程 71.3.2 策略 91.3.3 最优准则和减量 91.4 价值函数和贝尔曼方程 101.5 求解马尔可夫决策过程 121.6 动态规划:基于模型的解决方案 131.6.1 基本的动态规划算法 131.6.2 高效的动态规划算法 171.7 强化学习:无模型的解决方案 191.7.1 时序差分学习 201.7.2 蒙特卡罗方法 231.7.3 高效的探索和价值更新 241.8 总结 27参考文献 27第二部分 高效的解决方案框架第2章 批处理强化学习 322.1 简介 322.2 批处理强化学习问题 332.2.1 批处理学习问题 332.2.2 增长批处理学习问题 342.3 批处理强化学习算法的基础 342.4 批处理强化学习算法 372.4.1 基于核的近似动态规划 372.4.2 拟合Q迭代 392.4.3 基于最小二乘的策略迭代 402.4.4 识别批处理算法 412.5 批处理强化学习理论 422.6 批处理强化学习的实现 432.6.1 神经拟合Q迭代 442.6.2 控制应用中的神经拟合Q迭代算法 452.6.3 面向多学习器的批处理强化学习 462.6.4 深度拟合Q迭代 482.6.5 应用/发展趋势 492.7 总结 50参考文献 50第3章 策略迭代的最小二乘法 533.1 简介 533.2 预备知识:经典策略迭代算法 543.3 近似策略评估的最小二乘法 553.3.1 主要原则和分类 553.3.2 线性情况下和矩阵形式的方程 573.3.3 无模型算法的实现 603.3.4 参考文献 623.4 策略迭代的在线最小二乘法 633.5 例子:car-on-the-hill 643.6 性能保障 663.6.1 渐近收敛性和保证 663.6.2 有限样本的保证 683.7 延伸阅读 73参考文献 74第4章 学习和使用模型 784.1 简介 784.2 什么是模型 794.3 规划 804.4 联合模型和规划 824.5 样本复杂度 844.6 分解域 864.7 探索 884.8 连续域 914.9 实证比较 934.10 扩展 954.11 总结 96参考文献 97第5章 强化学习中的迁移:框架和概观 1015.1 简介 1015.2 强化学习迁移的框架和分类 1025.2.1 迁移框架 1025.2.2 分类 1045.3 固定状态–动作空间中从源到目标迁移的方法 1085.3.1 问题形式化 1085.3.2 表示迁移 1095.3.3 参数迁移 1105.4 固定状态–动作空间中跨多任务迁移的方法 1115.4.1 问题形式化 1115.4.2 实例迁移 1115.4.3 表示迁移 1125.4.4 参数迁移 1135.5 不同状态–动作空间中从源到目标任务迁移的方法 1145.5.1 问题形式化 1145.5.2 实例迁移 1155.5.3 表示迁移 1155.5.4 参数迁移 1165.6 总结和开放性问题 116参考文献 117第6章 探索的样本复杂度边界 1226.1 简介 1226.2 预备知识 1236.3 形式化探索效率 1246.3.1 探索的样本复杂度和PAC-MDP 1246.3.2 遗憾最小化 1256.3.3 平均损失 1276.3.4 贝叶斯框架 1276.4 通用PAC-MDP定理 1286.5 基于模型的方法 1306.5.1 Rmax 1306.5.2 Rmax的泛化 1326.6 无模型方法 1386.7 总结 141参考文献 141第三部分 建设性的表征方向第7章 连续状态和动作空间中的强化学习 1467.1 简介 1467.1.1 连续域中的马尔可夫决策过程 1477.1.2 求解连续MDP的方法 1487.2 函数逼近 1497.2.1 线性函数逼近 1507.2.2 非线性函数逼近 1537.2.3 更新参数 1547.3 近似强化学习 1577.3.1 数值逼近 1577.3.2 策略逼近 1627.4 双极车杆实验 1687.5 总结 171参考文献 171第8章 综述:求解一阶逻辑马尔可夫决策过程 1798.1 关系世界中的顺序决策简介 1798.1.1 马尔可夫决策过程:代表性和可扩展性 1808.1.2 简短的历史和与其他领域的联系 1818.2 用面向对象和关系扩展马尔可夫决策过程 1838.2.1 关系表示与逻辑归纳 1838.2.2 关系型马尔可夫决策过程 1848.2.3 抽象问题和求解 1848.3 基于模型的解决方案 1868.3.1 贝尔曼备份的结构 1868.3.2 确切的基于模型的算法 1878.3.3 基于近似模型的算法 1908.4 无模型的解决方案 1928.4.1 固定泛化的价值函数学习 1928.4.2 带自适应泛化的价值函数 1938.4.3 基于策略的求解技巧 1968.5 模型、层级、偏置 1988.6 现在的发展 2018.7 总结和展望 203参考文献 204第9章 层次式技术 2139.1 简介 2139.2 背景 2159.2.1 抽象动作 2159.2.2 半马尔可夫决策问题 2169.2.3 结构 2179.2.4 状态抽象 2189.2.5 价值函数分解 2199.2.6 优化 2209.3 层次式强化学习技术 2209.3.1 选项 2219.3.2 HAMQ学习 2229.3.3 MAXQ 2239.4 学习结构 2269.5 相关工作和当前研究 2289.6 总结 230参考文献 230第10章 针对强化学习的演化计算 23510.1 简介 23510.2 神经演化 23710.3 TWEANN 23910.3.1 挑战 23910.3.2 NEAT 24010.4 混合方法 24110.4.1 演化函数近似 24210.4.2 XCS 24310.5 协同演化 24510.5.1 合作式协同演化 24510.5.2 竞争式协同演化 24610.6 生成和发展系统 24710.7 在线方法 24910.7.1 基于模型的技术 24910.7.2 在线演化计算 25010.8 总结 251参考文献 251第四部分 概率模型第11章 贝叶斯强化学习 26011.1 简介 26011.2 无模型贝叶斯强化学习 26111.2.1 基于价值函数的算法 26111.2.2 策略梯度算法 26411.2.3 演员–评论家算法 26611.3 基于模型的贝叶斯强化学习 26811.3.1 由POMDP表述的贝叶斯强化学习 26811.3.2 通过动态规划的贝叶斯强化学习 26911.3.3 近似在线算法 27111.3.4 贝叶斯多任务强化学习 27211.3.5 集成先验知识 27311.4 有限样本分析和复杂度问题 27411.5 总结和讨论 275参考文献 275第12章 部分可观察的马尔可夫决策过程 27912.1 简介 27912.2 部分可观察环境中的决策 28012.2.1 POMDP模型 28012.2.2 连续和结构化的表达 28112.2.3 优化决策记忆 28212.2.4 策略和价值函数 28412.3 基于模型的技术 28512.3.1 基于MDP的启发式解决方案 28512.3.2 POMDP的值迭代 28612.3.3 确切的值迭代 28812.3.4 基于点的值迭代方法 29012.3.5 其他近似求解方法 29112.4 无先验模型的决策 29212.4.1 无记忆技术 29212.4.2 学习内部记忆 29212.5 近期研究趋势 294参考文献 295第13章 预测性定义状态表示 30013.1 简介 30013.1.1 状态是什么 30113.1.2 哪一个状态表示 30113.1.3 为什么使用预测性定义模型 30213.2 PSR 30313.2.1 历史及测试 30313.2.2 测试的预测 30413.2.3 系统动态向量 30413.2.4 系统动态矩阵 30513.2.5 充分的数据集 30513.2.6 状态 30613.2.7 更新状态 30613.2.8 线性PSR 30713.2.9 线性PSR与POMDP的关联 30713.2.10 线性PSR的理论结果 30813.3 PSR模型学习 30813.3.1 发现问题 30813.3.2 学习问题 30913.3.3 估计系统动态矩阵 30913.4 规划与PSR 30913.5 PSR的扩展 31013.6 其他具有预测性定义状态的模型 31113.6.1 可观测算子模型 31113.6.2 预测线性高斯模型 31213.6.3 时序差分网络 31213.6.4 分集自动机 31213.6.5 指数族PSR 31313.6.6 转换PSR 31313.7 总结 313参考文献 314第14章 博弈论和多学习器强化学习 31714.1 简介 31714.2 重复博弈 31914.2.1 博弈论 31914.2.2 重复博弈中的强化学习 32214.3 顺序博弈 32514.3.1 马尔可夫博弈 32614.3.2 马尔可夫博弈中的强化学习 32714.4 在多学习器系统中的稀疏交互 33014.4.1 多等级学习 33014.4.2 协调学习与稀疏交互 33114.5 延伸阅读 334参考文献 334第15章 去中心化的部分可观察马尔可夫决策过程 33815.1 简介 33815.2 Dec-POMDP框架 33915.3 历史状态与策略 34015.3.1 历史状态 34115.3.2 策略 34115.3.3 策略的结构 34215.3.4 联合策略的质量 34315.4 有限域的Dec-POMDP的解决方案 34415.4.1 穷举搜索和Dec-POMDP复杂性 34415.4.2 交替最大化 34415.4.3 Dec-POMDP的最优价值函数 34515.4.4 前推法:启发式搜索 34815.4.5 后推法:动态规划 35015.4.6 其他有限域的方法 35315.5 延伸阅读 35315.5.1 一般化和特殊问题 35315.5.2 有限Dec-POMDP 35415.5.3 强化学习 35515.5.4 通信 356参考文献 356第五部分 其他应用领域第16章 强化学习与心理和神经科学之间的关系 36416.1 简介 36416.2 经典(巴甫洛夫)条件反射 36516.2.1 行为 36516.2.2 理论 36616.2.3 小结和其他注意事项 36716.3 操作性(工具性)条件反射 36816.3.1 动作 36816.3.2 理论 36916.3.3 基于模型的控制与无模型的控制 37016.3.4 小结和其他注意事项 37116.4 多巴胺 37116.4.1 多巴胺作为奖励预测误差 37216.4.2 多巴胺的强化信号的作用 37216.4.3 小结和其他注意事项 37316.5 基底神经节 37316.5.1 基底神经节概述 37416.5.2 纹状体的神经活动 37416.5.3 皮质基神经节丘脑循环 37516.5.4 小结和其他注意事项 37716.6 总结 378参考文献 378第17章 游戏领域的强化学习 38717.1 简介 38717.1.1 目标和结构 38717.1.2 范围 388