- 电子工业出版社
- 9787121476617
- 1-2
- 540828
- 16开
- 2024-10
- 计算机科学与技术
- 本科 研究生及以上
内容简介
本书详细介绍了强化学习的理论推导、算法细节。全书共12章,包括强化学习概述、马尔可夫决策过程、退化的强化学习问题、环境已知的强化学习问题、基于价值的强化学习算法、基于策略的强化学习算法、AC型算法、基于模型的强化学习算法等相关知识。本书系统性强、概念清晰,内容简明通俗。除了侧重于理论推导,本书还提供了许多便于读者理解的例子,以及大量被实践证明有效的算法技巧,旨在帮助读者进一步了解强化学习领域的相关知识,提升其现实中的工程能力。 本书可作为高等院校数学、计算机、人工智能等相关专业的强化学习教材,但需要有机器学习、深度学习等前置课程作为基础。
目录
第1章 绪论 1__eol__1.1 强化学习是什么 1__eol__1.2 强化学习的基本思想 3__eol__1.2.1 从环境中产生数据 3__eol__1.2.2 求解最优策略 5__eol__1.3 强化学习为什么重要 6__eol__1.4 本书内容介绍 9__eol__参考文献 10__eol__第2章 马尔可夫决策过程 11__eol__2.1 马尔可夫过程 11__eol__2.2 马尔可夫决策过程的定义 12__eol__2.3 马尔可夫过程与马尔可夫决策过程的对比 15__eol__2.4 马尔可夫决策过程的分类 15__eol__2.4.1 马尔可夫决策过程是否发生退化 16__eol__2.4.2 环境是否已知 17__eol__2.4.3 环境的确定性与随机性 18__eol__2.4.4 马尔可夫决策过程的时齐性 20__eol__2.4.5 状态与动作的连续性 22__eol__*2.4.6 时间的连续性 23__eol__2.4.7 小结 24__eol__2.5 马尔可夫决策过程的奖励函数 25__eol__思考题 26__eol__参考文献 27__eol__第3章 退化的强化学习问题 28__eol__3.1 盲盒售货机问题 28__eol__3.2 探索-利用困境 31__eol__3.3 各种不同的探索策略 33__eol__3.3.1 -贪心策略 33__eol__3.3.2 玻尔兹曼探索策略 35__eol__3.3.3 上置信界策略 36__eol__3.4 总结 36__eol__思考题 37__eol__参考文献 37__eol__第4章 最优控制 38__eol__4.1 基于价值的思想 38__eol__4.1.1 三连棋游戏策略 38__eol__4.1.2 价值的定义 42__eol__4.1.3 基于价值和基于策略 45__eol__4.1.4 小结 46__eol__思考题 47__eol__4.2 动态规划 47__eol__4.2.1 策略迭代法 47__eol__4.2.2 雅可比迭代法 48__eol__4.2.3 值迭代法 50__eol__4.2.4 软提升 51__eol__4.2.5 小结 53__eol__思考题 54__eol__4.3 LQR控制 55__eol__4.3.1 基本LQR控制问题 55__eol__4.3.2 LQR控制器 56__eol__*4.3.3 环境随机的LQR控制问题 59__eol__4.3.4 iLQR控制器 61__eol__4.3.5 实时规划 63__eol__4.3.6 小结 64__eol__思考题 65__eol__4.4 总结 65__eol__参考文献 66__eol__第5章 基于价值的强化学习 68__eol__5.1 Q-Learning 68__eol__5.1.1 Q表格 69__eol__5.1.2 产生数据集的方式:探索与利用 69__eol__5.1.3 探索策略 71__eol__5.1.4 使用训练数据的方法:经验回放 73__eol__思考题 74__eol__5.2 Sarsa 74__eol__5.2.1 基本Sarsa算法 74__eol__5.2.2 同策略与异策略 76__eol__5.2.3 n步Sarsa 77__eol__5.2.4 -return算法 78__eol__*5.2.5 n步Q-Learning 79__eol__思考题 80__eol__5.3 DQN及其变体 81__eol__5.3.1 固定Q目标结构 81__eol__5.3.2 双重DQN 84__eol__5.3.3 优先回放机制 86__eol__5.3.4 优势函数 88__eol__5.3.5 Dueling DQN 90__eol__*5.3.6 Rainbow 92__eol__思考题 94__eol__*5.4 NAF 94__eol__*5.4.1 标准化优势函数 94__eol__*5.4.2 NAF的训练 96__eol__5.5 总结:基于价值的强化学习算法 97__eol__参考文献 98__eol__第6章 策略函数与策略梯度 100__eol__6.1 策略函数与期望回报 100__eol__6.2 无梯度方法 101__eol__6.2.1 增强随机搜索 102__eol__6.2.2 交叉熵算法 104__eol__6.2.3 进化算法 104__eol__6.3 策略梯度 106__eol__6.3.1 策略网络的构造 106__eol__6.3.2 策略梯度的计算 108__eol__6.3.3 基本策略梯度算法 111__eol__*6.3.4 动作连续的策略梯度 113__eol__6.4 策略梯度的训练技巧 114__eol__6.4.1 基准法 114__eol__6.4.2 经验回放 116__eol__6.4.3 探索策略 118__eol__6.5 总结 119__eol__思考题 120__eol__参考文献 121__eol__第7章 AC算法 122__eol__7.1 基本AC算法 122__eol__7.1.1 AC算法的出发点 122__eol__7.1.2 化简策略梯度公式 123__eol__7.1.3 AC算法的基本思想 126__eol__7.1.4 单步更新与回合更新 128__eol__思考题 129__eol__7.2 AC算法的训练技巧 129__eol__7.2.1 广义优势函数估计 129__eol__7.2.2 控制训练两个网络的步调 131__eol__7.2.3 ACER 133__eol__思考题 134__eol__7.3 A3C与A2C 135__eol__7.3.1 并行训练 135__eol__7.3.2 A3C 137__eol__7.3.3 A2C 140__eol__思考题 141__eol__参考文献 141__eol__第8章 AC型算法 143__eol__8.1 自然梯度法 143__eol__8.1.1 牛顿法 144__eol__8.1.2 信赖域方法 146__eol__8.1.3 近似点法 146__eol__*8.1.4 自然策略梯度 147__eol__8.2 TRPO与PPO算法 149__eol__8.2.1 策略提升 149__eol__8.2.2 TRPO算法 151__eol__8.2.3 PPO算法 152__eol__8.2.4 TRPO与PPO算法的训练技巧 155__eol__8.2.5 小结 156__eol__思考题 157__eol__8.3 DDPG 157__eol__8.3.1 动作连续问题的网络结构 158__eol__8.3.2 从基于价值的角度理解DDPG算法 158__eol__8.3.3 DDPG算法及训练技巧 159__eol__8.3.4 确定策略下的策略梯度 162__eol__8.3.5 从基于策略的角度理解DDPG算法 163__eol__思考题 165__eol__*8.4 Soft AC 165__eol__8.5 总结:基于策略的算法 168__eol__8.5.1 基于价值和基于策略 169__eol__8.5.2 偏差-方差取舍 170__eol__8.5.3 策略的空间 172__eol__8.5.4 训练数据的产生与使用 172__eol__8.5.5 小结 173__eol__参考文献 174__eol__第9章 基于模型的基本思想 175__eol__9.1 MBRL概述 175__eol__9.2 模型是什么 177__eol__9.2.1 各种模型及其基本用法 178__eol__9.2.2 更多的模型变体 179__eol__9.2.3 模型的一些特点 180__eol__*9.2.4 对模型的理解 185__eol__思考题 188__eol__9.3 如何使用黑盒模型 189__eol__9.3.1 用黑盒模型增广数据 189__eol__9.3.2 权衡数据成本与准确性 191__eol__9.3.3 黑盒模型的其他用途 193__eol__9.3.4 小结 194__eol__思考题 194__eol__9.4 如何使用白盒模型 195__eol__9.4.1 用白盒模型辅助进行策略优化 195__eol__9.4.2 用白盒模型解最优控制 197__eol__9.4.3 小结 199__eol__思考题 199__eol__参考文献 200__eol__第10章 基于模型的强化学习进阶 202__eol__10.1 如何学习模型 202__eol__10.1.1 让学习更符合最终目标 202__eol__10.1.2 让学习本身成为目标 203__eol__10.1.3 以学习作为唯一目标 206__eol__10.1.4 小结 209__eol__思考题 209__eol__10.2 世界模型 210__eol__10.2.1 观察 210__eol__10.2.2 POMDP 212__eol__10.2.3