- 电子工业出版社
- 9787121295164
- 2版
- 293565
- 60266781-8
- 平塑勒
- 16开
- 2025-08
- 705
- 548
- 工学
- 计算机类
- 计算机科学与技术
- 本科 研究生及以上
作者简介
目录
目录
第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 扩展实例:井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂赌博机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一个k 臂赌博机问题· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度赌博机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 关联搜索(上下文相关的赌博机) · · · · · · · · · · · · · · · · · · 40
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 最优策略和最优价值函数· · · · · · · · · · · · · · · · · · · · · · 60
3.7 最优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的最优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa:同轨策略下的时序差分控制· · · · · · · · · ·
第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 扩展实例:井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂赌博机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一个k 臂赌博机问题· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度赌博机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 关联搜索(上下文相关的赌博机) · · · · · · · · · · · · · · · · · · 40
2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
强化学习(第2 版)
第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 最优策略和最优价值函数· · · · · · · · · · · · · · · · · · · · · · 60
3.7 最优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的最优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa:同轨策略下的时序差分控制· · · · · · · · · ·













