强化学习原理及其应用 / 智能科学技术著作丛书
¥89.00定价
作者: 王雪松,朱美强,程玉虎
出版时间:2020-10
出版社:科学出版社
- 科学出版社
- 9787030406408
- 33
- 475965
- 平装胶订
- B5
- 2020-10
- 272
- G791
内容简介
内容简介
作为一类求解序贯优化决策问题的有效方法,强化学习在运筹学、计算科学和自动控制等领域得到广泛应用,业已成为机器学习领域最活跃的研究分支之一。
现阶段,强化学习研究的核心问题是如何解决维数灾难,提高学习效率。本书的主要内容正是针对上述问题展开的,分别从值函数逼近、直接策略搜索和基于谱方法的学习3个方面来阐述强化学习的理论、方法及其应用,共13章。第1章~第2章为强化学习概述和相关基础理论。第3章~第5章为基于值函数估计的强化学习方法,包括基于支持向量机、测地高斯基的强化学习和基于抽象状态的贝叶斯强化学习。第6章~第9章为直接策略搜索强化学习方法,包括基于增量最小二乘时间差分的ActorCritic学习、融合经验数据的Actor-Critic强化学习、基于资格迹的折扣回报型增量
自然Actor-Critic学习和基于参数探索的期望**策略搜索。第10章~第13章为基于谱方法的强化学习研究,包括基于拉普拉斯特征映射的启发式策略选择、Dyna规划和迁移研究。为便于应用本书阐述的算法,书后附有部分强化学习算法MATLAB源程序。
作为一类求解序贯优化决策问题的有效方法,强化学习在运筹学、计算科学和自动控制等领域得到广泛应用,业已成为机器学习领域最活跃的研究分支之一。
现阶段,强化学习研究的核心问题是如何解决维数灾难,提高学习效率。本书的主要内容正是针对上述问题展开的,分别从值函数逼近、直接策略搜索和基于谱方法的学习3个方面来阐述强化学习的理论、方法及其应用,共13章。第1章~第2章为强化学习概述和相关基础理论。第3章~第5章为基于值函数估计的强化学习方法,包括基于支持向量机、测地高斯基的强化学习和基于抽象状态的贝叶斯强化学习。第6章~第9章为直接策略搜索强化学习方法,包括基于增量最小二乘时间差分的ActorCritic学习、融合经验数据的Actor-Critic强化学习、基于资格迹的折扣回报型增量
自然Actor-Critic学习和基于参数探索的期望**策略搜索。第10章~第13章为基于谱方法的强化学习研究,包括基于拉普拉斯特征映射的启发式策略选择、Dyna规划和迁移研究。为便于应用本书阐述的算法,书后附有部分强化学习算法MATLAB源程序。