注册 登录 进入教材巡展
#
  • #

出版时间:2024-04

出版社:电子工业出版社

以下为《强化学习(第2版)》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 电子工业出版社
  • 9787121295164
  • 1-15
  • 293565
  • 48252974-0
  • 平塑勒
  • 16开
  • 2024-04
  • 705
  • 548
  • 工学
  • 计算机科学与技术
  • 计算机科学与技术
  • 本科 研究生及以上
作者简介

Richard Sutton(理查德·萨顿)


埃德蒙顿 DeepMind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入DeepMind。之前,曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,在马萨诸塞大学做学术研究。


1978年获得斯坦福大学心理学学士学位,1984年获得马萨诸塞大学计算机科学博士学位,加拿大皇家学会院士和人工智能促进会的会士。


主要研究兴趣是在决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。


他的科学出版物被引用超过7万次。


他也是一名自由主义者,国际象棋选手和癌症幸存者。



Andrew Barto (安德鲁·巴图)


马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位,并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学习实验室,该实验室培养了许多著名的机器学习研究者。


目前担任Neural Computation (《神经计算》)期刊的副主编,Journal of Machine Learning Research (《机器学习研究》)期刊的顾问委员会成员,以及Adaptive Behavior (《自适应行为》)期刊的编委员会成员。


他是美国科学促进会的会员,IEEE(国际电子电气工程师协会)的终身会士(Life Fellow),也是神经科学学会的成员。


2004年,因强化学习领域的贡献荣获IEEE神经网络学会先锋奖,并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17卓越研究奖;2019年获得马萨诸塞大学神经科学终身成就奖。


他在各类期刊、会议和研讨会上发表了100多篇论文,参与撰写多部图书的相关章节。



译者简介


俞凯


上海交通大学计算科学与工程系教授,思必驰公司创始人、首席科学家。清华大学自动化系本科、硕士,剑桥大学工程系博士。青年千人,国家自然科学基金委优青,上海市“东方学者”特聘教授。IEEE 高级会员,现任 IEEE Speech and Language Processing Technical Committee 委员,中国人工智能产业发展联盟学术和知识产权组组长,中国计算机学会语音对话及听觉专业组副主任。


长期从事交互式人工智能,尤其是智能语音及自然语言处理的研究和产业化工作。发表国际期刊和会议论文 150 余篇,获得Computer Speech and Language, Speech Communication 等多个国际期刊及InterSpeech等国际会议的优论文奖,所搭建的工程系统曾获美国国家标准局语音识别评测冠军,对话系统国际研究挑战赛冠军等。


获评2014“吴文俊人工智能科学技术奖”进步奖,“2016科学中国人年度人物”,2018中国计算机学会“青竹奖”。

查看全部
目录
目录__eol__第1 章导论· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1__eol__1.1 强化学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1__eol__1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4__eol__1.3 强化学习要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5__eol__1.4 局限性与适用范围· · · · · · · · · · · · · · · · · · · · · · · · · · 7__eol__1.5 扩展实例:井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8__eol__1.6 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12__eol__1.7 强化学习的早期历史· · · · · · · · · · · · · · · · · · · · · · · · · 13__eol__第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23__eol__第2 章多臂赌博机· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25__eol__2.1 一个k 臂赌博机问题· · · · · · · · · · · · · · · · · · · · · · · · 25__eol__2.2 动作-价值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27__eol__2.3 10 臂测试平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28__eol__2.4 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30__eol__2.5 跟踪一个非平稳问题· · · · · · · · · · · · · · · · · · · · · · · · · 32__eol__2.6 乐观初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34__eol__2.7 基于置信度上界的动作选择· · · · · · · · · · · · · · · · · · · · · 35__eol__2.8 梯度赌博机算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37__eol__2.9 关联搜索(上下文相关的赌博机) · · · · · · · · · · · · · · · · · · 40__eol__2.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41__eol__强化学习(第2 版)__eol__第3 章有限马尔可夫决策过程· · · · · · · · · · · · · · · · · · · · · · · · 45__eol__3.1 “智能体-环境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45__eol__3.2 目标和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51__eol__3.3 回报和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52__eol__3.4 分幕式和持续性任务的统一表示法· · · · · · · · · · · · · · · · · 54__eol__3.5 策略和价值函数· · · · · · · · · · · · · · · · · · · · · · · · · · · 55__eol__3.6 最优策略和最优价值函数· · · · · · · · · · · · · · · · · · · · · · 60__eol__3.7 最优性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65__eol__3.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66__eol__第4 章动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71__eol__4.1 策略评估(预测) · · · · · · · · · · · · · · · · · · · · · · · · · · 72__eol__4.2 策略改进· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75__eol__4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78__eol__4.4 价值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80__eol__4.5 异步动态规划· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83__eol__4.6 广义策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84__eol__4.7 动态规划的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85__eol__4.8 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86__eol__第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89__eol__5.1 蒙特卡洛预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90__eol__5.2 动作价值的蒙特卡洛估计· · · · · · · · · · · · · · · · · · · · · · 94__eol__5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95__eol__5.4 没有试探性出发假设的蒙特卡洛控制· · · · · · · · · · · · · · · · 98__eol__5.5 基于重要度采样的离轨策略· · · · · · · · · · · · · · · · · · · · · 101__eol__5.6 增量式实现· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107__eol__5.7 离轨策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108__eol__5.8 ? 折扣敏感的重要度采样· · · · · · · · · · · · · · · · · · · · · · 110__eol__5.9 ? 每次决策型重要度采样· · · · · · · · · · · · · · · · · · · · · · 112__eol__5.10 本章小结· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113__eol__第6 章时序差分学习· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117__eol__6.1 时序差分预测· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117__eol__6.2 时序差分预测方法的优势· · · · · · · · · · · · · · · · · · · · · · 122__eol__6.3 TD(0) 的最优性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124__eol__6.4 Sarsa:同轨策略下的时序差分控制· · · · · · · · · ·