机器学习与R语言(原书第2版) / 数据科学与工程技术丛书
¥69.00定价
作者: [美]布雷特·兰茨著;李洪成,许金炜,李舰译
出版时间:2017-03
出版社:机械工业出版社
- 机械工业出版社
- 9787111553281
- 2版
- 283932
- 47229845-4
- 平装
- 16开
- 2017-03
- 406
- 290
- 工学
- 软件工程
- TP181;TP312
- 计算机通信类
- 本科
内容简介
本书共12章:第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备;第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化;第3~9章介绍典型的机器学习算法,包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法——神经网络和支持向量机、关联分析、k均值聚类,并给出大量的实际案例和详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等;第10章介绍模型性能评价的原理和方法;第11章给出提高模型性能的几种常用方法;第12章讨论用R进行机器学习时可能遇到的一些高级专题,如特殊形式的数据、大数据集的处理、并行计算和GPU计算等技术。
目录
目 录推荐序译者序前言关于审稿人第1章 机器学习简介11.1 机器学习的起源11.2 机器学习的使用与滥用31.2.1 机器学习的成功使用31.2.2 机器学习的限制41.2.3 机器学习的伦理方面51.3 机器如何学习61.3.1 数据存储71.3.2 抽象化71.3.3 一般化91.3.4 评估101.4 实践中的机器学习111.4.1 输入数据的类型111.4.2 机器学习算法的类型121.4.3 为输入数据匹配算法141.5 使用R进行机器学习151.5.1 安装R添加包151.5.2 载入和卸载R添加包161.6 总结16第2章 数据的管理和理解182.1 R数据结构182.1.1 向量182.1.2 因子202.1.3 列表212.1.4 数据框232.1.5 矩阵和数组252.2 用R管理数据272.2.1 保存、载入和移除R数据结构272.2.2 用CSV文件导入和保存数据282.3 探索和理解数据292.3.1 探索数据的结构292.3.2 探索数值变量302.3.3 探索分类变量382.3.4 探索变量之间的关系402.4 总结43第3章 懒惰学习—使用近邻分类443.1 理解近邻分类443.1.1 kNN算法453.1.2 为什么kNN算法是懒惰的503.2 例子—用kNN算法诊断乳腺癌513.2.1 第1步—收集数据513.2.2 第2步—探索和准备数据523.2.3 第3步—基于数据训练模型553.2.4 第4步—评估模型的性能563.2.5 第5步—提高模型的性能573.3 总结59第4章 概率学习—朴素贝叶斯分类604.1 理解朴素贝叶斯604.1.1 贝叶斯方法的基本概念614.1.2 朴素贝叶斯算法654.2 例子—基于贝叶斯算法的手机垃圾短信过滤694.2.1 第1步—收集数据694.2.2 第2步—探索和准备数据704.2.3 第3步—基于数据训练模型814.2.4 第4步—评估模型的性能824.2.5 第5步—提高模型的性能834.3 总结84第5章 分而治之—应用决策树和规则进行分类855.1 理解决策树855.1.1 分而治之865.1.2 C5.0决策树算法895.2 例子—使用C5.0决策树识别高风险银行贷款915.2.1 第1步—收集数据925.2.2 第2步—探索和准备数据925.2.3 第3步—基于数据训练模型945.2.4 第4步—评估模型的性能975.2.5 第5步—提高模型的性能975.3 理解分类规则1015.3.1 独立而治之1015.3.2 1R算法1035.3.3 RIPPER算法1045.3.4 来自决策树的规则1055.3.5 什么使决策树和规则贪婪1065.4 例子—应用规则学习算法识别有毒的蘑菇1085.4.1 第1步—收集数据1085.4.2 第2步—探索和准备数据1085.4.3 第3步—基于数据训练模型1095.4.4 第4步—评估模型的性能1115.4.5 第5步—提高模型的性能1125.5 总结114第6章 预测数值型数据—回归方法1156.1 理解回归1156.1.1 简单线性回归1176.1.2 普通最小二乘估计1196.1.3 相关性1206.1.4 多元线性回归1216.2 例子—应用线性回归预测医疗费用1246.2.1 第1步—收集数据1246.2.2 第2步—探索和准备数据1256.2.3 第3步—基于数据训练模型1296.2.4 第4步—评估模型的性能1316.2.5 第5步—提高模型的性能1326.3 理解回归树和模型树1346.4 例子—用回归树和模型树估计葡萄酒的质量1366.4.1 第1步—收集数据1376.4.2 第2步—探索和准备数据1376.4.3 第3步—基于数据训练模型1396.4.4 第4步—评估模型的性能1426.4.5 第5步—提高模型的性能1436.5 总结145第7章 黑箱方法—神经网络和支持向量机1477.1理解神经网络1477.1.1从生物神经元到人工神经元1487.1.2激活函数1497.1.3网络拓扑1517.1.4用后向传播训练神经网络1547.2例子—用人工神经网络对混凝土的强度进行建模1557.2.1第1步—收集数据1557.2.2第2步—探索和准备数据1567.2.3第3步—基于数据训练模型1577.2.4第4步—评估模型的性能1597.2.5第5步—提高模型的性能1597.3理解支持向量机1617.3.1用超平面分类1617.3.2对非线性空间使用核函数1647.4例子—用支持向量机进行光学字符识别1667.4.1第1步—收集数据1667.4.2第2步—探索和准备数据1677.4.3第3步—基于数据训练模型1687.4.4第4步—评估模型的性能1707.4.5第5步—提高模型的性能1717.5总结172第8章 探寻模式—基于关联规则的购物篮分析1738.1理解关联规则1738.1.1用于关联规则学习的Apriori算法1748.1.2度量规则兴趣度—支持度和置信度1758.1.3用Apriori原则建立规则1768.2例子—用关联规则确定经常一起购买的食品杂货1778.2.1第1步—收集数据1778.2.2第2步—探索和准备数据1788.2.3第3步—基于数据训练模型1838.2.4第4步—评估模型的性能1858.2.5第5步—提高模型的性能1878.3总结190第9章 寻找数据的分组—k均值聚类1919.1理解聚类1919.1.1聚类—一种机器学习任务1929.1.2k均值聚类算法1939.2例子—用k均值聚类探寻青少年市场细分1989.2.1第1步—收集数据1999.2.2第2步—探索和准备数据1999.2.3第3步—基于数据训练模型2039.2.4第4步—评估模型的性能2059.2.5第5步—提高模型的性能2079.3总结208