- 机械工业出版社
- 9787111589167
- 1-2
- 209215
- 46257895-6
- 平装
- 16开
- 2018-03
- 410
- 417
- 工学
- 计算机科学与技术
- TP274
- 数据科学与大数据技术
- 本科
内容简介
本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版全面反映了该领域的最新技术变革,包括关于概率方法和深度学习的重要新章节。此外,备受欢迎的机器学习软件Weka再度升级,读者可以在友好的交互界面中执行数据挖掘任务。书中的基础知识清晰详细,实践工具和技术指导具体实用,不仅适合作为高等院校相关专业的本科生或研究生教材,也可供广大技术人员参考。
目录
目 录Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition译者序前言致谢第一部分 数据挖掘基础第1章 绪论 21.1 数据挖掘和机器学习 21.1.1 描述结构模式 31.1.2 机器学习 51.1.3 数据挖掘 61.2 简单的例子:天气问题和其他问题 61.2.1 天气问题 61.2.2 隐形眼镜:一个理想化的问题 81.2.3 鸢尾花:一个经典的数值型数据集 91.2.4 CPU性能:引入数值预测 101.2.5 劳资协商:一个更真实的例子 111.2.6 大豆分类:一个经典的机器学习的成功例子 121.3 应用领域 141.3.1 Web挖掘 141.3.2 包含判断的决策 151.3.3 图像筛选 151.3.4 负载预测 161.3.5 诊断 171.3.6 市场和销售 171.3.7 其他应用 181.4 数据挖掘过程 191.5 机器学习和统计学 201.6 将泛化看作搜索 211.6.1 枚举概念空间 221.6.2 偏差 221.7 数据挖掘和道德问题 241.7.1 再识别 241.7.2 使用个人信息 251.7.3 其他问题 261.8 拓展阅读及参考文献 26第2章 输入:概念、实例和属性 292.1 概念 292.2 实例 312.2.1 关系 312.2.2 其他实例类型 342.3 属性 352.4 输入准备 362.4.1 数据收集 372.4.2 ARFF格式 372.4.3 稀疏数据 392.4.4 属性类型 402.4.5 缺失值 412.4.6 不正确的值 422.4.7 非均衡数据 422.4.8 了解数据 432.5 拓展阅读及参考文献 43第3章 输出:知识表达 443.1 表 443.2 线性模型 443.3 树 463.4 规则 493.4.1 分类规则 493.4.2 关联规则 523.4.3 包含例外的规则 533.4.4 表达能力更强的规则 543.5 基于实例的表达 563.6 聚类 583.7 拓展阅读及参考文献 59第4章 算法:基本方法 604.1 推断基本规则 604.2 简单概率模型 634.2.1 缺失值和数值属性 654.2.2 用于文档分类的朴素贝叶斯 674.2.3 讨论 684.3 分治法:创建决策树 694.3.1 计算信息量 714.3.2 高度分支属性 734.4 覆盖算法:建立规则 744.4.1 规则与树 754.4.2 一个简单的覆盖算法 764.4.3 规则与决策列表 794.5 关联规则挖掘 794.5.1 项集 804.5.2 关联规则 814.5.3 高效地生成规则 844.6 线性模型 864.6.1 数值预测:线性回归 864.6.2 线性分类:logistic回归 874.6.3 使用感知机的线性分类 894.6.4 使用Winnow的线性分类 904.7 基于实例的学习 914.7.1 距离函数 924.7.2 高效寻找最近邻 924.7.3 讨论 964.8 聚类 964.8.1 基于距离的迭代聚类 974.8.2 更快的距离计算 984.8.3 选择簇的个数 994.8.4 层次聚类 1004.8.5 层次聚类示例 1014.8.6 增量聚类 1024.8.7 分类效用 1044.8.8 讨论 1064.9 多实例学习 1074.9.1 聚集输入 1074.9.2 聚集输出 1074.10 拓展阅读及参考文献 1084.11 Weka实现 109第5章 可信度:评估学习结果 1115.1 训练和测试 1115.2 预测性能 1135.3 交叉验证 1155.4 其他评估方法 1165.4.1 留一交叉验证法 1165.4.2 自助法 1165.5 超参数选择 1175.6 数据挖掘方法比较 1185.7 预测概率 1215.7.1 二次损失函数 1215.7.2 信息损失函数 1225.7.3 讨论 1235.8 计算成本 1235.8.1 成本敏感分类 1255.8.2 成本敏感学习 1265.8.3 提升图 1265.8.4 ROC曲线 1295.8.5 召回率–精确率曲线 1305.8.6 讨论 1315.8.7 成本曲线 1325.9 评估数值预测 1345.10 最小描述长度原理 1365.11 将MDL原理应用于聚类 1385.12 使用验证集进行模型选择 1385.13 拓展阅读及参考文献 139第二部分 高级机器学习方案第6章 树和规则 1446.1 决策树 1446.1.1 数值属性 1446.1.2 缺失值 1456.1.3 剪枝 1466.1.4 估计误差率 1476.1.5 决策树归纳法的复杂度 1496.1.6 从决策树到规则 1506.1.7 C4.5:选择和选项 1506.1.8 成本–复杂度剪枝 1516.1.9 讨论 1516.2 分类规则 1526.2.1 选择测试的标准 1526.2.2 缺失值和数值属性 1536.2.3 生成好的规则 1536.2.4 使用全局优化 1556.2.5 从局部决策树中获得规则 1576.2.6 包含例外的规则 1586.2.7 讨论 1606.3 关联规则 1616.3.1 建立频繁模式树 1616.3.2 寻找大项集 1636.3.3 讨论 1666.4 Weka 实现 167第7章 基于实例的学习和线性模型的扩展 1687.1 基于实例的学习 1687.1.1 减少样本集的数量 1687.1.2 对噪声样本集剪枝 1697.1.3 属性加权 1707.1.4 泛化样本集 1707.1.5 用于泛化样本集的距离函数 1717.1.6 泛化的距离函数 1727.1.7 讨论 1727.2 扩展线性模型 1737.2.1 最大间隔超平面 1737.2.2 非线性类边界