全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

数据挖掘原理（第3版） / 国外计算机科学经典教材

定价：￥79.80

作者： [英]麦克斯·布拉默；王净译

出版时间：2019-09

出版社：清华大学出版社

以下为《数据挖掘原理（第3版）》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：清华大学出版社
ISBN：9787302526810
版次：1-1
图书编号：284105
本季征订号：48210411-4
开本：16开
出版时间：2019-09
适用专业：计算机
适用分级：本科

内容简介

《数据挖掘原理(第3版)》深入探讨重要的数据挖掘技术。所谓数据挖掘，即从数据中自动提取隐含和潜在有用的信息；该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。　　

普通读者可通过本书自学数据挖掘”黑匣子”内部的基本原理，并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解*前沿技术并进一步推动该领域的发展。　　

《数据挖掘原理(第3版)》在第2版的基础上进行扩展，透彻讲解适用于平稳数据的H-Tree算法，以及适用于时间相关数据(概念漂移)的CDH-Tree算法。

目录第 1 章数据挖掘简介 11.1 数据爆炸 11.2 知识发现 21.3 数据挖掘的应用 31.4 标签和无标签数据 41.5 监督学习：分类 41.6 监督学习：数值预测 51.7 无监督学习：关联规则 61.8 无监督学习：聚类 7第 2 章用于挖掘的数据 92.1 标准制定 92.2 变量的类型 102.3 数据准备 112.4 缺失值 132.4.1 丢弃实例 132.4.2 用最频繁值/平均值替换 132.5 减少属性个数 142.6 数据集的UCI存储库 152.7 本章小结 152.8 自我评估练习 15第 3 章分类简介：朴素贝叶斯和最近邻算法 173.1 什么是分类 173.2 朴素贝叶斯分类器 183.3 最近邻分类 243.3.1 距离测量 263.3.2 标准化 283.3.3 处理分类属性 293.4 急切式和懒惰式学习 303.5 本章小结 303.6 自我评估练习 30第 4 章使用决策树进行分类 314.1 决策规则和决策树 314.1.1 决策树：高尔夫示例 314.1.2 术语 334.1.3 degrees数据集 334.2 TDIDT算法 364.3 推理类型 384.4 本章小结 384.5 自我评估练习 39第 5 章决策树归纳：使用熵进行属性选择 415.1 属性选择：一个实验 415.2 替代决策树 425.2.1 足球/无板篮球示例 425.2.2 匿名数据集 445.3 选择要分裂的属性：使用熵 465.3.1 lens24数据集 465.3.2 熵 475.3.3 使用熵进行属性选择 485.3.4 信息增益最大化 505.4 本章小结 515.5 自我评估练习 51第 6 章决策树归纳：使用频率表进行属性选择 536.1 实践中的熵计算 536.1.1 等效性证明 556.1.2 关于零值的说明 566.2 其他属性选择标准：多样性基尼指数 566.3 χ2属性选择准则 576.4 归纳偏好 606.5 使用增益比进行属性选择 616.5.1 分裂信息的属性 626.5.2 总结 636.6 不同属性选择标准生成的规则数 636.7 缺失分支 646.8 本章小结 656.9 自我评估练习 65第 7 章估计分类器的预测精度 677.1 简介 677.2 方法1：将数据划分为训练集和测试集 687.2.1 标准误差 687.2.2 重复训练和测试 697.3 方法2：k-折交叉验证 707.4 方法3：N -折交叉验证 707.5 实验结果I 717.6 实验结果II：包含缺失值的数据集 737.6.1 策略1：丢弃实例 737.6.2 策略2：用最频繁值/平均值替换 747.6.3 类别缺失 757.7 混淆矩阵 757.8 本章小结 777.9 自我评估练习 77第 8 章连续属性 798.1 简介 798.2 局部与全局离散化 818.3 向TDIDT添加局部离散化 818.3.1 计算一组伪属性的信息增益 828.3.2 计算效率 868.4 使用ChiMerge算法进行全局离散化 888.4.1 计算期望值和χ2 908.4.2 查找阈值 948.4.3 设置minIntervals和maxIntervals 958.4.4 ChiMerge算法：总结 968.4.5 对ChiMerge算法的评述 968.5 比较树归纳法的全局离散化和局部离散化 978.6 本章小结 988.7 自我评估练习 98第 9 章避免决策树的过度拟合 999.1 处理训练集中的冲突 999.2 关于过度拟合数据的更多规则 1039.3 预剪枝决策树 1049.4 后剪枝决策树 1069.5 本章小结 1119.6 自我评估练习 111第 10 章关于熵的更多信息 11310.1 简介 11310.2 使用位的编码信息 11610.3 区分值 11710.4 对”非等可能”的值进行编码 11810.5 训练集的熵 12110.6 信息增益必须为正数或零 12210.7 使用信息增益来简化分类任务的特征 12310.7.1 示例1：genetics数据集 12410.7.2 示例2：bcst96数据集 12610.8 本章小结 12810.9 自我评估练习 128第 11 章归纳分类的模块化规则 12911.1 规则后剪枝 12911.2 冲突解决 13011.3 决策树的问题 13311.4 Prism算法 13511.4.1 基本Prism算法的变化 14111.4.2 将Prism算法与TDIDT算法进行比较 14211.5 本章小结 14311.6 自我评估练习 143第 12 章度量分类器的性能 14512.1 真假正例和真假负例 14612.2 性能度量 14712.3 真假正例率与预测精度 15012.4 ROC图 15112.5 ROC曲线 15312.6 寻找最佳分类器 15312.7 本章小结 15512.8 自我评估练习 155第 13 章处理大量数据 15713.1 简介 15713.2 将数据分发到多个处理器 15913.3 案例研究：PMCRI 16113.4 评估分布式系统PMCRI的有效性 16313.5 逐步修改分类器 16713.6 本章小结 17113.7 自我评估练习 171第 14 章集成分类 17314.1 简介 17314.2 估计分类器的性能 17514.3 为每个分类器选择不同的训练集 17614.4 为每个分类器选择一组不同的属性 17714.5 组合分类：替代投票系统 17714.6 并行集成分类器 18014.7 本章小结 18114.8 自我评估练习 181第 15 章比较分类器 18315.1 简介 18315.2 配对t检验 18415.3 为比较评估选择数据集 18915.4 抽样 19115.5 ”无显著差异”的结果有多糟糕? 19315.6 本章小结 19415.7 自我评估练习 194第 16 章关联规则挖掘I 19516.1 简介 19516.2 规则兴趣度的衡量标准 19616.2.1 Piatetsky-Shapiro标准和RI度量 19816.2.2 规则兴趣度度量应用于chess数据集 20016.2.3 使用规则兴趣度度量来解决冲突 20116.3 关联规则挖掘任务 20216.4 找到最佳N条规则 20216.4.1 J-Measure：度量规则的信息内容 20316.4.2 搜索策略 20416.5 本章小结 20716.6 自我评估练习 207第 17 章关联规则挖掘II 20917.1 简介 20917.2 事务和项目集 20917.3 对项目集的支持 21117.4 关联规则 21117.5 生成关联规则 21317.6 Apriori 21417.7 生成支持项目集：一个示例 21717.8 为支持项目集生成规则 21917.9 规则兴趣度度量：提升度和杠杆率 22017.10 本章小结 22217.11 自我评估练习 222第 18 章关联规则挖掘III：频繁模式树 22518.1 简介：FP-growth 22518.2 构造FP-tree 22718.2.1 预处理事务数据库 22718.2.2 初始化 22918.2.3 处理事务1：f, c, a, m, p 23018.2.4 处理事务2：f, c, a, b, m 23118.2.5 处理事务3：f, b 23518.2.6 处理事务4：c, b, p 23618.2.7 处理事务5：f, c, a, m, p 23618.3 从FP-tree中查找频繁项目集 23818.3.1 以项目p结尾的项目集 24018.3.2 以项目m结尾的项目集 24818.4 本章小结 25418.5 自我评估练习 254第 19 章聚类 25519.1 简介 25519.2 k-means聚类 25719.2.1 示例 25819.2.2 找到最佳簇集 26219.3 凝聚式层次聚类 26319.3.1 记录簇间距离 26519.3.2 终止聚类过程 26819.4 本章小结 26819.5 自我评估练习 268第 20 章文本挖掘 26920.1 多重分类 26920.2 表示数据挖掘的文本文档 27020.3 停用词和词干 27120.4 使用信息增益来减少特征 27220.5 表示文本文档：构建向量空间模型 27220.6 规范权重 27320.7 测量两个向量之间的距离 27420.8 度量文本分类器的性能 27520.9 超文本分类 27520.9.1 对网页进行分类 27620.9.2 超文本分类与文本分类 27720.10 本章小结 27920.11 自我评估练习 280第 21 章分类流数据 28121.1 简介 28121.2 构建H-Tree：更新数组 28321.2.1 currentAtts数组 28421.2.2 splitAtt数组 28421.2.3 将记录排序到适当的叶节点 28421.2.4 hitcount数组 28521.2.5 classtotals数组 28521.2.6 acvCounts阵列 28521.2.7 branch数组 28621.3 构建H-Tree：详细示例 28721.3.1 步骤1：初始化根节点0 28721.3.2 步骤2：开始读取记录 28721.3.3 步骤3：考虑在节点0处分裂 28821.3.4 步骤4：在根节点上拆分并初始化新的叶节点 28921.3.5 步骤5：处理下一组记录 29021.3.6 步骤6：考虑在节点2处分裂 29221.3.7 步骤7：处理下一组记录 29221.3.8 H-Tree算法概述 29321.4 分裂属性：使用信息增益 29521.5 分裂属性：使用Hoeffding边界 29721.6 H-Tree算法：最终版本 30021.7 使用不断进化的H-Tree进行预测 30221.8 实验：H-Tree与TDIDT 30421.8.1 lens24数据集 30421.8.2 vote数据集 30621.9 本章小结 30721.10 自我评估练习 307第 22 章分类流数据II：时间相关数据 30922.1 平稳数据与时间相关数据 30922.2 H-Tree算法总结 31122.2.1 currentAtts数组 31222.2.2 splitAtt数组 31222.2.3 hitcount数组 31222.2.4 classtotals数组 31222.2.5 acvCounts数组 31322.2.6 branch数组 31322.2.7 H-Tree算法的伪代码 31322.3 从H-Tree到CDH-Tree：概述 31522.4 从H-Tree转换到CDH-Tree：递增计数 31522.5 滑动窗口法 31622.6 在节点处重新分裂 32022.7 识别可疑节点 32022.8 创建备用节点 32222.9 成长/遗忘备用节点及其后代 32522.10 用备用节点替换一个内部节点 32722.11 实验：跟踪概念漂移 33322.11.1 lens24数据：替代模式 33522.11.2 引入概念漂移 33522.11.3 使用交替lens24数据的实验 33622.11.4 关于实验的评论 34322.12 本章小结 34322.13 自我评估练习 343附录 A 基本数学知识 345附录 B 数据集 357附录 C 更多信息来源 371附录 D 词汇表和符号 373附录 E 自我评估练习题答案 391参考文献 419