数据挖掘:概念与技术(原书第3版) / 计算机科学丛书
¥79.00定价
作者: Jiawei Han,Micheline Kamber;范明,孟小峰译
出版时间:2012-08
出版社:机械工业出版社
- 机械工业出版社
- 9787111391401
- 3版
- 210073
- 44219937-8
- 平装
- 16开
- 2012-08
- 737
- 491
- 工学
- 计算机科学与技术
- 计算机通信类
- 本科
内容简介
本书完整全面地讲述数据挖掘的概念、方法、技术和*研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。
本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
目录
出版者的话中文版序译者序译者简介第3版序第2版序前言致谢作者简介第1章 引论1.1 为什么进行数据挖掘1.1.1 迈向信息时代1.1.2 数据挖掘是信息技术的进化1.2 什么是数据挖掘1.3 可以挖掘什么类型的数据1.3.1 数据库数据1.3.2 数据仓库1.3.3 事务数据1.3.4 其他类型的数据1.4 可以挖掘什么类型的模式1.4.1 类/概念描述:特征化与区分1.4.2 挖掘频繁模式、关联和相关性1.4.3 用于预测分析的分类与回归1.4.4 聚类分析1.4.5 离群点分析1.4.6 所有模式都是有趣的吗1.5 使用什么技术1.5.1 统计学1.5.2 机器学习1.5.3 数据库系统与数据仓库1.5.4 信息检索1.6 面向什么类型的应用1.6.1 商务智能1.6.2 Web搜索引擎1.7 数据挖掘的主要问题1.7.1 挖掘方法1.7.2 用户界面1.7.3 有效性和可伸缩性1.7.4 数据库类型的多样性1.7.5 数据挖掘与社会1.8 小结1.9 习题1.10 文献注释第2章 认识数据2.1 数据对象与属性类型2.1.1 什么是属性2.1.2 标称属性2.1.3 二元属性2.1.4 序数属性2.1.5 数值属性2.1.6 离散属性与连续属性2.2 数据的基本统计描述2.2.1 中心趋势度量:均值、中位数和众数2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差2.2.3 数据的基本统计描述的图形显示2.3 数据可视化2.3.1 基于像素的可视化技术2.3.2 几何投影可视化技术2.3.3 基于图符的可视化技术2.3.4 层次可视化技术2.3.5 可视化复杂对象和关系2.4 度量数据的相似性和相异性2.4.1 数据矩阵与相异性矩阵2.4.2 标称属性的邻近性度量2.4.3 二元属性的邻近性度量2.4.4 数值属性的相异性:闵可夫斯基距离2.4.5 序数属性的邻近性度量2.4.6 混合类型属性的相异性2.4.7 余弦相似性2.5 小结2.6 习题2.7 文献注释第3章 数据预处理3.1 数据预处理:概述3.1.1 数据质量:为什么要对数据预处理3.1.2 数据预处理的主要任务3.2 数据清理3.2.1 缺失值3.2.2 噪声数据3.2.3 数据清理作为一个过程3.3 数据集成3.3.1 实体识别问题3.3.2 冗余和相关分析3.3.3 元组重复3.3.4 数据值冲突的检测与处理3.4 数据归约3.4.1 数据归约策略概述3.4.2 小波变换3.4.3 主成分分析3.4.4 属性子集选择3.4.5 回归和对数线性模型:参数化数据归约3.4.6 直方图3.4.7 聚类3.4.8 抽样3.4.9 数据立方体聚集3.5 数据变换与数据离散化3.5.1 数据变换策略概述3.5.2 通过规范化变换数据3.5.3 通过分箱离散化3.5.4 通过直方图分析离散化3.5.5 通过聚类、决策树和相关分析离散化3.5.6 标称数据的概念分层产生3.6 小结3.7 习题3.8 文献注释第4章 数据仓库与联机分析处理4.1 数据仓库:基本概念4.1.1 什么是数据仓库4.1.2 操作数据库系统与数据仓库的区别4.1.3 为什么需要分离的数据仓库4.1.4 数据仓库:一种多层体系结构4.1.5 数据仓库模型:企业仓库、数据集市和虚拟仓库4.1.6 数据提取、变换和装入4.1.7 元数据库4.2 数据仓库建模:数据立方体与OLAP4.2.1 数据立方体:一种多维数据模型4.2.2 星形、雪花形和事实星座:多维数据模型的模式4.2.3 维:概念分层的作用4.2.4 度量的分类和计算4.2.5 典型的OLAP操作4.2.6 查询多维数据库的星网查询模型4.3 数据仓库的设计与使用4.3.1 数据仓库的设计的商务分析框架4.3.2 数据仓库的设计过程4.3.3 数据仓库用于信息处理4.3.4 从联机分析处理到多维数据挖掘4.4 数据仓库的实现4.4.1 数据立方体的有效计算:概述4.4.2 索引OLAP数据:位图索引和连接索引4.4.3 OLAP查询的有效处理4.4.4 OLAP服务器结构:ROLAP、MOLAP、HOLAP的比较4.5 数据泛化:面向属性的归纳4.5.1 数据特征的面向属性的归纳4.5.2 面向属性归纳的有效实现4.5.3 类比较的面向属性归纳4.6 小结4.7 习题4.8 文献注释第5章 数据立方体技术5.1 数据立方体计算:基本概念5.1.1 立方体物化:完全立方体、冰山立方体、闭立方体和立方体外壳5.1.2 数据立方体计算的一般策略5.2 数据立方体计算方法5.2.1 完全立方体计算的多路数组聚集5.2.2 BUC:从顶点方体向下计算冰山立方体5.2.3 Star-Cubing:使用动态星树结构计算冰山立方体5.2.4 为快速高维OLAP预计算壳片段5.3 使用探索立方体技术处理高级查询5.3.1 抽样立方体:样本数据上基于OLAP的挖掘5.3.2 排序立方体:top-k查询的有效计算5.4 数据立方体空间的多维数据分析5.4.1 预测立方体:立方体空间的预测挖掘5.4.2 多特征立方体:多粒度上的复杂聚集5.4.3 基于异常的、发现驱动的立方体空间探查5.5 小结5.6 习题5.7 文献注释第6章 挖掘频繁模式、关联和相关性:基本概念和方法6.1 基本概念6.1.1 购物篮分析:一个诱发例子6.1.2 频繁项集、闭项集和关联规则6.2 频繁项集挖掘方法6.2.1 Apriori算法:通过限制候选产生发现频繁项集6.2.2 由频繁项集产生关联规则6.2.3 提高Apriori算法的效率6.2.4 挖掘频繁项集的模式增长方法6.2.5 使用垂直数据格式挖掘频繁项集6.2.6 挖掘闭模式和极大模式6.3 哪些模式是有趣的:模式评估方法6.3.1 强规则不一定是有趣的6.3.2 从关联分析到相关分析6.3.3 模式评估度量比较6.4 小结6.5 习题6.6 文献注释第7章 高级模式挖掘7.1 模式挖掘:一个路线图7.2 多层、多维空间中的模式挖掘7.2.1 挖掘多层关联规则7.2.2 挖掘多维关联规则7.2.3 挖掘量化关联规则7.2.4 挖掘稀有模式和负模式7.3 基于约束的频繁模式挖掘7.3.1 关联规则的元规则制导挖掘7.3.2 基于约束的模式产生:模式空间剪枝和数据空间剪枝7.4 挖掘高维数据和巨型模式7.5 挖掘压缩或近似模式7.5.1 通过模式聚类挖掘压缩模式7.5.2 提取感知冗余的top-k模式7.6 模式探索与应用7.6.1 频繁模式的语义注解7.6.2 模式挖掘的应用7.7 小结7.8 习题7.9 文献注释第8章 分类:基本概念8.1 基本概念8.1.1 什么是分类8.1.2 分类的一般方法8.2 决策树归纳8.2.1 决策树归纳8.2.2 属性选择度量8.2.3 树剪枝8.2.4 可伸缩性与决策树归纳8.2.5 决策树归纳的可视化挖掘8.3 贝叶斯分类方法8.3.1 贝叶斯定理8.3.2 朴素贝叶斯分类8.4 基于规则的分类8.4.1 使用IF-THEN规则分类8.4.2 由决策树提取规则8.4.3 使用顺序覆盖算法的规则归纳8.5 模型评估与选择8.5.1 评估分类器性能的度量8.5.2 保持方法和随机二次抽样8.5.3 交叉验证8.5.4 自助法8.5.5 使用统计显著性检验选择模型8.5.6 基于成本效益和ROC曲线比较分类器8.6 提高分类准确率的技术8.6.1 组合分类方法简介8.6.2 装袋8.6.3 提升和AdaBoost8.6.4 随机森林8.6.5 提高类不平衡数据的分类准确率8.7 小结8.8 习题8.9 文献注释第9章 分类:高级方法9.1 贝叶斯信念网络9.1.1 概念和机制9.1.2 训练贝叶斯信念网络9.2 用后向传播分类9.2.1 多层前馈神经网络9.2.2 定义网络拓扑9.2.3 后向传播9.2.4 黑盒内部:后向传播和可解释性9.3 支持向量机9.3.1 数据线性可分的情况9.3.2 数据非线性可分的情况9.4 使用频繁模式分类9.4.1 关联分类9.4.2 基于有区别力的频繁模式分类9.5 惰性学习法(或从近邻学习)9.5.1 k-最近邻分类9.5.2 基于案例的推理9.6 其他分类方法9.6.1 遗传算法9.6.2 粗糙集方法9.6.3 模糊集方法9.7 关于分类的其他问题9.7.1 多类分类9.7.2 半监督分类9.7.3 主动学习9.7.4 迁移学习9.8 小结9.9 习题9.10 文献注释第10章 聚类分析:基本概念和方法10.1 聚类分析10.1.1 什么是聚类分析10.1.2 对聚类分析的要求10.1.3 基本聚类方法概述10.2 划分方法10.2.1 k-均值:一种基于形心的技术10.2.2 k-中心点:一种基于代表对象的技术10.3 层次方法10.3.1 凝聚的与分裂的层次聚类10.3.2 算法方法的距离度量10.3.3 BIRCH:使用聚类特征树的多阶段聚类10.3.4 Chameleon:使用动态建模的多阶段层次聚类10.3.5 概率层次聚类10.4 基于密度的方法10.4.1 DBSCAN:一种基于高密度连通区域的基于密度的聚类10.4.2 OPTICS:通过点排序识别聚类结构10.4.3 DENCLUE:基于密度分布函数的聚类10.5 基于网格的方法10.5.1 STING:统计信息网格10.5.2 CLIQUE:一种类似于Apriori的子空间聚类方法10.6 聚类评估10.6.1 估计聚类趋势10.6.2 确定簇数10.6.3 测定聚类质量10.7 小结10.8 习题10.9 文献注释第11章 高级聚类分析11.1 基于概率模型的聚类11.1.1 模糊簇11.1.2 基于概率模型的聚类11.1.3 期望最大化算法11.2 聚类高维数据11.2.1 聚类高维数据:问题、挑战和主要方法11.2.2 子空间聚类方法11.2.3 双聚类11.2.4 维归约方法和谱聚类11.3 聚类图和网络数据11.3.1 应用与挑战11.3.2 相似性度量11.3.3 图聚类方法11.4 具有约束的聚类11.4.1 约束的分类11.4.2 具有约束的聚类方法11.5 小结11.6 习题11.7 文献注释第12章 离群点检测12.1 离群点和离群点分析12.1.1 什么是离群点12.1.2 离群点的类型12.1.3 离群点检测的挑战12.2 离群点检测方法12.2.1 监督、半监督和无监督方法12.2.2 统计方法、基于邻近性的方法和基于聚类的方法12.3 统计学方法12.3.1 参数方法12.3.2 非参数方法12.4 基于邻近性的方法12.4.1 基于距离的离群点检测和嵌套循环方法12.4.2 基于网格的方法12.4.3 基于密度的离群点检测12.5 基于聚类的方法12.6 基于分类的方法12.7 挖掘情境离群点和集体离群点12.7.1 把情境离群点检测转换成传统的离群点检测12.7.2 关于情境对正常行为建模12.7.3 挖掘集体离群点12.8 高维数据中的离群点检测12.8.1 扩充的传统离群点检测12.8.2 发现子空间中的离群点12.8.3 高维离群点建模12.9 小结12.10 习题12.11 文献注释第13章 数据挖掘的发展趋势和研究前沿13.1 挖掘复杂的数据类型13.1.1 挖掘序列数据:时间序列、符号序列和生物学序列13.1.2 挖掘图和网络13.1.3 挖掘其他类型的数据13.2 数据挖掘的其他方法13.2.1 统计学数据挖掘13.2.2 关于数据挖掘基础的观点13.2.3 可视和听觉数据挖掘13.3 数据挖掘应用13.3.1 金融数据分析的数据挖掘13.3.2 零售和电信业的数据挖掘13.3.3 科学与工程数据挖掘13.3.4 入侵检测和预防数据挖掘13.3.5 数据挖掘与推荐系统13.4 数据挖掘与社会13.4.1 普适的和无形的数据挖掘13.4.2 数据挖掘的隐私、安全和社会影响13.5 数据挖掘的发展趋势13.6 小结13.7 习题13.8 文献注释参考文献索引