数据挖掘与知识发现(第3版)
作者: 李雄飞,董元方,李军
出版时间:2020-06
出版社:高等教育出版社
普通高等教育“十一五”国家级规划教材
- 高等教育出版社
- 9787040534658
- 3版
- 295857
- 44259728-2
- 平装
- 异16开
- 2020-06
- 450
- 400
- 工学
- 软件工程
- 计算机科学与技术
- 本科
本书全面系统地介绍数据挖掘与知识发现领域的基本原理、研究方法、部分产品和工业标准。全书共15章。第1章介绍数据分析技术的发展历程,KDD与数据挖掘的概念、对象、过程、方法、相关领域和应用范围。第2章介绍关联规则基本模型和Apriori等经典算法。第3章在介绍聚类概念的基础上,讨论包括划分、层次、密度等聚类方法。第4章介绍ID3、CART等决策树算法。第5章介绍图方法实现贝叶斯分类。第6章介绍VC维、支持向量机。第7章介绍人工神经网络。第8章介绍近期热点技术——深度学习。第9章介绍不平衡数据学习。第10章讨论过拟合、模型选择、模型评估等内容。第11、12章是不确定性、模糊性方法,分别介绍粗糙集和模糊集。第13章是Web挖掘,介绍Web链接分析、推荐系统和社交网络挖掘。第14章介绍数据预处理和可视化技术。第15章介绍数据挖掘工具与产品。
本书可用作高校计算机类专业本科及研究生相关课程的教材和教学参考书,也可供有关人员学习参考。为方便读者学习,随书同时提供配套的教学视频、PPT、参考答案等辅助教学资源。
前辅文
第1章 绪论
1.1 引言
1.2 数据量增长加快
1.3 KDD与数据挖掘
1.3.1 KDD定义
1.3.2 KDD过程
1.3.3 数据库技术发展与数据挖掘
1.4 数据挖掘的对象与环境
1.4.1 数据与系统特征
1.4.2 数据结构
1.4.3 数据库系统
1.5 数据挖掘方法与相关领域
1.5.1 数据挖掘相关领域
1.5.2 数据挖掘的重要技术
1.5.3 10个最具影响力的数据挖掘算法
1.6 数据挖掘系统与应用
本章小结
习题1
第2章 关联规则
2.1 引言
2.2 关联规则基本模型
2.2.1 关联规则基本模型
2.2.2 Apriori算法
2.2.3 FP算法
2.3 多级关联规则与多维关联规则
2.3.1 多级关联规则
2.3.2 多维关联规则
2.4 关联规则价值衡量与发展
2.4.1 规则价值衡量
2.4.2 基于约束的关联规则
2.4.3 关联规则进展
本章小结
习题2
第3章 聚类分析
3.1 聚类分析简介
3.2 聚类分析中的数据类型
3.3 划分聚类方法
3.3.1 k-均值算法
3.3.2 k-中心点算法
3.3.3 EM算法
3.4 层次聚类方法
3.4.1 凝聚的和分裂的层次聚类
3.4.2 利用层次方法进行平衡迭代归约和聚类
3.4.3 利用代表点聚类
3.4.4 采用动态建模技术的层次聚类算法
3.5 基于密度的聚类方法
3.6 基于网格的聚类方法
3.7 基于模型的聚类方法
3.8 孤立点分析
本章小结
习题3
第4章 决策树
4.1 引言
4.2 信息论
4.2.1 信息传输与数据挖掘
4.2.2 信息论主要概念
4.3 ID3算法
4.4 决策树的剪枝
4.4.1 预剪枝
4.4.2 后剪枝
4.4.3 决策树的性能评价
4.5 决策树算法的改进
4.5.1 二叉树决策算法
4.5.2 按增益率估值的方法
4.5.3 按分类信息估值的方法
4.5.4 按划分距离估值的方法
4.6 C4.5算法
4.7 CART算法
4.8 SLIQ算法
4.9 决策树与数据预处理
4.10 算法改进
本章小结
习题4
第5章 贝叶斯网络
5.1 贝叶斯网络基本概念
5.2 不确定性推理与联合概率分布
5.3 贝叶斯网络中的独立关系
5.3.1 条件独立
5.3.2 有向分离和条件独立
5.3.3 因果影响独立
5.3.4 环境独立
5.4 贝叶斯网络学习
5.4.1 结构学习
5.4.2 搜索算法
5.4.3 基于约束的方法
5.4.4 参数学习
5.5 贝叶斯网络分类器
5.5.1 朴素贝叶斯网络分类器
5.5.2 半朴素贝叶斯分类器与选择贝叶斯分类器
5.5.3 树增广朴素贝叶斯网络分类器
5.5.4 广义朴素贝叶斯网络分类器
本章小结
习题5
第6章 支持向量机
6.1 学习机器泛化性能的界
6.2 线性支持向量机
6.2.1 可分情形
6.2.2 非可分情形
6.3 非线性支持向量机
6.4 支持向量机的VC维
6.5 支持向量机的应用
6.5.1 手写体数字识别
6.5.2 文本分类
6.5.3 生物信息学中的支持向量机应用
本章小结
习题6
第7章 人工神经网络
7.1 人工神经元及人工神经网络模型
7.1.1 M-P模型
7.1.2 人工神经元的形式化描述
7.1.3 神经网络的分类
7.1.4 人工神经网络的学习方式
7.2 前向神经网络
7.2.1 感知器
7.2.2 多层前向神经网络的BP算法
7.2.3 径向基函数神经网络
7.3 反馈神经网络
7.3.1 前向神经网络与反馈神经网络的比较
7.3.2 反馈神经网络模型
7.3.3 离散型Hopfield神经网络
7.3.4 连续型Hopfield神经网络
7.3.5 Boltzmann机
7.4 自组织特征映射神经网络模型
7.5 基于人工神经网络的数据挖掘
本章小结
习题7
第8章 深度学习
8.1 深度学习简介
8.1.1 深度学习发展史
8.1.2 深度学习的表达方式
8.2 卷积神经网络
8.2.1 卷积层
8.2.2 全连接层和卷积层的区别
8.2.3 卷积运算
8.2.4 动机
8.2.5 池化层(子采样层)
8.2.6 主要的卷积神经网络
8.3 循环和递归网络
8.3.1 展开计算图
8.3.2 循环神经网络的设计
8.3.3 双向循环神经网络
8.3.4 基于编码—解码的序列架构
8.3.5 递归神经网络
8.3.6 长短期记忆和其他门控循环神经网络
本章小结
习题8
第9章 不平衡数据学习
9.1 不平衡数据学习的概念及本质
9.1.1 不平衡数据学习的概念
9.1.2 不平衡数据学习的研究情况
9.1.3 不平衡数据学习的主要研究内容
9.2 基于重采样的不平衡数据学习
9.2.1 重采样概述
9.2.2 主要的重采样方法
9.2.3 重采样方法的使用原则
9.3 用代价敏感学习方法处理不平衡数据
9.3.1 代价敏感学习方法简介
9.3.2 代价敏感学习方法的分类
9.3.3 代价敏感学习方法与其他方法的结合
9.4 用集成学习方法处理不平衡数据
9.4.1 模型平均和集成学习
9.4.2 集成学习的主要方法
9.5 不平衡数据学习中的模型选择
9.5.1 混淆矩阵
9.5.2 不平衡数据学习中的模型选择度量
本章小结
习题9
第10章 模型选择与模型评估
10.1 模型的过拟合
10.2 没有天生优越的分类器
10.3 模型、模型选择和模型评估
10.4 数据重用技术
10.4.1 简单划分和交叉验证
10.4.2 自助法
10.5 启发式方法:奥卡姆剃刀
10.6 解析方法
10.6.1 最小描述长度原理
10.6.2 信息准则
10.7 比较分类器的方法
10.7.1 估计准确率的置信区间
10.7.2 比较两个模型的性能
10.7.3 比较两种分类法的性能
10.8 聚类评估
10.8.1 假设检验
10.8.2 聚类评估中的假设检验
10.8.3 相对准则
本章小结
习题10
第11章 粗糙集
11.1 近似空间
11.1.1 近似空间与不可分辨关系
11.1.2 知识与知识库
11.2 近似与粗糙集
11.2.1 近似与粗糙集的基本概念
11.2.2 粗糙集的基本性质
11.3 粗糙集的特征描述
11.3.1 近似精度
11.3.2 粗糙集隶属函数
11.3.3 拓扑特征
11.4 知识约简
11.4.1 约简与核
11.4.2 相对约简与相对核
11.5 知识的依赖性
11.6 信息系统
11.6.1 信息系统的定义
11.6.2 分辨矩阵与分辨函数
11.7 决策表
11.8 决策规则
11.9 扩展的粗糙集模型
11.9.1 可变精度粗糙集模型
11.9.2 相似模型
本章小结
习题11
第12章 模糊集
12.1 模糊集定义与隶属函数
12.1.1 模糊集定义与隶属函数
12.1.2 模糊集合的表示法
12.2 模糊集的基本运算
12.3 分解定理与扩展原理
12.4 模糊集的特征
12.5 模糊集的度量
12.5.1 模糊度
12.5.2 模糊集间的距离
12.5.3 模糊集的贴近度
12.6 模糊关系
12.6.1 模糊关系定义
12.6.2 模糊关系的运算与性质
12.6.3 模糊等价关系与模糊相似关系
12.7 模糊聚类分析
12.7.1 模糊划分
12.7.2 模糊相似系数的标定方法
12.7.3 模糊聚类分析
12.7.4 传递闭包法
12.7.5 最大树法
12.7.6 模糊C-均值聚类方法
12.8 模糊集与粗糙集
本章小结
习题12
第13章 Web挖掘
13.1 Web抓取与资源发现
13.1.1 基本的爬虫算法
13.1.2 搜索引擎与查询处理
13.2 Web链接挖掘
13.2.1 HITS算法
13.2.2 PageRank算法
13.3 推荐系统
13.3.1 协同过滤系统
13.3.2 混合推荐系统
13.3.3 推荐系统面临的问题与挑战
13.4 社交网络
13.4.1 社交网络的概念和特征
13.4.2 社区探测
13.4.3 集合分类
13.4.4 链路预测
13.4.5 社会影响分析
本章小结
习题13
第14章 数据预处理与可视化技术
14.1 数据清理
14.1.1 填补空缺值
14.1.2 消除噪声数据
14.1.3 实现数据一致性
14.2 数据集成与转换
14.2.1 数据集成
14.2.2 数据转换
14.3 数据归约与浓缩
14.3.1 数据立方体聚集
14.3.2 维归约
14.3.3 数据压缩
14.3.4 数值归约
14.4 概念分层
14.4.1 概念分层的概念
14.4.2 概念分层的类型
14.4.3 数值数据的概念分层与离散化
14.4.4 分类数据的概念分层
14.5 可视化技术概述
14.5.1 可视化技术分类
14.5.2 可视化技术在数据挖掘中的应用
14.6 过程可视化
14.7 数据可视化
14.8 结果可视化
14.8.1 关联规则
14.8.2 分类
14.8.3 聚类
本章小结
习题14
第15章 数据挖掘工具与产品
15.1 数据挖掘标准
15.1.1 数据挖掘标准化概述
15.1.2 数据挖掘的过程标准
15.1.3 数据挖掘的接口标准
15.1.4 数据挖掘的语言标准
15.1.5 数据挖掘的Web标准
15.1.6 数据挖掘标准的应用与未来发展趋势
15.2 数据挖掘工具的介绍
15.2.1 数据挖掘工具发展过程概述
15.2.2 数据挖掘工具简介
15.2.3 WEKA
15.2.4 SPSS
15.3 数据挖掘产品分析
15.3.1 通用数据挖掘产品
15.3.2 专用数据挖掘产品
本章小结
附录 中英文术语对照
参考文献