数据挖掘基础及其应用
¥49.00定价
作者: 马小科
出版时间:2020-08
出版社:西安电子科技大学出版社
- 西安电子科技大学出版社
- 9787560658810
- 1版
- 349567
- 平装
- 16开
- 2020-08
- 424
- 288
- TP274
- 自动化技术、计算技术
内容简介
本书全面介绍了数据挖掘基础及其应用,重点阐述了数据挖掘经典算法、原理及其应用,旨在为读者提供数据挖掘所需的基本知识,使读者能够从整体上对数据挖掘内容与方法有所理解。本书内容包含五个主题:数据、分类、关联规则、聚类分析及其应用。对于分类、关联规则、聚类分析这三个主题,首先介绍了其基本概念与经典算法,在后续的章节中阐述了其更高级的主题。
本书可作为高等学校计算机相关专业的高年级本科生与研究生教材, 也可作为需要理解数据挖掘和智能系统的专业人员的参考书。
本书可作为高等学校计算机相关专业的高年级本科生与研究生教材, 也可作为需要理解数据挖掘和智能系统的专业人员的参考书。
目录
第1章 绪论 1
1.1 数据概述 1
1.2 数据与社会变革 3
1.2.1 数据改变思维模式 3
1.2.2 数据改变社会模式 3
1.2.3 数据改变国家战略 4
1.3 数据挖掘的定义 5
1.4 数据挖掘的发展与应用 7
1.4.1 数据挖掘的发展 7
1.4.2 数据挖掘的应用 8
1.5 数据挖掘的任务与挑战 9
1.5.1 数据挖掘的任务 10
1.5.2 数据挖掘面临的挑战 12
1.6 本书内容与组织 13
1.6.1 章节安排 13
1.6.2 辅助阅读材料 15
本章小结 16
习题 16
参考文献 17
第2章 数据 21
2.1 数据的定义 21
2.2 属性的分类 22
2.3 数据类型 24
2.3.1 数据的特性 24
2.3.2 数据的分类 24
2.4 相似性计算 26
2.4.1 相似性定义 26
2.4.2 单属性相似性度量 28
2.4.3 多属性相似性度量 29
本章小结 35
习题 35
参考文献 37
第3章 数据预处理 38
3.1 数据质量 38
3.1.1 误差与噪声 38
3.1.2 应用问题 41
3.2 数据预处理概述 41
3.3 数据清洗 43
3.3.1 缺失数据处理 43
3.3.2 噪声数据处理 43
3.3.3 不一致数据处理 45
3.4 数据集成与转换 45
3.4.1 数据集成处理 45
3.4.2 数据转换处理 46
3.4.3 离散化和二进制化 47
3.5 数据约简 49
3.5.1 数据立方归并 49
3.5.2 维数约简 50
3.5.3 数据压缩 51
3.5.4 数据块约简 52
本章小结 55
习题 55
参考文献 57
第4章 分类I:概念与决策树算法 58
4.1 引言 58
4.1.1 分类的定义 58
4.1.2 分类的应用 59
4.1.3 分类算法 60
4.2 决策树 61
4.3 决策树原理与构建 63
4.3.1 算法原理 64
4.3.2 分支原则 65
4.3.3 最优划分 67
4.4 补充算法 76
4.4.1 ID3算法 76
4.4.2 C4.5算法 77
4.5 过拟合/欠拟合 80
4.5.1 定义 80
4.5.2 规避策略 81
4.6 分类准确性评估 86
4.6.1 准确性 86
4.6.2 ROC曲线 87
本章小结 90
习题 90
参考文献 94
第5章 分类Ⅱ:支持向量机 95
5.1 引言 95
5.2 数学模型 96
5.2.1 算法动机 96
5.2.2 数学模型 97
5.3 优化理论 99
5.3.1 凸优化 99
5.3.2 对偶理论 99
5.3.3 拉格朗日方法和KKT条件 101
5.4 SVM优化 103
5.4.1 硬间隔SVM 103
5.4.2 软间隔SVM 104
5.5 非线性SVM 106
5.6 SVM的应用 109
5.6.1 人脸识别 110
5.6.2 语音识别 110
5.6.3 图像处理 110
本章小结 111
习题 112
参考文献 113
第6章 分类Ⅲ:概率分类与回归 115
6.1 引言 115
6.2 贝叶斯公式 116
6.2.1 概率基础 116
6.2.2 图论基础 118
6.2.3 信息理论 118
6.3 贝叶斯分类算法 119
6.3.1 算法原理 119
6.3.2 朴素贝叶斯算法 121
6.3.3 算法应用 124
6.4 贝叶斯信念网络 125
6.4.1 定义与推理 126
6.4.2 结构学习(网络构建) 128
6.4.3 贝叶斯信念网络的特点 130
6.5 回归分析 131
6.5.1 预备知识 131
6.5.2 线性回归 131
6.5.3 多元线性回归 135
6.5.4 最小二乘回归 136
本章小结 136
习题 137
参考文献 139
第7章 关联规则Ⅰ:频繁模式挖掘 141
7.1 引言 141
7.2 基本概念 143
7.3 频繁项集挖掘 144
7.3.1 暴力破解方法 144
7.3.2 Apriori算法 145
7.3.3 加速技术 150
7.4 频繁模式树算法 153
7.4.1 FP树表示法 153
7.4.2 FP算法的频繁项集的产生 154
7.4.3 FP树挖掘对比Apriori算法 157
本章小结 158
习题 158
参考文献 161
第8章 关联规则Ⅱ:关联规则挖掘 162
8.1 引言 162
8.2 关联规则提取 162
8.2.1 候选规则创建 163
8.2.2 关联规则挖掘 164
8.3 规则评价标准 167
8.3.1 支持度与置信度缺陷 167
8.3.2 关联规则价值衡量的方法 168
8.4 规则评价指标 169
8.4.1 兴趣度 169
8.4.2 其他度量 172
8.5 一致性问题 174
8.6 关联规则的应用 177
8.6.1 关联规则与CRM 177
8.6.2 CRM关联规则挖掘 178
本章小结 180
习题 180
参考文献 183
第9章 聚类分析Ⅰ:概念与
K均值算法 185
9.1 引言 185
9.2 聚类流程与方法 187
9.2.1 聚类流程 187
9.2.2 聚类方法 189
9.3 K均值算法 190
9.3.1 算法的三大要素 191
9.3.2 算法的流程 192
9.3.3 算法的性能分析 194
9.4 K均值算法的拓展 195
9.5 图像分割的应用 196
本章小结 198
习题 199
参考文献 200
第10章 聚类分析Ⅱ: 分层聚类与
密度聚类 201
10.1 引言 201
10.2 分层聚类 202
10.2.1 算法流程 202
10.2.2 集合距离计算 204
10.3 分层聚类的实现 206
10.4 密度聚类 211
10.4.1 类密度 211
10.4.2 算法过程 213
10.5 聚类结果评估 215
10.6 聚类算法对比 217
10.6.1 K均值算法 217
10.6.2 分层聚类 217
10.6.3 DBSCAN算法 218
本章小结 218
习题 219
参考文献 220
第11章 社交网络图聚类 221
11.1 引言 221
11.2 社团结构 222
11.2.1 社团度量标准 223
11.2.2 社团检测算法 223
11.3 半监督学习 225
11.4 社团挖掘 226
11.4.1 算法框架 226
11.4.2 参数优化 227
11.5 实验结果 228
11.5.1 检测性能 229
11.5.2 分辨极限容忍性分析 231
本章小结 234
参考文献 234
第12章 生物网络挖掘 236
12.1 引言 236
12.2 相关工作 237
12.3 基于图通信的检测算法 238
12.3.1 拓扑刻画 239
12.3.2 复合体检测 241
12.4 基于弱连接的检测算法 244
12.4.1 弱连接效应 244
12.4.2 置信网络构建 246
12.4.3 复合体检测 247
12.5 实验结果 247
12.5.1 实验数据 247
12.5.2 F值与覆盖率 248
12.5.3 P值 249
12.5.4 参数影响 251
12.5.5 鲁棒性分析 256
12.6 图密度与复合体拓扑关系 258
本章小结 259
参考文献 260
附录 数学基础 262
1.1 数据概述 1
1.2 数据与社会变革 3
1.2.1 数据改变思维模式 3
1.2.2 数据改变社会模式 3
1.2.3 数据改变国家战略 4
1.3 数据挖掘的定义 5
1.4 数据挖掘的发展与应用 7
1.4.1 数据挖掘的发展 7
1.4.2 数据挖掘的应用 8
1.5 数据挖掘的任务与挑战 9
1.5.1 数据挖掘的任务 10
1.5.2 数据挖掘面临的挑战 12
1.6 本书内容与组织 13
1.6.1 章节安排 13
1.6.2 辅助阅读材料 15
本章小结 16
习题 16
参考文献 17
第2章 数据 21
2.1 数据的定义 21
2.2 属性的分类 22
2.3 数据类型 24
2.3.1 数据的特性 24
2.3.2 数据的分类 24
2.4 相似性计算 26
2.4.1 相似性定义 26
2.4.2 单属性相似性度量 28
2.4.3 多属性相似性度量 29
本章小结 35
习题 35
参考文献 37
第3章 数据预处理 38
3.1 数据质量 38
3.1.1 误差与噪声 38
3.1.2 应用问题 41
3.2 数据预处理概述 41
3.3 数据清洗 43
3.3.1 缺失数据处理 43
3.3.2 噪声数据处理 43
3.3.3 不一致数据处理 45
3.4 数据集成与转换 45
3.4.1 数据集成处理 45
3.4.2 数据转换处理 46
3.4.3 离散化和二进制化 47
3.5 数据约简 49
3.5.1 数据立方归并 49
3.5.2 维数约简 50
3.5.3 数据压缩 51
3.5.4 数据块约简 52
本章小结 55
习题 55
参考文献 57
第4章 分类I:概念与决策树算法 58
4.1 引言 58
4.1.1 分类的定义 58
4.1.2 分类的应用 59
4.1.3 分类算法 60
4.2 决策树 61
4.3 决策树原理与构建 63
4.3.1 算法原理 64
4.3.2 分支原则 65
4.3.3 最优划分 67
4.4 补充算法 76
4.4.1 ID3算法 76
4.4.2 C4.5算法 77
4.5 过拟合/欠拟合 80
4.5.1 定义 80
4.5.2 规避策略 81
4.6 分类准确性评估 86
4.6.1 准确性 86
4.6.2 ROC曲线 87
本章小结 90
习题 90
参考文献 94
第5章 分类Ⅱ:支持向量机 95
5.1 引言 95
5.2 数学模型 96
5.2.1 算法动机 96
5.2.2 数学模型 97
5.3 优化理论 99
5.3.1 凸优化 99
5.3.2 对偶理论 99
5.3.3 拉格朗日方法和KKT条件 101
5.4 SVM优化 103
5.4.1 硬间隔SVM 103
5.4.2 软间隔SVM 104
5.5 非线性SVM 106
5.6 SVM的应用 109
5.6.1 人脸识别 110
5.6.2 语音识别 110
5.6.3 图像处理 110
本章小结 111
习题 112
参考文献 113
第6章 分类Ⅲ:概率分类与回归 115
6.1 引言 115
6.2 贝叶斯公式 116
6.2.1 概率基础 116
6.2.2 图论基础 118
6.2.3 信息理论 118
6.3 贝叶斯分类算法 119
6.3.1 算法原理 119
6.3.2 朴素贝叶斯算法 121
6.3.3 算法应用 124
6.4 贝叶斯信念网络 125
6.4.1 定义与推理 126
6.4.2 结构学习(网络构建) 128
6.4.3 贝叶斯信念网络的特点 130
6.5 回归分析 131
6.5.1 预备知识 131
6.5.2 线性回归 131
6.5.3 多元线性回归 135
6.5.4 最小二乘回归 136
本章小结 136
习题 137
参考文献 139
第7章 关联规则Ⅰ:频繁模式挖掘 141
7.1 引言 141
7.2 基本概念 143
7.3 频繁项集挖掘 144
7.3.1 暴力破解方法 144
7.3.2 Apriori算法 145
7.3.3 加速技术 150
7.4 频繁模式树算法 153
7.4.1 FP树表示法 153
7.4.2 FP算法的频繁项集的产生 154
7.4.3 FP树挖掘对比Apriori算法 157
本章小结 158
习题 158
参考文献 161
第8章 关联规则Ⅱ:关联规则挖掘 162
8.1 引言 162
8.2 关联规则提取 162
8.2.1 候选规则创建 163
8.2.2 关联规则挖掘 164
8.3 规则评价标准 167
8.3.1 支持度与置信度缺陷 167
8.3.2 关联规则价值衡量的方法 168
8.4 规则评价指标 169
8.4.1 兴趣度 169
8.4.2 其他度量 172
8.5 一致性问题 174
8.6 关联规则的应用 177
8.6.1 关联规则与CRM 177
8.6.2 CRM关联规则挖掘 178
本章小结 180
习题 180
参考文献 183
第9章 聚类分析Ⅰ:概念与
K均值算法 185
9.1 引言 185
9.2 聚类流程与方法 187
9.2.1 聚类流程 187
9.2.2 聚类方法 189
9.3 K均值算法 190
9.3.1 算法的三大要素 191
9.3.2 算法的流程 192
9.3.3 算法的性能分析 194
9.4 K均值算法的拓展 195
9.5 图像分割的应用 196
本章小结 198
习题 199
参考文献 200
第10章 聚类分析Ⅱ: 分层聚类与
密度聚类 201
10.1 引言 201
10.2 分层聚类 202
10.2.1 算法流程 202
10.2.2 集合距离计算 204
10.3 分层聚类的实现 206
10.4 密度聚类 211
10.4.1 类密度 211
10.4.2 算法过程 213
10.5 聚类结果评估 215
10.6 聚类算法对比 217
10.6.1 K均值算法 217
10.6.2 分层聚类 217
10.6.3 DBSCAN算法 218
本章小结 218
习题 219
参考文献 220
第11章 社交网络图聚类 221
11.1 引言 221
11.2 社团结构 222
11.2.1 社团度量标准 223
11.2.2 社团检测算法 223
11.3 半监督学习 225
11.4 社团挖掘 226
11.4.1 算法框架 226
11.4.2 参数优化 227
11.5 实验结果 228
11.5.1 检测性能 229
11.5.2 分辨极限容忍性分析 231
本章小结 234
参考文献 234
第12章 生物网络挖掘 236
12.1 引言 236
12.2 相关工作 237
12.3 基于图通信的检测算法 238
12.3.1 拓扑刻画 239
12.3.2 复合体检测 241
12.4 基于弱连接的检测算法 244
12.4.1 弱连接效应 244
12.4.2 置信网络构建 246
12.4.3 复合体检测 247
12.5 实验结果 247
12.5.1 实验数据 247
12.5.2 F值与覆盖率 248
12.5.3 P值 249
12.5.4 参数影响 251
12.5.5 鲁棒性分析 256
12.6 图密度与复合体拓扑关系 258
本章小结 259
参考文献 260
附录 数学基础 262