数据挖掘原理与应用 第2版 / 普通高等教育人工智能与大数据系列教材
定价:¥75.00
作者: 葛东旭
出版时间:2025-09-28
出版社:机械工业出版社
- 机械工业出版社
- 9787111788409
- 2-1
- 562336
- 平装
- 2025-09-28
- 630
内容简介
本书以数据挖掘项目的完整开发流程为主线,系统地介绍了数据挖掘生命周期的各个环节,深入剖析了其中涉及的核心概念、关键技术和方法论体系。针对数据挖掘的基础算法部分,本书通过理论阐述、实例演示和深入讨论相结合的方式,全面展现了算法的本质内涵,帮助读者实现从认知到掌握的进阶学习。
在内容架构上,本书完整覆盖了数据挖掘的理论体系、算法实现和实际应用三大维度,具体包括数据采集、预处理、分类分析、聚类分析、关联分析等关键环节,以及数据挖掘系统的工程化应用。通过典型应用场景的引入,本书创新性地实现了理论知识与工程实践的有机融合,既保证了专业深度,又突出了实践指导价值。
本书既适合作为普通高校计算机科学与技术、信息管理、大数据等相关专业的核心课教材,也可为企事业单位的数据分析人员和管理者提供专业的技术参考。
本书配有电子课件,及与书中例题、作业题配套的数据素材,习题答案详解,欢迎选用本书作教材的教师发邮件到jinacmp@163.com索取,或登录www.cmpedu.com注册后下载。
在内容架构上,本书完整覆盖了数据挖掘的理论体系、算法实现和实际应用三大维度,具体包括数据采集、预处理、分类分析、聚类分析、关联分析等关键环节,以及数据挖掘系统的工程化应用。通过典型应用场景的引入,本书创新性地实现了理论知识与工程实践的有机融合,既保证了专业深度,又突出了实践指导价值。
本书既适合作为普通高校计算机科学与技术、信息管理、大数据等相关专业的核心课教材,也可为企事业单位的数据分析人员和管理者提供专业的技术参考。
本书配有电子课件,及与书中例题、作业题配套的数据素材,习题答案详解,欢迎选用本书作教材的教师发邮件到jinacmp@163.com索取,或登录www.cmpedu.com注册后下载。
目录
前言
第1章 绪论 1
1.1 信息爆炸与大数据 1
1.2 什么是数据挖掘 5
1.3 数据挖掘的任务 6
1.4 数据挖掘的应用 7
1.5 数据挖掘系统结构 9
1.6 数据挖掘面临的挑战 9
1.7 数据挖掘样例数据和相关资料 10
本章小结 13
思考与练习 13
参考文献 13
第2章 数据挖掘的过程 14
2.1 数据分析能力 14
2.2 数据挖掘的过程 16
2.3 三阶段过程模型 17
2.3.1 数据准备 17
2.3.2 数据挖掘 18
2.3.3 解释评估 19
2.4 SEMMA方法 19
2.4.1 SEMMA过程 19
2.4.2 数据抽样 20
2.4.3 数据特征的探索、分析和
预处理 20
2.4.4 问题明确化、数据调整和
技术选择 20
2.4.5 模型研发与知识发现 21
2.4.6 模型和知识的综合解释和评价 21
2.5 CRISP-DM过程模型 21
2.5.1 商业理解 22
2.5.2 数据理解 22
2.5.3 数据准备 23
2.5.4 模型建立 23
2.5.5 模型评估 24
2.5.6 模型发布 24
2.6 5A模型 25
2.7 模型融合 25
本章小结 26
思考与练习 26
参考文献 26
第3章 数据准备 28
3.1 数据收集 28
3.2 数据抽样 29
3.2.1 抽样方法 29
3.2.2 数据挖掘的抽样策略 31
3.3 数据集成 32
3.3.1 数据联邦 34
3.3.2 数据仓库 36
3.3.3 中间件 38
3.3.4 数据集成应用模式 39
3.4 数据清理 39
3.4.1 数据问题 39
3.4.2 清洗方法 40
3.5 维度归约 42
3.5.1 维归约 43
3.5.2 特征子集选择 43
3.5.3 特征创建 46
3.6 数据变换 47
3.6.1 离散化和概念分层 47
3.6.2 数据编码 48
3.6.3 主成分分析法 50
3.6.4 因子分析 53
3.6.5 线性判别分析 56
本章小结 59
思考与练习 59
参考文献 61
第4章 数据探索 62
4.1 数据探索的作用 62
4.2 数据可视化 64
4.2.1 直方图 65
4.2.2 盒状图 69
4.2.3 茎叶图 70
4.2.4 饼图 72
4.2.5 累积分布图 72
4.2.6 散点图 73
4.2.7 等高线图 75
4.2.8 曲面图 75
4.2.9 低维切片图 76
4.2.10 矩阵图 76
4.2.11 平行坐标系图 77
4.2.12 其他技术 78
4.2.13 可视化的原则 80
4.2.14 应用可视化方法 80
4.3 数据统计分析 81
4.3.1 集中量数 81
4.3.2 差异量数 85
4.3.3 多元汇总统计 87
4.3.4 相关性分析 88
4.4 加载Excel插件 89
4.4.1 加载数据分析插件 89
4.4.2 加载统计分析插件 90
本章小结 90
思考与练习 91
参考文献 92
第5章 关联分析 93
5.1 关联分析原理 93
5.1.1 问题提出 93
5.1.2 基本概念 94
5.1.3 关联规则挖掘 96
5.2 由候选项集产生频繁项集 97
5.2.1 蛮力方法 97
5.2.2 先验算法 99
5.2.3 Fk-1×F1方法 104
5.2.4 Fk-1×Fk-1方法 104
5.3 计算支持度计数 106
5.3.1 用事务去逐个统计候选项集 106
5.3.2 枚举各事务中的项集并计数 107
5.3.3 Hash树 108
5.4 FP-Growth算法 110
5.4.1 FP-树的创建 110
5.4.2 从FP-树中提取频繁项集 112
5.4.3 FP-Growth算法 116
5.5 产生频繁项集算法复杂度 117
5.5.1 Apriori原理下的算法复杂度 117
5.5.2 FP-Growth算法的复杂度 119
5.6 生成规则 119
5.6.1 关联规则的概念 119
5.6.2 生成规则的方法 119
5.7 关联规则的评估 124
5.7.1 提升度 124
5.7.2 杠杆率 125
5.7.3 确信度 125
5.7.4 兴趣因子 126
5.7.5 Kulc度量 127
5.7.6 余弦度量 127
5.7.7 不平衡比 128
5.7.8 相关分析 128
5.7.9 IS度量 128
本章小结 129
思考与练习 129
参考文献 131
第6章 分类预测 132
6.1 分类的原理 132
6.1.1 分类的基本原理 132
6.1.2 建立分类模型的算法 134
6.1.3 对分类算法的要求 135
6.2 决策树分类 135
6.2.1 决策树分类的原理 135
6.2.2 CLS算法 139
6.2.3 不同属性的划分方法 140
6.2.4 信息增益 142
6.2.5 信息增益率 146
6.2.6 GINI系数 148
6.2.7 分类误差 150
6.2.8 连续数值型属性的离散化与
划分 152
6.2.9 决策树剪枝 154
6.2.10 常见算法 163
6.2.11 决策树回归分析 164
6.2.12 决策树分类的特点 165
6.3 k-近邻分类 167
6.3.1 相似性的度量方法 167
6.3.2 k值确定 172
6.3.3 多数投票机制 173
6.3.4 以近邻半径判定 173
6.3.5 k-近邻回归 173
6.3.6 算法特点 174
6.4 贝叶斯分类器 175
6.4.1 贝叶斯定理 177
6.4.2 基于贝叶斯定理的分类应用 178
6.4.3 朴素贝叶斯分类器 179
6.4.4 贝叶斯分类器评估 185
6.4.5 贝叶斯信念网络 186
6.5 人工神经网络 192
6.5.1 基本结构 193
6.5.2 基本特性 197
6.5.3 BP人工神经网络 198
6.5.4 其他神经网络 205
6.6 支持向量机 205
6.6.1 支持向量机的原理 206
6.6.2 求解分割超平面 210
6.6.3 复杂数据分类 212
6.7 集成分类器 215
6.7.1 提升(Boosting) 216
6.7.2 自助聚合(Bagging) 221
6.8 模型评估 223
6.8.1 混淆矩阵及二元分类评估 223
6.8.2 马修相关系数(Mathew Correlation Coeff?icient,MCC) 225
6.8.3 F度量(F-Measure) 225
6.8.4 ROC 226
6.8.5 PR曲线 228
本章小结 229
思考与练习 230
参考文献 231
第7章 聚类分析 233
7.1 聚类的基本概念 233
7.1.1 相似性的度量方法 234
7.1.2 聚类分析的分类 235
7.1.3 典型聚类算法 236
7.2 k均值(k-means)聚类方法 236
7.2.1 k-means算法 236
7.2.2 k-means算法的特点 242
7.2.3 k中心点(k-medoids)算法 243
7.3 层次聚类 244
7.3.1 层次聚类的算法 245
7.3.2 簇的相似度衡量方法 248
7.3.3 层次聚类的特点 251
7.4 DBSCAN聚类 251
7.4.1 DBSCAN算法 251
7.4.2 选择Eps和minPts 252
7.4.3 DBSCAN算法的特点 256
7.5 谱聚类 257
7.5.1 谱聚类算法 257
7.5.2 谱聚类算法的特点 263
7.6 聚类算法评估 264
7.6.1 聚类算法的要求 264
7.6.2 簇评估 265
本章小结 267
思考与练习 268
参考文献 269
第8章 回归分析 270
8.1 回归分析的概念 270
8.2 回归算法 271
8.2.1 一元线性回归分析 271
8.2.2 多元线性回归分析 274
8.2.3 非线性回归数据分析 276
8.2.4 Logistic回归 278
8.3 回归的评估与检验 283
8.3.1 R方 283
8.3.2 F检验 284
8.3.3 t检验 286
本章小结 288
思考与练习 288
参考文献 291
第9章 数据挖掘的工具 292
9.1 MATLAB 292
9.2 SPSS Modeler 293
9.3 SAS Enterprise Miner 294
9.4 WEKA 296
9.5 Python 296
本章小结 297
参考文献 298
第10章 WEKA数据挖掘应用 299
10.1 WEKA简介 299
10.1.1 WEKA安装与运行 299
10.1.2 Arff数据格式 300
10.2 Explorer 302
10.2.1 Preprocess(数据预处理) 303
10.2.2 Associate(关联分析) 305
10.2.3 Classify(分类分析) 309
10.2.4 回归分析 328
10.2.5 Cluster(聚类分析) 336
10.2.6 Select Attributes(选择属性) 343
10.2.7 Visualize(可视化) 347
10.3 Experimenter 348
10.3.1 设置模块 348
10.3.2 运行模块 348
10.3.3 分析模块 348
10.4 KnowledgeFlow 350
10.5 WEKA API 355
10.6 WEKA的设置和使用 356
10.6.1 显示汉字 356
10.6.2 安装算法包 357
本章小结 358
思考与练习 358
参考文献 359
第1章 绪论 1
1.1 信息爆炸与大数据 1
1.2 什么是数据挖掘 5
1.3 数据挖掘的任务 6
1.4 数据挖掘的应用 7
1.5 数据挖掘系统结构 9
1.6 数据挖掘面临的挑战 9
1.7 数据挖掘样例数据和相关资料 10
本章小结 13
思考与练习 13
参考文献 13
第2章 数据挖掘的过程 14
2.1 数据分析能力 14
2.2 数据挖掘的过程 16
2.3 三阶段过程模型 17
2.3.1 数据准备 17
2.3.2 数据挖掘 18
2.3.3 解释评估 19
2.4 SEMMA方法 19
2.4.1 SEMMA过程 19
2.4.2 数据抽样 20
2.4.3 数据特征的探索、分析和
预处理 20
2.4.4 问题明确化、数据调整和
技术选择 20
2.4.5 模型研发与知识发现 21
2.4.6 模型和知识的综合解释和评价 21
2.5 CRISP-DM过程模型 21
2.5.1 商业理解 22
2.5.2 数据理解 22
2.5.3 数据准备 23
2.5.4 模型建立 23
2.5.5 模型评估 24
2.5.6 模型发布 24
2.6 5A模型 25
2.7 模型融合 25
本章小结 26
思考与练习 26
参考文献 26
第3章 数据准备 28
3.1 数据收集 28
3.2 数据抽样 29
3.2.1 抽样方法 29
3.2.2 数据挖掘的抽样策略 31
3.3 数据集成 32
3.3.1 数据联邦 34
3.3.2 数据仓库 36
3.3.3 中间件 38
3.3.4 数据集成应用模式 39
3.4 数据清理 39
3.4.1 数据问题 39
3.4.2 清洗方法 40
3.5 维度归约 42
3.5.1 维归约 43
3.5.2 特征子集选择 43
3.5.3 特征创建 46
3.6 数据变换 47
3.6.1 离散化和概念分层 47
3.6.2 数据编码 48
3.6.3 主成分分析法 50
3.6.4 因子分析 53
3.6.5 线性判别分析 56
本章小结 59
思考与练习 59
参考文献 61
第4章 数据探索 62
4.1 数据探索的作用 62
4.2 数据可视化 64
4.2.1 直方图 65
4.2.2 盒状图 69
4.2.3 茎叶图 70
4.2.4 饼图 72
4.2.5 累积分布图 72
4.2.6 散点图 73
4.2.7 等高线图 75
4.2.8 曲面图 75
4.2.9 低维切片图 76
4.2.10 矩阵图 76
4.2.11 平行坐标系图 77
4.2.12 其他技术 78
4.2.13 可视化的原则 80
4.2.14 应用可视化方法 80
4.3 数据统计分析 81
4.3.1 集中量数 81
4.3.2 差异量数 85
4.3.3 多元汇总统计 87
4.3.4 相关性分析 88
4.4 加载Excel插件 89
4.4.1 加载数据分析插件 89
4.4.2 加载统计分析插件 90
本章小结 90
思考与练习 91
参考文献 92
第5章 关联分析 93
5.1 关联分析原理 93
5.1.1 问题提出 93
5.1.2 基本概念 94
5.1.3 关联规则挖掘 96
5.2 由候选项集产生频繁项集 97
5.2.1 蛮力方法 97
5.2.2 先验算法 99
5.2.3 Fk-1×F1方法 104
5.2.4 Fk-1×Fk-1方法 104
5.3 计算支持度计数 106
5.3.1 用事务去逐个统计候选项集 106
5.3.2 枚举各事务中的项集并计数 107
5.3.3 Hash树 108
5.4 FP-Growth算法 110
5.4.1 FP-树的创建 110
5.4.2 从FP-树中提取频繁项集 112
5.4.3 FP-Growth算法 116
5.5 产生频繁项集算法复杂度 117
5.5.1 Apriori原理下的算法复杂度 117
5.5.2 FP-Growth算法的复杂度 119
5.6 生成规则 119
5.6.1 关联规则的概念 119
5.6.2 生成规则的方法 119
5.7 关联规则的评估 124
5.7.1 提升度 124
5.7.2 杠杆率 125
5.7.3 确信度 125
5.7.4 兴趣因子 126
5.7.5 Kulc度量 127
5.7.6 余弦度量 127
5.7.7 不平衡比 128
5.7.8 相关分析 128
5.7.9 IS度量 128
本章小结 129
思考与练习 129
参考文献 131
第6章 分类预测 132
6.1 分类的原理 132
6.1.1 分类的基本原理 132
6.1.2 建立分类模型的算法 134
6.1.3 对分类算法的要求 135
6.2 决策树分类 135
6.2.1 决策树分类的原理 135
6.2.2 CLS算法 139
6.2.3 不同属性的划分方法 140
6.2.4 信息增益 142
6.2.5 信息增益率 146
6.2.6 GINI系数 148
6.2.7 分类误差 150
6.2.8 连续数值型属性的离散化与
划分 152
6.2.9 决策树剪枝 154
6.2.10 常见算法 163
6.2.11 决策树回归分析 164
6.2.12 决策树分类的特点 165
6.3 k-近邻分类 167
6.3.1 相似性的度量方法 167
6.3.2 k值确定 172
6.3.3 多数投票机制 173
6.3.4 以近邻半径判定 173
6.3.5 k-近邻回归 173
6.3.6 算法特点 174
6.4 贝叶斯分类器 175
6.4.1 贝叶斯定理 177
6.4.2 基于贝叶斯定理的分类应用 178
6.4.3 朴素贝叶斯分类器 179
6.4.4 贝叶斯分类器评估 185
6.4.5 贝叶斯信念网络 186
6.5 人工神经网络 192
6.5.1 基本结构 193
6.5.2 基本特性 197
6.5.3 BP人工神经网络 198
6.5.4 其他神经网络 205
6.6 支持向量机 205
6.6.1 支持向量机的原理 206
6.6.2 求解分割超平面 210
6.6.3 复杂数据分类 212
6.7 集成分类器 215
6.7.1 提升(Boosting) 216
6.7.2 自助聚合(Bagging) 221
6.8 模型评估 223
6.8.1 混淆矩阵及二元分类评估 223
6.8.2 马修相关系数(Mathew Correlation Coeff?icient,MCC) 225
6.8.3 F度量(F-Measure) 225
6.8.4 ROC 226
6.8.5 PR曲线 228
本章小结 229
思考与练习 230
参考文献 231
第7章 聚类分析 233
7.1 聚类的基本概念 233
7.1.1 相似性的度量方法 234
7.1.2 聚类分析的分类 235
7.1.3 典型聚类算法 236
7.2 k均值(k-means)聚类方法 236
7.2.1 k-means算法 236
7.2.2 k-means算法的特点 242
7.2.3 k中心点(k-medoids)算法 243
7.3 层次聚类 244
7.3.1 层次聚类的算法 245
7.3.2 簇的相似度衡量方法 248
7.3.3 层次聚类的特点 251
7.4 DBSCAN聚类 251
7.4.1 DBSCAN算法 251
7.4.2 选择Eps和minPts 252
7.4.3 DBSCAN算法的特点 256
7.5 谱聚类 257
7.5.1 谱聚类算法 257
7.5.2 谱聚类算法的特点 263
7.6 聚类算法评估 264
7.6.1 聚类算法的要求 264
7.6.2 簇评估 265
本章小结 267
思考与练习 268
参考文献 269
第8章 回归分析 270
8.1 回归分析的概念 270
8.2 回归算法 271
8.2.1 一元线性回归分析 271
8.2.2 多元线性回归分析 274
8.2.3 非线性回归数据分析 276
8.2.4 Logistic回归 278
8.3 回归的评估与检验 283
8.3.1 R方 283
8.3.2 F检验 284
8.3.3 t检验 286
本章小结 288
思考与练习 288
参考文献 291
第9章 数据挖掘的工具 292
9.1 MATLAB 292
9.2 SPSS Modeler 293
9.3 SAS Enterprise Miner 294
9.4 WEKA 296
9.5 Python 296
本章小结 297
参考文献 298
第10章 WEKA数据挖掘应用 299
10.1 WEKA简介 299
10.1.1 WEKA安装与运行 299
10.1.2 Arff数据格式 300
10.2 Explorer 302
10.2.1 Preprocess(数据预处理) 303
10.2.2 Associate(关联分析) 305
10.2.3 Classify(分类分析) 309
10.2.4 回归分析 328
10.2.5 Cluster(聚类分析) 336
10.2.6 Select Attributes(选择属性) 343
10.2.7 Visualize(可视化) 347
10.3 Experimenter 348
10.3.1 设置模块 348
10.3.2 运行模块 348
10.3.3 分析模块 348
10.4 KnowledgeFlow 350
10.5 WEKA API 355
10.6 WEKA的设置和使用 356
10.6.1 显示汉字 356
10.6.2 安装算法包 357
本章小结 358
思考与练习 358
参考文献 359














