注册 登录 进入教材巡展
#

出版时间:2024-03

出版社:清华大学出版社

以下为《数据分析与挖掘技术》的配套数字资源,这些资源在您购买图书后将免费附送给您:
试读
  • 清华大学出版社
  • 9787302651949
  • 1-1
  • 523888
  • 48254563-9
  • 16开
  • 2024-03
  • 软件、大数据
  • 本科
作者简介
彭进香,湖南应用技术学院信息工程学院院长,教授,市级优秀教师,“十三五”校级首批重点建设学科——计算机应用技术学科建设负责人。近年来主持和参与省、市级教研、科研项目20多项,指导省大学生研究性学习和创新性实验计划项目2项,发表研究论文20多篇,主编和参编教材6部,专利1项,软件著作权2项。对互联网企业从事数据挖掘有较深的研究,在大数据挖掘、分析及实战场景应用方面具有丰富经验。
查看全部
内容简介
《数据分析与挖掘技术》主要介绍数据分析与挖掘的相关理论和技术方法,重点介绍数据挖掘的相关技术,书中采取理论知识与具体实现任务相结合的方法,系统讲解了数据分析与挖掘的实用技术。全书共分为9章,主要内容包括数据分析与数据挖掘概论、数据仓库与联机分析处理、数据预处理、关联规则挖掘、聚类分析、回归分析、决策树分析、SPSS数据挖掘基础、SPSS数据挖掘统计分析方法。为了使学习者能轻松掌握数据分析与挖掘相关的概念、算法和应用,《数据分析与挖掘技术》通过典型的应用实例以任务驱动的方式让学习者理解数据挖掘有关算法的实践思路并体验实现过程。 《数据分析与挖掘技术》可作为计算机、大数据、智能科学等专业的课程的教材使用,也可以作为从事大数据分析与数据挖掘等相关工作技术人员的参考书。
目录
目 录

第1章 数据分析与数据挖掘概论 1
1.1 数据分析 2
1.1.1 数据分析的定义 2
1.1.2 数据分析的工具 2
1.1.3 数据分析的方法与案例 7
1.2 数据挖掘 9
1.2.1 数据挖掘的定义 9
1.2.2 数据挖掘的目的 9
1.2.3 数据挖掘的工具 10
1.2.4 数据挖掘的方法和经典算法 11
小结 15
思考题 15
第2章 数据仓库与联机分析处理 17
2.1 数据仓库 18
2.1.1 数据仓库的定义和特点 18
2.1.2 数据仓库与数据库的区别 19
2.1.3 数据仓库的系统结构 20
2.1.4 数据仓库的数据模型 22
2.2 数据仓库的设计步骤 23
2.2.1 概念模型设计 24
2.2.2 逻辑模型设计 27
2.2.3 物理模型设计 28
2.2.4 数据仓库的生成 31
2.2.5 数据仓库的运行与维护 33
2.3 联机分析处理 34
2.3.1 联机分析处理的定义 34
2.3.2 联机分析处理的多维数据
存储 35
2.3.3 联机分析处理的分类 36
小结 39
思考题 39
第3章 数据预处理 41
3.1 数据预处理概述 42
3.1.1 数据预处理的目的 42
3.1.2 数据预处理的方法 42
3.2 数据清洗 44
3.2.1 数据清洗的方法和步骤 44
3.2.2 缺失值的识别与处理技巧 47
3.2.3 异常值的判断、检验与处理 49
3.3 数据集成 52
3.3.1 数据集成常见方法 53
3.3.2 数据冲突的检测和解决 55
3.3.3 处理数据集成中的冗余数据 56
3.3.4 相关分析 59
3.4 数据变换 62
3.4.1 数据变换过程中的离散化 62
3.4.2 数据变换的规范化方法 64
3.5 数据规约 65
3.5.1 数据规约的定义与目的 65
3.5.2 常用的数据规约策略 66
小结 70
思考题 70
第4章 关联规则挖掘 71
4.1 关联规则挖掘概述 72
4.1.1 关联规则的分类及应用 72
4.1.2 关联规则挖掘示例 74
4.2 Apriori算法 75
4.2.1 Apriori算法的定义与特点 76
4.2.2 Apriori算法的应用 79
4.2.3 Apriori算法分析与改进 82
4.3 FP-Growth算法 85
4.3.1 FP-Growth算法的基本思想 86
4.3.2 FP-Growth算法的特点及
改进 87
小结 92
思考题 92
第5章 聚类分析 93
5.1 聚类分析概述 94
5.1.1 什么是聚类分析 94
5.1.2 聚类中的相异度计算 96
5.2 基于划分的聚类 98
5.2.1 K-means算法 99
5.2.2 K-medoids算法 103
5.2.3 K-medoids算法中的PAM
算法示例 104
5.3 基于层次的聚类 106
5.3.1 层次聚类的基本思想 106
5.3.2 AGNES算法 107
5.3.3 DIANA算法 109
5.3.4 Birch层次聚类算法 111
5.4 基于密度的聚类 114
5.4.1 DBSCAN算法的流程 114
5.4.2 DBSCAN算法的性能分析 115
5.4.3 OPTICS密度聚类算法 116
5.5 基于模型的聚类算法 119
5.5.1 高斯混合模型的原理 119
5.5.2 EM算法的应用 119
小结 123
思考题 124
第6章 回归分析 125
6.1 回归分析概述 126
6.2 简单线性回归分析 127
6.2.1 简单线性回归分析的定义 127
6.2.2 简单线性回归分析的应用 129
6.3 多元回归分析 130
6.3.1 多元回归分析的定义 130
6.3.2 多元回归分析的步骤 131
6.3.3 多元回归分析的应用 132
6.4 岭回归分析 133
6.4.1 岭回归分析的原理 133
6.4.2 岭回归分析在数据挖掘领域的
应用 134
6.5 逻辑回归分析 135
6.5.1 逻辑回归分析的原理 135
6.5.2 逻辑回归模型的建立与参数
估计 136
6.5.3 逻辑回归分析的优化和
改进 137
6.5.4 逻辑回归分析在数据挖掘
领域的发展趋势 138
小结 139
思考题 139
第7章 决策树分析 141
7.1 决策树分析的有关概念 142
7.1.1 信息论的基本原理 142
7.1.2 决策树分析流程 144
7.1.3 决策树分类算法 145
7.2 ID3算法 147
7.2.1 ID3算法介绍 147
7.2.2 ID3算法的实例分析 149
7.2.3 ID3算法的特点及应用 152
7.3 C4.5算法 153
7.3.1 C4.5算法介绍 153
7.3.2 C4.5算法的特点及应用 155
7.4 CART算法 156
7.4.1 CART算法的原理与特点 156
7.4.2 CART算法的应用 158
小结 160
思考题 161
第8章 SPSS数据挖掘基础 163
8.1 SPSS的发展 164
8.2 SPSS应用入门 164
8.3 SPSS界面介绍 165
8.3.1 SPSS的窗口 165
8.3.2 SPSS的菜单 166
8.4 建立SPSS文件 167
8.4.1 SPSS文件类型 167
8.4.2 数据录入 167
8.4.3 文件的保存与导出 168
8.5 SPSS数据的变量属性定义 168
8.5.1 变量名称和类型 169
8.5.2 变量宽度和小数 170
8.5.3 标签和值 170
8.5.4 变量缺失值 170
8.5.5 变量显示列、对齐方式 171
8.5.6 变量测量方式和变量角色 171
8.6 SPSS数据管理 172
8.6.1 插入或删除个案 172
8.6.2 插入或删除变量 172
8.6.3 数据排序 173
8.6.4 数据的行列转置 174
8.6.5 选取个案 175
8.6.6 数据合并 175
8.6.7 拆分数据文件 177
8.7 SPSS数据转换 178
8.7.1 计算产生变量 178
8.7.2 对个案内的值计数 179
8.7.3 重新编码 180
小结 182
思考题 182
第9章 SPSS数据挖掘统计分析
方法 183
9.1 基本描述统计 184
9.1.1 频数分析 184
9.1.2 描述分析 187
9.1.3 探索分析 188
9.1.4 交叉表分析 192
9.2 T检验 197
9.2.1 单样本T检验 197
9.2.2 独立样本T检验 199
9.2.3 配对样本T检验 201
9.3 方差分析 202
9.3.1 单因素方差分析 203
9.3.2 多因素方差分析 207
9.3.3 重复测量方差分析 213
9.4 在SPSS中应用多元回归分析 217
9.4.1 多元线性回归分析的应用 217
9.4.2 Logistic回归的应用 223
9.5 在SPSS中应用聚类分析 228
9.5.1 两步聚类分析 228
9.5.2 K-平均值聚类分析 232
9.5.3 系统聚类分析 235
9.6 在SPSS中应用相关分析 240
9.6.1 线性相关分析 240
9.6.2 偏相关分析 242
9.7 因子分析 244
小结 249
思考题 250
参考文献 251