大数据、数据挖掘理论与应用实践 / 高等院校数据科学与大数据专业“互联网+”创新规划教材
¥69.00定价
作者: 李文书等
出版时间:2020-12
出版社:北京大学出版社
- 北京大学出版社
- 9787301318997
- 1版
- 441043
- 62231127-2
- 平装
- 16开
- 2020-12
- 398
- 工学
- 计算机科学与技术
- 数据科学与大数据
- 本科
作者简介
内容简介
人们每天都会通过互联网、移动设备等产生海量数据,如何从其中洞悉这些数据背后所隐含的“真知灼见”,是我们研究它的意义所在。以前人们总说信息就是力量,现如今对大数据进行分析、利用和挖掘才是力量之所在。作为大数据方面的一部著作,本书是作者长期从事大数据、数据挖掘等科研工作的总结。其从大数据、数据挖掘、实际案例等三部分深入浅出地介绍了大数据领域的知识。
第一部分是大数据篇,其主要从数据起源、生态系统、生命周期以及行业应用来分析大数据的研究方向和趋势。并就数据预处理、可视化、安全等大数据技术进行了详细的阐述,让深奥的知识浅显易懂;第二部分是数据挖掘认知篇,其主要从线性回归、聚类、关联规则、分类与预测、时间序列等方面剖析数据挖掘技术;第三部分是实践篇,其主要从业务和技术角度阐述已有的科研成果,让读者从理论到实践过程中深刻理解大数据的用途及技术的本质。
本书的读者对象主要是从事智能信息处理、大数据、云服务等领域的科研工作者和广大工程技术人员,也可作为大学本科教材和自学读者用书。
第一部分是大数据篇,其主要从数据起源、生态系统、生命周期以及行业应用来分析大数据的研究方向和趋势。并就数据预处理、可视化、安全等大数据技术进行了详细的阐述,让深奥的知识浅显易懂;第二部分是数据挖掘认知篇,其主要从线性回归、聚类、关联规则、分类与预测、时间序列等方面剖析数据挖掘技术;第三部分是实践篇,其主要从业务和技术角度阐述已有的科研成果,让读者从理论到实践过程中深刻理解大数据的用途及技术的本质。
本书的读者对象主要是从事智能信息处理、大数据、云服务等领域的科研工作者和广大工程技术人员,也可作为大学本科教材和自学读者用书。
目录
第1章 绪论 3
1.1 什么是大数据 4
1.1.1 大数据的来源 4
1.1.2 大数据的表现形式 5
1.1.3 大数据的特征 7
1.2 什么是商业智能 8
1.3 大数据生命周期 9
1.4 数据科学研究的主要问题 11
1.5 数据科学的模型方法 14
1.5.1 有监督学习 14
1.5.2 无监督学习 15
1.5.3 半监督学习 15
1.6 大数据方向 16
1.6.1 大数据架构方向 16
1.6.2 大数据分析方向 16
1.6.3 大数据开发方向 17
第2章 数据预处理 19
2.1 统计分析 20
2.1.1 统计描述 21
2.1.2 统计分析中的基本概念 25
2.1.3 参数估计和假设检验 27
2.1.4 区间估计和检验 28
2.1.5 方差分析 31
2.2 数据预处理 41
2.2.1 数据清洗 42
2.2.2 数据集成 45
2.2.3 数据变换 46
2.2.4 数据归约 47
第3章 大数据可视化 63
3.1 数据可视化的发展历程 64
3.1.1 萌芽时期 66
3.1.2 拉开帷幕 68
3.1.3 初露锋芒 69
3.1.4 黄金时代 70
3.1.5 稳步发展 72
3.1.6 日新月异 73
3.2 数据可视化的分类 74
3.2.1 依据数据类型分类 74
3.2.2 依据展示方式分类 77
3.2.3 依据应用场景分类 77
3.3 数据可视化设计的原则 78
3.3.1 亲密性(分组) 78
3.3.2 对齐 78
3.3.3 重复/统一 79
3.3.4 对比/强调 79
3.3.5 力求表达准确、到位、简洁、易懂 80
3.4 数据可视化的流程 80
3.4.1 了解需求 80
3.4.2 可视化设计 82
3.5 应用实践 82
3.5.1 折线图 83
3.5.2 散点图 84
3.5.3 柱状图 85
3.5.4 词云图 86
3.5.5 雷达图 88
第4章 大数据安全 91
4.1 大数据安全概述 92
4.1.1 保密性 92
4.1.2 完整性 93
4.1.3 可用性 93
4.2 基本的密码技术 93
4.2.1 加密技术 93
4.2.2 数字签名技术 94
4.2.3 Hash函数和MAC算法 95
4.3 全同态加密技术 95
4.3.1 基本定义 95
4.3.2 全同态加密技术原理 96
4.3.3 全同态加密技术的应用 98
4.4 安全多方计算 100
4.4.1 基本定义 100
4.4.2 安全多方计算原理 100
4.4.3 安全多方计算的应用 102
4.5 差分隐私 103
4.5.1 基本定义 104
4.5.2 差分隐私原理 105
4.5.3 差分隐私的应用 107
4.6 区块链 109
4.6.1 基本定义 110
4.6.2 区块链技术原理 111
4.6.3 区块链技术的应用 112
第5章 线性回归分析 119
5.1 一元线性回归 120
5.1.1 一元线性回归概述 120
5.1.2 一元线性回归的参数估计 123
5.1.3 一元线性回归模型的检验 125
5.1.4 一元线性回归的预测 127
5.2 多元线性回归分析 128
5.2.1 多元线性回归模型及假定 129
5.2.2 参数估计 129
5.2.3 模型检验 130
5.2.4 预测 131
5.3 应用实践 133
5.3.1 基于Lasso回归的波士顿房价预测 133
5.3.2 基于线性回归的降雨量预测 136
第6章 聚类分析 142
6.1 聚类概述 143
6.2 几种常用的度量方法 143
6.2.1 欧几里得距离(Euclidean distance) 144
6.2.2 曼哈顿距离(Manhattan distance) 144
6.2.3 切比雪夫距离(Chebyshev distance) 145
6.2.4 幂距离(Power distance) 145
6.2.5 马氏距离(Mahalanobis distance) 146
6.2.6 余弦相似度(Cosine similarity) 148
6.2.7 Pearson相关系数(Pearson correlation coefficient) 148
6.2.8 Jaccard相似系数(Jaccard similarity coefficient) 148
6.3 聚类的方法 150
6.3.1 层次聚类 150
6.3.2 密度聚类 151
6.3.3 分割聚类 152
6.4 应用实践 154
6.4.1 基于DBSCAN密度聚类的鸢尾花品种分类 154
6.4.2 基于聚类和可视化的世界国家幸福指数分析 157
第7章 关联规则分析 164
7.1 关联规则分析概述 165
7.2 关联规则分析常用的基本概念 166
7.3 基于Apriori算法的关联规则分析 168
7.3.1 连接(linking)步骤 168
7.3.2 剪枝(pruning)步骤 169
7.3.3 Apriori算法处理流程 169
7.3.4 Apriori算法实例 170
7.3.5 由频繁项集生成关联规则 172
7.4 改进的Apriori算法 172
7.4.1 基于划分的方法 172
7.4.2 基于抽样的方法 173
7.4.3 增量更新的方法 173
7.4.4 概念层次的方法 174
7.4.5 基于散列和压缩技术的方法 174
7.5 基于FP-Growth算法的关联规则分析 175
7.6 多维和多层关联规则 177
7.6.1 多维关联规则挖掘 177
7.6.2 多层关联规则挖掘 178
7.7 应用实践 179
7.7.1 基于Apriori算法的用户购物关联度分析 179
7.7.2 基于FP-Growth算法的用户购物关联度分析 183
第8章 分类与预测 195
8.1 分类问题评价准则 196
8.2 线性分类 198
8.2.1 Logistic模型 199
8.2.2 判别分析 202
8.3 决策树 206
8.3.1 决策树的概念及基本算法 206
8.3.2 基于信息熵的决策树归纳算法 208
8.3.3 决策树修剪 212
8.3.4 提取决策规则 212
8.3.5 决策树的改进 213
8.4 AdaBoost算法 215
8.5 随机森林算法 217
8.5.1 设计随机森林分类器 217
8.5.2 构建随机森林 218
8.6 应用实践 223
8.6.1 基于随机森林算法预测是否被录取 223
8.6.2 基于决策树算法预测是否被录取 227
第9章 时间序列分析 231
9.1 时间序列分析概述 232
9.2 ARIMA模型 233
9.2.1 ARIMA模型的基本概念 233
9.2.2 ARIMA模型预测步骤 234
9.2.3 预测实例 234
9.3 HMM 241
9.3.1 HMM的基本概念 241
9.3.2 HMM的基本问题 243
9.3.3 HMM基本问题的解法 244
9.4 动态贝叶斯网络 248
9.4.1 动态贝叶斯网络的基本概念 248
9.4.2 动态贝叶斯网络的学习 250
9.4.3 动态贝叶斯网络的推理 252
9.5 应用实践 252
9.5.1 基于ARIMA模型的二氧化碳浓度预测 252
9.5.2 基于HMM的比特币投资预测 258
第10章 大数据工具 271
10.1 分布式系统概述 272
10.2 Hadoop概述 273
10.3 Hadoop伪分布式的安装和配置 273
10.3.1 安装前准备 273
10.3.2 安装Hadoop 275
10.3.3 伪分布式配置 275
10.4 MapReduce 277
10.4.1 MapReduce任务的工作流程 278
10.4.2 MapReduce编程 280
10.5 利用MapReduce中的矩阵相乘 281
10.5.1 数据准备 281
10.5.2 矩阵的存储方式 282
10.6 Hive 286
10.6.1 Hive简介 286
10.6.2 数据存储 287
10.6.3 用Python执行HQL命令 288
10.6.4 必知的HQL知识 289
10.6.5 HQL实例 294
10.7 HBase 295
10.7.1 数据模型 296
10.7.2 HBase的特点 297
10.7.3 获取数据 297
10.7.4 存储数据 298
第11章 基于卷积神经网络和深度
哈希编码的图像检索方法 301
11.1 图像检索方法的发展历程 302
11.2 卷积深度哈希网络的基本框架 303
11.2.1 卷积子网络 303
11.2.2 损失函数 304
11.2.3 哈希层 304
11.3 实验结果与性能分析 305
11.3.1 神经网络参数 305
11.3.2 数据库和评价指标 305
11.3.3 实验结果分析 306
第12章 蛋白质作用网络模型 310
第13章 基于改进的长短期记忆网络的道路交通事故预测模型 322
第14章 大数据工作流的性能建模和预测 364
附录 数学基础知识 379
参考文献 386
1.1 什么是大数据 4
1.1.1 大数据的来源 4
1.1.2 大数据的表现形式 5
1.1.3 大数据的特征 7
1.2 什么是商业智能 8
1.3 大数据生命周期 9
1.4 数据科学研究的主要问题 11
1.5 数据科学的模型方法 14
1.5.1 有监督学习 14
1.5.2 无监督学习 15
1.5.3 半监督学习 15
1.6 大数据方向 16
1.6.1 大数据架构方向 16
1.6.2 大数据分析方向 16
1.6.3 大数据开发方向 17
第2章 数据预处理 19
2.1 统计分析 20
2.1.1 统计描述 21
2.1.2 统计分析中的基本概念 25
2.1.3 参数估计和假设检验 27
2.1.4 区间估计和检验 28
2.1.5 方差分析 31
2.2 数据预处理 41
2.2.1 数据清洗 42
2.2.2 数据集成 45
2.2.3 数据变换 46
2.2.4 数据归约 47
第3章 大数据可视化 63
3.1 数据可视化的发展历程 64
3.1.1 萌芽时期 66
3.1.2 拉开帷幕 68
3.1.3 初露锋芒 69
3.1.4 黄金时代 70
3.1.5 稳步发展 72
3.1.6 日新月异 73
3.2 数据可视化的分类 74
3.2.1 依据数据类型分类 74
3.2.2 依据展示方式分类 77
3.2.3 依据应用场景分类 77
3.3 数据可视化设计的原则 78
3.3.1 亲密性(分组) 78
3.3.2 对齐 78
3.3.3 重复/统一 79
3.3.4 对比/强调 79
3.3.5 力求表达准确、到位、简洁、易懂 80
3.4 数据可视化的流程 80
3.4.1 了解需求 80
3.4.2 可视化设计 82
3.5 应用实践 82
3.5.1 折线图 83
3.5.2 散点图 84
3.5.3 柱状图 85
3.5.4 词云图 86
3.5.5 雷达图 88
第4章 大数据安全 91
4.1 大数据安全概述 92
4.1.1 保密性 92
4.1.2 完整性 93
4.1.3 可用性 93
4.2 基本的密码技术 93
4.2.1 加密技术 93
4.2.2 数字签名技术 94
4.2.3 Hash函数和MAC算法 95
4.3 全同态加密技术 95
4.3.1 基本定义 95
4.3.2 全同态加密技术原理 96
4.3.3 全同态加密技术的应用 98
4.4 安全多方计算 100
4.4.1 基本定义 100
4.4.2 安全多方计算原理 100
4.4.3 安全多方计算的应用 102
4.5 差分隐私 103
4.5.1 基本定义 104
4.5.2 差分隐私原理 105
4.5.3 差分隐私的应用 107
4.6 区块链 109
4.6.1 基本定义 110
4.6.2 区块链技术原理 111
4.6.3 区块链技术的应用 112
第5章 线性回归分析 119
5.1 一元线性回归 120
5.1.1 一元线性回归概述 120
5.1.2 一元线性回归的参数估计 123
5.1.3 一元线性回归模型的检验 125
5.1.4 一元线性回归的预测 127
5.2 多元线性回归分析 128
5.2.1 多元线性回归模型及假定 129
5.2.2 参数估计 129
5.2.3 模型检验 130
5.2.4 预测 131
5.3 应用实践 133
5.3.1 基于Lasso回归的波士顿房价预测 133
5.3.2 基于线性回归的降雨量预测 136
第6章 聚类分析 142
6.1 聚类概述 143
6.2 几种常用的度量方法 143
6.2.1 欧几里得距离(Euclidean distance) 144
6.2.2 曼哈顿距离(Manhattan distance) 144
6.2.3 切比雪夫距离(Chebyshev distance) 145
6.2.4 幂距离(Power distance) 145
6.2.5 马氏距离(Mahalanobis distance) 146
6.2.6 余弦相似度(Cosine similarity) 148
6.2.7 Pearson相关系数(Pearson correlation coefficient) 148
6.2.8 Jaccard相似系数(Jaccard similarity coefficient) 148
6.3 聚类的方法 150
6.3.1 层次聚类 150
6.3.2 密度聚类 151
6.3.3 分割聚类 152
6.4 应用实践 154
6.4.1 基于DBSCAN密度聚类的鸢尾花品种分类 154
6.4.2 基于聚类和可视化的世界国家幸福指数分析 157
第7章 关联规则分析 164
7.1 关联规则分析概述 165
7.2 关联规则分析常用的基本概念 166
7.3 基于Apriori算法的关联规则分析 168
7.3.1 连接(linking)步骤 168
7.3.2 剪枝(pruning)步骤 169
7.3.3 Apriori算法处理流程 169
7.3.4 Apriori算法实例 170
7.3.5 由频繁项集生成关联规则 172
7.4 改进的Apriori算法 172
7.4.1 基于划分的方法 172
7.4.2 基于抽样的方法 173
7.4.3 增量更新的方法 173
7.4.4 概念层次的方法 174
7.4.5 基于散列和压缩技术的方法 174
7.5 基于FP-Growth算法的关联规则分析 175
7.6 多维和多层关联规则 177
7.6.1 多维关联规则挖掘 177
7.6.2 多层关联规则挖掘 178
7.7 应用实践 179
7.7.1 基于Apriori算法的用户购物关联度分析 179
7.7.2 基于FP-Growth算法的用户购物关联度分析 183
第8章 分类与预测 195
8.1 分类问题评价准则 196
8.2 线性分类 198
8.2.1 Logistic模型 199
8.2.2 判别分析 202
8.3 决策树 206
8.3.1 决策树的概念及基本算法 206
8.3.2 基于信息熵的决策树归纳算法 208
8.3.3 决策树修剪 212
8.3.4 提取决策规则 212
8.3.5 决策树的改进 213
8.4 AdaBoost算法 215
8.5 随机森林算法 217
8.5.1 设计随机森林分类器 217
8.5.2 构建随机森林 218
8.6 应用实践 223
8.6.1 基于随机森林算法预测是否被录取 223
8.6.2 基于决策树算法预测是否被录取 227
第9章 时间序列分析 231
9.1 时间序列分析概述 232
9.2 ARIMA模型 233
9.2.1 ARIMA模型的基本概念 233
9.2.2 ARIMA模型预测步骤 234
9.2.3 预测实例 234
9.3 HMM 241
9.3.1 HMM的基本概念 241
9.3.2 HMM的基本问题 243
9.3.3 HMM基本问题的解法 244
9.4 动态贝叶斯网络 248
9.4.1 动态贝叶斯网络的基本概念 248
9.4.2 动态贝叶斯网络的学习 250
9.4.3 动态贝叶斯网络的推理 252
9.5 应用实践 252
9.5.1 基于ARIMA模型的二氧化碳浓度预测 252
9.5.2 基于HMM的比特币投资预测 258
第10章 大数据工具 271
10.1 分布式系统概述 272
10.2 Hadoop概述 273
10.3 Hadoop伪分布式的安装和配置 273
10.3.1 安装前准备 273
10.3.2 安装Hadoop 275
10.3.3 伪分布式配置 275
10.4 MapReduce 277
10.4.1 MapReduce任务的工作流程 278
10.4.2 MapReduce编程 280
10.5 利用MapReduce中的矩阵相乘 281
10.5.1 数据准备 281
10.5.2 矩阵的存储方式 282
10.6 Hive 286
10.6.1 Hive简介 286
10.6.2 数据存储 287
10.6.3 用Python执行HQL命令 288
10.6.4 必知的HQL知识 289
10.6.5 HQL实例 294
10.7 HBase 295
10.7.1 数据模型 296
10.7.2 HBase的特点 297
10.7.3 获取数据 297
10.7.4 存储数据 298
第11章 基于卷积神经网络和深度
哈希编码的图像检索方法 301
11.1 图像检索方法的发展历程 302
11.2 卷积深度哈希网络的基本框架 303
11.2.1 卷积子网络 303
11.2.2 损失函数 304
11.2.3 哈希层 304
11.3 实验结果与性能分析 305
11.3.1 神经网络参数 305
11.3.2 数据库和评价指标 305
11.3.3 实验结果分析 306
第12章 蛋白质作用网络模型 310
第13章 基于改进的长短期记忆网络的道路交通事故预测模型 322
第14章 大数据工作流的性能建模和预测 364
附录 数学基础知识 379
参考文献 386