Spark大数据技术应用实践 / 大数据技术应用实践系列
¥32.80定价
作者: 饶泓
出版时间:2019-12
出版社:北京师范大学出版社
- 北京师范大学出版社
- 9787303248704
- 1版
- 284124
- 48258740-9
- 平装
- 16开
- 2019-12
- 216
- 工学
- 软件工程
- 计算机、大数据
- 本科
作者简介
目录
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用SparkShell 86
5.4.3 使用SparkSQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 KMeans算法原理与使用 122
6.10.1 KMeans算法原理 122
6.10.2 Spark的KMeans算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用SparkShell 86
5.4.3 使用SparkSQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 KMeans算法原理与使用 122
6.10.1 KMeans算法原理 122
6.10.2 Spark的KMeans算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用SparkShell 86
5.4.3 使用SparkSQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 KMeans算法原理与使用 122
6.10.1 KMeans算法原理 122
6.10.2 Spark的KMeans算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用SparkShell 86
5.4.3 使用SparkSQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 KMeans算法原理与使用 122
6.10.1 KMeans算法原理 122
6.10.2 Spark的KMeans算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用SparkShell 86
5.4.3 使用SparkSQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 KMeans算法原理与使用 122
6.10.1 KMeans算法原理 122
6.10.2 Spark的KMeans算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194
前 言 2
序 3
目录 4
第1章 Spark初识 9
1.1 Spark简介 9
1.2 Spark体系架构 9
1.2.1 Spark SQL 10
1.2.2 Spark Streaming 10
1.2.3 MLlib机器学习 11
1.2.4 GraphX 12
1.3 Spark的安装与配置 12
1.3.1 安装Spark 12
1.3.2 使用Spark Shell 14
1.3.3 Spark的简单使用 16
1.4 Spark 运行模式 19
1.4.1 Local模式 19
1.4.2 Standalone模式 20
1.4.3 Spark On Mesos 20
1.4.4 Spark On YARN 20
1.4.5 Spark On Cloud 21
本章习题 21
第2章 Spark核心概念 23
2.1 RDD简介 23
2.1.1 RDD概念 23
2.1.2 RDD运行原理 23
2.1.3 RDD操作 26
2.1.4 RDD容错与持久化 29
2.2 RDD的依赖关系 30
2.2.1 窄依赖 30
2.2.2 宽依赖 31
2.3 RDD共享变量 33
2.3.1 Broadcast广播变量 33
2.3.2 Accumulator累加器 35
2.4 Spark优化 36
2.4.1 开发调优 36
2.4.2 资源调优 36
2.4.3 数据倾斜调优和Shuffle调优 39
2.4.4 重复利用RDD并使用缓存 40
2.4.5 Spark参数调优 41
本章习题 42
第3章 Spark架构与执行流程 44
3.1 Spark架构与运行 44
3.2 Spark核心组件 46
3.2.1 Scheduler(调度) 46
3.2.2 RDD(弹性分布式数据集) 48
3.2.3 Storage(存储) 49
3.2.4 Shuffle(洗牌) 49
3.3 Spark程序执行基本流程 50
3.3.1 运行流程 50
本章习题 52
第4章 Spark流式计算 53
4.1 Spark Streaming简介 53
4.1.1 流式计算和批处理的关系 53
4.1.2 主流的流式计算框架 53
4.2 Spark Streaming架构 54
4.2.1 Spark Streaming运行原理 54
4.2.2 Spark Streaming组件 55
4.2.3 Spark Streaming应用场景及优点 56
4.3 Spark streaming编程 58
4.3.1 自定义数据源Receiver 58
4.3.2 API的使用 60
4.4 Flume、Kafka和Spark Streaming结合使用 64
4.4.1 Flume和Kafka安装 64
4.4.2 Kafka、Flume和Spark编程 69
本章习题 72
第5章 Spark SQL 74
5.1 Spark SQL介绍 74
5.1.1 Spark SQL的使用入门 74
5.1.2 DataFrame相关操作 74
5.1.3 Spark SQL 2.0介绍 75
5.2 Spark SQL架构 76
5.2.1 Spark SQL组件 76
5.2.2 Spark SQL运行原理 76
5.3 DataFrame 77
5.3.1 DataFrame相关操作 77
5.3.2 运行SQL操作不同数据源 81
5.3.3 RDD、DataFrame和DataSet 84
5.4 Spark SQL的Shell 85
5.4.1 Spark SQL实验环境配置 85
5.4.2 使用SparkShell 86
5.4.3 使用SparkSQL 87
5.5 Spark SQL的UDF使用 88
5.5.1 UDF实验环境配置 88
5.5.2 UDF操作 89
5.6 JDBC操作MySQL 90
5.6.1 Spark SQL访问数据库的原理 90
5.6.2 安装MySQL,配置远程登录 92
5.6.3 编写代码读取数据 93
本章习题 94
第6章 Spark与机器学习 96
6.1 机器学习简介 96
6.1.1 常见机器学习分类 97
6.1.2 简单线性回归算法 97
6.2 Spark机器学习优势和潜力 100
6.2.1 Spark机器学习的优势 100
6.2.2 Spark机器学习包介绍 100
6.2.3 机器学习模型示例 101
6.3 Spark MLlib的数据类型 103
6.3.1 向量和矩阵 104
6.3.2 Basic Statistics 104
6.4 线性回归算法原理与使用 105
6.4.1 线性回归基本原理 105
6.4.2 Spark的线性回归介绍 107
6.5 逻辑回归算法原理与使用 109
6.5.1 逻辑回归基本原理 109
6.5.2 Spark的逻辑回归介绍 110
6.6 支持向量计算法原理与使用 112
6.6.1 支持向量机原理 112
6.6.2 Spark的支持向量机实现 113
6.7 朴素贝叶斯算法原理与使用 114
6.7.1 贝叶斯算法原理 114
6.7.2 贝叶斯公式进行垃圾邮件分类 116
6.8 决策树算法原理与使用 117
6.8.1 决策树算法原理 117
6.8.2 Spark的决策树算法实现 119
6.9 随机森林算法原理与使用 120
6.9.1 随机森林算法原理 120
6.9.2 Spark的随机森林算法使用 121
6.10 KMeans算法原理与使用 122
6.10.1 KMeans算法原理 122
6.10.2 Spark的KMeans算法使用 124
6.11 ALS协同推荐算法原理与使用 125
6.11.1 ALS协同推荐算法原理 125
6.11.2 Spark的ALS协同推荐算法使用 126
本章习题 127
第7章 案例分析 129
7.1 网络日志分析 129
7.1.1 数据集介绍 129
7.1.2 环境配置 134
7.1.3 实验步骤 135
7.1.4 结果分析 139
7.2 电商广告案例 140
7.2.1 数据集介绍 140
7.2.2 环境配置 141
7.2.3 实验步骤 142
7.2.4 结果分析 147
7.3 实时路况案例 148
7.3.1 案例简介 148
7.3.2 环境配置 149
7.3.3 实验步骤 149
7.3.4 结果分析 152
7.4 黑名单案例 154
7.4.1 案例简介 154
7.4.2 环境配置 156
7.4.3 实验步骤 156
7.4.4 结果分析 158
7.5 性别预测案例 159
7.5.1 分析建模与数据构造 159
7.5.2 环境配置 160
7.5.3 实验步骤 161
7.5.4 结果分析 162
7.6 年龄预测案例 162
7.6.1 案例简介 162
7.6.2 环境配置 162
7.6.3 实验步骤 163
7.6.4 结果分析 164
7.7 垃圾邮件案例 166
7.7.1 案例简介 166
7.7.2 环境配置 166
7.7.3 实验步骤 167
7.7.4 结果分析 168
7.8 图片分类案例 168
7.8.1 案例简介 168
7.8.2 环境配置 169
7.8.3 实验步骤 169
7.8.4 结果分析 172
7.9 电影推荐案例 173
7.9.1 案例简介 173
7.9.2 环境配置 173
7.9.3 实验步骤 174
7.9.4 结果分析 178
7.10 推荐系统案例 181
7.10.1 案例简介 181
7.10.2 环境配置 182
7.10.3 实验步骤 182
7.10.4 结果分析 191
本章习题 191
参考文献 193
附录 194
一. 本书中出现的专业术语缩写英汉对照表 194
二. 习题参考答案 194