- 中国铁道出版社
- 9787113306724
- 1-4
- 521525
- 66259905-9
- 大16开
- 2024-03
- 计算机类
- 高职
内容简介
本书为“职业教育赛教一体化课程改革系列教材”之一,介绍了 Spark 应用程序体系架构的核心技术。全书共分 8 章 :第 1 章介绍大数据与 Spark 以及其他数据处理框架 ;第 2 章主要讲解Spark 集群的安装配置,包括 Standalone、Spark on Yarn、Spark HA 模式,另外介绍了 Spark 的运行架构与原理,以及 Spark Shell 的简单使用 ;第 3 章 ~ 第 8 章主要讲解 Spark 程序入门、弹性分布式数据集、Spark 核心原理、Spark SQL 处理结构化数据和多数据源操作、Spark Streaming 实时计算框架,并包含实战案例。
本书理论联系实际,对每个知识点都进行了精心设计,真正做到了所学即所得,可帮助学生快速理解并掌握 Spark 的应用。
本书适合作为高等职业院校电子信息大类各专业学习 Spark 大数据技术的教材,也可作为全国大学生大数据竞赛的指导书,还可作为培训学校的培训教材,以及大数据爱好者的自学参考书。
本书理论联系实际,对每个知识点都进行了精心设计,真正做到了所学即所得,可帮助学生快速理解并掌握 Spark 的应用。
本书适合作为高等职业院校电子信息大类各专业学习 Spark 大数据技术的教材,也可作为全国大学生大数据竞赛的指导书,还可作为培训学校的培训教材,以及大数据爱好者的自学参考书。
目录
第1章 大数据与Spark简介 1
1.1 大数据简介与相关技术 2
1.1.1 大数据简介 2
1.1.2 大数据相关技术 .2
1.2 Spark简介 5
1.2.1 Spark特性 5
1.2.2 Spark的历史与发展8
1.2.3 Spark组件 9
1.3 其他数据处理框架 10
1.3.1 Hadoop 11
1.3.2 Storm 20
1.3.3 Flink21
1.3.4 Beam 23
小结. 24
习题. 25
第2章 Spark集群安装配置26
2.1 集群环境准备 26
2.1.1 系统环境配置 26
2.1.2 JDK安装 31
2.1.3 Hadoop集群部署 34
2.1.4 ZooKeeper集群部署42
2.1.5 Scala安装 45
2.2 Spark环境搭建 46
2.2.1 Standalone模式部署46
2.2.2 Spark on Yarn模式部署49
2.2.3 Spark HA集群部署 54
2.3 Spark运行架构与原理57
2.3.1 基本概念 57
2.3.2 Spark集群运行架构 59
2.3.3 Spark运行基本流程 59
2.4 Spark-Shell 61
小结. 62
习题. 62
第3章 Spark程序入门.64
3.1 Scala简介 64
3.2 Scala环境准备 65
3.2.1 Windows下的Scala安装 65
3.2.2 IDEA安装Scala插件 66
3.2.3 输出HelloWorld 68
3.3 Scala基础语法. 70
3.3.1 Scala数据类型 70
3.3.2 Scala变量 70
3.3.3 方法与函数71
3.4 Scala面向对象72
3.4.1 类和对象 72
3.4.2 继承 73
3.4.3 单例对象和伴生对象 75
3.5 Scala基本数据结构 76
3.5.1 数组 .76
3.5.2 元组 .78
3.5.3 集合 .80
3.6 使用IDEA开发运行worldCount程序 83
3.6.1 项目运行 83
3.6.2 提交任务到集群 85
小结89
习题89
第4章 弹性分布式数据集90
4.1 RDD概述 91
4.2 RDD创建方式 91
4.2.1 通过读取文件生成RDD 92
4.2.2 通过并行化方式创建RDD .92
4.3 RDD类型操作 93
4.3.1 转换算子 93
4.3.2 行动算子 96
4.4 RDD之间的依赖关系 98
4.5 RDD机制 99
4.5.1 持久化机制 .99
4.5.2 容错机制 102
4.6 统计每日新增用户 103
4.6.1 需求分析 103
4.6.2 在Spark Shell中实现 103
4.6.3 在IDEA中实现 106
小结 112
习题 112
第5章 Spark核心原理113
5.1 消息通信原理 113
5.1.1 整体框架 113
5.1.2 启动消息通信 115
5.1.3 运行时消息通信 118
5.2 Spark任务执行原理 124
5.2.1 划分调度 124
5.2.2 提交调度 127
5.2.3 提交任务 129
5.2.4 执行任务 134
5.2.5 获取执行结果136
5.3 容错 138
5.3.1 Executor异常 138
5.3.2 Worker异常139
5.3.3 Master异常 140
小结 141
习题 142
第6章 Spark存储原理 143
6.1 存储分析 143
6.1.1 体系架构 143
6.1.2 读数据过程 146
6.1.3 写数据过程 153
6.2 Shuffle 161
6.2.1 Shuffle Write161
6.2.2 Shuffle Read 163
6.2.3 Hadoop Shuffle与Spark Shuffle .164
6.3 共享变量 166
6.3.1 广播变量 166
6.3.2 累加器 .168
小结 168
习题 169
第7章 Spark SQL 170
7.1 Spark SQL简介 171
7.1.1 Spark SQL的概念 .171
7.1.2 Spark SQL架构 171
7.2 DataFrame . 173
7.2.1 创建DataFrame 173
7.2.2 操作DataFrame 176
7.2.3 RDD转换为DataFrame 179
7.3 Spark SQL多数据源操作 181
7.3.1 MySQL数据源操作 181
7.3.2 Hive数据源操作183
7.4 Spark SQL应用案例 185
7.4.1 用Spark SQL实现单词统计 185
7.4.2 电影数据分析 188
小结 191
习题 191
第8章 Spark Streaming 193
8.1 认识Spark Streaming 194
8.1.1 流式计算简介194
8.1.2 Spark Streaming简介 195
8.1.3 Spark Streaming工作原理 196
8.2 DStream 196
8.2.1 DStream简介 196
8.2.2 DStream 转换操作 197
8.2.3 DStream 输出 200
8.2.4 Spark Streaming窗口操作 202
8.3 Spark Streaming应用案例 207
8.3.1 Spark Streaming实现单词统计 207
8.3.2 Spark Streaming热搜统计 209
8.3.3 自定义输出实训 210
8.3.4 Spark Streaming窗口计算实训 214
小结 217
习题 217
1.1 大数据简介与相关技术 2
1.1.1 大数据简介 2
1.1.2 大数据相关技术 .2
1.2 Spark简介 5
1.2.1 Spark特性 5
1.2.2 Spark的历史与发展8
1.2.3 Spark组件 9
1.3 其他数据处理框架 10
1.3.1 Hadoop 11
1.3.2 Storm 20
1.3.3 Flink21
1.3.4 Beam 23
小结. 24
习题. 25
第2章 Spark集群安装配置26
2.1 集群环境准备 26
2.1.1 系统环境配置 26
2.1.2 JDK安装 31
2.1.3 Hadoop集群部署 34
2.1.4 ZooKeeper集群部署42
2.1.5 Scala安装 45
2.2 Spark环境搭建 46
2.2.1 Standalone模式部署46
2.2.2 Spark on Yarn模式部署49
2.2.3 Spark HA集群部署 54
2.3 Spark运行架构与原理57
2.3.1 基本概念 57
2.3.2 Spark集群运行架构 59
2.3.3 Spark运行基本流程 59
2.4 Spark-Shell 61
小结. 62
习题. 62
第3章 Spark程序入门.64
3.1 Scala简介 64
3.2 Scala环境准备 65
3.2.1 Windows下的Scala安装 65
3.2.2 IDEA安装Scala插件 66
3.2.3 输出HelloWorld 68
3.3 Scala基础语法. 70
3.3.1 Scala数据类型 70
3.3.2 Scala变量 70
3.3.3 方法与函数71
3.4 Scala面向对象72
3.4.1 类和对象 72
3.4.2 继承 73
3.4.3 单例对象和伴生对象 75
3.5 Scala基本数据结构 76
3.5.1 数组 .76
3.5.2 元组 .78
3.5.3 集合 .80
3.6 使用IDEA开发运行worldCount程序 83
3.6.1 项目运行 83
3.6.2 提交任务到集群 85
小结89
习题89
第4章 弹性分布式数据集90
4.1 RDD概述 91
4.2 RDD创建方式 91
4.2.1 通过读取文件生成RDD 92
4.2.2 通过并行化方式创建RDD .92
4.3 RDD类型操作 93
4.3.1 转换算子 93
4.3.2 行动算子 96
4.4 RDD之间的依赖关系 98
4.5 RDD机制 99
4.5.1 持久化机制 .99
4.5.2 容错机制 102
4.6 统计每日新增用户 103
4.6.1 需求分析 103
4.6.2 在Spark Shell中实现 103
4.6.3 在IDEA中实现 106
小结 112
习题 112
第5章 Spark核心原理113
5.1 消息通信原理 113
5.1.1 整体框架 113
5.1.2 启动消息通信 115
5.1.3 运行时消息通信 118
5.2 Spark任务执行原理 124
5.2.1 划分调度 124
5.2.2 提交调度 127
5.2.3 提交任务 129
5.2.4 执行任务 134
5.2.5 获取执行结果136
5.3 容错 138
5.3.1 Executor异常 138
5.3.2 Worker异常139
5.3.3 Master异常 140
小结 141
习题 142
第6章 Spark存储原理 143
6.1 存储分析 143
6.1.1 体系架构 143
6.1.2 读数据过程 146
6.1.3 写数据过程 153
6.2 Shuffle 161
6.2.1 Shuffle Write161
6.2.2 Shuffle Read 163
6.2.3 Hadoop Shuffle与Spark Shuffle .164
6.3 共享变量 166
6.3.1 广播变量 166
6.3.2 累加器 .168
小结 168
习题 169
第7章 Spark SQL 170
7.1 Spark SQL简介 171
7.1.1 Spark SQL的概念 .171
7.1.2 Spark SQL架构 171
7.2 DataFrame . 173
7.2.1 创建DataFrame 173
7.2.2 操作DataFrame 176
7.2.3 RDD转换为DataFrame 179
7.3 Spark SQL多数据源操作 181
7.3.1 MySQL数据源操作 181
7.3.2 Hive数据源操作183
7.4 Spark SQL应用案例 185
7.4.1 用Spark SQL实现单词统计 185
7.4.2 电影数据分析 188
小结 191
习题 191
第8章 Spark Streaming 193
8.1 认识Spark Streaming 194
8.1.1 流式计算简介194
8.1.2 Spark Streaming简介 195
8.1.3 Spark Streaming工作原理 196
8.2 DStream 196
8.2.1 DStream简介 196
8.2.2 DStream 转换操作 197
8.2.3 DStream 输出 200
8.2.4 Spark Streaming窗口操作 202
8.3 Spark Streaming应用案例 207
8.3.1 Spark Streaming实现单词统计 207
8.3.2 Spark Streaming热搜统计 209
8.3.3 自定义输出实训 210
8.3.4 Spark Streaming窗口计算实训 214
小结 217
习题 217