- 中国铁道出版社
- 9787113306724
- 1-4
- 521525
- 68260578-7
- 大16开
- 2024-03
- 电子与信息大类
- 计算机类
- 计算机类
- 高职
作者简介
内容简介
本书为“职业教育赛教一体化课程改革系列教材”之一,介绍了Spark应用程序体系架构的核心技术。全书共分8章:第1章介绍大数据与Spark以及其他数据处理框架;第2章主要讲解Spark集群的安装配置,包括Standalone、SparkonYarn、SparkHA模式,另外介绍了Spark的运行架构与原理,以及SparkShell的简单使用;第3章~第8章主要讲解Spark程序入门、弹性分布式数据集、Spark核心原理、SparkSQL处理结构化数据和多数据源操作、SparkStreaming实时计算框架,并包含实战案例。
本书理论联系实际,对每个知识点都进行了精心设计,真正做到了所学即所得,可帮助学生快速理解并掌握Spark的应用。
本书适合作为高等职业院校电子信息大类各专业学习Spark大数据技术的教材,也可作为全国大学生大数据竞赛的指导书,还可作为培训学校的培训教材,以及大数据爱好者的自学参考书。
本书理论联系实际,对每个知识点都进行了精心设计,真正做到了所学即所得,可帮助学生快速理解并掌握Spark的应用。
本书适合作为高等职业院校电子信息大类各专业学习Spark大数据技术的教材,也可作为全国大学生大数据竞赛的指导书,还可作为培训学校的培训教材,以及大数据爱好者的自学参考书。
目录
第1章 大数据与Spark简介1
1.1大数据简介与相关技术2
1.1.1大数据简介2
1.1.2大数据相关技术.2
1.2Spark简介5
1.2.1Spark特性5
1.2.2Spark的历史与发展8
1.2.3Spark组件9
1.3其他数据处理框架10
1.3.1Hadoop11
1.3.2Storm20
1.3.3Flink21
1.3.4Beam23
小结.24
习题.25
第2章 Spark集群安装配置26
2.1集群环境准备26
2.1.1系统环境配置26
2.1.2JDK安装31
2.1.3Hadoop集群部署34
2.1.4ZooKeeper集群部署42
2.1.5Scala安装45
2.2Spark环境搭建46
2.2.1Standalone模式部署46
2.2.2SparkonYarn模式部署49
2.2.3SparkHA集群部署54
2.3Spark运行架构与原理57
2.3.1基本概念57
2.3.2Spark集群运行架构59
2.3.3Spark运行基本流程59
2.4Spark-Shell61
小结.62
习题.62
第3章 Spark程序入门.64
3.1Scala简介64
3.2Scala环境准备65
3.2.1Windows下的Scala安装65
3.2.2IDEA安装Scala插件66
3.2.3输出HelloWorld68
3.3Scala基础语法.70
3.3.1Scala数据类型70
3.3.2Scala变量70
3.3.3方法与函数71
3.4Scala面向对象72
3.4.1类和对象72
3.4.2继承73
3.4.3单例对象和伴生对象75
3.5Scala基本数据结构76
3.5.1数组.76
3.5.2元组.78
3.5.3集合.80
3.6使用IDEA开发运行worldCount程序83
3.6.1项目运行83
3.6.2提交任务到集群85
小结89
习题89
第4章 弹性分布式数据集90
4.1RDD概述91
4.2RDD创建方式91
4.2.1通过读取文件生成RDD92
4.2.2通过并行化方式创建RDD.92
4.3RDD类型操作93
4.3.1转换算子93
4.3.2行动算子96
4.4RDD之间的依赖关系98
4.5RDD机制99
4.5.1持久化机制.99
4.5.2容错机制102
4.6统计每日新增用户103
4.6.1需求分析103
4.6.2在SparkShell中实现103
4.6.3在IDEA中实现106
小结112
习题112
第5章 Spark核心原理113
5.1消息通信原理113
5.1.1整体框架113
5.1.2启动消息通信115
5.1.3运行时消息通信118
5.2Spark任务执行原理124
5.2.1划分调度124
5.2.2提交调度127
5.2.3提交任务129
5.2.4执行任务134
5.2.5获取执行结果136
5.3容错138
5.3.1Executor异常138
5.3.2Worker异常139
5.3.3Master异常140
小结141
习题142
第6章 Spark存储原理143
6.1存储分析143
6.1.1体系架构143
6.1.2读数据过程146
6.1.3写数据过程153
6.2Shuffle161
6.2.1ShuffleWrite161
6.2.2ShuffleRead163
6.2.3HadoopShuffle与SparkShuffle.164
6.3共享变量166
6.3.1广播变量166
6.3.2累加器.168
小结168
习题169
第7章 SparkSQL170
7.1SparkSQL简介171
7.1.1SparkSQL的概念.171
7.1.2SparkSQL架构171
7.2DataFrame.173
7.2.1创建DataFrame173
7.2.2操作DataFrame176
7.2.3RDD转换为DataFrame179
7.3SparkSQL多数据源操作181
7.3.1MySQL数据源操作181
7.3.2Hive数据源操作183
7.4SparkSQL应用案例185
7.4.1用SparkSQL实现单词统计185
7.4.2电影数据分析188
小结191
习题191
第8章 SparkStreaming193
8.1认识SparkStreaming194
8.1.1流式计算简介194
8.1.2SparkStreaming简介195
8.1.3SparkStreaming工作原理196
8.2DStream196
8.2.1DStream简介196
8.2.2DStream转换操作197
8.2.3DStream输出200
8.2.4SparkStreaming窗口操作202
8.3SparkStreaming应用案例207
8.3.1SparkStreaming实现单词统计207
8.3.2SparkStreaming热搜统计209
8.3.3自定义输出实训210
8.3.4SparkStreaming窗口计算实训214
小结217
习题217
1.1大数据简介与相关技术2
1.1.1大数据简介2
1.1.2大数据相关技术.2
1.2Spark简介5
1.2.1Spark特性5
1.2.2Spark的历史与发展8
1.2.3Spark组件9
1.3其他数据处理框架10
1.3.1Hadoop11
1.3.2Storm20
1.3.3Flink21
1.3.4Beam23
小结.24
习题.25
第2章 Spark集群安装配置26
2.1集群环境准备26
2.1.1系统环境配置26
2.1.2JDK安装31
2.1.3Hadoop集群部署34
2.1.4ZooKeeper集群部署42
2.1.5Scala安装45
2.2Spark环境搭建46
2.2.1Standalone模式部署46
2.2.2SparkonYarn模式部署49
2.2.3SparkHA集群部署54
2.3Spark运行架构与原理57
2.3.1基本概念57
2.3.2Spark集群运行架构59
2.3.3Spark运行基本流程59
2.4Spark-Shell61
小结.62
习题.62
第3章 Spark程序入门.64
3.1Scala简介64
3.2Scala环境准备65
3.2.1Windows下的Scala安装65
3.2.2IDEA安装Scala插件66
3.2.3输出HelloWorld68
3.3Scala基础语法.70
3.3.1Scala数据类型70
3.3.2Scala变量70
3.3.3方法与函数71
3.4Scala面向对象72
3.4.1类和对象72
3.4.2继承73
3.4.3单例对象和伴生对象75
3.5Scala基本数据结构76
3.5.1数组.76
3.5.2元组.78
3.5.3集合.80
3.6使用IDEA开发运行worldCount程序83
3.6.1项目运行83
3.6.2提交任务到集群85
小结89
习题89
第4章 弹性分布式数据集90
4.1RDD概述91
4.2RDD创建方式91
4.2.1通过读取文件生成RDD92
4.2.2通过并行化方式创建RDD.92
4.3RDD类型操作93
4.3.1转换算子93
4.3.2行动算子96
4.4RDD之间的依赖关系98
4.5RDD机制99
4.5.1持久化机制.99
4.5.2容错机制102
4.6统计每日新增用户103
4.6.1需求分析103
4.6.2在SparkShell中实现103
4.6.3在IDEA中实现106
小结112
习题112
第5章 Spark核心原理113
5.1消息通信原理113
5.1.1整体框架113
5.1.2启动消息通信115
5.1.3运行时消息通信118
5.2Spark任务执行原理124
5.2.1划分调度124
5.2.2提交调度127
5.2.3提交任务129
5.2.4执行任务134
5.2.5获取执行结果136
5.3容错138
5.3.1Executor异常138
5.3.2Worker异常139
5.3.3Master异常140
小结141
习题142
第6章 Spark存储原理143
6.1存储分析143
6.1.1体系架构143
6.1.2读数据过程146
6.1.3写数据过程153
6.2Shuffle161
6.2.1ShuffleWrite161
6.2.2ShuffleRead163
6.2.3HadoopShuffle与SparkShuffle.164
6.3共享变量166
6.3.1广播变量166
6.3.2累加器.168
小结168
习题169
第7章 SparkSQL170
7.1SparkSQL简介171
7.1.1SparkSQL的概念.171
7.1.2SparkSQL架构171
7.2DataFrame.173
7.2.1创建DataFrame173
7.2.2操作DataFrame176
7.2.3RDD转换为DataFrame179
7.3SparkSQL多数据源操作181
7.3.1MySQL数据源操作181
7.3.2Hive数据源操作183
7.4SparkSQL应用案例185
7.4.1用SparkSQL实现单词统计185
7.4.2电影数据分析188
小结191
习题191
第8章 SparkStreaming193
8.1认识SparkStreaming194
8.1.1流式计算简介194
8.1.2SparkStreaming简介195
8.1.3SparkStreaming工作原理196
8.2DStream196
8.2.1DStream简介196
8.2.2DStream转换操作197
8.2.3DStream输出200
8.2.4SparkStreaming窗口操作202
8.3SparkStreaming应用案例207
8.3.1SparkStreaming实现单词统计207
8.3.2SparkStreaming热搜统计209
8.3.3自定义输出实训210
8.3.4SparkStreaming窗口计算实训214
小结217
习题217












