注册 登录 进入教材巡展
#

出版时间:2023-09

出版社:中国铁道出版社

以下为《大数据技术基础》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 中国铁道出版社
  • 9787113304607
  • 1版
  • 502210
  • 47248957-4
  • 16开
  • 2023-09
作者简介
罗金炎,工学硕士,闽江学院副教授,主要研究方向为智能优化算法、机器学习、人工智能等。主要讲授程序设计基础C语言、Hadoop原理及应用、大数据技术与应用、人工神经网络与深度学习等课程,参编教材2部。曾主持多项省自然科学基金项目、校基金项目、横向项目等,发表学术论文30多篇。

董正山,应用数学博士,现任闽江学院数学与数据科学学院讲师。主要从事优化理论与算法、机器学习、数据分析等相关领域的理论与应用研究,已经在国内外重要学术期刊上发表论文5篇。个人曾在企业从事过视频数据智能分析等相关工作3年,拥有数据分析、人工智能等工程实践经验。

雷进宇,博士,现任闽江学院数学与数据科学学院讲师。主要从事船舶轨迹数据挖掘、时空数据可视分析及智能交通信息系统的研究。主要主持或参与国家级、省级科学基金多项。在国内外学术刊物发表了10余篇学术论文,获得国家专利4项,软件著作权2项。
查看全部
内容简介
本书较为系统地讲解了大数据处理平台Hadoop和Spark生态系统的相关技术原理、使用方法和开发技术,全书共11章,主要包括大数据技术概述、 大数据处理平台Hadoop、分布式文件系统 HDFS 、分布式计算框架MapReduce、 Hadoop的发展和演化、数据仓库——Hive、 分布式数据库——HBase、 Spark的基本概念和整体架构及集群安装、 Spark核心编程、 Spark 生态系统、Flinkk基本概念和体系结构及编程实践。
目录
第1 章 绪论 / 1
1.1 大数据发展背景 / 1
1.2 大数据基本概念与特点 / 2
1.2.1 大数据基本概念 / 2
1.2.2 大数据的特点 / 4
1.3 大数据处理的关键技术 / 5
1.3.1 数据采集 / 5
1.3.2 数据存储 / 6
1.3.3 分析、建模、计算 / 7
1.3.4 结果展示 / 9
1.3.5 数据安全与隐私保护 / 10
1.4 大数据处理框架 / 11
1.4.1 并行计算面临的挑战 / 11
1.4.2 大数据并行处理系统 / 12
1.4.3 大数据并行处理框架的发展历程 / 13
1.5 大数据应用 / 16
1.5.1 大数据产业构建 / 16
1.5.2 大数据应用场景 / 18
1.5.3 大数据行业发展趋势 / 20
小结 / 21
习题 / 21
思政小讲堂 / 22
第2 章 大数据处理框架Hadoop / 23
2.1 Hadoop 概述 / 23
2.1.1 Hadoop 的概念 / 23
2.1.2 Hadoop 发展史 / 24
2.1.3 Hadoop 版本 / 25
2.2 Hadoop 的体系结构和生态系统 / 26
2.2.1 Hadoop 的体系结构 / 26
2.2.2 Hadoop 生态系统 / 29
2.3 Hadoop 的特点、应用与发展趋势 / 31
2.3.1 Hadoop 的特点 / 31
2.3.2 Hadoop 的应用现状和前景 / 31
2.4 Hadoop 集群搭建和安装配置 / 34
2.4.1 Hadoop 集群搭建概述 / 34

2.4.2 Hadoop 安装、配置和启动 / 35
小结 / 47
习题 / 47
思政小讲堂 / 47
第3 章 分布式文件系统HDFS / 49
3.1 分布式文件系统概述 / 49
3.2 HDFS 简介 / 51
3.3 HDFS 体系结构及相关概念 / 53
3.3.1 HDFS 体系结构 / 53
3.3.2 HDFS 相关概念 / 53
3.4 HDFS 的工作机制 / 59
3.4.1 HDFS 读数据的过程 / 60
3.4.2 HDFS 写数据的过程 / 61
3.5 访问HDFS 的方式 / 62
3.5.1 HDFS 的Shell 命令行方式 / 63
3.5.2 HDFS 的Java API 编程方式 / 65
3.5.3 HDFS 的Web 访问方式 / 68
3.6 实战:用Java 复制文件到HDFS / 69
小结 / 82
习题 / 82
思政小讲堂 / 83
第4 章 分布式计算框架MapReduce / 84
4.1 初识MapReduce / 84
4.1.1 MapReduce 简介 / 84
4.1.2 MapReduce 的设计构思 / 85
4.1.3 MapReduce 的特点 / 87
4.2 MapReduce 的编程模型 / 88
4.2.1 概述 / 88
4.2.2 第一个MapReduce 程序—— WordCount 程序 / 89
4.3 MapReduce 的工作机制 / 94
4.3.1 MapReduce 的基本架构 / 94
4.3.2 MapReduce 的执行过程 / 96
4.3.3 MapReduce 的Shuffle 过程 / 99
4.4 Hadoop MapReduce 的序列化机制 / 101
4.4.1 序列化概述 / 101
4.4.2 Hadoop 对序列化机制的要求 / 102
4.4.3 Hadoop 中的序列化相关接口 / 102
4.5 MapReduce 的性能调优 / 105
4.5.1 MapReduce 的参数配置优化 / 105
4.5.2 启用数据压缩 / 109
4.5.3 重用JVM / 109
4.6 实战:MapReduce 程序统计文本单词出现频次 / 110
小结 / 117
习题 / 118
思政小讲堂 / 118
第5 章 Hadoop 的发展与优化 / 119
5.1 概述 / 119
5.2 HDFS 的高可用和联邦 / 120
5.2.1 HDFS 的HA 机制 / 120
5.2.2 HDFS 的Federation 机制 / 123
5.3 资源管理调度框架YARN / 125
5.3.1 YARN 简介 / 125
5.3.2 YARN 的基本架构 / 128
5.3.3 YARN 的工作流程 / 130
5.3.4 YARN 的完善 / 132
5.4 分布式协调服务组件 Zookeeper / 133
5.4.1 Zookeeper 概述 / 133
5.4.2 Zookeeper 服务 / 135
5.4.3 Zookeeper 的应用场景 / 138
5.4.4 Zookeeper 的安装配置 / 140
5.5 实战:开发一个YARN 客户端应用 / 142
小结 / 153
习题 / 153
思政小讲堂 / 154
第6 章 分布式数据库HBase / 156
6.1 HBase 概述 / 156
6.1.1 HBase 简介 / 156
6.1.2 安装HBase / 158
6.2 HBase 基础 / 160
6.2.1 HBase 架构 / 160
6.2.2 HBase 数据存储 / 162
6.3 HBase Shell 命令行方式 / 163
6.3.1 NameSpace 操作 / 164
6.3.2 DDL 操作 / 164
6.3.3 DML 操作 / 165
6.4 HBase API 编程方式 / 165
6.4.1 客户端配置 / 165
6.4.2 创建表 / 166
6.4.3 删除表 / 167
6.4.4 插入数据 / 167
6.4.5 查询数据 / 168
6.4.6 删除数据 / 169
6.5 实战:HBase Shell 操作 / 169
小结 / 176
习题 / 176
思政小讲堂 / 176
第7 章 数据仓库Hive / 179
7.1 初识Hive / 179
7.1.1 Hive 简介 / 179
7.1.2 Hive 的数据类型 / 180
7.2 Hive 的原理及架构 / 180
7.3 Hive 的数据操作和查询语言 / 181
7.3.1 Hive Shell 命令行形式 / 181
7.3.2 Hive DDL 操作 / 182
7.3.3 Hive DML 操作 / 183
7.4 Hive 的高级技术 / 185
7.4.1 Hive 复杂数据类型 / 185
7.4.2 Hive 索引 / 187
7.4.3 优化Hive 执行 / 188
7.4.4 使用分区 / 188
7.4.5 使用桶 / 190
7.4.6 Hive Java 编程接口 / 191
7.4.7 Hive 自定义函数 / 192
7.5 实战:Hive 综合实例 / 193
小结 / 196
习题 / 196
思政小讲堂 / 196
第8 章 基于内存的分布式计算
    框架Spark / 198
8.1 Spark 概述 / 198
8.1.1 Spark 的发展 / 198
8.1.2 Spark 与Hadoop 的比较 / 199
8.1.3 Spark 的特点 / 200
8.2 Spark 架构设计 / 201
8.3 Spark 运行架构及运行原理 / 203
8.4 Spark 部署模式 / 204
8.5 Spark 的应用场景 / 205
8.5.1 数据处理应用 / 205
8.5.2 数据科学任务 / 206
8.6 Spark 集群安装与启动 / 207
8.6.1 集群的安装 / 208
8.6.2 Spark Shell / 210
小结 / 214
习题 / 214
思政小讲堂 / 214
第9 章 Spark 核心编程 / 216
9.1 RDD 编程基础 / 216
9.1.1 RDD 概述 / 216
9.1.2 RDD 创建 / 217
9.1.3 RDD 操作 / 219
9.1.4 RDD 持久化 / 222
9.1.5 RDD 分区 / 224
9.1.6 RDD 容错机制 / 227
9.2 Spark DAG 工作原理 / 227
9.2.1 Lineage 概述 / 227
9.2.2 Spark DAG 概述 / 228
9.2.3 Spark DAGScheduler 概述 / 229
9.3 Spark stage 概述 / 231
9.4 Spark 基础编程实践 / 232
9.4.1 数据读写 / 232
9.4.2 Spark RDD 基本操作 / 238
小结 / 251
习题 / 251
思政小讲堂 / 252
第10 章 Spark 生态系统 / 253
10.1 Spark SQL 介绍 / 253
10.1.1 Spark SQL 接口 / 254
10.1.2 SparkSession 简介 / 254
10.1.3 DataFrame 创建与操作 / 255
10.1.4 Spark SQL 临时视图与全局视图 / 257
10.1.5 Spark SQL 创建Datasets / 258
10.1.6 将 RDD 转化为 DataFrame / 259
10.1.7 Spark SQL 数据源 / 261
10.1.8 Spark SQL REPL / 263
10.2 Spark Streaming / 263
.10.2.1 Spark Streaming 概述 / 263
10.2.2 Spark Streaming 工作机制 / 264
10.2.3 DStream 概述 / 265
10.2.4 Spark Streaming 数据输入源 / 265
10.2.5 DStream 支持的转换操作 / 266
10.2.6 DStream 窗口操作 / 267
10.2.7 DStream 输出操作 / 269
10.3 Structured Streaming / 269
10.3.1 Structured Streaming 概述 / 270
10.3.2 Structured Streaming 处理模型 / 271
10.4 Spark MLlib / 272
10.4.1 MLlib 概述 / 273
10.4.2 基本数据类型 / 273
10.4.3 Spark 机器学习基本统计 / 276
10.4.4 Spark 机器学习Pipeline / 278
10.4.5 Pipeline 示例 / 279
10.5 Spark GraphX 介绍 / 281
10.5.1 属性图 / 281
10.5.2 属性图实例 / 282
10.5.3 图操作 / 283
小结 / 289
习题 / 289
思政小讲堂 / 289
第11 章 流式数据处理引擎Flink / 291
11.1 Flink 概述 / 291
11.1.1 Flink 的发展 / 291
11.1.2 Flink 流处理的基本组件 / 292
11.1.3 Flink 应用 / 294
11.1.4 Flink 的部署 / 297
11.2 Flink 架构 / 298
11.3 Flink 编程模型 / 301
11.4 Flink 应用程序结构 / 302
11.5 Flink 环境搭建和简单使用 / 304
11.5.1 安装Flink / 304
11.5.2 Scala Shell 的使用 / 305
11.5.3 使用IntelliJ IDEA 开发Flink应用程序 / 306
小结 / 312

习题 / 312
思政小讲堂 / 312
参考文献 / 314