- 科学出版社
- 9787030828873
- 1版
- 570777
- 2025-09
- 电子与信息大类
- 电子信息类
- 电子信息类
- 高职
内容简介
大数据是信息化发展的新阶段。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。本书以Hadoop 3.x为主线,全面介绍Hadoop及其生态体系中常用的大数据开源项目的安装和使用。全书共8个项目,分别讲解Hadoop大数据处理平台、大数据存储技术(HDFS)、大数据离线计算框架(MapReduce & YARN)、大数据数据库(HBase)、大数据数据仓库(Hive)、大数据数据转换(Sqoop)、大数据日志处理(Flume)、大数据实时计算框架(Spark)。
本书可作为职业院校计算机、信息管理等相关专业的大数据课程教材,也可作为计算机编程爱好者、大数据开发初学者、大数据运维人员以及大数据分析与挖掘领域从业人员的参考书。
本书可作为职业院校计算机、信息管理等相关专业的大数据课程教材,也可作为计算机编程爱好者、大数据开发初学者、大数据运维人员以及大数据分析与挖掘领域从业人员的参考书。
目录
项目1 Hadoop大数据处理平台 1
任务1.1 Linux网络搭建 2
1.1.1 Linux网络知识 2
1.1.2 Linux网络配置 5
任务1.2 Linux安全机制的配置 7
1.2.1 Linux防火墙和SELinux 8
1.2.2 Linux防火墙操作 11
任务1.3 Hadoop环境的搭建 12
1.3.1 Hadoop架构知识 12
1.3.2 Hadoop安全机制 14
1.3.3 Hadoop单机部署 16
1.3.4 Hadoop集群部署 17
1.3.5 Hadoop高可用部署 23
项目实训 30
项目小结 31
项目2 大数据存储技术(HDFS) 32
任务2.1 了解HDFS的相关概念 33
2.1.1 文件系统 33
2.1.2 数据和元数据 34
2.1.3 HDFS简介 35
2.1.4 HDFS设计目标 35
2.1.5 HDFS重要特性 36
2.1.6 HDFS集群角色及职责 38
任务2.2 学习HDFS体系架构与原理 40
2.2.1 HDFS体系架构 40
2.2.2 HDFS的高可用机制 41
2.2.3 HDFS的目录结构 42
2.2.4 HDFS的数据读写过程 47
2.2.5 HDFS命令行操作 48
项目实训 52
项目小结 53
项目3 大数据离线计算框架(MapReduce & YARN) 54
任务3.1 学习MapReduce技术原理 55
3.1.1 MapReduce概述 55
3.1.2 MapReduce的计算过程 57
3.1.3 Map()函数与Reduce()函数 57
3.1.4 MapReduce入门案例 59
任务3.2 学习YARN技术原理 61
3.2.1 YARN概述 61
3.2.2 YARN的架构 61
3.2.3 YARN的资源调度 62
3.2.4 YARN容量调度器多队列配置案例 64
项目实训 68
项目小结 68
项目4 大数据数据库(HBase) 70
任务4.1 了解HBase 71
4.1.1 HBase与关系数据库的区别 71
4.1.2 HBase的应用场景 73
任务4.2 学习HBase的架构原理 74
4.2.1 HBase的数据模型 75
4.2.2 表和Region 77
4.2.3 HBase的系统架构与功能组件 78
4.2.4 HBase的读写流程 80
任务4.3 学习HBase的基本操作 82
4.3.1 HBase的环境搭建 83
4.3.2 HBase Shell的常用命令 85
项目实训 91
项目小结 92
项目5 大数据数据仓库(Hive) 93
任务5.1 学习Hive基本知识 94
5.1.1 Hive的特性 94
5.1.2 Hive与传统数据仓库的区别 95
任务5.2 学习Hive的架构和数据存储 97
5.2.1 Hive的架构设计原理 97
5.2.2 Hive的数据存储模型 99
任务5.3 完成Hive应用实践 103
5.3.1 Hive环境搭建 103
5.3.2 HiveQL编程 107
5.3.3 加载数据到Hive 113
项目实训 116
项目小结 118
项目6 大数据数据转换(Sqoop) 119
任务6.1 了解Sqoop 120
6.1.1 Sqoop的功能与特性 120
6.1.2 Sqoop与传统ETL的区别 124
任务6.2 完成Sqoop操作 126
6.2.1 Sqoop环境搭建 126
6.2.2 Sqoop迁移MySQL数据 128
6.2.3 Sqoop迁移HDFS数据 132
项目实训 135
项目小结 135
项目7 大数据日志处理(Flume) 137
任务7.1 了解Flume 138
7.1.1 Flume的功能与特性 138
7.1.2 Flume与其他主流开源日志收集系统的区别 141
任务7.2 完成Flume的应用实践 145
7.2.1 Flume搭建 145
7.2.2 Flume Agent编写 147
7.2.3 Flume与Kafka结合进行日志处理 159
项目实训 161
项目小结 162
项目8 大数据实时计算框架(Spark) 163
任务8.1 了解Spark 164
8.1.1 Spark生态系统组件 164
8.1.2 Spark与Hadoop的对比 168
任务8.2 学习Spark技术架构 170
8.2.1 Spark的运行原理 170
8.2.2 RDD概念与原理 172
8.2.3 Spark的部署模式 179
任务8.3 完成Spark应用实践 182
8.3.1 运行Spark Shell 182
8.3.2 进行Spark RDD操作 183
任务8.4 完成Spark Streaming操作 187
8.4.1 Spark Streaming的设计思想 187
8.4.2 Spark Streaming的应用实例 187
任务8.5 完成Spark SQL操作 192
8.5.1 Spark SQL的功能 193
8.5.2 Spark SQL的应用实例 193
项目实训 198
项目小结 199
参考文献 200
任务1.1 Linux网络搭建 2
1.1.1 Linux网络知识 2
1.1.2 Linux网络配置 5
任务1.2 Linux安全机制的配置 7
1.2.1 Linux防火墙和SELinux 8
1.2.2 Linux防火墙操作 11
任务1.3 Hadoop环境的搭建 12
1.3.1 Hadoop架构知识 12
1.3.2 Hadoop安全机制 14
1.3.3 Hadoop单机部署 16
1.3.4 Hadoop集群部署 17
1.3.5 Hadoop高可用部署 23
项目实训 30
项目小结 31
项目2 大数据存储技术(HDFS) 32
任务2.1 了解HDFS的相关概念 33
2.1.1 文件系统 33
2.1.2 数据和元数据 34
2.1.3 HDFS简介 35
2.1.4 HDFS设计目标 35
2.1.5 HDFS重要特性 36
2.1.6 HDFS集群角色及职责 38
任务2.2 学习HDFS体系架构与原理 40
2.2.1 HDFS体系架构 40
2.2.2 HDFS的高可用机制 41
2.2.3 HDFS的目录结构 42
2.2.4 HDFS的数据读写过程 47
2.2.5 HDFS命令行操作 48
项目实训 52
项目小结 53
项目3 大数据离线计算框架(MapReduce & YARN) 54
任务3.1 学习MapReduce技术原理 55
3.1.1 MapReduce概述 55
3.1.2 MapReduce的计算过程 57
3.1.3 Map()函数与Reduce()函数 57
3.1.4 MapReduce入门案例 59
任务3.2 学习YARN技术原理 61
3.2.1 YARN概述 61
3.2.2 YARN的架构 61
3.2.3 YARN的资源调度 62
3.2.4 YARN容量调度器多队列配置案例 64
项目实训 68
项目小结 68
项目4 大数据数据库(HBase) 70
任务4.1 了解HBase 71
4.1.1 HBase与关系数据库的区别 71
4.1.2 HBase的应用场景 73
任务4.2 学习HBase的架构原理 74
4.2.1 HBase的数据模型 75
4.2.2 表和Region 77
4.2.3 HBase的系统架构与功能组件 78
4.2.4 HBase的读写流程 80
任务4.3 学习HBase的基本操作 82
4.3.1 HBase的环境搭建 83
4.3.2 HBase Shell的常用命令 85
项目实训 91
项目小结 92
项目5 大数据数据仓库(Hive) 93
任务5.1 学习Hive基本知识 94
5.1.1 Hive的特性 94
5.1.2 Hive与传统数据仓库的区别 95
任务5.2 学习Hive的架构和数据存储 97
5.2.1 Hive的架构设计原理 97
5.2.2 Hive的数据存储模型 99
任务5.3 完成Hive应用实践 103
5.3.1 Hive环境搭建 103
5.3.2 HiveQL编程 107
5.3.3 加载数据到Hive 113
项目实训 116
项目小结 118
项目6 大数据数据转换(Sqoop) 119
任务6.1 了解Sqoop 120
6.1.1 Sqoop的功能与特性 120
6.1.2 Sqoop与传统ETL的区别 124
任务6.2 完成Sqoop操作 126
6.2.1 Sqoop环境搭建 126
6.2.2 Sqoop迁移MySQL数据 128
6.2.3 Sqoop迁移HDFS数据 132
项目实训 135
项目小结 135
项目7 大数据日志处理(Flume) 137
任务7.1 了解Flume 138
7.1.1 Flume的功能与特性 138
7.1.2 Flume与其他主流开源日志收集系统的区别 141
任务7.2 完成Flume的应用实践 145
7.2.1 Flume搭建 145
7.2.2 Flume Agent编写 147
7.2.3 Flume与Kafka结合进行日志处理 159
项目实训 161
项目小结 162
项目8 大数据实时计算框架(Spark) 163
任务8.1 了解Spark 164
8.1.1 Spark生态系统组件 164
8.1.2 Spark与Hadoop的对比 168
任务8.2 学习Spark技术架构 170
8.2.1 Spark的运行原理 170
8.2.2 RDD概念与原理 172
8.2.3 Spark的部署模式 179
任务8.3 完成Spark应用实践 182
8.3.1 运行Spark Shell 182
8.3.2 进行Spark RDD操作 183
任务8.4 完成Spark Streaming操作 187
8.4.1 Spark Streaming的设计思想 187
8.4.2 Spark Streaming的应用实例 187
任务8.5 完成Spark SQL操作 192
8.5.1 Spark SQL的功能 193
8.5.2 Spark SQL的应用实例 193
项目实训 198
项目小结 199
参考文献 200










