大数据生态圈技术项目化教程 / “十四五”高等职业教育大数据技术及应用系列教材
定价:¥45.00
作者: 刘琰,任晓鸽,孙芳
出版时间:2025-06
最新印次日期:2025-6
出版社:中国铁道出版社
- 中国铁道出版社
- 9787113318888
- 1版
- 559919
- 16开
- 2025-06
- 大数据类
- 高职
作者简介
内容简介
本书系统讲解了大数据关键技术,通过部署Hadoop平台操作系统常用命令、部署Hadoop伪分布式集群、安装与配置ZooKeeper组件、配置与启动Hadoop高可用集群、安装与配置Hive组件、安装与配置Spark组件、安装与配置HBase组件、安装与配置Sqoop和Flume组件、安装与配置Flink组件共九个实战项目,覆盖了Linux、Hadoop、ZooKeeper、Hive、Spark、HBase等核心组件及Sqoop、Flume、Flink等工具的应用。
目录
项目一 部署 Hadoop 平台操作系统常用命令
任务一 了解 Linux 常用命令
1.1.1 文件与目录操作
1.1.2 用户操作
1.1.3 文本操作
1.1.4 系统操作
任务二 了解 Linux 虚拟机及用户信息
1.2.1 创建 Linux 操作系统虚拟机
1.2.2 用户和组
1.2.3 文件类型和权限
1.2.4 配置静态 IP
项目二 部署 Hadoop 伪分布式集群
任务一 走进 Hadoop 的世界
2.1.1 Hadoop 的发展历程与应用现状
2.1.2 Hadoop 的优点与核心组成
2.1.3 Hadoop 的安装部署方式
2.1.4 Hadoop 各版本选择
任务二 配置 Hadoop 集群基础环境
2.2.1 Hadoop 集群概述
2.2.2 平台系统环境配置
2.2.3 Hadoop 的安装与配置
任务三 启动与访问 Hadoop
2.3.1 Hadoop 启动与停止的操作命令
2.3.2 基于 Web UI 监控 Hadoop 平台
项目三 安装与配置 ZooKeeper 组件
任务一 学习 ZooKeeper 相关知识
3.1.1 ZooKeeper 的重要概念
3.1.2 ZooKeeper 的特点
任务二 配置 ZooKeeper 服务
任务三 了解 ZooKeeper 角色选举
任务四 下载和安装 ZooKeeper
任务五 配置 ZooKeeper 选项
3.5.1 master 节点配置
3.5.2 slave 节点配置
3.5.3 系统环境变量配置
任务六 启动 ZooKeeper
项目四 配置与启动 Hadoop 高可用集群
任务一 配置 HA 集群环境
4.1.1 Linux 操作系统环境配置
4.1.2 Java 环境变量配置
4.1.3 安装 Hadoop 软件
任务二 了解 Hadoop HA 集群的特点
任务三 理解 Hadoop HA 集群的实现原理
4.3.1 HDFS HA 的实现原理
4.3.2 YARN HA 的实现原理
任务四 修改 Hadoop HA 集群的文件参数
4.4.1 在 master 节点上配置
4.4.2 Hadoop HA 集群的文件参数
4.4.3 分发 Hadoop 相关文件给 slave1 节点和 slave2 节点
任务五 执行 HDFS 的格式化
4.5.1 格式化 active NameNode
4.5.2 格式化 ZKFC
4.5.3 启动 HDFS
4.5.4 启动 YARN
4.5.5 拷贝元数据启动 standby NameNode
4.5.6 启动 MapReduce 的历史服务器
任务六 验证启动后状态
4.6.1 查看进程
4.6.2 查看端口
4.6.3 运行测试
任务七 了解 Hadoop HA 集群的主备切换
4.7.1 Hadoop HA 集群的切换机制
4.7.2 自动切换测试
项目五 安装与配置 Hive 组件
任务一 学习 Hive 相关知识
任务二 了解 Hive 组件架构
任务三 下载和解压安装 Hive
5.3.1 基础环境和安装准备
5.3.2 解压安装文件
任务四 设置 Hive 环境
5.4.1 卸载 MariaDB 数据库
5.4.2 安装 MySQL 数据库
5.4.3 配置 Hive 组件
任务五 初始化 Hive 元数据
任务六 启动 Hive
项目六 安装与配置 Spark 组件
任务一 部署与操作 Spark Local
任务二 部署与操作 Spark Standalone
6.2.1 搭建 Spark 单机伪分布式环境
6.2.2 搭建完全分布式集群
6.2.3 Spark 运行流程
6.2.4 部署与操作 Spark on YARN
项目七 安装与配置 HBase 组件
任务一 搭建伪分布式 HBase
7.1.1 HBase 的原理
7.1.2 HBase 的体系架构
7.1.3 HBase 与 JDK、Hadoop 版本的兼容关系
7.1.4 HBase 伪分布式部署准备
任务二 部署 HBase 完全分布式集群
7.2.1 HBase 集群规划
7.2.2 HBase 的主要配置项及含义
7.2.3 HBase 访问命令
7.2.4 基于 Web UI 监控 HBase 的状态
任务三 运维 HBase 集群
7.3.1 HBase 监控工具介绍
7.3.2 HBase 集群优化
项目八 安装与配置 Sqoop 和 Flume 组件
任务一 了解 Sqoop
任务二 学习 Sqoop 的功能应用
8.2.1 Sqoop 架构
8.2.2 Sqoop 导入原理
任务三 下载和解压 Sqoop
任务四 配置 Sqoop 环境
任务五 启动 Sqoop
任务六 掌握 Sqoop 模板命令
任务七 应用 Sqoop 组件
任务八 学习 Flume 相关知识
任务九 应用 Flume 功能
8.9.1 Flume 功能
8.9.2 Flume 结构
任务十 设置 Flume 组件
任务十一 下载和解压 Flume
任务十二 部署 Flume 组件
任务十三 使用 Flume 发送和接收信息
项目九 安装与配置 Flink 组件
任务一 部署本地模式 Filnk
9.1.1 Flink 介绍
9.1.2 Flink 的部署模式
任务二 部署独立模式 Flink 集群
9.2.1 Flink 的体系架构
9.2.2 Flink 集群的运行模式
任务三 部署并运行 Flink on YARN 集群
9.3.1 Flink on YARN 的运行方法
9.3.2 故障调试与恢复
参考文献
任务一 了解 Linux 常用命令
1.1.1 文件与目录操作
1.1.2 用户操作
1.1.3 文本操作
1.1.4 系统操作
任务二 了解 Linux 虚拟机及用户信息
1.2.1 创建 Linux 操作系统虚拟机
1.2.2 用户和组
1.2.3 文件类型和权限
1.2.4 配置静态 IP
项目二 部署 Hadoop 伪分布式集群
任务一 走进 Hadoop 的世界
2.1.1 Hadoop 的发展历程与应用现状
2.1.2 Hadoop 的优点与核心组成
2.1.3 Hadoop 的安装部署方式
2.1.4 Hadoop 各版本选择
任务二 配置 Hadoop 集群基础环境
2.2.1 Hadoop 集群概述
2.2.2 平台系统环境配置
2.2.3 Hadoop 的安装与配置
任务三 启动与访问 Hadoop
2.3.1 Hadoop 启动与停止的操作命令
2.3.2 基于 Web UI 监控 Hadoop 平台
项目三 安装与配置 ZooKeeper 组件
任务一 学习 ZooKeeper 相关知识
3.1.1 ZooKeeper 的重要概念
3.1.2 ZooKeeper 的特点
任务二 配置 ZooKeeper 服务
任务三 了解 ZooKeeper 角色选举
任务四 下载和安装 ZooKeeper
任务五 配置 ZooKeeper 选项
3.5.1 master 节点配置
3.5.2 slave 节点配置
3.5.3 系统环境变量配置
任务六 启动 ZooKeeper
项目四 配置与启动 Hadoop 高可用集群
任务一 配置 HA 集群环境
4.1.1 Linux 操作系统环境配置
4.1.2 Java 环境变量配置
4.1.3 安装 Hadoop 软件
任务二 了解 Hadoop HA 集群的特点
任务三 理解 Hadoop HA 集群的实现原理
4.3.1 HDFS HA 的实现原理
4.3.2 YARN HA 的实现原理
任务四 修改 Hadoop HA 集群的文件参数
4.4.1 在 master 节点上配置
4.4.2 Hadoop HA 集群的文件参数
4.4.3 分发 Hadoop 相关文件给 slave1 节点和 slave2 节点
任务五 执行 HDFS 的格式化
4.5.1 格式化 active NameNode
4.5.2 格式化 ZKFC
4.5.3 启动 HDFS
4.5.4 启动 YARN
4.5.5 拷贝元数据启动 standby NameNode
4.5.6 启动 MapReduce 的历史服务器
任务六 验证启动后状态
4.6.1 查看进程
4.6.2 查看端口
4.6.3 运行测试
任务七 了解 Hadoop HA 集群的主备切换
4.7.1 Hadoop HA 集群的切换机制
4.7.2 自动切换测试
项目五 安装与配置 Hive 组件
任务一 学习 Hive 相关知识
任务二 了解 Hive 组件架构
任务三 下载和解压安装 Hive
5.3.1 基础环境和安装准备
5.3.2 解压安装文件
任务四 设置 Hive 环境
5.4.1 卸载 MariaDB 数据库
5.4.2 安装 MySQL 数据库
5.4.3 配置 Hive 组件
任务五 初始化 Hive 元数据
任务六 启动 Hive
项目六 安装与配置 Spark 组件
任务一 部署与操作 Spark Local
任务二 部署与操作 Spark Standalone
6.2.1 搭建 Spark 单机伪分布式环境
6.2.2 搭建完全分布式集群
6.2.3 Spark 运行流程
6.2.4 部署与操作 Spark on YARN
项目七 安装与配置 HBase 组件
任务一 搭建伪分布式 HBase
7.1.1 HBase 的原理
7.1.2 HBase 的体系架构
7.1.3 HBase 与 JDK、Hadoop 版本的兼容关系
7.1.4 HBase 伪分布式部署准备
任务二 部署 HBase 完全分布式集群
7.2.1 HBase 集群规划
7.2.2 HBase 的主要配置项及含义
7.2.3 HBase 访问命令
7.2.4 基于 Web UI 监控 HBase 的状态
任务三 运维 HBase 集群
7.3.1 HBase 监控工具介绍
7.3.2 HBase 集群优化
项目八 安装与配置 Sqoop 和 Flume 组件
任务一 了解 Sqoop
任务二 学习 Sqoop 的功能应用
8.2.1 Sqoop 架构
8.2.2 Sqoop 导入原理
任务三 下载和解压 Sqoop
任务四 配置 Sqoop 环境
任务五 启动 Sqoop
任务六 掌握 Sqoop 模板命令
任务七 应用 Sqoop 组件
任务八 学习 Flume 相关知识
任务九 应用 Flume 功能
8.9.1 Flume 功能
8.9.2 Flume 结构
任务十 设置 Flume 组件
任务十一 下载和解压 Flume
任务十二 部署 Flume 组件
任务十三 使用 Flume 发送和接收信息
项目九 安装与配置 Flink 组件
任务一 部署本地模式 Filnk
9.1.1 Flink 介绍
9.1.2 Flink 的部署模式
任务二 部署独立模式 Flink 集群
9.2.1 Flink 的体系架构
9.2.2 Flink 集群的运行模式
任务三 部署并运行 Flink on YARN 集群
9.3.1 Flink on YARN 的运行方法
9.3.2 故障调试与恢复
参考文献