Hadoop大数据平台构建与应用(第2版)(微课版)
定价:¥55.00
作者: 马荣飞
出版时间:2025-02
出版社:电子工业出版社
- 电子工业出版社
- 9787121481604
- 2版
- 540567
- 68260226-3
- 平塑
- 16开
- 2025-02
- 396
- 260
- 电子与信息大类
- 计算机类
- 高职
内容简介
本书基于Hadoop大数据平台,讲解大数据平台的搭建与运维、数据的采集与存储、数据的处理、数据的分析、数据的可视化等完整的大数据应用案例,不仅全面、详细地讲述Hadoop、MapReduce、HDFS、Hive、Spark和ZooKeeper等技术的相关知识,还详细介绍Hadoop集群和Hadoop HA集群的部署等内容。本书具有较强的实用性和可操作性,语言精练,通俗易懂,操作步骤描述详尽,并配有大量操作图例。本书既可以作为高等职业院校大数据应用专业、软件技术专业、云计算技术与应用专业的大数据分析与软件开发等相关课程的教材,也可以作为从事大数据分析、云计算应用等系统开发与分析的技术人员的参考用书。
目录
项目1 Ubuntu系统的安装与使用 1
1.1 大数据技术与Hadoop平台生态 1
1.1.1 大数据 1
1.1.2 大数据关键技术 2
1.1.3 大数据涉及的主要软件 4
1.1.4 Hadoop平台技术的生态 4
1.2 Ubuntu系统安装 7
1.2.1 安装VMware Workstation 7
1.2.2 在虚拟机中安装Ubuntu系统 12
1.2.3 VMware快照 28
1.2.4 中英文输入法切换 30
1.2.5 安装VMware Tools 30
1.2.6 案例1-1:安装vim编辑器并使用 34
1.2.7 案例1 2:apt更新与更新源项目实践 36
1.2.8 案例1 3:安装SSH实践 39
1.3 Linux系统简介与应用 40
1.3.1 Linux系统的目录结构 40
1.3.2 超级用户——root用户 42
1.3.3 目录标记规则 43
1.3.4 案例1 4:普通用户与超级用户互转实例 43
1.3.5 案例1 5:创建与删除普通用户 44
1.3.6 案例1-6:为用户授予目录权限实例 45
1.3.7 案例1 7:修改主机名操作实践 46
1.3.8 案例1 8:目录和文件操作实践 47
1.3.9 案例1-9:文件解压缩操作实践 48
1.3.10 案例1-10:进程与端口查看命令操作实践 49
1.3.11 案例1 11:数据流重定向和管道使用操作实践 50
1.4 在Ubuntu系统中安装Eclipse项目实践 51
1.4.1 通过软件中心下载并安装Eclipse 51
1.4.2 在桌面中创建Eclipse快捷方式 53
1.5 思考与操作 53
项目2 Hadoop伪分布式模式部署 56
2.1 深入了解Hadoop 56
2.1.1 Hadoop发行版本介绍 56
2.1.2 Hadoop核心架构 57
2.1.3 Hadoop的主要应用场景 58
2.2 安装Java环境(JDK) 59
2.3 安装Hadoop实践 61
2.3.1 下载Hadoop安装文件并解压缩 61
2.3.2 配置Hadoop环境变量 62
2.3.3 配置伪分布式模式 63
2.3.4 Hadoop无法正常启动和使用的解决方法 66
2.4 思考与操作 67
项目3 分布式文件系统HDFS 69
3.1 HDFS基本知识 69
3.1.1 分布式文件系统(DFS)简介 69
3.1.2 Hadoop分布式文件系统(HDFS) 70
3.1.3 HDFS存储数据 70
3.2 使用Shell命令与HDFS进行交互操作实践 72
3.2.1 Hadoop Shell命令方式 72
3.2.2 案例3-1:目录操作实践 73
3.2.3 案例3-2:文件操作实践 74
3.2.4 案例3-3:利用Web管理界面管理HDFS 75
3.3 利用Java API编程与HDFS实现交互实践 76
3.3.1 在Eclipse中创建HDFS交互Java项目的基本步骤 76
3.3.2 在Java项目中编写Java应用程序代码 81
3.3.3 编译并运行程序与打包 83
3.3.4 练习用的代码文件 88
3.4 思考与操作 91
项目4 HBase伪分布式模式部署与使用 94
4.1 HBase介绍 94
4.2 安装HBase 95
4.3 HBase伪分布式模式部署实践 97
4.4 HBase Shell常用操作命令实践 100
4.4.1 HBase表结构形式和常用的表操作命令 100
4.4.2 案例4-1:在HBase数据库中创建表和删除表 101
4.4.3 案例4-2:HBase数据库基本操作 102
4.5 思考与操作 104
项目5 MapReduce基础编程实践 107
5.1 MapReduce介绍与基本原理 107
5.1.1 MapReduce在现实生活中的例子描述 107
5.1.2 通过案例拆解MapReduce的工作过程 108
5.1.3 MapReduce的工作过程概括 112
5.2 MapReduce编程思路 112
5.3 MapReduce编程实践:单词统计(WordCount)案例 113
5.3.1 在Java项目中添加MapReduce编程支持功能 113
5.3.2 编写程序 116
5.3.3 编译与打包及运行程序 121
5.4 MapReduce编程项目:计算学生的平均成绩 125
5.5 思考与操作 128
项目6 Hive伪分布式模式部署与使用 131
6.1 Hive的特点 131
6.2 Hive伪分布式模式部署实践 132
6.2.1 安装与配置Hive 132
6.2.2 安装与配置MySQL读写Hive元数据库 133
6.3 MySQL数据库操作 137
6.3.1 常用命令介绍 137
6.3.2 无法登录MySQL的解决方法 139
6.4 思考与操作 140
项目7 数据分析与Hive数据库操作 142
7.1 Hive操作命令介绍及实践 142
7.2 HQL中的“CASE WHEN THEN ELSE END”命令的用法 144
7.3 单词统计 147
7.4 人口收入数据综合分析 148
7.4.1 项目实现目标 149
7.4.2 数据结构分析与安全配置条件 149
7.4.3 目标实现操作 150
7.5 思考与操作 153
项目8 Spark安装与基础编程 155
8.1 Spark的安装(Python版)实践 155
8.1.1 下载Spark安装文件 156
8.1.2 安装与配置Spark 156
8.1.3 在pyspark中运行代码 157
8.1.4 Spark独立应用程序编程案例实践 158
8.2 Spark的一些基本概念 159
8.3 RDD编程操作 160
8.3.1 RDD操作的两种类型 160
8.3.2 创建RDD操作实践案例 161
8.3.3 键值对RDD的创建案例 165
8.4 从RDD到DataFrame实践 168
8.4.1 Spark SQL和DataFrame 168
8.4.2 创建样例数据文件 170
8.4.3 从JSON文件和CSV文件中读取数据生成DataFrame 171
8.4.4 从普通文本文件中读取数据生成DataFrame 172
8.5 Spark项目编程与Python可视化 175
8.5.1 Spark项目编程实践 176
8.5.2 Python可视化呈现 179
8.6 思考与操作 185
项目9 Hadoop从完全分布式到HA安装与使用 190
9.1 Hadoop HA模式介绍 190
9.1.1 Hadoop HA模式的背景 190
9.1.2 Hadoop HA模式的架构 191
9.2 安装虚拟机系统项目实践 192
9.2.1 在VMware Workstation中创建虚拟机 193
9.2.2 安装CentOS 7系统 199
9.2.3 设置网络静态IP地址 201
9.2.4 使用XShell 6登录CentOS虚拟机 204
9.2.5 预先统一安装软件命令或预先配置设置 207
9.2.6 克隆3个虚拟机 208
9.3 命名节点主机名称并设置SSH免密登录 209
9.3.1 修改各节点虚拟机主机名 209
9.3.2 实现主机名与IP地址映射 210
9.3.3 设
1.1 大数据技术与Hadoop平台生态 1
1.1.1 大数据 1
1.1.2 大数据关键技术 2
1.1.3 大数据涉及的主要软件 4
1.1.4 Hadoop平台技术的生态 4
1.2 Ubuntu系统安装 7
1.2.1 安装VMware Workstation 7
1.2.2 在虚拟机中安装Ubuntu系统 12
1.2.3 VMware快照 28
1.2.4 中英文输入法切换 30
1.2.5 安装VMware Tools 30
1.2.6 案例1-1:安装vim编辑器并使用 34
1.2.7 案例1 2:apt更新与更新源项目实践 36
1.2.8 案例1 3:安装SSH实践 39
1.3 Linux系统简介与应用 40
1.3.1 Linux系统的目录结构 40
1.3.2 超级用户——root用户 42
1.3.3 目录标记规则 43
1.3.4 案例1 4:普通用户与超级用户互转实例 43
1.3.5 案例1 5:创建与删除普通用户 44
1.3.6 案例1-6:为用户授予目录权限实例 45
1.3.7 案例1 7:修改主机名操作实践 46
1.3.8 案例1 8:目录和文件操作实践 47
1.3.9 案例1-9:文件解压缩操作实践 48
1.3.10 案例1-10:进程与端口查看命令操作实践 49
1.3.11 案例1 11:数据流重定向和管道使用操作实践 50
1.4 在Ubuntu系统中安装Eclipse项目实践 51
1.4.1 通过软件中心下载并安装Eclipse 51
1.4.2 在桌面中创建Eclipse快捷方式 53
1.5 思考与操作 53
项目2 Hadoop伪分布式模式部署 56
2.1 深入了解Hadoop 56
2.1.1 Hadoop发行版本介绍 56
2.1.2 Hadoop核心架构 57
2.1.3 Hadoop的主要应用场景 58
2.2 安装Java环境(JDK) 59
2.3 安装Hadoop实践 61
2.3.1 下载Hadoop安装文件并解压缩 61
2.3.2 配置Hadoop环境变量 62
2.3.3 配置伪分布式模式 63
2.3.4 Hadoop无法正常启动和使用的解决方法 66
2.4 思考与操作 67
项目3 分布式文件系统HDFS 69
3.1 HDFS基本知识 69
3.1.1 分布式文件系统(DFS)简介 69
3.1.2 Hadoop分布式文件系统(HDFS) 70
3.1.3 HDFS存储数据 70
3.2 使用Shell命令与HDFS进行交互操作实践 72
3.2.1 Hadoop Shell命令方式 72
3.2.2 案例3-1:目录操作实践 73
3.2.3 案例3-2:文件操作实践 74
3.2.4 案例3-3:利用Web管理界面管理HDFS 75
3.3 利用Java API编程与HDFS实现交互实践 76
3.3.1 在Eclipse中创建HDFS交互Java项目的基本步骤 76
3.3.2 在Java项目中编写Java应用程序代码 81
3.3.3 编译并运行程序与打包 83
3.3.4 练习用的代码文件 88
3.4 思考与操作 91
项目4 HBase伪分布式模式部署与使用 94
4.1 HBase介绍 94
4.2 安装HBase 95
4.3 HBase伪分布式模式部署实践 97
4.4 HBase Shell常用操作命令实践 100
4.4.1 HBase表结构形式和常用的表操作命令 100
4.4.2 案例4-1:在HBase数据库中创建表和删除表 101
4.4.3 案例4-2:HBase数据库基本操作 102
4.5 思考与操作 104
项目5 MapReduce基础编程实践 107
5.1 MapReduce介绍与基本原理 107
5.1.1 MapReduce在现实生活中的例子描述 107
5.1.2 通过案例拆解MapReduce的工作过程 108
5.1.3 MapReduce的工作过程概括 112
5.2 MapReduce编程思路 112
5.3 MapReduce编程实践:单词统计(WordCount)案例 113
5.3.1 在Java项目中添加MapReduce编程支持功能 113
5.3.2 编写程序 116
5.3.3 编译与打包及运行程序 121
5.4 MapReduce编程项目:计算学生的平均成绩 125
5.5 思考与操作 128
项目6 Hive伪分布式模式部署与使用 131
6.1 Hive的特点 131
6.2 Hive伪分布式模式部署实践 132
6.2.1 安装与配置Hive 132
6.2.2 安装与配置MySQL读写Hive元数据库 133
6.3 MySQL数据库操作 137
6.3.1 常用命令介绍 137
6.3.2 无法登录MySQL的解决方法 139
6.4 思考与操作 140
项目7 数据分析与Hive数据库操作 142
7.1 Hive操作命令介绍及实践 142
7.2 HQL中的“CASE WHEN THEN ELSE END”命令的用法 144
7.3 单词统计 147
7.4 人口收入数据综合分析 148
7.4.1 项目实现目标 149
7.4.2 数据结构分析与安全配置条件 149
7.4.3 目标实现操作 150
7.5 思考与操作 153
项目8 Spark安装与基础编程 155
8.1 Spark的安装(Python版)实践 155
8.1.1 下载Spark安装文件 156
8.1.2 安装与配置Spark 156
8.1.3 在pyspark中运行代码 157
8.1.4 Spark独立应用程序编程案例实践 158
8.2 Spark的一些基本概念 159
8.3 RDD编程操作 160
8.3.1 RDD操作的两种类型 160
8.3.2 创建RDD操作实践案例 161
8.3.3 键值对RDD的创建案例 165
8.4 从RDD到DataFrame实践 168
8.4.1 Spark SQL和DataFrame 168
8.4.2 创建样例数据文件 170
8.4.3 从JSON文件和CSV文件中读取数据生成DataFrame 171
8.4.4 从普通文本文件中读取数据生成DataFrame 172
8.5 Spark项目编程与Python可视化 175
8.5.1 Spark项目编程实践 176
8.5.2 Python可视化呈现 179
8.6 思考与操作 185
项目9 Hadoop从完全分布式到HA安装与使用 190
9.1 Hadoop HA模式介绍 190
9.1.1 Hadoop HA模式的背景 190
9.1.2 Hadoop HA模式的架构 191
9.2 安装虚拟机系统项目实践 192
9.2.1 在VMware Workstation中创建虚拟机 193
9.2.2 安装CentOS 7系统 199
9.2.3 设置网络静态IP地址 201
9.2.4 使用XShell 6登录CentOS虚拟机 204
9.2.5 预先统一安装软件命令或预先配置设置 207
9.2.6 克隆3个虚拟机 208
9.3 命名节点主机名称并设置SSH免密登录 209
9.3.1 修改各节点虚拟机主机名 209
9.3.2 实现主机名与IP地址映射 210
9.3.3 设










