Hadoop生态集群与应用开发(上)
¥70.00定价
作者: 曾修俊,刘登刚
出版时间:2022-09
出版社:重庆大学电子音像出版社
- 重庆大学电子音像出版社
- 9787894466457
- 1版
- 504916
- 65246101-3
- 16开
- 2022-09
- 计算机类
- 高职
内容简介
本书主要讲解了Hadoop简介、HDFS应用、YARN资源调度器、MapReduce入门、MapReduce应用、ZooKeeper和Hadoop集群构建与管理。通过本书的学习,学生能掌握Hadoop生态集群的知识和实际应用。
目录
目录
第1章 初识Hadoop 1
1.1 Hadoop 国内外应用案例介绍 3
1.1.1 什么是大数据 3
1.1.2 Hadoop 国内外应用案例介绍 4
1.2 Hadoop 发展简史 7
1.2.1 Hadoop的介绍 7
1.2.2 Hadoop的四大特性(优点) 9
1.3 Hadoop历史版本介绍 9
1.3.1 Hadoop1.0 9
1.3.2 Hadoop2.0 10
1.3.3 Hadoop3.0 11
1.4 Hadoop 生态成员介绍 11
1.5 Apache 版本Hadoop环境构建 13
1.5.1 安装虚拟机 13
1.5.2 安装CentOS 6 20
1.5.3 关闭防火墙 23
1.5.4 SSH安装 23
1.5.5 使用Xshell及Xftp访问CentOS 24
1.5.6 安装JDK 26
1.5.7 下载Hadoop并解压 28
1.5.8 克隆主机 30
1.6 Hadoop 安装配置 32
1.6.1 安装单机模式 32
1.6.2 安装伪分布式模式 33
1.6.3 安装完全分布式模式 42
第2章 HDFS应用 56
2.1 HDFS 简介 58
2.1.1 什么是HDFS 58
2.1.2 HDFS优缺点 58
2.2 HDFS Web访问与Shell操作 59
2.2.1 HDFS Web访问 59
2.2.2 HDFS Shell操作 61
2.3 HDFS 框架与工作原理 72
2.3.1 NameNode 74
2.3.2 DataNode 74
2.3.3 SecondaryNameNode 75
2.3.4 HDFS的工作原理 76
2.4 HDFS的API操作 80
第3章 YARN资源调度器 96
3.1 YARN简介 98
3.1.1 什么是YARN 98
3.1.2 YARN产生背景 98
3.2 YARN基本框架 100
3.2.1 初识YARN 100
3.2.2 YARN架构概述 101
3.3 YARN运行机制 102
3.4 YARN作业提交过程 103
3.5 YARN调度器 105
3.5.1 先进先出调度器 105
3.5.2 容器调度器 106
3.5.3 公平调度器 107
第4章 MapReduce入门 110
4.1 MapReduce发展简史 112
4.1.1 什么是MapReduce 112
4.1.2 MapReduce发展简史 112
4.1.3 MapReduce的优缺点 113
4.2 MapReduce简单原理 115
4.2.1 MapReduce编程模型概述 115
4.2.2 MapReduce简单案例与解析 116
4.3 MapReduce组件自定义 132
4.3.1 MapReduce输入格式 132
4.3.2 MapReduce输出格式 141
4.3.3 MapReduce分区 147
4.3.4 MapReduce合并 150
4.4 MapReduce核心原理 151
第5章 MapReduce应用 159
5.1 排序 161
5.1.1 分类 161
5.1.2 自定义排序WritableComparable 162
5.1.3 二次排序与GroupingComparator分组(辅助排序) 170
5.2 多表查询 178
5.2.1 Reduce Join 178
5.2.2 Map Join 184
5.3 计数器应用 188
5.3.1 计数器API 188
5.3.2 计数器案例实操 189
5.4 压缩 199
第6章 ZooKeeper 207
6.1 ZooKeeper简介 209
6.1.1 什么是ZooKeeper 209
6.1.2 发展简史 210
6.1.3 安装 210
6.2 ZooKeeper数据结构与访问 214
6.2.1 特性 214
6.2.2 数据结构 215
6.2.3 Shell访问 217
6.2.4 工具访问 221
6.2.5 Java API 访问 223
6.2.6 应用案例 227
6.3 ZooKeeper原理 232
6.3.1 ZooKeeper的选举机制(全新集群paxos) 232
6.3.2 非全新集群的选举机制(数据恢复) 232
6.4 应用场景 233
6.4.1 Master选举 233
6.4.2 分布式锁 235
第7章 Hadoop集群构建与管理 238
7.1 Hadoop2.x简介 240
7.1.1 Hadoop2.x产生背景 240
7.1.2 Hadoop1.x与Hadoop2.x架构差异 240
7.1.3 Hadoop2.x新特性 241
7.2 Hadoop2.x 集群搭建 243
7.2.1 HDFS-HA高可用 243
7.2.2 HDFS-HA集群配置 245
7.2.3 启动HDFS-HA集群 250
7.2.4 配置HDFS-HA自动故障转移 252
7.2.5 YARN-HA高可用 253
7.2.6 YARN-HA集群配置 254
7.3 HDFS Federation 257
7.3.1 NameNode架构的局限性 257
7.3.2 Federation介绍 258
7.3.3 Federation局限性 260
7.3.4 Federation总结 262
7.4 Hadoop集群管理 262
7.4.1 集群安全模式 262
7.4.2 Hadoop纵向扩容——模拟增加磁盘 263
7.4.3 Hadoop横向扩容--模拟增加DataNode 270
7.4.4 NameNode故障处理--元数据恢复 271
7.4.5 DataNode故障问题 273
7.5 Hadoop集群优化 274
7.5.1 选择合适的硬件 274
7.5.2 操作系统调优 275
7.5.3 JVM调优 277
7.5.4 应用程序角度进行调优 277
7.5.5 Hadoop参数调优 280
7.6 常见问题和解决办法 285
第1章 初识Hadoop 1
1.1 Hadoop 国内外应用案例介绍 3
1.1.1 什么是大数据 3
1.1.2 Hadoop 国内外应用案例介绍 4
1.2 Hadoop 发展简史 7
1.2.1 Hadoop的介绍 7
1.2.2 Hadoop的四大特性(优点) 9
1.3 Hadoop历史版本介绍 9
1.3.1 Hadoop1.0 9
1.3.2 Hadoop2.0 10
1.3.3 Hadoop3.0 11
1.4 Hadoop 生态成员介绍 11
1.5 Apache 版本Hadoop环境构建 13
1.5.1 安装虚拟机 13
1.5.2 安装CentOS 6 20
1.5.3 关闭防火墙 23
1.5.4 SSH安装 23
1.5.5 使用Xshell及Xftp访问CentOS 24
1.5.6 安装JDK 26
1.5.7 下载Hadoop并解压 28
1.5.8 克隆主机 30
1.6 Hadoop 安装配置 32
1.6.1 安装单机模式 32
1.6.2 安装伪分布式模式 33
1.6.3 安装完全分布式模式 42
第2章 HDFS应用 56
2.1 HDFS 简介 58
2.1.1 什么是HDFS 58
2.1.2 HDFS优缺点 58
2.2 HDFS Web访问与Shell操作 59
2.2.1 HDFS Web访问 59
2.2.2 HDFS Shell操作 61
2.3 HDFS 框架与工作原理 72
2.3.1 NameNode 74
2.3.2 DataNode 74
2.3.3 SecondaryNameNode 75
2.3.4 HDFS的工作原理 76
2.4 HDFS的API操作 80
第3章 YARN资源调度器 96
3.1 YARN简介 98
3.1.1 什么是YARN 98
3.1.2 YARN产生背景 98
3.2 YARN基本框架 100
3.2.1 初识YARN 100
3.2.2 YARN架构概述 101
3.3 YARN运行机制 102
3.4 YARN作业提交过程 103
3.5 YARN调度器 105
3.5.1 先进先出调度器 105
3.5.2 容器调度器 106
3.5.3 公平调度器 107
第4章 MapReduce入门 110
4.1 MapReduce发展简史 112
4.1.1 什么是MapReduce 112
4.1.2 MapReduce发展简史 112
4.1.3 MapReduce的优缺点 113
4.2 MapReduce简单原理 115
4.2.1 MapReduce编程模型概述 115
4.2.2 MapReduce简单案例与解析 116
4.3 MapReduce组件自定义 132
4.3.1 MapReduce输入格式 132
4.3.2 MapReduce输出格式 141
4.3.3 MapReduce分区 147
4.3.4 MapReduce合并 150
4.4 MapReduce核心原理 151
第5章 MapReduce应用 159
5.1 排序 161
5.1.1 分类 161
5.1.2 自定义排序WritableComparable 162
5.1.3 二次排序与GroupingComparator分组(辅助排序) 170
5.2 多表查询 178
5.2.1 Reduce Join 178
5.2.2 Map Join 184
5.3 计数器应用 188
5.3.1 计数器API 188
5.3.2 计数器案例实操 189
5.4 压缩 199
第6章 ZooKeeper 207
6.1 ZooKeeper简介 209
6.1.1 什么是ZooKeeper 209
6.1.2 发展简史 210
6.1.3 安装 210
6.2 ZooKeeper数据结构与访问 214
6.2.1 特性 214
6.2.2 数据结构 215
6.2.3 Shell访问 217
6.2.4 工具访问 221
6.2.5 Java API 访问 223
6.2.6 应用案例 227
6.3 ZooKeeper原理 232
6.3.1 ZooKeeper的选举机制(全新集群paxos) 232
6.3.2 非全新集群的选举机制(数据恢复) 232
6.4 应用场景 233
6.4.1 Master选举 233
6.4.2 分布式锁 235
第7章 Hadoop集群构建与管理 238
7.1 Hadoop2.x简介 240
7.1.1 Hadoop2.x产生背景 240
7.1.2 Hadoop1.x与Hadoop2.x架构差异 240
7.1.3 Hadoop2.x新特性 241
7.2 Hadoop2.x 集群搭建 243
7.2.1 HDFS-HA高可用 243
7.2.2 HDFS-HA集群配置 245
7.2.3 启动HDFS-HA集群 250
7.2.4 配置HDFS-HA自动故障转移 252
7.2.5 YARN-HA高可用 253
7.2.6 YARN-HA集群配置 254
7.3 HDFS Federation 257
7.3.1 NameNode架构的局限性 257
7.3.2 Federation介绍 258
7.3.3 Federation局限性 260
7.3.4 Federation总结 262
7.4 Hadoop集群管理 262
7.4.1 集群安全模式 262
7.4.2 Hadoop纵向扩容——模拟增加磁盘 263
7.4.3 Hadoop横向扩容--模拟增加DataNode 270
7.4.4 NameNode故障处理--元数据恢复 271
7.4.5 DataNode故障问题 273
7.5 Hadoop集群优化 274
7.5.1 选择合适的硬件 274
7.5.2 操作系统调优 275
7.5.3 JVM调优 277
7.5.4 应用程序角度进行调优 277
7.5.5 Hadoop参数调优 280
7.6 常见问题和解决办法 285