注册 登录 进入教材巡展
#

出版时间:2025-06

出版社:机械工业出版社

以下为《Hadoop大数据技术基础与应用》的配套数字资源,这些资源在您购买图书后将免费附送给您:
试读
  • 机械工业出版社
  • 9787893866241
  • 1-1
  • 546132
  • 2025-06
  • 计算机类
  • 本科
内容简介
本书由浅入深地介绍了Hadoop技术生态的重要组件,让读者能够系统地了解大数据相关技术。第1章主要从整体上介绍了Hadoop大数据技术,并搭建Hadoop运行环境。第2~5章着重介绍了Hadoop核心技术,包括Hadoop分布式文件系统(HDFS)、Hadoop资源管理系统(YARN)、Hadoop分布式计算框架(MapReduce)以及ZooKeeper分布式协调服务。第6章重点介绍了Hadoop分布式集群的搭建以及集群的运维与管理。第7~8章详细介绍了Hive数据仓库和HBase分布式数据库等Hadoop的上层技术组件。第9章介绍了Hadoop生态圈其他常用开发技术。第10~11章是项目实战,分别介绍了互联网金融项目离线分析、互联网直播项目实时分析。本书采用理论知识和实战项目相结合的方式,突出实战,非常适合Hadoop初学者及开发者阅读。
目录
前言
第1章Hadoop技术概述
1.1Hadoop的前世今生
1.1.1Hadoop概述
1.1.2Hadoop
项目起源
1.1.3Hadoop发展历程
1.1.4Hadoop名字起源
1.2Hadoop生态系统简介
1.3Hadoop的优势及应用领域
1.3.1Hadoop的优势
1.3.2Hadoop的应用领域
1.4Hadoop与云计算
1.4.1云计算的概念及特点
1.4.2Hadoop与云计算的关系
1.5Hadoop与Spark
1.5.1Spark的概念及特点
1.5.2Hadoop与Spark的关系
1.6Hadoop与传统关系型数据库
1.6.1RDBMS的概念及特点
1.6.2Hadoop与RDBMS的关系
1.7案例实践:搭建Hadoop运行环境
1.7.1搭建IDEA开发环境
1.7.2搭建Linux虚拟机
1.7.3搭建Hadoop伪分布式集群环境
1.8本章小结
1.9习题
第2章Hadoop分布式文件系统(HDFS)
2.1HDFS架构设计与工作原理
2.1.1HDFS概述
2.1.2HDFS产生背景
2.1.3HDFS设计理念
2.1.4HDFS架构
2.1.5HDFS优缺点
2.1.6HDFS读数据流程
2.1.7HDFS写数据流程
2.1.8HDFS副本存放策略
2.2HDFS的高可用
2.2.1HA机制产生背景
2.2.2HDFS的HA架构
2.2.3HDFS的HA机制
2.3HDFS联邦机制
2.4HDFSShell操作
2.4.1HDFSShell基本操作命令
2.4.2HDFSShell管理员操作命令
2.5案例实践:Shell定时上传文件至HDFS
2.5.1
项目需求
2.5.2实现思路
2.5.3具体实现流程
2.6本章小结
2.7习题
第3章Hadoop资源管理系统(YARN)
3.1YARN的架构设计与工作原理
3.1.1YARN概述
3.1.2YARN的作用
3.1.3YARN的基本架构
3.1.4YARN的工作原理
3.2MapReduceonYARN工作流程
3.3YARN的容错性
3.4YARN的高可用
3.5YARN的调度器
3.5.1先进先出调度器
3.5.2容量调度器
3.5.3公平调度器
3.6案例实践:YARN调度器的配置与使用
3.6.1启用公平调度器
3.6.2队列配置
3.6.3同步配置文件
3.6.4重启YARN集群
3.6.5提交
任务
3.6.6查看
任务
3.6.7查看运行结果
3.7本章小结
3.8习题
第4章Hadoop分布式计算框架(MapReduce)
4.1初识MapReduce
4.1.1MapReduce概述
4.1.2MapReduce基本设计思想
4.1.3MapReduce的优缺点
4.2MapReduce编程模型
4.2.1MapReduce编程模型简介
4.2.2深入剖析MapReduce编程模型
4.3MapReduce运行机制
4.3.1剖析MapReduce作业运行机制
4.3.2作业失败与容错
4.3.3Shuffle过程详解
4.4案例实践:气象大数据离线分析
4.5本章小结
4.6习题
第5章ZooKeeper分布式协调服务
5.1ZooKeeper架构设计与工作原理
5.1.1ZooKeeper定义
5.1.2ZooKeeper的特点
5.1.3ZooKeeper的基本架构
5.1.4ZooKeeper的工作原理
5.1.5ZooKeeper的数据模型
5.2ZooKeeper集群安装前的准备工作
5.2.1配置Hosts文件
5.2.2时钟同步
5.2.3集群SSH免密登录
5.2.4JDK安装
5.3ZooKeeper集群的安装部署
5.3.1下载并解压ZooKeeper
5.3.2修改zoo.cfg配置文件
5.3.3同步ZooKeeper安装目录
5.3.4创建数据和日志目录
5.3.5创建各节点服务编号
5.3.6启动ZooKeeper集群服务
5.4ZooKeeperShell操作
5.5案例实践:ZooKeeper分布式爬虫监控
5.5.1
项目需求
5.5.2实现思路
5.5.3具体实现流程
5.6本章小结
5.7习题
第6章Hadoop分布式集群搭建与管理
6.1集群规划
6.1.1主机规划
6.1.2软件规划
6.1.3用户规划
6.1.4目录规划
6.2HDFS分布式集群搭建
6.2.1HDFS集群配置
6.2.2启动HDFS集群服务
6.2.3HDFS集群测试
6.3YARN分布式集群搭建
6.3.1YARN集群配置
6.3.2启动YARN集群服务
6.3.3YARN集群测试
6.4Hadoop集群运维管理
6.4.1Hadoop集群进程管理
6.4.2Hadoop集群运维技巧
6.5案例实践:Hadoop集群动态扩缩容
6.5.1
项目需求
6.5.2动态扩容原理
6.5.3动态缩容原理
6.5.4原Hadoop集群配置与启动
6.5.5Hadoop集群动态扩容
6.5.6Hadoop集群动态缩容
6.6本章小结
6.7习题
第7章Hive数据仓库工具
7.1Hive概述
7.1.1Hive定义
7.1.2Hive产生的背景
7.1.3Hive的优缺点
7.1.4Hive在Hadoop生态系统中的位置
7.1.5Hive与Hadoop的关系
7.2Hive原理及架构
7.2.1Hive的设计原理
7.2.2Hive的体系架构
7.2.3Hive的运行机制
7.2.4HQL的转换过程
7.2.5Hive的数据类型
7.2.6Hive的数据存储
7.3Hive的安装部署
7.3.1安装MySQL
7.3.2安装Hive
7.4Hive详解
7.4.1Hive对数据库的操作
7.4.2Hive对数据表的操作
7.4.3Hive数据相关操作
7.4.4Hive查询相关操作
7.4.5Hive表连接相关操作
7.4.6Hive内部表和外部表相关操作
7.4.7Hive分区与分桶相关操作
7.5案例实践:B站用户行为大数据分析
7.5.1
项目需求
7.5.2表结构
7.5.3准备工作
7.5.4统计分析
7.6本章小结
7.7习题
第8章HBase分布式数据库
8.1HBase概述
8.1.1HBase定义
8.1.2HBase的特点
8.2HBase模型及架构
8.2.1HBase逻辑模型
8.2.2HBase数据模型
8.2.3HBase物理模型
8.2.4HBase基本架构
8.3搭建HBase分布式集群
8.3.1HBase集群规划
8.3.2HBase集群安装配置
8.3.3启动HBase集群服务
8.4HBaseShell操作
8.4.1HBaseShell命令分类
8.4.2HBaseShell基本操作
8.5HBaseJava客户端
8.5.1引入HBase依赖
8.5.2连接HBase数据库
8.5.3创建HBase表
8.5.4HBase插入数据
8.5.5HBase查询数据
8.5.6HBase过滤查询
8.5.7删除HBase表
8.6案例实践:MapReduce批量写入HBase
8.6.1需求分析
8.6.2数据集准备
8.6.3代码实现
8.6.4测试运行
8.7本章小结
8.8习题
第9章Hadoop生态圈其他常用开发技术
9.1Sqoop数据迁移工具
9.1.1Sqoop概述
9.1.2Sqoop的优势
9.1.3Sqoop的架构与工作机制
9.1.4SqoopImport流程
9.1.5SqoopExport流程
9.1.6Sqoop安装部署
9.1.7案例实践:Sqoop迁移Hive仓库数据
9.2Flume日志采集系统
9.2.1Flume概述
9.2.2Flume架构设计
9.2.3Flume安装部署
9.2.4案例实践:Flume集群搭建
9.3Kafka分布式消息系统
9.3.1Kafka概述
9.3.2Kafka架构设计
9.3.3Kafka分布式集群搭建
9.3.4案例实践:Flume与Kafka集成
9.4Spark实时分析系统
9.4.1Spark快速入门
9.4.2SparkCore的核心功能
9.4.3Spark分布式集群搭建
9.4.4SparkStreaming实时计算
9.4.5案例实践:广告点击实时分析
9.5Flink实时分析系统
9.5.1Flink快速入门
9.5.2Flink分布式集群搭建
9.5.3FlinkDataStream实时计算
9.5.4案例实践:新闻热搜实时分析
9.6Davinci大数据可视化分析
9.6.1Davinci架构设计
9.6.2Davinci安装部署
9.6.3案例实践:Davinci制作数据可视化大屏
9.7本章小结
9.8习题
第10章
项目实战—互联网金融
项目离线分析
10.1
项目需求分析
10.2系统架构设计
10.3数据流程设计
10.4系统集群规划
10.5
项目开发步骤
10.5.1准备MySQL数据源
10.5.2Sqoop采集MySQL数据库
10.5.3Hive对金融
项目进行离线分析
10.5.4创建MySQL业务表
10.5.5统计结果入库MySQL
10.5.6Davinci数据可视化分析
10.6本章小结
第11章
项目实战—互联网直播
项目实时分析
11.1
项目需求分析
11.2系统架构设计
11.3数据流程设计
11.4系统集群规划
11.5
项目开发步骤
11.5.1模拟实时产生数据
11.5.2MySQL建表存储统计结果
11.5.3FlinkStreaming业务代码实现
11.5.4打通互联网直播
项目整个流程
11.5.5Davinci数据可视化分析
11.6本章小结
参考文献