全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

Hadoop大数据处理实战（双色）（含微课）

定价：￥68.00

作者：康开锋，赵克宝，刘斌

出版时间：2025-04

最新印次日期：2025-4

出版社：上海交通大学出版社

以下为《Hadoop大数据处理实战（双色）（含微课）》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

基本信息评价

出版社：上海交通大学出版社
ISBN：9787313224231
版次：1-6
本季征订号：61261677-1
出版时间：2025-04
本科门类：工学
本科专业类：计算机类
职教专业大类：电子与信息大类
职教专业类：计算机类
适用专业：计算机类
适用分级：本科高职高职本科（应用型本科）中职

内容简介

本书以开发实战为原则，以Hadoop及其周边框架为主线，介绍了整个Hadoop生态系统主流的大数据开发技术。全书共10章，内容包括Hadoop基础知识、搭建Hadoop分布式集群、搭建Eclipse开发环境、Hadoop分布式文件系统、Hadoop的I/O操作、MapReduce基础与编程、Hive实战、HBase实战、Spark实战、天气数据分析实战。
本书内容全面、案例典型、实用性强，且配套资源丰富，涵盖程序源代码、软件资源、习题答案、优质课件和核心内容的视频讲解等，可作为各类院校计算机、大数据、信息管理等相关专业的教材。

第1章 Hadoop基础知识
本章导读
学习目标
素质目录
1.1 Hadoop概述
1.1.1 什么是Hadoop
1.1.2 Hadoop的产生与发展
1.1.3 Hadoop的版本变迁
1.1.4 Hadoop的基本特性
1.2 Hadoop生态系统
1.3 Hadoop与Spark对比分析
1.4 Hadoop的应用场景
1.4.1 Hadoop在互联网领域的应用
1.4.2 Hadoop在通信领域的应用
1.4.3 Hadoop在交通领域的应用
本章小结
思考与练习

第2章搭建Hadoop分布式集群
本章导读
学习目标
素质目录
2.1 创建虚拟机并安装CentOS 7
2.1.1 安装虚拟机软件
2.1.2 下载CentOS 7镜像文件
2.1.3 创建新的虚拟机
2.1.4 安装CentOS 7操作系统
2.2 配置虚拟机集群环境
2.2.1 修改主机名和设置固定IP
2.2.2 关闭防火墙和新建安装目录
2.2.3 安装和配置JDK
2.2.4 克隆虚拟机和配置主机IP映射
2.2.5 配置集群各节点SSH免密码登录
2.3 搭建Hadoop高可用集群
2.3.1 安装与配置ZooKeeper
2.3.2 安装与配置Hadoop
2.3.3 启动与测试Hadoop
本章小结
思考与练习

第3章搭建Eclipse开发环境
本章导读
学习目标
素质目录
3.1 搭建Hadoop伪分布式环境
3.2 在Eclipse中配置Hadoop开发环境
3.2.1 在Windows中安装和配置JDK
3.2.2 在Windows中安装和配置Eclipse
3.3 演示Hadoop自带的单词统计程序
本章小结
思考与练习

第4章 Hadoop分布式文件系统
本章导读
学习目标
素质目录
4.1 HDFS概述
4.1.1 HDFS的设计目标和不足
4.1.2 HDFS的体系结构
4.2 数据错误与恢复
4.2.1 block损坏处理
4.2.2 NameNode和DataNode错误处理
4.3 HDFS的运行机制
4.3.1 副本机制
4.3.2 心跳机制
4.3.3 副本放置与机架感知策略
4.3.4 Federation机制
4.3.5 HA机制
4.3.6 安全模式
4.3.7 垃圾回收
4.4 HDFS的工作流程
4.4.1 启动流程
4.4.2 读流程
4.4.3 写流程
4.4.4 删除流程
4.5 HDFS的基本操作
4.5.1 HDFS命令行操作
4.5.2 HDFS Java API操作
本章小结
思考与练习

第5章 Hadoop的I/O操作
本章导读
学习目标
素质目录
5.1 数据完整性
5.1.1 HDFS的数据完整性
5.1.2 验证数据完整性
5.2 序列化与反序列化
5.2.1 序列化
5.2.2 反序列化
5.3 数据压缩
5.3.1 压缩与解压缩方法Codec
5.3.2 压缩与输入分片
5.4 Hadoop文件的数据结构
5.4.1 SequenceFile
5.4.2 MapFile
本章小结
思考与练习

第6章 MapReduce基础与编程
本章导读
学习目标
素质目录
6.1 MapReduce概述
6.1.1 分布式并行计算
6.1.2 MapReduce的含义
6.1.3 MapReduce的特点
6.2 MapReduce的工作流程
6.2.1 输入分片和数据格式化
6.2.2 Map过程
6.2.3 Shuffle过程
6.2.4 Reduce过程
6.3 案例解析——单词统计编程
6.3.1 案例描述
6.3.2 设计思路
6.3.3 执行过程
6.3.4 编程实现
6.3.5 运行程序
6.3.6 数据优化
6.4 案例解析——二次排序编程
6.4.1 案例描述
6.4.2 设计思路
6.4.3 编程实现
6.4.4 运行程序
本章小结
思考与练习

第7章 Hive实战
本章导读
学习目标
素质目录
7.1 Hive概述
7.1.1 什么是Hive
7.1.2 Hive的文件存储格式
7.1.3 Hive支持的数据类型
7.1.4 Hive中常用的函数
7.2 安装与验证Hive
7.2.1 安装MySQL
7.2.2 安装和配置Hive
7.2.3 验证Hive
7.3 HiveQL详解
7.3.1 数据库操作
7.3.2 表操作
7.3.3 数据查询
7.3.4 索引和视图
7.4 Hive复合数据类型
7.5 用户自定义函数
7.5.1 编写UDF
7.5.2 编写UDAF
7.6 Hive的JDBC操作
7.7 数据迁移工具Sqoop
7.7.1 安装和配置Sqoop
7.7.2 将MySQL数据导入到Hive
7.7.3 将Hive数据导出到MySQL
本章小结
思考与练习

第8章 HBase实战
本章导读
学习目标
素质目录
8.1 HBase概述
8.1.1 什么是HBase
8.1.2 逻辑视图与模式设计
8.2 安装HBase
8.2.1 单机模式
8.2.2 伪分布式模式
8.2.3 完全分布式模式
8.3 HBase Shell命令操作
8.4 HBase Java API操作
8.5 Phoenix实战
8.5.1 安装Phoenix
8.5.2 Phoenix基础操作
本章小结
思考与练习

第9章 Spark实战
本章导读
学习目标
素质目录
9.1 Spark概述
9.1.1 什么是Spark
9.1.2 Spark的主要组件
9.2 安装Spark
9.2.1 安装Scala
9.2.2 伪分布式模式
9.2.3 完全分布式模式
9.3 Spark RDD
9.3.1 转化算子
9.3.2 行动算子
9.3.3 RDD依赖关系
9.4 Spark Java API操作
9.4.1 新建Maven项目
9.4.2 转化操作
9.4.3 行动操作
9.5 案例解析——单词统计编程
本章小结
思考与练习

第10章天气数据分析实战
本章导读
学习目标
素质目录
10.1 案例简介
10.1.1 背景介绍
10.1.2 案例目的
10.1.3 案例流程
10.2 数据采集
10.2.1 分析页面
10.2.2 采集数据
10.2.3 用Sqoop将MySQL数据导入Hive
10.3 数据预处理
10.3.1 缺失值处理
10.3.2 数据格式化
10.3.3 数据去重
10.3.4 数据分区
10.4 数据分析
10.4.1 月气温分析
10.4.2 各城市每月中晴天的天数统计
10.4.3 北京市霾天气的初步分析
本章小结

参考文献