大数据技术原理与开发教程
作者: 董兆伟,王素贞,白彦峰
出版时间:2020
出版社:高等教育出版社
- 高等教育出版社
- 9787040534337
- 1版
- 318626
- 60250052-2
- 16开
- 2020
- 管理学
- 管理科学与工程
- 大数据管理与应用
- 本科
本书较为系统地讲解Hadoop生态系统的相关技术原理、使用方法及开发技术,全书共9章。第1章对大数据技术进行概述。第2章介绍Hadoop环境搭建的详细步骤。第3章介绍HDFS的架构理论、常用命令以及API的使用和编程方法。第4章介绍MapReduce的相关原理、I/O序列化机制、MapReduce的编程开发要点和实例。第5章介绍Yarn的产生背景、体系结构、通信协议、执行过程及调度器和ZooKeeper的数据模型、架构及安装配置。第6章介绍HBase的相关原理、安装配置、Shell命令以及API编程方法。第7章介绍Hive的基本原理、基本操作、HQL语句和Hive JDBC编程。第8章介绍NoSQL数据库的基本概念、MongoDB数据库的概念和安装配置、MongoDB数据库使用方法。第9章介绍在Hadoop生态系统中常用的几种工具,包括Sqoop、Kafka以及Flume。每章后附有小结、习题、二维码即测即评等栏目。
通过本书的学习,读者可以较快速地掌握使用开源软件搭建大数据生态环境的步骤和方法,而且能够全面地学习MapReduce、HDFS、Yarn、HBase、Hive、NoSQL等大数据组件的相关理论、基本操作和编程开发方法。
本书适合“数据科学与大数据技术”本科专业、“大数据管理与应用”本科专业以及计算机类专业本科和研究生使用,也可供从事大数据工作的工程技术人员参考
前辅文
第1章 大数据技术概述
1.1 什么是大数据
1.1.1 大数据的定义
1.1.2 大数据的产生
1.1.3 大数据技术的发展历程
1.2 大数据的四个主要特征
1.3 大数据关键技术
1.4 大数据计算模式
1.5 大数据对思维方式的影响
1.6 大数据的应用领域
1.7 我国的大数据发展战略
小结
习题
即测即评
第2章 Hadoop及环境搭建
2.1 Hadoop生态系统
2.1.1 Hadoop简介
2.1.2 Hadoop发展历史
2.1.3 Hadoop的特点
2.1.4 Hadoop生态系统
2.1.5 Hadoop的运行模式
2.2 虚拟化技术
2.2.1 常用虚拟化软件
2.2.2 VMware Workstation安装
2.2.3 VMware Workstation网络设置
2.3 Linux操作系统安装及常用操作
2.3.1 Linux简介
2.3.2 安装指南
2.3.3 常用操作
2.4 Hadoop伪分布式模式的安装
2.4.1 Hadoop安装配置
2.4.2 Hadoop启动
2.4.3 集群验证
2.5 分布式模式集群的安装
2.5.1 配置主机信息
2.5.2 配置网络
2.5.3 关闭防火墙
2.5.4 修改hosts文件
2.5.5 JDK安装
2.5.6 配置SSH免密登录
2.5.7 Hadoop安装配置
2.6 分布式模式集群的启动和验证
2.6.1 建立工作目录
2.6.2 格式化文件系统
2.6.3 启动与关闭集群
2.6.4 验证集群启动情况
小结
习题
即测即评
实验一 Hadoop环境的搭建
第3章 分布式文件系统HDFS
3.1 HDFS原理
3.1.1 HDFS简介
3.1.2 HDFS体系结构和基本概念
3.1.3 HDFS数据组织机制
3.1.4 HDFS健壮性措施
3.1.5 HDFS文件的读写过程
3.1.6 HDFS高可用架构
3.1.7 HDFS联邦
3.2 HDFS操作
3.2.1 Shell命令
3.2.2 HDFS的管理和工具使用
3.3 Hadoop开发环境配置
3.4 HDFS开发
3.4.1 建立HDFS项目
3.4.2 开发过程简介
3.4.3 常用API及编程实例
小结
习题
即测即评
实验二 分布式存储HDFS
第4章 并行编程框架MapReduce
4.1 MapReduce原理
4.1.1 MapReduce概述
4.1.2 MapReduce系统架构
4.1.3 MapReduce MRv1执行机制
4.1.4 MapReduce工作流程
4.1.5 Shuffle过程
4.1.6 WordCount处理示例
4.2 MapReduce WordCount编程开发
4.2.1 map方法编写
4.2.2 reduce方法编写
4.2.3 main方法编写
4.2.4 开发步骤
4.3 I/O序列化
4.3.1 Writable接口
4.3.2 Writable封装类
4.4 SequenceFile和MapFile
4.4.1 SequenceFile
4.4.2 MapFile
4.5 MapReduce的输入和输出
4.5.1 输入分片InputSplit
4.5.2 InputFormat类
4.5.3 文件输入
4.5.4 文本输入
4.5.5 二进制输入
4.5.6 多路输入和数据库输入
4.5.7 OutputFormat类
4.5.8 文本输出
4.5.9 二进制输出
4.5.10 多个输出
4.6 MapReduce任务相关类
4.6.1 Mapper类
4.6.2 Partitioner类
4.6.3 Sort类
4.6.4 Combiner类
4.6.5 Reducer类
4.6.6 分组
4.7 MapReduce编程实例
4.7.1 选择操作
4.7.2 差运算
4.7.3 交运算
4.7.4 投影操作
4.7.5 两表连接
4.8 MapReduce编程进阶
4.8.1 应用Combiner求均值
4.8.2 自定义分区实现全排序
4.8.3 二次排序
4.8.4 Top N
4.8.5 计数器
小结
习题
即测即评
实验三 MapReduce编程
第5章 Yarn与ZooKeeper
5.1 Yarn资源管理与调度
5.1.1 Yarn产生背景
5.1.2 Yarn的体系结构
5.1.3 Yarn通信协议
5.1.4 Yarn执行过程
5.1.5 Yarn的调度器
5.2 分布式协调服务ZooKeeper
5.2.1 ZooKeeper概述
5.2.2 ZooKeeper数据模型
5.2.3 ZooKeeper架构
5.2.4 ZooKeeper安装配置
5.2.5 ZooKeeper API
5.2.6 编程实例
小结
习题
即测即评
第6章 分布式数据库HBase
6.1 HBase概述
6.1.1 HBase简介
6.1.2 HBase特征
6.2 HBase数据模型
6.2.1 数据模型相关概念
6.2.2 数据模型
6.3 HBase运行机制
6.3.1 系统架构
6.3.2 HBase存储
6.3.3 HLog
6.3.4 HBase数据读写
6.4 HBase安装及验证
6.4.1 HBase安装配置
6.4.2 HBase启动和验证
6.5 HBase shell操作
6.6 HBase开发
6.6.1 Java API简介
6.6.2 HBase Java开发过程
6.6.3 编程实例
小结
习题
即测即评
实验四 HBase的安装和使用
第7章 Hive数据仓库
7.1 Hive基本原理
7.1.1 Hive简介
7.1.2 Hive与传统数据库的比较
7.1.3 Hive运行模式
7.1.4 Hive数据类型
7.1.5 Hive数据模型
7.1.6 Hive系统架构
7.2 Hive安装部署
7.2.1 安装配置MySQL
7.2.2 Hive安装
7.2.3 Hive配置
7.3 Hive基本操作
7.3.1 DDL操作
7.3.2 DML操作
7.3.3 HQL基本查询
7.3.4 Hive内置函数
7.4 Hive编程
7.4.1 Hive JDBC编程
7.4.2 用户自定义函数
小结
习题
即测即评
实验五 Hive数据仓库及JDBC编程
第8章 NoSQL数据库及MongoDB
8.1 NoSQL数据库
8.1.1 NoSQL数据库兴起的原因
8.1.2 NoSQL数据库简介
8.1.3 NoSQL数据库的四大类型
8.1.4 分布式系统的一致性问题
8.1.5 NewSQL数据库
8.2 MongoDB
8.2.1 MongoDB基本概念
8.2.2 MongoDB分片机制
8.2.3 MongoDB集群架构
8.2.4 Gridfs
8.3 MongoDB的部署
8.3.1 安装
8.3.2 配置文件
8.3.3 启动和停止
8.4 MongoDB的使用
8.4.1 数据库操作
8.4.2 插入、删除和更新文档
8.4.3 查询
8.4.4 聚合管道
8.4.5 索引
小结
习题
即测即评
实验六 MongoDB的安装与使用
第9章 Sqoop、Kafka和Flume
9.1 数据迁移工具Sqoop
9.1.1 Sqoop简介
9.1.2 Sqoop基本架构
9.1.3 Sqoop安装
9.1.4 Sqoop与MySQL连接
9.1.5 Sqoop常用功能
9.2 分布式消息队列Kafka
9.2.1 Kafka概述
9.2.2 Kafka应用场景
9.2.3 Kafka基本架构
9.2.4 Kafka应用
9.3 日志采集系统Flume
9.3.1 Flume简介
9.3.2 Flume基本思想及特点
9.3.3 Flume核心模块
9.3.4 Flume安装配置
9.3.5 Flume应用模式
9.3.6 Flume实例
小结
习题
即测即评
参考文献