注册 登录 进入教材巡展
#
  • #

出版时间:2019-05

出版社:清华大学出版社

以下为《Hadoop大数据技术原理与应用》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302524403
  • 234551
  • 2019-05
内容简介
本书围绕Hadoop生态圈相关系统介绍大数据处理架构。全书共11章,其中,第1、2章主要带领大家认识Hadoop以及学会搭建Hadoop集群;第3~5章讲解分布式文件系统(HDFS)、分布式计算框架MapReduce以及分布式协调服务;第6章讲解Hadoop 2.0新特性,包含YARN和高可用特性;第7~10章主要讲解Hadoop生态圈的相关辅助系统,包括Hive、Flume、Azkaban和Sqoop;第11章是一个综合项目——网站流量日志数据分析系统,目的是教会大家如何利用Hadoop生态圈技术构建大数据系统架构并进行开发,同时加深对Hadoop技术的理解。 本书附有配套视频、源代码、习题、教学设计、教学课件等资源。同时,为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的优秀读物。
目录
目录第1章初识Hadoop11.1大数据概述11.1.1什么是大数据11.1.2大数据的特征21.1.3研究大数据的意义31.2大数据的应用场景41.2.1医疗行业的应用41.2.2金融行业的应用41.2.3零售行业的应用51.3Hadoop概述61.3.1Hadoop的前世今生61.3.2Hadoop的优势71.3.3Hadoop的生态体系71.3.4Hadoop的版本91.4本章小结111.5课后习题11第2章搭建Hadoop集群132.1安装准备132.1.1虚拟机安装132.1.2虚拟机克隆222.1.3Linux系统网络配置242.1.4SSH服务配置282.2Hadoop集群搭建312.2.1Hadoop集群部署模式312.2.2JDK安装322.2.3Hadoop安装332.2.4Hadoop集群配置352.3Hadoop集群测试382.3.1格式化文件系统38目录Hadoop大数据技术原理与应用2.3.2启动和关闭Hadoop集群392.3.3通过UI查看Hadoop运行状态412.4Hadoop集群初体验432.5本章小结462.6课后习题46第3章HDFS分布式文件系统483.1HDFS的简介483.1.1HDFS的演变483.1.2HDFS的基本概念503.1.3HDFS的特点513.2HDFS的架构和原理523.2.1HDFS存储架构523.2.2HDFS文件读写原理533.3HDFS的Shell操作553.3.1HDFS Shell介绍553.3.2案例——Shell定时采集数据到HDFS583.4HDFS的Java API操作623.4.1HDFS Java API介绍623.4.2案例——使用Java API操作HDFS633.5本章小结683.6课后习题69第4章MapReduce分布式计算框架704.1MapReduce概述704.1.1MapReduce核心思想704.1.2MapReduce编程模型714.1.3MapReduce编程实例——词频统计724.2MapReduce工作原理734.2.1MapReduce工作过程734.2.2MapTask工作原理744.2.3ReduceTask工作原理754.2.4Shuffle工作原理764.3MapReduce编程组件774.3.1InputFormat组件774.3.2Mapper组件784.3.3Reducer组件784.3.4Partitioner组件804.3.5Combiner组件804.3.6OutputFormat组件814.4MapReduce运行模式824.5MapReduce性能优化策略844.6MapReduce经典案例——倒排索引864.6.1案例分析864.6.2案例实现894.7MapReduce经典案例——数据去重934.7.1案例分析934.7.2案例实现934.8MapReduce经典案例——TopN964.8.1案例分析964.8.2案例实现974.9本章小结1004.10课后习题100第5章Zookeeper分布式协调服务1025.1初识Zookeeper1025.1.1Zookeeper简介1025.1.2Zookeeper的特性1035.1.3Zookeeper集群角色1035.2数据模型1045.2.1数据存储结构1045.2.2Znode的类型1055.2.3Znode的属性1055.3Zookeeper的Watch机制1065.3.1Watch机制的简介1065.3.2Watch机制的特点1065.3.3Watch机制的通知状态和事件类型1075.4Zookeeper的选举机制1075.4.1选举机制的简介1075.4.2选举机制的类型1085.5Zookeeper分布式集群部署1095.5.1Zookeeper安装包的下载安装1095.5.2Zookeeper相关配置1095.5.3Zookeeper服务的启动和关闭1125.6Zookeeper的Shell操作1135.6.1Zookeeper Shell介绍1135.6.2通过Shell命令操作Zookeeper1135.7Zookeeper的Java API操作1195.7.1Zookeeper Java API介绍1195.7.2通过Java API操作Zookeeper1205.8Zookeeper典型应用场景1225.8.1数据发布与订阅1225.8.2统一命名服务1235.8.3分布式锁1235.9本章小结1235.10课后习题124第6章Hadoop 2.0新特性1256.1Hadoop 2.0改进与提升1256.2YARN资源管理框架1256.2.1YARN体系结构1256.2.2YARN工作流程1276.3HDFS的高可用1286.3.1HDFS的高可用架构1286.3.2搭建Hadoop高可用集群1296.4本章小结1346.5课后习题135第7章Hive数据仓库1367.1数据仓库简介1367.1.1什么是数据仓库1367.1.2数据仓库的结构1377.1.3数据仓库的数据模型1387.2Hive简介1407.2.1什么是Hive1407.2.2Hive系统架构1417.2.3Hive工作原理1417.2.4Hive数据模型1427.3Hive的安装1437.3.1Hive安装模式简介1437.3.2嵌入模式1447.3.3本地模式和远程模式1457.4Hive的管理1477.4.1CLI方式1477.4.2远程服务1487.5Hive内置数据类型1507.6Hive数据模型操作1517.6.1Hive数据库操作1517.6.2Hive内部表操作1537.6.3Hive外部表操作1577.6.4Hive分区表操作1587.6.5Hive桶表操作1637.7Hive数据操作1667.8本章小结1707.9课后习题170第8章Flume日志采集系统1728.1Flume概述1728.1.1Flume简介1728.1.2Flume运行机制1728.1.3Flume日志采集系统结构图1738.2Flume基本使用1758.2.1Flume系统要求1758.2.2Flume安装配置1758.2.3Flume入门使用1778.3Flume采集方案配置说明1818.3.1Flume Sources1818.3.2Flume Channels1848.3.3Flume Sinks1868.4Flume的可靠性保证1898.4.1负载均衡1898.4.2故障转移1958.5Flume拦截器1968.6案例——日志采集1988.6.1案例分析1988.6.2案例实现1998.7本章小结2048.8课后习题205第9章工作流管理器(Azkaban)2069.1工作流管理器概述2069.1.1工作流调度系统背景2069.1.2常用工作流管理器介绍2069.2Azkaban概述2079.2.1Azkaban特点2089.2.2Azkaban组成结构2089.2.3Azkaban部署模式2099.3Azkaban部署2109.3.1Azkaban资源准备2109.3.2Azkaban安装配置2129.3.3Azkaban启动测试2209.4Azkaban使用2249.4.1Azkaban工作流相关概念2249.4.2案例演示——依赖任务调度管理2269.4.3案例演示——MapReduce任务调度管理2329.4.4案例演示——HIVE脚本任务调度管理2359.5本章小结2379.6课后习题237第10章Sqoop数据迁移23910.1Sqoop概述23910.1.1Sqoop简介23910.1.2Sqoop原理24010.2Sqoop安装配置24110.3Sqoop指令介绍24210.4Sqoop数据导入24410.4.1MySQL表数据导入HDFS24510.4.2增量导入24710.4.3MySQL表数据导入Hive24810.4.4MySQL表数据子集导入24910.5Sqoop数据导出25110.6本章小结25310.7课后习题253第11章综合项目——网站流量日志数据分析系统25511.1系统概述25511.1.1系统背景介绍25511.1.2系统架构设计25511.1.3系统预览25611.2模块开发——数据采集25711.2.1使用Flume搭建日志采集系统25711.2.2日志信息说明25811.3模块开发——数据预处理25811.3.1分析预处理的数据25811.3.2实现数据的预处理25911.4模块开发——数据仓库开发26811.4.1设计数据仓库26811.4.2实现数据仓库26911.5模块开发——数据分析27311.5.1流量分析27311.5.2人均浏览量分析27411.6模块开发——数据导出27511.7模块开发——日志分析系统报表展示27611.7.1搭建日志分析系统27711.7.2实现报表展示功能28511.7.3系统功能模块展示29011.8本章小结290