- 电子工业出版社
- 9787121463488
- 1-1
- 512306
- 48253933-5
- 平塑
- 16开
- 2023-09
- 640
- 400
- 计算机科学与技术
- 本科 研究生及以上
内容简介
本书从初学者的角度详细介绍大数据的核心技术。全书共11章,包括绪论、Linux的基础操作、Hadoop大数据处理架构、HDFS分布式文件系统、MapReduce分布式计算框架、ZooKeeper分布式协调服务、YARN资源管理器、HBase分布式数据库、Hive数据仓储、PySpark数据处理与分析及综合案例。此外,本书还提供了相应的示例代码,以帮助读者进一步理解相关方案的实现过程。
目录
目 录__eol____eol__第1章 绪论 1__eol__1.1 大数据的形成和发展 1__eol__1.2 大数据的基本概念 3__eol__1.2.1 什么是大数据 3__eol__1.2.2 大数据的特征 3__eol__1.3 大数据关键技术 5__eol__1.3.1 大数据采集技术 5__eol__1.3.2 大数据预处理技术 6__eol__1.3.3 大数据存储与管理技术 7__eol__1.3.4 大数据分析与挖掘技术 8__eol__1.3.5 大数据展现与应用技术 10__eol__1.4 大数据的行业应用 11__eol__1.4.1 水利领域 11__eol__1.4.2 生物医学领域 13__eol__1.4.3 智慧城市领域 14__eol__1.4.4 商业领域 15__eol__1.4.5 信息安全领域 15__eol__1.5 大数据领域的主要职位及其能力要求 16__eol__1.5.1 首席数据官 16__eol__1.5.2 数据科学家 17__eol__1.5.3 大数据开发工程师 17__eol__1.5.4 大数据运维工程师 18__eol__1.6 本章小结 18__eol__1.7 习题 18__eol__第2章 Linux的基础操作 19__eol__2.1 Linux概述 19__eol__2.1.1 Linux系统的发行版本及特点 19__eol__2.1.2 Linux与Windows系统对比 19__eol__2.2 Linux命令 20__eol__2.2.1 命令行技巧 20__eol__2.2.2 Linux帮助命令 22__eol__2.2.3 Linux文件类型及查看操作 24__eol__2.2.4 文件与目录操作 27__eol__2.2.5 文本编辑 34__eol__2.2.6 文本过滤器与处理 39__eol__2.2.7 用户与用户组管理 43__eol__2.2.8 文件权限管理 49__eol__2.2.9 归档与压缩 53__eol__2.2.10 进程管理 56__eol__2.3 本章小结 57__eol__2.4 习题 57__eol__第3章 Hadoop大数据处理架构 59__eol__3.1 Hadoop简介 59__eol__3.1.1 Hadoop的概念 59__eol__3.1.2 Hadoop的发展史 59__eol__3.1.3 Hadoop版本介绍 61__eol__3.2 Hadoop的特性 61__eol__3.3 Hadoop生态系统 62__eol__3.3.1 Hadoop集群的架构 62__eol__3.3.2 Hadoop生态系统的组件 62__eol__3.4 部署Hadoop集群 64__eol__3.4.1 Hadoop集群的部署方式 64__eol__3.4.2 虚拟机的创建和配置 64__eol__3.4.3 安装JDK 91__eol__3.4.4 安装Hadoop 92__eol__3.4.5 验证 98__eol__3.5 本章小节 104__eol__3.6 习题 104__eol__第4章 HDFS分布式文件系统 105__eol__4.1 HDFS简介 105__eol__4.1.1 分布式文件系统的发展 105__eol__4.1.2 HDFS的基本概念 107__eol__4.1.3 HDFS的特点 108__eol__4.2 HDFS的存储架构和工作原理 109__eol__4.2.1 HDFS的存储架构 109__eol__4.2.2 HDFS文件的读取原理 110__eol__4.2.3 HDFS文件的写入原理 111__eol__4.3 HDFS的Shell操作 112__eol__4.4 HDFS的Java API介绍 114__eol__4.4.1 HDFS Java API概述 114__eol__4.4.2 使用Java API操作HDFS 114__eol__4.5 本章小结 123__eol__4.6 习题 123__eol__第5章 MapReduce分布式计算框架 124__eol__5.1 MapReduce简介 124__eol__5.1.1 分布式并行编程 124__eol__5.1.2 MapReduce模型简介 125__eol__5.1.3 MapReduce的优/缺点 125__eol__5.1.4 Map和Reduce函数 126__eol__5.2 MapReduce的工作原理 127__eol__5.2.1 工作原理概述 127__eol__5.2.2 MapReduce的工作过程 127__eol__5.2.3 Map任务的工作原理 129__eol__5.2.4 Shuffle的工作原理 130__eol__5.2.5 Reduce任务的工作原理 133__eol__5.3 MapReduce编程组件 134__eol__5.3.1 InputFormat组件 135__eol__5.3.2 Mapper组件 139__eol__5.3.3 Reducer组件 140__eol__5.3.4 Partitioner组件 140__eol__5.3.5 Combiner组件 141__eol__5.3.6 OutputFormat组件 142__eol__5.4 MapReduce案例 142__eol__5.4.1 本地测试环境配置 143__eol__5.4.2 WordCount 144__eol__5.4.3 倒排索引 146__eol__5.4.4 数据去重 154__eol__5.4.5 Top-N 157__eol__5.5 MapReduce实验 160__eol__5.5.1 任务要求 161__eol__5.5.2 环境准备 161__eol__5.5.3 程序编写 162__eol__5.5.4 本地测试 165__eol__5.5.5 集群测试 166__eol__5.6 本章小结 167__eol__5.7 习题 168__eol__第6章 ZooKeeper分布式协调服务 170__eol__6.1 ZooKeeper概述 170__eol__6.1.1 ZooKeeper的设计目标 170__eol__6.1.2 ZooKeeper的特性 171__eol__6.1.3 ZooKeeper集群角色 172__eol__6.1.4 ZooKeeper实现 173__eol__6.2 ZooKeeper数据模型 174__eol__6.2.1 数据存储结构 174__eol__6.2.2 节点类型 175__eol__6.2.3 znode属性 176__eol__6.2.4 znode数据访问 176__eol__6.2.5 其他节点 176__eol__6.2.6 ZooKeeper中的时间 177__eol__6.3 watch机制 178__eol__6.3.1 watch机制的定义 178__eol__6.3.2 watch机制的语义 178__eol__6.3.3 watch机制的实现 179__eol__6.3.4 watch机制的特点 179__eol__6.3.5 watch机制的通知状态和事件类型 180__eol__6.3.6 ZooKeeper对watch的支持 180__eol__6.4 ZooKeeper的选举机制 180__eol__6.4.1 选举机制相关概念 180__eol__6.4.2 选举机制类型 181__eol__6.5 ZooKeeper会话 182__eol__6.6 ZooKeeper使用ACL进行访问控制 185__eol__6.6.1 ACL权限与内置方案 185__eol__6.6.2 ZooKeeper C API 186__eol__6.7 可插拔ZooKeeper身份验证 187__eol__6.8 ZooKeeper绑定 189__eol__6.8.1 Java绑定 189__eol__6.8.2 C绑定 191__eol__6.9 ZooKeeper部署及操作 191__eol__6.9.1 ZooKeeper的下载与安装 192__eol__6.9.2 配置修改 192__eol__6.9.3 ZooKeeper操作 194__eol__6.9.4 ZooKeeper集群部署 195__eol__6.9.5 ZooKeeper的Java API操作 203__eol__6.10 ZooKeeper典型应用 209__eol__6.10.1 数据发布与订阅 209__eol__6.10.2 负载均衡 209__eol__6.10.3 命名服务 210__eol__6.10.4 分布式锁 210__eol__6.11 本章小结 211__eol__6.12 习题 211__eol__第7章 YARN资源管理器 213__eol__7.1 YARN介绍 213__eol__7.1.1 YARN的概念 213__eol__7.1.2 YARN的应用场景