- 中国铁道出版社
- 9787113292775
- 1-1
- 465196
- 66259753-3
- 16开
- 2022-10
- 计算机类
- 高职
内容简介
本书分为 7 章,全面系统地对数据存储技术进行讲解,并采用大量案例完成实操,此提高教
师课堂教学的时效性,强化学生的动手能力,将行业与专业核心技术贯穿始终。
本书在深入企业调研的基础上,结合企业岗位需求,根据课程内容特点,采取任务驱动教学
模式,确立职业岗位工作过程中工作任务,将工作任务内容转化为学习领域课程内容,与企业合
作,共同完成对课程的设计和开发工作。本书内容贴近实际,按照学生职业能力成长的过程设计,
培养学生的基本职业技能和实际操作能力,从而为大数据技术的发展打通更广阔的就业路径,满
足专业岗位的需求。
本书适合职业院校大数据相关专业作为教材使用,同时也为本科院校学生专业课程的学习打
下基础,也适合作为数据存储技术爱好者的参考用书。
师课堂教学的时效性,强化学生的动手能力,将行业与专业核心技术贯穿始终。
本书在深入企业调研的基础上,结合企业岗位需求,根据课程内容特点,采取任务驱动教学
模式,确立职业岗位工作过程中工作任务,将工作任务内容转化为学习领域课程内容,与企业合
作,共同完成对课程的设计和开发工作。本书内容贴近实际,按照学生职业能力成长的过程设计,
培养学生的基本职业技能和实际操作能力,从而为大数据技术的发展打通更广阔的就业路径,满
足专业岗位的需求。
本书适合职业院校大数据相关专业作为教材使用,同时也为本科院校学生专业课程的学习打
下基础,也适合作为数据存储技术爱好者的参考用书。
目录
第 1 章 大数据概述 1
1.1 大数据存储技术简介 2
1.1.1 大数据的概念 3
1.1.2 大数据的特点 4
1.1.3 大数据的数据来源 5
1.1.4 大数据的结构类型 6
1.1.5 大数据的存储 6
1.2 大数据分析技术简介 7
1.2.1 大数据分析的概念 7
1.2.2 大数据分析的应用 8
1.2.3 大数据分析的过程 9
1.2.4 大数据分析的技术 10
1.2.5 大数据分析的难点 10
1.3 项目实战:HDFS 系统搭建 11
1.3.1 基础环境变量配置 11
1.3.2 配置 HDFS 11
1.3.3 配置 NameNode 节点 13
1.3.4 格式化 NameNode 和启动
HDFS 系统 13
小结 14
习题 14
第2章 大数据的存储与管理 16
2.1 项目需求 16
2.2 HDFS 设计 17
2.2.1 设计前提与目标 18
2.2.2 基本组件 19
2.2.3 文件系统的名字空间 20
2.2.4 数据复制 20
2.2.5 文件系统元数据的持久性 22
2.2.6 文件系统的通信协议 23
2.2.7 文件系统的健壮性 23
2.3 HDFS 数据管理 24
2.3.1 数据块 24
2.3.2 安全模式 26
2.3.3 文件权限 26
2.3.4 HDFS 优缺点 27
2.4 HDFS 存储原理 .28
2.4.1 存储原理 28
2.4.2 写文件流程 30
2.4.3 读文件流程 31
2.4.4 HDFS 存储扩容 32
2.5 项目实战:HDFS 添加节点和删除
节点 32
小结 34
习题 34
第 3 章 HDFS 文件系统操作 36
3.1 HDFS Shell 操作 36
3.1.1 创建目录 39
3.1.2 上传文件 40
3.1.3 查看文件内容 40
3.1.4 复制文件 40
3.1.5 修改文件权限 41
3.1.6 修改文件属组、属主信息 41
3.1.7 查看目录所有文件 42
3.1.8 查看文件系统磁盘使用
情况 42
3.1.9 删除文件 42
3.1.10 删除目录 43
3.2 HDFS Java API 43
3.2.1 根据配置文件获取 HDFS
操作对象 44
3.2.2 创建文件夹 46
3.2.3 重命名文件夹 47
3.2.4 文件上传 49
3.2.5 文件的下载 51
3.2.6 文件判断 53
3.2.7 HDFS 文件的复制 56
3.2.8 文件夹的遍历操作 58
3.2.9 获取配置的所有信息 60
3.2.10 删除文件夹 61
3.3 项目实战:将数据存储到 HDFS 63
小结 68
习题 68
第 4 章 MapReduce 简介及架构原理 70
4.1 MapReduce 介绍 70
4.1.1 MapReduce 编程模型概述 71
4.1.2 MapReduce 编程模型介绍 72
4.1.3 MapReduce API 基本概念 74
4.1.4 Java API 解析 75
4.2 MapReduce 工作机制 93
4.2.1 MapReduce 架构 93
4.2.2 MapReduce 作业运行机制 94
4.2.3 MapReduce 原理 97
4.3 MapReduce 类型与格式 99
4.3.1 MapReduce 输入格式 99
4.3.2 MapReduce 输出格式 101
4.4 MapReduce 案例 102
4.4.1 案例一:分组取 topN 统计温度案例 102
4.4.2 案例二:微博推荐案例(TF-IDF) 110
4.4.3 案例三:好友推荐案例 124
4.5 项目实战:数据清洗 135
小结 145
习题 145
第 5 章 Hive 介绍及架构原理 147
5.1 Hive 简介 147
5.1.1 数据仓库概念介绍 148
5.1.2 数据仓库数据模型 148
5.1.3 Hive 数据仓库的特点 149
5.2 Hive 的架构 150
5.2.1 Hive 的架构图 150
5.2.2 Hive 的存储 153
5.3 Hive 的定义语言 155
5.3.1 Hive 数据类型 155
5.3.2 基本数据类型 155
5.3.3 复杂数据类型 156
5.4 Hive 数据库操作 156
5.4.1 创建数据库 156
5.4.2 删除数据库 158
5.4.3 修改数据库 158
5.5 Hive 表操作 158
5.5.1 创建表 160
5.5.2 列出表 162
5.5.3 内部表 163
5.5.4 外部表 163
5.5.5 分区 164
5.5.6 修改表 165
5.5.7 删除表 166
5.6 将数据装载到表中 167
5.6.1 使用存储在 HDFS 中的文件装载数据 167
5.6.2 使用查询装载数据 169
5.6.3 单个查询语句中创建表并加载数据 170
5.6.4 导出数据 171
5.7 UDF 函数 173
5.7.1 Hive 内置运算符 173
5.7.2 字符串函数 175
5.7.3 数学函数 176
5.7.4 日期函数 178
5.7.5 自定义函数 178
5.8 连接 180
5.8.1 内连接 182
5.8.2 左外连接 184
5.8.3 右外连接 186
5.8.4 全外连接 188
5.8.5 左半开连接 190
5.9 Hive 案例 191
5.9.1 案例一:使用 Hive 实现WordCount 192
5.9.2 案例二:使用 Hive 实现掉话率统计业务 199
5.9.3 案例三:使用 Hive 实现房产数据统计 202
5.10 项目实战:数据分析 213
小结 220
习题 220
第 6 章 离线分析集群调优 222
6.1 Hadoop 性能调优 222
6.1.1 应用程序编码调优 222
6.1.2 作业级别参数调优 223
6.1.3 任务级别参数调优 224
6.2 Hive 性能调优 227
6.2.1 Hive 的压缩存储调优 227
6.2.2 表的调优 228
6.2.3 数据倾斜优化 231
6.3 项目实战:Hive 的压缩 235
小结 236
习题 236
第 7 章 大数据的应用实例 238
7.1 Hadoop 在 Last.fm 的应用 .238
7.2 几个大数据的应用实例 242
7.3 项目实战:网络爬虫实验 243
小结 247
习题 247
1.1 大数据存储技术简介 2
1.1.1 大数据的概念 3
1.1.2 大数据的特点 4
1.1.3 大数据的数据来源 5
1.1.4 大数据的结构类型 6
1.1.5 大数据的存储 6
1.2 大数据分析技术简介 7
1.2.1 大数据分析的概念 7
1.2.2 大数据分析的应用 8
1.2.3 大数据分析的过程 9
1.2.4 大数据分析的技术 10
1.2.5 大数据分析的难点 10
1.3 项目实战:HDFS 系统搭建 11
1.3.1 基础环境变量配置 11
1.3.2 配置 HDFS 11
1.3.3 配置 NameNode 节点 13
1.3.4 格式化 NameNode 和启动
HDFS 系统 13
小结 14
习题 14
第2章 大数据的存储与管理 16
2.1 项目需求 16
2.2 HDFS 设计 17
2.2.1 设计前提与目标 18
2.2.2 基本组件 19
2.2.3 文件系统的名字空间 20
2.2.4 数据复制 20
2.2.5 文件系统元数据的持久性 22
2.2.6 文件系统的通信协议 23
2.2.7 文件系统的健壮性 23
2.3 HDFS 数据管理 24
2.3.1 数据块 24
2.3.2 安全模式 26
2.3.3 文件权限 26
2.3.4 HDFS 优缺点 27
2.4 HDFS 存储原理 .28
2.4.1 存储原理 28
2.4.2 写文件流程 30
2.4.3 读文件流程 31
2.4.4 HDFS 存储扩容 32
2.5 项目实战:HDFS 添加节点和删除
节点 32
小结 34
习题 34
第 3 章 HDFS 文件系统操作 36
3.1 HDFS Shell 操作 36
3.1.1 创建目录 39
3.1.2 上传文件 40
3.1.3 查看文件内容 40
3.1.4 复制文件 40
3.1.5 修改文件权限 41
3.1.6 修改文件属组、属主信息 41
3.1.7 查看目录所有文件 42
3.1.8 查看文件系统磁盘使用
情况 42
3.1.9 删除文件 42
3.1.10 删除目录 43
3.2 HDFS Java API 43
3.2.1 根据配置文件获取 HDFS
操作对象 44
3.2.2 创建文件夹 46
3.2.3 重命名文件夹 47
3.2.4 文件上传 49
3.2.5 文件的下载 51
3.2.6 文件判断 53
3.2.7 HDFS 文件的复制 56
3.2.8 文件夹的遍历操作 58
3.2.9 获取配置的所有信息 60
3.2.10 删除文件夹 61
3.3 项目实战:将数据存储到 HDFS 63
小结 68
习题 68
第 4 章 MapReduce 简介及架构原理 70
4.1 MapReduce 介绍 70
4.1.1 MapReduce 编程模型概述 71
4.1.2 MapReduce 编程模型介绍 72
4.1.3 MapReduce API 基本概念 74
4.1.4 Java API 解析 75
4.2 MapReduce 工作机制 93
4.2.1 MapReduce 架构 93
4.2.2 MapReduce 作业运行机制 94
4.2.3 MapReduce 原理 97
4.3 MapReduce 类型与格式 99
4.3.1 MapReduce 输入格式 99
4.3.2 MapReduce 输出格式 101
4.4 MapReduce 案例 102
4.4.1 案例一:分组取 topN 统计温度案例 102
4.4.2 案例二:微博推荐案例(TF-IDF) 110
4.4.3 案例三:好友推荐案例 124
4.5 项目实战:数据清洗 135
小结 145
习题 145
第 5 章 Hive 介绍及架构原理 147
5.1 Hive 简介 147
5.1.1 数据仓库概念介绍 148
5.1.2 数据仓库数据模型 148
5.1.3 Hive 数据仓库的特点 149
5.2 Hive 的架构 150
5.2.1 Hive 的架构图 150
5.2.2 Hive 的存储 153
5.3 Hive 的定义语言 155
5.3.1 Hive 数据类型 155
5.3.2 基本数据类型 155
5.3.3 复杂数据类型 156
5.4 Hive 数据库操作 156
5.4.1 创建数据库 156
5.4.2 删除数据库 158
5.4.3 修改数据库 158
5.5 Hive 表操作 158
5.5.1 创建表 160
5.5.2 列出表 162
5.5.3 内部表 163
5.5.4 外部表 163
5.5.5 分区 164
5.5.6 修改表 165
5.5.7 删除表 166
5.6 将数据装载到表中 167
5.6.1 使用存储在 HDFS 中的文件装载数据 167
5.6.2 使用查询装载数据 169
5.6.3 单个查询语句中创建表并加载数据 170
5.6.4 导出数据 171
5.7 UDF 函数 173
5.7.1 Hive 内置运算符 173
5.7.2 字符串函数 175
5.7.3 数学函数 176
5.7.4 日期函数 178
5.7.5 自定义函数 178
5.8 连接 180
5.8.1 内连接 182
5.8.2 左外连接 184
5.8.3 右外连接 186
5.8.4 全外连接 188
5.8.5 左半开连接 190
5.9 Hive 案例 191
5.9.1 案例一:使用 Hive 实现WordCount 192
5.9.2 案例二:使用 Hive 实现掉话率统计业务 199
5.9.3 案例三:使用 Hive 实现房产数据统计 202
5.10 项目实战:数据分析 213
小结 220
习题 220
第 6 章 离线分析集群调优 222
6.1 Hadoop 性能调优 222
6.1.1 应用程序编码调优 222
6.1.2 作业级别参数调优 223
6.1.3 任务级别参数调优 224
6.2 Hive 性能调优 227
6.2.1 Hive 的压缩存储调优 227
6.2.2 表的调优 228
6.2.3 数据倾斜优化 231
6.3 项目实战:Hive 的压缩 235
小结 236
习题 236
第 7 章 大数据的应用实例 238
7.1 Hadoop 在 Last.fm 的应用 .238
7.2 几个大数据的应用实例 242
7.3 项目实战:网络爬虫实验 243
小结 247
习题 247