Hive数据仓库应用与实战 / 高等院校大数据应用型人才培养立体化资源“十四五”系列教材
¥49.80定价
作者: 黄金土,肖紫珍,李杰等
出版时间:2024-10
出版社:中国铁道出版社
- 中国铁道出版社
- 9787113308049
- 1版
- 531477
- 16开
- 2024-10
- 计算机及相关专业
- 本科 高职
作者简介
内容简介
本书是高等院校大数据应用型人才培养立体化资源“十四五”系列教材之一,主要讲解数据仓库基础知识及基于Hadoop的数据仓库工具Hive的安装、使用方法。全书分为基础篇、实践篇和拓展篇三篇:基础篇是对数据仓库的发展历史、背景和技术原理的解释;实践篇对Hive数据仓库主要知识点进行解析和实践,依据简单、易学和实用等原则进行编写;拓展篇通过行业项目来巩固所学内容。本书主要突出实用性和校企融合的特点,且配备了丰富的微视频资源,以方便学生学习及教师授课。
目录
基础篇
项目一 初识Hive与数据仓库………………………………………………………………… 2
任务一 初识数据仓库………………………………………………………………………… 2
一、数据仓库介绍………………………………………………………………………… 2
二、Hadoop与数据仓库…………………………………………………………………… 6
任务二 初识Hive…………………………………………………………………………… 6
一、Hive的发展历史……………………………………………………………………… 7
二、Hive特性……………………………………………………………………………… 7
三、Hive和传统关系型数据库的区别……………………………………………………… 8
四、Hive架构……………………………………………………………………………… 9
五、Hive工作原理………………………………………………………………………… 10
六、Hive数据模型………………………………………………………………………… 10
思考与练习…………………………………………………………………………………… 13
项目二 配置Hive……………………………………………………………………………… 15
任务 Hive的部署和配置…………………………………………………………………… 15
一、下载Hive …………………………………………………………………………… 15
二、Hive安装…………………………………………………………………………… 17
三、测试:将本地文件导入Hive………………………………………………………… 18
四、安装MySQL………………………………………………………………………… 20
五、将Hive元数据配置到MySQL ……………………………………………………… 22
六、Hive JDBC访问……………………………………………………………………… 24
七、Hive常见属性配置…………………………………………………………………… 25
思考与练习…………………………………………………………………………………… 27
实践篇
项目三 解析HiveQL语法…………………………………………………………………… 31
任务一 熟悉Hive数据类型………………………………………………………………… 31
一、原始类型……………………………………………………………………………… 32
二、复杂数据类型………………………………………………………………………… 33
三、类型转换……………………………………………………………………………… 34
任务二 解析HiveQL DDL………………………………………………………………… 34
一、基于数据库的DDL操作……………………………………………………………… 35
二、基于表的DDL 操作…………………………………………………………………… 39
任务三 解析HiveQL DML ………………………………………………………………… 53
一、加载数据……………………………………………………………………………… 53
二、插入数据……………………………………………………………………………… 56
三、数据导出……………………………………………………………………………… 58
四、查询操作……………………………………………………………………………… 60
任务四 解析Hive Shell基本操作…………………………………………………………… 62
一、常见变量……………………………………………………………………………… 62
二、Hive变量的使用……………………………………………………………………… 63
三、设置自定义变量……………………………………………………………………… 64
四、HiveQL执行方式……………………………………………………………………… 65
五、Hive Shell的其他用法………………………………………………………………… 65
思考与练习…………………………………………………………………………………… 66
项目四 深入HiveQL …………………………………………………………………………… 70
任务一 HiveQL实现复杂查询……………………………………………………………… 70
一、聚合函数……………………………………………………………………………… 70
二、分组………………………………………………………………………………… 73
三、排序………………………………………………………………………………… 75
四、连接………………………………………………………………………………… 78
五、分桶策略及抽样查询………………………………………………………………… 83
任务二 使用内置函数……………………………………………………………………… 86
一、系统内置函数………………………………………………………………………… 86
二、常用内置函数………………………………………………………………………… 87
任务三 创建、使用自定义函数……………………………………………………………… 100
一、自定义函数简介…………………………………………………………………… 100
二、自定义UDF 函数的实现…………………………………………………………… 100
任务四 优化HiveQL性能………………………………………………………………… 103
一、Fetch 抓取…………………………………………………………………………… 104
二、本地模式…………………………………………………………………………… 105
三、Hive 的压缩存储…………………………………………………………………… 106
四、表的优化…………………………………………………………………………… 107
五、数据倾斜…………………………………………………………………………… 109
思考与练习…………………………………………………………………………………… 114
拓展篇
项目五 深入数据仓库………………………………………………………………………… 118
任务 熟悉数据仓库模型及规范…………………………………………………………… 118
一、数据模型的概念…………………………………………………………………… 118
二、三种重要的数据模型……………………………………………………………… 119
三、数据仓库架构……………………………………………………………………… 121
思考与练习…………………………………………………………………………………… 134
项目六 Hive项目实战………………………………………………………………………… 136
任务 视频网站数据的清洗和分析………………………………………………………… 136
一、数据来源…………………………………………………………………………… 136
二、数据清洗…………………………………………………………………………… 137
三、创建表……………………………………………………………………………… 141
四、导入ETL后的数据………………………………………………………………… 142
五、向 ORC表插入数据 ………………………………………………………………… 142
六、业务分析…………………………………………………………………………… 143
思考与练习…………………………………………………………………………………… 149
附录A 思考与练习答案…………………………………………………………………… 151
参考文献………………………………………………………………………………………… 156
项目一 初识Hive与数据仓库………………………………………………………………… 2
任务一 初识数据仓库………………………………………………………………………… 2
一、数据仓库介绍………………………………………………………………………… 2
二、Hadoop与数据仓库…………………………………………………………………… 6
任务二 初识Hive…………………………………………………………………………… 6
一、Hive的发展历史……………………………………………………………………… 7
二、Hive特性……………………………………………………………………………… 7
三、Hive和传统关系型数据库的区别……………………………………………………… 8
四、Hive架构……………………………………………………………………………… 9
五、Hive工作原理………………………………………………………………………… 10
六、Hive数据模型………………………………………………………………………… 10
思考与练习…………………………………………………………………………………… 13
项目二 配置Hive……………………………………………………………………………… 15
任务 Hive的部署和配置…………………………………………………………………… 15
一、下载Hive …………………………………………………………………………… 15
二、Hive安装…………………………………………………………………………… 17
三、测试:将本地文件导入Hive………………………………………………………… 18
四、安装MySQL………………………………………………………………………… 20
五、将Hive元数据配置到MySQL ……………………………………………………… 22
六、Hive JDBC访问……………………………………………………………………… 24
七、Hive常见属性配置…………………………………………………………………… 25
思考与练习…………………………………………………………………………………… 27
实践篇
项目三 解析HiveQL语法…………………………………………………………………… 31
任务一 熟悉Hive数据类型………………………………………………………………… 31
一、原始类型……………………………………………………………………………… 32
二、复杂数据类型………………………………………………………………………… 33
三、类型转换……………………………………………………………………………… 34
任务二 解析HiveQL DDL………………………………………………………………… 34
一、基于数据库的DDL操作……………………………………………………………… 35
二、基于表的DDL 操作…………………………………………………………………… 39
任务三 解析HiveQL DML ………………………………………………………………… 53
一、加载数据……………………………………………………………………………… 53
二、插入数据……………………………………………………………………………… 56
三、数据导出……………………………………………………………………………… 58
四、查询操作……………………………………………………………………………… 60
任务四 解析Hive Shell基本操作…………………………………………………………… 62
一、常见变量……………………………………………………………………………… 62
二、Hive变量的使用……………………………………………………………………… 63
三、设置自定义变量……………………………………………………………………… 64
四、HiveQL执行方式……………………………………………………………………… 65
五、Hive Shell的其他用法………………………………………………………………… 65
思考与练习…………………………………………………………………………………… 66
项目四 深入HiveQL …………………………………………………………………………… 70
任务一 HiveQL实现复杂查询……………………………………………………………… 70
一、聚合函数……………………………………………………………………………… 70
二、分组………………………………………………………………………………… 73
三、排序………………………………………………………………………………… 75
四、连接………………………………………………………………………………… 78
五、分桶策略及抽样查询………………………………………………………………… 83
任务二 使用内置函数……………………………………………………………………… 86
一、系统内置函数………………………………………………………………………… 86
二、常用内置函数………………………………………………………………………… 87
任务三 创建、使用自定义函数……………………………………………………………… 100
一、自定义函数简介…………………………………………………………………… 100
二、自定义UDF 函数的实现…………………………………………………………… 100
任务四 优化HiveQL性能………………………………………………………………… 103
一、Fetch 抓取…………………………………………………………………………… 104
二、本地模式…………………………………………………………………………… 105
三、Hive 的压缩存储…………………………………………………………………… 106
四、表的优化…………………………………………………………………………… 107
五、数据倾斜…………………………………………………………………………… 109
思考与练习…………………………………………………………………………………… 114
拓展篇
项目五 深入数据仓库………………………………………………………………………… 118
任务 熟悉数据仓库模型及规范…………………………………………………………… 118
一、数据模型的概念…………………………………………………………………… 118
二、三种重要的数据模型……………………………………………………………… 119
三、数据仓库架构……………………………………………………………………… 121
思考与练习…………………………………………………………………………………… 134
项目六 Hive项目实战………………………………………………………………………… 136
任务 视频网站数据的清洗和分析………………………………………………………… 136
一、数据来源…………………………………………………………………………… 136
二、数据清洗…………………………………………………………………………… 137
三、创建表……………………………………………………………………………… 141
四、导入ETL后的数据………………………………………………………………… 142
五、向 ORC表插入数据 ………………………………………………………………… 142
六、业务分析…………………………………………………………………………… 143
思考与练习…………………………………………………………………………………… 149
附录A 思考与练习答案…………………………………………………………………… 151
参考文献………………………………………………………………………………………… 156