Hive数据仓库技术与应用 / 高等职业教育校企合作系列教材·大数据技术与应用专业
定价:¥45.00
作者: 朱晓彦,方明清,李强
出版时间:2020-09
最新印次日期:2023-2
出版社:中国铁道出版社
试读
- 中国铁道出版社
- 9787113271947
- 1-4
- 364867
- 68260622-3
- 平装
- 16开
- 2020-09
- 348
- 236
- 电子与信息大类
- 计算机类
- 计算机类
- 高职
作者简介
内容简介
本书是大数据技术与应用专业校企合作系列教材之一,采用模块化的编写思路,内容包括Hive概述、环境准备、Hadoop搭建和配置、安装Hive的基础操作、HiveQL的数据定义、HiveQL语句、Hive综合应用7个单元和25个教学任务。每个单元通过学习目标引出单元的教学核心内容,明确教学任务。每个任务的编写分为任务目标、知识学习、任务实施、同步训练4个环节。最后通过单元小结回顾每个单元的学习重点。
本书适合作为高职院校软件技术、大数据技术及应用专业,以及计算机类相关专业的教材,也可以作为Hive爱好者的参考用书。
本书适合作为高职院校软件技术、大数据技术及应用专业,以及计算机类相关专业的教材,也可以作为Hive爱好者的参考用书。
目录
单元1Hive概述1
任务1.1Hive的产生背景1
1Hive的产生背景2
2Hive的发展历史和现状4
3Hive与Hadoop4
任务1.2Hive的概念9
1Hive的系统与部署架构9
2Hive与RDBM对比12
3数据仓库的理解12
4Hive的数据模型15
5HiveQL与数据存储16
任务1.3Hadoop生态与Hive20
1Pig20
2HBase21
单元小结25
单元2环境准备26
任务2.1VMware与SecureCRTPortable26
1VMware简介26
2VMware的虚拟化27
任务2.2JDK的配置37
1JDK的简介37
2JDK的版本37
3上传JDK的介质37
4tar的解压与压缩37
任务2.3免密登录41
1免密登录用户41
2免密登录的优点42
单元小结46
单元3Hadoop搭建和配置47
任务3.1Hadoop搭建47
1上传Hadoop的介质47
2解压Hadoop压缩包48
3配置Hadoop的环境变量48
4配置Hadoop环境变量48
5修改Hadoop的配置文件49
6启动Hadoop服务51
7检查Hadoop的成功52
任务3.2Hadoop配置57
1Hadoop简介57
2MapReduce综述61
单元小结70
单元4安装Hive的基础操作71
任务4.1Hive的模式71
1本地模式72
2远程模式72
3内嵌模式73
任务4.2安装Hive实验88
1Hive简介88
2Hive的定义88
3设计特征88
4数据存储89
任务4.3Hive命令95
1创建表语句95
2加载数据96
3改变表98
4替换101
5删除表102
6分区103
任务4.4Hive命令行界面107
1CLI选项107
2变量和属性111
3在Hive内使用Hadoop的DFS命令112
任务4.5数据类型和文件格式114
1基本数据类型114
2文件格式116
3压缩编码119
4集合数据类型121
任务4.6Hive权限管理125
1开启权限126
2权限操作128
任务4.7Hive常用优化方法137
1控制Reducer数量137
2使用MapJoin138
3使用distinct+unionall代替union139
4解决数据倾斜的通用方法140
单元小结141
单元5HiveQL的数据定义143
任务5.1HiveQL的数据定义143
1HiveQL的数据定义143
2HiveQL和SQL的区别146
任务5.2Hive数据库150
1Hive的数据库150
2修改数据库属性151
任务5.3修改表157
1增加、修改和删除表分区157
2表重命名157
3增加列157
4删除或者替换列157
5修改表属性158
6修改存储属性158
7修改表语句158
单元小结162
单元6HiveQL语句163
任务6.1SELECT、FROM语句的概念163
1使用正则表达式来指定列163
2使用列值进行计算165
3算术运算符165
4使用函数168
5LIMIT语句169
6列的别名169
7CASE、WHEN、THEN句式169
8嵌套SELECT语句172
任务6.2GROUPBY178
任务6.3抽样查询180
1数据块抽样180
2分桶表的输入裁剪180
任务6.4WHERE语句181
1谓语操作符182
2浮点数比较183
任务6.5JOIN语句184
1JOIN优化185
2LEFTOUTERJOIN186
3INNERJOIN187
4FULLOUTERJOIN189
5LEFTSEMIJOIN189
6RIGHTOUTERJOIN190
7OUTERJOIN190
8笛卡儿积JOIN191
9mapsidejoin192
单元小结194
单元7Hive综合应用195
任务7.1Hive和亚马逊网络服务系统(AWS)195
1弹性MapReduce的优点196
2注意事项196
3EMR上的实例196
任务7.2Hive综合案例199
1Hive操作演示199
2交易数据演示207
单元小结227
参考文献228
任务1.1Hive的产生背景1
1Hive的产生背景2
2Hive的发展历史和现状4
3Hive与Hadoop4
任务1.2Hive的概念9
1Hive的系统与部署架构9
2Hive与RDBM对比12
3数据仓库的理解12
4Hive的数据模型15
5HiveQL与数据存储16
任务1.3Hadoop生态与Hive20
1Pig20
2HBase21
单元小结25
单元2环境准备26
任务2.1VMware与SecureCRTPortable26
1VMware简介26
2VMware的虚拟化27
任务2.2JDK的配置37
1JDK的简介37
2JDK的版本37
3上传JDK的介质37
4tar的解压与压缩37
任务2.3免密登录41
1免密登录用户41
2免密登录的优点42
单元小结46
单元3Hadoop搭建和配置47
任务3.1Hadoop搭建47
1上传Hadoop的介质47
2解压Hadoop压缩包48
3配置Hadoop的环境变量48
4配置Hadoop环境变量48
5修改Hadoop的配置文件49
6启动Hadoop服务51
7检查Hadoop的成功52
任务3.2Hadoop配置57
1Hadoop简介57
2MapReduce综述61
单元小结70
单元4安装Hive的基础操作71
任务4.1Hive的模式71
1本地模式72
2远程模式72
3内嵌模式73
任务4.2安装Hive实验88
1Hive简介88
2Hive的定义88
3设计特征88
4数据存储89
任务4.3Hive命令95
1创建表语句95
2加载数据96
3改变表98
4替换101
5删除表102
6分区103
任务4.4Hive命令行界面107
1CLI选项107
2变量和属性111
3在Hive内使用Hadoop的DFS命令112
任务4.5数据类型和文件格式114
1基本数据类型114
2文件格式116
3压缩编码119
4集合数据类型121
任务4.6Hive权限管理125
1开启权限126
2权限操作128
任务4.7Hive常用优化方法137
1控制Reducer数量137
2使用MapJoin138
3使用distinct+unionall代替union139
4解决数据倾斜的通用方法140
单元小结141
单元5HiveQL的数据定义143
任务5.1HiveQL的数据定义143
1HiveQL的数据定义143
2HiveQL和SQL的区别146
任务5.2Hive数据库150
1Hive的数据库150
2修改数据库属性151
任务5.3修改表157
1增加、修改和删除表分区157
2表重命名157
3增加列157
4删除或者替换列157
5修改表属性158
6修改存储属性158
7修改表语句158
单元小结162
单元6HiveQL语句163
任务6.1SELECT、FROM语句的概念163
1使用正则表达式来指定列163
2使用列值进行计算165
3算术运算符165
4使用函数168
5LIMIT语句169
6列的别名169
7CASE、WHEN、THEN句式169
8嵌套SELECT语句172
任务6.2GROUPBY178
任务6.3抽样查询180
1数据块抽样180
2分桶表的输入裁剪180
任务6.4WHERE语句181
1谓语操作符182
2浮点数比较183
任务6.5JOIN语句184
1JOIN优化185
2LEFTOUTERJOIN186
3INNERJOIN187
4FULLOUTERJOIN189
5LEFTSEMIJOIN189
6RIGHTOUTERJOIN190
7OUTERJOIN190
8笛卡儿积JOIN191
9mapsidejoin192
单元小结194
单元7Hive综合应用195
任务7.1Hive和亚马逊网络服务系统(AWS)195
1弹性MapReduce的优点196
2注意事项196
3EMR上的实例196
任务7.2Hive综合案例199
1Hive操作演示199
2交易数据演示207
单元小结227
参考文献228











