注册 登录 进入教材巡展
#

出版时间:2025-06

出版社:电子工业出版社

以下为《Hive数据仓库案例教程》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 电子工业出版社
  • 9787121418068
  • 1-9
  • 421626
  • 60266826-1
  • 平塑
  • 16开
  • 2025-06
  • 320
  • 200
  • 工学
  • 计算机类
  • 数据科学与大数据技术
  • 本科
目录
第1章 Hive数据仓库基础 1
1.1 数据仓库 1
1.1.1 数据仓库的概念 1
1.1.2 数据仓库的特点 3
1.1.3 数据仓库的数据模型 3
1.1.4 数据仓库的体系结构 4
1.2 Hive数据仓库 5
1.3 Hive体系结构及执行流程 6
1.3.1 Hive体系结构 6
1.3.2 Hive执行流程 8
1.4 Hive数据仓库和数据库比较 8
习题1 10
第2章 Hive环境搭建 12
2.1 Hive安装及配置 12
2.1.1 Hive的安装模式 12
2.1.2 Hive安装及配置过程 12
2.1.3 Hive基本操作 14
2.2 MySQL安装及配置 15
2.2.1 MySQL安装包准备 15
2.2.2 MySQL服务器端安装 15
2.2.3 MySQL客户端安装 16
2.3 Hive元数据配置 16
2.3.1 驱动复制 16
2.3.2 配置元数据到MySQL 16
2.3.3 多终端启动Hive 17
2.4 Hive JDBC连接 18
2.4.1 HiveServer2配置 18
2.4.2 HiveServer2启动 18
2.4.3 Beeline启动 18
2.4.4 HiveServer2连接 19
2.5 Hive常见属性配置 19
2.5.1 Hive位置配置 19
2.5.2 信息显示配置 19
2.5.3 运行日志信息配置 20
2.5.4 Hive参数配置方式 20
习题2 21
第3章 Hive基础 23
3.1 Hive数据类型 23
3.1.1 基本数据类型 23
3.1.2 复杂数据类型 24
3.1.3 数据类型转换 24
3.2 Hive运算符 25
3.2.1 算术运算符 25
3.2.2 比较运算符 25
3.2.3 逻辑运算符 26
3.2.4 复杂运算符 26
3.3 Hive数据存储 27
3.4 Hive表存储格式 27
3.4.1 行式存储和列式存储 28
3.4.2 TextFile格式 28
3.4.3 SequenceFile格式 28
3.4.4 ORC格式 29
3.4.5 Parquet格式 29
3.5 Hive常用交互命令 30
3.6 Hive其他操作命令 31
习题3 31
第4章 Hive数据定义 34
4.1 数据仓库的创建 34
4.2 数据仓库的查询 35
4.2.1 显示数据仓库 35
4.2.2 查看数据仓库详情 35
4.2.3 切换数据仓库 35
4.3 数据仓库的修改 35
4.4 数据仓库的删除 36
4.5 表的创建 36
4.5.1 内部表 37
4.5.2 外部表 40
4.5.3 内部表和外部表的转换 42
4.6 分区表 42
4.6.1 分区表基本操作 43
4.6.2 二级分区表创建 45
4.7 桶表 46
4.8 表的修改 48
4.8.1 重命名 48
4.8.2 增加和删除分区 48
4.8.3 修改、增加和替换列 49
4.9 表的删除 51
4.10 视图 52
习题4 57
第5章 Hive数据操作 60
5.1 数据导入 60
5.1.1 Load加载数据 60
5.1.2 Insert插入数据 61
5.1.3 As Select加载数据 63
5.1.4 Location加载数据 63
5.1.5 Import加载数据 64
5.2 数据导出 64
5.2.1 Insert语句导出 64
5.2.2 Hadoop命令导出 65
5.2.3 Hive Shell命令导出 65
5.2.4 Export语句导出 65
5.2.5 Sqoop导出 65
习题5 66
第6章 HQL查询 68
6.1 Select基本查询 68
6.1.1 全表和特定列查询 68
6.1.2 列的别名 69
6.1.3 Limit语句 69
6.2 Where语句 69
6.2.1 Like的使用 71
6.2.2 Rlike的使用 72
6.3 分组语句 74
6.3.1 Group By语句 74
6.3.2 Having语句 74
6.4 Join语句 75
6.4.1 等值连接 75
6.4.2 表的别名 76
6.4.3 内连接 76
6.4.4 左外连接 76
6.4.5 右外连接 76
6.4.6 满外连接 76
6.4.7 左半连接 77
6.4.8 多表连接 77
6.4.9 笛卡儿积Join 78
6.5 排序 79
6.5.1 Order By全局排序 79
6.5.2 字段别名排序 80
6.5.3 多字段排序 81
6.5.4 Sort By内部排序 81
6.5.5 Distribute By分区排序 83
6.5.6 Cluster By排序 83
6.6 抽样查询 84
6.6.1 桶表抽样查询 84
6.6.2 数据块抽样查询 85
6.6.3 随机抽样查询 87
习题6 87
第7章 Hive函数 89
7.1 Hive内置函数 89
7.1.1 数值计算函数 89
7.1.2 聚合函数 90
7.1.3 日期时间函数 91
7.1.4 条件函数 92
7.1.5 字符串处理函数 93
7.1.6 内置函数查看命令 96
7.2 其他常用函数 96
7.2.1 空字段赋值函数 96
7.2.2 列转行函数 97
7.2.3 窗口函数 100
7.2.4 排序函数 106
7.3 自定义函数 108
7.3.1 UDF函数 108
7.3.2 UDTF函数 110
7.3.3 UDAF函数 112
习题7 113
第8章 Hive数据压缩 116
8.1 数据压缩格式 116
8.2 Hadoop压缩配置 117
8.2.1 Snappy压缩方式配置 117
8.2.2 MapReduce支持的压缩编码 118
8.2.3 MapReduce压缩格式参数配置 118
8.3 Map输出压缩开启 119
8.4 Reduce输出压缩开启 119
8.5 常用Hive表存储格式比较 120
8.5.1 存储文件的压缩比测试 120
8.5.2 存储文件的查询速度测试 122
8.6 存储和压缩结合 123
习题8 125
第9章 Hive优化 127
9.1 Hive参数优化 127
9.1.1 本地模式 127
9.1.2 Fetch抓取 128
9.1.3 并行执行 128
9.1.4 严格模式 129
9.1.5 推测执行 130
9.1.6 JVM重用 131
9.2 数据倾斜 131
9.2.1 合理设置Map个数 131
9.2.2 合并小文件 132
9.2.3 复杂文件增加Map个数 132
9.2.4 合理设置R