数据仓库原理与实践 / “十四五”高等学校新工科计算机类专业系列教材
定价:¥62.00
作者: 康瑶,董亮
出版时间:2025-03
最新印次日期:2025-3
出版社:中国铁道出版社
- 中国铁道出版社
- 9787113319984
- 1版
- 559862
- 16开
- 2025-03
- 计算机类
- 本科
作者简介
内容简介
本书为“十四五”高等学校新工科计算机类专业系列教材之一,主要论述数据仓库的理论和实际应用,内容涵盖数据仓库的基本概念、数据模型、维度建模、技术架构、数据集成与存储、Hive数据仓库工具、Spark计算引擎、大数据任务调度系统、OLAP联机分析处理技术,以及企业级数据仓库综合项目实践等方面。本书内容特色鲜明,面向应用型本科,紧密结合企业级数据仓库设计需求。通过应用案例及项目实战介绍大数据技术在数据仓库中的应用。同时,本书内容丰富全面,既体现了数据仓库的理论知识,又注重实践应用。本书适用于高等院校数据科学与大数据技术、计算机科学与技术、软件工程等专业的高年级本科生,以及对大数据感兴趣的读者。
目录
第 1 章 数据仓库概述 1
1.1 数据仓库与数据库 2
1.1.1 数据仓库的定义 2
1.1.2 数据仓库与操作型数据库 4
1.1.3 数据仓库的应用 6
1.2 数据仓库系统及开发工具 7
1.2.1 数据仓库系统的组成 7
1.2.2 大数据时代数据仓库开发工具 10
1.3 商业智能与数据仓库 12
1.3.1 商业智能 12
1.3.2 商业智能与数据仓库的关系 13
1.4 大数据时代数据仓库建设 14
1.4.1 大数据时代数据仓库的架构 14
1.4.2 大数据时代数据仓库的关键技术 15
1.4.3 大数据时代数据仓库应用存在的问题 16
小 结 16
思考与练习 17
第 2 章 数据仓库的数据模型 18
2.1 数据仓库的数据模型分类 19
2.1.1 维度模型 19
2.1.2 范式模型 19
2.1.3 Data Vault 模型 19
2.1.4 Anchor 模型 20
2.2 维度模型的相关概念 20
2.2.1 粒度 20
2.2.2 维度与维度表 20
2.2.3 度量与事实表 21
2.2.4 多维数据集 21
2.3 维度模型的结构 22
2.3.1 星状模型 23
2.3.2 雪花模型 23
2.3.3 事实星座模型 25
小 结 26
思考与练习 26
第 3 章 数据仓库设计 27
3.1 数据仓库设计概述 28
3.1.1 数据仓库设计原则 28
3.1.2 数据仓库系统的建立模式 28
3.1.3 数据仓库规划 29
3.1.4 数据仓库设计过程 29
3.2 数据仓库需求分析 30
3.2.1 数据决策需求调研 31
3.2.2 业务系统及业务流程调研 31
3.2.3 数据调研及明确统计需求 31
3.3 数据仓库主题与主题域分析 32
3.3.1 主题 32
3.3.2 主题域 33
3.3.3 划分主题域及主题 33
3.4 数据仓库逻辑模型设计 37
3.4.1 数据仓库维度建模 38
3.4.2 数据仓库数据分层与粒度
设计 42
3.5 数据仓库物理模型设计 44
3.5.1 确定数据的存储结构 44
3.5.2 确定索引策略 45
3.5.3 确定存储分配 45
3.6 数据仓库的部署与维护 45
3.7 数据仓库建模设计项目实践 46
3.7.1 项目背景 46
3.7.2 实训目标与实训内容 47
3.7.3 实训步骤 47
小 结 57
思考与练习 57
第 4 章 数据仓库技术架构 59
4.1 数据仓库技术场景分析 60
4.2 数据仓库技术方案 61
4.2.1 数据仓库技术选型 61
4.2.2 数据采集与集成 63
4.2.3 数据存储 63
4.2.4 数据计算 64
4.2.5 任务调度 66
小 结 67
思考与练习 67
第 5 章 数据集成与存储.68
5.1 大数据来源 69
5.1.1 多种离线数据源 69
5.1.2 多种实时数据源 69
5.1.3 多种数据类型 69
5.2 数据采集 71
5.2.1 Flume 数据采集概述 71
5.2.2 数据采集组件 75
5.2.3 数据采集流程 82
5.2.4 故障转移 84
5.2.5 数据拦截器 85
5.2.6 数据采集项目实践 91
5.3 数据集成 94
5.3.1 SeaTunnel数据集成概述94
5.3.2 部署与配置 96
5.3.3 数据集成项目实践 99
5.4 数据存储 105
5.4.1 数据存储类型与存储格式 105
5.4.2 数据压缩算法 106
小 结 107
思考与练习 107
第 6 章 数据仓库工具 Hive 108
6.1 Hive 框架介绍 109
6.1.1 Hive 框架概述 109
6.1.2 Hive 功能特点 109
6.1.3 Hive 应用场景 109
6.2 Hive 框架部署与配置 110
6.2.1 Hive 运行环境 111
6.2.2 Hive 参数配置 114
6.3 Hive 技术架构 117
6.3.1 Hive 核心组件 117
6.3.2 Hive 元数据服务 119
6.3.3 Hive 客户端连接 123
6.4 HQL 语法与应用 127
6.4.1 HQL 语言基础 127
6.4.2 数据定义 132
6.4.3 数据操作 140
6.4.4 内置函数与自定义函数 151
6.4.5 项目实践 161
小 结 167
思考与练习 167
第 7 章 基于 Spark 平台的数据计算 168
7.1 Spark 计算引擎 169
7.1.1 MR 与 DAG 计算模型 169
7.1.2 Spark 核心概述 170
7.2 Spark 部署与任务提交 172
7.2.1 Spark 环境部署及运行 172
7.2.2 Spark 任务提交 174
7.3 Spark SQL 179
7.3.1 Spark SQL 介绍 179
7.3.2 Spark SQL 架构和运行原理 179
7.3.3 Spark 与 Hive 集成 181
7.3.4 Spark SQL 任务提交 182
7.3.5 Spark 数据计算项目实践 183
小 结 189
思考与练习 189
第 8 章 任务调度 190
8.1 任务调度概述 191
8.1.1 任务调度框架概述 191
8.1.2 DolphinScheduler 任务调度框架 191
8.2 调度框架的部署与配置 193
8.2.1 DolphinScheduler 部署 193
8.2.2 DolphinScheduler 配置 195
8.3 任务调度应用 199
8.3.1 DolphinScheduler 任务调度 199
8.3.2 任务调度项目实践 204
小 结 208
思考与练习 208
第 9 章 OLAP(联机分析处理) 209
9.1 OLAP 概述 210
9.1.1 OLAP 简介 210
9.1.2 OLAP 与 OLTP 的关系 210
9.1.3 数据仓库与OLAP的关系 211
9.2 数据立方体 212
9.2.1 数据立方体概述 212
9.2.2 数据立方体的演进 213
9.2.3 数据立方体构建算法 214
9.3 多维数据模型与 OLAP 操作 214
9.3.1 典型的 OLAP 操作 214
9.3.2 OLAP 的实现类型 217
9.4 利用 Kylin 实现 OLAP 分析 219
9.4.1 Kylin 简介 219
9.4.2 Kylin Cube 构建与优化 220
9.4.3 Kylin 运行环境部署 226
9.4.4 基于 Kylin 的多维数据分析项目实践 229
小 结 240
思考与练习 240
第 10 章 企业级数据仓库综合实训 242
10.1 项目需求 243
10.1.1 项目概述 243
10.1.2 项目功能 244
10.2 技术架构设计 245
10.2.1 技术选型 245
10.2.2 技术架构 246
10.3 项目应用开发 247
10.3.1 数据采集实践 247
10.3.2 数据同步实践 254
10.3.3 数据仓库设计实践 256
10.3.4 数据仓库应用实践 259
小 结 288
1.1 数据仓库与数据库 2
1.1.1 数据仓库的定义 2
1.1.2 数据仓库与操作型数据库 4
1.1.3 数据仓库的应用 6
1.2 数据仓库系统及开发工具 7
1.2.1 数据仓库系统的组成 7
1.2.2 大数据时代数据仓库开发工具 10
1.3 商业智能与数据仓库 12
1.3.1 商业智能 12
1.3.2 商业智能与数据仓库的关系 13
1.4 大数据时代数据仓库建设 14
1.4.1 大数据时代数据仓库的架构 14
1.4.2 大数据时代数据仓库的关键技术 15
1.4.3 大数据时代数据仓库应用存在的问题 16
小 结 16
思考与练习 17
第 2 章 数据仓库的数据模型 18
2.1 数据仓库的数据模型分类 19
2.1.1 维度模型 19
2.1.2 范式模型 19
2.1.3 Data Vault 模型 19
2.1.4 Anchor 模型 20
2.2 维度模型的相关概念 20
2.2.1 粒度 20
2.2.2 维度与维度表 20
2.2.3 度量与事实表 21
2.2.4 多维数据集 21
2.3 维度模型的结构 22
2.3.1 星状模型 23
2.3.2 雪花模型 23
2.3.3 事实星座模型 25
小 结 26
思考与练习 26
第 3 章 数据仓库设计 27
3.1 数据仓库设计概述 28
3.1.1 数据仓库设计原则 28
3.1.2 数据仓库系统的建立模式 28
3.1.3 数据仓库规划 29
3.1.4 数据仓库设计过程 29
3.2 数据仓库需求分析 30
3.2.1 数据决策需求调研 31
3.2.2 业务系统及业务流程调研 31
3.2.3 数据调研及明确统计需求 31
3.3 数据仓库主题与主题域分析 32
3.3.1 主题 32
3.3.2 主题域 33
3.3.3 划分主题域及主题 33
3.4 数据仓库逻辑模型设计 37
3.4.1 数据仓库维度建模 38
3.4.2 数据仓库数据分层与粒度
设计 42
3.5 数据仓库物理模型设计 44
3.5.1 确定数据的存储结构 44
3.5.2 确定索引策略 45
3.5.3 确定存储分配 45
3.6 数据仓库的部署与维护 45
3.7 数据仓库建模设计项目实践 46
3.7.1 项目背景 46
3.7.2 实训目标与实训内容 47
3.7.3 实训步骤 47
小 结 57
思考与练习 57
第 4 章 数据仓库技术架构 59
4.1 数据仓库技术场景分析 60
4.2 数据仓库技术方案 61
4.2.1 数据仓库技术选型 61
4.2.2 数据采集与集成 63
4.2.3 数据存储 63
4.2.4 数据计算 64
4.2.5 任务调度 66
小 结 67
思考与练习 67
第 5 章 数据集成与存储.68
5.1 大数据来源 69
5.1.1 多种离线数据源 69
5.1.2 多种实时数据源 69
5.1.3 多种数据类型 69
5.2 数据采集 71
5.2.1 Flume 数据采集概述 71
5.2.2 数据采集组件 75
5.2.3 数据采集流程 82
5.2.4 故障转移 84
5.2.5 数据拦截器 85
5.2.6 数据采集项目实践 91
5.3 数据集成 94
5.3.1 SeaTunnel数据集成概述94
5.3.2 部署与配置 96
5.3.3 数据集成项目实践 99
5.4 数据存储 105
5.4.1 数据存储类型与存储格式 105
5.4.2 数据压缩算法 106
小 结 107
思考与练习 107
第 6 章 数据仓库工具 Hive 108
6.1 Hive 框架介绍 109
6.1.1 Hive 框架概述 109
6.1.2 Hive 功能特点 109
6.1.3 Hive 应用场景 109
6.2 Hive 框架部署与配置 110
6.2.1 Hive 运行环境 111
6.2.2 Hive 参数配置 114
6.3 Hive 技术架构 117
6.3.1 Hive 核心组件 117
6.3.2 Hive 元数据服务 119
6.3.3 Hive 客户端连接 123
6.4 HQL 语法与应用 127
6.4.1 HQL 语言基础 127
6.4.2 数据定义 132
6.4.3 数据操作 140
6.4.4 内置函数与自定义函数 151
6.4.5 项目实践 161
小 结 167
思考与练习 167
第 7 章 基于 Spark 平台的数据计算 168
7.1 Spark 计算引擎 169
7.1.1 MR 与 DAG 计算模型 169
7.1.2 Spark 核心概述 170
7.2 Spark 部署与任务提交 172
7.2.1 Spark 环境部署及运行 172
7.2.2 Spark 任务提交 174
7.3 Spark SQL 179
7.3.1 Spark SQL 介绍 179
7.3.2 Spark SQL 架构和运行原理 179
7.3.3 Spark 与 Hive 集成 181
7.3.4 Spark SQL 任务提交 182
7.3.5 Spark 数据计算项目实践 183
小 结 189
思考与练习 189
第 8 章 任务调度 190
8.1 任务调度概述 191
8.1.1 任务调度框架概述 191
8.1.2 DolphinScheduler 任务调度框架 191
8.2 调度框架的部署与配置 193
8.2.1 DolphinScheduler 部署 193
8.2.2 DolphinScheduler 配置 195
8.3 任务调度应用 199
8.3.1 DolphinScheduler 任务调度 199
8.3.2 任务调度项目实践 204
小 结 208
思考与练习 208
第 9 章 OLAP(联机分析处理) 209
9.1 OLAP 概述 210
9.1.1 OLAP 简介 210
9.1.2 OLAP 与 OLTP 的关系 210
9.1.3 数据仓库与OLAP的关系 211
9.2 数据立方体 212
9.2.1 数据立方体概述 212
9.2.2 数据立方体的演进 213
9.2.3 数据立方体构建算法 214
9.3 多维数据模型与 OLAP 操作 214
9.3.1 典型的 OLAP 操作 214
9.3.2 OLAP 的实现类型 217
9.4 利用 Kylin 实现 OLAP 分析 219
9.4.1 Kylin 简介 219
9.4.2 Kylin Cube 构建与优化 220
9.4.3 Kylin 运行环境部署 226
9.4.4 基于 Kylin 的多维数据分析项目实践 229
小 结 240
思考与练习 240
第 10 章 企业级数据仓库综合实训 242
10.1 项目需求 243
10.1.1 项目概述 243
10.1.2 项目功能 244
10.2 技术架构设计 245
10.2.1 技术选型 245
10.2.2 技术架构 246
10.3 项目应用开发 247
10.3.1 数据采集实践 247
10.3.2 数据同步实践 254
10.3.3 数据仓库设计实践 256
10.3.4 数据仓库应用实践 259
小 结 288