- 东北大学出版社
- 9787551718844
- 274064
- 2018-05
内容简介
《实时数据仓库技术》并不想面面俱到地对整个实时数据仓库技术进行讨论,而是从实时数据仓库构建的关键技术部分着手,系统、翔实地介绍实时数据仓库相关的关键技术的理论和实践知识,并尽可能地涵盖实时数据仓库技术的主要内容。这些关键技术包括实时数据仓库体系结构及实时数据的存储与管理机制、变化数据捕获技术、更新查询任务调度技术、并行查询与优化技术、实时数据立方技术等。这些内容都是研究与设计实时数据仓库系统的关键,《实时数据仓库技术》以其作为切入点进行展开,能使读者更好地理解和掌握实时数据仓库技术的核心。
目录
第1章 实时数据仓库技术概述
1.1 数据仓库技术
1.1.1 数据仓库的定义
1.1.2 数据仓库的特点
1.1.3 数据仓库的体系结构
1.1.4 数据仓库的模型
1.2 实时数据仓库技术
1.2.1 实时数据仓库的定义
1.2.2 实时数据仓库的新挑战
1.2.3 实时数据仓库的体系结构
1.2.4 实时数据仓库与传统数据仓库的比较
1.3 MapReduce技术
1.3.1 MapReduce编程模式
1.3.2 MapReduce框架的实现
1.3.3 Hadoop
第2章 实时数据仓库体系结构
2.1 实时数据仓库体系结构的设计
2.2 ODS分区
2.3 双镜像交替分区
2.4 数据仓库副本分区
2.5 多级缓存分区机制
2.5.1 缓存的数据新鲜度
2.5.2 缓存的更新算法
2.5.3 多级缓存分区机制的查询
2.5.4 查询冲突问题的解决
2.6 几种实时数据存储区的比较
第3章 变化数据捕获
3.1 变化数据捕获方法
3.1.1 基于数据源表的时间戳标注
3.1.2 基于日志的被动数据变化的捕获
3.1.3 基于触发器的主动数据变化的捕获
3.2 基于LogMiner的变化数据捕获
3.2.1 Oracle日志简述
3.2.2 Oracle日志的两种模式
3.2.3 LogM:iner进行日志挖掘的基本流程
3.3 基于CDC的变化数据捕获
3.3.1 CDC工具捕获变化数据概述
3.3.2 CDC相关的数据库对象
3.3.3 对变化数据处理
3.3.4 CDC捕获模块流程设计
第4章 更新查询调度技术
4.1 更新查询调度技术概述
4.2 基于优先级的更新与查询平衡调度
4.2.1 系统模型
4.2.2 在线日志捕获数据
4.2.3 系统性能参数
4.2.4 PBBS调度算法
4.2.5 并行一致性控制策略
4.2.6 小结
4.3 支持Qos的更新和查询任务调度
4.3.1 概述
4.3.2 系统模型
4.3.3 查询任务的时间估算
4.3.4 调度算法
4.3.5 小结
第5章 实时数据仓库并行查询
5.1 概述
5.2 MapRecluee的基本流程
5.3 基于MapReclUee的并行关系运算
5.3.1 选择和投影运算
5.3.2 连接运算
5.3.3 除运算
5.3.4 聚集运算
5.4 基于分块结构的分布式数据库ChunkDB
5.4.1 ChunkDB的整体架构
5.4.2 ChunkDB分布式数据库
5.5 基于ChunkDB数据库的MapRecluee计算
5.5.1 基于ChunkDB的Maptleduee计算实现流程
5.5.2 DBInputFormat数据接口扩展
5.6 ChunkDB性能评估
5.6.1 评估环境
5.6.2 查询性能评价
5.6.3 集群规模的影响
第6章 实时数据立方技术
6.1 概述
6.2 基础知识
6.2.1 数据立方Cube
6.2.2 Dwarf数据立方
6.2.3 MapRedllice
6.3 基于MapReduee的数据立方构建
6.4 Dwarf立方的分割
6.4.1 Dwarf立方的基础划分
6.4.2 Dwarf立方的多维划分
6.5 并行Dwarf数据立方
6.5.1 并行Dwarf的建立
6.5.2 并行Dwarf的查询
6.5.3 并行Dwarf的更新
6.5.4 并行Dwarf的优化
6.6 并行Dwarf性能分析
6.6.1 评估环境
6.6.2 Dwarf的建立和存储性能
6.6.3 Dwarf立方的查询性能
6.6.4 Dwarf立方的更新性能
6.6.5 集群节点数量的影响
第7章 MR-RTDWH系统
7.1 MR.RTDWH概述
7.2 MR-RTDwH系统设计
7.2.1 系统设计目标
7.2.2 系统体系结构
7.2.3 传统ETL模块
7.2.4 实时ETL模块
7.2.5 实时数据仓库存储
7.2.6 更新查询调度模块
7.2.7 M印Reduce并行计算模块
7.2.8 MR-RTDWH系统实现
7.3 小结
参考文献
1.1 数据仓库技术
1.1.1 数据仓库的定义
1.1.2 数据仓库的特点
1.1.3 数据仓库的体系结构
1.1.4 数据仓库的模型
1.2 实时数据仓库技术
1.2.1 实时数据仓库的定义
1.2.2 实时数据仓库的新挑战
1.2.3 实时数据仓库的体系结构
1.2.4 实时数据仓库与传统数据仓库的比较
1.3 MapReduce技术
1.3.1 MapReduce编程模式
1.3.2 MapReduce框架的实现
1.3.3 Hadoop
第2章 实时数据仓库体系结构
2.1 实时数据仓库体系结构的设计
2.2 ODS分区
2.3 双镜像交替分区
2.4 数据仓库副本分区
2.5 多级缓存分区机制
2.5.1 缓存的数据新鲜度
2.5.2 缓存的更新算法
2.5.3 多级缓存分区机制的查询
2.5.4 查询冲突问题的解决
2.6 几种实时数据存储区的比较
第3章 变化数据捕获
3.1 变化数据捕获方法
3.1.1 基于数据源表的时间戳标注
3.1.2 基于日志的被动数据变化的捕获
3.1.3 基于触发器的主动数据变化的捕获
3.2 基于LogMiner的变化数据捕获
3.2.1 Oracle日志简述
3.2.2 Oracle日志的两种模式
3.2.3 LogM:iner进行日志挖掘的基本流程
3.3 基于CDC的变化数据捕获
3.3.1 CDC工具捕获变化数据概述
3.3.2 CDC相关的数据库对象
3.3.3 对变化数据处理
3.3.4 CDC捕获模块流程设计
第4章 更新查询调度技术
4.1 更新查询调度技术概述
4.2 基于优先级的更新与查询平衡调度
4.2.1 系统模型
4.2.2 在线日志捕获数据
4.2.3 系统性能参数
4.2.4 PBBS调度算法
4.2.5 并行一致性控制策略
4.2.6 小结
4.3 支持Qos的更新和查询任务调度
4.3.1 概述
4.3.2 系统模型
4.3.3 查询任务的时间估算
4.3.4 调度算法
4.3.5 小结
第5章 实时数据仓库并行查询
5.1 概述
5.2 MapRecluee的基本流程
5.3 基于MapReclUee的并行关系运算
5.3.1 选择和投影运算
5.3.2 连接运算
5.3.3 除运算
5.3.4 聚集运算
5.4 基于分块结构的分布式数据库ChunkDB
5.4.1 ChunkDB的整体架构
5.4.2 ChunkDB分布式数据库
5.5 基于ChunkDB数据库的MapRecluee计算
5.5.1 基于ChunkDB的Maptleduee计算实现流程
5.5.2 DBInputFormat数据接口扩展
5.6 ChunkDB性能评估
5.6.1 评估环境
5.6.2 查询性能评价
5.6.3 集群规模的影响
第6章 实时数据立方技术
6.1 概述
6.2 基础知识
6.2.1 数据立方Cube
6.2.2 Dwarf数据立方
6.2.3 MapRedllice
6.3 基于MapReduee的数据立方构建
6.4 Dwarf立方的分割
6.4.1 Dwarf立方的基础划分
6.4.2 Dwarf立方的多维划分
6.5 并行Dwarf数据立方
6.5.1 并行Dwarf的建立
6.5.2 并行Dwarf的查询
6.5.3 并行Dwarf的更新
6.5.4 并行Dwarf的优化
6.6 并行Dwarf性能分析
6.6.1 评估环境
6.6.2 Dwarf的建立和存储性能
6.6.3 Dwarf立方的查询性能
6.6.4 Dwarf立方的更新性能
6.6.5 集群节点数量的影响
第7章 MR-RTDWH系统
7.1 MR.RTDWH概述
7.2 MR-RTDwH系统设计
7.2.1 系统设计目标
7.2.2 系统体系结构
7.2.3 传统ETL模块
7.2.4 实时ETL模块
7.2.5 实时数据仓库存储
7.2.6 更新查询调度模块
7.2.7 M印Reduce并行计算模块
7.2.8 MR-RTDWH系统实现
7.3 小结
参考文献