- 科学出版社
- 9787030254009
- 2版
- 402891
- 46259025-8
- 平装
- 16开
- 2009-09
- 456
- 308
- 工学
- 计算机科学与技术
- TP311.13;TP274
- 计算机类
- 本科
内容简介
本书全面深入地介绍了数据仓库、联机分析处理和数据挖掘的基本概念、基本方法和应用技术。全书分成三篇:数据仓库与OLAP篇的主要内容包括:数据仓库的基本概念、体系结构、模型设计、开发方法、ETL、元数据和数据集市,OLAP的基本概念、基本操作、数据模型和OLAP的实现及准则;数据挖掘与空间数据挖掘篇的主要内容包括关联分析方法、聚类分析技术、分类与预测方法、异常检测算法以及空间数据挖掘技术等;工具与实例篇介绍了数据挖掘工具及可视化、Cognos公司的I主要产品和企业数据仓库系统构建。本书可作为高等院校计算机软件与应用、信息科学等专业的学生学习数据仓库、OLAP及数据挖掘技术的实用教程或参考书,也可供从事数据仓库、数据挖掘研究、设计、开发等工作的科研、工程人员参考。
目录
第一篇 数据仓库与OLAP
第1章 数据仓库基本概念 1
1.1 从数据库到数据仓库 1
1.1.1 蜘蛛网问题 1
1.1.2 事务处理和分析处理数据环境的分离 4
1.2 什么是数据仓库 5
1.2.1 面向主题 6
1.2.2 集成 7
1.2.3 稳定性 7
1.2.4 随时间而变化 8
1.3 数据仓库与传统数据库的比较 8
1.3.1 两个系统的主要区别 8
1.3.2 两个系统的查询支持不同 9
1.3.3 两个系统数据组织模式示例比较 10
1.4 数据仓库的系统结构 11
1.4.1 三层数据仓库结构 11
1.4.2 数据仓库中的关键名词 12
1.5 数据仓库的数据组织 15
1.5.1 数据仓库的数据组织结构 15
1.5.2 数据粒度与数据分割 16
1.5.3 数据仓库的数据组织形式 17
1.5.4 数据仓库的数据追加和清理 19
1.6 小结 20
习题 20
第2章 数据仓库中的ETL和元数据 21
2.1 ETL 21
2.1.1 ETL概念 21
2.1.2 ETL作用 25
2.1.3 ETL工具 25
2.2 元数据 28
2.2.1 什么是元数据 28
2.2.2 元数据的标准化 31
2.2.3 数据仓库中的元数据管理 33
2.2.4 在数据仓库项目中使用元数据的建议 34
2.3 外部数据 35
2.3.1 外部数据和非结构化数据 35
2.3.2 元数据和外部数据 36
2.3.3 外部数据的存储 37
2.3.4 外部数据的管理 37
2.4 小结 37
习题 37
第3章 数据仓库模型设计及数据仓库建立 38
3.1 数据仓库的概念模型设计 38
3.1.1 E-
模型 38
3.1.2 面向对象的分析方法 40
3.2 数据仓库的逻辑模型设计 42
3.2.1 分析主题,确定当前要装载的主题 43
3.2.2 确定数据粒度的选择 43
3.2.3 确定数据分割策略 46
3.2.4 增加导出字段 47
3.2.5 定义关系模式 47
3.2.6 定义记录系统 48
3.3 数据仓库的物理模型设计 48
3.3.1 索引策略 48
3.3.2 数据存储策略 52
3.4 数据仓库的建立过程 54
3.4.1 需求分析 55
3.4.2 数据路线 55
3.4.3 技术路线 55
3.4.4 应用路线 56
3.4.5 数据仓库部署 57
3.4.6 运行维护 58
3.5 提高数据仓库性能 58
3.6 小结 60
习题 60
第4章 联机分析处理 62
4.1 OLAP概念 62
4.1.1 什么是OLAP 62
4.1.2 OLAP的相关基本概念 63
4.1.3 OLAP和OLTP的区别 64
4.1.4 OLAP和数据仓库的区别 65
4.2 OLAP的基本操作 65
4.2.1 数据切片 65
4.2.2 数据切块 66
4.2.3 数据上探
下钻 67
4.2.4 数据旋转 67
4.2.5 其他OLAP操作 68
4.3 OLAP的数据模型 68
4.3.1 什么是数据立方体 69
4.3.2 多维数据模型的存在形式 71
4.4 OLAP分类和服务器类型 75
4.4.1 OLAP的分类 75
4.4.2 OLAP的三层客户
服务器结构 76
4.4.3
OLAP服务器 76
4.4.4 MOLAP服务器 77
4.4.5 HOLAP服务器 77
4.5 基于多维数据库的OLAP(MOLAP) 78
4.5.1 多维数据库 78
4.5.2 维的分类 79
4.5.3 多维数据库存储 80
4.6 基于关系数据库的OLAP(
OLAP) 81
4.6.1 维表和事实表 81
4.6.2
OLAP与MOLAP比较 84
4.7 OLAP实现 86
4.7.1 数据立方体的有效计算 86
4.7.2 索引OLAP数据 87
4.7.3 OLAP查询的有效处理 89
4.7.4 OLAP的前端展现 90
4.8 OLAP的衡量和特性 93
4.8.1 OLAP的12准则 93
4.8.2 OLAP的简洁准则(OLAP的特性) 95
4.9 小结 96
习题 96
第二篇 数据挖掘与空间数据挖掘
第5章 数据挖掘概念与数据预处理 97
5.1 数据挖掘概述 97
5.2 数据挖掘分类 99
5.2.1 概述 99
5.2.2 描述性挖掘 99
5.2.3 预测性挖掘 102
5.3 数据挖掘系统 104
5.3.1 数据挖掘系统的结构 104
5.3.2 数据挖掘系统的设计 105
5.3.3 数据挖掘系统的发展 106
5.4 数据预处理 107
5.4.1 数据清理 107
5.4.2 数据集成 108
5.4.3 数据变换 109
5.4.4 数据归约 110
5.4.5 属性概念分层的自动生成 112
5.5 数据挖掘与数据仓库 114
5.6 数据挖掘的应用和发展 115
5.6.1 数据挖掘的应用 115
5.6.2 数据挖掘未来研究方向 117
5.7 小结 118
习题 118
第6章 关联分析 119
6.1 问题定义 120
6.2 Ap
io
i算法 121
6.2.1 频繁项集产生 121
6.2.2 规则产生 125
6.2.3 Ap
io
i算法 127
6.3 频繁项集的紧凑表示 129
6.3.1 最大频繁项集 129
6.3.2 频繁闭项集 131
6.4 FP-g
owth算法 133
6.4.1 FP树构造 134
6.4.2 频繁项集产生 135
6.4.3 FP-g
owth算法 136
6.5 小结 137
习题 138
第7章 聚类分析 139
7.1 概述 139
7.1.1 聚类概念 139
7.1.2 相似性测度 139
7.1.3 聚类过程 140
7.1.4 聚类算法的分类 141
7.2 k均值算法 143
7.2.1 误差平方和准则 143
7.2.2 k均值算法 143
7.3
I
CH算法 145
7.3.1 聚类特征 145
7.3.2 CF树 146
7.3.3 CF树的构造 146
7.3.4
I
CH算法 147
7.4 D
SCAN算法 147
7.4.1 相关概念 147
7.4.2 D
SCAN算法 150
7.5 STING算法 151
7.5.1 层次结构 151
7.5.2 参数产生 152
7.5.3 查询类型 153
7.5.4 相关单元和非相关单元 154
7.5.5 STING算法 155
7.6 EM算法 156
7.6.1 隶属概率及新均值计算 156
7.6.2 EM算法 157
7.7 小结 158
习题 158
第8章 分类与预测 160
8.1 分类过程 160
8.2 决策树分类 162
8.2.1 决策树 162
8.2.2 建立决策树 163
8.2.3 提取分类规则 167
8.2.4 对新样本分类 168
8.3 前馈神经网络分类 168
8.3.1 前馈神经网络 168
8.3.2 学习前馈神经网络 170
8.3.3 神经网络分类 173
8.4 贝叶斯分类 174
8.4.1 贝叶斯分类概述 174
8.4.2 朴素贝叶斯分类 176
8.4.3 树增强朴素贝叶斯分类 178
8.5 回归分析 180
8.5.1 一元回归分析 180
8.5.2 多元回归分析 183
8.5.3 非线性回归 185
8.6 小结 186
习题 186
第9章 异常检测 188
9.1 概述 188
9.1.1 异常概念 188
9.1.2 异常的成因 188
9.1.3 异常检测方法 189
9.2 基于距离的异常检测 190
9.2.1 嵌套-循环算法 190
9.2.2 基于单元的算法 192
9.3 基于密度的异常检测 197
9.3.1 相关概念 198
9.3.2 基于密度的异常检测算法 199
9.4 基于图的异常检测 200
9.4.1 相关概念 200
9.4.2 测试参数的计算 201
9.4.3 指定路径上的空间异常检测算法 201
9.5 小结 202
习题 202
第10章 空间数据挖掘 204
10.1 空间数据挖掘简介 204
10.1.1 空间数据挖掘的产生 204
10.1.2 空间数据的特点 205
10.1.3 空间数据挖掘的过程 206
10.1.4 空间数据挖掘的分类 206
10.2 空间关联规则挖掘 207
10.2.1 空间关联规则挖掘的相关概念 208
10.2.2 自顶向下,逐步求精的空间关联规则挖掘算法 213
10.3 空间co-location模式挖掘 218
10.3.1 空间co-location模式的基本概念 218
10.3.2 基于完全连接的co-location模式挖掘算法 220
10.4 小结 226
习题 226
第三篇 工具与实例
第11章 数据挖掘工具及可视化 227
11.1 数据挖掘工具简介 227
11.1.1 数据挖掘产品 227
11.1.2 评价数据挖掘产品的标准 230
11.2 Weka 232
11.2.1 Weka Explo
e
233
11.2.2 Expe
imente
241
11.2.3 KnowledgeFlow 244
11.3 数据挖掘的可视化 246
11.3.1 数据挖掘可视化的过程与方法 246
11.3.2 数据挖掘可视化的分类 247
11.3.3 数据挖掘可视化的工具 250
11.4 小结 252
习题 252
第12章 COGNOS介绍 253
12.1 Cognos公司
I主要产品介绍 253
12.1.1 数据查询和即席报表生成工具 254
12.1.2 模型建立工具 258
12.1.3 在线分析处理及展现工具 261
12.2 Cognos应用例子 263
12.2.1 报表的生成 264
12.2.2 Cu
e的构造 267
12.3 小结 270
习题 271
第13章 企业数据仓库系统构建 272
13.1 系统介绍 272
13.1.1 系统建设的背景 272
13.1.2 系统定位和总体结构 272
13.2 系统分析与设计 275
13.2.1 系统需求分析 275
13.2.2 系统模型设计 277
13.2.3 系统的ETL设计 277
13.3 系统实现 278
13.3.1 数据上载 278
13.3.2 立方体聚集和多立方体 284
13.3.3 处理链 285
13.3.4 系统的配置和管理 286
13.4 数据(报表)展示和接口探讨 286
13.4.1 数据(报表)的展示 287
13.4.2 SAP
W数据仓库接口程序的开发和实现 291
13.5 小结 293
习题 293
主要参考文献 295
第1章 数据仓库基本概念 1
1.1 从数据库到数据仓库 1
1.1.1 蜘蛛网问题 1
1.1.2 事务处理和分析处理数据环境的分离 4
1.2 什么是数据仓库 5
1.2.1 面向主题 6
1.2.2 集成 7
1.2.3 稳定性 7
1.2.4 随时间而变化 8
1.3 数据仓库与传统数据库的比较 8
1.3.1 两个系统的主要区别 8
1.3.2 两个系统的查询支持不同 9
1.3.3 两个系统数据组织模式示例比较 10
1.4 数据仓库的系统结构 11
1.4.1 三层数据仓库结构 11
1.4.2 数据仓库中的关键名词 12
1.5 数据仓库的数据组织 15
1.5.1 数据仓库的数据组织结构 15
1.5.2 数据粒度与数据分割 16
1.5.3 数据仓库的数据组织形式 17
1.5.4 数据仓库的数据追加和清理 19
1.6 小结 20
习题 20
第2章 数据仓库中的ETL和元数据 21
2.1 ETL 21
2.1.1 ETL概念 21
2.1.2 ETL作用 25
2.1.3 ETL工具 25
2.2 元数据 28
2.2.1 什么是元数据 28
2.2.2 元数据的标准化 31
2.2.3 数据仓库中的元数据管理 33
2.2.4 在数据仓库项目中使用元数据的建议 34
2.3 外部数据 35
2.3.1 外部数据和非结构化数据 35
2.3.2 元数据和外部数据 36
2.3.3 外部数据的存储 37
2.3.4 外部数据的管理 37
2.4 小结 37
习题 37
第3章 数据仓库模型设计及数据仓库建立 38
3.1 数据仓库的概念模型设计 38
3.1.1 E-
模型 38
3.1.2 面向对象的分析方法 40
3.2 数据仓库的逻辑模型设计 42
3.2.1 分析主题,确定当前要装载的主题 43
3.2.2 确定数据粒度的选择 43
3.2.3 确定数据分割策略 46
3.2.4 增加导出字段 47
3.2.5 定义关系模式 47
3.2.6 定义记录系统 48
3.3 数据仓库的物理模型设计 48
3.3.1 索引策略 48
3.3.2 数据存储策略 52
3.4 数据仓库的建立过程 54
3.4.1 需求分析 55
3.4.2 数据路线 55
3.4.3 技术路线 55
3.4.4 应用路线 56
3.4.5 数据仓库部署 57
3.4.6 运行维护 58
3.5 提高数据仓库性能 58
3.6 小结 60
习题 60
第4章 联机分析处理 62
4.1 OLAP概念 62
4.1.1 什么是OLAP 62
4.1.2 OLAP的相关基本概念 63
4.1.3 OLAP和OLTP的区别 64
4.1.4 OLAP和数据仓库的区别 65
4.2 OLAP的基本操作 65
4.2.1 数据切片 65
4.2.2 数据切块 66
4.2.3 数据上探
下钻 67
4.2.4 数据旋转 67
4.2.5 其他OLAP操作 68
4.3 OLAP的数据模型 68
4.3.1 什么是数据立方体 69
4.3.2 多维数据模型的存在形式 71
4.4 OLAP分类和服务器类型 75
4.4.1 OLAP的分类 75
4.4.2 OLAP的三层客户
服务器结构 76
4.4.3
OLAP服务器 76
4.4.4 MOLAP服务器 77
4.4.5 HOLAP服务器 77
4.5 基于多维数据库的OLAP(MOLAP) 78
4.5.1 多维数据库 78
4.5.2 维的分类 79
4.5.3 多维数据库存储 80
4.6 基于关系数据库的OLAP(
OLAP) 81
4.6.1 维表和事实表 81
4.6.2
OLAP与MOLAP比较 84
4.7 OLAP实现 86
4.7.1 数据立方体的有效计算 86
4.7.2 索引OLAP数据 87
4.7.3 OLAP查询的有效处理 89
4.7.4 OLAP的前端展现 90
4.8 OLAP的衡量和特性 93
4.8.1 OLAP的12准则 93
4.8.2 OLAP的简洁准则(OLAP的特性) 95
4.9 小结 96
习题 96
第二篇 数据挖掘与空间数据挖掘
第5章 数据挖掘概念与数据预处理 97
5.1 数据挖掘概述 97
5.2 数据挖掘分类 99
5.2.1 概述 99
5.2.2 描述性挖掘 99
5.2.3 预测性挖掘 102
5.3 数据挖掘系统 104
5.3.1 数据挖掘系统的结构 104
5.3.2 数据挖掘系统的设计 105
5.3.3 数据挖掘系统的发展 106
5.4 数据预处理 107
5.4.1 数据清理 107
5.4.2 数据集成 108
5.4.3 数据变换 109
5.4.4 数据归约 110
5.4.5 属性概念分层的自动生成 112
5.5 数据挖掘与数据仓库 114
5.6 数据挖掘的应用和发展 115
5.6.1 数据挖掘的应用 115
5.6.2 数据挖掘未来研究方向 117
5.7 小结 118
习题 118
第6章 关联分析 119
6.1 问题定义 120
6.2 Ap
io
i算法 121
6.2.1 频繁项集产生 121
6.2.2 规则产生 125
6.2.3 Ap
io
i算法 127
6.3 频繁项集的紧凑表示 129
6.3.1 最大频繁项集 129
6.3.2 频繁闭项集 131
6.4 FP-g
owth算法 133
6.4.1 FP树构造 134
6.4.2 频繁项集产生 135
6.4.3 FP-g
owth算法 136
6.5 小结 137
习题 138
第7章 聚类分析 139
7.1 概述 139
7.1.1 聚类概念 139
7.1.2 相似性测度 139
7.1.3 聚类过程 140
7.1.4 聚类算法的分类 141
7.2 k均值算法 143
7.2.1 误差平方和准则 143
7.2.2 k均值算法 143
7.3
I
CH算法 145
7.3.1 聚类特征 145
7.3.2 CF树 146
7.3.3 CF树的构造 146
7.3.4
I
CH算法 147
7.4 D
SCAN算法 147
7.4.1 相关概念 147
7.4.2 D
SCAN算法 150
7.5 STING算法 151
7.5.1 层次结构 151
7.5.2 参数产生 152
7.5.3 查询类型 153
7.5.4 相关单元和非相关单元 154
7.5.5 STING算法 155
7.6 EM算法 156
7.6.1 隶属概率及新均值计算 156
7.6.2 EM算法 157
7.7 小结 158
习题 158
第8章 分类与预测 160
8.1 分类过程 160
8.2 决策树分类 162
8.2.1 决策树 162
8.2.2 建立决策树 163
8.2.3 提取分类规则 167
8.2.4 对新样本分类 168
8.3 前馈神经网络分类 168
8.3.1 前馈神经网络 168
8.3.2 学习前馈神经网络 170
8.3.3 神经网络分类 173
8.4 贝叶斯分类 174
8.4.1 贝叶斯分类概述 174
8.4.2 朴素贝叶斯分类 176
8.4.3 树增强朴素贝叶斯分类 178
8.5 回归分析 180
8.5.1 一元回归分析 180
8.5.2 多元回归分析 183
8.5.3 非线性回归 185
8.6 小结 186
习题 186
第9章 异常检测 188
9.1 概述 188
9.1.1 异常概念 188
9.1.2 异常的成因 188
9.1.3 异常检测方法 189
9.2 基于距离的异常检测 190
9.2.1 嵌套-循环算法 190
9.2.2 基于单元的算法 192
9.3 基于密度的异常检测 197
9.3.1 相关概念 198
9.3.2 基于密度的异常检测算法 199
9.4 基于图的异常检测 200
9.4.1 相关概念 200
9.4.2 测试参数的计算 201
9.4.3 指定路径上的空间异常检测算法 201
9.5 小结 202
习题 202
第10章 空间数据挖掘 204
10.1 空间数据挖掘简介 204
10.1.1 空间数据挖掘的产生 204
10.1.2 空间数据的特点 205
10.1.3 空间数据挖掘的过程 206
10.1.4 空间数据挖掘的分类 206
10.2 空间关联规则挖掘 207
10.2.1 空间关联规则挖掘的相关概念 208
10.2.2 自顶向下,逐步求精的空间关联规则挖掘算法 213
10.3 空间co-location模式挖掘 218
10.3.1 空间co-location模式的基本概念 218
10.3.2 基于完全连接的co-location模式挖掘算法 220
10.4 小结 226
习题 226
第三篇 工具与实例
第11章 数据挖掘工具及可视化 227
11.1 数据挖掘工具简介 227
11.1.1 数据挖掘产品 227
11.1.2 评价数据挖掘产品的标准 230
11.2 Weka 232
11.2.1 Weka Explo
e
233
11.2.2 Expe
imente
241
11.2.3 KnowledgeFlow 244
11.3 数据挖掘的可视化 246
11.3.1 数据挖掘可视化的过程与方法 246
11.3.2 数据挖掘可视化的分类 247
11.3.3 数据挖掘可视化的工具 250
11.4 小结 252
习题 252
第12章 COGNOS介绍 253
12.1 Cognos公司
I主要产品介绍 253
12.1.1 数据查询和即席报表生成工具 254
12.1.2 模型建立工具 258
12.1.3 在线分析处理及展现工具 261
12.2 Cognos应用例子 263
12.2.1 报表的生成 264
12.2.2 Cu
e的构造 267
12.3 小结 270
习题 271
第13章 企业数据仓库系统构建 272
13.1 系统介绍 272
13.1.1 系统建设的背景 272
13.1.2 系统定位和总体结构 272
13.2 系统分析与设计 275
13.2.1 系统需求分析 275
13.2.2 系统模型设计 277
13.2.3 系统的ETL设计 277
13.3 系统实现 278
13.3.1 数据上载 278
13.3.2 立方体聚集和多立方体 284
13.3.3 处理链 285
13.3.4 系统的配置和管理 286
13.4 数据(报表)展示和接口探讨 286
13.4.1 数据(报表)的展示 287
13.4.2 SAP
W数据仓库接口程序的开发和实现 291
13.5 小结 293
习题 293
主要参考文献 295