数据仓库与数据挖掘 / 普通高等教育软件工程十二五规划教材
¥39.00定价
作者: 袁汉宁,王树良等
出版时间:2015-07
出版社:人民邮电出版社
- 人民邮电出版社
- 9787115388278
- 1-6
- 107972
- 46212120-3
- 平装
- 16开
- 2015-07
- 338
- 200
- 工学
- 计算机科学与技术
- TP274
- 数据库技术
- 本科
内容简介
由袁汉宁、王树良、程永、金福生、宋红编著的《数据仓库与数据挖掘》将数据视为基础资源,根据软件工程的思想,总结了数据利用的历程,讲述了数据仓库的基础知识和工具,研究了数据挖掘的任务及其挑战,给出了经典的数据挖掘算法,介绍了数据挖掘的产品,剖析了税务数据挖掘的案例,探索了大数据的管理和应用问题。
全书深入浅出,强调基础,注重应用,是软件工程及相关专业的高年级本科生、研究生的理想教材,也可作为相关领域的参考用书。
全书深入浅出,强调基础,注重应用,是软件工程及相关专业的高年级本科生、研究生的理想教材,也可作为相关领域的参考用书。
目录
第1章 数据仓库和数据挖掘概述
1.1 概述
1.1.1 数据仓库和数据挖掘的目标
1.1.2 数据仓库与数据挖掘的发展历程
1.2 数据中心
1.2.1 关系型数据中心
1.2.2 非关系型数据中心
1.2.3 混合型数据中心(大数据平台)
1.3 混合型数据中心参考架构
1.3.1 基础设施层
1.3.2 数据源层
1.3.3 交换服务体系
1.3.4 数据存储区
1.3.5 基础服务层
1.3.6 应用层
1.3.7 用户终端层
1.3.8 数据治理
1.3.9 元数据管理
1.3.10 IT安全运维管理
1.3.11 IT综合监控
1.3.12 企业资产管理
思考题
第2章 数据
2.1 数据的概念
2.2 数据的内容
2.2.1 实时数据与历史数据
2.2.2 事务数据与时态数据
2.2.3 图形数据与图像数据
2.2.4 主题数据与全局数据
2.2.5 空间数据
2.2.6 序列数据和数据流
2.2.7 元数据与数据字典
2.3 数据属性及数据集
2.4 数据特征的统计描述
2.4.1 集中趋势
2.4.2 离散程度
2.4.3 数据的分布形状
2.5 数据的可视化
2.6 数据相似性与相异性的度量
2.7 数据质量
2.8 数据预处理
2.8.1 被污染的数据
2.8.2 数据清理
2.8.3 数据集成
2.8.4 数据变换
2.8.5 数据规约
思考题
第3章 数据仓库与数据ETL基础
3.1 从数据库到数据仓库
3.2 数据仓库的结构
3.2.1 两层体系结构
3.2.2 三层体系结构
3.2.3 组成元素
3.3 数据仓库的数据模型
3.3.1 概念模型
3.3.2 逻辑模型
3.3.3 物理模型
3.4 ETL
3.4.1 数据抽取
3.4.2 数据转换
3.4.3 数据加载
3.5 OLAP
3.5.1 维
3.5.2 OLAP与OLTP
3.5.3 OLAP的基本操作
3.6 OLAP的数据模型
3.6.1 ROLAP
3.6.2 MOLAP
3.6.3 HOLAP
思考题
第4章 数据仓库和ETL工具
4.1 IBMDB2V10
4.1.1 自适应压缩
4.1.2 多温度存储
4.1.3 时间旅行查询
4.1.4 DB2 兼容性功能
4.1.5 工作负载管理
4.1.6 PureXML
4.1.7 当前已落实
4.1.8 DB2 PureScaleFeature
4.1.9 分区特性
4.1.10 并行技术
4.1.11 SQW
4.1.12 CubingServices
4.1.13 列式存储及压缩技术
4.2 InfoSphereDatastage
4.2.1 基于InformationServer的架构
4.2.2 企业级实施和管理
4.2.3 高扩展的体系架构
4.2.4 具备线性扩充能力
4.2.5 ETL元数据管理
4.3 InfoSphereQualityStage
思考题
第5章 数据挖掘基础
5.1 数据挖掘的起源
5.2 数据挖掘的定义
5.3 数据挖掘的任务
5.3.1 分类
5.3.2 回归分析
5.3.3 相关分析
5.3.4 聚类分析
5.3.5 关联规则
5.3.6 异常检测
5.4 数据挖掘标准流程
5.4.1 商业理解
5.4.2 数据理解
5.4.3 数据准备
5.4.4 建立模型
5.4.5 模型评估
5.4.6 发布
5.5 数据挖掘的十大挑战性问题
5.5.1 数据挖掘统一理论的探索
5.5.2 高维数据和高速数据流的研究与应用
5.5.3 时序数据的挖掘与降噪
5.5.4 从复杂数据中寻找复杂知识
5.5.5 网络环境中的数据挖掘
5.5.6 分布式数据挖掘
5.5.7 生物医学和环境科学数据挖掘
5.5.8 数据挖掘过程自动化与可视化
5.5.9 信息安全与隐私保护
5.5.10 动态、不平衡及成本敏感数据的挖掘
思考题
第6章 数据挖掘算法
6.1 算法评估概述
6.1.1 分类算法及评估指标
6.1.2 聚类算法及其评价指标
6.2 C4.5
6.2.1 信息论基础知识
6.2.2 ID3算法
6.2.3 C4.5算法
6.2.4 C4.5算法的实现
6.2.5 C4.5的软件实现
6.3 CART算法
6.3.1 算法介绍
6.3.2 算法描述
6.4 K—Means算法
6.4.1 基础知识
6.4.2 算法描述
6.4.3 算法的软件实现
6.5 SVM算法
6.5.1 线性可分SVM
6.5.2 线性不可分SVM
6.5.3 参数设置
6.5.4 SVM算法的软件实现
6.6 AOIjori算法
6.6.1 基本概念
6.6.2.4priori算法
6.6.3.4priori算法示例
6.6.4.4priori算法的软件实现
6.7 EM算法
6.7.1 算法描述
6.7.2 基于EM的混合高斯聚类
6.7.3 算法的软件实现
6.8 PageRank
6.8.1 PageRank算法发展背景
6.8.2 PageRank算法描述
6.8.3 PageRank算法发展
6.9 Adaboost算法
6.9.1 集成学习
6.9.2.4daboost算法描述
6.9.3.4daboost算法实验
6.10 KNN算法
6.10.1 KNN算法描述
6.10.2 KNN算法的软件实现
6.11 NaiveBayes
6.11.1 基础知识
6.11.2 算法描述
6.11.3 NaiveBayes软件实现
思考题
第7章 数据挖掘工具与产品
7.1 数据挖掘工具概述
7.1.1 发展过程
7.1.2 基本类型
7.1.3 开发者与使用者
7.2 商业数据挖掘工具IBMSPSSModeler
7.2.1 产品概述
7.2.2 可视化数据挖掘
7.2.3 SPSSModeler技术说明
7.2.4 SPSSModeler的数据挖掘应用
7.3 开源数据挖掘工具WEKA
7.3.1 WEKA数据格式
7.3.2 WEKA的使用
思考题
第8章 数据挖掘案例
8.1 概述
8.2 纳税评估示例
8.2.1 纳税评估监控等级预测的方法
8.2.2 构建税务行业数据中心
8.2.3 构建纳税评估监控等级模型
8.3 税收预测建模示例
8.4 税务行业纳税人客户细分探索
8.4.1 客户细分概述
8.4.2 客户细分的主要研究方法
8.4.3 构建客户细分模型
8.5 基于Hadoop平台的数据挖掘
8.5.1 基于IBMSPSSAnalyticServer的数据挖掘
8.5.2 基于R的数据挖掘
思考题
第9章 大数据管理
9.1 什么是大数据
9.2 Hadoop介绍
9.3 NoSQL介绍
9.3.1 CAP定理
9.3.2 一致性
9.3.3.4CID模型
9.3.4 BASE模型
9.3.5 MoreSQL/NewSQL
9.4 InfoSphereBiglnsights3.0介绍
9.4.1 BigSQL3.0
9.4.2 企业集成
9.4.3 GPFS—FPO
9.4.4 IBMAdaptiveMR
9.4.5 BigSheets
9.4.6 高级文本分析
9.4.7 Solr
9.4.8 改进工作负载调度
9.4.9 压缩
思考题
参考文献
1.1 概述
1.1.1 数据仓库和数据挖掘的目标
1.1.2 数据仓库与数据挖掘的发展历程
1.2 数据中心
1.2.1 关系型数据中心
1.2.2 非关系型数据中心
1.2.3 混合型数据中心(大数据平台)
1.3 混合型数据中心参考架构
1.3.1 基础设施层
1.3.2 数据源层
1.3.3 交换服务体系
1.3.4 数据存储区
1.3.5 基础服务层
1.3.6 应用层
1.3.7 用户终端层
1.3.8 数据治理
1.3.9 元数据管理
1.3.10 IT安全运维管理
1.3.11 IT综合监控
1.3.12 企业资产管理
思考题
第2章 数据
2.1 数据的概念
2.2 数据的内容
2.2.1 实时数据与历史数据
2.2.2 事务数据与时态数据
2.2.3 图形数据与图像数据
2.2.4 主题数据与全局数据
2.2.5 空间数据
2.2.6 序列数据和数据流
2.2.7 元数据与数据字典
2.3 数据属性及数据集
2.4 数据特征的统计描述
2.4.1 集中趋势
2.4.2 离散程度
2.4.3 数据的分布形状
2.5 数据的可视化
2.6 数据相似性与相异性的度量
2.7 数据质量
2.8 数据预处理
2.8.1 被污染的数据
2.8.2 数据清理
2.8.3 数据集成
2.8.4 数据变换
2.8.5 数据规约
思考题
第3章 数据仓库与数据ETL基础
3.1 从数据库到数据仓库
3.2 数据仓库的结构
3.2.1 两层体系结构
3.2.2 三层体系结构
3.2.3 组成元素
3.3 数据仓库的数据模型
3.3.1 概念模型
3.3.2 逻辑模型
3.3.3 物理模型
3.4 ETL
3.4.1 数据抽取
3.4.2 数据转换
3.4.3 数据加载
3.5 OLAP
3.5.1 维
3.5.2 OLAP与OLTP
3.5.3 OLAP的基本操作
3.6 OLAP的数据模型
3.6.1 ROLAP
3.6.2 MOLAP
3.6.3 HOLAP
思考题
第4章 数据仓库和ETL工具
4.1 IBMDB2V10
4.1.1 自适应压缩
4.1.2 多温度存储
4.1.3 时间旅行查询
4.1.4 DB2 兼容性功能
4.1.5 工作负载管理
4.1.6 PureXML
4.1.7 当前已落实
4.1.8 DB2 PureScaleFeature
4.1.9 分区特性
4.1.10 并行技术
4.1.11 SQW
4.1.12 CubingServices
4.1.13 列式存储及压缩技术
4.2 InfoSphereDatastage
4.2.1 基于InformationServer的架构
4.2.2 企业级实施和管理
4.2.3 高扩展的体系架构
4.2.4 具备线性扩充能力
4.2.5 ETL元数据管理
4.3 InfoSphereQualityStage
思考题
第5章 数据挖掘基础
5.1 数据挖掘的起源
5.2 数据挖掘的定义
5.3 数据挖掘的任务
5.3.1 分类
5.3.2 回归分析
5.3.3 相关分析
5.3.4 聚类分析
5.3.5 关联规则
5.3.6 异常检测
5.4 数据挖掘标准流程
5.4.1 商业理解
5.4.2 数据理解
5.4.3 数据准备
5.4.4 建立模型
5.4.5 模型评估
5.4.6 发布
5.5 数据挖掘的十大挑战性问题
5.5.1 数据挖掘统一理论的探索
5.5.2 高维数据和高速数据流的研究与应用
5.5.3 时序数据的挖掘与降噪
5.5.4 从复杂数据中寻找复杂知识
5.5.5 网络环境中的数据挖掘
5.5.6 分布式数据挖掘
5.5.7 生物医学和环境科学数据挖掘
5.5.8 数据挖掘过程自动化与可视化
5.5.9 信息安全与隐私保护
5.5.10 动态、不平衡及成本敏感数据的挖掘
思考题
第6章 数据挖掘算法
6.1 算法评估概述
6.1.1 分类算法及评估指标
6.1.2 聚类算法及其评价指标
6.2 C4.5
6.2.1 信息论基础知识
6.2.2 ID3算法
6.2.3 C4.5算法
6.2.4 C4.5算法的实现
6.2.5 C4.5的软件实现
6.3 CART算法
6.3.1 算法介绍
6.3.2 算法描述
6.4 K—Means算法
6.4.1 基础知识
6.4.2 算法描述
6.4.3 算法的软件实现
6.5 SVM算法
6.5.1 线性可分SVM
6.5.2 线性不可分SVM
6.5.3 参数设置
6.5.4 SVM算法的软件实现
6.6 AOIjori算法
6.6.1 基本概念
6.6.2.4priori算法
6.6.3.4priori算法示例
6.6.4.4priori算法的软件实现
6.7 EM算法
6.7.1 算法描述
6.7.2 基于EM的混合高斯聚类
6.7.3 算法的软件实现
6.8 PageRank
6.8.1 PageRank算法发展背景
6.8.2 PageRank算法描述
6.8.3 PageRank算法发展
6.9 Adaboost算法
6.9.1 集成学习
6.9.2.4daboost算法描述
6.9.3.4daboost算法实验
6.10 KNN算法
6.10.1 KNN算法描述
6.10.2 KNN算法的软件实现
6.11 NaiveBayes
6.11.1 基础知识
6.11.2 算法描述
6.11.3 NaiveBayes软件实现
思考题
第7章 数据挖掘工具与产品
7.1 数据挖掘工具概述
7.1.1 发展过程
7.1.2 基本类型
7.1.3 开发者与使用者
7.2 商业数据挖掘工具IBMSPSSModeler
7.2.1 产品概述
7.2.2 可视化数据挖掘
7.2.3 SPSSModeler技术说明
7.2.4 SPSSModeler的数据挖掘应用
7.3 开源数据挖掘工具WEKA
7.3.1 WEKA数据格式
7.3.2 WEKA的使用
思考题
第8章 数据挖掘案例
8.1 概述
8.2 纳税评估示例
8.2.1 纳税评估监控等级预测的方法
8.2.2 构建税务行业数据中心
8.2.3 构建纳税评估监控等级模型
8.3 税收预测建模示例
8.4 税务行业纳税人客户细分探索
8.4.1 客户细分概述
8.4.2 客户细分的主要研究方法
8.4.3 构建客户细分模型
8.5 基于Hadoop平台的数据挖掘
8.5.1 基于IBMSPSSAnalyticServer的数据挖掘
8.5.2 基于R的数据挖掘
思考题
第9章 大数据管理
9.1 什么是大数据
9.2 Hadoop介绍
9.3 NoSQL介绍
9.3.1 CAP定理
9.3.2 一致性
9.3.3.4CID模型
9.3.4 BASE模型
9.3.5 MoreSQL/NewSQL
9.4 InfoSphereBiglnsights3.0介绍
9.4.1 BigSQL3.0
9.4.2 企业集成
9.4.3 GPFS—FPO
9.4.4 IBMAdaptiveMR
9.4.5 BigSheets
9.4.6 高级文本分析
9.4.7 Solr
9.4.8 改进工作负载调度
9.4.9 压缩
思考题
参考文献