- 清华大学出版社
- 9787302405993
- 1-1
- 93044
- 16开
- 2016-01
- 工学
- 计算机科学与技术
- TP274
- 计算机
内容简介
本书阐述了数据流分类问题的基础理论、技术方法以及应用实践,为面向实际数据流开展分类数据挖掘任务提供了理论与实践基础。全书共分四篇12章。第一篇是引言篇,本篇首先简介数据挖掘的相关概念,然后介绍数据流挖掘的相关定义、应用背景及理论基础与技术,最后重点总结数据流分类挖掘的主要研究进展并归纳了存在的关键问题;第二篇是基础篇,本篇主要阐述了分类挖掘任务中常用的模型与技术,为后续数据流分类方法提供技术基础;第三篇是专题篇: 本篇首先总结分析适宜于数据流环境的几种集成模型,并通过两个示例讲解了基于加权集成模型的数据流分类算法的应用。然后详细介绍若干数据流的概念漂移检测与分类方法、不完全标记数据流分类方法以及面向实际应用数据的特征选择方法,并通过在模拟与实际数据上的大量实验考察了这些方法的分类性能;第四篇是实验资源篇,本篇首先介绍数据流分类算法实验工具ETDSv1.0 的功能与用户使用说明,然后归纳总结目前流行的面向数据流环境的实验平台以及在数据流分类任务中常用的数据集。
本书在数据流中概念漂移检测问题、不完全标记问题、特征选择等方面有许多独到见解,总结归纳了近年来在数据流分类任务上的研究成果,并归纳提炼了数据流分类研究任务中存在的重要开放性问题。
本书可作为计算机软件与理论、计算机应用类的研究生教材,也可供对数据流挖掘等领域感兴趣的相关教师、本科生、研究生以及科技工作者参考。另外,本书介绍的相关实验软件平台已开源,可为从事数据流挖掘等方向的科研工作者提供实践与二次开发平台。
本书在数据流中概念漂移检测问题、不完全标记问题、特征选择等方面有许多独到见解,总结归纳了近年来在数据流分类任务上的研究成果,并归纳提炼了数据流分类研究任务中存在的重要开放性问题。
本书可作为计算机软件与理论、计算机应用类的研究生教材,也可供对数据流挖掘等领域感兴趣的相关教师、本科生、研究生以及科技工作者参考。另外,本书介绍的相关实验软件平台已开源,可为从事数据流挖掘等方向的科研工作者提供实践与二次开发平台。
目录
第1章数据挖掘3
1.1KDD定义和过程3
1.2数据挖掘的概念和任务5
1.3数据挖掘中的十大算法6
1.3.1C4.5算法6
1.3.2kMeans算法6
1.3.3SVM算法7
1.3.4Apriori算法8
1.3.5EM算法8
1.3.6PageRank算法9
1.3.7AdaBoost算法9
1.3.8kNN算法10
1.3.9Naive Bayes算法10
1.3.10CART算法11
1.4数据挖掘中的应用热点11
1.5小结12
参考文献13
第2章数据流挖掘15
2.1背景15
2.2数据流的应用领域及定义16
2.3数据流处理的理论基础与挖掘技术17
2.3.1基于数据的方法18
2.3.2基于任务的方法19
2.4数据流挖掘的挑战与任务19
2.4.1传统数据挖掘面临的挑战20
2.4.2数据流挖掘的挑战21
2.4.3数据流的挖掘任务22
2.5小结25目录数据流分类参考文献25
第3章数据流分类的关键研究问题28
3.1引言28
3.2概念描述模型与大纲数据提取问题29
3.2.1概念描述模型29
3.2.2数据流大纲的提取方法与策略30
3.3数据流的概念漂移检测问题31
3.3.1概念漂移的基础知识31
3.3.2概念漂移的处理方法33
3.3.3研究进展35
3.3.4技术方案37
3.4噪音数据流问题38
3.4.1问题描述38
3.4.2研究进展与技术方案39
3.5数据分布不平衡问题39
3.5.1问题描述39
3.5.2不平衡数据分布的处理方法41
3.5.3研究进展44
3.5.4技术方案45
3.6不完全标记数据流分类问题45
3.6.1问题描述45
3.6.2不完全标记数据的处理方法46
3.6.3研究进展47
3.6.4技术方案48
3.7数据流的特征高维稀疏问题50
3.7.1问题描述50
3.7.2研究进展与技术方案50
3.8数据流分类的评价体系51
3.8.1问题描述51
3.8.2概念漂移检测方法的评估指标52
3.8.3数据流分类评估方法52
3.8.4设计方案53
3.9本章小结53
参考文献54基础篇
第4章分类模型与方法65
4.1分类的基本知识65
4.2分类模型的评估方法65
4.3决策树模型66
4.3.1传统的决策树模型66
4.3.2随机决策树模型70
4.4Bayes模型73
4.4.1贝叶斯分类的一般原理73
4.4.2常见的贝叶斯分类模型74
4.5其他分类模型77
4.5.1神经网络77
4.5.2概念格77
4.5.3粗糙集合79
4.6集成方法82
4.6.1集成分类的基本知识82
4.6.2经典的集成分类方法83
参考文献84
第5章特征选择88
5.1研究背景及意义88
5.2特征选择概述90
5.2.1特征选择的相关概念90
5.2.2特征选择的过程91
5.2.3特征选择的分类95
5.3经典特征选择方法概述97
5.3.1Relief方法98
5.3.2信息熵方法98
5.3.3粗糙集合方法99
5.3.4遗传算法100
5.3.5OneR方法101
5.3.6LARS算法102
5.4特征选择面临的挑战104
参考文献104专题篇
第6章数据流的集成分类方法研究111
6.1引言111
6.2数据流分类的集成策略111
6.2.1WE集成方法112
6.2.2AP集成方法113
6.2.3WE与AP混合集成方法113
6.2.4基于WE的混合集成方法114
6.3基于决策树模型的集成分类方法122
6.3.1基于UFFT的集成分类方法123
6.3.2基于随机决策树的集成分类方法130
6.4本章小结148
参考文献149
第7章数据流中概念漂移检测与分类问题研究152
7.1引言152
7.2基于增量式决策树的数据流概念漂移检测与分类方法153
7.2.1CVFDT系列数据流概念漂移检测与分类方法153
7.2.2RDT系列数据流概念漂移检测与分类方法157
7.3面向不同漂移特征的概念漂移数据流分类算法158
7.3.1基于C4.5和Naive Bayes混合模型的概念漂移数据流分类算法158
7.3.2基于变体RDT模型的概念漂移数据流检测与分类方法165
7.3.3CDRDT算法: 一种快速的数据流概念漂移检测与分类算法175
7.3.4基于双层窗口的概念漂移数据流分类算法190
7.4本章小结198
参考文献198
第8章不完全标记数据流分类问题研究205
8.1引言205
8.2不完全标记数据流的处理技术206
8.2.1基于kMeans与增量式决策树的模型207
8.2.2基于kModes与增量式决策树的模型213
8.3不完全标记数据流中的概念漂移检测219
8.3.1研究现状220
8.3.2基于聚类概念簇差异的概念漂移检测机制222
8.3.3实验结果与分析227
8.4不完全标记数据流中的重现概念漂移检测229
8.4.1研究现状229
8.4.2基于聚类概念簇差异的重复再现概念检测机制231
8.4.3实验结果与分析234
8.5算法框架与实验分析237
8.5.1SUN算法框架237
8.5.2SUN算法的实验结果与分析238
8.5.3REDLLA算法框架240
8.5.4REDLLA算法的实验结果与分析241
8.6不完全标记数据流分类任务中的开放性问题245
8.7本章小结246
参考文献246
第9章面向应用数据的特征降维方法研究251
9.1引言251
9.2文本分类中的特征降维252
9.2.1经典文本特征降维算法254
9.2.2基于语义信息的特征降维方法257
9.3基于本体的特征降维算法261
9.3.1相关定义261
9.3.2算法框架263
9.3.3算法技术细节264
9.3.4实验结果与分析266
9.4基于迭代Lasso的肿瘤分类信息基因选择方法278
9.4.1引言278
9.4.2方法 GSIL系统框架280
9.4.3实验结果与分析284
9.4.4小结291
9.5流环境下实时的特征降维方法291
9.5.1引言291
9.5.2IV指标定义293
9.5.3基于IV指标的特征选择方法FSIV296
9.5.4FSIV的实验结果及分析297
9.5.5FSIV在入侵检测数据流中的应用300
9.5.6FSIV在网络交易数据流中的应用303
9.6本章小结305
参考文献306实验资源篇
第10章数据流分类算法实验工具包ETDSv1.0315
10.1引言315
10.2软件的配置、运行与功能316
10.2.1软件的配置与运行316
10.2.2软件功能317
10.3数据生成器318
10.3.1视图界面中数据生成器主菜单319
10.3.2数据库两大生成器菜单功能介绍319
10.4SRMTDS算法322
10.4.1SRMTDS算法参数设定菜单322
10.4.2SRMTDS算法特征数据库读取与算法运行菜单326
10.5SRMTCD(MSRT)算法328
10.5.1SRMTCD(MSRT)算法参数设定菜单328
10.5.2SRMTCD(MSRT)算法特征数据库读取与算法运行菜单331
10.6EDT算法333
10.6.1EDT算法参数设定菜单334
10.6.2EDT算法特征数据库读取与算法运行菜单337
10.7EDTC算法340
10.7.1EDTC算法参数设定菜单340
10.7.2EDTC算法特征数据库读取与算法运行菜单342
10.8CDRDT算法345
10.8.1CDRDT算法参数设定菜单345
10.8.2CDRDT算法特征数据库读取与算法运行菜单347
10.9DWCDS算法349
10.9.1DWCDS算法参数设定菜单349
10.9.2DWCDS算法特征数据库读取与算法运行菜单351说
10.10附录353
10.10.1数据流实验工具算法布局图353
10.10.2数据流分类算法运行流程图353
第11章经典的数据流分类算法实验工具355
11.1VFML355
11.1.1VFDTc算法355
11.1.2CVFDT算法358
11.2MOA364
11.2.1MOA的界面操作365
11.2.2MOA命令行使用方法375
参考文献377
第12章数据流分类算法常用的实验数据集378
12.1非概念漂移数据流378
12.1.1合成数据集378
12.1.2真实数据集378
12.2概念漂移数据集379
12.2.1合成数据集379
12.2.2真实数据集381
参考文献384
1.1KDD定义和过程3
1.2数据挖掘的概念和任务5
1.3数据挖掘中的十大算法6
1.3.1C4.5算法6
1.3.2kMeans算法6
1.3.3SVM算法7
1.3.4Apriori算法8
1.3.5EM算法8
1.3.6PageRank算法9
1.3.7AdaBoost算法9
1.3.8kNN算法10
1.3.9Naive Bayes算法10
1.3.10CART算法11
1.4数据挖掘中的应用热点11
1.5小结12
参考文献13
第2章数据流挖掘15
2.1背景15
2.2数据流的应用领域及定义16
2.3数据流处理的理论基础与挖掘技术17
2.3.1基于数据的方法18
2.3.2基于任务的方法19
2.4数据流挖掘的挑战与任务19
2.4.1传统数据挖掘面临的挑战20
2.4.2数据流挖掘的挑战21
2.4.3数据流的挖掘任务22
2.5小结25目录数据流分类参考文献25
第3章数据流分类的关键研究问题28
3.1引言28
3.2概念描述模型与大纲数据提取问题29
3.2.1概念描述模型29
3.2.2数据流大纲的提取方法与策略30
3.3数据流的概念漂移检测问题31
3.3.1概念漂移的基础知识31
3.3.2概念漂移的处理方法33
3.3.3研究进展35
3.3.4技术方案37
3.4噪音数据流问题38
3.4.1问题描述38
3.4.2研究进展与技术方案39
3.5数据分布不平衡问题39
3.5.1问题描述39
3.5.2不平衡数据分布的处理方法41
3.5.3研究进展44
3.5.4技术方案45
3.6不完全标记数据流分类问题45
3.6.1问题描述45
3.6.2不完全标记数据的处理方法46
3.6.3研究进展47
3.6.4技术方案48
3.7数据流的特征高维稀疏问题50
3.7.1问题描述50
3.7.2研究进展与技术方案50
3.8数据流分类的评价体系51
3.8.1问题描述51
3.8.2概念漂移检测方法的评估指标52
3.8.3数据流分类评估方法52
3.8.4设计方案53
3.9本章小结53
参考文献54基础篇
第4章分类模型与方法65
4.1分类的基本知识65
4.2分类模型的评估方法65
4.3决策树模型66
4.3.1传统的决策树模型66
4.3.2随机决策树模型70
4.4Bayes模型73
4.4.1贝叶斯分类的一般原理73
4.4.2常见的贝叶斯分类模型74
4.5其他分类模型77
4.5.1神经网络77
4.5.2概念格77
4.5.3粗糙集合79
4.6集成方法82
4.6.1集成分类的基本知识82
4.6.2经典的集成分类方法83
参考文献84
第5章特征选择88
5.1研究背景及意义88
5.2特征选择概述90
5.2.1特征选择的相关概念90
5.2.2特征选择的过程91
5.2.3特征选择的分类95
5.3经典特征选择方法概述97
5.3.1Relief方法98
5.3.2信息熵方法98
5.3.3粗糙集合方法99
5.3.4遗传算法100
5.3.5OneR方法101
5.3.6LARS算法102
5.4特征选择面临的挑战104
参考文献104专题篇
第6章数据流的集成分类方法研究111
6.1引言111
6.2数据流分类的集成策略111
6.2.1WE集成方法112
6.2.2AP集成方法113
6.2.3WE与AP混合集成方法113
6.2.4基于WE的混合集成方法114
6.3基于决策树模型的集成分类方法122
6.3.1基于UFFT的集成分类方法123
6.3.2基于随机决策树的集成分类方法130
6.4本章小结148
参考文献149
第7章数据流中概念漂移检测与分类问题研究152
7.1引言152
7.2基于增量式决策树的数据流概念漂移检测与分类方法153
7.2.1CVFDT系列数据流概念漂移检测与分类方法153
7.2.2RDT系列数据流概念漂移检测与分类方法157
7.3面向不同漂移特征的概念漂移数据流分类算法158
7.3.1基于C4.5和Naive Bayes混合模型的概念漂移数据流分类算法158
7.3.2基于变体RDT模型的概念漂移数据流检测与分类方法165
7.3.3CDRDT算法: 一种快速的数据流概念漂移检测与分类算法175
7.3.4基于双层窗口的概念漂移数据流分类算法190
7.4本章小结198
参考文献198
第8章不完全标记数据流分类问题研究205
8.1引言205
8.2不完全标记数据流的处理技术206
8.2.1基于kMeans与增量式决策树的模型207
8.2.2基于kModes与增量式决策树的模型213
8.3不完全标记数据流中的概念漂移检测219
8.3.1研究现状220
8.3.2基于聚类概念簇差异的概念漂移检测机制222
8.3.3实验结果与分析227
8.4不完全标记数据流中的重现概念漂移检测229
8.4.1研究现状229
8.4.2基于聚类概念簇差异的重复再现概念检测机制231
8.4.3实验结果与分析234
8.5算法框架与实验分析237
8.5.1SUN算法框架237
8.5.2SUN算法的实验结果与分析238
8.5.3REDLLA算法框架240
8.5.4REDLLA算法的实验结果与分析241
8.6不完全标记数据流分类任务中的开放性问题245
8.7本章小结246
参考文献246
第9章面向应用数据的特征降维方法研究251
9.1引言251
9.2文本分类中的特征降维252
9.2.1经典文本特征降维算法254
9.2.2基于语义信息的特征降维方法257
9.3基于本体的特征降维算法261
9.3.1相关定义261
9.3.2算法框架263
9.3.3算法技术细节264
9.3.4实验结果与分析266
9.4基于迭代Lasso的肿瘤分类信息基因选择方法278
9.4.1引言278
9.4.2方法 GSIL系统框架280
9.4.3实验结果与分析284
9.4.4小结291
9.5流环境下实时的特征降维方法291
9.5.1引言291
9.5.2IV指标定义293
9.5.3基于IV指标的特征选择方法FSIV296
9.5.4FSIV的实验结果及分析297
9.5.5FSIV在入侵检测数据流中的应用300
9.5.6FSIV在网络交易数据流中的应用303
9.6本章小结305
参考文献306实验资源篇
第10章数据流分类算法实验工具包ETDSv1.0315
10.1引言315
10.2软件的配置、运行与功能316
10.2.1软件的配置与运行316
10.2.2软件功能317
10.3数据生成器318
10.3.1视图界面中数据生成器主菜单319
10.3.2数据库两大生成器菜单功能介绍319
10.4SRMTDS算法322
10.4.1SRMTDS算法参数设定菜单322
10.4.2SRMTDS算法特征数据库读取与算法运行菜单326
10.5SRMTCD(MSRT)算法328
10.5.1SRMTCD(MSRT)算法参数设定菜单328
10.5.2SRMTCD(MSRT)算法特征数据库读取与算法运行菜单331
10.6EDT算法333
10.6.1EDT算法参数设定菜单334
10.6.2EDT算法特征数据库读取与算法运行菜单337
10.7EDTC算法340
10.7.1EDTC算法参数设定菜单340
10.7.2EDTC算法特征数据库读取与算法运行菜单342
10.8CDRDT算法345
10.8.1CDRDT算法参数设定菜单345
10.8.2CDRDT算法特征数据库读取与算法运行菜单347
10.9DWCDS算法349
10.9.1DWCDS算法参数设定菜单349
10.9.2DWCDS算法特征数据库读取与算法运行菜单351说
10.10附录353
10.10.1数据流实验工具算法布局图353
10.10.2数据流分类算法运行流程图353
第11章经典的数据流分类算法实验工具355
11.1VFML355
11.1.1VFDTc算法355
11.1.2CVFDT算法358
11.2MOA364
11.2.1MOA的界面操作365
11.2.2MOA命令行使用方法375
参考文献377
第12章数据流分类算法常用的实验数据集378
12.1非概念漂移数据流378
12.1.1合成数据集378
12.1.2真实数据集378
12.2概念漂移数据集379
12.2.1合成数据集379
12.2.2真实数据集381
参考文献384