大数据分析:数据挖掘必备算法示例详解
¥39.90定价
作者: 张重生
出版时间:2016-12
出版社:机械工业出版社
- 机械工业出版社
- 9787111555469
- 1-2
- 151245
- 46210246-8
- 2016-12
- 384
- 246
- 工学
- 计算机科学与技术
内容简介
本书详细介绍了大数据分析,尤其是数据分类相关算法的原理及实现细节,并给出了每个算法的编程实例。全书共计21章,内容包括十大数据分类算法、十大从二元分类到多类分类的算法、九大属性选择算法、五大数据选择算法,若干集成学习方法和不均衡数据分类算法,以及大数据分析的平台与技术。
本书可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、软件工程、地理信息系统等专业的研究生和高年级本科生的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
本书可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、软件工程、地理信息系统等专业的研究生和高年级本科生的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
目录
第1章数据分析绪论1.1理解数据中字段的类型是数据分析的重要前提1.2进行数据分析时数据的表示形式1.3数据分类——数据类别的自动识别1.4数据分类问题与回归问题的区别与联系1.5数据分析算法简介1.6交叉验证1.7一个最简单的分类器-K近邻分类器1.8后续章节组织第2章SVM算法2.1算法原理2.2工具包简介2.3实例详解第3章决策树算法3.1信息熵值3.2决策树的构建目标3.3 ID3决策树算法3.4 C4 5决策树算法3.5 CART决策树算法3.6 ID3、C4 5、CART算法的终止条件3.7C4 5算法的参数介绍3.8实例详解第4章随机森林算法4.1算法原理4.2工具包介绍 4.3实例详解第5章梯度提升决策树算法5.1算法原理5.2工具包介绍5.3实例详解第6章AdaBoost算法6.1算法原理6.2工具包介绍6.3实例详解第7章朴素贝叶斯分类器7.1朴素贝叶斯分类的问题定义7.2朴素贝叶斯算法原理7.3一种常见的朴素贝叶斯模型的错误计算方法7.4朴素贝叶斯算法对连续型属性的处理第8章极限学习机器算法8.1算法原理8.2算法参数介绍8.3实例详解第9章逻辑回归算法9.1 Logistic Regression算法流程9.2 Logistic Regression算法原理推导第10章稀疏表示分类算法10.1算法原理10.2 SRC工具包及算法参数介绍10.3 SRC算法实例详解第11章不同数据分类算法性能的大规模实验对比分析11.1为什么要比较不同数据分类算法的性能?11.2不同数据分类算法性能比较的相关工作11.3最新数据分类算法性能的大规模实验对比分析结果11.4结论第12章从二分类到多分类——OVA12.1 OVA 聚合规则的核心思想12.2 MAX聚合规则12.3 DOO聚合规则12.4调用示例第13章从二分类到多分类——OVO13.1 OVO 聚合规则的核心思想13.2 WV聚合规则13.3 VOTE聚合规则13.4 PC聚合规则13.5 PE聚合规则13.6 LVPC聚合规则13.7调用示例第14章从二分类到多分类——ECOC14.1 ECOC的核心思想14.2 ECOC 编码14.3 ECOC 译码14.4 ECOC多类分类调用示例第15章三种从二分类到多分类聚合策略的实验对比分析15.1 OVA策略的实验结果15.2 OVO策略的实验结果15.3 ECOC策略的实验结果第16章多个分类算法的集成方法研究16.1差异性(Diversity)的原理与技术16.2集成学习方法16.3本章小结第17章属性选择算法17.1 fspackage和LibSVM的使用17.2信息增益算法17.3卡方分布算法17.4基于Fisher Score的属性选择算法17.5基于基厄系数的属性选择算法17.6基于T检验的属性选择算法第18章高级属性选择算法18.1线性前向选择算法18.2顺序前向选择算法18.3基于稀疏多项式逻辑回归的属性选择算法18.4 Our——多个属性选择算法的集成策略18.5属性选择算法的大规模实验对比分析第19章数据选择算法19.1衡量不均衡数据分类质量的常用方法19.2 RUS算法19.3 CNN算法19.4 SMOTE算法19.5 ADASYN算法19.6 OSS算法19.7本章小结第20章不均衡数据分类算法及大规模实验分析20.1 C4.5 CS算法20.2使用Random Forests和GBDT进行不均衡数据分类20.3BalanceCascade不均衡数据分类算法20.4其他不均衡数据分类算法及不均衡分类器的集成算法20.5结合属性选择和数据选择的不均衡数据分类实验第21章大数据分析21.1 Spark平台简介21.2基于Ambari的Spark及Spark集群的安装与配置21.3 Ambari集群扩展21.4基于Spark平台的分布式编程示例21.5 MLlib——Spark平台上的机器学习库