注册 登录 进入教材巡展
#
  • #

出版时间:2015-01

出版社:清华大学出版社

以下为《数据挖掘十大算法》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302310617
  • 1-3
  • 145902
  • 16开
  • 2015-01
  • 工学
  • 软件工程
  • TP311.13
  • 计算机
内容简介
数据挖掘这一学科近年来发展十分迅速,不仅产生了大量不同类型的挖掘算法,而且也表现出与机器学习等学科深度融合的态势。无论是从事研究的专家学者还是从事应用的开发人员都十分希望能一窥其大略,从而比较准确地把握数据挖掘领域当前的主干技术,并比较全面地了解当前的发展趋势。当前,在市场上流通的数据挖掘方面的著作已经不算少了,主要是两大类: 一类是具有完整体系的教材类图书,一类是面向特定领域的应用型图书。前者主要是服务教学,所以侧重原理、逻辑严谨,但是通常对数据挖掘的前沿介绍比较欠缺。后者往往集中于介绍某一领域的问题和方法,或者是关于某些典型工具的使用方法,其优点在于直观有效,但相对于整个数据挖掘领域其覆盖面偏小。为此,很有必要对整个数据挖掘领域的近期发展和前沿成果进行梳理,而这一类信息往往散见于相关的大量学术期刊和会议文集中,限于视野和精力,任何个人都难以完成这一任务。在此基础上,还需要对当前庞大的数据挖掘知识体系进行恰当的取舍和凝练,这一工作必须依靠该领域的高水平学者。所以,国际数据挖掘社区合众人之力,在2006年推出了The Top Ten Algorithms in Data Mining这一继往开来之作。该书列举了评选出来的十个*影响力的数据挖掘算法: C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes和CART。我们认为该书有其鲜明特色: 第一,立意承前启后,推出的时机恰当。该书的内容涵盖了分类、聚类、统计学习、关联分析和链接分析等重要主题在近年来的发展,这不但对数据挖掘的研究和发展十分重要,也将数据挖掘推动到更大范围的真实应用中,激励更多数据挖掘领域的学者对这些算法的作用和新问题进行深入探索。第二,汇集群体智慧,具有很高权威性。参评人员囊括了历届ACM KDD创新奖和IEEE ICDM研究贡献奖得主这些*学者,以及SIGKDD、ICDM和SDM这三大数据挖掘学术会议的程序委员会的全体委员。此外,还组织了专题会邀请了一百多位领域专家进行开放研讨。第三,执行过程严谨,确保内容高品质。第一阶段是由*学者推荐算法并提供算法名称、简要理由和代表文献这些必要信息,第二阶段用google scholar对每个提名算法进行客观地引用验证和排序,第三个阶段由数据挖掘社区的专家和相关领域的专家进行投票,获得完全一致的结果。最后,邀请资深学者撰写上榜算法的介绍并集结成书。
目录
第1章C4.511.1引言21.2算法描述31.3算法特性61.3.1决策树剪枝61.3.2连续型属性81.3.3缺失值处理81.3.4规则集诱导91.4软件实现101.5示例101.5.1Golf数据集101.5.2Soybean数据集111.6高级主题111.6.1二级存储121.6.2斜决策树121.6.3特征选择121.6.4集成方法121.6.5分类规则131.6.6模型重述131.7习题14参考文献15第2章kmeans182.1引言192.2算法描述192.3可用软件222.4示例232.5高级主题272.6小结282.7习题28参考文献29第3章SVM:支持向量机313.1支持向量分类器323.2支持向量分类器的软间隔优化343.3核技巧353.4理论基础383.5支持向量回归器403.6软件实现413.7当前和未来的研究413.7.1计算效率413.7.2核的选择413.7.3泛化分析423.7.4结构化支持向量机的学习423.8习题43参考文献44第4章Apriori474.1引言484.2算法描述484.2.1挖掘频繁模式和关联规则484.2.2挖掘序列模式524.2.3讨论534.3软件实现544.4示例554.4.1可行示例554.4.2性能评估604.5高级主题614.5.1改进Apriori类型的频繁模式挖掘614.5.2无候选的频繁模式挖掘624.5.3增量式方法634.5.4稠密表示: 闭合模式和最大模式634.5.5量化的关联规则644.5.6其他的重要性/兴趣度度量方法654.5.7类别关联规则664.5.8使用更丰富的形式: 序列、树和图664.6小结674.7习题67参考文献68第5章EM725.1引言735.2算法描述745.3软件实现745.4示例755.4.1例5.1: 多元正态混合755.4.2例5.2: 混合因子分析785.5高级主题805.6习题81参考文献87第6章PageRank906.1引言916.2算法描述926.3一个扩展: TimedPageRank956.4小结966.5习题96参考文献97第7章AdaBoost987.1引言997.2算法描述997.2.1符号定义997.2.2通用推举过程1007.2.3AdaBoost算法1017.3示例1037.3.1异或问题求解1037.3.2真实数据上的性能1047.4实际应用1057.5高级主题1077.5.1理论问题1077.5.2多类别AdaBoost1107.5.3其他高级主题1117.6软件实现1117.7习题112参考文献113第8章kNN: k最近邻1158.1引言1168.2算法描述1168.2.1宏观描述1168.2.2若干议题1178.2.3软件实现1188.3示例1188.4高级主题1208.5习题121致谢121参考文献122第9章Naive Bayes1249.1引言1259.2算法描述1259.3独立给力1279.4模型扩展1289.5软件实现1309.6示例1309.6.1例11309.6.2例21329.7高级主题1339.8习题133参考文献134第10章CART:分类和回归树13610.1前身13710.2概述13810.3示例13810.4算法描述14010.5分裂准则14110.6先验概率和类别均衡14210.7缺失值的处理14410.8属性的重要度14510.9动态特征构造14610.10代价敏感学习14710.11停止准则、剪枝、树序列和树选择14710.12概率树14910.13理论基础15010.14CART之后的相关研究15010.15可用软件15110.16习题152参考文献153