文本挖掘中若干核心技术研究
¥48.00定价
作者: 朱颢东 著
出版时间:2017-03-01
出版社:北京理工大学出版社
- 北京理工大学出版社
- 9787568205061
- 1
- 385776
- 平装
- 16开
- 2017-03-01
- 120
- TP274
作者简介
内容简介
本书以文本数据为研究对象,对文本挖掘中的若干核心技术进行研究,主要包括文本特征选择、文本分类、文本聚类、文本关联分析,其研究内容和创新点如下:
(1)文本特征选择:首先系统地分析了常用的文本特征选择方法,总结了它们的不足;然后提出了优化的文档频、文本特征辨别能力、类内集中度等概念;紧接着,在此基础上给出了三种新的文本特征选择方法:①基于综合启发式的文本特征选择方法;②基于差别对象对集的文本特征选择方法;③基于二进制可辨矩阵的文本特征选择方法。实验结果表明:在微平均F1和宏平均F1方面,这三种方法比三种经典的文本特征选择方法“互信息”和“统计量”以及“信息增益”都要好,并且前一个方法优于后两个方法。
(2)文本分类:首先对文本分类所涉及的各项技术进行了阐述;然后把粗糙集用于文本分类;紧接着提出了基于辨识集的属性约简算法和基于规则综合质量的属性值约简算法,并将其应用到文本分类规则的提取中。实验结果表明,其生成的规则属性较少,分类准确率和召回率都较高。
针对传统ID3算法倾向于选择取值较多的属性的缺点,首先引进属性重要性来改进ID3算法,然后又进一步根据ID3算法中信息增益的计算特点,利用凸函数的性质来简化ID3算法,从而减少了信息增益的计算量,进而提高ID3 算法中信息增益的计算效率。实验证明,优化的ID3 算法与原ID3 算法相比,在构造决策树时具有较高的准确率和更快的计算速度,并且构造的决策树还具有较少的平均叶子数。
(3)文本聚类:通过对K-Means算法仔细分析,发现该算法会因初始聚类中心的随机性而产生波动较大的聚类结果。为解决这个问题,本书改进了模拟退火算法并用它来优选初始聚类中心,从而得到一种适合于文本数据的聚类算法。该算法把改进的模拟退火算法和K-Means算法结合在一起,从而达到既能发挥模拟退火算法的全局寻优能力,又可以兼顾K-Means的局部寻优能力,较好地克服了K-Means算法对初始聚类中心敏感、容易陷入局部最优的缺点。实验表明该算法不但生成的聚类结果质量较高,而且其波动性还较小。
由于缺乏类信息,使得无监督文本特征选择问题一直很难较好地被加以解决。为此,本书对该问题进行了研究并提出了两种新的无监督文本特征选择方法:①结合文档频和K-Means的无监督文本特征选择方法。该方法主要是把有监督文本特征选择的思想引入到无监督文本特征选择之中,克服了聚类时缺乏类的先验知识的不足,能够较好地解决无监督文本特征选择的问题;②结合新型无监督文档频和基于论域划分的无决策属性的决策表约简算法的无监督文本特征选择。该方法不但在一定程度上能够解决无监督文本特征选择问题,而且还进一步扩展了粗糙集理论的应用范围。
(4)文本关联分析:最频繁项集挖掘是文本关联分析中研究的重点和难点,它决定了文本关联分析算法的性能。本书首先分析了当前在最频繁项集挖掘方面的不足;然后改进了传统的倒排表;紧接着结合最小支持度阈值动态调整策略,提出了一个新的基于改进倒排表和集合理论的Top-N最频繁项集挖掘算法;最后对所提算法进行验证。另外,还给出了几个命题和推论并把它们用于所提算法以提高性能。实验结果表明,所提算法的规则有效率和时间性能比常用的两个Top-N最频繁项集挖掘算法:NApriori算法,IntvMatrix算法都好。
(1)文本特征选择:首先系统地分析了常用的文本特征选择方法,总结了它们的不足;然后提出了优化的文档频、文本特征辨别能力、类内集中度等概念;紧接着,在此基础上给出了三种新的文本特征选择方法:①基于综合启发式的文本特征选择方法;②基于差别对象对集的文本特征选择方法;③基于二进制可辨矩阵的文本特征选择方法。实验结果表明:在微平均F1和宏平均F1方面,这三种方法比三种经典的文本特征选择方法“互信息”和“统计量”以及“信息增益”都要好,并且前一个方法优于后两个方法。
(2)文本分类:首先对文本分类所涉及的各项技术进行了阐述;然后把粗糙集用于文本分类;紧接着提出了基于辨识集的属性约简算法和基于规则综合质量的属性值约简算法,并将其应用到文本分类规则的提取中。实验结果表明,其生成的规则属性较少,分类准确率和召回率都较高。
针对传统ID3算法倾向于选择取值较多的属性的缺点,首先引进属性重要性来改进ID3算法,然后又进一步根据ID3算法中信息增益的计算特点,利用凸函数的性质来简化ID3算法,从而减少了信息增益的计算量,进而提高ID3 算法中信息增益的计算效率。实验证明,优化的ID3 算法与原ID3 算法相比,在构造决策树时具有较高的准确率和更快的计算速度,并且构造的决策树还具有较少的平均叶子数。
(3)文本聚类:通过对K-Means算法仔细分析,发现该算法会因初始聚类中心的随机性而产生波动较大的聚类结果。为解决这个问题,本书改进了模拟退火算法并用它来优选初始聚类中心,从而得到一种适合于文本数据的聚类算法。该算法把改进的模拟退火算法和K-Means算法结合在一起,从而达到既能发挥模拟退火算法的全局寻优能力,又可以兼顾K-Means的局部寻优能力,较好地克服了K-Means算法对初始聚类中心敏感、容易陷入局部最优的缺点。实验表明该算法不但生成的聚类结果质量较高,而且其波动性还较小。
由于缺乏类信息,使得无监督文本特征选择问题一直很难较好地被加以解决。为此,本书对该问题进行了研究并提出了两种新的无监督文本特征选择方法:①结合文档频和K-Means的无监督文本特征选择方法。该方法主要是把有监督文本特征选择的思想引入到无监督文本特征选择之中,克服了聚类时缺乏类的先验知识的不足,能够较好地解决无监督文本特征选择的问题;②结合新型无监督文档频和基于论域划分的无决策属性的决策表约简算法的无监督文本特征选择。该方法不但在一定程度上能够解决无监督文本特征选择问题,而且还进一步扩展了粗糙集理论的应用范围。
(4)文本关联分析:最频繁项集挖掘是文本关联分析中研究的重点和难点,它决定了文本关联分析算法的性能。本书首先分析了当前在最频繁项集挖掘方面的不足;然后改进了传统的倒排表;紧接着结合最小支持度阈值动态调整策略,提出了一个新的基于改进倒排表和集合理论的Top-N最频繁项集挖掘算法;最后对所提算法进行验证。另外,还给出了几个命题和推论并把它们用于所提算法以提高性能。实验结果表明,所提算法的规则有效率和时间性能比常用的两个Top-N最频繁项集挖掘算法:NApriori算法,IntvMatrix算法都好。