文本挖掘技术及其应用 / 厦门大学数据挖掘研究中心系列丛书
¥32.00定价
作者: 谢邦昌,朱建平,李毅
出版时间:2016-03
出版社:厦门大学出版社
- 厦门大学出版社
- 9787561559710
- 1-1
- 206560
- 45232570-7
- 2016-03
- 经济学
- 应用经济学
- TP274
- 大数据
- 本科
内容简介
《文本挖掘技术及其应用》包括四个部分。第一部分包括两章,介绍常用文本挖掘技术,总结基本流程。第二部分共五章,在R软件上详细介绍了文本挖掘,包括R 软件的简介与安装,文本挖掘所需的基本R包,Facebook、微博、Twitter、网页等爬虫技术、数据预处理如断词、字词处理、语料库建立等,资料 分析如关联分析、集群分析、主成份分析和聚类分析。第三部分共两章,在MS SQL Sever上介绍如何实现文本挖掘,第一章是数据预处理技术,包括怎么导入文本数据、建立字词与词向量、建立训练集和测试集,第二章在MS SQL Sever上实现常用的文本数据挖掘方法,并进行图表分析。第四部分为顾问公司和新闻网合作的案例。
目录
第一部分文本挖掘技术第一章 技术介绍1.1 整合文本挖掘与数据挖掘 71.2 基础技术 10第二章 资料分析2.1 挖掘流程 202.1.1 数据分析 212.1.2 基础挖掘 26
第二部分文本挖掘以软件R为例第一章 绪论1.1 什么是Big Data 311.2 数据挖掘 321.3 文字挖掘 331.4 R软件 341.4.1 R简介 341.4.2 R的特色 341.4.3 R的基本安装 351.4.4 包安装 35第二章 基本工具2.1 基本工具 372.1.1 安装rJava包 372.1.2 安装Rwordseg包 372.1.3 安装tm包 382.1.4 安装tmcn包 382.1.5 安装wordcloud、ggplot2、graphics包 382.1.6 安装Rfacebook、Rweibo、Rtwitter包 382.2 社群开放平台权限申请 392.2.1 如何获得Facebook权限 392.2.2 如何获得Weibo权限 46第三章 文字挖掘之爬虫3.1 R Facebook 503.1.1 使用者发文 503.1.2 粉丝者发文 513.1.3所需R包(Rfacebook、fbOAuth、getPage、getPost) 543.2 R Weibo 583.2.1 主题 583.2.2 时间区间 593.2.3 所需R包(XML、Rweibo、ntent) 613.3 R Twitter 643.3.1 关键词 643.3.2 所需R包(devtools、rjson、bit64、httr、twitteR、sink) 663.4 网页爬虫 703.4.1 爬一般网页文字 703.4.2 爬PTT网页文字 743.4.3 所需R包(XML、RCurl) 763.5 SpideR 793.5.1 所需R包 793.5.2 有关爬虫时的注意事项 793.5.3 抓取网页数据的标准作业程序 803.5.4 R IDE的Encoding 803.5.5 读取档案或网页的Encoding 813.5.6 R IDE 开发SpideR 面对Encoding 的解决方案 82第四章 数据预处理4.1 编码处理 834.2 代表性语料库、词库简介 854.3 断词方法 904.4 字词处理 934.5 语料库建立 954.6 正则表达式(Regular Expressions) 98第五章 资料分析5.1 频率 995.2 DTM(TDM) matrix 1005.3 关联分析 1035.4 集群分析 1045.5 主成份分析 1095.6 词云聚类分析 114
第三部分文本挖掘 MS SQL Sever第一章 数据预处理1.1 汇入文档 NGArticles 1201.2 建立NGArticles的辞库 1301.2.1 建立字词 (Dictionary) 1301.2.2 建立词向量 1451.2.3 建立Train Sample和Test Sample 154第二章 资料分析2.1 串联Train Sample、Test Sample和TermVectors 1602.2 建构datamining模型(判定树、类神经网络、罗吉斯回归) 1642.3 图表分析 1732.3.1 各模型之精确度图表分析 1732.3.2 判定树图表分析 1752.3.3 类神经网络图表分析 176
第四部分 TextMining在实务上的应用1.1 创造商机 2051.2 结语 213
第二部分文本挖掘以软件R为例第一章 绪论1.1 什么是Big Data 311.2 数据挖掘 321.3 文字挖掘 331.4 R软件 341.4.1 R简介 341.4.2 R的特色 341.4.3 R的基本安装 351.4.4 包安装 35第二章 基本工具2.1 基本工具 372.1.1 安装rJava包 372.1.2 安装Rwordseg包 372.1.3 安装tm包 382.1.4 安装tmcn包 382.1.5 安装wordcloud、ggplot2、graphics包 382.1.6 安装Rfacebook、Rweibo、Rtwitter包 382.2 社群开放平台权限申请 392.2.1 如何获得Facebook权限 392.2.2 如何获得Weibo权限 46第三章 文字挖掘之爬虫3.1 R Facebook 503.1.1 使用者发文 503.1.2 粉丝者发文 513.1.3所需R包(Rfacebook、fbOAuth、getPage、getPost) 543.2 R Weibo 583.2.1 主题 583.2.2 时间区间 593.2.3 所需R包(XML、Rweibo、ntent) 613.3 R Twitter 643.3.1 关键词 643.3.2 所需R包(devtools、rjson、bit64、httr、twitteR、sink) 663.4 网页爬虫 703.4.1 爬一般网页文字 703.4.2 爬PTT网页文字 743.4.3 所需R包(XML、RCurl) 763.5 SpideR 793.5.1 所需R包 793.5.2 有关爬虫时的注意事项 793.5.3 抓取网页数据的标准作业程序 803.5.4 R IDE的Encoding 803.5.5 读取档案或网页的Encoding 813.5.6 R IDE 开发SpideR 面对Encoding 的解决方案 82第四章 数据预处理4.1 编码处理 834.2 代表性语料库、词库简介 854.3 断词方法 904.4 字词处理 934.5 语料库建立 954.6 正则表达式(Regular Expressions) 98第五章 资料分析5.1 频率 995.2 DTM(TDM) matrix 1005.3 关联分析 1035.4 集群分析 1045.5 主成份分析 1095.6 词云聚类分析 114
第三部分文本挖掘 MS SQL Sever第一章 数据预处理1.1 汇入文档 NGArticles 1201.2 建立NGArticles的辞库 1301.2.1 建立字词 (Dictionary) 1301.2.2 建立词向量 1451.2.3 建立Train Sample和Test Sample 154第二章 资料分析2.1 串联Train Sample、Test Sample和TermVectors 1602.2 建构datamining模型(判定树、类神经网络、罗吉斯回归) 1642.3 图表分析 1732.3.1 各模型之精确度图表分析 1732.3.2 判定树图表分析 1752.3.3 类神经网络图表分析 176
第四部分 TextMining在实务上的应用1.1 创造商机 2051.2 结语 213