注册 登录 进入教材巡展
#
  • #

出版时间:2020-08

出版社:西安电子科技大学出版社

以下为《R语言数据分析与挖掘(高职)》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 西安电子科技大学出版社
  • 9787560657905
  • 1版
  • 349596
  • 平装
  • 短16开
  • 2020-08
  • 203
  • 176
  • TP312
  • 综合图书
内容简介
现在,越来越多的人考虑引入大数据技术来促进公司产品的销售以获得更多的利润。而学习算法能让商务活动及其发展过程的预测摆脱人脑计算能力的局限,并且能提高数据模型的预测精确度,使得大数据的分析处理在依托计算机的大规模计算能力下得以完成。
当前数据分析最常用的工具就是R语言,本书深入浅出地介绍了利用R语言进行数据分析及构建预测模型的多种实用方法,包括回归、聚类、关联和分类分析等常用学习算法的实现,每一种算法都通过具体案例详细说明构建模型、实现模型以及评价模型的过程。本书还系统讲解了相关的R语言的基础知识,包括环境准备以及数据转换、分析和结果可视化的方法等。
本书融合了作者十几年来利用数据分析算法来实现数据挖掘与分析的诸多心得,书中所有的源代码和实验数据以及习题和答案在出版社网站上都可以免费下载。阅读完本书并亲自动手完成书中所有算法案例后,读者对数据分析将会有更深入的了解。
本书既可以作为相关专业数据分析类课程的教材,也可以作为大数据网络培训或技术人员自学的参考资料。
目录
第1章 初识数据分析与R语言 1
1.1 软件下载与安装 1
1.1.1 下载和安装 1
1.1.2 下载和安装RStudio 3
1.2 包的安装和加载 5
1.3 应用R实现数据操作 6
1.3.1 数据读写 6
1.3.2 数据基本操作 8
1.3.3 应用简单统计 11
1.3.4 数据可视化 14
习 题 17


第2章 回归分析 18
2.1 简单线性回归分析 18
2.1.1 调用lm函数构建简单线性回归模型 18
2.1.2 输出线性模型的特征信息 20
2.1.3 使用线性回归模型预测未知数 21
2.1.4 生成模型的诊断图 22
2.2 多项式回归分析 23
2.2.1 利用lm函数生成多项式回归模型 23
2.2.2 调用rlm函数生成稳健线性回归模型 25
2.3 在SLID数据集上研究线性回归案例 27
习题 33


第3章 关联分析 35
3.1 关联分析的准备工作 35
3.1.1 将数据转换成事务数据 35
3.1.2 展示事务及其关联 37
3.2 Apriori规则 39
3.2.1 使用Apriori规则完成关联挖掘 39
3.2.2 去掉冗余规则 42
3.3 关联规则可视化 43
3.4 Eclat挖掘 45
3.4.1 使用Eclat挖掘频繁项集 45
3.4.2 生成时态事务数据 47
3.5 使用cSPADE挖掘频繁时序模式 49
习题 52
第4章 聚类分析 53
4.1 层次聚类 53
4.1.1 使用层次聚类处理数据 53
4.1.2 将树分成簇 56
4.2 k均值聚类 57
4.2.1 使用k均值方法处理数据 57
4.2.2 绘制二元聚类图 59
4.3 聚类算法比较 61
4.4 聚类效果评估 62
4.4.1 从簇中抽取轮廓信息 62
4.4.2 获得优化的k值聚类 64
4.5 使用密度聚类方法处理数据 65
习题 68


第5章 决策树 69
5.1 准备训练和测试数据集 69
5.2 递归决策树 71
5.3 递归决策树可视化 73
5.4 评测递归分割树的预测能力 74
5.5 递归分割树剪枝 76
5.6 使用条件推理树建立分类模型 78
5.7 条件推理树可视化 79
5.8 评测条件推理树的预测能力 80
习题 82


第6章 神经网络与支持向量机 83
6.1 支持向量机 83
6.1.1 使用支持向量机完成数据分类 83
6.1.2 选择支持向量机的惩罚因子 85
6.1.3 实现SVM模型的可视化 87
6.1.4 基于支持向量机训练模型实现类预测 89
6.1.5 调整支持向量机 90
6.2 神经网络 93
6.2.1 利用neuralnet包训练神经网络模型 93
6.2.2 可视化由neuralnet包得到的神经网络模型 96
6.2.3 基于neuralnet包得到的模型实现类标号预测 97
6.2.4 利用nnet包训练神经网络模型 99
6.2.5 基于nnet包得到的模型实现类标号预测 101
习题 102

第7章 模型评估 103
7.1 k折交叉验证 103
7.1.1 基于k折交叉验证方法评测模型性能 103
7.1.2 利用e1071包完成交叉验证 104
7.1.3 利用caret包完成交叉检验 106
7.2 变量重要性排序 107
7.2.1 利用caret包对变量重要性程度排序 107
7.2.2 利用rminer包对变量重要程度排序 109
7.3 特征选择 110
7.3.1 利用caret包找到高度关联的特征 110
7.3.2 利用caret包选择特征 111
7.4 模型的性能评估 115
7.4.1 评测回归模型的性能 115
7.4.2 利用混淆矩阵评测模型的预测能力 118
7.4.3 利用ROCR评测模型的预测能力 119
7.4.4 利用caret包比较ROC曲线 120
7.4.5 利用caret包比较模型性能差异 123
习题 125


附录 习题库 126


参考文献 162