注册 登录 进入教材巡展
#
  • #

出版时间:2019-01

出版社:清华大学出版社

以下为《R语言》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302494324
  • 1-4
  • 202584
  • 60237607-1
  • 平装
  • 16开
  • 2019-01
  • 319
  • 工学
  • 计算机科学与技术
  • TM571.61
  • 大数据
  • 高职
内容简介
近年来,R语言可谓是数据分析的热门语言,相关的资料五花八门,让读者难以抉择。本书力求用简洁、精练,以理论与实践相结合的方式让大家快速掌握R语言。全书共14章,第1章为绪论,从数学、统计学和逻辑学3个方面探讨了树立正确数据思维的一些原则;其余各章分为基础篇(第2~10章)、应用篇(第11、12章)和进阶篇(第13、14章)。基础篇按照数据分析过程,主要讨论了R的数据结构、数据导入/导出、数据清洗、数据变换、可视化、高级语言编程和常用建模方法。应用篇通过对2个经典案例的分析,使读者能够把学到的R基础知识应用到解决实际问题,把数据变成价值。进阶篇解决如何用R处理大数据的一些技术。本书可用作培养应用型人才的课程教材,也可作为数据分析爱好者的参考资料。
目录
第1章  绪论1.1  为什么学习R语言 11.1.1  R是什么 11.1.2  R语言主要优势 21.2  正确的数据思维观 41.2.1  数学思维 51.2.2  统计思维 51.2.3  逻辑思维 10习题 12基础篇第2章  R语言入门2.1  新手上路 172.1.1  两个例子 172.1.2  R是什么 192.2  R语言开发环境部署 192.2.1  安装R 192.2.2  安装RStudio 202.3  获取帮助 222.3.1  文档和搜索 222.3.2  演示 222.3.3  帮助函数 232.4  工作空间 232.5  脚本 242.6  R包 25习题 25第3章  数据类型3.1  变量与常量 273.1.1  变量 273.1.2  常量 283.2  结构类型 283.2.1  向量 293.2.2  矩阵 313.2.3  数组 333.2.4  数据框 353.2.5  因子 363.2.6  列表 373.3  字符串操作 383.3.1  基本操作 383.3.2  字符串处理stringr包 393.4  用于数据处理和转换的常用函数 40习题 41第4章  数据准备4.1  数据导入 434.1.1  键盘输入数据 444.1.2  导入文本文件 454.1.3  导入Excel数据 464.1.4  导入数据库文件 474.2  数据导出 484.2.1  导出文本文件 484.2.2  保存图片 49习题 49第5章  数据可视化5.1  低水平绘图命令 515.1.1  点 515.1.2  线 545.1.3  面 565.2  高水平绘图命令 595.2.1  认识ggplot2 595.2.2  几何对象 595.2.3  映射 605.2.4  统计对象 625.2.5  标度 635.2.6  分面 655.2.7  其他修饰 675.3  交互式绘图命令 695.3.1  rCharts包 695.3.2  plotly包 705.3.3  shiny 72习题 80第6章  数据探索6.1  缺失值分析 826.1.1  与缺失值相关的几个概念 826.1.2  缺失值检测 836.2  异常值分析 846.2.1  箱线图检验离群点 856.2.2  散点图检测离群点 866.2.3  LOF方法检测异常值 876.2.4  聚类方法检测异常值 876.3  不一致值分析 886.4  数据的统计特征分析 886.4.1  分布分析 886.4.2  对比分析 906.4.3  统计量分析 916.4.4  周期性分析 936.4.5  相关性分析 94习题 97第7章  数据变换7.1  数据清洗 1007.1.1  缺失数据处理 1007.1.2  数据去重 1017.1.3  规范化 1027.2  数据选择 1037.2.1  删除有75%以上相同数值的自变量 1037.2.2  删除高相关性的自变量 1047.2.3  重要变量的选择 1057.2.4  数据集选择 1067.2.5  主成分分析 1067.2.6  因子分析 1087.3  数据集成 1097.3.1  通过向量化重构数据 1097.3.2  为数据添加新变量 1107.3.3  数据透视表 1127.3.4  频度 1177.3.5  数据整合 1187.3.6  分组汇总 121习题 124第8章  高级编程8.1  控制结构 1268.1.1  选择结构程序设计 1268.1.2  循环结构程序设计 1278.2  用户自定义函数 128习题 129第9章  数据建模9.1  Rattle包 1329.2  聚类模型 1399.2.1  背景 1399.2.2  K-Means聚类 1399.2.3  Ewkm聚类 1429.2.4  层次聚类(Hierachical) 1449.2.5  双向聚类(BiCluster) 1469.3  关联分析模型 1479.3.1  背景 1479.3.2  基本术语 1489.3.3  关联规则的分类 1499.3.4  Apriori算法 1509.3.5  实验指导 1519.4  传统决策树模型 1539.4.1  背景 1539.4.2  ID3算法 1559.4.3  C4.5算法 1569.4.4  实验指导 1569.5  随机森林决策树模型 1599.5.1  背景 1599.5.2  随机森林算法 1599.5.3  实验指导 1619.6  自适应选择决策树模型 1649.6.1  背景 1649.6.2  Boosting算法 1649.6.3  adaboost算法 1659.6.4  实验指导 1659.7  SVM 1699.7.1  背景 1699.7.2  SVM算法 1699.7.3  实验指导 1729.8  线性回归模型 1739.8.1  背景 1739.8.2  一元线性回归方法 1739.8.3  实验指导 1759.9  神经网络模型 1759.9.1  背景 1759.9.2  人工神经网络模型 1769.9.3  实验指导 179习题 181第10章  模型评估10.1  数据集 18510.2  混淆矩阵 18610.2.1  二分类混淆矩阵 18610.2.2  模型评价指标 18710.2.3  多分类混淆矩阵 18810.3  风险图 18810.3.1  风险图的作用 18810.3.2  实验指导 18910.4  ROC曲线 19110.4.1  什么是ROC曲线 19110.4.2  ROC曲线作用 19110.4.3  实验指导 191习题 193应用篇第11章  影响大学平均录取分数线因素分析11.1  背景与目标 19711.2  数据说明 19711.3  描述性分析 20011.4  总结与建议 203第12章  收视率分析12.1  背景介绍 20412.2  数据说明 20412.3  描述性分析 20512.4  总结与建议 211进阶篇第13章  RHadoop13.1  认识RHadoop 21513.1.1  为什么要让Hadoop结合R语言 21513.1.2  Mahout与R在做数据挖掘的区别 21613.2  RHadoop安装 21613.2.1  依赖包安装 21613.2.2  RHadoop的特点 21913.3  综合练习 220习题 225第14章  SparkR14.1  认识SparkR 22814.1.1  安装SparkR 22814.1.2  在R或Rstudio中调用SparkR 22814.2  SparkDataFrame 22914.3  SparkR支持的机器学习算法 23014.4  综合练习 23014.4.1  加载数据 23014.4.2  SparkDataFrame基本操作 23114.4.3  从Spark上运行SQL查询 23314.4.4  SparkR操作hdfs上的文件 23314.4.5  通过SparkR操作spark-sql以hive的表为对象 234习题 234参考文献附录  大数据和人工智能实验环境