数据科学:理论、方法与R语言实践 / 数据科学与工程技术丛书
¥69.00定价
作者: [美]尼娜·朱梅尔(Nina Zumel)等
译者:于戈、鲍玉斌等 译;
出版时间:2016-03
出版社:机械工业出版社
- 机械工业出版社
- 9787111529262
- 1-2
- 41421
- 44177090-6
- 压膜
- 16开
- 2016-03
- 343
- 337
- 工学
- 计算机科学与技术
- TP274
- 计算机
- 本科 研究生(硕士、EMBA、MBA、MPA、博士)
内容简介
本书从实用的角度较为全面地展现了数据科学的主要内容,并结合大量的实际项目案例,利用R语言详细地讲解了数据项目的开发过程和关键技术。本书包括三个部分共11章的内容,主要介绍了数据科学项目的处理过程、选择合适的建模方法,也讨论了bagging算法、随机森林、广义加性模型、核和支持向量机等高级建模方法。此外,还讨论了文档编制和结果部署,以及如何向组织内不同的受众展现项目结果。本书适合作为高等院校高年级本科生和研究生及从事数据管理与分析工程技术人员的主要参考书。
目录
译者序
序言
前言
第一部分 数据科学引论
第1章 数据科学处理过程
1.1 数据科学项目中的角色
1.2 数据科学项目的阶段
1.2.1 制定目标
1.2.2 收集和管理数据
1.2.3 建立模型
1.2.4 模型评价和批判
1.2.5 展现和编制文档
1.2.6 模型部署和维护
1.3 设定预期
1.4 小结
第2章 向R加载数据
2.1 运用文件中的数据
2.1.1 在源自文件或URL的良结构数据上使用
2.1.2 在欠结构数据上使用
2.2 在关系数据库上使用
2.2.1 一个生产规模的示例
2.2.2 从数据库向R系统加载数据
2.2.3 处理PUMS数据
2.3 小结
第3章 探索数据
3.1 使用概要统计方法发现问题
3.2 用图形和可视化方法发现问题
3.2.1 可视化检测单变量的分布
3.2.2 可视化检测两个变量间的关系
3.3 小结
第4章 管理数据
4.1 清洗数据
4.1.1 处理缺失值
4.1.2 数据转换
4.2 为建模和验证采样
4.2.1 测试集和训练集的划分
4.2.2 创建一个样本组列
4.2.3 记录分组
4.2.4 数据溯源
4.3 小结
第二部分 建模方法
第5章 选择和评价模型
5.1 将业务问题映射到机器学习任务
5.1.1 解决分类问题
5.1.2 解决打分问题
5.1.3 目标未知情况下的处理
5.1.4 问题到方法的映射
5.2 模型评价
5.2.1 分类模型的评价
5.2.2 打分模型的评价
5.2.3 概率模型的评价
5.2.4 排名模型的评价
5.2.5 聚类模型的评价
5.3 模型验证
5.3.1 常见的模型问题的识别
5.3.2 模型可靠性的量化
5.3.3 模型质量的保证
5.4 小结
第6章 记忆化方法
6.1 KDD和KDD C
6.2 构建单变量模型
6.2.1 使用类别型特征
6.2.2 使用数值型特征
6.2.3 使用交叉验证估计过拟合的影响
6.3 构建多变量模型
6.3.1 变量选择
6.3.2 使用决策树
6.3.3 使用最近邻方法
6.3.4 使用朴素贝叶斯
6.4 小结
第7章 线性回归与逻辑斯谛回归
7.1 使用线性回归
7.1.1 理解线性回归
7.1.2 构建线性回归模型
7.1.3 预测
7.1.4 发现关系并抽取建议
7.1.5 解读模型概要并刻画系数质量
7.1.6 线性回归要点
7.2 使用逻辑斯谛回归
7.2.1 理解逻辑斯谛回归
7.2.2 构建逻辑斯谛回归模型
7.2.3 预测
7.2.4 从逻辑斯谛回归模型中发现关系并抽取建议
7.2.5 解读模型概要并刻画系数
7.2.6 逻辑斯谛回归要点
7.3 小结
第8章 无监督方法
8.1 聚类分析
8.1.1 距离
8.1.2 准备数据
8.1.3 使用hclust()进行层次聚类
8.1.4 k-均值算法
8.1.5 分派新的点到簇
8.1.6 聚类要点
8.2 关联规则
8.2.1 关联规则概述
8.2.2 问题举例
8.2.3 使用arules程序包挖掘关联规则
8.2.4 关联规则要点
8.3 小结
第9章 高级方法探索
9.1 使用bagging和随机森林方法减少训练方差
9.1.1 使用bagging方法改进预测
9.1.2 使用随机森林方法进一步改进预测
9.1.3 bagging和随机森林方法要点
9.2 使用广义加性模型学习非单调关系
9.2.1 理解
9.2.2 一维回归示例
9.2.3 提取非线性关系
9.2.4 在真实数据上使用
9.2.5 使用GAM实现逻辑斯谛回归
9.2.6 GAM要点
9.3 使用核方法提高数据可分性
9.3.1 理解核函数
9.3.2 在问题中使用显式核函数
9.3.3 核方法要点
9.4 使用SVM对复杂的决策边界建模
9.4.1 理解支持向量机
9.4.2 在人工示例数据中使用
9.4.3 在真实数据中使用
9.4.4 支持向量机要点
9.5 小结
第三部分 结果交付
第10章 文档编制和部署
10.1 buzz数据集
10.2 使用knitr产生里程碑文档
10.2.1 knitr是什么
10.2.2 knitr 技术详解
10.2.3 使用knitr编写buzz数据文档
10.3 在运行时文档编制中使用注释和版本控制
10.3.1 编写有效注释
10.3.2 使用版本控制记录历史
10.3.3 使用版本控制探索项目
10.3.4 使用版本控制分享工作
10.4 模型部署
10.4.1 将模型部署为R HTTP服务
10.4.2 按照输出部署模型
10.4.3 要点
10.5 小结
第11章 有效的结果展现
11.1 将结果展现给项目出资方
11.1.1 概述项目目标
11.1.2 陈述项目结果
11.1.3 补充细节
11.1.4 提出建议并讨论未来工作
11.1.5 向项目出资方展现的要点
11.2 向最终用户展现模型
11.2.1 概述项目目标
11.2.2 展现模型如何融入用户的工作流程
11.2.3 展现如何使用模型
11.2.4 向最终用户展现的要点
11.3 向其他数据科学家展现你的工作
11.3.1 介绍问题
11.3.2 讨论相关工作
11.3.3 讨论你的方法
11.3.4 讨论结果和未来工作
11.3.5 向其他数据科学家展现的要点
11.4 小结
附录A 使用R和其他工具
附录B 重要的统计学概念
附录C 更多的工具和值得探索的思路
参考文献
索引
序言
前言
第一部分 数据科学引论
第1章 数据科学处理过程
1.1 数据科学项目中的角色
1.2 数据科学项目的阶段
1.2.1 制定目标
1.2.2 收集和管理数据
1.2.3 建立模型
1.2.4 模型评价和批判
1.2.5 展现和编制文档
1.2.6 模型部署和维护
1.3 设定预期
1.4 小结
第2章 向R加载数据
2.1 运用文件中的数据
2.1.1 在源自文件或URL的良结构数据上使用
2.1.2 在欠结构数据上使用
2.2 在关系数据库上使用
2.2.1 一个生产规模的示例
2.2.2 从数据库向R系统加载数据
2.2.3 处理PUMS数据
2.3 小结
第3章 探索数据
3.1 使用概要统计方法发现问题
3.2 用图形和可视化方法发现问题
3.2.1 可视化检测单变量的分布
3.2.2 可视化检测两个变量间的关系
3.3 小结
第4章 管理数据
4.1 清洗数据
4.1.1 处理缺失值
4.1.2 数据转换
4.2 为建模和验证采样
4.2.1 测试集和训练集的划分
4.2.2 创建一个样本组列
4.2.3 记录分组
4.2.4 数据溯源
4.3 小结
第二部分 建模方法
第5章 选择和评价模型
5.1 将业务问题映射到机器学习任务
5.1.1 解决分类问题
5.1.2 解决打分问题
5.1.3 目标未知情况下的处理
5.1.4 问题到方法的映射
5.2 模型评价
5.2.1 分类模型的评价
5.2.2 打分模型的评价
5.2.3 概率模型的评价
5.2.4 排名模型的评价
5.2.5 聚类模型的评价
5.3 模型验证
5.3.1 常见的模型问题的识别
5.3.2 模型可靠性的量化
5.3.3 模型质量的保证
5.4 小结
第6章 记忆化方法
6.1 KDD和KDD C
6.2 构建单变量模型
6.2.1 使用类别型特征
6.2.2 使用数值型特征
6.2.3 使用交叉验证估计过拟合的影响
6.3 构建多变量模型
6.3.1 变量选择
6.3.2 使用决策树
6.3.3 使用最近邻方法
6.3.4 使用朴素贝叶斯
6.4 小结
第7章 线性回归与逻辑斯谛回归
7.1 使用线性回归
7.1.1 理解线性回归
7.1.2 构建线性回归模型
7.1.3 预测
7.1.4 发现关系并抽取建议
7.1.5 解读模型概要并刻画系数质量
7.1.6 线性回归要点
7.2 使用逻辑斯谛回归
7.2.1 理解逻辑斯谛回归
7.2.2 构建逻辑斯谛回归模型
7.2.3 预测
7.2.4 从逻辑斯谛回归模型中发现关系并抽取建议
7.2.5 解读模型概要并刻画系数
7.2.6 逻辑斯谛回归要点
7.3 小结
第8章 无监督方法
8.1 聚类分析
8.1.1 距离
8.1.2 准备数据
8.1.3 使用hclust()进行层次聚类
8.1.4 k-均值算法
8.1.5 分派新的点到簇
8.1.6 聚类要点
8.2 关联规则
8.2.1 关联规则概述
8.2.2 问题举例
8.2.3 使用arules程序包挖掘关联规则
8.2.4 关联规则要点
8.3 小结
第9章 高级方法探索
9.1 使用bagging和随机森林方法减少训练方差
9.1.1 使用bagging方法改进预测
9.1.2 使用随机森林方法进一步改进预测
9.1.3 bagging和随机森林方法要点
9.2 使用广义加性模型学习非单调关系
9.2.1 理解
9.2.2 一维回归示例
9.2.3 提取非线性关系
9.2.4 在真实数据上使用
9.2.5 使用GAM实现逻辑斯谛回归
9.2.6 GAM要点
9.3 使用核方法提高数据可分性
9.3.1 理解核函数
9.3.2 在问题中使用显式核函数
9.3.3 核方法要点
9.4 使用SVM对复杂的决策边界建模
9.4.1 理解支持向量机
9.4.2 在人工示例数据中使用
9.4.3 在真实数据中使用
9.4.4 支持向量机要点
9.5 小结
第三部分 结果交付
第10章 文档编制和部署
10.1 buzz数据集
10.2 使用knitr产生里程碑文档
10.2.1 knitr是什么
10.2.2 knitr 技术详解
10.2.3 使用knitr编写buzz数据文档
10.3 在运行时文档编制中使用注释和版本控制
10.3.1 编写有效注释
10.3.2 使用版本控制记录历史
10.3.3 使用版本控制探索项目
10.3.4 使用版本控制分享工作
10.4 模型部署
10.4.1 将模型部署为R HTTP服务
10.4.2 按照输出部署模型
10.4.3 要点
10.5 小结
第11章 有效的结果展现
11.1 将结果展现给项目出资方
11.1.1 概述项目目标
11.1.2 陈述项目结果
11.1.3 补充细节
11.1.4 提出建议并讨论未来工作
11.1.5 向项目出资方展现的要点
11.2 向最终用户展现模型
11.2.1 概述项目目标
11.2.2 展现模型如何融入用户的工作流程
11.2.3 展现如何使用模型
11.2.4 向最终用户展现的要点
11.3 向其他数据科学家展现你的工作
11.3.1 介绍问题
11.3.2 讨论相关工作
11.3.3 讨论你的方法
11.3.4 讨论结果和未来工作
11.3.5 向其他数据科学家展现的要点
11.4 小结
附录A 使用R和其他工具
附录B 重要的统计学概念
附录C 更多的工具和值得探索的思路
参考文献
索引