- 机械工业出版社
- 9787111533047
- 1-6
- 156030
- 46257859-2
- 平装
- 16开
- 2016-04
- 328
- 212
- 工学
- 计算机科学与技术
- TP274
- 数据科学与大数据技术
- 本科
内容简介
本书针对计算机、信息管理和其他相关专业学生的发展需求,系统、全面地介绍了大数据技术与应用的基本知识和技能,详细介绍了大数据基础、大数据的行业应用、大数据的基础设施、大数据技术基础、Hadoop分布式架构、大数据管理、大数据分析、人工智能与机器学习、数据科学与数据科学家、开放数据的时代,以及大数据发展与展望等内容,具有较强的系统性、可读性和实用性。
本书是为高等院校“大数据”相关课程全新设计编写、具有丰富实践特色的主教材,也可供有一定实践经验的软件开发人员和管理人员参考,或作为继续教育的教材。
本书配有授课电子课件,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索取(QQ:2850823885,电话:010-88379739)。
本书是为高等院校“大数据”相关课程全新设计编写、具有丰富实践特色的主教材,也可供有一定实践经验的软件开发人员和管理人员参考,或作为继续教育的教材。
本书配有授课电子课件,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索取(QQ:2850823885,电话:010-88379739)。
目录
前言
第1章 大数据概述
1.1 什么是大数据
1.1.1 大数据的定义
1.1.2 用3V描述大数据的特征
1.1.3 广义的大数据
1.2 大数据的结构类型
1.3 大数据的发展
1.3.1 硬件性价比提高与软件技术进步
1.3.2 云计算的普及
1.3.3 大数据作为BI的进化形式
1.3.4 从交易数据分析到交互数据分析
1.4 大数据技术的意义
1.5 延伸阅读:得数据者得天下
1.6 实验与思考:了解大数据及其在线支持
第2章 大数据的行业应用
2.1 奥巴马的竞选大数据
2.2 大都市的智能交通
2.3 互联网企业对大数据的运用
2.4 互联网竞拍公司eBay
2.4.1 超乎寻常的数据产生速度
2.4.2 eBay的数据分析基础架构
2.5 游戏分析公司Zynga
2.5.1 社交游戏经济的重要指标
2.5.2 提高病毒系数的方法
2.5.3 数据驱动游戏
2.5.4 三次点击法则
2.6 延伸阅读:大数据正在改变汽车保险
2.7 实验与思考:熟悉大数据应用
第3章 大数据的基础设施
3.1 云端大数据
3.1.1 什么是云计算
3.1.2 云计算的服务形式
3.1.3 云计算与大数据
3.1.4 云基础设施
3.1.5 云平台
3.2 计算虚拟化
3.3 存储虚拟化(大数据存储)
3.3.1 传统存储系统时代
3.3.2 大数据时代的新挑战
3.3.3 分布式存储
3.3.4 云存储及存储虚拟化
3.3.5 大数据存储的其他需求及特点
3.4 网络虚拟化
3.4.1 网卡虚拟化
3.4.2 虚拟交换机
3.4.3 接入层的虚拟化
3.4.4 覆盖网络虚拟化
3.4.5 软件定义的网络(SDN)
3.4.6 对大数据处理的意义
3.5 云环境基础架构的安全
3.6 延伸阅读:用云数据提高农业产量并做出决策
3.7 实验与思考:了解大数据的基础设施
第4章 大数据技术基础
4.1 技术进步与摩尔定律
4.2 大数据的技术架构
4.3 大数据的运用形式
4.4 大数据运用模式的分类
4.4.1 个别优化?批处理型
4.4.2 个别优化?实时型
4.4.3 整体优化?批处理型
4.4.4 整体优化?实时型
4.5 大数据的运用级别
4.5.1 对过去/现状的把握
4.5.2 发现模式
4.5.3 预测
4.5.4 优化
4.6 大数据运用的真正价值
4.7 相关的大数据技术
4.7.1 神经网络
4.7.2 自然语言处理
4.7.3 语义检索
4.7.4 链接挖掘
4.7.5 A/B测试
4.8 延伸阅读:高科技促使大数据互联网金融步入快车道
4.9 实验与思考:熟悉大数据的技术基础
第5章 Hadoop分布式架构
5.1 什么是分布式系统
5.2 什么是Hadoop
5.2.1 Hadoop的由来
5.2.2 Hadoop的优势
5.2.3 Hadoop的发行版本
5.2.4 发行版本众多的原因
5.3 Hadoop架构元素
5.4 Hadoop集群系统
5.5 Hadoop开源实现
5.6 Hadoop信息安全
5.7 Hadoop考试认证与开源社区
5.8 延伸阅读:有一家大数据公司声称要做地球的操作系统
5.9 实验与思考:什么是Hadoop
第6章 大数据管理
6.1 大数据的数据处理基础
6.2 大数据事务处理(OLTP)
6.2.1 传统OLTP系统
6.2.2 NoSQL
6.2.3 NewSQL
6.3 大数据分析处理(OLAP)
6.3.1 OLAP与数据立方体
6.3.2 分布式大规模批量处理(MapReduce/Hadoop)
6.3.3 Hadoop HDFS分布式文件系统
6.3.4 MapReduce计算模型
6.3.5 MPP数据库
6.3.6 分析型数据库的特征
6.4 流数据管理(实时数据处理)
6.5 自行开发流数据处理技术
6.6 延伸阅读:“大数据时代预言家”提醒学校规避“数据独裁”
6.7 实验与思考:了解大数据管理技术
第7章 大数据分析
7.1 数据分析的演变
7.1.1 数据分析的商业驱动力
7.1.2 数据分析环境的演变
7.1.3 传统分析架构
7.2 大数据分析平台
7.2.1 敏捷计算平台
7.2.2 线性扩展能力
7.2.3 全方位、遍布式、协作性用户体验
7.3 大数据与数据挖掘
7.3.1 什么是数据挖掘
7.3.2 数据挖掘解决的商业问题
7.4 数据挖掘的高级分析方法
7.4.1 分类
7.4.2 聚类分析
7.4.3 关联规则
7.4.4 回归分析
7.4.5 预测
7.4.6 序列分析
7.4.7 偏差分析
7.5 数据挖掘项目的生命周期
7.5.1 商业问题的形成
7.5.2 数据收集
7.5.3 数据清理和转换
7.5.4 模型构建
7.5.5 模型评估
7.5.6 报告和预测
7.5.7 应用集成
7.5.8 模型管理
7.6 大数据可视化
7.6.1 数据可视化的运用
7.6.2 可视化对认知的帮助
7.6.3 七个数据类型
7.6.4 七个基本任务
7.6.5 数据可视化的挑战
7.7 延伸阅读:什么是大数据分析做不了的?
7.8 实验与思考:了解大数据分析技术
第8章 人工智能与机器学习
8.1 什么是人工智能
8.1.1 人工智能的定义
8.1.2 数据的相关性
8.1.3 大数据中的因果关系
8.2 机器学习及其研究
8.2.1 什么是机器学习
8.2.2 基本结构
8.2.3 研究领域
8.3 机器学习的分类
8.3.1 基于学习策略的分类
8.3.2 基于所获取知识的表示形式的分类
8.3.3 按应用领域分类
8.3.4 按学习形式分类
8.4 延伸阅读:ZestFinance公司的金融风险平估
8.5 实验与思考:了解人工智能,熟悉机器学习
第9章 数据科学与数据科学家
9.1 什么是数据科学
9.2 数据分析生命周期模型
9.2.1 模型概述
9.2.2 阶段1:探索发现
9.2.3 阶段2:数据准备
9.2.4 阶段3:模型规划
9.2.5 阶段4:模型建造
9.2.6 阶段5:沟通结果
9.2.7 阶段6:项目实施
9.3 数据科学家
9.3.1 大数据生态系统中的关键角色
9.3.2 数据科学家所需的技能
9.3.3 数据科学家所需的素质
9.3.4 数据科学家的学习内容
9.4 延伸阅读:基于技能的改善数据科学实践的方法
9.5 实验与思考:了解数据科学,熟悉数据科学家
第10章 开放数据的时代
10.1 大数据时代的隐私问题
10.1.1 隐私与创新
10.1.2 社交化档案的是非
10.1.3 消费者隐私权法案
10.2 连接开放数据
10.2.1 LOD运动
10.2.2 对政府公开的影响
10.2.3 创业型公司——综合气候保险
10.3 数据市场的兴起
10.3.1 Factual
10.3.2 Windows Azure Marketplace
10.3.3 Infochimps
10.3.4 Public Data Sets On AWS
10.4 不同的商业模式
10.5 延伸阅读:美国几乎可监控网民所有的网络活动
10.6 实验与思考:了解大数据时代的安全与隐私保护
第11章 大数据发展
第1章 大数据概述
1.1 什么是大数据
1.1.1 大数据的定义
1.1.2 用3V描述大数据的特征
1.1.3 广义的大数据
1.2 大数据的结构类型
1.3 大数据的发展
1.3.1 硬件性价比提高与软件技术进步
1.3.2 云计算的普及
1.3.3 大数据作为BI的进化形式
1.3.4 从交易数据分析到交互数据分析
1.4 大数据技术的意义
1.5 延伸阅读:得数据者得天下
1.6 实验与思考:了解大数据及其在线支持
第2章 大数据的行业应用
2.1 奥巴马的竞选大数据
2.2 大都市的智能交通
2.3 互联网企业对大数据的运用
2.4 互联网竞拍公司eBay
2.4.1 超乎寻常的数据产生速度
2.4.2 eBay的数据分析基础架构
2.5 游戏分析公司Zynga
2.5.1 社交游戏经济的重要指标
2.5.2 提高病毒系数的方法
2.5.3 数据驱动游戏
2.5.4 三次点击法则
2.6 延伸阅读:大数据正在改变汽车保险
2.7 实验与思考:熟悉大数据应用
第3章 大数据的基础设施
3.1 云端大数据
3.1.1 什么是云计算
3.1.2 云计算的服务形式
3.1.3 云计算与大数据
3.1.4 云基础设施
3.1.5 云平台
3.2 计算虚拟化
3.3 存储虚拟化(大数据存储)
3.3.1 传统存储系统时代
3.3.2 大数据时代的新挑战
3.3.3 分布式存储
3.3.4 云存储及存储虚拟化
3.3.5 大数据存储的其他需求及特点
3.4 网络虚拟化
3.4.1 网卡虚拟化
3.4.2 虚拟交换机
3.4.3 接入层的虚拟化
3.4.4 覆盖网络虚拟化
3.4.5 软件定义的网络(SDN)
3.4.6 对大数据处理的意义
3.5 云环境基础架构的安全
3.6 延伸阅读:用云数据提高农业产量并做出决策
3.7 实验与思考:了解大数据的基础设施
第4章 大数据技术基础
4.1 技术进步与摩尔定律
4.2 大数据的技术架构
4.3 大数据的运用形式
4.4 大数据运用模式的分类
4.4.1 个别优化?批处理型
4.4.2 个别优化?实时型
4.4.3 整体优化?批处理型
4.4.4 整体优化?实时型
4.5 大数据的运用级别
4.5.1 对过去/现状的把握
4.5.2 发现模式
4.5.3 预测
4.5.4 优化
4.6 大数据运用的真正价值
4.7 相关的大数据技术
4.7.1 神经网络
4.7.2 自然语言处理
4.7.3 语义检索
4.7.4 链接挖掘
4.7.5 A/B测试
4.8 延伸阅读:高科技促使大数据互联网金融步入快车道
4.9 实验与思考:熟悉大数据的技术基础
第5章 Hadoop分布式架构
5.1 什么是分布式系统
5.2 什么是Hadoop
5.2.1 Hadoop的由来
5.2.2 Hadoop的优势
5.2.3 Hadoop的发行版本
5.2.4 发行版本众多的原因
5.3 Hadoop架构元素
5.4 Hadoop集群系统
5.5 Hadoop开源实现
5.6 Hadoop信息安全
5.7 Hadoop考试认证与开源社区
5.8 延伸阅读:有一家大数据公司声称要做地球的操作系统
5.9 实验与思考:什么是Hadoop
第6章 大数据管理
6.1 大数据的数据处理基础
6.2 大数据事务处理(OLTP)
6.2.1 传统OLTP系统
6.2.2 NoSQL
6.2.3 NewSQL
6.3 大数据分析处理(OLAP)
6.3.1 OLAP与数据立方体
6.3.2 分布式大规模批量处理(MapReduce/Hadoop)
6.3.3 Hadoop HDFS分布式文件系统
6.3.4 MapReduce计算模型
6.3.5 MPP数据库
6.3.6 分析型数据库的特征
6.4 流数据管理(实时数据处理)
6.5 自行开发流数据处理技术
6.6 延伸阅读:“大数据时代预言家”提醒学校规避“数据独裁”
6.7 实验与思考:了解大数据管理技术
第7章 大数据分析
7.1 数据分析的演变
7.1.1 数据分析的商业驱动力
7.1.2 数据分析环境的演变
7.1.3 传统分析架构
7.2 大数据分析平台
7.2.1 敏捷计算平台
7.2.2 线性扩展能力
7.2.3 全方位、遍布式、协作性用户体验
7.3 大数据与数据挖掘
7.3.1 什么是数据挖掘
7.3.2 数据挖掘解决的商业问题
7.4 数据挖掘的高级分析方法
7.4.1 分类
7.4.2 聚类分析
7.4.3 关联规则
7.4.4 回归分析
7.4.5 预测
7.4.6 序列分析
7.4.7 偏差分析
7.5 数据挖掘项目的生命周期
7.5.1 商业问题的形成
7.5.2 数据收集
7.5.3 数据清理和转换
7.5.4 模型构建
7.5.5 模型评估
7.5.6 报告和预测
7.5.7 应用集成
7.5.8 模型管理
7.6 大数据可视化
7.6.1 数据可视化的运用
7.6.2 可视化对认知的帮助
7.6.3 七个数据类型
7.6.4 七个基本任务
7.6.5 数据可视化的挑战
7.7 延伸阅读:什么是大数据分析做不了的?
7.8 实验与思考:了解大数据分析技术
第8章 人工智能与机器学习
8.1 什么是人工智能
8.1.1 人工智能的定义
8.1.2 数据的相关性
8.1.3 大数据中的因果关系
8.2 机器学习及其研究
8.2.1 什么是机器学习
8.2.2 基本结构
8.2.3 研究领域
8.3 机器学习的分类
8.3.1 基于学习策略的分类
8.3.2 基于所获取知识的表示形式的分类
8.3.3 按应用领域分类
8.3.4 按学习形式分类
8.4 延伸阅读:ZestFinance公司的金融风险平估
8.5 实验与思考:了解人工智能,熟悉机器学习
第9章 数据科学与数据科学家
9.1 什么是数据科学
9.2 数据分析生命周期模型
9.2.1 模型概述
9.2.2 阶段1:探索发现
9.2.3 阶段2:数据准备
9.2.4 阶段3:模型规划
9.2.5 阶段4:模型建造
9.2.6 阶段5:沟通结果
9.2.7 阶段6:项目实施
9.3 数据科学家
9.3.1 大数据生态系统中的关键角色
9.3.2 数据科学家所需的技能
9.3.3 数据科学家所需的素质
9.3.4 数据科学家的学习内容
9.4 延伸阅读:基于技能的改善数据科学实践的方法
9.5 实验与思考:了解数据科学,熟悉数据科学家
第10章 开放数据的时代
10.1 大数据时代的隐私问题
10.1.1 隐私与创新
10.1.2 社交化档案的是非
10.1.3 消费者隐私权法案
10.2 连接开放数据
10.2.1 LOD运动
10.2.2 对政府公开的影响
10.2.3 创业型公司——综合气候保险
10.3 数据市场的兴起
10.3.1 Factual
10.3.2 Windows Azure Marketplace
10.3.3 Infochimps
10.3.4 Public Data Sets On AWS
10.4 不同的商业模式
10.5 延伸阅读:美国几乎可监控网民所有的网络活动
10.6 实验与思考:了解大数据时代的安全与隐私保护
第11章 大数据发展