- 电子工业出版社
- 9787121453113
- 1-2
- 466107
- 48253802-2
- 平塑
- 16开
- 2023-08
- 397
- 248
- 计算机科学与技术
- 本科 研究生及以上
内容简介
随着互联网的发展,大数据的思想与技术已经逐渐渗入人们生活、工作的方方面面。本书突出“大数据分析”这一主题,从大数据分析原理、技术和应用的角度,讲述大数据分析基础知识、大数据分析平台核心原理、大数据分析关键技术及大数据分析应用。 大数据分析的基础知识主要包括大数据的产生背景与定义、大数据的特点和技术、大数据的应用和价值、大数据时代的思维变革、国家大数据战略;大数据分析平台的核心原理主要包括开源大数据平台Hadoop和Spark的发展、生态系统、体系结构、安装和使用方法等,大数据存储(Hadoop分布式文件系统——HDFS的基本原理),大数据处理(MapReduce并行编程模型、Hadoop 2.0的资源管理调度框架——YARN);大数据分析的关键技术主要包括大数据的获取、数据清洗、数据归约、数据标准化、大数据分析算法(包括聚类、分类算法)的应用;大数据分析的应用是以案例的形式给出大数据分析在上市公司信用风险预测研究中的实际应用。 本书能培养学生搭建大数据分析平台的工程技术能力,面向大规模、多类型数据集的分析及处理能力,基于大数据思维方式进行数据分析的能力,将大数据技术与实际财经应用问题相结合并实现快速决策分析的能力,同时培养学生科技报国的家国情怀和使命担当。 本书适合作为高等院校各专业(尤其是大数据相关专业、财经类专业)大数据分析相关课程的教材,也可供相关技术人员参考。
目录
第4章 MapReduce并行编程模型 83__eol__4.1 MapReduce的概述 83__eol__4.1.1 分布式并行编程 83__eol__4.1.2 MapReduce的简介 84__eol__4.1.3 Map函数和Reduce函数 86__eol__4.2 MapReduce的体系结构 87__eol__4.2.1 MapReduce 1.0体系结构的总体框架 87__eol__4.2.2 Hadoop 2.0的体系结构 88__eol__4.2.3 MapReduce的容错性 89__eol__4.3 MapReduce的工作流程 89__eol__4.3.1 MapReduce工作流程的概述 89__eol__4.3.2 MapReduce的执行过程 90__eol__4.3.3 Shuffle过程详解 93__eol__4.4 MapReduce的实例分析 99__eol__4.4.1 WordCount 99__eol__4.4.2 倒排索引 102__eol__4.4.3 Top-K 106__eol__4.5 MapReduce的编程实践 107__eol__4.5.1 任务要求 107__eol__4.5.2 编写Map处理逻辑 107__eol__4.5.3 编写Reduce处理逻辑 108__eol__4.5.4 编写main方法 109__eol__4.5.5 实验过程 109__eol__4.6 MapReduce的优缺点分析 113__eol__4.6.1 MapReduce的优点 113__eol__4.6.2 MapReduce的缺点 113__eol__4.7 本章小结 114__eol__4.8 本章习题 114__eol__第5章 Hadoop 2.0的资源管理调度框架——YARN 117__eol__5.1 YARN的产生背景 117__eol__5.1.1 MapReduce 1.0中存在的问题 117__eol__5.1.2 YARN的产生 118__eol__5.2 YARN的设计思路 119__eol__5.3 YARN的体系结构 120__eol__5.3.1 YARN的体系结构总体框架 120__eol__5.3.2 YARN各组件功能的介绍 121__eol__5.3.3 YARN的容错性 122__eol__5.4 YARN的工作流程 123__eol__5.5 YARN的优缺点分析 124__eol__5.5.1 YARN的优点 124__eol__5.5.2 YARN的缺点 126__eol__5.6 本章小结 126__eol__5.7 本章习题 127__eol__第6章 大数据的获取和预处理 130__eol__6.1 大数据的获取 130__eol__6.1.1 爬虫的基础知识 130__eol__6.1.2 Scrapy爬虫的原理与流程 139__eol__6.1.3 Scrapy的爬虫实例 141__eol__6.2 数据清洗 146__eol__6.2.1 数据清洗的概述 146__eol__6.2.2 数据清洗的原理 146__eol__6.2.3 数据清洗的流程 147__eol__6.2.4 Pandas数据清洗的实例 148__eol__6.3 数据归约 153__eol__6.3.1 维归约 154__eol__6.3.2 属性选择 154__eol__6.3.3 离散化方法 155__eol__6.3.4 PCA的实例 155__eol__6.4 数据标准化 158__eol__6.4.1 数据标准化的概念 158__eol__6.4.2 数据标准化的方法 158__eol__6.4.3 数据标准化的实例 159__eol__6.5 本章小结 161__eol__6.6 习题 162__eol__第7章 大数据分析算法 163__eol__7.1 聚类算法 163__eol__7.1.1 经典聚类算法 163__eol__7.1.2 大数据聚类算法的应用 184__eol__7.2 分类算法 188__eol__7.2.1 经典分类算法 188__eol__7.2.2 大数据分类算法的应用 215__eol__7.3 本章小结 219__eol__7.4 习题 220__eol__第8章 大数据分析的应用案例 221__eol__8.1 案例背景 221__eol__8.2 数据获取和预处理 222__eol__8.2.1 获取来源 222__eol__8.2.2 数据说明 222__eol__8.2.3 数据预处理 223__eol__8.3 评价指标说明 226__eol__8.4 基于Python的实现 227__eol__8.4.1 基于Python的逻辑回归 227__eol__8.4.2 基于Python的SVM 229__eol__8.4.3 基于Python的朴素贝叶斯 231__eol__8.4.4 基于Python的决策树 232__eol__8.4.5 基于Python的随机森林 234__eol__8.5 基于Spark的实现 236__eol__8.5.1 基于Spark的逻辑回归 236__eol__8.5.2 基于Spark的SVM 237__eol__8.6 实验结果分析 238__eol__8.7 本章小结 239__eol__8.8 习题 239__eol__