全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

大数据处理与应用（微课版）

定价：￥43.00

作者：贾新志，龚坚平

出版时间：2024-01

最新印次日期：2024-1

出版社：清华大学出版社

以下为《大数据处理与应用（微课版）》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

试读

基本信息评价

出版社：清华大学出版社
ISBN：9787302646723
版次：1-1
图书编号：508229
本季征订号：69250553-0
开本：16开
出版时间：2024-01
职教专业大类：电子与信息大类
职教专业类：计算机类
适用专业：计算机
适用分级：高职

作者简介

贾新志，北京信息职业技术学院人工智能学院教师，主要从事软件技术、前端开发方面的研究与教学工作。?重点讲授《前端设计与开发》、《linux?操作系统》等课程。

查看全部

内容简介

《大数据处理与应用（微课版）》以项目驱动的方式详细讲解大数据生态体系架构各方面的知识。主要涉及ETL的数据采集与清洗、离线数据仓库的构建和实时数据仓库的构建。
《大数据处理与应用（微课版）》分为三个模块：模块一介绍大数据离线数据处理与分析，包含项目一和项目二，知识点覆盖HDFS、Hive、Sqoop、MapReduce、Spark Core和Flink DataSet；模块二介绍大数据实时数据处理与分析，包含项目三和项目四，知识点覆盖Kafka、Flume、Spark Streaming和Spark SQL；模块三介绍大数据处理与分析的扩展知识，包含项目五和项目六，项目五为基于大数据分析处理实现的推荐系统，项目六为大数据ETL数据采集的CDC技术。
《大数据处理与应用（微课版）》可作为高等院校大数据与相关专业学生的教材，也可作为具有一定的Java编程基础的读者阅读，如平台架构师、开发人员和运维管理人员。

目录

项目准备搭建实验环境 1

任务一安装Linux操作系统 3
任务二配置Linux环境 8
任务三部署Hadoop环境 9
任务四部署Spark环境 12
任务五部署Flink环境 13
任务六安装MySQL数据库 14
任务七安装Hive 15
任务八安装ZooKeeper和Kafka 16
任务九部署Storm环境 19

项目一企业人力资源员工数据的离线分析 21

任务一企业人力资源及员工数据的获取 22
【职业能力目标】 22
【任务描述与要求】 22
【知识储备】 22
一、关系型数据库MySQL 22
二、大数据ETL采集引擎Sqoop 23
三、HDFS分布式文件系统 25
【任务计划与决策】 26
一、企业人力资源原始数据观察 26
二、企业人力资源原始数据采集 27
【任务实施】 27
一、将企业人力资源员工的原始
数据导入MySQL数据库 27
二、安装并使用Sqoop完成数据的
采集 28
【任务检查与评价】 30
【任务小结】 31
【任务拓展】 31
任务二清洗企业人力资源员工数据 31
【职业能力目标】 31
【任务描述与要求】 31
【知识储备】 32
一、大数据离线计算引擎
MapReduce 32
二、大数据离线计算引擎
Spark Core 35
三、大数据离线计算引擎
Flink DataSet 38
【任务计划与决策】 41
【任务实施】 41
【任务检查与评价】 45
【任务小结】 45
【任务拓展】 46
任务三企业人力资源员工数据的分析与
处理 63
【职业能力目标】 63
【任务描述与要求】 63
【知识储备】 63
一、大数据分析引擎Hive 63
二、Hive的数据模型 65
【任务计划与决策】 72
【任务实施】 72
【任务检查与评价】 76
【任务小结】 77
【任务拓展】 77

项目二电商平台商品销售数据的离线分析 79

任务一电商平台商品销售数据的获取 80
【职业能力目标】 80
【任务描述与要求】 80
【知识储备】 80
【任务计划与决策】 82
【任务实施】 82
一、将电商平台订单销售的原始
数据导入MySQL数据库 82
二、安装并使用DataX插件完成
数据的采集 84
【任务检查与评价】 86
【任务小结】 87
【任务拓展】 87
任务二清洗电商平台商品销售数据 88
【职业能力目标】 88
【任务描述与要求】 88
【知识储备】 88
一、大数据离线计算引擎
MapReduce 88
二、大数据离线计算引擎
Spark Core 88
三、大数据离线计算引擎
Flink DataSet 88
【任务计划与决策】 88
【任务实施】 89
【任务检查与评价】 90
【任务小结】 91
【任务拓展】 91
任务三电商平台商品销售数据的离线分析 101
【职业能力目标】 101
【任务描述与要求】 101
【知识储备】 101
一、大数据离线计算引擎
MapReduce 101
二、大数据离线计算引擎
Spark Core 101
【任务计划与决策】 102
【任务实施】 102
一、需求1及其实现 102
二、需求2及其实现 105
【任务检查与评价】 110
【任务小结】 110
【任务拓展】 111

项目三网站用户访问实时Hot IP分析 113

任务一网站用户点击日志数据的获取 114
【职业能力目标】 114
【任务描述与要求】 114
【知识储备】 114
一、日志采集框架Flume 114
二、消息系统Kafka 117
【任务计划与决策】 121
【任务实施】 122
一、安装和配置Flume 122
二、配置消息系统Kafka 123
三、集成Flume和Kafka完成网站
用户点击日志的采集 124
【任务检查与评价】 125
【任务小结】 126
【任务拓展】 126
任务二基于Storm的网站用户访问实时
Hot IP分析 129
【职业能力目标】 129
【任务描述与要求】 129
【知识储备】 130
【任务计划与决策】 131
【任务实施】 131
【任务检查与评价】 136
【任务小结】 137
【任务拓展】 137
任务三基于Spark 的网站用户访问实时
Hot IP分析 137
【职业能力目标】 137
【任务描述与要求】 137
【知识储备】 138
一、流式计算引擎
Spark Streaming 138
二、数据分析引擎Spark SQL 138
【任务计划与决策】 138
【任务实施】 139
【任务检查与评价】 141
【任务小结】 141
【任务拓展】 142

项目四实时分析用户信息访问数据 143

任务一用户访问数据的实时采集 144
【职业能力目标】 144
【任务描述与要求】 144
【知识储备】 144
【任务计划与决策】 144
【任务实施】 145
一、配置MySQL数据库与
Flume 145
二、集成Flume和Kafka完成网站
用户访问数据的采集 146
【任务检查与评价】 148
【任务小结】 148
【任务拓展】 149
任务二基于Storm的用户访问数据的
实时统计 149
【职业能力目标】 149
【任务描述与要求】 149
【知识储备】 149
【任务计划与决策】 150
【任务实施】 150
【任务检查与评价】 156
【任务小结】 157
【任务拓展】 157
任务三基于Spark 的用户访问数据的
实时统计 158
【职业能力目标】 158
【任务描述与要求】 158
【知识储备】 158
【任务计划与决策】 158
【任务实施】 158
【任务检查与评价】 161
【任务小结】 162
【任务拓展】 162

项目五基于大数据平台的推荐系统 163

任务一基于用户和物品的推荐系统 164
【职业能力目标】 164
【任务描述与要求】 164
【知识储备】 164
一、推荐系统的典型架构 164
二、协同过滤的推荐算法 164
三、相似度矩阵 165
四、Spark MLlib库 166
【任务计划与决策】 166
【任务实施】 167
【任务检查与评价】 172
【任务小结】 173
【任务拓展】 173
任务二基于ALS的推荐系统 173
【职业能力目标】 173
【任务描述与要求】 173
【知识储备】 173
【任务计划与决策】 175
【任务实施】 175
【任务检查与评价】 178
【任务小结】 179
【任务拓展】 179

项目六基于CDC（获取数据变更）的实时数据采集 181

任务一基于Canal完成MySQL实时数据的
采集 182
【职业能力目标】 182
【任务描述与要求】 182
【知识储备】 182
一、MySQL主从复制实现 182
二、Canal在系统中的位置 183
三、Canal的体系结构 183
【任务实施】 184
一、配置MySQL数据库 184
二、配置Canal采集MySQL
数据 185
【任务检查与评价】 188
【任务小结】 189
【任务拓展】 189
任务二基于Flink CDC完成MySQL实时
数据的采集 192
【职业能力目标】 192
【任务描述与要求】 192
【知识储备】 192
【任务实施】 193
【任务检查与评价】 197
【任务小结】 198
【任务拓展】 198

参考文献 199