大数据技术实训教程:预处理、离线分析和实时计算
¥59.90定价
作者: 卢正才,曹小平,郑子伟
出版时间:2022-09
出版社:人民邮电出版社
- 人民邮电出版社
- 9787115596574
- 1-1
- 446442
- 16开
- 2022-09
- 大数据
- 本科 高职
作者简介
内容简介
《大数据技术实训教程:预处理、离线分析和实时计算》是职业院校大数据相关专业的实训配套教材,也是“1+X”大数据应用开发(Java)职业技能等级证书考试辅助教材。全书共4章,包括Web服务器日志分析项目、招聘网站数据分析项目、电商网站实时数据分析项目、金融大数据分析项目。本书内容涵盖了大数据技术的完整流程,包括数据采集、数据预处理、数据分析、数据挖掘、数据存储、数据可视化等,既有离线处理,又有实时处理。同时涉及4个不同业务背景的29个项目任务,包括17个职业院校技能大赛项目任务,可帮助读者切实掌握大数据预处理、离线分析和实时计算的实践技能。
《大数据技术实训教程:预处理、离线分析和实时计算》可作为职业院校、应用型本科院校计算机应用技术、软件技术、软件工程、网络工程和大数据技术等计算机相关专业的教材,还可供从事计算机相关工作的技术人员学习参考。
《大数据技术实训教程:预处理、离线分析和实时计算》可作为职业院校、应用型本科院校计算机应用技术、软件技术、软件工程、网络工程和大数据技术等计算机相关专业的教材,还可供从事计算机相关工作的技术人员学习参考。
目录
第 1章 Web服务器日志分析项目 001
1.1 任务一:需求分析 002
1.2 任务二:技术方案设计 004
1.3 任务三:使用Flume采集日志数据 006
1.4 任务四:使用MapReduce清洗数据 008
1.5 任务五:使用Hive分析数据 012
1.6 任务六:使用Sqoop迁移数据 016
1.7 任务七:Java+ECharts数据可视化 018
1.8 答疑解惑 039
1.9 拓展练习 041
第 2章 招聘网站数据分析项目 043
2.1 大赛简介 044
2.2 任务一:需求分析 048
2.3 任务二:项目流程 050
2.4 任务三:使用Python“爬取”招聘网站数据 051
2.5 任务四:使用MapReduce预处理数据 056
2.6 任务五:使用Hive分析数据 062
2.7 任务六:使用Sqoop导出数据 065
2.8 任务七:Flask+ECharts数据可视化 067
2.9 任务八:编写分析报告 079
2.10 答疑解惑 080
2.11 拓展练习 084
第3章 电商网站实时数据分析项目 086
3.1 任务一:需求分析 087
3.2 任务二:项目方案设计 088
3.3 任务三:使用Flume+Kafka实时收集数据 089
3.4 任务四:使用Spark实时计算数据 091
3.5 任务五:Java+ECharts数据可视化 101
3.6 答疑解惑 113
3.7 拓展练习 114
第4章 金融大数据分析项目 116
4.1 大赛简介 117
4.2 任务一:需求分析 119
4.3 任务二:项目流程 121
4.4 任务三:使用Spark抽取离线数据 123
4.5 任务四:使用Spark统计离线数据 125
4.6 任务五:使用Flume+Kafka实时采集数据 128
4.7 任务六:使用Flink实时计算数据 130
4.8 任务七:Vue.js+Java+ECharts数据可视化 136
4.9 任务八:使用Spark ML数据挖掘 156
4.10 任务九:编写分析报告 160
4.11 答疑解惑 162
4.12 拓展练习 163
附录 165
附录1 Hadoop安装部署和配置 165
附录2 掌握HDFS Shell操作 175
附录3 通过WordCount熟悉MapReduce 182
附录4 深入理解MapReduce 186
附录5 Flume安装部署和配置 199
附录6 Hive安装部署和配置 200
附录7 Sqoop安装部署和配置 201
附录8 Hadoop高可用集群环境安装部署和配置 203
附录9 Hadoop集群节点动态管理 212
附录10 Kafka安装部署和配置 214
附录11 Spark安装部署和配置 217
附录12 Spark RDD算子 220
附录13 通过WordCount熟悉Spark RDD 230
附录14 Flink安装部署和配置 231
1.1 任务一:需求分析 002
1.2 任务二:技术方案设计 004
1.3 任务三:使用Flume采集日志数据 006
1.4 任务四:使用MapReduce清洗数据 008
1.5 任务五:使用Hive分析数据 012
1.6 任务六:使用Sqoop迁移数据 016
1.7 任务七:Java+ECharts数据可视化 018
1.8 答疑解惑 039
1.9 拓展练习 041
第 2章 招聘网站数据分析项目 043
2.1 大赛简介 044
2.2 任务一:需求分析 048
2.3 任务二:项目流程 050
2.4 任务三:使用Python“爬取”招聘网站数据 051
2.5 任务四:使用MapReduce预处理数据 056
2.6 任务五:使用Hive分析数据 062
2.7 任务六:使用Sqoop导出数据 065
2.8 任务七:Flask+ECharts数据可视化 067
2.9 任务八:编写分析报告 079
2.10 答疑解惑 080
2.11 拓展练习 084
第3章 电商网站实时数据分析项目 086
3.1 任务一:需求分析 087
3.2 任务二:项目方案设计 088
3.3 任务三:使用Flume+Kafka实时收集数据 089
3.4 任务四:使用Spark实时计算数据 091
3.5 任务五:Java+ECharts数据可视化 101
3.6 答疑解惑 113
3.7 拓展练习 114
第4章 金融大数据分析项目 116
4.1 大赛简介 117
4.2 任务一:需求分析 119
4.3 任务二:项目流程 121
4.4 任务三:使用Spark抽取离线数据 123
4.5 任务四:使用Spark统计离线数据 125
4.6 任务五:使用Flume+Kafka实时采集数据 128
4.7 任务六:使用Flink实时计算数据 130
4.8 任务七:Vue.js+Java+ECharts数据可视化 136
4.9 任务八:使用Spark ML数据挖掘 156
4.10 任务九:编写分析报告 160
4.11 答疑解惑 162
4.12 拓展练习 163
附录 165
附录1 Hadoop安装部署和配置 165
附录2 掌握HDFS Shell操作 175
附录3 通过WordCount熟悉MapReduce 182
附录4 深入理解MapReduce 186
附录5 Flume安装部署和配置 199
附录6 Hive安装部署和配置 200
附录7 Sqoop安装部署和配置 201
附录8 Hadoop高可用集群环境安装部署和配置 203
附录9 Hadoop集群节点动态管理 212
附录10 Kafka安装部署和配置 214
附录11 Spark安装部署和配置 217
附录12 Spark RDD算子 220
附录13 通过WordCount熟悉Spark RDD 230
附录14 Flink安装部署和配置 231