Hadoop大数据技术与项目实战
¥59.00定价
作者: 王小洁
出版时间:2024-07
出版社:电子工业出版社
- 电子工业出版社
- 9787121458965
- 1-2
- 525089
- 66255017-7
- 平塑
- 16开
- 2024-07
- 308
- 程序设计
- 高职
内容简介
本书由校企“双元”合作开发,以企业真实项目的实施流程为主线,通过“电商平台用户行为数据分析”项目实战,贯穿Hadoop大数据核心技术,包括项目需求、大数据平台部署、数据采集、离线数据仓库设计与开发和项目数据可视化展示。__eol__本书内容主要涉及VMware、Xshell、IDEA等软件的安装配置;Hadoop分布式集群环境搭建; Flume、Kafka、Hive、Sqoop、ZooKeeper等Hadoop生态组件的基本工作原理、搭建及配置方法;使用Flume-Kafka-Flume架构实现数据采集;Hive离线数据仓库的设计与开发;使用pyecharts工具进行数据可视化展示。__eol__本书为省级精品在线开放课程配套教材,同时配有课程标准、软件安装包、项目源代码、习题库、微课视频等,可以帮助读者更好地学习本书内容。__eol__本书可以作为高等职业院校大数据、云计算、软件技术等相关专业教材,也可以作为从事大数据平台运维、大数据分析、云计算应用等技术人员的参考用书。__eol__
目录
绪 论 1__eol__学习目标 1__eol__重点难点 1__eol__学习方法 1__eol__思考与练习 2__eol__模块1 项目需求 3__eol__学习目标 3__eol__项目概述 3__eol__1.1 项目业务背景 3__eol__1.2 项目实施计划 5__eol__1.2.1 项目实施流程规划 5__eol__1.2.2 技术选型及版本 6__eol__1.2.3 项目实施的教学路径 7__eol__1.3 项目数据字典介绍 8__eol__1.3.1 数据源数据结构字典 8__eol__1.3.2 Hive表数据字典 13__eol__素养园地 17__eol__项目总结 17__eol__思考与练习 17__eol__模块2 大数据平台部署 20__eol__学习目标 20__eol__项目概述 20__eol__2.1 大数据相关开发软件安装 20__eol__2.2 Linux系统环境配置 28__eol__2.2.1 安装虚拟机 28__eol__2.2.2 克隆虚拟机 50__eol__2.2.3 虚拟机免密码登录配置 57__eol__2.2.4 Linux项目路径规划 70__eol__2.3 Hadoop分布式集群环境搭建 73__eol__2.3.1 JDK安装配置 73__eol__2.3.2 Hadoop框架介绍及组成 77__eol__2.3.3 HDFS集群配置 79__eol__2.3.4 YARN集群配置 89__eol__2.3.5 HDFS Shell命令行操作 95__eol__2.3.6 HDFS客户端开发环境配置及测试 98__eol__2.3.7 HDFS API基本操作 115__eol__2.3.8 MapReduce原理 121__eol__2.3.9 MapReduce案例——词频统计 122__eol__2.4 Hive数据仓库服务配置 131__eol__2.4.1 MySQL环境配置 131__eol__2.4.2 Hive环境配置 135__eol__2.4.3 Hive与MySQL整合操作及Hive服务启动 138__eol__2.4.4 HQL语句基本操作 141__eol__2.4.5 HQL统计分析案例 143__eol__2.5 Flume原理及安装部署 144__eol__2.6 Sqoop原理及应用 145__eol__2.6.1 Sqoop原理及安装部署 146__eol__2.6.2 Sqoop数据迁移案例 147__eol__2.7 ZooKeeper集群环境搭建 151__eol__2.8 Kafka集群环境搭建及应用 154__eol__2.8.1 Kafka集群环境搭建 154__eol__2.8.2 Kafka常用命令及使用方法 157__eol__素养园地 159__eol__项目总结 160__eol__思考与练习 161__eol__模块3 数据采集 165__eol__学习目标 165__eol__项目概述 165__eol__3.1 项目数据源及产生方法 165__eol__3.2 Flume脚本设计 167__eol__3.2.1 Flume采集原理及流程 167__eol__3.2.2 Flume数据采集脚本设计 170__eol__3.2.3 拦截器链的创建流程 172__eol__3.2.4 ETL拦截器业务逻辑分析 182__eol__3.2.5 分流标记拦截器业务逻辑分析 183__eol__3.2.6 Flume数据采集执行脚本及实现 184__eol__3.2.7 Flume数据消费脚本设计 187__eol__3.2.8 Flume数据消费执行脚本及实现 191__eol__素养园地 195__eol__项目总结 195__eol__思考与练习 195__eol__模块4 离线数据仓库设计与开发 198__eol__学习目标 198__eol__项目概述 198__eol__4.1 离线数据仓库概述 198__eol__4.2 ODS层设计与开发 199__eol__4.3 DWD层设计与开发 204__eol__4.3.1 项目JSON解析函数及应用 204__eol__4.3.2 启动日志表设计及数据加载 206__eol__4.4 DWS层设计与开发 209__eol__4.5 DWT层设计与开发 212__eol__4.5.1 HQL关联查询(1) 212__eol__4.5.2 HQL关联查询(2) 216__eol__4.5.3 HQL关联查询(3) 218__eol__4.5.4 设备主题表设计及数据加载 219__eol__4.6 ADS层设计与开发 222__eol__4.6.1 活跃用户数据表设计及数据加载 223__eol__4.6.2 每日新增用户数据表设计及数据加载 224__eol__4.6.3 沉默用户数据表设计及数据加载 226__eol__4.6.4 本周回流用户数据表设计及数据加载 228__eol__4.6.5 用户留存率数据表设计及数据加载 229__eol__素养园地 243__eol__项目总结 243__eol__思考与练习 243__eol__模块5 项目数据可视化展示 246__eol__学习目标 246__eol__项目概述 246__eol__5.1 创建MySQL数据表 246__eol__5.1.1 大数据报表系统 246__eol__5.1.2 MySQL数据表的创建 247__eol__5.2 Sqoop数据迁移 248__eol__5.3 数据可视化 250__eol__5.3.1 pyecharts可视化工具介绍 251__eol__5.3.2 导入数据、绘制大屏标题 269__eol__5.3.3 绘制柱状图 283__eol__5.3.4 绘制象形柱状图、水球图 287__eol__5.3.5 绘制柱状图与折线图的叠加图 291__eol__5.3.6 绘制轮播图 294__eol__5.3.7 数据大屏展示 297__eol__素养园地 301__eol__项目总结 301__eol__思考与练习 301__eol__课程学习成果评价 304__eol__参考文献 306__eol__