Hadoop大数据基础实训教程 / 高等学校大数据技术与应用规划教材
¥39.80定价
作者: 彭梅,胡必波,李满
出版时间:2022-02
出版社:中国铁道出版社
- 中国铁道出版社
- 9787113287528
- 1版
- 440029
- 48256838-3
- 16开
- 2022-02
- 192
- 工学
- 计算机科学与技术
- 通用
- 本科 高职
作者简介
内容简介
本书以 Hadoop 大数据技术生态圈主流框架的应用为主线,介绍了数据处理与分析中典型软件的使用和基础编程方法。全书共包含七个基础实训和两个综合案例,内容涵盖操作系统(Linux)、开发工具(IDEA和Maven)以及大数据相关软件(Hadoop、HDFS、HBase、Hive、MapReduce、Spark、MySQL)等,可以较好地满足大数据实践教学需求。?本书适合作为高等学校大数据技术及相关专业的教材,也可作为教学辅助用书与其他大数据教材配套使用。
目录
实训1LINUX操作系统的安装1
1.1实训目的1
1.2实训要求1
1.3实训原理1
1.3.1虚拟化技术1
1.3.2Linux4
1.3.3Xmanager6
1.3.4JDK6
1.3.5SSH免密登录7
1.3.6同步时钟8
1.4实训步骤8
1.4.1安装和配置Linux虚拟机9
1.4.2安装和配置Linux系统17
1.4.3搭建Linux集群24
实训2HADOOP的安装和配置31
2.1实训目的31
2.2实训要求31
2.3实训原理31
2.3.1Hadoop31
2.3.2Ambari32
2.3.3Docker33
2.4实验步骤34
2.4.1手工搭建方式35
2.4.2Ambari自动化搭建方式45
2.4.3使用Docker搭建Hadoop分布式集群50
实训3HDFS操作方法和基础编程.55
3.1实训目的55
3.2实训要求55
3.3实训原理55
3.3.1HDFS55
3.3.2HDFSShell56
3.3.3HDFSJavaAPI57
3.3.4HDFS运行原理58
3.4实训步骤60
3.4.1HDFSShell基本操作60
3.4.2JavaAPI基本操作61
3.4.3JavaAPI读写数据66
实训4HBASE与HIVE的安装和配置69
4.1实训目的69
4.2实训要求69
4.3实训原理69
4.3.1HBase69
4.3.2Hive70
4.4实训步骤71
4.4.1安装Zookeeper71
4.4.2安装HBase72
4.4.3安装Hive75
实训5MAPREDUCE基础编程81
5.1实训目的81
5.2实训要求81
5.3实训原理81
5.3.1MapReduce编程思想81
5.3.4单词频数统计83
5.3.2YARN框架84
5.4实验步骤86
实训6Spark的安装和配置93
6.1实训目的93
6.2实训要求93
6.3实训原理93
6.3.1Zookeeper94
6.3.2Spark94
6.3.3Spark编程原理95
6.4实训步骤96
6.4.1搭建Zookeeper分布式集群96
6.4.3搭建Spark分布式集群99
6.4.4运行SPARK分布式集群103
实训7HADOOP开发环境的安装和部署.106
7.1实训目的106
7.2实训要求106
7.3实训原理106
7.3.1IntelliJIDEA106
7.3.2Eclipse108
7.3.3Maven108
7.3.4Tomcat109
7.3.5MySQL109
7.4实验步骤109
7.4.1部署IDEA109
7.4.2部署Eclipse127
7.4.3部署ScalaSDK131
7.4.4部署Maven133
7.4.5部署Tomcat服务器137
7.4.6部署MySQL服务器142
综合案例1电信流量大数据分析统计151
8.1案例背景151
8.2优化词频统计项目151
8.3使用Spark的local模式进行数据清洗ETL实战153
综合案例2基于HADOOP的云盘信管理系统的设计与实现158
9.1案例背景159
9.2系统开发工具与技术159
9.2.1HDFS分布式文件系统159
9.2.2JSP技术159
9.2.3ApacheTomcat服务器160
9.2.4MySQL数据库160
9.3搭建开发环境161
9.3.1搭建Hadoop开发环境161
9.3.2安装和配置开发工具171
9.4系统分析172
9.5系统设计174
9.5.1数据库设计177
9.6部分模块代码实现179
1.1实训目的1
1.2实训要求1
1.3实训原理1
1.3.1虚拟化技术1
1.3.2Linux4
1.3.3Xmanager6
1.3.4JDK6
1.3.5SSH免密登录7
1.3.6同步时钟8
1.4实训步骤8
1.4.1安装和配置Linux虚拟机9
1.4.2安装和配置Linux系统17
1.4.3搭建Linux集群24
实训2HADOOP的安装和配置31
2.1实训目的31
2.2实训要求31
2.3实训原理31
2.3.1Hadoop31
2.3.2Ambari32
2.3.3Docker33
2.4实验步骤34
2.4.1手工搭建方式35
2.4.2Ambari自动化搭建方式45
2.4.3使用Docker搭建Hadoop分布式集群50
实训3HDFS操作方法和基础编程.55
3.1实训目的55
3.2实训要求55
3.3实训原理55
3.3.1HDFS55
3.3.2HDFSShell56
3.3.3HDFSJavaAPI57
3.3.4HDFS运行原理58
3.4实训步骤60
3.4.1HDFSShell基本操作60
3.4.2JavaAPI基本操作61
3.4.3JavaAPI读写数据66
实训4HBASE与HIVE的安装和配置69
4.1实训目的69
4.2实训要求69
4.3实训原理69
4.3.1HBase69
4.3.2Hive70
4.4实训步骤71
4.4.1安装Zookeeper71
4.4.2安装HBase72
4.4.3安装Hive75
实训5MAPREDUCE基础编程81
5.1实训目的81
5.2实训要求81
5.3实训原理81
5.3.1MapReduce编程思想81
5.3.4单词频数统计83
5.3.2YARN框架84
5.4实验步骤86
实训6Spark的安装和配置93
6.1实训目的93
6.2实训要求93
6.3实训原理93
6.3.1Zookeeper94
6.3.2Spark94
6.3.3Spark编程原理95
6.4实训步骤96
6.4.1搭建Zookeeper分布式集群96
6.4.3搭建Spark分布式集群99
6.4.4运行SPARK分布式集群103
实训7HADOOP开发环境的安装和部署.106
7.1实训目的106
7.2实训要求106
7.3实训原理106
7.3.1IntelliJIDEA106
7.3.2Eclipse108
7.3.3Maven108
7.3.4Tomcat109
7.3.5MySQL109
7.4实验步骤109
7.4.1部署IDEA109
7.4.2部署Eclipse127
7.4.3部署ScalaSDK131
7.4.4部署Maven133
7.4.5部署Tomcat服务器137
7.4.6部署MySQL服务器142
综合案例1电信流量大数据分析统计151
8.1案例背景151
8.2优化词频统计项目151
8.3使用Spark的local模式进行数据清洗ETL实战153
综合案例2基于HADOOP的云盘信管理系统的设计与实现158
9.1案例背景159
9.2系统开发工具与技术159
9.2.1HDFS分布式文件系统159
9.2.2JSP技术159
9.2.3ApacheTomcat服务器160
9.2.4MySQL数据库160
9.3搭建开发环境161
9.3.1搭建Hadoop开发环境161
9.3.2安装和配置开发工具171
9.4系统分析172
9.5系统设计174
9.5.1数据库设计177
9.6部分模块代码实现179