全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

大数据技术与应用Ⅰ（第二版）

定价：￥59.80

作者：胡大威，孙琳

出版时间：2025-11

最新印次日期：2025-11

出版社：中国铁道出版社

“十四五”职业教育国家规划教材

以下为《大数据技术与应用Ⅰ（第二版）》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

试读

基本信息评价

出版社：中国铁道出版社
ISBN：9787113324360
版次：2-1
本季征订号：61265601-7
开本：大16开
出版时间：2025-11
本科门类：工学
本科专业类：计算机类
职教专业大类：电子与信息大类
职教专业类：计算机类
适用专业：计算机类
适用分级：高职

作者简介

胡大威：武汉职业技术大学教授。主持完成了2项省级课题和1项中国电子教育学会课题，2项省级课题在研；公开发表独撰学术论文26篇，其中6篇在中文核心期刊上发表，9篇论文获得中国职业技术教育学会和中国高等职业技术教育研究会优秀论文奖；主编了包括1本普通高等教育“十一五”国家级规划教材（高职高专教育）在内的20本教材，总字数180万字。湖北省级精品课程负责人、湖北省品牌专业负责人。校学术委员会委员。指导学生参加2017年全国职业院校技能大赛高职组“大数据技术与应用”赛项获得一等奖，荣获“优秀指导老师奖”。指导学生参加“蓝桥杯”全国软件专业人才设计与创业大赛多次获得总决赛一、二、三等奖，指导学生参加第七届全国信息技术应用水平大赛ITAT全国总决赛获全国特等奖。孙琳：高级工程师，CCF会员。双师型教师，省级教学团队“软件技术”专业教学团队主要成员，一直在教学科研一线工作。工作以来，积极参与科研与教研活动，主持省市级教科研课题5项，其中CCF职业教育科研重点课题1项；编写教材十余本，其中主编教材3本，副主编教材7本；以第一作者在各级刊物上公开发布论文8篇篇；指导学生参加蓝桥杯全国软件设计大赛获得了全国总决赛二、三等奖。

查看全部

内容简介

本书为“十四五”职业教育国家规划教材，主要内容分为基于Hadoop和Spark的大数据平台技术与大数据分析案例两部分，前者包括大数据的有关概念、Hadoop概述、安装和配置虚拟机、Hadoop集群的部署与管理、HDFS、MapReduce及Hadoop生态的其他常用组件（ZooKeeper、HBase、Hive、Sqoop、Flume、Storm、Kafka）的工作原理、安装部署和使用方法，以及Spark集群的部署与管理；后者通过“基于云课堂的日志分析系统”项目完整展示了大数据分析的过程。全书遵循理论够用，实践第一的原则，内容编排合理，表述深入浅出，所有操作命令全部按序列出，并配有解释和运行截图，指导性、实用性强，能使读者快速、轻松地掌握Hadoop和Spark大数据平台运维和分析的基本技术。本书适合作为高等职业院校电子与信息大类各专业学习基于Hadoop和Spark大数据平台技术的教材，也可作为培训学校的培训教材，还可作为大数据爱好者的自学用书。

单元1认识大数据.1
1.1大数据的产生1
1.1.1大数据产生的原因1
1.1.2大数据的发展历程2
1.2大数据概述2
1.2.1大数据的概念.2
1.2.2大数据的特征.3
1.2.3大数据的构成.3
1.2.4大数据对思维方式的影响4
1.2.5大数据的意义.5
1.3大数据的处理流程6
1.4大数据技术7
1.4.1大数据的技术层面7
1.4.2大数据的计算模式7
1.4.3大数据的技术路线8
1.4.4大数据技术的应用8
1.5大数据与云计算、物联网的关系8
1.5.1云计算.8
1.5.2物联网.9
1.5.3大数据与云计算、物联网之间的关系10
习题.10
单元2Hadoop概述11
2.1Hadoop简介11
2.1.1Hadoop的起源及发展历史11
2.1.2Hadoop的设计思想和特性12
2.1.3Hadoop的体系结构13
2.1.4Hadoop的生态系统14
2.1.5Hadoop发行版本16
2.1.6ApacheHadoop的下载16
2.2Hadoop系列实验前的准备工作.17
2.2.1计算机软硬件基本配置要求17
2.2.2Hadoop大数据实验软件包介绍17
2.2.3检查实验机是否支持虚拟化18
2.2.4检查在BIOS中是否已打开VT-x功能19
习题.19
单元3安装和配置虚拟机20
3.1Hadoop的运行模式20
3.1.1计算机集群20
3.1.2Hadoop的运行模式22
3.2安装VMwareWorkstation22
3.2.1VMware虚拟机简介.22
3.2.2安装VMware虚拟机.23
3.3创建虚拟机Master.25
3.4安装CentOS29
3.5克隆虚拟机Slave.31
3.6上传Hadoop实验软件包到Linux操作系统中.33
3.7常用的Linux操作系统命令和文本编辑器vi35
3.7.1Linux操作系统常用命令35
3.7.2文本编辑器vi36
习题.38
单元4Hadoop集群的部署与管理39
4.1准备工作39
4.2配置Linux操作系统40
4.2.1配置时钟同步40
4.2.2配置主机名41
4.2.3配置网络环境42
4.2.4关闭防火墙42
4.2.5配置hosts列表43
4.2.6安装JDK.44
4.2.7配置免密钥登录.46
4.3配置Hadoop49
4.3.1解压Hadoop安装包49
4.3.2在Master节点修改Hadoop配置文件49
4.3.3在Master节点上配置Hadoop的系统环境变量.54
4.3.4将已经配置好的Hadoop复制到其他节点54
4.3.5创建数据目录55
4.4启动Hadoop集群.55
4.4.1格式化文件系统.55
4.4.2启动Hadoop集群55
4.5测试Hadoop集群.56
4.6监控Hadoop集群.56
4.6.1监控HDFS.57
4.6.2监控YARN.59
4.7Hadoop的命令61
4.8停止Hadoop集群.61
4.9动态管理节点61
4.9.1增加节点.62
4.9.2删除节点.66
习题.67
单元5Hadoop分布式文件系统HDFS68
5.1HDFS概述68
5.1.1HDFS简介68
5.1.2HDFS的体系结构69
5.1.3HDFS的概念.69
5.1.4HDFS的存储原理72
5.1.5HDFS文件的读写过程72
5.1.6HDFS高可用性73
5.2用命令方式实现HDFS常用操作74
5.2.1HDFS的基本命令74
5.2.2HDFS的操作.78
5.3安装与配置Eclipse集成开发环境.80
5.3.1Eclipse开发环境介绍80
5.3.2Eclipse的安装和配置80
5.4编程实现HDFS常用操作85
5.4.1HDFSJavaAPI简介.85
5.4.2HDFSJavaAPI的一般用法.86
5.4.3HDFSJavaAPI的编程实践.87
习题89
单元6MapReduce.91
6.1MapReduce概述91
6.1.1MapReduce的设计思想.91
6.1.2MapReduce的体系结构.92
6.1.3MapReduce的工作过程.93
6.1.4MapReduce的工作过程示例——词频统计.95
6.2YARN概述97
6.2.1YARN的设计思想.97
6.2.2YARN的体系结构.97
6.2.3YARN的工作流程.98
6.3在集群中运行MapReduce任务99
6.3.1Hadoop官方示例包中的测试程序99
6.3.2提交MapReduce任务给集群运行99
6.4在Eclipse中配置MapReduce环境101
6.5编写MapReduce词频统计程序.103
6.5.1MapReduce编程步骤103
6.5.2编写MapReduce词频统计程序104
6.5.3打包提交代码运行.105
习题.105
单元7ZooKeeper的安装部署和管理108
7.1ZooKeeper概述108
7.1.1ZooKeeper简介108
7.1.2ZooKeeper的体系结构.109
7.1.3ZooKeeper的数据模型.110
7.1.4ZooKeeper的Watcher机制111
7.1.5ZooKeeper的工作原理.112
7.2ZooKeeper集群安装部署.113
7.2.1在Master节点上安装ZooKeeper.113
7.2.2配置ZooKeeper属性文件113
7.2.3将Master节点上的ZooKeeper安装
文件复制到Slave和Slave2节点上114
7.2.4启动ZooKeeper集群115
7.2.5测试ZooKeeper集群是否启动.115
7.2.6关闭和重启ZooKeeper集群服务116
7.2.7修改各节点系统配置文件.117
7.3ZooKeeper的常用命令117
7.3.1ZooKeeper的客户端连接命令.117
7.3.2ZooKeeper的节点操作命令117
7.4ZooKeeper集群的扩容和缩容120
7.4.1ZooKeeper集群的扩容.120
7.4.2ZooKeeper集群的缩容.120
习题.121
单元8HBase的安装部署和管理122
8.1HBase概述122
8.1.1HBase简介122
8.1.2HBase的数据模型123
8.1.3HBase的物理存储125
8.1.4HBase的体系结构126
8.1.5HBase的工作原理127
8.2HBase集群的安装部署.128
8.2.1在Master节点上安装HBase128
8.2.2在Master节点上配置HBase129
8.2.3将HBase安装文件复制到Slave和
Slave2节点上.130
8.2.4启动HBase130
8.2.5验证HBase131
8.2.6停止HBase集群132
8.3常用的HBaseShell命令133
8.3.1基本操作133
8.3.2表的操作133
习题.138
单元9数据仓库Hive139
9.1Hive概述139
9.1.1数据仓库简介139
9.1.2Hive简介140
9.1.3Hive的体系结构141
9.1.4Hive的工作原理141
9.1.5Hive的数据类型与存储格式142
9.1.6Hive的数据模型143
9.2Hive的部署144
9.2.1Hive的部署模式.144
9.2.2安装Hive.145
9.2.3使用内嵌模式部署Hive.145
9.2.4使用本地模式部署Hive.147
9.3HiveShell操作153
9.3.1数据库相关操作153
9.3.2表的相关操作154
9.3.3数据操作159
9.3.4查询数据160
习题.160
单元10Sqoop的安装和使用161
10.1Sqoop概述161
10.1.1Sqoop简介.161
10.1.2Sqoop的工作原理.162
10.2Sqoop的安装、配置和运行.163
10.2.1安装Sqoop.163
10.2.2配置MySQL连接器.164
10.2.3配置环境变量.164
10.2.4启动并验证Sqoop165
10.3Sqoop的应用.166
10.3.1从MySQL数据库导入数据到HDFS中166
10.3.2从Hive或HDFS中导出数据到MySQL数据库169
10.3.3脚本打包170
习题.171
单元11Flume的安装和使用172
11.1Flume概述172
11.1.1Flume简介.172
11.1.2Flume的工作原理.173
11.2Flume的安装配置175
11.2.1下载安装包并解压175
11.2.2配置环境变量.176
11.2.3配置flume-env.sh文件177
11.2.4验证Flume.177
11.3Flume的常用操作命令177
11.4Flume的应用.178
11.4.1Flume的配置和运行178
11.4.2Flume的简单实例.179
习题.180
单元12流计算框架Storm181
12.1Storm概述181
12.1.1Storm简介.181
12.1.2Storm的工作原理.182
12.1.3Storm的数据模型.183
12.2Storm集群的搭建184
12.2.1在Master节点上安装Storm.184
12.2.2将Storm安装文件复制到Slave、Slave2、Slave3节点185
12.2.3启动Storm集群185
12.2.4测试Storm集群186
12.3向Storm集群提交任务187
习题.187
单元13Kafka的安装和使用188
13.1Kafka概述188
13.1.1Kafka简介.188
13.1.2Kafka的体系结构.189
13.1.3Kafka的工作原理.190
13.1.4Kafka使用场景190
13.2安装配置和使用Kafka190
13.2.1安装Kafka.190
13.2.2配置Kafka.191
13.2.3启动并使用Kafka.191
习题.193
单元14Spark集群的部署与管理.194
14.1Spark概述194
14.1.1Spark简介.194
14.1.2Spark部署模式196
14.2Spark的工作原理197
14.2.1Spark的运行架构.197
14.2.2Spark运行基本流程199
14.2.3RDD的概念.200
14.2.4RDD运行原理202
14.3搭建Spark集群.203
14.3.1准备工作203
14.3.2解压并安装Spark203
14.3.3配置Spark集群204
14.3.4把配置好的Spark目录复制到从节点中206
14.3.5启动Spark集群.206
14.3.6检验Spark集群是否安装成功207
14.3.7监控Spark集群208
14.3.8关闭Spark集群208
14.4运行Spark程序.209
14.4.1通过spark-shell交互式命令终端.209
14.4.2通过spark-submit命令执行独立程序209
习题.212
单元15基于云课堂日志分析系统.213
15.1项目简介.213
15.1.1唯众云课堂介绍213
15.1.2日志分析系统需求分析215
15.1.3日志分析系统数据库设计219
15.2数据清洗.220
15.2.1使用MapReduce进行数据预处理.220
15.2.2使用MapReduce进行数据二次处理224
15.2.3使用MapReduce进行数据结构化.225
15.3构建数据仓库226
15.3.1设计数据仓库.226
15.3.2分析数据指标.228
15.4创建数据库与表并导出数据234
15.4.1创建MySQL相关数据库与表234
15.4.2导出数据236
15.5数据可视化238
15.5.1使用MyBatis逆向工程持久层238
15.5.2使用Ｗeb前端技术实现可视化页面241
15.5.3添加近7天日平均PV量展示代码242
15.5.4添加访客数量变化趋势展示代码245
15.5.5添加每日热门页面top10展示代码245
15.5.6使用echarts实现数据可视化.245
参考文献248