- 电子工业出版社
- 9787121453816
- 1-2
- 466117
- 48253818-8
- 平塑勒
- 16开
- 2024-01
- 469
- 268
- 计算机科学与技术
- 本科 研究生及以上
内容简介
本书通过大量实例介绍大数据平台技术,分4篇。大数据存储篇包括第1~3章,内容包括大数据技术概述、数据采集和大数据、大数据框架的安装和配置;大数据管理篇包括第4~7章,内容包括HDFS、Hadoop分布式计算模型、分布式协调服务ZooKeeper、Hadoop的集群资源管理系统YARN;大数据分析篇包括第8~10章,内容包括数据库MySQL和数据仓库Hive、NoSQL数据库HBase、基于内存的分布式计算框架Spark;大数据应用篇包括第11、12章,内容包括数据可视化、大数据应用综合案例。
目录
目录__eol__第1篇 大数据存储篇__eol____eol__第1章 大数据技术概述 1__eol__1.1 大数据源起和应用 1__eol__1.2 大数据技术框架 2__eol__1.3 大数据就业岗位 5__eol__1.4 大数据的特点 8__eol__1.5 大数据的深远影响 9__eol__1.6 大数据的意义和发展目标 9__eol__1.7 大数据与云计算、物联网、__eol__ 人工智能的关系 10__eol__1.8 教材在线资源及使用说明 12__eol__1.9 本章思维导图 14__eol__1.10 习题 14__eol__第2章 数据采集和大数据 15__eol__2.1 数据采集和ETL 15__eol__2.2 网络爬虫 15__eol__2.2.1 通用网络爬虫与聚焦网络__eol__ 爬虫 16__eol__2.2.2 网络爬虫的工作过程 16__eol__2.3 Python常用开发工具简介 16__eol__2.3.1 Python开发环境搭建 17__eol__2.3.2 开发工具PyCharm 17__eol__2.3.3 开发工具Jupyter Notebook 17__eol__2.4 Python语言简介 18__eol__2.4.1 Python常见的数据类型 18__eol__2.4.2 NumPy库 22__eol__2.5 基于Python的网络爬虫应用__eol__ 实例 25__eol__2.5.1 Urllib库介绍 25__eol__2.5.2 数据采集和ETL实例 28__eol__2.6 本章思维导图 32__eol__2.7 习题 32__eol__第3章 大数据框架的安装和配置 33__eol__3.1 大数据框架配置环境 33__eol__3.2 Linux操作系统介绍 34__eol__3.2.1 Linux的发展历史 34__eol__3.2.2 Linux版本特点 35__eol__3.2.3 Linux版本选择 36__eol__3.3 Linux终端常见命令 37__eol__3.3.1 基本命令 37__eol__3.3.2 目录操作命令 38__eol__3.3.3 文件操作命令 41__eol__3.3.4 系统工作命令 51__eol__3.3.5 其他常见命令 54__eol__3.4 虚拟机的使用 57__eol__3.5 远程登录工具配置 57__eol__3.6 Hadoop伪分布式安装和使用 58__eol__3.6.1 环境配置 58__eol__3.6.2 配置SSH免密登录 58__eol__3.6.3 配置JDK 58__eol__3.6.4 Hadoop伪分布式配置 59__eol__3.6.5 运行WordCount实例 60__eol__3.7 本章思维导图 61__eol__3.8 习题 62__eol____eol____eol__第2篇 大数据管理篇__eol____eol__第4章 HDFS 63__eol__4.1 引言 63__eol__4.2 HDFS基础知识 64__eol__4.2.1 HDFS的特点 65__eol__4.2.2 HDFS的优缺点 65__eol__4.2.3 HDFS的核心概念 66__eol__4.2.4 HDFS执行流程 66__eol__4.3 HDFS的常用Shell命令 68__eol__4.4 Hadoop中HDFS的Web管理__eol__ 界面 72__eol__4.5 基于Java API的HDFS操作 73__eol__4.5.1 实验环境配置 74__eol__4.5.2 案例实现 76__eol__4.6 本章思维导图 78__eol__4.7 习题 78__eol__第5章 Hadoop分布式计算模型 79__eol__5.1 完全分布式环境配置 79__eol__5.2 完全分布式配置步骤 80__eol__5.3 MapReduce计算模型 83__eol__5.4 Mapper-Reducer实例 84__eol__5.4.1 实验准备 84__eol__5.4.2 案例实现 84__eol__5.5 本章思维导图 89__eol__5.6 习题 89__eol__第6章 分布式协调服务ZooKeeper 90__eol__6.1 高可靠性大数据框架配置 90__eol__6.2 ZooKeeper简介 91__eol__6.3 ZooKeeper的常用命令 92__eol__6.4 ZooKeeper的安装与运行 93__eol__6.5 本章思维导图 95__eol__6.6 习题 95__eol__第7章 Hadoop的集群资源管理系统__eol__ YARN 96__eol__7.1 Hadoop资源管理配置 96__eol__7.2 YARN简介 97__eol__7.3 YARN的工作流程 98__eol__7.4 YARN的安装与运行 99__eol__7.5 本章思维导图 100__eol__7.6 习题 101__eol__第3篇 大数据分析篇__eol____eol__第8章 数据库MySQL和数据仓库__eol__ Hive 102__eol__8.1 基于Hive的大数据分析__eol__ 配置 102__eol__8.2 Hive的意义和应用 103__eol__8.3 Hive和数据库的异同 104__eol__8.4 Hive的架构模式及其执行 106__eol__8.5 MySQL的安装和使用 108__eol__8.5.1 MySQL数据库简介 108__eol__8.5.2 安装MySQL 109__eol__8.5.3 MySQL的基本操作 109__eol__8.6 Hive的安装 114__eol__8.7 Hive表的操作 114__eol__8.7.1 内部表和外部表 114__eol__8.7.2 Hive表的操作 115__eol__8.8 典型内置函数与自定义函数 118__eol__8.8.1 空值转换函数nvl 118__eol__8.8.2 case when和sum函数的综合__eol__ 应用 119__eol__8.8.3 UDAF聚合函数concat 121__eol__8.8.4 UDTF炸裂函数explode 123__eol__8.8.5 窗口函数 124__eol__8.8.6 自定义函数实例 127__eol__8.9 本章思维导图 131__eol__8.10 习题 131__eol__第9章 NoSQL数据库HBase 132__eol__9.1 大数据框架的数据库存储__eol__ 配置 132__eol__9.2 NoSQL概念和分类 133__eol__9.3 HBase数据库 134__eol__9.3.1 HBase数据模型 135__eol__9.3.2 HBase体系架构及组件 136__eol__9.4 HBase的安装 137__eol__9.4.1 伪分布式 137__eol__9.4.2 完全分布式 137__eol__9.4.3 HBase的启动和关闭 138__eol__9.4.4 HBase的网页端 139__eol__9.5 HBase的Shell操作 141__eol__9.6 基于Java API访问HBase__eol__ 实例 146__eol__9.6.1 准备工作 146__eol__9.6.2 Eclipse环境下编程 146__eol__9.7 HBase综合实例 150__eol__9.8 本章思维导图 157__eol__9.9 习题 157__eol__第10章 基于内存的分布式计算__eol__ 框架Spark 158__eol__10.1 基于Spark的大数据分析框架__eol__ 配置 158__eol__10.2 Spark基础知识 159__eol__10.2.1 Spark的特点 159__eol__10.2.2 Spark和Hadoop的比较 160__eol__10.2.3 RDD的概念 161__eol__10.2.4 Spark的运行机制 161__eol__10.2.5 Spark的运行模式 163__eol__10.3 Spark的安装和使用 164__eol__10.3.1 Spark安装 164__eol__10.3.2 Python 3和Jupyter安装 165__eol__10.3.3 启动PySpark 166__eol__10.4 Spark的常用操作 168__eol__10.5 Spark SQL的应用 174__eol__10.6 Spark综合应用实例 178__eol__10.7 Spark的机器学习 179__eol__10.7.1 MLlib 179__eol__10.7.2 Scala语言 180__eol__10.7.3 MLlib的机器学习