注册 登录 进入教材巡展
#
  • #

出版时间:2019-11

出版社:北京邮电大学出版社

以下为《大数据技术基础》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 北京邮电大学出版社
  • 9787563558780
  • 285149
  • 48255223-9
  • 2019-11
  • 工学
  • 软件工程
  • TP274
  • 计算机类
  • 本科
内容简介
本书围绕大数据技术基础,重点介绍了大数据存储系统(分布式文件系统和NoSQL数据库)、大数据处理框架(Hadoop的MapReduce、Spark及实时处理框架Storm和Flink)、大数据仓库技术(Hive、Druid等)、大数据多维分析(Kylin)、大数据可视化技术和大数据综合应用等,以及当今主流的大数据平台构建技术和开源组件实践知识,可以指导读者全面、系统地掌握大数据各层的实现方案,开展各领域的大数据实践。本书可作为计算机学科相关专业,特别是数据科学与大数据技术专业的教材。
目录
第1章大数据概述1 本章思维导图1 1.1大数据简介2 1.1.1大数据的发展历程2 1.1.2大数据的定义与特征2 1.1.3大数据与传统数据的区别3 1.2大数据平台应具备的能力3 1.3大数据平台架构5 1.4Hadoop生态系统8 1.5大数据应用10 1.5.1互联网大数据应用10 1.5.2金融行业大数据应用10 1.5.3医疗行业大数据应用11 1.5.4智慧交通大数据应用11 本章课后习题12 本章参考文献12 第2章大数据存储——分布式文件系统及NoSQL数据库14 本章思维导图14 2.1分布式文件系统15 2.1.1HDFS相关概念15 2.1.2HDFS体系结构16 2.1.3HDFS存储机制18 2.1.4HDFS读/写操作20 2.1.5HDFS数据导入21 2.2NoSQL数据库22 2.2.1KeyValue模型22 2.2.2KeyDocument 模型23 2.2.3KeyColumn模型24 2.2.4图模型25 2.3列族数据库25 2.3.1列族数据库简介25 2.3.2HBase的基本原理26 2.3.3HBase的数据模型30 2.4键值数据库33 2.4.1键值数据库简介33 2.4.2选择键值数据库的原因33 2.4.3Redis的数据结构简介34 2.4.4Redis的数据持久化36 2.4.5Redis的数据复制37 2.5文档数据库38 2.5.1文档数据库简介38 2.5.2MongoDB的数据类型39 2.5.3MongoDB的数据复制40 2.6图数据库42 2.6.1图数据库简介42 2.6.2图数据库的优势43 2.6.3Neo4j的基本元素与概念44 2.6.4Cypher简介46 本章课后习题47 本章参考文献47 第3章大数据处理——MapReduce处理框架48 本章思维导图48 3.1MapReduce的发展背景49 3.2MapReduce框架50 3.3MapReduce的编程模型52 3.3.1MapReduce初析52 3.3.2MapReduce的运行机制57 3.3.3MapReduce的相关问题59 3.4MapReduce的集群调度60 3.4.1Hadoop1.x的传统集群调度框架60 3.4.2Hadoop2.x的集群调度框架YARN61 3.4.3Hadoop作业调度器64 本章课后习题67 本章参考文献67 第4章大数据处理——分布式内存处理框架Spark 68 本章思维导图68 4.1Spark简介69 4.1.1Spark介绍69 4.1.2提出Spark的原因70 4.1.3Spark中的关键术语70 4.1.4Spark的优点71 4.2Spark框架72 4.2.1Spark框架图72 4.2.2Spark运行图73 4.2.3Spark任务调度方法73 4.3RDD概念理解74 4.3.1RDD介绍74 4.3.2RDD的操作75 4.3.3RDD的存储75 4.3.4RDD分区76 4.3.5RDD优先位置76 4.3.6RDD依赖关系76 4.4RDD操作78 4.4.1RDD创建78 4.4.2转换操作78 4.4.3行动操作80 4.5Scala语言81 4.5.1Scala介绍81 4.5.2Scala基本语法82 4.5.3Scala编写Spark示例86 4.6Spark SQL简介86 4.6.1Spark SQL与Shark的对比86 4.6.2Spark SQL的优势87 4.6.3Spark SQL生态87 4.7MLlib简介88 4.7.1MLlib介绍88 4.7.2MLlib支持机器学习算法88 本章课后习题89 本章参考文献89 第5章大数据处理——实时处理框架90 本章思维导图90 5.1实时处理架构91 5.1.1基本概念91 5.1.2批量和流式计算92 5.1.3系统生态简介92 5.2Storm框架93 5.2.1Storm的基本术语和概念93 5.2.2Storm特性及运行原理94 5.2.3消息的生命周期95 5.2.4消息的可靠性保障96 5.3Flume分布式日志收集98 5.3.1Flume的基本术语和概念98 5.3.2源99 5.3.3通道100 5.3.4接收器100 5.4Kafka分布式消息队列101 5.4.1Kafka的基本术语和概念102 5.4.2生产者103 5.4.3消费者104 5.4.4数据传递的可靠性保障105 5.5Spark Streaming框架107 5.5.1Spark Streaming架构107 5.5.2输入数据源108 5.5.3DStream的转换操作108 5.5.4输出存储110 5.5.5容错机制110 5.6Flink框架112 5.6.1Flink架构112 5.6.2Client112 5.6.3JobManager113 5.6.4TaskManager114 本章课后习题115 本章参考文献115 第6章大数据查询——分布式数据查询116 本章思维导图116 6.1分布式数据查询简介117 6.2Hive分布式数据仓库118 6.2.1Hive概述118 6.2.2Hive内部介绍118 6.2.3Hive架构介绍119 6.2.4HiveQL:数据定义119 6.2.5HiveQL:数据导入121 6.2.6HiveQL:查询123 6.3Druid时序数据仓储129 6.3.1Druid概述129 6.3.2架构详解132 6.3.3数据摄入135 6.3.4数据查询141 6.4Drill分布式实时查询156 6.4.1使用Apache Drill的原因156 6.4.2Drill架构与原理157 6.4.3Drill核心模块160 6.4.4使用Drill实现查询161 本章课后习题168 本章参考文献168 第7章大数据分析——Kylin分布式多维数据分析170 本章思维导图170 7.1使用Apache Kylin的原因171 7.2Kylin学习的前奏172 7.2.1数据仓库的概念与产生需求172 7.2.2数据仓库与数据分析型系统174 7.2.3多维数据分析175 7.2.4OLAP与数据立方体176 7.3Kylin工作原理178 7.3.1Cube与Cuboid178 7.3.2工作流程178 7.4Kylin架构179 7.5Kylin快速入门181 7.5.1在Hive中准备数据181 7.5.2设计数据模型181 7.5.3创建Cube183 7.5.4构建Cube186 7.5.5查询Cube188 7.6增量构建188 7.6.1设计增量Cube189 7.6.2触发增量构建190 7.6.3管理Cube碎片190 7.7查询和可视化192 7.7.1Web GUI192 7.7.2Rest API194 7.7.3ODBC197 7.7.4通过Tableau访问Kylin197 7.8Cube优化201 本章课后习题204 本章参考文献204 第8章数据可视化205 本章思维导图205 8.1数据可视化定义及分类206 8.1.1数据可视化定义206 8.1.2数据可视化分类206 8.2数据可视化基础208 8.2.1数据可视化流程208 8.2.2可视化中的数据209 8.2.3可视化的基本图表210 8.2.4视图的交互211 8.3信息可视化分类212 8.3.1时空数据可视化212 8.3.2层次和网络数据可视化213 8.3.3文本和文档可视化214 8.4在商业智能中的数据可视化应用214 8.4.1商业智能可视化的基本元素215 8.4.2仪表盘的设计准则215 8.5数据可视化的实现216 8.5.1数据可视化工具216 8.5.2ECharts217 8.5.3Plotly218 本章课后习题220 本章参考文献221 第9章大数据应用系统案例——互联网应用大数据系统构建222 本章思维导图222 9.1互联网业务背景介绍223 9.2案例的大数据平台技术体系架构223 9.2.1数据采集224 9.2.2数据存储226 9.2.3数据计算227 9.2.4数据应用229 本章课后习题230 本章参考文献230