注册 登录 进入教材巡展
#
  • #

出版时间:2015-08

出版社:清华大学出版社

以下为《实战Hadoop大数据处理》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 清华大学出版社
  • 9787302411444
  • 1版
  • 79746
  • 48246936-8
  • 平装
  • 16开
  • 2015-08
  • 419
  • 233
  • 工学
  • 计算机科学与技术
  • TP274
  • 电子信息
  • 高职
作者简介
辽宁警官高等专科学校公安信息系
查看全部
内容简介
本书以“大数据”为起点,较详细地介绍了Hadoop的相关知识。全书共分为9章,介绍了大数据的基本理论、Hadoop生态系统、Hadoop的安装、HDFS分布式文件系统、MapReduce的原理及开发、HBase数据库、Hive数据仓库、Sqoop数据转换工具,最后结合实际介绍了大数据在智能交通和情报分析中的应用。本书力求用浅显的语言、生动的案例、详细的操作步骤向广大读者介绍Hadoop;力求深入浅出,把复杂的理论与实际案例相结合,用平实的语言把深奥的原理简单化;力求图文并茂,通过适当的图表把零乱的知识点有序地展现在读者面前;力求紧跟时代步伐,尽量结合较新版本的软件阐述大数据处理的相关知识。 本书适合作为Hadoop技术的初学者、工程技术人员、大专院校研究生或高年级本科生的学习用书或参考书。
目录
第1章大数据概述1
1.1大数据简介1
1.1.1大数据的概念与特点2
1.1.2大数据研究的背景4
1.1.3大数据的应用示例5
1.1.4大数据研究的意义6
1.2大数据处理技术简介6
1.2.1大数据的关键技术6
1.2.2大数据处理模式及其系统9
1.3大数据带来的挑战13
1.4大数据的研究与发展方向14
第2章Hadoop简介16
2.1Hadoop项目起源17
2.2Hadoop的由来19
2.3Hadoop核心组件及相关项目简介21
2.4Hadoop的版本衍化26
2.5Hadoop的发展趋势26
第3章Hadoop的安装28
3.1安装Ubuntu Server28
3.1.1VMware网络适配器的连接模式28
3.1.2“仅主机模式”网络的设置29
3.1.3安装Ubuntu Server31
3.1.4远程管理Ubuntu Server37
3.1.5安装JDK39
3.1.6克隆其他虚拟机41
3.1.7配置hosts文件43〖2〗〖4〗实战Hadoop大数据处理目录〖3〗3.2配置SSH公钥认证43
3.2.1为什么要公钥认证43
3.2.2公钥认证的工作原理44
3.2.3SSH客户端的安装44
3.2.4SSH配置45
3.2.5配置SecureCRT公钥登录Linux服务器47
3.3安装配置Hadoop49
3.3.1单机安装50
3.3.2伪分布模式的安装51
3.3.3分布式安装53
3.3.4Hadoop管理员常用命令58
3.4双NameNode分布式安装Hadoop 2.2.063
3.4.1安装配置Zookeeper集群64
3.4.2安装Hadoop 2.2.065
第4章HDFS文件系统71
4.1互联网时代对存储系统的新要求71
4.2HDFS系统的特点72
4.3HDFS文件系统73
4.3.1HDFS系统组成73
4.3.2HDFS文件数据的存储组织75
4.3.3元数据及其备份机制77
4.3.4数据块备份79
4.3.5数据的读取过程80
4.3.6数据的写入过程81
4.4HDFS Shell命令82
4.5API访问HDFS88
4.5.1编译Hadoop的Eclipse插件88
4.5.2在Eclipse中安装Hadoop插件90
4.5.3Hadoop URL读取数据92
4.5.4FileSystem类93
4.5.5取得HDFS的元信息97
4.6HDFS的高可用性99
4.6.1元数据的备份99
4.6.2使用SecondaryName进行备份100
4.6.3BackupNode备份100
4.6.4Hadoop 2.X中HDFS的高可用性实现原理100
4.6.5Federation机制101
4.7HDFS中小文件存储问题105
4.7.1文件归档技术105
4.7.2SequenceFile格式108
4.7.3CombineFileInputFormat108
第5章MapReduce原理及开发110
5.1初识MapReduce110
5.1.1试用WordCount110
5.1.2自己编写WordCount111
5.1.3WordCount处理过程118
5.2MapReduce工作原理119
5.2.1MapReduce数据处理过程119
5.2.2MapReduce框架组成120
5.2.3MapReduce运行原理121
5.3Shuffle和Sort123
5.3.1Map端的Shuffle124
5.3.2Reduce端Shuffle126
5.3.3Shuffle过程优化127
5.4任务的执行128
5.4.1推测执行128
5.4.2任务JVM重用129
5.4.3跳过坏的记录129
5.4.4任务执行的信息129
5.5故障处理130
5.5.1任务失败130
5.5.2TaskTracker失败130
5.5.3JobTracker失败130
5.5.4任务失败重试的处理方法130
5.6作业调度131
5.6.1先进先出(FIFO)调度器131
5.6.2能力调度器132
5.6.3公平调度器132
5.7MapReduce编程接口132
5.7.1InputFormat——输入格式类133
5.7.2FileInputFormat——文件输入格式类134
5.7.3InputSplit——数据分块类134
5.7.4RecordReader——记录读取类135
5.7.5Mapper类135
5.7.6Reducer类136
5.7.7OutputFormat——输出格式类137
5.7.8FileOutputFormat类——文件输出格式类138
5.7.9RecordWriter类——记录输出类138
5.8MapReduce应用开发138
5.8.1计数类应用139
5.8.2去重计数类应用143
5.8.3简单排序类应用145
5.8.4倒排索引类应用148
5.8.5二次排序类应用154
第6章HBase数据库160
6.1HBase介绍160
6.1.1互联网时代对数据库的要求160
6.1.2HBase的特点160
6.2HBase架构与原理161
6.2.1系统的架构及组成161
6.2.2HBase逻辑视图163
6.2.3HBase的物理模型164
6.2.4元数据表165
6.3安装HBase166
6.3.1单机模式安装166
6.3.2伪分布模式安装168
6.3.3分布式安装169
6.4HBase Shell操作171
6.4.1基本Shell命令171
6.4.2DDL操作172
6.4.3DML操作174
6.4.4HBase Shell脚本176
6.5基于API使用HBase176
6.5.1API简介177
6.5.2表操作示例179
6.5.3数据操作示例181
6.5.4Filter的应用与示例184
6.6MapReduce操作HBase数据191
6.6.1HBase MapReduce汇总到文件193
6.6.2HBase MapReduce汇总到HBase195
6.7HBase优化196
6.7.1JVM GC优化196
6.7.2HBase参数调优197
6.7.3表设计优化199
6.7.4读优化200
6.7.5写优化201
第7章Hive数据仓库202
7.1Hive简介202
7.1.1数据分析工具应具有的特征202
7.1.2Pig与Hive的比较202
7.1.3Hive架构203
7.1.4Hive的元数据存储205
7.1.5Hive文件存储格式206
7.1.6Hive支持的数据类型207
7.2Hive的安装207
7.2.1安装MySQL207
7.2.2安装Hive209
7.2.3Hive的用户接口211
7.3Hive QL讲解214
7.3.1DDL命令214
7.3.2DML操作219
7.3.3SELECT查询222
7.4Hive复杂类型228
7.4.1Array(数组)228
7.4.2Map类型229
7.4.3Struct类型229
7.5Hive函数230
7.5.1Hive内置函数230
7.5.2Hive用户自定义函数231
第8章数据整合235
8.1大数据整合问题235
8.2Sqoop 1.4X整合工具236
8.3Sqoop2整合工具240
第9章典型应用案例介绍245
9.1大数据在智能交通中的应用245
9.1.1交通运输业面临的挑战245
9.1.2智能交通大数据平台的架构247
9.1.3数据分析层的数据基础分析248
9.2大数据在情报分析中的应用253
9.2.1公安情报分析的现状254
9.2.2大数据情报分析系统架构254
9.2.3数据的整合255
9.2.4情报分析的方法256
9.2.5基于文本的串并案件聚类分析257
参考文献264