注册 登录 进入教材巡展
#
  • #

出版时间:2016-07

出版社:中国人民大学出版社

以下为《大数据分布式计算与案例》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 中国人民大学出版社
  • 9787300230276
  • 86620
  • 45178604-0
  • 16开
  • 2016-07
  • 220
  • 理学
  • 数学
  • O212
  • 统计、经管
  • 本科 研究生(硕士、EMBA、MBA、MPA、博士)
内容简介
李丰编著的《大数据分布式计算与案例(全国应用统计专业学位研究生教育指导委员会推荐用书)》侧重于统计和机器学习模型在大数据分布式平台的应用,从案例人手,介绍常见统计模型的大数据分布式计算原理。基于单机共享内存背景开发的统计软件很难直接应用于分布式存储的海量数据。对于初学者而言,在大数据平台下,即便是开发简单的回归模型或者逻辑斯蒂模型都非常困难,更不用说复杂的统计、机器学习算法,这直接阻碍了高效的统计模型在大数据中的开发和部署。
目录
第1章  统计分析与并行计算
  1.1  并行计算与并行计算机
  1.2  统计计算的并行原理||以矩阵乘法为例
  1.3  基于R 的单机并行计算
  1.4  基于Pytho的单机并行计算
  1.5  大数据背景下的数据采集和存储
  1.6  参考文献
第2章  Hadoop基础
  2.1  Hadoop历史、生态系统
  2.2  Hadoop的分布式文件系统(HDFS)
  2.3  MapReduce工作原理
  2.4  Hadoop上运行MapReduce
  2.5  MapReduce实例:分层随机抽样
  2.6  MapReduce实例:聚类分析
  2.7  参考文献
第3章  基于Hadoop的分布式算法和模型实现
  3.1  R 中实现Hadoop分布式计算
  3.2  Mahout 与大数据机器学习
  3.3  利用Mahout 进行数据挖掘
  3.4  Mahout实例:Logistics 回归和随机森林分类算法
  3.5  Mahout实例:随机森林的分布式实现
  3.6  参考文献
第4章  统计模型的MapReduce 实现详解
  4.1  泊松回归模型:付费搜索广告分析
  4.2  判别分析:气象因素对雾霾影响分析
  4.3  分块Logistics回归
  4.4  文本分类
  4.5  朴素贝叶斯模型
  4.6  岭回归模型
  4.7  推荐系统
  4.8  参考文献
第5章  分布式文件访问与计算
  5.1  Hive基础
  5.2  HiveQL数据定义(DDL)
  5.3  HBase
  5.4  Hive 实例:FoodMart 案例
  5.5  Hive 实例:Hive Streaming 交互计算
  5.6  参考文献
第6章  Spark 与统计模型
  6.1  Spark 简介
  6.2  Spark 工作原理介绍
  6.3  Pyspark 命令介绍
  6.4  Spark 实例:通过Word Count 了解Spark 工作流程
  6.5  Spark 实例:二分类学习
  6.6  Spark 实例:决策树模型
  6.7  参考文献
附录A  Hadoop安装运行
  A.1  单机伪分布式安装
  A.2  全分布式集群
附录B  Mahout 安装与运行
附录C  Hive 安装运行
  C.1  准备
  C.2  安装Hive
  C.3  配置Hive
附录D  HBase 安装运行
  D.1  安装配置HBase
  D.2  启动HBase
附录E  Spark 的配置与安装
  E.1  安装配置Scala
  E.2  安装配置Spark