注册 登录 进入教材巡展
#
  • #

出版时间:2020-09

出版社:机械工业出版社

以下为《大数据技术导论》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111621713
  • 1-2
  • 262614
  • 48239401-2
  • 平装
  • 16开
  • 2020-09
  • 276
  • 184
  • 工学
  • 计算机科学与技术
  • 数据科学与大数据技术
  • 本科
内容简介
本书以面向应用、面向实战为指导思想,紧扣企业技术人才培养的特点,在知识点讲解和实验中避免复杂的理论,使读者能快速上手体验、验证大数据处理的魅力,以激发读者的学习兴趣。
本书覆盖了大数据生命周期中的主要技术要点,全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。
本书可作为本科、高职院校大数据技术或数据科学课程的参考书或教材,也可供数据科学相关技术人员阅读。
目录
目 录前言第1章 概论11.1 揭秘大数据11.1.1 大数据产生历史必然11.1.2 大数据概念和特征21.1.3 大数据生命周期31.1.4 大数据与物联网、云计算、人工智能51.1.5 大数据时代的八个重大变革51.2 Linux系统概述71.2.1 Linux版本71.2.2 Linux系统目录结构71.2.3 文本编辑器vi91.2.4 文件权限解读101.2.5 Linux系统常用命令11习题112实验报告1 Linux实验13第2章 大数据生态系统152.1 认识Hadoop152.2 HDFS162.2.1 HDFS体系结构162.2.2 HDFS存储原理172.2.3 HDFS常用操作202.3 MapReduce212.3.1 MapReduce逻辑结构212.3.2 MapReduce操作案例23*2.4 Zookeeper24习题225实验报告2 Hadoop实验27第3章 大数据采集与预处理293.1 数据293.1.1 数据是什么293.1.2 数据分类293.1.3 度量和维度313.2 数据采集323.2.1 数据采集分类323.2.2 数据采集方法323.2.3 数据采集工具323.3 数据清洗343.3.1 数据清洗任务343.3.2 数据清洗过程343.4 数据变换353.4.1 规范化363.4.2 函数变换363.5 网络爬虫373.5.1 爬虫简介37*3.5.2 论坛爬虫源代码分析38习题340*实验报告3 网络爬虫41第4章 大数据管理424.1 NoSQL424.1.1 NoSQL概述424.1.2 键值数据库434.1.3 图数据库444.1.4 文档数据库454.1.5 列式数据库474.1.6 云数据库474.2 HBase474.2.1 HBase模型474.2.2 HBase与传统关系数据库的对比分析494.2.3 HBase系统架构494.2.4 HBase常用Shell命令51习题452实验报告4 HBase实验53第5章 大数据分析545.1 大数据分析概述545.1.1 数据分析原则545.1.2 大数据分析特点545.1.3 大数据分析流程555.1.4 数据分析师基本技能和素质57*5.1.5 大数据分析难点58*5.2 业务理解595.2.1 什么是业务理解595.2.2 如何理解业务605.2.3 数据业务化615.3 数据认知635.3.1 数据预处理635.3.2 概率分析63*5.3.3 对比分析67*5.3.4 细分分析68*5.3.5 交叉分析695.3.6 相关分析695.4 特征工程725.4.1 特征工程面临的挑战725.4.2 特征选择725.4.3 特征提取725.4.4 指标设计735.5 数据建模765.5.1 模型分类765.5.2 决策树775.5.3 关联分析815.5.4 回归分析825.5.5 聚类分析85*5.5.6 k-邻近分类算法KNN86*5.6 通用计算引擎Spark865.6.1 Spark简介865.6.2 Spark与Hadoop差异885.6.3 Spark适用场景885.6.4 Spark运行模式895.6.5 Spark常用术语895.7 大数据分析引擎Hive895.7.1 数据仓库概念895.7.2 传统数据仓库的问题905.7.3 Hive特征905.7.4 Hive系统架构905.7.5 Hive应用案例91习题595实验报告5 Hive实验101第6章 大数据可视化1026.1 数据可视化基本概念1026.1.1 为什么要数据可视化1026.1.2 什么是数据可视化1036.1.3 数据可视化的作用1046.1.4 数据可视化术语1046.1.5 数据可视化三要素1056.2 常用图形1056.2.1 饼图(扇形图)1056.2.2 堆积柱形图1066.2.3 风玫瑰图1066.2.4 柱状图1076.2.5 直方图1076.2.6 气泡图1086.2.7 散点图矩阵1086.2.8 折线图1096.2.9 面积图1096.2.10 相关系数图1106.2.11 雷达图1106.2.12 箱线图1106.3 数据可视化设计1116.3.1 数据可视化设计原则1116.3.2 数据可视化=数据+设计+故事1136.3.3 数据可视化图形选择建议1136.4 数据可视化工具1146.4.1 基本工具1146.4.2 进阶工具1146.5 基于R语言可视化基础1176.5.1 基本绘图命令1176.5.2 ggplot2绘图121习题6128*实验报告6 可视化实验129第7章 大数据应用1317.1 零售行业大数据1317.1.1 沃尔玛的购物篮分析1317.1.2 农夫山泉用海量照片提升销量1327.2 交通大数据1347.2.1 交通拥堵大数据分析1347.2.2 预测起飞时间1427.3 医疗大数据1437.3.1 移动医疗与个人健康1437.3.2 基因测序——精准治癌正在成为现实146第8章 大数据安全1508.1 大数据安全的重要意义1508.2 大数据面临的挑战1518.3 大数据的安全威胁1528.3.1 大数据基础设施安全威胁1528.3.2 大数据存储安全威胁1528.3.3 大数据的隐私泄露1538.3.4 大数据的其他安全威胁1558.4 大数据与网络攻击监测1558.5 大数据安全分析1558.6 大数据安全标准1578.6.1 基础标准类1588.6.2 平台和技术类1588.6.3 数据安全类1598.6.4 服务安全类1598.6.5 应用安全类160附录 大数据软件安装161A.1 基础环境准备161A.2 安装JDK162A.3 安装Hadoop162A.4 安装Zookeeper167A.5 安装HBase169A.6 安装Hive170A.7 安装Spark172参考文献175