大数据技术综合应用实践 / 大数据技术应用实践系列
¥38.80定价
作者: 陈红松
出版时间:2019-08
出版社:北京师范大学出版社
- 北京师范大学出版社
- 9787303247622
- 1版
- 284125
- 48258745-8
- 平装
- 16开
- 2019-08
- 248
- 工学
- 软件工程
- 计算机、大数据
- 本科
作者简介
目录
第1章 大数据分析生命周期概述 6
1.1 发现 9
1.1.1 学习业务领域 9
1.1.2 资源 10
1.1.3 设定问题 11
1.1.4 确定关键利益相关者 11
1.1.5 采访分析发起人 11
1.1.6 形成初始假设 12
1.1.7 明确潜在数据源 13
1.2 数据准备 13
1.2.1 数据沙箱(工作区) 14
1.2.2 探索性数据分析(EDA) 14
1.2.3 数据操作(执行ELT) 14
1.2.4 研究数据 15
1.2.5 整理治理 15
1.2.6 调查和可视化 16
1.2.7 数据准备阶段的常用工具 16
1.3 模型规划 17
1.3.1 数据探索与变量选择 17
1.3.2 模型的选择 17
1.4 模型建立 17
1.5 沟通与实施 19
1.5.1 沟通 19
1.5.2 实施 19
1.6 本章小结 20
1.7 本章练习 20
1.7.1 习题 20
1.7.2 思考题 20
第2章 数据采集 20
2.1 数据采集的原理 21
2.1.1 数据的三种来源 21
2.1.2 Sqoop数据转移 22
2.1.3 Nginx及其配置文件介绍 24
2.1.4 Flume及其配置文件介绍 29
2.1.5 爬虫程序简介 31
2.2 数据采集的实验步骤 32
2.2.1 开启集群和MySQL 32
2.2.2 Sqoop向HDFS导数据 33
2.2.3 搭建Nginx 34
2.2.4 使用Flume 37
2.2.5 使用爬虫程序 39
2.3 本章小结 39
2.4 本章练习 39
2.4.1 习题 39
2.4.2 思考题 40
第3章 数据清洗 40
3.1 数据清洗的原理 40
3.1.1 数据清洗简介 40
3.1.2 常见的工具及技术 42
3.1.3 数据清洗基本步骤 43
3.2 数据清洗的实验步骤 46
3.2.1 实验数据 46
3.2.2 开启Hadoop 49
3.2.3 使用Hive进行数据预处理 49
3.2.4 建表和数据导入 50
3.2.5 建表并使用Python脚本处理导入数据 52
3.2.6 将结果表格导出到本地 57
3.3 本章小结 58
3.4 本章练习 58
3.4.1 习题 58
3.4.2 思考题 59
第4章 可视化工具 59
4.1 可视化工具:Matplotlib 59
4.1.1 Python中Matplotlib的介绍 61
4.1.2 Python中Matplotlib的安装 62
4.1.3 导入数据 64
4.1.4 绘制柱状图 67
4.1.5 绘制散点图 70
4.1.6 通过bar方法绘制柱状图 72
4.1.7 其他属性学习 73
4.2 可视化工具:Echart 74
4.2.1 Echart的介绍 74
4.2.2 新建项目 77
4.2.3 加载项目 79
4.2.4 发布项目 80
4.2.5 编写复杂图形 81
4.3 本章小结 83
4.4 本章练习 83
4.4.1 习题 83
4.4.2 思考题 83
第5章 数据建模 83
5.1 数据建模的原理 84
5.1.1 数据建模的概念 86
5.1.2 建模的分类 86
5.1.3 数据建模的步骤 87
5.1.4 数据建模的方法 88
5.1.5 建模过程中的主要活动 91
5.2 数据建模的实验步骤 91
5.2.1 连接服务器 91
5.2.2 实验环境的介绍 93
5.2.3 实验数据 93
5.2.4 建立特征工程 95
5.3 本章小结 100
5.4 本章练习 101
5.4.1 习题 101
5.4.2 思考题 101
第6章 模型评估与优化 101
6.1 数据与实验环境介绍 102
6.1.1 模型评估与优化的概念 102
6.1.2 环境简介 104
6.2 数据来源与格式 109
6.2.1数据来源 109
6.2.2 数据格式 109
6.3 实验的软硬件环境 110
6.3.1 硬件环境配置 110
6.3.2 软件环境配置 110
6.3.3 开发语言 111
6.4 数据分析方法与过程 111
6.4.1 实验数据 111
6.4.2 连接服务器 112
6.4.3 实验环境介绍 114
6.4.4 数据预处理 114
6.4.5 评估模型 116
6.4.6 引入画图类 119
6.4.7 模型优化,获得最优评估模型参数 120
6.5 本章小结 121
6.6 本章练习 121
6.6.1 习题 121
6.6.2 思考题 121
第7章 出租车数据分析 122
7.1 出租车大数据应用需求分析 122
7.2 数据与实验环境介绍 122
7.3 数据来源与格式 124
7.3.1 数据来源 124
7.3.2 数据格式 125
7.4 实验的软硬件环境 126
7.4.1 硬件环境配置 126
7.4.2 软件环境配置 126
7.4.3 开发语言 127
7.5 数据分析方法与过程 127
7.5.1 获得数据 127
7.5.2 数据可视化 129
7.5.3 数据预测处理 138
7.5.4 基于Spark会话分析 141
7.6 本章小结 142
7.7 本章练习 142
7.7.1 习题 142
7.7.2 思考题 143
第8章 音乐分类 143
8.1 音乐大数据分类的需求分析 143
8.2 数据与实验环境介绍 144
8.2.1 业务分析 144
8.2.2 逻辑设计 144
8.2.3 音乐文件处理 145
8.3 数据来源与格式 148
8.3.1 数据来源 148
8.3.2 数据格式 148
8.4 实验的软硬件环境 148
8.4.1 硬件环境配置 148
8.4.2 软件环境配置 148
8.4.3 开发语言 149
8.5 数据分析方法与过程 150
8.5.1 案例流程 150
8.5.2 程序实例学习 150
8.6 本章小结 158
8.7 本章练习 159
8.7.1 习题 159
8.7.2 思考题 159
第9章 知识图谱制作 159
9.1 知识图谱应用需求分析 159
9.2 数据与实验环境介绍 160
9.3 数据来源与格式 161
9.3.1 数据来源 161
9.3.2 数据格式 161
9.4 实验的软硬件环境 163
9.4.1 硬件环境配置 163
9.4.2 软件环境配置 163
9.4.3 开发语言 164
9.5 数据分析方法与过程 164
9.5.1 需求分析 164
9.5.2 Neo4j安装和使用 165
9.5.3 数据分析 169
9.5.4 构建图网络 182
9.6 本章小结 188
9.7 本章练习 189
9.7.1 习题 189
9.7.2 思考题 189
第10章 电影评论情感分析 189
10.1 电影评论情感分析需求分析 190
10.2 数据与实验环境介绍 190
10.2.1 文本情感分析概念 190
10.2.2 文本情感分析主要有四个步骤 191
10.2.3 TFIDF词频逆文档频率 191
10.2.4 LSA潜在语义分析 191
10.2.5 SVD奇异值分解 192
10.2.6 IK分词 192
10.3 数据来源与格式 193
10.3.1 数据来源 193
10.3.2 数据格式 193
10.4 实验的软硬件环境 194
10.4.1 硬件环境配置 194
10.4.2 软件环境配置 194
10.4.3 开发语言 195
10.5 数据分析方法与过程 196
10.5.1 简单的评论分析 196
10.5.2 数据获取 200
10.5.3 数据预处理 202
10.6 本章小结 222
10.7 本章练习 223
10.7.1 习题 223
10.7.2 思考题 223
引用 223
1.1 发现 9
1.1.1 学习业务领域 9
1.1.2 资源 10
1.1.3 设定问题 11
1.1.4 确定关键利益相关者 11
1.1.5 采访分析发起人 11
1.1.6 形成初始假设 12
1.1.7 明确潜在数据源 13
1.2 数据准备 13
1.2.1 数据沙箱(工作区) 14
1.2.2 探索性数据分析(EDA) 14
1.2.3 数据操作(执行ELT) 14
1.2.4 研究数据 15
1.2.5 整理治理 15
1.2.6 调查和可视化 16
1.2.7 数据准备阶段的常用工具 16
1.3 模型规划 17
1.3.1 数据探索与变量选择 17
1.3.2 模型的选择 17
1.4 模型建立 17
1.5 沟通与实施 19
1.5.1 沟通 19
1.5.2 实施 19
1.6 本章小结 20
1.7 本章练习 20
1.7.1 习题 20
1.7.2 思考题 20
第2章 数据采集 20
2.1 数据采集的原理 21
2.1.1 数据的三种来源 21
2.1.2 Sqoop数据转移 22
2.1.3 Nginx及其配置文件介绍 24
2.1.4 Flume及其配置文件介绍 29
2.1.5 爬虫程序简介 31
2.2 数据采集的实验步骤 32
2.2.1 开启集群和MySQL 32
2.2.2 Sqoop向HDFS导数据 33
2.2.3 搭建Nginx 34
2.2.4 使用Flume 37
2.2.5 使用爬虫程序 39
2.3 本章小结 39
2.4 本章练习 39
2.4.1 习题 39
2.4.2 思考题 40
第3章 数据清洗 40
3.1 数据清洗的原理 40
3.1.1 数据清洗简介 40
3.1.2 常见的工具及技术 42
3.1.3 数据清洗基本步骤 43
3.2 数据清洗的实验步骤 46
3.2.1 实验数据 46
3.2.2 开启Hadoop 49
3.2.3 使用Hive进行数据预处理 49
3.2.4 建表和数据导入 50
3.2.5 建表并使用Python脚本处理导入数据 52
3.2.6 将结果表格导出到本地 57
3.3 本章小结 58
3.4 本章练习 58
3.4.1 习题 58
3.4.2 思考题 59
第4章 可视化工具 59
4.1 可视化工具:Matplotlib 59
4.1.1 Python中Matplotlib的介绍 61
4.1.2 Python中Matplotlib的安装 62
4.1.3 导入数据 64
4.1.4 绘制柱状图 67
4.1.5 绘制散点图 70
4.1.6 通过bar方法绘制柱状图 72
4.1.7 其他属性学习 73
4.2 可视化工具:Echart 74
4.2.1 Echart的介绍 74
4.2.2 新建项目 77
4.2.3 加载项目 79
4.2.4 发布项目 80
4.2.5 编写复杂图形 81
4.3 本章小结 83
4.4 本章练习 83
4.4.1 习题 83
4.4.2 思考题 83
第5章 数据建模 83
5.1 数据建模的原理 84
5.1.1 数据建模的概念 86
5.1.2 建模的分类 86
5.1.3 数据建模的步骤 87
5.1.4 数据建模的方法 88
5.1.5 建模过程中的主要活动 91
5.2 数据建模的实验步骤 91
5.2.1 连接服务器 91
5.2.2 实验环境的介绍 93
5.2.3 实验数据 93
5.2.4 建立特征工程 95
5.3 本章小结 100
5.4 本章练习 101
5.4.1 习题 101
5.4.2 思考题 101
第6章 模型评估与优化 101
6.1 数据与实验环境介绍 102
6.1.1 模型评估与优化的概念 102
6.1.2 环境简介 104
6.2 数据来源与格式 109
6.2.1数据来源 109
6.2.2 数据格式 109
6.3 实验的软硬件环境 110
6.3.1 硬件环境配置 110
6.3.2 软件环境配置 110
6.3.3 开发语言 111
6.4 数据分析方法与过程 111
6.4.1 实验数据 111
6.4.2 连接服务器 112
6.4.3 实验环境介绍 114
6.4.4 数据预处理 114
6.4.5 评估模型 116
6.4.6 引入画图类 119
6.4.7 模型优化,获得最优评估模型参数 120
6.5 本章小结 121
6.6 本章练习 121
6.6.1 习题 121
6.6.2 思考题 121
第7章 出租车数据分析 122
7.1 出租车大数据应用需求分析 122
7.2 数据与实验环境介绍 122
7.3 数据来源与格式 124
7.3.1 数据来源 124
7.3.2 数据格式 125
7.4 实验的软硬件环境 126
7.4.1 硬件环境配置 126
7.4.2 软件环境配置 126
7.4.3 开发语言 127
7.5 数据分析方法与过程 127
7.5.1 获得数据 127
7.5.2 数据可视化 129
7.5.3 数据预测处理 138
7.5.4 基于Spark会话分析 141
7.6 本章小结 142
7.7 本章练习 142
7.7.1 习题 142
7.7.2 思考题 143
第8章 音乐分类 143
8.1 音乐大数据分类的需求分析 143
8.2 数据与实验环境介绍 144
8.2.1 业务分析 144
8.2.2 逻辑设计 144
8.2.3 音乐文件处理 145
8.3 数据来源与格式 148
8.3.1 数据来源 148
8.3.2 数据格式 148
8.4 实验的软硬件环境 148
8.4.1 硬件环境配置 148
8.4.2 软件环境配置 148
8.4.3 开发语言 149
8.5 数据分析方法与过程 150
8.5.1 案例流程 150
8.5.2 程序实例学习 150
8.6 本章小结 158
8.7 本章练习 159
8.7.1 习题 159
8.7.2 思考题 159
第9章 知识图谱制作 159
9.1 知识图谱应用需求分析 159
9.2 数据与实验环境介绍 160
9.3 数据来源与格式 161
9.3.1 数据来源 161
9.3.2 数据格式 161
9.4 实验的软硬件环境 163
9.4.1 硬件环境配置 163
9.4.2 软件环境配置 163
9.4.3 开发语言 164
9.5 数据分析方法与过程 164
9.5.1 需求分析 164
9.5.2 Neo4j安装和使用 165
9.5.3 数据分析 169
9.5.4 构建图网络 182
9.6 本章小结 188
9.7 本章练习 189
9.7.1 习题 189
9.7.2 思考题 189
第10章 电影评论情感分析 189
10.1 电影评论情感分析需求分析 190
10.2 数据与实验环境介绍 190
10.2.1 文本情感分析概念 190
10.2.2 文本情感分析主要有四个步骤 191
10.2.3 TFIDF词频逆文档频率 191
10.2.4 LSA潜在语义分析 191
10.2.5 SVD奇异值分解 192
10.2.6 IK分词 192
10.3 数据来源与格式 193
10.3.1 数据来源 193
10.3.2 数据格式 193
10.4 实验的软硬件环境 194
10.4.1 硬件环境配置 194
10.4.2 软件环境配置 194
10.4.3 开发语言 195
10.5 数据分析方法与过程 196
10.5.1 简单的评论分析 196
10.5.2 数据获取 200
10.5.3 数据预处理 202
10.6 本章小结 222
10.7 本章练习 223
10.7.1 习题 223
10.7.2 思考题 223
引用 223