大数据导论(第二版) / 郑州市“码农计划”大数据人才培养系列教材,普通高等院校新工科数据科学与大数据专业系列教材
¥56.00定价
作者: 甘勇,陶红伟,吴怀广
出版时间:2023-12
出版社:中国铁道出版社
河南省“十四五”普通高等教育规划教材
- 中国铁道出版社
- 9787113298951
- 2版
- 455250
- 48256952-2
- 16开
- 2023-12
- 计算机及相关专业
- 本科 高职
作者简介
内容简介
为适应大数据时代的需要,许多高校纷纷设立数据科学与大数据专业。本书基于高等院校相应课程的教学要求而编写,详细讲述了大数据与数据科学、数据采集与数据预处理、数据存储、数据处理、数据分析、数据可视化、数据安全与隐私、大数据应用、数据思维等内容。
本书内容注重引导性、前瞻性、经典性、实践性,旨在引导读者进入大数据领域,了解大数据最新技术及其行业应用,关注大数据分析经典算法。书中还设置了实验环境和多个案例,便于读者进行实践操作。
本书适合作为高等院校数据科学与大数据专业及其相近专业教材,也可供从事相关科研和工程技术人员参考。
本书内容注重引导性、前瞻性、经典性、实践性,旨在引导读者进入大数据领域,了解大数据最新技术及其行业应用,关注大数据分析经典算法。书中还设置了实验环境和多个案例,便于读者进行实践操作。
本书适合作为高等院校数据科学与大数据专业及其相近专业教材,也可供从事相关科研和工程技术人员参考。
目录
第 1 章大数据与数据科学 / 1
1.1 大数据概述 / 1
1.1.1 大数据的概念 / 2
1.1.2 大数据的特征 / 2
1.1.3 大数据的结构类型 / 3
1.2 大数据的发展 / 4
1.3 大数据处理的挑战 / 5
1.4 数据科学的概念 / 6
1.5 数据科学的由来 / 7
1.6 数据科学的应用场景 / 9
1.6.1 行业数据 / 9
1.6.2 数据服务 / 10
小结 / 11
习题 / 11
第 2 章? 数据采集与数据预处理 / 12
2.1 数据采集和数据预处理概述 / 12
2.1.1 数据采集概述 / 12
2.1.2 数据预处理概述 / 13
2.2 数据采集技术 / 15
2.2.1 网络数据采集技术 / 15
2.2.2 日志数据采集技术 / 23
2.3 数据预处理技术 / 28
2.3.1 数据清洗 / 28
2.3.2 数据集成 / 30
2.3.3 数据变换 / 30
2.3.4 数据规约 / 31
2.3.5 电力大数据的采集 / 32
小结 / 34
习题 / 34
第 3 章? 数据存储 / 35
3.1 数据存储概述 / 35
3.1.1 数据存储的发展历程 / 35
3.1.2 数据存储模型 / 37
3.2 关系型数据库 / 37
3.2.1 关系型数据库的基本概念 / 38
3.2.2 关系型数据库的优缺点 / 40
3.2.3 关系型数据库的 ACID 原则 / 41
3.2.4 关系型数据库分库分表 / 42
3.3 大数据存储 / 45
3.3.1 海量数据存储关键技术 / 45
3.3.2 分布式文件系统 / 47
3.4 分布式数据库 / 51
3.4.1 NoSQL / 52
3.4.2 CAP 理论 / 53
3.4.3 BASE 原理 / 55
3.4.4 HBase 分布式数据库 / 57
3.4.5 MongoDB 分布式数据库 / 60
3.4.6 Hive 分布式数据仓库 / 61
3.4.7 图数据库 / 63
3.4.8 内存数据库 / 66
小结 / 68
习题 / 68
第 4 章? 大数据处理平台 / 69
4.1 大数据处理平台概述 / 69
4.2 大数据的处理平台架构 / 70
4.2.1 技术架构 / 70
4.2.2 开源平台 / 71
4.3 大数据的批量计算 / 73
4.3.1 批量计算的概念 / 73
4.3.2 批量计算的软件系统 / 74
4.4 大数据的流式计算 / 82
4.4.1 流式计算的概念 / 82
4.4.2 流式计算的软件系统 / 83
4.5 大数据的混合处理计算 / 87
4.5.1 混合处理计算的概念 / 87
4.5.2 混合处理计算的软件系统 / 88
小结 / 97
习题 / 98
第 5 章? 数据分析 / 99
5.1 数据分析概述 / 99
5.1.1 数据分析的概念和作用 / 99
5.1.2 数据分析的类型 / 100
5.1.3 数据分析的流程 / 100
5.2 统计数据分析方法 / 102
5.2.1 描述统计 / 102
5.2.2 相关分析 / 103
5.2.3 回归分析 / 107
5.2.4 主成分分析 / 111
5.3 数据挖掘算法 / 115
5.3.1 决策树 / 115
5.3.2?随机森林算法 / 120
5.3.3 K-Means 算法 / 123
5.3.4 Apriori 算法 / 128
5.3.5 神经网络 / 133
5.4 数据分析工具 / 135
5.5?电力大数据分析 / 136
5.5.1?基于电力大数据分析的反窃电预
?? 测方法 / 136
5.5.2?基于电力大数据分析的电费风险
?? 预警模型构建方法 / 151
小结 / 160
习题 / 160
第 6 章? 数据可视化 / 162
6.1 数据可视化概述 / 162
6.1.1 数据可视化的概念 / 162
6.1.2 数据可视化的作用 / 163
6.1.3 数据可视化的一般过程 / 164
6.1.4?数据可视化的原则 / 165
6.1.5?数据可视化的挑战和趋势 / 167
6.1.6?常用数据可视化的图类型 / 168
6.2 数据可视化方法 / 172
6.2.1 文本可视化 / 172
6.2.2 网络可视化 / 174
6.2.3 时空数据可视化 / 177
6.3 数据可视化常用工具 / 179
6.3.1 Excel / 179
6.3.2 ECharts / 180
6.3.3 Tableau / 180
6.4?数据可视化常用编程语言 / 181
6.4.1?Python / 181
6.4.2?D3.js / 181
6.4.3?R / 182
6.4.4?HTML、JavaScript和 CSS 语言 / 182
小结 / 183
习题 / 183
第 7 章? 大数据安全与隐私保护 / 184
7.1 大数据安全概述 / 184
7.2 大数据安全体系结构 / 193
7.3 大数据安全技术 / 197
7.4 大数据安全协议 / 204
7.5 大数据隐私保护 / 207
7.5.1?大数据时代隐私侵权特征 / 207
7.5.2?国内外隐私保护现状 / 208
7.5.3?大数时代隐私保护关键技术 / 210
7.6?大数据共享与隐私保护 / 214
7.6.1?大数据共享安全框架 / 215
7.6.2?联邦学习 / 219
小结 / 221
习题 / 222
第 8 章? 大数据应用 / 223
8.1 互联网商业应用 / 223
8.1.1 用户画像 / 223
8.1.2 大数据精准营销 / 226
8.1.3 互联网金融 / 227
8.2 行业大数据 / 229
8.2.1 教育大数据 / 229
8.2.2 电力大数据 / 231
8.2.3 医疗大数据 / 233
8.3 人工智能应用 / 236
8.3.1 语音识别和机器翻译 / 236
8.3.2 共享经济 / 237
8.3.3 智慧城市 / 240
小结 / 244
习题 / 244
第 9 章? 数据思维 / 245
9.1 大数据时代的挑战 / 245
9.2 大数据时代的思维变革 / 249
9.2.1 第四范式 / 249
9.2.2 数据的混杂性 / 250
9.2.3 样本与总体 / 251
9.2.4 数据的相关关系与因果
???关系 / 252
9.2.5 大数据与幸存者偏差 / 253
9.3 大数据激发创造力 / 255
9.3.1 大数据预测电影票房 / 255
9.3.2 利用大数据发掘商业价值 / 256
9.3.3 利用大数据发现高速公路
???超速者 / 256
9.4 数据科学发展 / 257
9.4.1 开放数据运动 / 257
9.4.2 数据科学家所需的专业技能 / 259
9.4.3 数据科学的发展前景 / 262
小结 / 263
习题 / 263
参考文献 / 264
1.1 大数据概述 / 1
1.1.1 大数据的概念 / 2
1.1.2 大数据的特征 / 2
1.1.3 大数据的结构类型 / 3
1.2 大数据的发展 / 4
1.3 大数据处理的挑战 / 5
1.4 数据科学的概念 / 6
1.5 数据科学的由来 / 7
1.6 数据科学的应用场景 / 9
1.6.1 行业数据 / 9
1.6.2 数据服务 / 10
小结 / 11
习题 / 11
第 2 章? 数据采集与数据预处理 / 12
2.1 数据采集和数据预处理概述 / 12
2.1.1 数据采集概述 / 12
2.1.2 数据预处理概述 / 13
2.2 数据采集技术 / 15
2.2.1 网络数据采集技术 / 15
2.2.2 日志数据采集技术 / 23
2.3 数据预处理技术 / 28
2.3.1 数据清洗 / 28
2.3.2 数据集成 / 30
2.3.3 数据变换 / 30
2.3.4 数据规约 / 31
2.3.5 电力大数据的采集 / 32
小结 / 34
习题 / 34
第 3 章? 数据存储 / 35
3.1 数据存储概述 / 35
3.1.1 数据存储的发展历程 / 35
3.1.2 数据存储模型 / 37
3.2 关系型数据库 / 37
3.2.1 关系型数据库的基本概念 / 38
3.2.2 关系型数据库的优缺点 / 40
3.2.3 关系型数据库的 ACID 原则 / 41
3.2.4 关系型数据库分库分表 / 42
3.3 大数据存储 / 45
3.3.1 海量数据存储关键技术 / 45
3.3.2 分布式文件系统 / 47
3.4 分布式数据库 / 51
3.4.1 NoSQL / 52
3.4.2 CAP 理论 / 53
3.4.3 BASE 原理 / 55
3.4.4 HBase 分布式数据库 / 57
3.4.5 MongoDB 分布式数据库 / 60
3.4.6 Hive 分布式数据仓库 / 61
3.4.7 图数据库 / 63
3.4.8 内存数据库 / 66
小结 / 68
习题 / 68
第 4 章? 大数据处理平台 / 69
4.1 大数据处理平台概述 / 69
4.2 大数据的处理平台架构 / 70
4.2.1 技术架构 / 70
4.2.2 开源平台 / 71
4.3 大数据的批量计算 / 73
4.3.1 批量计算的概念 / 73
4.3.2 批量计算的软件系统 / 74
4.4 大数据的流式计算 / 82
4.4.1 流式计算的概念 / 82
4.4.2 流式计算的软件系统 / 83
4.5 大数据的混合处理计算 / 87
4.5.1 混合处理计算的概念 / 87
4.5.2 混合处理计算的软件系统 / 88
小结 / 97
习题 / 98
第 5 章? 数据分析 / 99
5.1 数据分析概述 / 99
5.1.1 数据分析的概念和作用 / 99
5.1.2 数据分析的类型 / 100
5.1.3 数据分析的流程 / 100
5.2 统计数据分析方法 / 102
5.2.1 描述统计 / 102
5.2.2 相关分析 / 103
5.2.3 回归分析 / 107
5.2.4 主成分分析 / 111
5.3 数据挖掘算法 / 115
5.3.1 决策树 / 115
5.3.2?随机森林算法 / 120
5.3.3 K-Means 算法 / 123
5.3.4 Apriori 算法 / 128
5.3.5 神经网络 / 133
5.4 数据分析工具 / 135
5.5?电力大数据分析 / 136
5.5.1?基于电力大数据分析的反窃电预
?? 测方法 / 136
5.5.2?基于电力大数据分析的电费风险
?? 预警模型构建方法 / 151
小结 / 160
习题 / 160
第 6 章? 数据可视化 / 162
6.1 数据可视化概述 / 162
6.1.1 数据可视化的概念 / 162
6.1.2 数据可视化的作用 / 163
6.1.3 数据可视化的一般过程 / 164
6.1.4?数据可视化的原则 / 165
6.1.5?数据可视化的挑战和趋势 / 167
6.1.6?常用数据可视化的图类型 / 168
6.2 数据可视化方法 / 172
6.2.1 文本可视化 / 172
6.2.2 网络可视化 / 174
6.2.3 时空数据可视化 / 177
6.3 数据可视化常用工具 / 179
6.3.1 Excel / 179
6.3.2 ECharts / 180
6.3.3 Tableau / 180
6.4?数据可视化常用编程语言 / 181
6.4.1?Python / 181
6.4.2?D3.js / 181
6.4.3?R / 182
6.4.4?HTML、JavaScript和 CSS 语言 / 182
小结 / 183
习题 / 183
第 7 章? 大数据安全与隐私保护 / 184
7.1 大数据安全概述 / 184
7.2 大数据安全体系结构 / 193
7.3 大数据安全技术 / 197
7.4 大数据安全协议 / 204
7.5 大数据隐私保护 / 207
7.5.1?大数据时代隐私侵权特征 / 207
7.5.2?国内外隐私保护现状 / 208
7.5.3?大数时代隐私保护关键技术 / 210
7.6?大数据共享与隐私保护 / 214
7.6.1?大数据共享安全框架 / 215
7.6.2?联邦学习 / 219
小结 / 221
习题 / 222
第 8 章? 大数据应用 / 223
8.1 互联网商业应用 / 223
8.1.1 用户画像 / 223
8.1.2 大数据精准营销 / 226
8.1.3 互联网金融 / 227
8.2 行业大数据 / 229
8.2.1 教育大数据 / 229
8.2.2 电力大数据 / 231
8.2.3 医疗大数据 / 233
8.3 人工智能应用 / 236
8.3.1 语音识别和机器翻译 / 236
8.3.2 共享经济 / 237
8.3.3 智慧城市 / 240
小结 / 244
习题 / 244
第 9 章? 数据思维 / 245
9.1 大数据时代的挑战 / 245
9.2 大数据时代的思维变革 / 249
9.2.1 第四范式 / 249
9.2.2 数据的混杂性 / 250
9.2.3 样本与总体 / 251
9.2.4 数据的相关关系与因果
???关系 / 252
9.2.5 大数据与幸存者偏差 / 253
9.3 大数据激发创造力 / 255
9.3.1 大数据预测电影票房 / 255
9.3.2 利用大数据发掘商业价值 / 256
9.3.3 利用大数据发现高速公路
???超速者 / 256
9.4 数据科学发展 / 257
9.4.1 开放数据运动 / 257
9.4.2 数据科学家所需的专业技能 / 259
9.4.3 数据科学的发展前景 / 262
小结 / 263
习题 / 263
参考文献 / 264