大数据概论及应用实践(通识版) / “十四五”高等学校计算机教育新形态一体化系列教材
¥46.00定价
作者: 刘爱芹,杜建彬
出版时间:2024-11
出版社:中国铁道出版社
- 中国铁道出版社
- 9787113313272
- 1-1
- 531543
- 16开
- 2024-11
- 计算机类
- 本科
内容简介
本书为“十四五”高等学校计算机教育新形态一体化系列教材之一。随着大数据时代的到来, 数据成为第五大生产要素,也是发展新质生产力的优质生产要素。本书由浅入深、循序渐进地论述了 培养复合型大数据专业人才所需要的数据意识、数据思维、数据伦理和数据能力等概念和理论。全书 分为基础篇、技术篇、数据管理篇和应用篇四大部分,包括绪论、大数据技术概述、数据采集与数据 预处理、数据存储与管理、数据分析与挖掘、数据可视化、大数据安全、大数据思维、数据开放与共 享、大数据的法律政策规范、大数据应用、综合案例共12章。为避免理论论述的抽象,本书融入丰富 案例,同时引入浪潮数据管理平台为拓展仿真实训平台,使读者转换学习场景,直观地理解相应理论 的具体内涵。
本书适合作为高等院校数据科学与大数据及计算机专业的导论课程教材,也可以作为高等院校非 计算机专业(尤其文科)数据科学类课程教材,亦可作为职业院校大数据类课程教材,还可供对大数 据感兴趣的读者自学。
本书适合作为高等院校数据科学与大数据及计算机专业的导论课程教材,也可以作为高等院校非 计算机专业(尤其文科)数据科学类课程教材,亦可作为职业院校大数据类课程教材,还可供对大数 据感兴趣的读者自学。
目录
第1章 绪论 . 2
1.1 数据 2
1.1.1 数据的定义 2
1.1.2 数据的类型 2
1.1.3 数据的组织形式 3
1.1.4 数据的生命周期 4
1.1.5 数据的价值 5
1.1.6 大数据的特征 6
1.2 大数据 7
1.2.1 大数据的发展历程 8
1.2.2 大数据时代 9
1.2.3 大数据时代的驱动力 10
1.2.4 大数据的影响 11
1.3 大数据的挑战和科学意义 13
1.3.1 大数据带来的思维模式的变革 13
1.3.2 大数据计算面临的挑战 14
1.3.3 大数据专业与职业 15
1.3.4 大数据与其他新兴技术的 关系 19
小结 25
习题 26
技 术 篇
第2章 大数据技术概述 28
2.1 大数据处理的基本流程 28
2.1.1 数据采集与预处理 28
2.1.2 数据存储与管理 28
2.1.3 数据分析与挖掘 28
2.1.4 数据可视化 29
2.2 大数据处理的主要模式 .29
2.2.1 流处理模式 29
2.2.2 批处理模式 29
小结 30
习题 30
第3章 数据采集与数据预处理 31
3.1 概述 31
3.2 数据采集 31
3.2.1 数据采集概述 31
3.2.2 数据采集的原则 32
3.2.3 数据采集的来源 33
3.2.4 数据采集的方法 34
3.3 数据预处理 36
3.3.1 数据清洗 37
3.3.2 数据集成 40
3.3.3 数据转换 42
3.3.4 数据脱敏 42
3.4 拓展实训 43
小结 55
习题 55
第4章 数据存储与管理 56
4.1 数据存储与管理技术的发展 56
4.2 传统的数据存储和管理技术 58
4.2.1 文件系统 58
4.2.2 关系数据库 58
4.2.3 数据仓库 59
4.2.4 并行数据库 59
4.3 大数据时代的数据存储和管理技术 59
4.3.1 分布式文件系统 59
4.3.2 非结构化数据库 62
4.3.3 几款新型数据库产品介绍 64
4.4 拓展实训 68
小结 77
习题 77
第5章 数据分析与挖掘 78
5.1 概述 78
5.1.1 数据分析的基础知识 78
5.1.2 数据分析关联技术 79
5.2 机器学习和数据挖掘算法 79
5.2.1 分类 80
5.2.2 聚类 81
5.2.3 回归分析 82
5.2.4 关联规则 83
5.3 大数据分析技术 84
5.3.1 技术分类 84
5.3.2 大数据分析的代表性作品 86
5.4 拓展实训 88
小结 99
习题 99
第6章 数据可视化 100
6.1 概述 100
6.1.1 数据可视化的概念 100
6.1.2 数据可视化的原则 100
6.1.3 可视化的发展历程 101
6.1.4 可视化的重要作用 102
6.2 数据可视化主要技术 103
6.2.1 高维数据可视化 103
6.2.2 网络数据可视化 106
6.2.3 层次结构数据可视化 106
6.2.4 时空数据可视化 107
6.2.5 文本数据可视化 108
6.2.6 高扩展可视化 109
6.3 数据可视化工具 111
6.3.1 入门级工具 112
6.3.2 信息图表工具 112
6.3.3 地图工具 112
6.3.4 时间线工具 113
6.3.5 高级分析工具 113
6.4 拓展实训 113
小结 125
习题 126
数据管理篇
第7章 大数据安全 128
7.1 概述 128
7.1.1 大数据安全与传统信息安全的异同 128
7.1.2 隐私和个人信息安全问题 129
7.1.3 国家安全问题 130
7.1.4 数据采集及治理的安全问题 131
7.1.5 数据存储与管理的安全问题 133
7.1.6 数据分析及处理的安全问题 133
7.1.7 数据交互、共享与服务的安全与隐私 134
7.2 大数据保护的基本原则 134
7.2.1 数据主权原则 135
7.2.2 数据保护原则 135
7.2.3 数据自由流通原则 135
7.2.4 数据安全原则 136
7.3 数据安全与隐私保护的支撑技术 136
7.3.1 密码学基础及关键技术 136
7.3.2 公钥基础设施 140
7.3.3 数字证书 142
7.3.4 访问控制 142
7.4 数据安全与隐私保护的对策 143
7.4.1 使用隐私保护技术 143
7.4.2 定期备份数据 144
7.4.3 定期审计数据安全状态 144
7.4.4 注重对大数据和隐私保护的监督和管理 144
小结 144
习题 145
第8章 大数据思维 146
8.1 传统的思维方式 146
8.2 大数据时代的思维方式 147
8.2.1 全样而非抽样 147
8.2.2 效率而非精确 147
8.2.3 相关而非因果 148
8.2.4 以数据为中心 149
8.2.5 我为人人,人人为我 149
8.3 运用大数据思维的典型案例 150
8.3.1 商品比价网站 150
8.3.2 啤酒与尿布 150
8.3.3 基于大数据的药品研发 150
8.3.4 基于大数据的微信朋友圈广告 151
8.3.5 搜索引擎“单击模型” 151
8.3.6 流感趋势预测 152
8.3.7 大数据的简单算法比小数据的 复杂算法更有效 152
8.3.8 百度翻译 153
小结 153
习题 154
第9章 数据开放与共享 155
9.1 概述 155
9.1.1 数据开放与共享的发展历程 155
9.1.2 数据开放与共享的概念 157
9.2 数据开放与共享原则 158
9.3 我国数据开放与共享的政策 159
9.3.1 中国数据开放与共享的政策发展历程 159
9.3.2 数据开放与共享实施指南 160
9.4 数据开放与共享的分类 161
9.4.1 政府数据开放与共享 161
9.4.2 公共财政资助产生的科学数据开放与共享 162
9.4.3 企业数据开放与共享 162
9.4.4 个人数据开放与共享 163
9.5 数据开放与共享平台 163
9.5.1 数据开放与共享综合平台 163
9.5.2 数据开放与共享领域平台 164
9.5.3 数据开放与共享平台的基本功能 165
9.5.4 数据开放与共享平台的产权保护 166
小结 166
习题 166
第10章 大数据的法律政策规范 167
10.1 概述 167
10.2 我国大数据政策法规 167
10.3.1 数据主权 170
10.3.2 数据权利 171
10.4 数据交易监管 171
10.4.1 数据交易的特殊性 171
10.4.2 数据交易中蕴含的法律问题 172
10.4.3 我国数据交易政策法规现状 173
10.5 个人信息立法保护 173
10.5.1 “个人信息”的界定 174
10.5.2 《中华人民共和国个人信息保护法》的实施 174
10.6 数据跨境流动监管机制 175
10.6.1 数据跨境流动的现状与风险 175
10.6.2 我国立法应对数据跨境流动安全隐患 175
小结 176
习题 176
应 用 篇
第11章 大数据应用 178
11.1 大数据在互联网领域的应用 178
11.1.1 推荐系统概述 178
11.1.2 推荐机制 178
11.1.3 推荐系统的应用 181
11.2 大数据在城市交通领域的应用 183
11.2.1 智慧交通大数据概述 183
11.2.2 大数据技术在城市交通拥堵治理中的作用 183
10.2.1 我国大数据政策法规发展过程 167
10.2.2 我国数据保护监管机构 168
10.2.3 我国数据安全立法监管 169
10.3 数据主权与权利 170
11.3 大数据在物流行业的应用 184
11.3.1 物流大数据的作用 184
11.3.2 物流大数据应用 184
11.3.3 物流大数据应用案例 186
11.4 大数据在生物医学领域的应用 186
11.4.1 生物医学大数据的特点及发展现状 186
11.4.2 生物医学领域大数据的价值应用 186
11.4.3 生物医疗大数据的应用案例 187
11.5 大数据在金融领域的应用 188
11.5.1 银行领域 188
11.5.2 保险行业 188
11.6 大数据在安防领域的应用 189
11.6.1 大数据安防应用的关键技术 189
11.6.2 大数据在安防领域的应用案例 190
11.6.3 大数据安防面临的挑战 191
小结 192
习题 192
第12章 综合案例 193
参考文献 223
1.1 数据 2
1.1.1 数据的定义 2
1.1.2 数据的类型 2
1.1.3 数据的组织形式 3
1.1.4 数据的生命周期 4
1.1.5 数据的价值 5
1.1.6 大数据的特征 6
1.2 大数据 7
1.2.1 大数据的发展历程 8
1.2.2 大数据时代 9
1.2.3 大数据时代的驱动力 10
1.2.4 大数据的影响 11
1.3 大数据的挑战和科学意义 13
1.3.1 大数据带来的思维模式的变革 13
1.3.2 大数据计算面临的挑战 14
1.3.3 大数据专业与职业 15
1.3.4 大数据与其他新兴技术的 关系 19
小结 25
习题 26
技 术 篇
第2章 大数据技术概述 28
2.1 大数据处理的基本流程 28
2.1.1 数据采集与预处理 28
2.1.2 数据存储与管理 28
2.1.3 数据分析与挖掘 28
2.1.4 数据可视化 29
2.2 大数据处理的主要模式 .29
2.2.1 流处理模式 29
2.2.2 批处理模式 29
小结 30
习题 30
第3章 数据采集与数据预处理 31
3.1 概述 31
3.2 数据采集 31
3.2.1 数据采集概述 31
3.2.2 数据采集的原则 32
3.2.3 数据采集的来源 33
3.2.4 数据采集的方法 34
3.3 数据预处理 36
3.3.1 数据清洗 37
3.3.2 数据集成 40
3.3.3 数据转换 42
3.3.4 数据脱敏 42
3.4 拓展实训 43
小结 55
习题 55
第4章 数据存储与管理 56
4.1 数据存储与管理技术的发展 56
4.2 传统的数据存储和管理技术 58
4.2.1 文件系统 58
4.2.2 关系数据库 58
4.2.3 数据仓库 59
4.2.4 并行数据库 59
4.3 大数据时代的数据存储和管理技术 59
4.3.1 分布式文件系统 59
4.3.2 非结构化数据库 62
4.3.3 几款新型数据库产品介绍 64
4.4 拓展实训 68
小结 77
习题 77
第5章 数据分析与挖掘 78
5.1 概述 78
5.1.1 数据分析的基础知识 78
5.1.2 数据分析关联技术 79
5.2 机器学习和数据挖掘算法 79
5.2.1 分类 80
5.2.2 聚类 81
5.2.3 回归分析 82
5.2.4 关联规则 83
5.3 大数据分析技术 84
5.3.1 技术分类 84
5.3.2 大数据分析的代表性作品 86
5.4 拓展实训 88
小结 99
习题 99
第6章 数据可视化 100
6.1 概述 100
6.1.1 数据可视化的概念 100
6.1.2 数据可视化的原则 100
6.1.3 可视化的发展历程 101
6.1.4 可视化的重要作用 102
6.2 数据可视化主要技术 103
6.2.1 高维数据可视化 103
6.2.2 网络数据可视化 106
6.2.3 层次结构数据可视化 106
6.2.4 时空数据可视化 107
6.2.5 文本数据可视化 108
6.2.6 高扩展可视化 109
6.3 数据可视化工具 111
6.3.1 入门级工具 112
6.3.2 信息图表工具 112
6.3.3 地图工具 112
6.3.4 时间线工具 113
6.3.5 高级分析工具 113
6.4 拓展实训 113
小结 125
习题 126
数据管理篇
第7章 大数据安全 128
7.1 概述 128
7.1.1 大数据安全与传统信息安全的异同 128
7.1.2 隐私和个人信息安全问题 129
7.1.3 国家安全问题 130
7.1.4 数据采集及治理的安全问题 131
7.1.5 数据存储与管理的安全问题 133
7.1.6 数据分析及处理的安全问题 133
7.1.7 数据交互、共享与服务的安全与隐私 134
7.2 大数据保护的基本原则 134
7.2.1 数据主权原则 135
7.2.2 数据保护原则 135
7.2.3 数据自由流通原则 135
7.2.4 数据安全原则 136
7.3 数据安全与隐私保护的支撑技术 136
7.3.1 密码学基础及关键技术 136
7.3.2 公钥基础设施 140
7.3.3 数字证书 142
7.3.4 访问控制 142
7.4 数据安全与隐私保护的对策 143
7.4.1 使用隐私保护技术 143
7.4.2 定期备份数据 144
7.4.3 定期审计数据安全状态 144
7.4.4 注重对大数据和隐私保护的监督和管理 144
小结 144
习题 145
第8章 大数据思维 146
8.1 传统的思维方式 146
8.2 大数据时代的思维方式 147
8.2.1 全样而非抽样 147
8.2.2 效率而非精确 147
8.2.3 相关而非因果 148
8.2.4 以数据为中心 149
8.2.5 我为人人,人人为我 149
8.3 运用大数据思维的典型案例 150
8.3.1 商品比价网站 150
8.3.2 啤酒与尿布 150
8.3.3 基于大数据的药品研发 150
8.3.4 基于大数据的微信朋友圈广告 151
8.3.5 搜索引擎“单击模型” 151
8.3.6 流感趋势预测 152
8.3.7 大数据的简单算法比小数据的 复杂算法更有效 152
8.3.8 百度翻译 153
小结 153
习题 154
第9章 数据开放与共享 155
9.1 概述 155
9.1.1 数据开放与共享的发展历程 155
9.1.2 数据开放与共享的概念 157
9.2 数据开放与共享原则 158
9.3 我国数据开放与共享的政策 159
9.3.1 中国数据开放与共享的政策发展历程 159
9.3.2 数据开放与共享实施指南 160
9.4 数据开放与共享的分类 161
9.4.1 政府数据开放与共享 161
9.4.2 公共财政资助产生的科学数据开放与共享 162
9.4.3 企业数据开放与共享 162
9.4.4 个人数据开放与共享 163
9.5 数据开放与共享平台 163
9.5.1 数据开放与共享综合平台 163
9.5.2 数据开放与共享领域平台 164
9.5.3 数据开放与共享平台的基本功能 165
9.5.4 数据开放与共享平台的产权保护 166
小结 166
习题 166
第10章 大数据的法律政策规范 167
10.1 概述 167
10.2 我国大数据政策法规 167
10.3.1 数据主权 170
10.3.2 数据权利 171
10.4 数据交易监管 171
10.4.1 数据交易的特殊性 171
10.4.2 数据交易中蕴含的法律问题 172
10.4.3 我国数据交易政策法规现状 173
10.5 个人信息立法保护 173
10.5.1 “个人信息”的界定 174
10.5.2 《中华人民共和国个人信息保护法》的实施 174
10.6 数据跨境流动监管机制 175
10.6.1 数据跨境流动的现状与风险 175
10.6.2 我国立法应对数据跨境流动安全隐患 175
小结 176
习题 176
应 用 篇
第11章 大数据应用 178
11.1 大数据在互联网领域的应用 178
11.1.1 推荐系统概述 178
11.1.2 推荐机制 178
11.1.3 推荐系统的应用 181
11.2 大数据在城市交通领域的应用 183
11.2.1 智慧交通大数据概述 183
11.2.2 大数据技术在城市交通拥堵治理中的作用 183
10.2.1 我国大数据政策法规发展过程 167
10.2.2 我国数据保护监管机构 168
10.2.3 我国数据安全立法监管 169
10.3 数据主权与权利 170
11.3 大数据在物流行业的应用 184
11.3.1 物流大数据的作用 184
11.3.2 物流大数据应用 184
11.3.3 物流大数据应用案例 186
11.4 大数据在生物医学领域的应用 186
11.4.1 生物医学大数据的特点及发展现状 186
11.4.2 生物医学领域大数据的价值应用 186
11.4.3 生物医疗大数据的应用案例 187
11.5 大数据在金融领域的应用 188
11.5.1 银行领域 188
11.5.2 保险行业 188
11.6 大数据在安防领域的应用 189
11.6.1 大数据安防应用的关键技术 189
11.6.2 大数据在安防领域的应用案例 190
11.6.3 大数据安防面临的挑战 191
小结 192
习题 192
第12章 综合案例 193
参考文献 223