数据清洗技术与应用
¥88.00定价
作者: 曾修俊,佘剑军
出版时间:2021-08
出版社:重庆大学电子音像出版社
- 重庆大学电子音像出版社
- 9787894464835
- 1版
- 424550
- 65246089-0
- 平装
- 16开
- 2021-08
- 290
- 工学
- 计算机科学与技术
- 计算机类
- 高职
内容简介
本书主要讲解了数据清洗、格式、编码与类型、ETL技术、Excel基础应用、Excel高级应用、Kettle基础应用和Kettle高级应用。通过本书的学习,学生能掌握数据清洗技术与应用的知识和实际应用。
目录
目录
第1章 数据清洗 1
1.1 数据科学 3
1.2 数据清洗简介 4
1.2.1 为什么要进行数据清洗 4
1.2.2 数据清洗是什么 4
1.2.3 数据清洗原理 5
1.2.4 需清洗数据主要类型 5
1.2.5 数据清洗的内容 6
1.2.6 数据清洗的方法 7
1.2.7 数据清洗的步骤 8
1.2.8 数据清洗的评价标准 9
1.2.9 数据清洗环境 10
1.3 入门示例 10
1.3.1 文本编辑器清洗功能 10
1.3.2 示例项目 16
第2章 格式、编码与类型 21
2.1 数据格式 23
2.1.1 文件文本格式 23
2.1.2 xls及xlsx文件格式 25
2.1.3 JSON 文本格式 25
2.1.4 HTML 和XML 文本格式 26
2.2 数据编码 27
2.2.1 字符编码 27
2.2.2 乱码 30
2.3 数据类型与转换 30
2.3.1 数据类型 30
2.3.2 数据类型间转换 33
2.3.3 空值 34
2.4 数据格式转换 34
2.4.1 电子表格 Excel 转换 35
2.4.2 RDBMS数据转换 35
2.5 应用案例 35
第3章 ETL技术 42
3.1 名词简介 44
3.2 ETL入门 45
3.2.1 ETL解决方案 45
3.2.2 ETL基本构成 47
3.2.3 ETL 技术选型 48
3.3 技术路线 49
3.3.1 文本清洗路线 49
3.3.2 RDBMS 清洗路线 49
3.3.3 Web内容清洗路线 49
3.4 ETL工具 50
3.4.1 ETL功能 50
3.4.2 开源ETL 工具 51
3.5 ETL子系统 52
3.5.1 抽取 52
3.5.2 清洗和更正数据 52
3.5.3 数据发布 53
3.5.4 管理ETL 53
第4章 Excel基础 55
4.1 使用Excel获取数据 57
4.1.1 Excel读取CSV文件获取数据 58
4.1.2 Excel连接MySQL数据库 60
4.1.3 Excel数据爬取 63
4.2 Microsoft Excel数据清洗基本操作 64
4.2.1 Excel数据清洗概述 64
4.2.2 数据清洗常用操作 70
4.3 Microsoft Excel数据分析与建模 77
4.3.1 Excel数据分析步骤与案例 77
4.3.2 Excel数据建模 82
4.4 Microsoft Excel 数据透视表 85
4.4.1 快速汇总数据 85
4.4.2 拆分与转换 88
4.4.3 注意事项 90
4.5 Microsoft Excel 常用函数公式 92
4.5.1 Microsoft Excel函数简介 92
4.5.2 Microsoft Excel函数种类 93
4.5.3 Microsoft Excel 逻辑函数实例 95
4.5.4 Microsoft Excel 查找函数实例 98
4.5.5 Microsoft Excel 文本函数 100
4.6 Excel数据可视化 100
4.6.1 REPT函数 102
4.6.2 条件格式 105
4.6.3 Excel图表 106
4.6.4 Excel可视化高级应用 113
第5章 Excel高级应用 119
5.1 Excel宏使用方法 121
5.1.1 Excel宏创建 121
5.1.2 Excel宏基本操作 123
5.2 VBA基础 125
5.2.1 VBA简介 125
5.2.2 VBA编辑器 127
5.2.3 面向对象程序设计 129
5.3 编写简单VBA 131
5.3.1 VBA程序 131
5.3.2 MsgBox 133
5.3.3 Debug.Print 133
5.4 VBA中的数据与运算符 134
5.4.1 常量与变量 134
5.4.2 运算符 136
5.4.3 表达式 139
5.5 VBA函数 139
5.5.1 字符转换与日期常用函数 140
5.5.2 字符串处理函数 145
5.5.3 其他常用函数 151
5.6 VBA分支与循环语句 156
5.6.1 条件语句 157
5.6.2 循环语句 163
5.7 VBA用户窗体开发案例 166
5.7.1 一步生成工资条 166
5.7.2 VBA实现用户登录 174
第6章 Kettle基础 177
6.1 Kettle简介 179
6.1.1 什么是Kettle 179
6.1.2 Kettle特点 180
6.1.3 Kettle功能 180
6.1.4 下载安装 184
6.1.5 Kettle环境配置 185
6.1.6 启动与界面介绍 185
6.2 作业(Job)与转换(Transformation) 189
6.3 入门示例 193
第7章 Kettle应用 209
7.1 常用输入步骤 211
7.2 常用输出步骤 222
7.3 大数据输入输出步骤 229
7.4 常用转换步骤 236
7.5 其他步骤 247
7.6 应用案例 251
7.6.1 日常提数 251
7.6.2 网络数据ETL 264
第8章 Kettle高级 270
8.1 Kettle参数(变量) 272
8.2 Kettle脚本 277
8.3 Kettle优化 281
8.4 Kettle集群 284
8.4.1 Kettle集群简介 284
8.4.2 集群搭建 285
第1章 数据清洗 1
1.1 数据科学 3
1.2 数据清洗简介 4
1.2.1 为什么要进行数据清洗 4
1.2.2 数据清洗是什么 4
1.2.3 数据清洗原理 5
1.2.4 需清洗数据主要类型 5
1.2.5 数据清洗的内容 6
1.2.6 数据清洗的方法 7
1.2.7 数据清洗的步骤 8
1.2.8 数据清洗的评价标准 9
1.2.9 数据清洗环境 10
1.3 入门示例 10
1.3.1 文本编辑器清洗功能 10
1.3.2 示例项目 16
第2章 格式、编码与类型 21
2.1 数据格式 23
2.1.1 文件文本格式 23
2.1.2 xls及xlsx文件格式 25
2.1.3 JSON 文本格式 25
2.1.4 HTML 和XML 文本格式 26
2.2 数据编码 27
2.2.1 字符编码 27
2.2.2 乱码 30
2.3 数据类型与转换 30
2.3.1 数据类型 30
2.3.2 数据类型间转换 33
2.3.3 空值 34
2.4 数据格式转换 34
2.4.1 电子表格 Excel 转换 35
2.4.2 RDBMS数据转换 35
2.5 应用案例 35
第3章 ETL技术 42
3.1 名词简介 44
3.2 ETL入门 45
3.2.1 ETL解决方案 45
3.2.2 ETL基本构成 47
3.2.3 ETL 技术选型 48
3.3 技术路线 49
3.3.1 文本清洗路线 49
3.3.2 RDBMS 清洗路线 49
3.3.3 Web内容清洗路线 49
3.4 ETL工具 50
3.4.1 ETL功能 50
3.4.2 开源ETL 工具 51
3.5 ETL子系统 52
3.5.1 抽取 52
3.5.2 清洗和更正数据 52
3.5.3 数据发布 53
3.5.4 管理ETL 53
第4章 Excel基础 55
4.1 使用Excel获取数据 57
4.1.1 Excel读取CSV文件获取数据 58
4.1.2 Excel连接MySQL数据库 60
4.1.3 Excel数据爬取 63
4.2 Microsoft Excel数据清洗基本操作 64
4.2.1 Excel数据清洗概述 64
4.2.2 数据清洗常用操作 70
4.3 Microsoft Excel数据分析与建模 77
4.3.1 Excel数据分析步骤与案例 77
4.3.2 Excel数据建模 82
4.4 Microsoft Excel 数据透视表 85
4.4.1 快速汇总数据 85
4.4.2 拆分与转换 88
4.4.3 注意事项 90
4.5 Microsoft Excel 常用函数公式 92
4.5.1 Microsoft Excel函数简介 92
4.5.2 Microsoft Excel函数种类 93
4.5.3 Microsoft Excel 逻辑函数实例 95
4.5.4 Microsoft Excel 查找函数实例 98
4.5.5 Microsoft Excel 文本函数 100
4.6 Excel数据可视化 100
4.6.1 REPT函数 102
4.6.2 条件格式 105
4.6.3 Excel图表 106
4.6.4 Excel可视化高级应用 113
第5章 Excel高级应用 119
5.1 Excel宏使用方法 121
5.1.1 Excel宏创建 121
5.1.2 Excel宏基本操作 123
5.2 VBA基础 125
5.2.1 VBA简介 125
5.2.2 VBA编辑器 127
5.2.3 面向对象程序设计 129
5.3 编写简单VBA 131
5.3.1 VBA程序 131
5.3.2 MsgBox 133
5.3.3 Debug.Print 133
5.4 VBA中的数据与运算符 134
5.4.1 常量与变量 134
5.4.2 运算符 136
5.4.3 表达式 139
5.5 VBA函数 139
5.5.1 字符转换与日期常用函数 140
5.5.2 字符串处理函数 145
5.5.3 其他常用函数 151
5.6 VBA分支与循环语句 156
5.6.1 条件语句 157
5.6.2 循环语句 163
5.7 VBA用户窗体开发案例 166
5.7.1 一步生成工资条 166
5.7.2 VBA实现用户登录 174
第6章 Kettle基础 177
6.1 Kettle简介 179
6.1.1 什么是Kettle 179
6.1.2 Kettle特点 180
6.1.3 Kettle功能 180
6.1.4 下载安装 184
6.1.5 Kettle环境配置 185
6.1.6 启动与界面介绍 185
6.2 作业(Job)与转换(Transformation) 189
6.3 入门示例 193
第7章 Kettle应用 209
7.1 常用输入步骤 211
7.2 常用输出步骤 222
7.3 大数据输入输出步骤 229
7.4 常用转换步骤 236
7.5 其他步骤 247
7.6 应用案例 251
7.6.1 日常提数 251
7.6.2 网络数据ETL 264
第8章 Kettle高级 270
8.1 Kettle参数(变量) 272
8.2 Kettle脚本 277
8.3 Kettle优化 281
8.4 Kettle集群 284
8.4.1 Kettle集群简介 284
8.4.2 集群搭建 285