全栈数据工程原理与实践 / 普通高等教育人工智能与大数据系列教材
¥43.00定价
作者: 徐尔,赵鲁涛
出版时间:2020-06
出版社:机械工业出版社
- 机械工业出版社
- 9787111650683
- 1-1
- 319556
- 48239414-5
- 平装
- 16开
- 2020-06
- 391
- 工学
- 计算机科学与技术
- 数据科学与大数据技术
- 本科
内容简介
本书由数据科学一线教学科研工作者、企业从业者根据自己日常的科研内容和工作经验总结而成,对数据获取、数据存储、数据分析、数据展示等主要数据科学的典型步骤进行了细致的知识梳理,对当前科研和企业应用的前沿技术以清晰的脉络和通俗易懂的语言进行了详尽的讲解。本书主要介绍了多种编程语言下的数据采集方式,多个形态的数据库使用和适用场景,并穿插介绍了经典的机器学习与深度学习方法,使读者对数据科学的全栈技术有一定的了解和认知。
本书代码主要是在Python的基础上开发的,结合成熟的机器学习框架Scikit-Learn,简单易用的深度学习框架Keras,以存储在MySQL、MongoDB、Redis、Neo4j等数据库内的多模态数据为样例,为读者直观生动地展示全栈数据技术的整体过程,同时提供实践课题和主要代码,供学有余力的读者进行综合实训。
本书主要面向对数据科学、人工智能、机器学习、深度学习具有浓厚兴趣且希望尽快入门的读者、高校相关专业的教育工作者和在校学生,以及正在从事数据科学相关工作并且希望深入研究的数据科学家、软件工程师、大数据平台工程师和项目管理者等。
本书代码主要是在Python的基础上开发的,结合成熟的机器学习框架Scikit-Learn,简单易用的深度学习框架Keras,以存储在MySQL、MongoDB、Redis、Neo4j等数据库内的多模态数据为样例,为读者直观生动地展示全栈数据技术的整体过程,同时提供实践课题和主要代码,供学有余力的读者进行综合实训。
本书主要面向对数据科学、人工智能、机器学习、深度学习具有浓厚兴趣且希望尽快入门的读者、高校相关专业的教育工作者和在校学生,以及正在从事数据科学相关工作并且希望深入研究的数据科学家、软件工程师、大数据平台工程师和项目管理者等。
目录
前 言
第 1章 数据获取1
11
HTTP 1
111HTTP简介 1 112
112一次网页请求分析 1
12
Chrome浏览器 2
121
Chrome的特点 2
122
Chrome配置 3 123
基本功能介绍 3 124
插件推荐 5
13
HTML、CSS和 JavaScript 5
131
HTML 6
132CSS 8
133 JavaScript 9
14Python爬虫 10
141 Bs4和 Requests库爬取 10
142PyQuery爬取 11
143Scrapy爬取 12
144Selenium自动化爬取 13
15JavaScript爬虫 13
151 Node基础 13
152 puppeteer爬虫实战 20
第 2章 数据存储 22
21 数据库介绍 22
211 数据库发展 22
212 数据库分类 23
213 常用关系型数据库产品介绍 24
22关系型数据库 MySQL 26
221 MySQL的配置 26
222 MySQL实践 29
223 Python操作 MySQL 30
23
文档数据库 MongoDB 35
231 MongoDB的配置 35
232 MongoDB实践 37
233 Python操作 MongoDB 38
24Key-Value数据库 Redis 39
241 Redis的配置 39
242 Redis操作 39
25 图数据库 Neo4j 41
251 Neo4j安装 41
252 Neo4j语法 42
253 Neo4j命令 43
26 数据库总结 44
第 3章 数据分析 45
31 数据分析简介 45
311 数据分析的背景 46
312 数据分析的流程 47
32 数据分析工具 49
321 Numpy 49
322 Scipy 50
323 Matplotlib 50
324 Pandas 52
325 Scikit-Learn 53
326 Keras 54
33 数据探索 55
331 数据质量分析 55
332 数据特征分析 57
333 Python工具分析 64
34 数据预处理 74
341 数据清洗 74
342 数据提取 76
343 数据变换 83
35 数据模型及评估 88
351 评估算法 88
352 评估矩阵 91
353 分类算法模型及评估 98
354 回归算法模型及评估 103
第 4章 数据展示108
41 数据可视化简介 108
42 可视化工具介绍 109
421 百度 ECharts 109
422 蚂蚁金服 AntV 110
423 微软 Power BI 111
424 Tableau 112
425 talkingData inMap 114
第 5章 社交网络分析115
51 社交网络分析应用介绍 115
511 社交网络算法应用场景 115
512 社交网络算法分析指标 116
513 社区发现简介 116
514 社区发现算法 118
515 PageRank算法 119
52 Python社交网络库分析介绍 121
53 Cypher语言 121
531 Cypher简介 121
532 Cypher语法入门 122
54 Neo4j高性能插件 APOC 129
第 6章 深度学习130
61 神经网络介绍 130
611 起源 130
612 优化器 132
613 BP神经网络 137
62 CNN介绍 138
621 CNN网络结构 138
622 CNN类型 142
623 猫狗大战 144
63 RNN介绍 147
631 RNN网络结构 148
632 LSTM网络结构 149
633 古诗自动生成 152
64 GAN模型 158
641 模型结构 158
642 GAN模型拓展 160
643 卡通人脸自动生成 160
65 人脸识别库 Dlib实战 166
651 人脸识别发展 166
652 Dlib库介绍 167
653 人脸识别实战 167
第 7章 自然语言处理169
71 自然语言处理概述 169
72 自然语言处理常用工具 170
721 综合处理类工具 171
722 中文类工具 171
73 文本预处理 172
731 分词 172
732 停用词处理 175
733 词频分析与探索 176
74 文本表示 178
741 词袋模型 178
742 词嵌入 180
75 文本分类 182
751 基于传统机器学习的文本分类 183
752 基于深度学习的文本分类 185
第 8章 综合实训189
81 实训 1:爬取网站实例 189
811 分析网站 189
812 元素定位 190
813 编写代码 191
814 部署 195
82 实训 2:数据分析实战 195
821 分类模型实战 195
822 回归模型实战 208
83 实训 3:实战可视化 223
831 案例 1:ECharts 223
832 案例 2:AntV 224
84 实训 4:《权力的游戏》关系图谱解读 226
841 基于图分析 Neo4j 226
842 基于 Python-IGraph 233
843 使用 Py2neo 237
85 实训 5:商品评价文本分类 239
851 建模之前 239
852 开始建模 240
853 代码开发阶段 241
854 分析、诊断与修正 248
855 总结与反思 249
参考文献 250
第 1章 数据获取1
11
HTTP 1
111HTTP简介 1 112
112一次网页请求分析 1
12
Chrome浏览器 2
121
Chrome的特点 2
122
Chrome配置 3 123
基本功能介绍 3 124
插件推荐 5
13
HTML、CSS和 JavaScript 5
131
HTML 6
132CSS 8
133 JavaScript 9
14Python爬虫 10
141 Bs4和 Requests库爬取 10
142PyQuery爬取 11
143Scrapy爬取 12
144Selenium自动化爬取 13
15JavaScript爬虫 13
151 Node基础 13
152 puppeteer爬虫实战 20
第 2章 数据存储 22
21 数据库介绍 22
211 数据库发展 22
212 数据库分类 23
213 常用关系型数据库产品介绍 24
22关系型数据库 MySQL 26
221 MySQL的配置 26
222 MySQL实践 29
223 Python操作 MySQL 30
23
文档数据库 MongoDB 35
231 MongoDB的配置 35
232 MongoDB实践 37
233 Python操作 MongoDB 38
24Key-Value数据库 Redis 39
241 Redis的配置 39
242 Redis操作 39
25 图数据库 Neo4j 41
251 Neo4j安装 41
252 Neo4j语法 42
253 Neo4j命令 43
26 数据库总结 44
第 3章 数据分析 45
31 数据分析简介 45
311 数据分析的背景 46
312 数据分析的流程 47
32 数据分析工具 49
321 Numpy 49
322 Scipy 50
323 Matplotlib 50
324 Pandas 52
325 Scikit-Learn 53
326 Keras 54
33 数据探索 55
331 数据质量分析 55
332 数据特征分析 57
333 Python工具分析 64
34 数据预处理 74
341 数据清洗 74
342 数据提取 76
343 数据变换 83
35 数据模型及评估 88
351 评估算法 88
352 评估矩阵 91
353 分类算法模型及评估 98
354 回归算法模型及评估 103
第 4章 数据展示108
41 数据可视化简介 108
42 可视化工具介绍 109
421 百度 ECharts 109
422 蚂蚁金服 AntV 110
423 微软 Power BI 111
424 Tableau 112
425 talkingData inMap 114
第 5章 社交网络分析115
51 社交网络分析应用介绍 115
511 社交网络算法应用场景 115
512 社交网络算法分析指标 116
513 社区发现简介 116
514 社区发现算法 118
515 PageRank算法 119
52 Python社交网络库分析介绍 121
53 Cypher语言 121
531 Cypher简介 121
532 Cypher语法入门 122
54 Neo4j高性能插件 APOC 129
第 6章 深度学习130
61 神经网络介绍 130
611 起源 130
612 优化器 132
613 BP神经网络 137
62 CNN介绍 138
621 CNN网络结构 138
622 CNN类型 142
623 猫狗大战 144
63 RNN介绍 147
631 RNN网络结构 148
632 LSTM网络结构 149
633 古诗自动生成 152
64 GAN模型 158
641 模型结构 158
642 GAN模型拓展 160
643 卡通人脸自动生成 160
65 人脸识别库 Dlib实战 166
651 人脸识别发展 166
652 Dlib库介绍 167
653 人脸识别实战 167
第 7章 自然语言处理169
71 自然语言处理概述 169
72 自然语言处理常用工具 170
721 综合处理类工具 171
722 中文类工具 171
73 文本预处理 172
731 分词 172
732 停用词处理 175
733 词频分析与探索 176
74 文本表示 178
741 词袋模型 178
742 词嵌入 180
75 文本分类 182
751 基于传统机器学习的文本分类 183
752 基于深度学习的文本分类 185
第 8章 综合实训189
81 实训 1:爬取网站实例 189
811 分析网站 189
812 元素定位 190
813 编写代码 191
814 部署 195
82 实训 2:数据分析实战 195
821 分类模型实战 195
822 回归模型实战 208
83 实训 3:实战可视化 223
831 案例 1:ECharts 223
832 案例 2:AntV 224
84 实训 4:《权力的游戏》关系图谱解读 226
841 基于图分析 Neo4j 226
842 基于 Python-IGraph 233
843 使用 Py2neo 237
85 实训 5:商品评价文本分类 239
851 建模之前 239
852 开始建模 240
853 代码开发阶段 241
854 分析、诊断与修正 248
855 总结与反思 249
参考文献 250