注册 登录 进入教材巡展
#
  • #

出版时间:2020-06

出版社:机械工业出版社

以下为《全栈数据工程原理与实践》的配套数字资源,这些资源在您购买图书后将免费附送给您:
  • 机械工业出版社
  • 9787111650683
  • 1-1
  • 319556
  • 48239414-5
  • 平装
  • 16开
  • 2020-06
  • 391
  • 工学
  • 计算机科学与技术
  • 数据科学与大数据技术
  • 本科
内容简介
本书由数据科学一线教学科研工作者、企业从业者根据自己日常的科研内容和工作经验总结而成,对数据获取、数据存储、数据分析、数据展示等主要数据科学的典型步骤进行了细致的知识梳理,对当前科研和企业应用的前沿技术以清晰的脉络和通俗易懂的语言进行了详尽的讲解。本书主要介绍了多种编程语言下的数据采集方式,多个形态的数据库使用和适用场景,并穿插介绍了经典的机器学习与深度学习方法,使读者对数据科学的全栈技术有一定的了解和认知。
本书代码主要是在Python的基础上开发的,结合成熟的机器学习框架Scikit-Learn,简单易用的深度学习框架Keras,以存储在MySQL、MongoDB、Redis、Neo4j等数据库内的多模态数据为样例,为读者直观生动地展示全栈数据技术的整体过程,同时提供实践课题和主要代码,供学有余力的读者进行综合实训。
本书主要面向对数据科学、人工智能、机器学习、深度学习具有浓厚兴趣且希望尽快入门的读者、高校相关专业的教育工作者和在校学生,以及正在从事数据科学相关工作并且希望深入研究的数据科学家、软件工程师、大数据平台工程师和项目管理者等。
目录
前 言

第 1章 数据获取1

11

 HTTP 1

111HTTP简介 1 112 

112一次网页请求分析 1

12

 Chrome浏览器 2

121

 Chrome的特点 2

122

 Chrome配置 3 123 

基本功能介绍 3 124 

插件推荐 5

13

 HTML、CSS和 JavaScript 5

131

 HTML 6

132CSS 8

133 JavaScript 9



14Python爬虫 10

141 Bs4和 Requests库爬取 10

142PyQuery爬取 11

143Scrapy爬取 12

144Selenium自动化爬取 13

15JavaScript爬虫 13

151 Node基础 13

152 puppeteer爬虫实战 20

第 2章 数据存储 22

21 数据库介绍 22

211 数据库发展 22

212 数据库分类 23

213 常用关系型数据库产品介绍 24

22关系型数据库 MySQL 26

221 MySQL的配置 26

222 MySQL实践 29



223 Python操作 MySQL 30



23

 文档数据库 MongoDB 35

231 MongoDB的配置 35

232 MongoDB实践 37



233 Python操作 MongoDB 38



24Key-Value数据库 Redis 39

241 Redis的配置 39

242 Redis操作 39



25 图数据库 Neo4j 41

251 Neo4j安装 41

252 Neo4j语法 42

253 Neo4j命令 43

26 数据库总结 44

第 3章 数据分析 45

31 数据分析简介 45

311 数据分析的背景 46

312 数据分析的流程 47

32 数据分析工具 49

321 Numpy 49

322 Scipy 50

323 Matplotlib 50

324 Pandas 52

325 Scikit-Learn 53

326 Keras 54

33 数据探索 55

331 数据质量分析 55

332 数据特征分析 57

333 Python工具分析 64

34 数据预处理 74

341 数据清洗 74

342 数据提取 76

343 数据变换 83

35 数据模型及评估 88

351 评估算法 88

352 评估矩阵 91

353 分类算法模型及评估 98

354 回归算法模型及评估 103

第 4章 数据展示108

41 数据可视化简介 108

42 可视化工具介绍 109

421 百度 ECharts 109

422 蚂蚁金服 AntV 110

423 微软 Power BI 111

424 Tableau 112

425 talkingData inMap 114

第 5章 社交网络分析115

51 社交网络分析应用介绍 115

511 社交网络算法应用场景 115

512 社交网络算法分析指标 116

513 社区发现简介 116

514 社区发现算法 118

515 PageRank算法 119

52 Python社交网络库分析介绍 121

53 Cypher语言 121

531 Cypher简介 121

532 Cypher语法入门 122

54 Neo4j高性能插件 APOC 129

第 6章 深度学习130

61 神经网络介绍 130

611 起源 130

612 优化器 132

613 BP神经网络 137

62 CNN介绍 138

621 CNN网络结构 138

622 CNN类型 142

623 猫狗大战 144

63 RNN介绍 147

631 RNN网络结构 148

632 LSTM网络结构 149

633 古诗自动生成 152

64 GAN模型 158

641 模型结构 158

642 GAN模型拓展 160

643 卡通人脸自动生成 160

65 人脸识别库 Dlib实战 166

651 人脸识别发展 166

652 Dlib库介绍 167

653 人脸识别实战 167

第 7章 自然语言处理169

71 自然语言处理概述 169

72 自然语言处理常用工具 170

721 综合处理类工具 171

722 中文类工具 171

73 文本预处理 172

731 分词 172

732 停用词处理 175

733 词频分析与探索 176

74 文本表示 178

741 词袋模型 178

742 词嵌入 180

75 文本分类 182

751 基于传统机器学习的文本分类 183

752 基于深度学习的文本分类 185

第 8章 综合实训189

81 实训 1:爬取网站实例 189

811 分析网站 189

812 元素定位 190

813 编写代码 191

814 部署 195

82 实训 2:数据分析实战 195

821 分类模型实战 195

822 回归模型实战 208

83 实训 3:实战可视化 223

831 案例 1:ECharts 223

832 案例 2:AntV 224

84 实训 4:《权力的游戏》关系图谱解读 226

841 基于图分析 Neo4j 226

842 基于 Python-IGraph 233

843 使用 Py2neo 237

85 实训 5:商品评价文本分类 239

851 建模之前 239

852 开始建模 240

853 代码开发阶段 241

854 分析、诊断与修正 248

855 总结与反思 249

参考文献 250