大数据爬取、清洗与可视化教程
¥56.00定价
作者: 贾宁
出版时间:2023-07
出版社:电子工业出版社
- 电子工业出版社
- 9787121407529
- 1-4
- 403049
- 48253411-2
- 平塑
- 16开
- 2023-07
- 518
- 308
- 工学
- 计算机科学与技术
- 计算机科学与技术
- 本科 高职
目录
第1章 大数据爬取、清洗与可视化概述 1__eol__1.1 爬虫概述 1__eol__1.1.1 爬虫简介 1__eol__1.1.2 常见爬虫分类和工具 2__eol__1.2 数据清洗概述 2__eol__1.2.1 数据清洗简介 2__eol__1.2.2 常见数据清洗工具 3__eol__1.3 可视化技术概述 3__eol__1.3.1 数据可视化概述 3__eol__1.3.2 常见可视化工具 5__eol__1.4 相关网络技术简介 5__eol__1.4.1 HTTP 5__eol__1.4.2 HTML 7__eol__1.4.3 XML 10__eol__1.4.4 JSON 13__eol__1.4.5 JavaScript 14__eol__1.4.6 正则表达式 17__eol__1.5 Python开发环境配置 21__eol__1.5.1 在Windows中安装Python 22__eol__1.5.2 在Linux中安装Python 24__eol__1.5.3 Python集成开发环境 26__eol__1.5.4 Python第三方库管理 33__eol__本章小结 35__eol__习题 35__eol__第2章 爬虫概述 36__eol__2.1 爬虫基础概述 36__eol__2.1.1 爬虫概念 36__eol__2.1.2 爬虫基本原理 37__eol__2.2 爬虫规范 39__eol__2.2.1 爬虫尺寸 39__eol__2.2.2 Robots协议 39__eol__2.3 爬虫通用结构 43__eol__2.3.1 爬虫通用结构简介 43__eol__2.3.2 爬虫基本工作流程 43__eol__2.3.3 异常处理机制 44__eol__2.4 爬虫技术 46__eol__2.4.1 urllib 3库 46__eol__2.4.2 网页内容查看 51__eol__2.4.3 XPath 56__eol__本章小结 60__eol__习题 60__eol__第3章 Requests库 62__eol__3.1 Requests库简介与安装 62__eol__3.1.1 Requests库简介 62__eol__3.1.2 Requests库安装 62__eol__3.2 Requests库基本使用 63__eol__3.2.1 Requests库的主要方法 63__eol__3.2.2 发送基本请求 66__eol__3.2.3 响应内容 66__eol__3.2.4 访问异常处理方案 67__eol__3.3 Requests库高级用法 69__eol__3.3.1 定制请求头部 69__eol__3.3.2 设置超时 70__eol__3.3.3 传递参数 70__eol__3.3.4 解析JSON 72__eol__3.4 代理设置 72__eol__3.5 模拟登录 73__eol__3.5.1 保持登录机制 73__eol__3.5.2 使用Cookies登录网站 74__eol__3.5.3 登录流程分析 77__eol__3.5.4 Requests会话对象 78__eol__3.5.5 登录网站实例 80__eol__3.6 资源下载 80__eol__3.7 Requests库应用实例 82__eol__3.7.1 具体功能分析 82__eol__3.7.2 具体代码实现 85__eol__本章小结 86__eol__习题 87__eol__第4章 BeautifulSoup爬虫 88__eol__4.1 BeautifulSoup简介与安装 88__eol__4.1.1 BeautifulSoup简介 88__eol__4.1.2 BeautifulSoup4安装方法 88__eol__4.1.3 BeautifulSoup解析器 90__eol__4.1.4 BeautifulSoup初探 92__eol__4.2 BeautifulSoup对象类型 93__eol__4.2.1 Tag 93__eol__4.2.2 NavigableString 95__eol__4.2.3 BeautifulSoup 96__eol__4.2.4 Comment 96__eol__4.3 BeautifulSoup的遍历与搜索 97__eol__4.3.1 遍历文档树 97__eol__4.3.2 搜索文档树 105__eol__4.4 BeautifulSoup应用实例 110__eol__4.4.1 基于BeautifulSoup的独立数据爬取 110__eol__4.4.2 融合正则表达式的数据爬取 112__eol__本章小结 114__eol__习题 115__eol__第5章 自动化测试工具Selenium 116__eol__5.1 Selenium简介与安装 116__eol__5.1.1 Selenium简介 116__eol__5.1.2 Selenium安装 116__eol__5.2 Selenium基本用法 120__eol__5.2.1 声明浏览器对象 120__eol__5.2.2 访问页面 120__eol__5.3 元素 121__eol__5.3.1 定位元素 121__eol__5.3.2 交互操作元素 126__eol__5.3.3 动作链 127__eol__5.3.4 获取元素属性 128__eol__5.4 Selenium高级操作 129__eol__5.4.1 执行JavaScript 129__eol__5.4.2 前进、后退和刷新操作 130__eol__5.4.3 等待操作 130__eol__5.4.4 处理Cookies 132__eol__5.4.5 处理异常 133__eol__5.5 Selenium实例 134__eol__5.5.1 具体功能分析 134__eol__5.5.2 具体代码实现 135__eol__本章小结 136__eol__习题 137__eol__第6章 中型爬虫框架Scrapy 138__eol__6.1 Scrapy框架简介与安装 138__eol__6.1.1 Scrapy运行机制 138__eol__6.1.2 Scrapy框架简介 139__eol__6.1.3 Scrapy安装 140__eol__6.2 Scrapy命令行工具 141__eol__6.2.1 全局命令 142__eol__6.2.2 Project-only命令 144__eol__6.3 选择器 146__eol__6.3.1 选择器简介 147__eol__6.3.2 选择器基础 147__eol__6.3.3 结合正则表达式 151__eol__6.3.4 嵌套选择器 152__eol__6.4 Scrapy项目开发 152__eol__6.4.1 新建项目 153__eol__6.4.2 定义Items 153__eol__6.4.3 制作爬虫 154__eol__6.4.4 爬取数据 156__eol__6.4.5 使用Items 160__eol__6.5 Item Pipeline 161__eol__6.5.1 Item Pipeline简介 161__eol__6.5.2 Item Pipeline应用 162__eol__6.6 中间件 164__eol__6.6.1 下载器中间件 164__eol__6.6.2 爬虫中间件 168__eol__6.7 Scrapy实例 171__eol__6.7.1 具体功能分析 171__eol__6.7.2 具体代码实现 172__eol__本章小结 174__eol__习题 174__eol__第7章 数据存储 176__eol__7.1 数据存储简介 176__eol__7.1.1 现代数据存储的挑战 176__eol__7.1.2 常用工具 177__eol__7.2 文本文件存储 179__eol__7.2.1 文本数据的读写 179__eol__7.2.2 CSV数据的读写 182__eol__7.2.3 Excel数据的读写 187__eol__7.2.4 JSON对象的读写 193__eol__7.3 MongoDB数据库 197__eol__7.3.1 MongoDB简介 197__eol__7.3.2 MongoDB安装 198__eol__7.3.3 MongoDB数据库操作 202__eol__7.4 数据存储实例 207__eol__7.4.1 具体功能分析 207__eol__7.4.2 具体代码实现 208__eol__本章小结 210__eol__习题 210__eol__第8章 数据清洗 212__eol__8.1 数据清洗概述 212__eol__8.1.1 数据清洗原理 212__eol__8.1.2 主要数据类型 212__eol__8.1.3 常用工具 213__eol__8.2 数据清洗方法 215__eol__8.2.1 重复数据处理 215__eol__8.2.2 缺失数据处理 218__eol__