- 机械工业出版社
- 9787111728467
- 1-2
- 503777
- 46257924-4
- 平装
- 16开
- 2023-06
- 449
- 数据科学与大数据技术
- 本科
内容简介
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。
本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
目录
前言
基 础 篇
第1章 Python基础及网络爬虫1
1.1 了解Python语言1
1.1.1 Python是什么2
1.1.2 Python的应用现状2
1.2 配置安装Python开发环境3
1.2.1 在Windows上安装3
1.2.2 在Ubuntu和MacOS上安装4
1.2.3 IDE的使用:以PyCharm为例5
1.2.4 Jupyter Notebook简介9
1.3 Python基本语法介绍11
1.3.1 HelloWorld与数据类型11
1.3.2 逻辑语句17
1.3.3 Python中的函数与类20
1.3.4 更深入了解Python22
1.4 互联网、HTTP与HTML22
1.4.1 互联网与HTTP22
1.4.2 HTML23
1.5 Hello, Spider!25
1.5.1 编写第一个爬虫程序25
1.5.2 对爬虫的思考27
1.6 分析网站28
1.6.1 robots.txt与Sitemap简介28
1.6.2 网站技术分析31
1.6.3 网站所有者信息分析33
1.6.4 使用开发者工具检查网页34
1.7 本章小结37
1.8 实践:Python环境的配置与
爬虫的运行37
1.8.1 需求说明37
1.8.2 实现思路及步骤37
1.9 习题37
第2章 数据采集与预处理39
2.1 数据39
2.1.1 数据的概念39
2.1.2 数据类型40
2.1.3 数据的存储形式42
2.1.4 数据的价值42
2.1.5 大数据时代43
2.2 数据分析过程43
2.3 数据采集44
2.3.1 数据采集的概念44
2.3.2 数据采集的数据源44
2.3.3 数据采集方法45
2.4 数据清洗45
2.4.1 数据清洗概述45
2.4.2 数据清洗的内容46
2.4.3 数据清洗的基本流程46
2.4.4 数据清洗的评价标准47
2.5 数据集成47
2.6 数据转换48
2.6.1 数据转换概念与策略48
2.6.2 平滑处理48
2.6.3 标准化处理50
2.7 数据脱敏50
2.7.1 数据脱敏的原则50
2.7.2 数据脱敏的方法51
2.8 本章小结51
2.9 实践:使用Python尝试数据的
清洗51
2.9.1 需求说明51
2.9.2 实现思路及步骤51
2.10 习题51
第3章 静态网页采集53
3.1 从采集开始53
3.2 正则表达式54
3.2.1 什么是正则表达式54
3.2.2 正则表达式的简单使用56
3.3 BeautifulSoup爬虫58
3.3.1 安装BeautifulSoup58
3.3.2 BeautifulSoup的基本用法61
3.4 XPath与lxml64
3.4.1 XPath64
3.4.2 lxml与XPath的使用65
3.5 遍历页面67
3.5.1 抓取下一个页面67
3.5.2 完成爬虫68
3.6 使用API70
3.6.1 API简介70
3.6.2 API使用示例72
3.7 本章小结75
3.8 实践:哔哩哔哩直播间信息
爬取练习75
3.8.1 需求说明75
3.8.2 实现思路及步骤75
3.9 习题76
第4章 数据存储77
4.1 Python中的文件77
4.1.1 Python的文件读写77
4.1.2 对象序列化79
4.2 Python中的字符串80
4.3 Python中的图片81
4.3.1 PIL与Pillow模块81
4.3.2 Python与OpenCV简介83
4.4 CSV84
4.4.1 CSV简介84
4.4.2 CSV的读写84
4.5 数据库的使用86
4.5.1 MySQL的使用86
4.5.2 SQLite3的使用88
4.5.3 SQLAlchemy的使用89
4.5.4 Redis的使用91
4.5.5 MongoDB的使用91
4.6 其他类型的文档92
4.7 本章小结97
4.8 实践:使用Python 3读写SQLite
数据库97
4.8.1 需求说明97
4.8.2 实现思路及步骤97
4.9 习题97
进 阶 篇
第5章 JavaScript与动态内容99
5.1 JavaScript与AJAX技术100
5.1.1 JavaScript语言100
5.1.2 AJAX103
5.2 抓取AJAX数据104
5.2.1 分析数据104
5.2.2 数据提取108
5.3 抓取动态内容113
5.3.1 动态渲染页面113
5.3.2 使用Selenium114
5.3.3 PyV8与Splash120
5.4 本章小结123
5.5 实践:爬取机械工业出版社新书
上架信息123
5.5.1 需求说明123
5.5.2 实现思路及步骤124
5.6 习题124
第6章 模拟登录与验证码125
6.1 表单125
6.1.1 表单与POST125
6.1.2 POST发送表单数据127
6.2 Cookie130
6.2.1 Cookie简介130
6.2.2 在Python中Cookie的使用131
6.3 模拟登录网站133
6.3.1 分析网站133
6.3.2 Cookie方法的模拟登录134
6.4 验证码137
6.4.1 图片验证码137
6.4.2 滑动验证139
6.5 本章小结142
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie143
6.6.1 需求说明143
6.6.2 实现思路及步骤143
6.7 习题143
第7章 爬虫数据的分析与处理144
7.1 Python与文本分析144
7.1.1 文本分析简介144
7.1.2 jieba与SnowNLP145
7.1.3 NLTK148
7.1.4 文本分类与聚类151
7.2 数据处理与科学计算153
7.2.1 从MATLAB到Python153
7.2.2 NumPy154
7.2.3 Pandas158
7.2.4 Matplotlib163
7.2.5 SciPy与SymPy167
7.3 本章小结167
7.4 实践:中国每年大学招生人数
变化的可视化167
7.4.1 需求说明167
7.4.2 实现思路及步骤167
7.5 习题167
提 高 篇
第8章 爬虫的灵活性和多样性169
8.1 爬虫的灵活性——以微信数据
抓取为例169
8.1.1 用Selenium抓取Web微信信息169
8.1.2 基于Python的微信API工具173
8.2 爬虫的多样性176
8.2.1 在BeautifulSoup和XPath之外176
8.2.2 在线爬虫应用平台179
8.2.3 使用urllib180
8.3 爬虫的部署和管理188
8.3.1 使用服务器部署爬虫188
8.3.2 本地爬虫的编写191
8.3.3 爬虫的部署195
8.3.4 实时查看运行结果197
8.3.5 使用框架管理爬虫197
8.4 本章小结200
8.5 实践:基于PyQuery爬取菜鸟
教程201
8.5.1 需求说明201
8.5.2 实现思路及步骤201
8.6 习题201
第9章 Selenium模拟浏览器与网站
测试202
9.1 测试202
9.1.1 什么是测试202
9.1.2 什么是TDD203
9.2 Python的单元测试203
9.2.1 使用unittest203
9.2.2 其他方法206
9.3 使用Python爬虫测试网站207
9.4 使用Selenium测试209
9.4.1 Selenium测试常用的网站交互209
9.4.2 结合Selenium进行单元测试211
9.5 本章小结212
9.6 实践:使用Selenium爬取百度
搜索“爬虫”的结果212
9.6.1 需求说明212
9.6.2 实现思路及步骤212
9.7 习题213
第10章 爬虫框架Scrapy与反爬虫214
10.1 爬虫框架214
10.1.1 Scrapy简介214
10.1.2 安装与学习Scrapy216
10.1.3 Scrapy爬虫编写218
10.1.4 其他爬虫框架220
10.2 网站反爬虫221
10.2.1 反爬虫策略简介221
10.2.2 伪装Headers222
10.2.3 代理IP的使用225
10.2.4 控制访问频率228
10.3 本章小结229
10.4 实践:使用反反爬虫策略抓取
新浪体育频道热门新闻标题229
10.4.1 需求说明229
10.4.2 实现思路及步骤229
10.5 习题230
实 战 篇
第11章 实战:根据关键词爬取
新闻231
11.1 利用Web Scraper工具231
11.1.1 Web Scraper介绍231
11.1.2 利用Web Scraper爬取新华网
新闻232
11.2 利用Selenium和XPath
技术234
11.2.1 Selenium介绍234
11.2.2 XPath介绍234
11.2.3 根据关键词爬取新闻235
11.3 本章小结236
第12章 实战:爬取科研文献信息237
12.1 科研文献数据爬取237
12.1.1 网页URL分析237
12.1.2 网页响应内容获取238
12.1.3 数据持久化存储240
12.1.4 爬虫代码编写240
12.1.5 大数据量文献爬虫245
12.1.6 针对反爬虫的措施246
12.2 本章小结247
第13章 实战:蒸汽平台游戏数据
爬取248
13.1 爬取蒸汽平台上最受好评的前
100个游戏信息248
13.1.1 多线程248
13.1.2 搜索页面分析和爬虫实现248
13.1.3 游戏页面分析和爬虫实现250
13.1.4 信息存储和结果展示253
13.2 本章小结254
第14章 实战:Scrapy框架爬取股票
信息255
14.1 任务介绍255
14.2 Scrapy项目实战256
14.2.1 新建Scrapy爬虫项目256
14.2.2 使用Scrapy shell抓取并查看
页面256
14.2.3 爬虫代码编写260
14.2.4 运行并存储数据262
14.2.5 设置文件修改263
14.3 本章小结265
参考文献266
基 础 篇
第1章 Python基础及网络爬虫1
1.1 了解Python语言1
1.1.1 Python是什么2
1.1.2 Python的应用现状2
1.2 配置安装Python开发环境3
1.2.1 在Windows上安装3
1.2.2 在Ubuntu和MacOS上安装4
1.2.3 IDE的使用:以PyCharm为例5
1.2.4 Jupyter Notebook简介9
1.3 Python基本语法介绍11
1.3.1 HelloWorld与数据类型11
1.3.2 逻辑语句17
1.3.3 Python中的函数与类20
1.3.4 更深入了解Python22
1.4 互联网、HTTP与HTML22
1.4.1 互联网与HTTP22
1.4.2 HTML23
1.5 Hello, Spider!25
1.5.1 编写第一个爬虫程序25
1.5.2 对爬虫的思考27
1.6 分析网站28
1.6.1 robots.txt与Sitemap简介28
1.6.2 网站技术分析31
1.6.3 网站所有者信息分析33
1.6.4 使用开发者工具检查网页34
1.7 本章小结37
1.8 实践:Python环境的配置与
爬虫的运行37
1.8.1 需求说明37
1.8.2 实现思路及步骤37
1.9 习题37
第2章 数据采集与预处理39
2.1 数据39
2.1.1 数据的概念39
2.1.2 数据类型40
2.1.3 数据的存储形式42
2.1.4 数据的价值42
2.1.5 大数据时代43
2.2 数据分析过程43
2.3 数据采集44
2.3.1 数据采集的概念44
2.3.2 数据采集的数据源44
2.3.3 数据采集方法45
2.4 数据清洗45
2.4.1 数据清洗概述45
2.4.2 数据清洗的内容46
2.4.3 数据清洗的基本流程46
2.4.4 数据清洗的评价标准47
2.5 数据集成47
2.6 数据转换48
2.6.1 数据转换概念与策略48
2.6.2 平滑处理48
2.6.3 标准化处理50
2.7 数据脱敏50
2.7.1 数据脱敏的原则50
2.7.2 数据脱敏的方法51
2.8 本章小结51
2.9 实践:使用Python尝试数据的
清洗51
2.9.1 需求说明51
2.9.2 实现思路及步骤51
2.10 习题51
第3章 静态网页采集53
3.1 从采集开始53
3.2 正则表达式54
3.2.1 什么是正则表达式54
3.2.2 正则表达式的简单使用56
3.3 BeautifulSoup爬虫58
3.3.1 安装BeautifulSoup58
3.3.2 BeautifulSoup的基本用法61
3.4 XPath与lxml64
3.4.1 XPath64
3.4.2 lxml与XPath的使用65
3.5 遍历页面67
3.5.1 抓取下一个页面67
3.5.2 完成爬虫68
3.6 使用API70
3.6.1 API简介70
3.6.2 API使用示例72
3.7 本章小结75
3.8 实践:哔哩哔哩直播间信息
爬取练习75
3.8.1 需求说明75
3.8.2 实现思路及步骤75
3.9 习题76
第4章 数据存储77
4.1 Python中的文件77
4.1.1 Python的文件读写77
4.1.2 对象序列化79
4.2 Python中的字符串80
4.3 Python中的图片81
4.3.1 PIL与Pillow模块81
4.3.2 Python与OpenCV简介83
4.4 CSV84
4.4.1 CSV简介84
4.4.2 CSV的读写84
4.5 数据库的使用86
4.5.1 MySQL的使用86
4.5.2 SQLite3的使用88
4.5.3 SQLAlchemy的使用89
4.5.4 Redis的使用91
4.5.5 MongoDB的使用91
4.6 其他类型的文档92
4.7 本章小结97
4.8 实践:使用Python 3读写SQLite
数据库97
4.8.1 需求说明97
4.8.2 实现思路及步骤97
4.9 习题97
进 阶 篇
第5章 JavaScript与动态内容99
5.1 JavaScript与AJAX技术100
5.1.1 JavaScript语言100
5.1.2 AJAX103
5.2 抓取AJAX数据104
5.2.1 分析数据104
5.2.2 数据提取108
5.3 抓取动态内容113
5.3.1 动态渲染页面113
5.3.2 使用Selenium114
5.3.3 PyV8与Splash120
5.4 本章小结123
5.5 实践:爬取机械工业出版社新书
上架信息123
5.5.1 需求说明123
5.5.2 实现思路及步骤124
5.6 习题124
第6章 模拟登录与验证码125
6.1 表单125
6.1.1 表单与POST125
6.1.2 POST发送表单数据127
6.2 Cookie130
6.2.1 Cookie简介130
6.2.2 在Python中Cookie的使用131
6.3 模拟登录网站133
6.3.1 分析网站133
6.3.2 Cookie方法的模拟登录134
6.4 验证码137
6.4.1 图片验证码137
6.4.2 滑动验证139
6.5 本章小结142
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie143
6.6.1 需求说明143
6.6.2 实现思路及步骤143
6.7 习题143
第7章 爬虫数据的分析与处理144
7.1 Python与文本分析144
7.1.1 文本分析简介144
7.1.2 jieba与SnowNLP145
7.1.3 NLTK148
7.1.4 文本分类与聚类151
7.2 数据处理与科学计算153
7.2.1 从MATLAB到Python153
7.2.2 NumPy154
7.2.3 Pandas158
7.2.4 Matplotlib163
7.2.5 SciPy与SymPy167
7.3 本章小结167
7.4 实践:中国每年大学招生人数
变化的可视化167
7.4.1 需求说明167
7.4.2 实现思路及步骤167
7.5 习题167
提 高 篇
第8章 爬虫的灵活性和多样性169
8.1 爬虫的灵活性——以微信数据
抓取为例169
8.1.1 用Selenium抓取Web微信信息169
8.1.2 基于Python的微信API工具173
8.2 爬虫的多样性176
8.2.1 在BeautifulSoup和XPath之外176
8.2.2 在线爬虫应用平台179
8.2.3 使用urllib180
8.3 爬虫的部署和管理188
8.3.1 使用服务器部署爬虫188
8.3.2 本地爬虫的编写191
8.3.3 爬虫的部署195
8.3.4 实时查看运行结果197
8.3.5 使用框架管理爬虫197
8.4 本章小结200
8.5 实践:基于PyQuery爬取菜鸟
教程201
8.5.1 需求说明201
8.5.2 实现思路及步骤201
8.6 习题201
第9章 Selenium模拟浏览器与网站
测试202
9.1 测试202
9.1.1 什么是测试202
9.1.2 什么是TDD203
9.2 Python的单元测试203
9.2.1 使用unittest203
9.2.2 其他方法206
9.3 使用Python爬虫测试网站207
9.4 使用Selenium测试209
9.4.1 Selenium测试常用的网站交互209
9.4.2 结合Selenium进行单元测试211
9.5 本章小结212
9.6 实践:使用Selenium爬取百度
搜索“爬虫”的结果212
9.6.1 需求说明212
9.6.2 实现思路及步骤212
9.7 习题213
第10章 爬虫框架Scrapy与反爬虫214
10.1 爬虫框架214
10.1.1 Scrapy简介214
10.1.2 安装与学习Scrapy216
10.1.3 Scrapy爬虫编写218
10.1.4 其他爬虫框架220
10.2 网站反爬虫221
10.2.1 反爬虫策略简介221
10.2.2 伪装Headers222
10.2.3 代理IP的使用225
10.2.4 控制访问频率228
10.3 本章小结229
10.4 实践:使用反反爬虫策略抓取
新浪体育频道热门新闻标题229
10.4.1 需求说明229
10.4.2 实现思路及步骤229
10.5 习题230
实 战 篇
第11章 实战:根据关键词爬取
新闻231
11.1 利用Web Scraper工具231
11.1.1 Web Scraper介绍231
11.1.2 利用Web Scraper爬取新华网
新闻232
11.2 利用Selenium和XPath
技术234
11.2.1 Selenium介绍234
11.2.2 XPath介绍234
11.2.3 根据关键词爬取新闻235
11.3 本章小结236
第12章 实战:爬取科研文献信息237
12.1 科研文献数据爬取237
12.1.1 网页URL分析237
12.1.2 网页响应内容获取238
12.1.3 数据持久化存储240
12.1.4 爬虫代码编写240
12.1.5 大数据量文献爬虫245
12.1.6 针对反爬虫的措施246
12.2 本章小结247
第13章 实战:蒸汽平台游戏数据
爬取248
13.1 爬取蒸汽平台上最受好评的前
100个游戏信息248
13.1.1 多线程248
13.1.2 搜索页面分析和爬虫实现248
13.1.3 游戏页面分析和爬虫实现250
13.1.4 信息存储和结果展示253
13.2 本章小结254
第14章 实战:Scrapy框架爬取股票
信息255
14.1 任务介绍255
14.2 Scrapy项目实战256
14.2.1 新建Scrapy爬虫项目256
14.2.2 使用Scrapy shell抓取并查看
页面256
14.2.3 爬虫代码编写260
14.2.4 运行并存储数据262
14.2.5 设置文件修改263
14.3 本章小结265
参考文献266