- 中国铁道出版社
- 9787113303587
- 1-1
- 502268
- 66259746-7
- 16开
- 2023-11
- 计算机类
- 高职
内容简介
本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python 程序开发”1+X 职业技能等级
标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,
主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、爬虫代理、
模拟登录、爬取 App 数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设
计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。
本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网
企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集
清洗和存储等工作岗位的人员参考。
标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,
主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、爬虫代理、
模拟登录、爬取 App 数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设
计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。
本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网
企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集
清洗和存储等工作岗位的人员参考。
目录
项目一 静态网页爬取与解析............. 1-1
任务 1 搭建静态网页爬虫环境............ 1-2
任务分析.................................................. 1-2
导学.......................................................... 1-3
学习资料.................................................. 1-5
1. 爬虫基本概念 ................................1-5
2. 爬虫实现原理 ................................1-6
3. 静态网页爬虫环境搭建 ..............1-10
任务实施................................................ 1-13
任务评价................................................ 1-15
任务 2 爬取北京市旅游景点信息 ...... 1-18
任务分析................................................ 1-18
导学........................................................ 1-19
学习资料................................................ 1-24
1. HTTP .............................................1-24
2. 网页组成 ......................................1-32
3. urllib 库 .........................................1-38
4. Requests 模块 ...............................1-51
任务实施................................................ 1-55
任务评价................................................ 1-57
任务 3 解析并保存北京市旅游景点
数据........................................ 1-60
任务分析................................................ 1-60
导学........................................................ 1-60
学习资料................................................ 1-65
1. 正则表达式 ..................................1-65
2. 使用 XPath ...................................1-71
3. Beautiful Soup 库 .........................1-81
任务实施................................................ 1-96
任务评价................................................ 1-99
项目二 爬取动态内容......................... 2-1
任务 1 安装 Selenium......................... 2-1
任务分析.................................................. 2-1
导学.......................................................... 2-2
学习资料.................................................. 2-3
任务实施.................................................. 2-5
任务评价.................................................. 2-7
任务 2 利用 Selenium 爬取京东商品
信息数据 ................................. 2-8
任务分析.................................................. 2-8
导学.......................................................... 2-9
学习资料................................................ 2-14
1. Selenium 简介 ..............................2-14
2. Selenium 的应用 ..........................2-15
任务实施................................................ 2-33
任务评价................................................ 2-37
项目三 利用爬虫框架 Scrapy 爬虫 ...3-1
任务 1 安装 Scrapy 框架..................... 3-1
任务分析.................................................. 3-1
导学.......................................................... 3-2
学习资料.................................................. 3-3
1. Anaconda 安装................................3-4
2. Windows 下的安装 ........................3-4
任务实施.................................................. 3-6
任务评价.................................................. 3-9
任务 2 利用 Scrapy 框架制作 Spiders
爬取网页数据............................... 3-11
任务分析................................................ 3-11
导学........................................................ 3-11
学习资料................................................ 3-14
1. Scrapy 框架介绍 ..........................3-14
2. Scrapy 的数据流 ..........................3-15
3. Scrapy 常用命令 ..........................3-15
任务实施................................................ 3-18
任务评价................................................ 3-23
项目四 爬虫代理和模拟登录............. 4-1
任务 1 爬虫代理.................................. 4-1
任务分析.................................................. 4-1
导学.......................................................... 4-2
学习资料.................................................. 4-3
1. 代理基本原理 ................................4-3
2. 代理的作用 ....................................4-4
3. 代理分类 ........................................4-4
4. Requests 库使用 IP 代理的方法 ......4-5
5. 构建代理池 ....................................4-5
任务实施.................................................. 4-8
任务评价................................................ 4-12
任务 2 模拟登录................................ 4-13
任务分析................................................ 4-13
导学........................................................ 4-14
学习资料................................................ 4-16
1. 用户登录 ......................................4-16
2. Cookie ...........................................4-16
3. Session ..........................................4-17
4. JWT ...............................................4-17
5. 基于 Session 和 Cookie 的模拟
登录 ..............................................4-18
6. 基于 Session 和 Cookie 的模拟
登录实例 ......................................4-19
任务实施................................................ 4-20
任务评价................................................ 4-21
项目五 App 的爬取 ............................ 5-1
任务 1 App 爬虫环境搭建................... 5-1
任务分析.................................................. 5-1
导学.......................................................... 5-2
学习资料.................................................. 5-4
1. App 爬取的主要流程 .....................5-4
2. Charles 的安装 ...............................5-4
3. 安装 JAVA JDK ..............................5-5
4. 安装 Android SDK Tools ................5-5
5. Appium 的安装 ...............................5-5
任务实施.................................................. 5-6
任务评价................................................ 5-14
任务 2 爬取微博主页推荐信息.......... 5-16
任务分析................................................ 5-16
导学........................................................ 5-17
学习资料................................................ 5-18
1. Charles 简介 .................................5-18
2. Appium 简介 .................................5-27
任务实施................................................ 5-29
任务评价................................................ 5-33
参考文献 ............................................... C-1
任务 1 搭建静态网页爬虫环境............ 1-2
任务分析.................................................. 1-2
导学.......................................................... 1-3
学习资料.................................................. 1-5
1. 爬虫基本概念 ................................1-5
2. 爬虫实现原理 ................................1-6
3. 静态网页爬虫环境搭建 ..............1-10
任务实施................................................ 1-13
任务评价................................................ 1-15
任务 2 爬取北京市旅游景点信息 ...... 1-18
任务分析................................................ 1-18
导学........................................................ 1-19
学习资料................................................ 1-24
1. HTTP .............................................1-24
2. 网页组成 ......................................1-32
3. urllib 库 .........................................1-38
4. Requests 模块 ...............................1-51
任务实施................................................ 1-55
任务评价................................................ 1-57
任务 3 解析并保存北京市旅游景点
数据........................................ 1-60
任务分析................................................ 1-60
导学........................................................ 1-60
学习资料................................................ 1-65
1. 正则表达式 ..................................1-65
2. 使用 XPath ...................................1-71
3. Beautiful Soup 库 .........................1-81
任务实施................................................ 1-96
任务评价................................................ 1-99
项目二 爬取动态内容......................... 2-1
任务 1 安装 Selenium......................... 2-1
任务分析.................................................. 2-1
导学.......................................................... 2-2
学习资料.................................................. 2-3
任务实施.................................................. 2-5
任务评价.................................................. 2-7
任务 2 利用 Selenium 爬取京东商品
信息数据 ................................. 2-8
任务分析.................................................. 2-8
导学.......................................................... 2-9
学习资料................................................ 2-14
1. Selenium 简介 ..............................2-14
2. Selenium 的应用 ..........................2-15
任务实施................................................ 2-33
任务评价................................................ 2-37
项目三 利用爬虫框架 Scrapy 爬虫 ...3-1
任务 1 安装 Scrapy 框架..................... 3-1
任务分析.................................................. 3-1
导学.......................................................... 3-2
学习资料.................................................. 3-3
1. Anaconda 安装................................3-4
2. Windows 下的安装 ........................3-4
任务实施.................................................. 3-6
任务评价.................................................. 3-9
任务 2 利用 Scrapy 框架制作 Spiders
爬取网页数据............................... 3-11
任务分析................................................ 3-11
导学........................................................ 3-11
学习资料................................................ 3-14
1. Scrapy 框架介绍 ..........................3-14
2. Scrapy 的数据流 ..........................3-15
3. Scrapy 常用命令 ..........................3-15
任务实施................................................ 3-18
任务评价................................................ 3-23
项目四 爬虫代理和模拟登录............. 4-1
任务 1 爬虫代理.................................. 4-1
任务分析.................................................. 4-1
导学.......................................................... 4-2
学习资料.................................................. 4-3
1. 代理基本原理 ................................4-3
2. 代理的作用 ....................................4-4
3. 代理分类 ........................................4-4
4. Requests 库使用 IP 代理的方法 ......4-5
5. 构建代理池 ....................................4-5
任务实施.................................................. 4-8
任务评价................................................ 4-12
任务 2 模拟登录................................ 4-13
任务分析................................................ 4-13
导学........................................................ 4-14
学习资料................................................ 4-16
1. 用户登录 ......................................4-16
2. Cookie ...........................................4-16
3. Session ..........................................4-17
4. JWT ...............................................4-17
5. 基于 Session 和 Cookie 的模拟
登录 ..............................................4-18
6. 基于 Session 和 Cookie 的模拟
登录实例 ......................................4-19
任务实施................................................ 4-20
任务评价................................................ 4-21
项目五 App 的爬取 ............................ 5-1
任务 1 App 爬虫环境搭建................... 5-1
任务分析.................................................. 5-1
导学.......................................................... 5-2
学习资料.................................................. 5-4
1. App 爬取的主要流程 .....................5-4
2. Charles 的安装 ...............................5-4
3. 安装 JAVA JDK ..............................5-5
4. 安装 Android SDK Tools ................5-5
5. Appium 的安装 ...............................5-5
任务实施.................................................. 5-6
任务评价................................................ 5-14
任务 2 爬取微博主页推荐信息.......... 5-16
任务分析................................................ 5-16
导学........................................................ 5-17
学习资料................................................ 5-18
1. Charles 简介 .................................5-18
2. Appium 简介 .................................5-27
任务实施................................................ 5-29
任务评价................................................ 5-33
参考文献 ............................................... C-1