- 中国铁道出版社
- 9787113303587
- 1-1
- 502268
- 68260572-0
- 16开
- 2023-11
- 电子与信息大类
- 计算机类
- 计算机类
- 高职
内容简介
本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python 程序开发”1+X 职业技能等级标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、爬虫代理、模拟登录、爬取 App 数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集清洗和存储等工作岗位的人员参考。
目录
项目一 静态网页爬取与解析............. 1-1
任务 1 搭建静态网页爬虫环境............ 1-2
任务分析.................................................. 1-2
导学.......................................................... 1-3
学习资料.................................................. 1-5
1. 爬虫基本概念 ................................1-5
2. 爬虫实现原理 ................................1-6
3. 静态网页爬虫环境搭建 ..............1-10
任务实施................................................ 1-13
任务评价................................................ 1-15
任务 2 爬取北京市旅游景点信息 ...... 1-18
任务分析................................................ 1-18
导学........................................................ 1-19
学习资料................................................ 1-24
1. HTTP .............................................1-24
2. 网页组成 ......................................1-32
3. urllib 库 .........................................1-38
4. Requests 模块 ...............................1-51
任务实施................................................ 1-55
任务评价................................................ 1-57
任务 3 解析并保存北京市旅游景点
数据........................................ 1-60
任务分析................................................ 1-60
导学........................................................ 1-60
学习资料................................................ 1-65
1. 正则表达式 ..................................1-65
2. 使用 XPath ...................................1-71
3. Beautiful Soup 库 .........................1-81
任务实施................................................ 1-96
任务评价................................................ 1-99
项目二 爬取动态内容......................... 2-1
任务 1 安装 Selenium......................... 2-1
任务分析.................................................. 2-1
导学.......................................................... 2-2
学习资料.................................................. 2-3
任务实施.................................................. 2-5
任务评价.................................................. 2-7
任务 2 利用 Selenium 爬取京东商品
信息数据 ................................. 2-8
任务分析.................................................. 2-8
导学.......................................................... 2-9
学习资料................................................ 2-14
1. Selenium 简介 ..............................2-14
2. Selenium 的应用 ..........................2-15
任务实施................................................ 2-33
任务评价................................................ 2-37
项目三 利用爬虫框架 Scrapy 爬虫 ...3-1
任务 1 安装 Scrapy 框架..................... 3-1
任务分析.................................................. 3-1
导学.......................................................... 3-2
学习资料.................................................. 3-3
1. Anaconda 安装................................3-4
2. Windows 下的安装 ........................3-4
任务实施.................................................. 3-6
任务评价.................................................. 3-9
任务 2 利用 Scrapy 框架制作 Spiders
爬取网页数据............................... 3-11
任务分析................................................ 3-11
导学........................................................ 3-11
学习资料................................................ 3-14
1. Scrapy 框架介绍 ..........................3-14
2. Scrapy 的数据流 ..........................3-15
3. Scrapy 常用命令 ..........................3-15
任务实施................................................ 3-18
任务评价................................................ 3-23
项目四 爬虫代理和模拟登录............. 4-1
任务 1 爬虫代理.................................. 4-1
任务分析.................................................. 4-1
导学.......................................................... 4-2
学习资料.................................................. 4-3
1. 代理基本原理 ................................4-3
2. 代理的作用 ....................................4-4
3. 代理分类 ........................................4-4
4. Requests 库使用 IP 代理的方法 ......4-5
5. 构建代理池 ....................................4-5
任务实施.................................................. 4-8
任务评价................................................ 4-12
任务 2 模拟登录................................ 4-13
任务分析................................................ 4-13
导学........................................................ 4-14
学习资料................................................ 4-16
1. 用户登录 ......................................4-16
2. Cookie ...........................................4-16
3. Session ..........................................4-17
4. JWT ...............................................4-17
5. 基于 Session 和 Cookie 的模拟
登录 ..............................................4-18
6. 基于 Session 和 Cookie 的模拟
登录实例 ......................................4-19
任务实施................................................ 4-20
任务评价................................................ 4-21
项目五 App 的爬取 ............................ 5-1
任务 1 App 爬虫环境搭建................... 5-1
任务分析.................................................. 5-1
导学.......................................................... 5-2
学习资料.................................................. 5-4
1. App 爬取的主要流程 .....................5-4
2. Charles 的安装 ...............................5-4
3. 安装 JAVA JDK ..............................5-5
4. 安装 Android SDK Tools ................5-5
5. Appium 的安装 ...............................5-5
任务实施.................................................. 5-6
任务评价................................................ 5-14
任务 2 爬取微博主页推荐信息.......... 5-16
任务分析................................................ 5-16
导学........................................................ 5-17
学习资料................................................ 5-18
1. Charles 简介 .................................5-18
2. Appium 简介 .................................5-27
任务实施................................................ 5-29
任务评价................................................ 5-33
参考文献 ............................................... C-1
任务 1 搭建静态网页爬虫环境............ 1-2
任务分析.................................................. 1-2
导学.......................................................... 1-3
学习资料.................................................. 1-5
1. 爬虫基本概念 ................................1-5
2. 爬虫实现原理 ................................1-6
3. 静态网页爬虫环境搭建 ..............1-10
任务实施................................................ 1-13
任务评价................................................ 1-15
任务 2 爬取北京市旅游景点信息 ...... 1-18
任务分析................................................ 1-18
导学........................................................ 1-19
学习资料................................................ 1-24
1. HTTP .............................................1-24
2. 网页组成 ......................................1-32
3. urllib 库 .........................................1-38
4. Requests 模块 ...............................1-51
任务实施................................................ 1-55
任务评价................................................ 1-57
任务 3 解析并保存北京市旅游景点
数据........................................ 1-60
任务分析................................................ 1-60
导学........................................................ 1-60
学习资料................................................ 1-65
1. 正则表达式 ..................................1-65
2. 使用 XPath ...................................1-71
3. Beautiful Soup 库 .........................1-81
任务实施................................................ 1-96
任务评价................................................ 1-99
项目二 爬取动态内容......................... 2-1
任务 1 安装 Selenium......................... 2-1
任务分析.................................................. 2-1
导学.......................................................... 2-2
学习资料.................................................. 2-3
任务实施.................................................. 2-5
任务评价.................................................. 2-7
任务 2 利用 Selenium 爬取京东商品
信息数据 ................................. 2-8
任务分析.................................................. 2-8
导学.......................................................... 2-9
学习资料................................................ 2-14
1. Selenium 简介 ..............................2-14
2. Selenium 的应用 ..........................2-15
任务实施................................................ 2-33
任务评价................................................ 2-37
项目三 利用爬虫框架 Scrapy 爬虫 ...3-1
任务 1 安装 Scrapy 框架..................... 3-1
任务分析.................................................. 3-1
导学.......................................................... 3-2
学习资料.................................................. 3-3
1. Anaconda 安装................................3-4
2. Windows 下的安装 ........................3-4
任务实施.................................................. 3-6
任务评价.................................................. 3-9
任务 2 利用 Scrapy 框架制作 Spiders
爬取网页数据............................... 3-11
任务分析................................................ 3-11
导学........................................................ 3-11
学习资料................................................ 3-14
1. Scrapy 框架介绍 ..........................3-14
2. Scrapy 的数据流 ..........................3-15
3. Scrapy 常用命令 ..........................3-15
任务实施................................................ 3-18
任务评价................................................ 3-23
项目四 爬虫代理和模拟登录............. 4-1
任务 1 爬虫代理.................................. 4-1
任务分析.................................................. 4-1
导学.......................................................... 4-2
学习资料.................................................. 4-3
1. 代理基本原理 ................................4-3
2. 代理的作用 ....................................4-4
3. 代理分类 ........................................4-4
4. Requests 库使用 IP 代理的方法 ......4-5
5. 构建代理池 ....................................4-5
任务实施.................................................. 4-8
任务评价................................................ 4-12
任务 2 模拟登录................................ 4-13
任务分析................................................ 4-13
导学........................................................ 4-14
学习资料................................................ 4-16
1. 用户登录 ......................................4-16
2. Cookie ...........................................4-16
3. Session ..........................................4-17
4. JWT ...............................................4-17
5. 基于 Session 和 Cookie 的模拟
登录 ..............................................4-18
6. 基于 Session 和 Cookie 的模拟
登录实例 ......................................4-19
任务实施................................................ 4-20
任务评价................................................ 4-21
项目五 App 的爬取 ............................ 5-1
任务 1 App 爬虫环境搭建................... 5-1
任务分析.................................................. 5-1
导学.......................................................... 5-2
学习资料.................................................. 5-4
1. App 爬取的主要流程 .....................5-4
2. Charles 的安装 ...............................5-4
3. 安装 JAVA JDK ..............................5-5
4. 安装 Android SDK Tools ................5-5
5. Appium 的安装 ...............................5-5
任务实施.................................................. 5-6
任务评价................................................ 5-14
任务 2 爬取微博主页推荐信息.......... 5-16
任务分析................................................ 5-16
导学........................................................ 5-17
学习资料................................................ 5-18
1. Charles 简介 .................................5-18
2. Appium 简介 .................................5-27
任务实施................................................ 5-29
任务评价................................................ 5-33
参考文献 ............................................... C-1












