- 中国铁道出版社
- 9787113303587
- 1-1
- 502268
- 68260572-0
- 16开
- 2023-11
- 电子与信息大类
- 计算机类
- 计算机类
- 高职
作者简介
内容简介
本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python程序开发”1+X职业技能等级
标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,
主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用Scrapy框架进行爬取、爬虫代理、
模拟登录、爬取App数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设
计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。
本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合IT互联网
企业、各企事业单位、政府部门等的信息化、数字化部门从事Python程序开发、爬虫开发与维护、数据采集
清洗和存储等工作岗位的人员参考。
标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,
主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用Scrapy框架进行爬取、爬虫代理、
模拟登录、爬取App数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设
计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。
本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合IT互联网
企业、各企事业单位、政府部门等的信息化、数字化部门从事Python程序开发、爬虫开发与维护、数据采集
清洗和存储等工作岗位的人员参考。
目录
项目一静态网页爬取与解析.............1-1
任务1 搭建静态网页爬虫环境............1-2
任务分析..................................................1-2
导学..........................................................1-3
学习资料..................................................1-5
1.爬虫基本概念................................1-5
2.爬虫实现原理................................1-6
3.静态网页爬虫环境搭建..............1-10
任务实施................................................1-13
任务评价................................................1-15
任务2 爬取北京市旅游景点信息......1-18
任务分析................................................1-18
导学........................................................1-19
学习资料................................................1-24
1.HTTP.............................................1-24
2.网页组成......................................1-32
3.urllib库.........................................1-38
4.Requests模块...............................1-51
任务实施................................................1-55
任务评价................................................1-57
任务3 解析并保存北京市旅游景点
数据........................................1-60
任务分析................................................1-60
导学........................................................1-60
学习资料................................................1-65
1.正则表达式..................................1-65
2.使用XPath...................................1-71
3.BeautifulSoup库.........................1-81
任务实施................................................1-96
任务评价................................................1-99
项目二爬取动态内容.........................2-1
任务1 安装Selenium.........................2-1
任务分析..................................................2-1
导学..........................................................2-2
学习资料..................................................2-3
任务实施..................................................2-5
任务评价..................................................2-7
任务2 利用Selenium爬取京东商品
信息数据.................................2-8
任务分析..................................................2-8
导学..........................................................2-9
学习资料................................................2-14
1.Selenium简介..............................2-14
2.Selenium的应用..........................2-15
任务实施................................................2-33
任务评价................................................2-37
项目三利用爬虫框架Scrapy爬虫...3-1
任务1 安装Scrapy框架.....................3-1
任务分析..................................................3-1
导学..........................................................3-2
学习资料..................................................3-3
1.Anaconda安装................................3-4
2.Windows下的安装........................3-4
任务实施..................................................3-6
任务评价..................................................3-9
任务2 利用Scrapy框架制作Spiders
爬取网页数据...............................3-11
任务分析................................................3-11
导学........................................................3-11
学习资料................................................3-14
1.Scrapy框架介绍..........................3-14
2.Scrapy的数据流..........................3-15
3.Scrapy常用命令..........................3-15
任务实施................................................3-18
任务评价................................................3-23
项目四爬虫代理和模拟登录.............4-1
任务1 爬虫代理..................................4-1
任务分析..................................................4-1
导学..........................................................4-2
学习资料..................................................4-3
1.代理基本原理................................4-3
2.代理的作用....................................4-4
3.代理分类........................................4-4
4.Requests库使用IP代理的方法......4-5
5.构建代理池....................................4-5
任务实施..................................................4-8
任务评价................................................4-12
任务2 模拟登录................................4-13
任务分析................................................4-13
导学........................................................4-14
学习资料................................................4-16
1.用户登录......................................4-16
2.Cookie...........................................4-16
3.Session..........................................4-17
4.JWT...............................................4-17
5.基于Session和Cookie的模拟
登录..............................................4-18
6.基于Session和Cookie的模拟
登录实例......................................4-19
任务实施................................................4-20
任务评价................................................4-21
项目五App的爬取............................5-1
任务1 App爬虫环境搭建...................5-1
任务分析..................................................5-1
导学..........................................................5-2
学习资料..................................................5-4
1.App爬取的主要流程.....................5-4
2.Charles的安装...............................5-4
3.安装JAVAJDK..............................5-5
4.安装AndroidSDKTools................5-5
5.Appium的安装...............................5-5
任务实施..................................................5-6
任务评价................................................5-14
任务2 爬取微博主页推荐信息..........5-16
任务分析................................................5-16
导学........................................................5-17
学习资料................................................5-18
1.Charles简介.................................5-18
2.Appium简介.................................5-27
任务实施................................................5-29
任务评价................................................5-33
参考文献...............................................C-1
任务1 搭建静态网页爬虫环境............1-2
任务分析..................................................1-2
导学..........................................................1-3
学习资料..................................................1-5
1.爬虫基本概念................................1-5
2.爬虫实现原理................................1-6
3.静态网页爬虫环境搭建..............1-10
任务实施................................................1-13
任务评价................................................1-15
任务2 爬取北京市旅游景点信息......1-18
任务分析................................................1-18
导学........................................................1-19
学习资料................................................1-24
1.HTTP.............................................1-24
2.网页组成......................................1-32
3.urllib库.........................................1-38
4.Requests模块...............................1-51
任务实施................................................1-55
任务评价................................................1-57
任务3 解析并保存北京市旅游景点
数据........................................1-60
任务分析................................................1-60
导学........................................................1-60
学习资料................................................1-65
1.正则表达式..................................1-65
2.使用XPath...................................1-71
3.BeautifulSoup库.........................1-81
任务实施................................................1-96
任务评价................................................1-99
项目二爬取动态内容.........................2-1
任务1 安装Selenium.........................2-1
任务分析..................................................2-1
导学..........................................................2-2
学习资料..................................................2-3
任务实施..................................................2-5
任务评价..................................................2-7
任务2 利用Selenium爬取京东商品
信息数据.................................2-8
任务分析..................................................2-8
导学..........................................................2-9
学习资料................................................2-14
1.Selenium简介..............................2-14
2.Selenium的应用..........................2-15
任务实施................................................2-33
任务评价................................................2-37
项目三利用爬虫框架Scrapy爬虫...3-1
任务1 安装Scrapy框架.....................3-1
任务分析..................................................3-1
导学..........................................................3-2
学习资料..................................................3-3
1.Anaconda安装................................3-4
2.Windows下的安装........................3-4
任务实施..................................................3-6
任务评价..................................................3-9
任务2 利用Scrapy框架制作Spiders
爬取网页数据...............................3-11
任务分析................................................3-11
导学........................................................3-11
学习资料................................................3-14
1.Scrapy框架介绍..........................3-14
2.Scrapy的数据流..........................3-15
3.Scrapy常用命令..........................3-15
任务实施................................................3-18
任务评价................................................3-23
项目四爬虫代理和模拟登录.............4-1
任务1 爬虫代理..................................4-1
任务分析..................................................4-1
导学..........................................................4-2
学习资料..................................................4-3
1.代理基本原理................................4-3
2.代理的作用....................................4-4
3.代理分类........................................4-4
4.Requests库使用IP代理的方法......4-5
5.构建代理池....................................4-5
任务实施..................................................4-8
任务评价................................................4-12
任务2 模拟登录................................4-13
任务分析................................................4-13
导学........................................................4-14
学习资料................................................4-16
1.用户登录......................................4-16
2.Cookie...........................................4-16
3.Session..........................................4-17
4.JWT...............................................4-17
5.基于Session和Cookie的模拟
登录..............................................4-18
6.基于Session和Cookie的模拟
登录实例......................................4-19
任务实施................................................4-20
任务评价................................................4-21
项目五App的爬取............................5-1
任务1 App爬虫环境搭建...................5-1
任务分析..................................................5-1
导学..........................................................5-2
学习资料..................................................5-4
1.App爬取的主要流程.....................5-4
2.Charles的安装...............................5-4
3.安装JAVAJDK..............................5-5
4.安装AndroidSDKTools................5-5
5.Appium的安装...............................5-5
任务实施..................................................5-6
任务评价................................................5-14
任务2 爬取微博主页推荐信息..........5-16
任务分析................................................5-16
导学........................................................5-17
学习资料................................................5-18
1.Charles简介.................................5-18
2.Appium简介.................................5-27
任务实施................................................5-29
任务评价................................................5-33
参考文献...............................................C-1













