全国大中专教材网络采选系统

推荐纸质教材推荐数字资源

Python爬虫与数据采集 / “十四五”高等职业教育新形态一体化教材

定价：￥56.00

作者：方水平

出版时间：2023-11

最新印次日期：2023-11

出版社：中国铁道出版社

以下为《Python爬虫与数据采集》的配套数字资源，这些资源在您购买图书后将免费附送给您：

关闭

试读

基本信息评价

出版社：中国铁道出版社
ISBN：9787113303587
版次：1-1
本季征订号：61265597-7
开本：16开
出版时间：2023-11
职教专业大类：电子与信息大类
职教专业类：计算机类
适用专业：计算机类
适用分级：高职

作者简介

方水平，男，1970年2月生，教授，近几年主编了多部教材，多种图书被评为“十二五”“十三五”职业教育国家规划教材，主持多项信息化教学设计项目获得北京市二等奖。指导学生参加技能大赛获得良好的成绩，连续获得5个全国职业院校学生技能大赛一等奖，被北京市教委授予“首席指导教师称号”，2018年主持课题获北京市教育成果二等奖。

查看全部

内容简介

本书是针对高等职业教育人工智能技术应用专业培养目标，对接“Python程序开发”1+X职业技能等级标准，基于工作过程开发完成的活页式教材，依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容，主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用Scrapy框架进行爬取、爬虫代理、模拟登录、爬取App数据等项目，培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设计与开发，构建抓虫服务平台、设计算法，提升网页爬取的效率和质量的能力。
本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材，也适合IT互联网企业、各企事业单位、政府部门等的信息化、数字化部门从事Python程序开发、爬虫开发与维护、数据采集清洗和存储等工作岗位的人员参考。

项目一静态网页爬取与解析.............1-1

任务1 搭建静态网页爬虫环境............1-2

任务分析..................................................1-2

导学..........................................................1-3

学习资料..................................................1-5

1.爬虫基本概念................................1-5

2.爬虫实现原理................................1-6

3.静态网页爬虫环境搭建..............1-10

任务实施................................................1-13

任务评价................................................1-15

任务2 爬取北京市旅游景点信息......1-18

任务分析................................................1-18

导学........................................................1-19

学习资料................................................1-24

1.HTTP.............................................1-24

2.网页组成......................................1-32

3.urllib库.........................................1-38

4.Requests模块...............................1-51

任务实施................................................1-55

任务评价................................................1-57

任务3 解析并保存北京市旅游景点

数据........................................1-60

任务分析................................................1-60

导学........................................................1-60

学习资料................................................1-65

1.正则表达式..................................1-65

2.使用XPath...................................1-71

3.BeautifulSoup库.........................1-81

任务实施................................................1-96

任务评价................................................1-99

项目二爬取动态内容.........................2-1

任务1 安装Selenium.........................2-1

任务分析..................................................2-1

导学..........................................................2-2

学习资料..................................................2-3

任务实施..................................................2-5

任务评价..................................................2-7

任务2 利用Selenium爬取京东商品

信息数据.................................2-8

任务分析..................................................2-8

导学..........................................................2-9

学习资料................................................2-14

1.Selenium简介..............................2-14

2.Selenium的应用..........................2-15

任务实施................................................2-33

任务评价................................................2-37

项目三利用爬虫框架Scrapy爬虫...3-1

任务1 安装Scrapy框架.....................3-1

任务分析..................................................3-1

导学..........................................................3-2

学习资料..................................................3-3

1.Anaconda安装................................3-4

2.Windows下的安装........................3-4

任务实施..................................................3-6

任务评价..................................................3-9

任务2 利用Scrapy框架制作Spiders

爬取网页数据...............................3-11

任务分析................................................3-11

导学........................................................3-11

学习资料................................................3-14

1.Scrapy框架介绍..........................3-14

2.Scrapy的数据流..........................3-15

3.Scrapy常用命令..........................3-15

任务实施................................................3-18

任务评价................................................3-23

项目四爬虫代理和模拟登录.............4-1

任务1 爬虫代理..................................4-1

任务分析..................................................4-1

导学..........................................................4-2

学习资料..................................................4-3

1.代理基本原理................................4-3

2.代理的作用....................................4-4

3.代理分类........................................4-4

4.Requests库使用IP代理的方法......4-5

5.构建代理池....................................4-5

任务实施..................................................4-8

任务评价................................................4-12

任务2 模拟登录................................4-13

任务分析................................................4-13

导学........................................................4-14

学习资料................................................4-16

1.用户登录......................................4-16

2.Cookie...........................................4-16

3.Session..........................................4-17

4.JWT...............................................4-17

5.基于Session和Cookie的模拟

登录..............................................4-18

6.基于Session和Cookie的模拟

登录实例......................................4-19

任务实施................................................4-20

任务评价................................................4-21

项目五App的爬取............................5-1

任务1 App爬虫环境搭建...................5-1

任务分析..................................................5-1

导学..........................................................5-2

学习资料..................................................5-4

1.App爬取的主要流程.....................5-4

2.Charles的安装...............................5-4

3.安装JAVAJDK..............................5-5

4.安装AndroidSDKTools................5-5

5.Appium的安装...............................5-5

任务实施..................................................5-6

任务评价................................................5-14

任务2 爬取微博主页推荐信息..........5-16

任务分析................................................5-16

导学........................................................5-17

学习资料................................................5-18

1.Charles简介.................................5-18

2.Appium简介.................................5-27

任务实施................................................5-29

任务评价................................................5-33

参考文献...............................................C-1