注册 登录 进入教材巡展
#

出版时间:2023-11

出版社:中国铁道出版社

以下为《Python爬虫与数据采集》的配套数字资源,这些资源在您购买图书后将免费附送给您:
试读
  • 中国铁道出版社
  • 9787113303587
  • 1-1
  • 502268
  • 66259746-7
  • 16开
  • 2023-11
  • 计算机类
  • 高职
内容简介
本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python 程序开发”1+X 职业技能等级

标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,

主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、爬虫代理、

模拟登录、爬取 App 数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设

计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。

本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网

企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集

清洗和存储等工作岗位的人员参考。


目录
项目一 静态网页爬取与解析............. 1-1

任务 1 搭建静态网页爬虫环境............ 1-2

任务分析.................................................. 1-2

导学.......................................................... 1-3

学习资料.................................................. 1-5

1. 爬虫基本概念 ................................1-5

2. 爬虫实现原理 ................................1-6

3. 静态网页爬虫环境搭建 ..............1-10

任务实施................................................ 1-13

任务评价................................................ 1-15

任务 2 爬取北京市旅游景点信息 ...... 1-18

任务分析................................................ 1-18

导学........................................................ 1-19

学习资料................................................ 1-24

1. HTTP .............................................1-24

2. 网页组成 ......................................1-32

3. urllib 库 .........................................1-38

4. Requests 模块 ...............................1-51

任务实施................................................ 1-55

任务评价................................................ 1-57

任务 3 解析并保存北京市旅游景点

数据........................................ 1-60

任务分析................................................ 1-60

导学........................................................ 1-60

学习资料................................................ 1-65

1. 正则表达式 ..................................1-65

2. 使用 XPath ...................................1-71

3. Beautiful Soup 库 .........................1-81

任务实施................................................ 1-96

任务评价................................................ 1-99

项目二 爬取动态内容......................... 2-1

任务 1 安装 Selenium......................... 2-1

任务分析.................................................. 2-1

导学.......................................................... 2-2

学习资料.................................................. 2-3

任务实施.................................................. 2-5

任务评价.................................................. 2-7

任务 2 利用 Selenium 爬取京东商品

信息数据 ................................. 2-8

任务分析.................................................. 2-8

导学.......................................................... 2-9

学习资料................................................ 2-14

1. Selenium 简介 ..............................2-14

2. Selenium 的应用 ..........................2-15

任务实施................................................ 2-33

任务评价................................................ 2-37

项目三 利用爬虫框架 Scrapy 爬虫 ...3-1

任务 1 安装 Scrapy 框架..................... 3-1

任务分析.................................................. 3-1

导学.......................................................... 3-2

学习资料.................................................. 3-3

1. Anaconda 安装................................3-4

2. Windows 下的安装 ........................3-4

任务实施.................................................. 3-6

任务评价.................................................. 3-9

任务 2 利用 Scrapy 框架制作 Spiders

爬取网页数据............................... 3-11

任务分析................................................ 3-11

导学........................................................ 3-11

学习资料................................................ 3-14

1. Scrapy 框架介绍 ..........................3-14

2. Scrapy 的数据流 ..........................3-15

3. Scrapy 常用命令 ..........................3-15

任务实施................................................ 3-18

任务评价................................................ 3-23

项目四 爬虫代理和模拟登录............. 4-1

任务 1 爬虫代理.................................. 4-1

任务分析.................................................. 4-1

导学.......................................................... 4-2

学习资料.................................................. 4-3

1. 代理基本原理 ................................4-3

2. 代理的作用 ....................................4-4

3. 代理分类 ........................................4-4

4. Requests 库使用 IP 代理的方法 ......4-5

5. 构建代理池 ....................................4-5

任务实施.................................................. 4-8

任务评价................................................ 4-12

任务 2 模拟登录................................ 4-13

任务分析................................................ 4-13

导学........................................................ 4-14

学习资料................................................ 4-16

1. 用户登录 ......................................4-16

2. Cookie ...........................................4-16

3. Session ..........................................4-17

4. JWT ...............................................4-17

5. 基于 Session 和 Cookie 的模拟

登录 ..............................................4-18

6. 基于 Session 和 Cookie 的模拟

登录实例 ......................................4-19

任务实施................................................ 4-20

任务评价................................................ 4-21

项目五 App 的爬取 ............................ 5-1

任务 1 App 爬虫环境搭建................... 5-1

任务分析.................................................. 5-1

导学.......................................................... 5-2

学习资料.................................................. 5-4

1. App 爬取的主要流程 .....................5-4

2. Charles 的安装 ...............................5-4

3. 安装 JAVA JDK ..............................5-5

4. 安装 Android SDK Tools ................5-5

5. Appium 的安装 ...............................5-5

任务实施.................................................. 5-6

任务评价................................................ 5-14

任务 2 爬取微博主页推荐信息.......... 5-16

任务分析................................................ 5-16

导学........................................................ 5-17

学习资料................................................ 5-18

1. Charles 简介 .................................5-18

2. Appium 简介 .................................5-27

任务实施................................................ 5-29

任务评价................................................ 5-33

参考文献 ............................................... C-1