- 中国铁道出版社
- 9787113286583
- 1-1
- 443287
- 63249123-9
- 16开
- 2022-02
- 188
- 工学
- 计算机科学与技术
- 计算机类
- 高职
内容简介
本书基于Python3,系统全面地讲解了Python网络爬虫的基础知识。全书共分11章,内容包括网络爬虫概述、网页请求原理与爬虫基础、urllib库与异常处理、requests库、数据解析技术、BeautifulSoup库、动态页面爬取、爬虫数据的存储、爬虫框架Scrapy、CrawlSpider、图像识别与文字处理。本书适合作为高等职业院校电子信息类各专业的教材,也可作为培训学校的培训教材,以及Python爬虫爱好者的自学用书。
目录
第1章网络爬虫概述1.1爬虫产生背景1.1.1企业产生的数据1.1.2数据平台购买的数据1.1.3政府/机构公开的数据1.1.4数据管理咨询公司的数据1.1.5爬取的网络数据1.2爬虫的概念1.3爬虫的用途1.4爬虫的组成1.5爬虫的类型1.5.1通用爬虫1.5.2聚焦爬虫1.5.3累积式和增量式爬虫1.5.4表层爬虫和深层爬虫第2章网页请求原理与爬虫基础2.1爬虫实现原理2.1.1通用爬虫2.1.2聚焦爬虫2.2HTTP基础2.2.1HTTP与HTTPS2.2.2HTTP请求过程2.2.3客户端请求2.2.4服务端响应2.3网页基础2.4抓包工具Fiddle2.4.1Fiddler简介2.4.2Fiddler工作原理与界面2.4.3Fiddler爬取HTTPS设置2.4.4Fiddler捕获Chrome会话第3章urllib库与异常处理3.1urllib库简介3.1.1快速使用urllib爬取网页3.1