Python3网络爬虫教程17——分布式爬虫Scrapy基础

0 0

上接：
Python3网络爬虫教程16——动态HTML（Selenium + Firefox/Chrome的使用）
https://blog.csdn.net/u011318077/article/details/86692354

1. Scrapy介绍

爬虫框架
- scrapy 最常用
- pyspider 一个小框架
- crawley
scrapy框架介绍
- 官网:
  - http://www.scrapyd.cn/
- 官方文档：
  - http://www.scrapyd.cn/doc/
  - https://doc.scrapy.org/en/latest/#
scrapy安装
- 安装参考
- Scrapy安装说明及如何避坑
- https://blog.csdn.net/u011318077/article/details/86661924
scrapy概述
- 包含的部件
  - ScrapyEngine: 神经中枢，大脑，核心
  - Scheduler调度器：引擎发来的request请求，调度器需要处理，然后交换引擎
  - Downloader下载器：把引擎发来的requests请求，得到response
  - Spider爬虫：负责把下载器得到的网页和结果进行分解，分解成数据和连接
  - ItemPipeline管道：详细处理Item
  - DownloaderMiddleware下载中间件：自定义下载功能的扩展组件
  - SpiderMiddleware爬虫中间件：对spider进行扩展
scrapy工作原理
- 参考：Scrapy工作原理.jpg
- ScrapyEngine开始-Scheduler-Downloader-Spiders(数据到ItemPipeline,同时进行下一个循环ScrapyEngine)
爬虫项目创建流程
- 新建项目：scrapy startproject xxx(项目文件夹名称)
  - 打开CMD窗口，CD命令切换到要放置爬虫项目文件夹下面，然后执行上述命令
  - 会自动爬虫项目的文件夹xxx,xxx文件夹里面有一个spiders的文件夹，还有一些py文件
- 明确需要的目标和产出：编写item.py
- 制作爬虫：地址 spider/xxspider.py
- 存储内容：pipelines.py

中间件是处于引擎和下载器中间的一层组件
可以有很多个，被按循序加载执行
作用是对发出的请求和返回的结果进行预处理
在Middleware文件中
需要在settings中设置以便生效
编写中间件必须是scrapy.contrib.downloadermiddleware.DownloaderMiddleware的子类
一般一个中间件只完成一个功能
必须实现以下一个或者多个方法
- process_request(self, request, spider)
  - 在request通过的时候被调用
  - 必须返回None或Response或Request或raise IgnoreRequest
- process_response(self, request, response, spider)

下接：
Python3网络爬虫教程18——分布式爬虫Scrapy实例（爬取一个页面）
https://blog.csdn.net/u011318077/article/details/86692598