框架体系¶

本文档描述了Scrapy框架的各部分之间是如何相互联系的。

综述¶

图示描述了Scrapy框架和它各组件，以及内部数据在系统内如何活动（通过红色箭头表示）。下面是对这些组件的描述，以及它们更详细的信息的链接。同时也有关于数据流的描述。

Scrapy中的数据流是由执行引擎控制的，如下所示：

引擎负责控制系统所有组件之间的数据流，当某些行为发生时触发事件。见数据流了解更多细节。

调度器从引擎中接收请求并给它们排序，以便于稍后引擎请求它们时将它们传给引擎。

下载器负责获取web页面并将它们传递给引擎，而引擎又将它们传递给爬虫器。

爬虫器是用户编写的爬虫类，用于解析响应并提取items或后续其他的请求，更多细节详见爬虫器。

Item管道负责处理爬虫器提取的items,典型的任务包括清理，验证和持久化（比如把item保存到数据库）。更多细节详见 Item 管道。

下载器中间件是位于引擎和下载器之间的钩子，它处理从引擎到下载器的请求和响应。

如果你要做以下的事情，请用下载器中间件:

更多细节详见下载器中间件.

爬虫器中间件是位于引擎和爬虫器之间的钩子，能够处理爬虫器的输入（响应）和输出（items和请求）。

如果你要做以下的事情，请用爬虫器中间件:

post-process output of spider callbacks - change/add/remove requests or items;
post-process start_requests;
handle spider exceptions;
call errback instead of callback for some of the requests based on response content.

更多细节详见爬虫器中间件.

Scrapy 是用 Twisted 写的, Twisted 是一个著名的Python事件驱动网络框架。因此，它用非阻塞（即异步）方式实现并发。

更多关于异步编程和Twisted的信息请参考以下链接: