Scrapy的基础结构及请求流程

基础结构

引擎 Engine

调度器 Scheduler

下载器 Downloader

爬虫 Spider

管道 Pipeline

引擎 Engine

负责整个框架调度。

调度器 Scheduler

负责处理要请求的url,去除重复的请求,并确定下一个要请求的url。

下载器 Dwonloader

建立于高效异步模型twisted之上,负责高速下载网络资源。

爬虫 Spider

负责解析请求到的资源,返回item。

管道 Pipeline

负责处理解析后的item,如验证或持久化。

请求流程

Scrapy的基础结构及请求流程