Scrapy框架结构及工作原理

《精通Scrapy网络爬虫》第二章
Scrapy框架中的各个组件：

组件	描述	类型
ENDINE	引擎，框架的核心，其他所有组件在其控制下协同工作	内部组件
SCHEDULER	调度器，负责对SPIDER提交的下载请求进行调度	内部组件
DOWNLOADER	下载器，负责下载页面（发送HTTP请求/接收HTTP响应）	内部组件
SPIDER	爬虫，负责提取页面中的数据，并产生对新页面的下载请求	用户实现
MIDDLEWARE	中间件，负责对Request和Response对象进行处理	可选组件
ITEM PIPELINE	数据管道，负责对爬取到的数据进行处理	可选组件

对用户来说，Spider是最核心的组件，Scrapy爬虫开发是围绕实现Spider展开的。
在框架中的数据流，有如下三种对象：

以上几种对象在框架中的流动过程：

当SPIDER要爬取某URL地址的页面时，需使用该URL构造一个Request对象，提交给ENGINE
Request对象随后进入SCHEDULER中排队，之后的某个时刻出队，送往DOWNLOADER
DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器，之后用服务器返回的HTTP响应构造出一个Response对象，其中包含页面的HTML文本
Response对象最终会被递送给SPIDER的页面解析函数进行处理，页面解析函数从页面中提取数据，封装成Item后提交给ENGINE，Item之后被送往ITEM PIPELINES进行处理，最终可能被EXPORTER以某种数据格式写入文件；另一方面，，页面解析函数还从页面中提取链接(URL)，构造出新的Request对象提交给ENGINE

如果把框架中的组件比作人体的各个器官，Request和Response对象便是血液，Item则是代谢产物

Request和Response对象

Request(url[,callback,method='GET',headers,body,cookies,meta,encoding='utf-8',priority=0,dont_filter=False,errback])
参数的含义：

上述蓝色属性为常用属性

Response为一个基类，它有如下子类，这三个子类差别不大：

HTMLResponse对象的属性及方法：

为爬虫设定起始爬取点的两种方式：