第二章 编写Spider

1. Scrapy框架结构以及工作原理

第二章 编写Spider

组件 描述 类型
ENGINE 引擎,框架的核心,其他所有组件在其控制下协同工作 内部组件
SCHEDULER 调度器,负责对SPIDER提交的下载请求进行调度 内部组件
DOWNLOADER 下载器,负责下载页面(发送HTTP请求/接收HTTP响应) 内部组件
SPIDER 爬虫,负责提取页面中的数据,并产生对新页面的下载请求 用户实现
MIDDLEWARE 中间件,负责对Request对象和Response对象进行处理 可选组件
ITEM PIPELINE 数据管道,负责对爬取到的数据进行处理 可选组件

Spider是最核心的组件

Item 是从页面中爬取的一项数据

爬虫执行顺序:
1. 当SPIDER 要爬取某URL地址的页面时,需要用该URL构建一个Request对象,提交给ENGINE(上图中的1)
2. Request对象随后进入SCHEDULER按某种算法进行排队,之后的某个时刻SCHEDULER将其出队,送往DOWNLOADER(上图的2/3/4)
3. DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器,之后用服务器返回的HTTP响应构造出一个Response对象,其中包含页面的HTML文本(上图的5)
4. Response对象最终会被递送给SPIDER的页面解析函数(构造Request对象时指定)进行处理,页面解析函数从页面中提取数据,封装成Item后提交给ENGINE, Item之后被送往ITEM PIPELINES 进行处理;最终可能由EXPORTER以某种数据格式写入文件;另一方面,页面解析函数还从页面中提取链接(URL),构造出新的Request对象提交给
ENGINE(上图的6/7/8)

如果把框架中的组件比作人体的各个器官,Request和Response对象便是血液,Item则是代谢产物

2. Request 和 Response 对象

3. Spider 开发流程