第二章 编写Spider
1. Scrapy框架结构以及工作原理
组件 | 描述 | 类型 |
---|---|---|
ENGINE | 引擎,框架的核心,其他所有组件在其控制下协同工作 | 内部组件 |
SCHEDULER | 调度器,负责对SPIDER提交的下载请求进行调度 | 内部组件 |
DOWNLOADER | 下载器,负责下载页面(发送HTTP请求/接收HTTP响应) | 内部组件 |
SPIDER | 爬虫,负责提取页面中的数据,并产生对新页面的下载请求 | 用户实现 |
MIDDLEWARE | 中间件,负责对Request对象和Response对象进行处理 | 可选组件 |
ITEM PIPELINE | 数据管道,负责对爬取到的数据进行处理 | 可选组件 |
Spider是最核心的组件
Item 是从页面中爬取的一项数据
爬虫执行顺序:
1. 当SPIDER 要爬取某URL地址的页面时,需要用该URL构建一个Request对象,提交给ENGINE(上图中的1)
2. Request对象随后进入SCHEDULER按某种算法进行排队,之后的某个时刻SCHEDULER将其出队,送往DOWNLOADER(上图的2/3/4)
3. DOWNLOADER根据Request对象中的URL地址发送一次HTTP请求到网站服务器,之后用服务器返回的HTTP响应构造出一个Response对象,其中包含页面的HTML文本(上图的5)
4. Response对象最终会被递送给SPIDER的页面解析函数(构造Request对象时指定)进行处理,页面解析函数从页面中提取数据,封装成Item后提交给ENGINE, Item之后被送往ITEM PIPELINES 进行处理;最终可能由EXPORTER以某种数据格式写入文件;另一方面,页面解析函数还从页面中提取链接(URL),构造出新的Request对象提交给
ENGINE(上图的6/7/8)
如果把框架中的组件比作人体的各个器官,Request和Response对象便是血液,Item则是代谢产物