入门scrapy

了解scrapy

**
简介：scrapy 是一种框架，它专门为了爬去网站数据而创建。
数据流程：
***1.***引擎打开一个网站，找到处理该网站的Spider并向该spider请求第一个要爬去的url。
***2.***引擎从spider中获取到第一个要爬去的url并在调度器以request调度。
***3.***引擎向调度器请求下一个要爬去的url。
***4.***调度器返回下一个要爬去的url给引擎，引擎将url通过下载中间件（请求（request方向）转发给引擎。
***5.***一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件（返回（response）方向）发送给引擎。
***6.***引擎从下载器中接受到response并通过spider中间件（输入方向）发送给spider处理。
***7.***spider处理response并返回爬去到的item及（跟进的）新的request给引擎。
***8.***引擎将（spider返回的）爬去到的item给item pipeli，将（spider返回的）request给调度器。
***9.***（从第二步）重复直到调度器中没有更多地request，引擎关闭该网站。
如下图：
入门scrapy

了解scrapy

相关推荐