入门scrapy

**

了解scrapy

**
简介:scrapy 是一种框架,它专门为了爬去网站数据而创建。
数据流程:
***1.***引擎打开一个网站,找到处理该网站的Spider并向该spider请求第一个要爬去的url。
***2.***引擎从spider中获取到第一个要爬去的url并在调度器以request调度。
***3.***引擎向调度器请求下一个要爬去的url。
***4.***调度器返回下一个要爬去的url给引擎,引擎将url通过下载中间件(请求(request方向)转发给引擎。
***5.***一旦页面下载完毕,下载器生成一个该页面的Response,并将其通过下载中间件(返回(response)方向)发送给引擎。
***6.***引擎从下载器中接受到response并通过spider中间件(输入方向)发送给spider处理。
***7.***spider处理response并返回爬去到的item及(跟进的)新的request给引擎。
***8.***引擎将(spider返回的)爬去到的item给item pipeli,将(spider返回的)request给调度器。
***9.***(从第二步)重复直到调度器中没有更多地request,引擎关闭该网站。
如下图:
入门scrapy