一文了解Python Scrapy爬虫框架

一、爬虫定义

网络爬虫（Web crawler）： 是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容和检索方式。

从功能上来讲，爬虫一般分为数据采集，数据处理，数据存储三个部分。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

二、爬虫的基本流程

发起请求：通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应.
获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML，Json字符串，二进制数据（图片或者视频）等类型.
解析内容：得到的内容可能是HTML，可以用正则表达式，页面解析库进行解析，可能是json，可以直接转换为json对象解析，可能是二进制数据，可以做保存或者进一步的处理.
保存数据：保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件.

三、Scrapy简介

Scrapy是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架，常应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

四、Scrapy爬虫框架

Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。

Scrapy使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下：

一文了解Python Scrapy爬虫框架

Scrapy主要包括以下组件：

Scrapy Engin（引擎）： Scrapy框架的核心，类似于电脑的cpu，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等；
Scheduler（调度器）： 负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，以便之后引擎请求他们时提供给引擎。类似于cache，将requests请求以队列的形式暂时存储在调度器中以便调用。可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。
Downloader（下载器）： 负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。
Spiders（爬虫）： 负责处理所有的Response，从特定的网页中中分析并提取自己需要的信息即所谓的实体(Item)。用户也可以从中提取出URL，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，以等待执行。
Item Pipeline（管道）： 负责处理爬虫从网页中抽取的实体(Item)，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
Downloader Middlewares（下载器中间件）： 位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。
Spider Middlewares（Spider中间件）： 介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

五、Scrapy运行流程

Scrapy数据流是由执行的核心引擎(Engine)控制的，运行流程如下：
一文了解Python Scrapy爬虫框架

爬虫引擎获得初始请求开始抓取。
爬虫引擎开始请求调度程序，并准备对下一次的请求进行抓取。
爬虫调度器返回下一个请求给爬虫引擎。
引擎请求发送到下载器，通过下载中间件下载网络数据。
一旦下载器完成页面下载,将下载结果返回给爬虫引擎。
引擎将下载器的响应通过中间件返回给爬中进行处理。
爬虫处理响应,并通过中间件返回处理后的items ,以及新的请求给引擎。
引擎发送处理后的items到项目管道，然后把处理结果返回给调度器，调度器计划处理下一个请求抓取。
重复该过程(继续步骤1) ，直到完成所有的URL请求。

六、为什么选择Scrapy？

构建和扩展大型爬取项目比较容易。
它有一个称为选择器的内置机制，用于从网站中提取数据。
它异步处理请求并且速度很快。
它使用自动调节机制自动调整爬网速度。
确保开发者无障碍。

七、如何使用Scrapy爬虫框架？

后面我会写一个利用Scrapy爬取新闻网站新闻的实例，以便大家学习掌握。

一文了解Python Scrapy爬虫框架

一文了解Python Scrapy爬虫框架

一、爬虫定义

二、爬虫的基本流程

三、Scrapy简介

四、Scrapy爬虫框架

五、Scrapy运行流程

六、为什么选择Scrapy？

七、如何使用Scrapy爬虫框架？

相关推荐