scrapy :介绍

scrapy框架通常用于爬取大数据量的爬取应用上

首先要在电脑上安装scrapy 可用pip install scrapy

如果不成功就到官网下载在安装，具体操作不在这写了

首先创建scrapy项目：scrapy startproject [项目名]

创建爬虫文件：scrapy genspider [文件名]

运行爬虫：scrapy crawl [文件名]

几种常见的命令行的保存文件：

1、保存为json格式

2、保存为csv格式

3、保存为xml格式

命令行代码如下：

scrapy crawl [文件名] -o [文件保存名.格式[json|csv|xml]]

还有一个比较常用的分析网站即爬取数据的测试方法：

在cmd中运行的命令行代码如下：

scrapy shell [待爬取的网站的域名]

scrapy 支持三种数据抽取方法分别是：

1、正则表达式

2、xpath

3、选择器

具体的用法可自行学习

scrapy 项目文件：

__init__.py 基本上不需要修改，只是说明为包文件

piplines.py 这个是非常中要的文件保存数据库保存的操作都是在这里添加

items.py 这个文件只要定义要爬取的数据名字段

settings.py 这是项目的配置文件，项目的头文件headers cookie都需要在这里修改，如果添加了pipline还需将文件添加到设置了，设置延时时间，单个域名爬取延时等

moiddleware.py 中间件的操作，需求不大时，可以不用修改

spiders文件中就是我们创建的主函数，详细代码都是在这里面编写的

scrapy爬虫的原理为[图片来源网络]：

scrapy :介绍

大致过程：

spider添加爬虫请求，将每一个请求发送给调度器由调度器进行调度任务，

调度器向服务器发送请求的响应数据，

网络返回响应数据到spider，

spider再返回处理过的数据到piplines进行保存