scrapy :介绍

scrapy框架 通常用于爬取大数据量的爬取应用上

首先要在电脑上安装scrapy 可用pip install scrapy 

如果不成功就到官网下载在安装,具体操作不在这写了

首先创建scrapy项目:scrapy startproject [项目名]

创建爬虫文件:scrapy genspider [文件名]

运行爬虫:scrapy crawl [文件名]

几种常见的命令行的保存文件:

1、保存为json格式

2、保存为csv格式

3、保存为xml格式

命令行代码如下:

scrapy crawl [文件名] -o [文件保存名.格式[json|csv|xml]]

还有一个比较常用的分析网站即爬取数据的测试方法:

在cmd中运行的命令行代码如下:

scrapy shell [待爬取的网站的域名]

scrapy 支持三种数据抽取方法分别是:

1、正则表达式

2、xpath

3、选择器

具体的用法可自行学习

scrapy 项目文件:

__init__.py  基本上不需要修改,只是说明为包文件

piplines.py 这个是非常中要的文件保存 数据库保存的操作都是在这里添加

items.py 这个文件只要定义要爬取的数据名字段

settings.py 这是项目的配置文件,项目的头文件headers cookie都需要在这里修改,如果添加了pipline还需将文件添加到设置了,设置延时时间,单个域名爬取延时等

moiddleware.py 中间件的操作,需求不大时,可以不用修改

spiders文件中就是我们创建的主函数,详细代码都是在这里面编写的

 

scrapy爬虫的原理为[图片来源网络]:

scrapy :介绍

大致过程:

spider添加爬虫请求,将每一个请求发送给调度器由调度器进行调度任务,

调度器向服务器发送请求的响应数据,

网络返回响应数据到spider,

spider再返回处理过的数据到piplines进行保存