scrapy :介绍
scrapy框架 通常用于爬取大数据量的爬取应用上
首先要在电脑上安装scrapy 可用pip install scrapy
如果不成功就到官网下载在安装,具体操作不在这写了
首先创建scrapy项目:scrapy startproject [项目名]
创建爬虫文件:scrapy genspider [文件名]
运行爬虫:scrapy crawl [文件名]
几种常见的命令行的保存文件:
1、保存为json格式
2、保存为csv格式
3、保存为xml格式
命令行代码如下:
scrapy crawl [文件名] -o [文件保存名.格式[json|csv|xml]]
还有一个比较常用的分析网站即爬取数据的测试方法:
在cmd中运行的命令行代码如下:
scrapy shell [待爬取的网站的域名]
scrapy 支持三种数据抽取方法分别是:
1、正则表达式
2、xpath
3、选择器
具体的用法可自行学习
scrapy 项目文件:
__init__.py 基本上不需要修改,只是说明为包文件
piplines.py 这个是非常中要的文件保存 数据库保存的操作都是在这里添加
items.py 这个文件只要定义要爬取的数据名字段
settings.py 这是项目的配置文件,项目的头文件headers cookie都需要在这里修改,如果添加了pipline还需将文件添加到设置了,设置延时时间,单个域名爬取延时等
moiddleware.py 中间件的操作,需求不大时,可以不用修改
spiders文件中就是我们创建的主函数,详细代码都是在这里面编写的
scrapy爬虫的原理为[图片来源网络]:
大致过程:
spider添加爬虫请求,将每一个请求发送给调度器由调度器进行调度任务,
调度器向服务器发送请求的响应数据,
网络返回响应数据到spider,
spider再返回处理过的数据到piplines进行保存