Gerapy管理分布式Scrapyd
Gerapy管理分布式Scrapyd
Gerapy: 基于Scrapy,Scrapyd,Scrapyd-Client,Scrapyd-API,Django和Vue.js的分布式爬虫管理框架地址。
- 将命令对接图形界面,实现批量部署。
- 更方便控制、管理、实时查看结果。
关系: Gerapy和Scrapyd的关系就是,我们可以通过Gerapy中配置Scrapyd后,不实用命令,直接通过图形化界面开启爬虫。
1、安装
pip3 install gerapy
2、初始化环境
利用gerapy
新建一个项目,会在本级目录下得到一个文件夹gerapy
。
gerapy init
进入改目录初始数据库,会生成一个SQLite
数据库,数据库保存主机的配置信息和部署版本。
cd gerapy
gerapy migrate
➜ zhongan git:(master) ✗ cd gerapy
➜ gerapy git:(master) ✗ ls
db.sqlite3 projects
初始化数据库后有两个目录,其中空的projects
文件夹,就是存放Scrapy
目录的文件夹。
3、启动Gerapy
(.venv) ➜ gerapy git:(master) ✗ gerapy runserver
Performing system checks...
System check identified no issues (0 silenced).
September 27, 2018 - 09:39:13
Django version 2.1.1, using settings 'gerapy.server.server.settings'
Starting development server at http://127.0.0.1:8000/
Quit the server with CONTROL-C.
默认在8000端口开启Gerapy
服务,浏览器访问http://localhost:8000
gerapy runserver 0.0.0.0:8888
或者配置主机和端口。
4、部署项目
我们将Scrapy项目放在gerapy/project
目录下。
添加Scrapy远程服务,我们的scrapy项目发布到Scrapyd上面。