文章目录

Gerapy分布式爬虫管理框架

一、介绍
二、gerapy的初始化配置

1. 安装gerapy
2. 检测gerapy是否可用
3. 初始化gerapy
4. 进入scrapyd目录，执行gerapy数据化的初始化，建立相关的数据库表。
5. 在gerapy目录下，启动gerapy服务，默认端口8000
6. 打开浏览器，输入：http://localhost:8000，可以看到 Gerapy 的主界面

三、配置gerapy的主机
四、在gerapy中部署爬虫项目

添加项目
打包并部署项目

五、调度爬虫，并检测爬虫的运行状态

调度爬虫

Gerapy分布式爬虫管理框架

一、介绍

Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发。

二、gerapy的初始化配置

1. 安装gerapy

pip install gerapy

2. 检测gerapy是否可用

在命令行终端输入gerapy：

gerapy

Gerapy分布式爬虫管理框架

3. 初始化gerapy

生成gerapy框架的工作目录.
即在哪个目录下初始化，工作目录会创建到哪里，初始化完成后，进入gerapy文件夹，文件夹中有一个projects文件夹。

gerapy init

Gerapy分布式爬虫管理框架

4. 进入scrapyd目录，执行gerapy数据化的初始化，建立相关的数据库表。

cd gerapy
gerapy migrate

Gerapy分布式爬虫管理框架

5. 在gerapy目录下，启动gerapy服务，默认端口8000

gerapy runserver

Gerapy分布式爬虫管理框架

6. 打开浏览器，输入：http://localhost:8000，可以看到 Gerapy 的主界面

Gerapy分布式爬虫管理框架

完成以上步骤，说明gerapy初始化成功了。但是现在还没有添加主机和项目，所有的主机数量和项目数量都是0。

三、配置gerapy的主机

点击左侧的主机管理选项卡，即进入主机管理界面，添加scrapyd远程服务，点击右上角的创建按钮，添加scrapyd服务。
在cmd中，开启scrapyd服务。
刷新主机管理界面，scrapyd的连接状态变成normal。

四、在gerapy中部署爬虫项目

添加项目

点击右侧的项目管理，即进入项目管理选项。
将自己的爬虫项目，拷贝到gerapy目录下的projects目录下。
刷新项目管理选项界面，可以看到gerapy检测到自己的爬虫项目。

打包并部署项目

点击右侧的部署按钮，并输入打包时的描述信息，然后点击打包按钮，可发现 Gerapy 会提示打包成功，同时在左侧显示打包的结果和打包名称。
打包完成后，点击右侧的部署按钮，开始将爬虫项目部署到scrapyd服务上。

五、调度爬虫，并检测爬虫的运行状态

调度爬虫

点击左侧的主机管理选项卡，即进入主机管理界面，选择点击调度按钮。
选择要运行的爬虫项目，点击运行按钮，即可运行爬虫项目。
查看爬虫运行结果。
点击停止按钮，即可停止爬虫项目。

Gerapy分布式爬虫管理框架

文章目录

Gerapy分布式爬虫管理框架

一、介绍

二、gerapy的初始化配置

1. 安装gerapy

2. 检测gerapy是否可用

3. 初始化gerapy

4. 进入scrapyd目录，执行gerapy数据化的初始化，建立相关的数据库表。

5. 在gerapy目录下，启动gerapy服务，默认端口8000

6. 打开浏览器，输入：http://localhost:8000，可以看到 Gerapy 的主界面

三、配置gerapy的主机

四、在gerapy中部署爬虫项目

添加项目

打包并部署项目

五、调度爬虫，并检测爬虫的运行状态

调度爬虫

相关推荐