scrapinghub 傻瓜教程

部署scrapy到scrapinghub 踩坑详尽记录.

1、注册scrapinghub账号，没有scrapinghub账号是无法部署爬虫的.

2、创建项目（找到图下按钮）：

scrapinghub 傻瓜教程

3、再创建完项目之后，scrapinghub会提供API key 以及项目ID：

scrapinghub 傻瓜教程

4、拿到API key 和 project id后，来到本地的爬虫项目，先安装scrapinghub的官方包：shub， pip install shub：

scrapinghub 傻瓜教程

除了安装shub包，还会自动安装与它有关联的包：

scrapinghub 傻瓜教程

5、安装完后，在控制台输入 shub login命令，进行登录，登录过程需要提供API key：

scrapinghub 傻瓜教程

API key 无误会出现下面的提示：

scrapinghub 傻瓜教程

6、上面进行的无误之后，就可以进行部署前的一些工作了.

(1)首先对于未默认的包(scrapy, scrapy-spalsh,lxml) 你需要在requirements.txt里指明它的版本号,如下所示:

scrapinghub 傻瓜教程

出现这个错误就是requirements.txt 没配置好:

scrapinghub 傻瓜教程

requirements.txt 目录位置:

scrapinghub 傻瓜教程

(2) 执行 shub deploy project id(scrapinghub 提供的),不出意外的话会有一些错误,但它会生成一个 scrapinghub.yml文件,与gitlab-ci.yml,类似你需要在里面进行一些配置:

scrapinghub 傻瓜教程

配置完这些后,如果python文件里面没有错误,CI是会通过的,通过消息如下:

scrapinghub 傻瓜教程

这样便可以去web端执行爬虫了.

7 执行爬虫

(1) 找到项目,点击run

scrapinghub 傻瓜教程

(2) 可选多个任务依次执行:

scrapinghub 傻瓜教程

(3)执行流程如下图:

scrapinghub 傻瓜教程

scrapinghub 傻瓜教程

部署scrapy到scrapinghub 踩坑详尽记录.

1、注册scrapinghub账号，没有scrapinghub账号是无法部署爬虫的.

2、创建项目（找到图下按钮）：

3、再创建完项目之后，scrapinghub会提供API key 以及项目ID：

4、拿到API key 和 project id后，来到本地的爬虫项目，先安装scrapinghub的官方包：shub， pip install shub：

除了安装shub包，还会自动安装与它有关联的包：

5、安装完后，在控制台输入 shub login命令，进行登录，登录过程需要提供API key：

API key 无误会出现下面的提示：

6、上面进行的无误之后，就可以进行部署前的一些工作了.

(1)首先对于未默认的包(scrapy, scrapy-spalsh,lxml) 你需要在requirements.txt里指明它的版本号,如下所示:

出现这个错误就是requirements.txt 没配置好:

requirements.txt 目录位置:

(2) 执行 shub deploy project id(scrapinghub 提供的),不出意外的话会有一些错误,但它会生成一个 scrapinghub.yml文件,与gitlab-ci.yml,类似你需要在里面进行一些配置:

配置完这些后,如果python文件里面没有错误,CI是会通过的,通过消息如下:

这样便可以去web端执行爬虫了.

7 执行爬虫

(1) 找到项目,点击run

(2) 可选多个任务依次执行:

(3)执行流程如下图:

相关推荐