scrapinghub 傻瓜教程

部署scrapy到scrapinghub 踩坑详尽记录.

1、注册scrapinghub账号,没有scrapinghub账号是无法部署爬虫的.

2、创建项目(找到图下按钮):

scrapinghub 傻瓜教程

3、再创建完项目之后,scrapinghub会提供API key 以及项目ID:

scrapinghub 傻瓜教程

4、拿到API key 和 project id后,来到本地的爬虫项目,先安装scrapinghub的官方包:shub, pip install shub:

scrapinghub 傻瓜教程

除了安装shub包,还会自动安装与它有关联的包:

scrapinghub 傻瓜教程

5、安装完后,在控制台输入 shub login命令,进行登录,登录过程需要提供API key:

scrapinghub 傻瓜教程

API key 无误会出现下面的提示:

scrapinghub 傻瓜教程

6、上面进行的无误之后,就可以进行部署前的一些工作了.
(1)首先对于未默认的包(scrapy, scrapy-spalsh,lxml) 你需要在requirements.txt里指明它的版本号,如下所示:

scrapinghub 傻瓜教程

出现这个错误就是requirements.txt 没配置好:

scrapinghub 傻瓜教程

requirements.txt 目录位置:

scrapinghub 傻瓜教程

(2) 执行 shub deploy project id(scrapinghub 提供的),不出意外的话会有一些错误,但它会生成一个 scrapinghub.yml文件,与gitlab-ci.yml,类似你需要在里面进行一些配置:

scrapinghub 傻瓜教程

配置完这些后,如果python文件里面没有错误,CI是会通过的,通过消息如下:

scrapinghub 傻瓜教程

这样便可以去web端执行爬虫了.
7 执行爬虫
(1) 找到项目,点击run

scrapinghub 傻瓜教程

(2) 可选多个任务依次执行:

scrapinghub 傻瓜教程

(3)执行流程如下图:

scrapinghub 傻瓜教程