python 3.6 Scrapy部署

使用scrapyd 进行管理爬虫

scrapyd (安装在服务器端) https://scrapyd.readthedocs.io/en/latest/api.html#addversion-json

运行scrapyd  如果报错 查看Twisted版本 我的版本时19.2.0 会报错

python 3.6 Scrapy部署

https://stackoverflow.com/questions/55658289/builtins-attributeerror-int-object-has-no-attribute-splitlines

文章说 把Twisted降级为18.9.0  

pip install -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com Twisted==18.9.0

scrapyd-client (客户端)

用户打包发布爬虫

windows 使用 scrapyd-client 不能直接使用需要写一个bat脚本运行

@echo off "C:\Program Files\Python35\python.exe" "C:\Program Files\Python35\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9

进入scrapy.cfg的那一层及目录。运行bat脚本

python 3.6 Scrapy部署

输出 Unknown target: default  表示成功

上传爬虫项目

项目上传时  scrapyd  必须要启动  

scrapyd-deploy ArticleCrawl(scrapyd-deploy 是我的bat脚本名称   ArticleCrawl 是scrapy.cfg里面的deploy:ArticleCrawl)

python 3.6 Scrapy部署

这里的url是指 scrapyd 启动的地址    project 是值爬虫项目名称

python 3.6 Scrapy部署

执行成功

addversion.json 

将项目添加到项目中,如果项目不存在则创建项目。

  1.  (字符串,必填) - 项目名称 newsAticle
  1.  (字符串,必填) - 爬虫名称 爬虫文件定义的name

python 3.6 Scrapy部署

 可以用代码控制  我使用postman测试的  也可以使用curl

python 3.6 Scrapy部署