python scrapy详细解析文档
Scrapy爬虫项目
- Cmd命令行创建项目
创建项目命令:
scrapy startproject [项目名]
Items定义要爬取的东西;spiders文件夹下可以放多个爬虫文件;pipelines爬虫后处理的文件,例如爬取的信息要写入数据库;settings项目设置
2.Scrapy常用模板
Scrapy-般通过指令管理爬虫项目,常用的指令有:
- startproject创建爬虫项目
- genspider -I查看爬虫模板
- genspider -t模版爬虫文件名域名创建爬虫
- crawl运行爬虫
- list查看有哪些爬虫
basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板
(1)查看爬虫模板命令
scrapy genspider -l
basic基础模板(最常用);crawl通用爬虫模板;csvfeed爬取csv格式的模板;xmlfeed爬取xml格式的模板
(2)创建爬虫命令
scrapy genspider -t [爬虫模板] [爬虫文件名] [爬取网址的域名]
2.Scrapy爬虫编写基础
编写一个Scrapy爬虫项目,一般按照如下流程进行:
- 创建爬虫项目
- 编写items
- 创建爬虫文件
- 编写爬虫文件
- 编写pipelines
- 配置settings
4.使用scrapy编写阿里文学数据
第一步:定义目标
在items中定义目标
第二步:完善爬虫文件的编写
yield这里转交给pipelines文件处理
纠正一下:图中第①点我的目录应该是ali_first
(运行之后报错才发现,这个笔记是边做项目边写的,懒得重新截图编辑了)
第三步:开启pipelines
修改settings文件
第四步:完善pipelines文件内容
具体还有其它的爬虫需要的可以留言邮箱