Scrapy爬虫项目

创建项目命令：

scrapy startproject [项目名]

python scrapy详细解析文档

Items定义要爬取的东西；spiders文件夹下可以放多个爬虫文件；pipelines爬虫后处理的文件，例如爬取的信息要写入数据库；settings项目设置

2.Scrapy常用模板

Scrapy-般通过指令管理爬虫项目，常用的指令有:

basic基础模板（最常用）；crawl通用爬虫模板；csvfeed爬取csv格式的模板；xmlfeed爬取xml格式的模板

（1）查看爬虫模板命令

scrapy genspider -l

python scrapy详细解析文档

basic基础模板（最常用）；crawl通用爬虫模板；csvfeed爬取csv格式的模板；xmlfeed爬取xml格式的模板

（2）创建爬虫命令

scrapy genspider -t [爬虫模板] [爬虫文件名] [爬取网址的域名]

python scrapy详细解析文档

2.Scrapy爬虫编写基础

编写一个Scrapy爬虫项目，一般按照如下流程进行:

4.使用scrapy编写阿里文学数据

第一步：定义目标

在items中定义目标

python scrapy详细解析文档

第二步：完善爬虫文件的编写

python scrapy详细解析文档

yield这里转交给pipelines文件处理

纠正一下：图中第①点我的目录应该是ali_first

（运行之后报错才发现，这个笔记是边做项目边写的，懒得重新截图编辑了）

第三步：开启pipelines

修改settings文件

python scrapy详细解析文档

第四步：完善pipelines文件内容

python scrapy详细解析文档

具体还有其它的爬虫需要的可以留言邮箱

python scrapy详细解析文档