python爬虫之scrapy（基本介绍）

·scrapy框架

python爬虫之scrapy（基本介绍）
一、engine模块
1、控制所有模块的数据流
2、根据条件触发事件
3、不需要用户修改

二、download
1、根据请求下载模块
2、不需要用户修改

三、scheduler
1、对所有请求进行调度管理
2、不需要用户修改
python爬虫之scrapy（基本介绍）
四、spider
1、解析download返回的response（响应）
2、产生爬取scraped item（爬取项）
3、产生额外的requests（爬取请求）

五、item pieplines
1、以流水线方式处理spider产生的爬取项。
2、由一组操作顺序组成，类似流水线，每个操作是一个Item pipeline.
3、可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。
python爬虫之scrapy（基本介绍）

相同点：
python爬虫之scrapy（基本介绍）
不同点

选用哪个技术路线（requests or scrapy）来实现爬虫

一、scrapy命令行
python爬虫之scrapy（基本介绍）
二、格式：

 >scrapy<command>[options][args]
 //command就是scrapy命令

三、scrapy常用命令
python爬虫之scrapy（基本介绍）
四、scrapy爬取的命令行逻辑