Python-Scrapy的安装与总结

简单方法直接在黑窗口中pip install scrapy
这种是最好的 除了scrapy 还会下载其他依赖插件
安装好scrapy后 通过 “scrapy startproject 项目名称” 创建一个scrapy 爬虫框架
"cd 项目名称 "
“scrapy genspider 一个爬虫” 创建一个爬虫
“scrapy crawl 爬虫名称” crawl 启动一个爬虫

五个大的模块

1.scheduler 用于存放request对象队列
2. download 用于发送请求获取响应
3. spider 用于提取数据或处理之后再提取url并放回url队列中
4. item pipeline (数据管道) 用于存储数据 iteam->项
5. scrapy engine scrapy 引擎 框架调度器
前面4个不同的模块相互之间的关联就是通过scrapy 引擎来进行调度管理的
scheduler队列把request对象交给引擎;
引擎把request交给download 进行请求;
请求的响应交给engin,
engin再把response 交给spider 进行数据处理 完毕之后再交给engin
engin再负责交给item pipeline(数据管道)或者再交给scheduler队列,
以此进行以整个循环

Python-Scrapy的安装与总结