要完成scrapy爬虫需要实现以下四个步骤：

1.创建一个scrapy项目:scrapy startproject mySpider
2.生成一个爬虫:scrapy genspider tieba tieba.baidu.com
3.提取数据:完善spider，使用xpath或者css等方法
4.保存数据:pipeline中保存数据
5.scrapy是一个第三方包需要额外安装：pip install scrapy

创建scrapy项目

创建scrapy项目的命令：scrapy startproject +<项目名字>
示例：scrapy startproject myspider
scrapy 使用

创建爬虫程序

在项目路径下执行：scrapy genspider +<爬虫名字> + <允许爬取的域名>
示例：
cd myspider
scrapy genspider tieba tieba.baidu.com
scrapy 使用
生成的爬虫类总结：
爬虫类继承了scrapy.Spider父类
name属性是爬虫名
start_url规定起始的url，可以多个
allowed_domains规定爬取范围的域名，可以多个
起始url不受此限制
在解析函数中提取的url地址如果要发送请求，则必须属于allowed_domains范围内
我们会在后续的课程中学习如何在解析函数中构造发送请求，这里不做展开
scrapy.Spider爬虫类中必须有名为parse的解析
也可以自定义其他解析函数
启动爬虫的时候注意启动的位置，是在项目路径下启动

运行爬虫

命令：在项目目录下执行scrapy crawl +<爬虫名字>
示例：scrapy crawl tieba

scrapy 使用

要完成scrapy爬虫需要实现以下四个步骤：

创建scrapy项目

创建爬虫程序

运行爬虫

相关推荐