scrapy 使用

要完成scrapy爬虫需要实现以下四个步骤:

1.创建一个scrapy项目:scrapy startproject mySpider
2.生成一个爬虫:scrapy genspider tieba tieba.baidu.com
3.提取数据:完善spider,使用xpath或者css等方法
4.保存数据:pipeline中保存数据
5.scrapy是一个第三方包需要额外安装:pip install scrapy

创建scrapy项目

创建scrapy项目的命令:scrapy startproject +<项目名字>
示例:scrapy startproject myspider
scrapy 使用

创建爬虫程序

在项目路径下执行:scrapy genspider +<爬虫名字> + <允许爬取的域名>
示例:
cd myspider
scrapy genspider tieba tieba.baidu.com
scrapy 使用
生成的爬虫类总结:
爬虫类继承了scrapy.Spider父类
name属性是爬虫名
start_url规定起始的url,可以多个
allowed_domains规定爬取范围的域名,可以多个
起始url不受此限制
在解析函数中提取的url地址如果要发送请求,则必须属于allowed_domains范围内
我们会在后续的课程中学习如何在解析函数中构造发送请求,这里不做展开
scrapy.Spider爬虫类中必须有名为parse的解析
也可以自定义其他解析函数
启动爬虫的时候注意启动的位置,是在项目路径下启动

运行爬虫

命令:在项目目录下执行scrapy crawl +<爬虫名字>
示例:scrapy crawl tieba