爬虫去重 : 两种去重方法、增量爬虫scrapy案例:nba
1、cmd(scrapy startproject nba)创建好项目之后,创建spider文件
配置setting文件2、创建好spider类
2、判断要不要使用中间件selenium,如果页面是ajax请求,js代码,需要点击等要使用selenium。会返回html给spider
然后后测试一下
3、如果不需要seleniu也要先测试
4、分页,想办法获取最大页码,最简单的办法就是在url页码数字输入最大数
5、获取数据
去重方法1:利用redis去重,爬取过的url不获取
6、获取详情页信息
7、pipelines
配置:
写pipeline.py
第二种去重方法