Scrapy基于scrapy_redis分布式爬虫的布隆去重
1.从网上下载一个别人写好的布隆去重py文件
百度网盘:https://pan.baidu.com/s/1KbK4WAWxAQnslIomAoQSiw 密码:gld0
2.如果要想指定项目启动布隆去重的话
找到环境下的路径E:\ENVS\JobDataScrapyEnv\Lib\site-packages文件夹,找到scrapy_redis,单独复制到需要布隆去重的项目中
在把下载好的布隆去重文件BloomfilterOnRedis.py复制到scrapy_redis中,然后打开dupefilter.py文件
打开dupefilter文件后,首先引入一个类
然后在初始化函数中添加self.bf = BloomFilter(server=server,key=key)
然后修改requests_seen函数