简单的爬虫每日笔记
2018.3.2
怎么提升爬虫的效率
1)换个性能更好的电脑
2)网络使用光纤
3)使用多线程爬虫
4)使用多进程爬虫
5)分布式爬虫
6)提升数据的写入速度
反反爬虫的应用措施
1)随机修改User-Agent
2)禁用cookie追踪
3)放慢爬虫速度
4)使用代理动态更换ip(本机电脑的ip地址不变,动态ip是代理ip)
5)分布式(一般用不同区域的电脑,不适用一个局域网下,应为ip地址相同)
本地下载数据的一种方法
1)scrapy支持本地生成5种格式的文档,第一种方法是用命令行来运行。
2)也可以修改pipelines.py文件来进行下载,原理是item pipeline就是接收处理爬取后数据item的管道。
一个爬虫项目中可以写入多个爬虫文件,一般他们拥有相同的数据格式,应为他们要公用同样的配置文件settings
,items,pipielines,middlewares