简单的爬虫每日笔记

2018.3.2

怎么提升爬虫的效率

1)换个性能更好的电脑

2)网络使用光纤

3)使用多线程爬虫

4)使用多进程爬虫

5)分布式爬虫

6)提升数据的写入速度

反反爬虫的应用措施

1)随机修改User-Agent

2)禁用cookie追踪

3)放慢爬虫速度

4)使用代理动态更换ip(本机电脑的ip地址不变,动态ip是代理ip)

5)分布式(一般用不同区域的电脑,不适用一个局域网下,应为ip地址相同)

本地下载数据的一种方法

1)scrapy支持本地生成5种格式的文档,第一种方法是用命令行来运行。

简单的爬虫每日笔记

2)也可以修改pipelines.py文件来进行下载,原理是item pipeline就是接收处理爬取后数据item的管道。

简单的爬虫每日笔记

  简单的爬虫每日笔记

简单的爬虫每日笔记


一个爬虫项目中可以写入多个爬虫文件,一般他们拥有相同的数据格式,应为他们要公用同样的配置文件settings

,items,pipielines,middlewares