爬虫怎么解决封IP？

转载于 https://www.zhihu.com/question/26018679

这个网站提供上千个 http://www.v*n.cn/ ip交换

在网络爬虫抓取信息的过程中，如果抓取频率高过了网站的设置阀值，将会被禁止访问。通常，网站的反爬虫机制都是依据IP来标识爬虫的。

于是在爬虫的开发者通常需要采取两种手段来解决这个问题：
1、放慢抓取速度，减小对于目标网站造成的压力。但是这样会减少单位时间类的抓取量。
2、第二种方法是通过设置代理IP等手段，突破反爬虫机制继续高频率抓取。但是这样需要多个稳定的代理IP。

代理IP可以搜索到免费的，但是可能不太稳定，也有收费的，但是不一定划算，也可能不是长久之计。

普通的基于ADSL拨号的解决办法

通常，在抓取过程中遇到禁止访问，可以重新进行ADSL拨号，获取新的IP，从而可以继续抓取。但是这样在多网站多线程抓取的时候，如果某一个网站的抓取被禁止了，
同时也影响到了其他网站的抓取，整体来说也会降低抓取速度。

一种可能的解决办法

同样也是基于ADSL拨号，不同的是，需要两台能够进行ADSL拨号的服务器，抓取过程中使用这两台服务器作为代理。
假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行，使用A作为代理访问外网，如果在抓取过程中遇到禁止访问的情况，立即将代理切换为B，然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理，B再拨号，如此反复。如下图：

使用A为代理，B拨号：
&lt;img data-rawheight="327" data-rawwidth="721" src="https://pic1.zhimg.com/50/9196e28cd8621a06cd0f0339f1fa765b_hd.jpg" class="origin_image zh-lightbox-thumb" width="721" data-original="https://pic1.zhimg.com/9196e28cd8621a06cd0f0339f1fa765b_r.jpg"&gt; 爬虫怎么解决封IP？

使用B为代理，A拨号
&lt;img data-rawheight="327" data-rawwidth="721" src="https://pic2.zhimg.com/50/7afaf540be23920733bc466ae3f6f651_hd.jpg" class="origin_image zh-lightbox-thumb" width="721" data-original="https://pic2.zhimg.com/7afaf540be23920733bc466ae3f6f651_r.jpg"&gt; 爬虫怎么解决封IP？

爬虫怎么解决封IP？

相关推荐