在爬取网站中的代理设置,爬虫利器

requests 下的代理使用

使用代理 IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。

很多网站会检测某一段时间某个 IP 的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个 IP 的访问。

所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算 IP 被禁止,依然可以换个 IP 继续爬取。

requests 

在爬取网站中的代理设置,爬虫利器

 ProxyHandler 处理器(代理设置)

在爬取网站中的代理设置,爬虫利器

免费的开放代理获取基本没有成本,

我们可以在一些代理网站上收集这些免费代理,测试后如果可以用,就把它收集起来用在爬虫上面。

免费短期代理网站举例:

西刺免费代理 IP:http://www.xicidaili.com/

快代理免费代理:https://www.kuaidaili.com/free/inha/

全网代理 IP:http://www.goubanjia.com/

如果代理 IP 足够多,就可以像随机获取 User-Agent 一样,随机选择一个代理去访问网站。

在爬取网站中的代理设置,爬虫利器