Python3WebSpider_代理设置

ip代理设置

  • 由于同一个ip访问过于频繁,所爬网站可能会让我们输入验证码或直接封锁IP;因而使用代理隐藏真实的IP,让服务器以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理,就不会被封锁,可以达到很好的爬取效果。
  • 免费代理网站: https://www.xicidaili.com/
  • 以下代码运行结果的origin是代理的ip,则证明代理已设置成功 http://httpbin.org/getorigin
    Python3WebSpider_代理设置
1、requests设置代理ip:传入proxies参数即可
import requests
proxies = {'https': 'https://58.240.220.86:53281'}
try:
    response = requests.get('http://httpbin.org/get', proxies=proxies)
    print(response.text)
except requests.exceptions.ConnectionError as e:
    print('Error',e.args)
2、selenium设置代理ip:以Chrome为例
from selenium import webdriver
chromeOptions = webdriver.ChromeOptions()
#代理ip+port:58.240.220.86:53281
chromeOptions.add_argument('--proxy-server=http://58.240.220.86:53281')
browser = webdriver.Chrome(options=chromeOptions)
browser.get('http://httpbin.org/get')