爬虫---反反爬---headers

1.一般可直接全复制进去

2.部分网站放入部分参数才可以,全部放进去反而获取不到理想页面,比较重要的3个:UA,Cookie,Referer。

3:可用pycharm正则处理复制过来的headers,也可写脚本处理。

爬虫---反反爬---headers

 其他参数的解释:

  1. Connection:链接类型 keep-alive 支持使用长连接,复用上次连接,因为有三次握手,四次挥手消耗时间,不断开连接,直接使用上次的连接

  2.  Upgrade-Insecure-Requests:浏览器http升级为HTTPS请求,告诉服务器,自己支持这种操作,也就是我能读懂你服务器发过来的上面这条信息

  3. Accept:传输文件类型,浏览器接受什么数据 q 是权重,体现执行的先后

  4. Referer:页面跳转处 ,标识当前url地址是哪里过来的

  5. Accept-Encoding:文件编解码格式,压缩方式,文件压缩传输增快

  6. x-requested-with :XMLHttpRequest:是Ajax 异步请求