爬虫---反反爬---headers
1.一般可直接全复制进去
2.部分网站放入部分参数才可以,全部放进去反而获取不到理想页面,比较重要的3个:UA,Cookie,Referer。
3:可用pycharm正则处理复制过来的headers,也可写脚本处理。
其他参数的解释:
-
Connection:链接类型 keep-alive 支持使用长连接,复用上次连接,因为有三次握手,四次挥手消耗时间,不断开连接,直接使用上次的连接
-
Upgrade-Insecure-Requests:浏览器http升级为HTTPS请求,告诉服务器,自己支持这种操作,也就是我能读懂你服务器发过来的上面这条信息
-
Accept:传输文件类型,浏览器接受什么数据 q 是权重,体现执行的先后
-
Referer:页面跳转处 ,标识当前url地址是哪里过来的
-
Accept-Encoding:文件编解码格式,压缩方式,文件压缩传输增快
-
x-requested-with :XMLHttpRequest:是Ajax 异步请求