Requests库网络爬取实战
一、编码格式
-
r.encoding
根据爬取到的文件head部分,识别文件的编码 -
r.apparent_encoding
根据爬取到的文件内容,识别文件的编码。使用该编码格式才可以阅读本文件 - 通常使用方法:r.encoding= r.apparent_encoding
二、网站访问受限问题
- 查看请求头部
r.requests.headers
例:可以看到该请求头部中说明是一个爬虫。
故,有些网站访问可能会受限 - 更改请求头部信息
定义一个字典类型的(键值对)变量,将其通过requests.get(url,header="") 方法的header参数重新发送请求,访问该网站。
其中,Mozilla/5.0是指模拟的一个浏览器
三、带参数的网络爬虫
原理:通过拼接带参数的url去请求资源
方式一:直接拼接url
以IP地址查询为例:
方式二:使用requests.get(url,params="")方法
通过params参数,以字典类型(键值对)的形式传递参数。
以百度搜索引擎为例:具体代码:
四、网络图片的爬取与存储
- 选取一个网络图片链接
- 以二进制的形式存储图片在指定电脑目录
例: