您的位置: 首页 > 文章 > Requests库网络爬取实战

Requests库网络爬取实战

分类: 文章 • 2023-11-10 20:03:03

一、编码格式

r.encoding
根据爬取到的文件head部分，识别文件的编码
r.apparent_encoding
根据爬取到的文件内容，识别文件的编码。使用该编码格式才可以阅读本文件
通常使用方法：r.encoding= r.apparent_encoding

二、网站访问受限问题

查看请求头部
r.requests.headers
例：可以看到该请求头部中说明是一个爬虫。
故，有些网站访问可能会受限
更改请求头部信息
定义一个字典类型的（键值对）变量，将其通过requests.get(url,header="") 方法的header参数重新发送请求，访问该网站。

其中，Mozilla/5.0是指模拟的一个浏览器

三、带参数的网络爬虫

原理：通过拼接带参数的url去请求资源
方式一:直接拼接url

以IP地址查询为例：
Requests库网络爬取实战
方式二：使用requests.get(url,params="")方法
通过params参数，以字典类型（键值对）的形式传递参数。

以百度搜索引擎为例：
Requests库网络爬取实战 具体代码：

四、网络图片的爬取与存储

选取一个网络图片链接
以二进制的形式存储图片在指定电脑目录
例：