Requests库网络爬取实战

一、编码格式

  • r.encoding
    根据爬取到的文件head部分,识别文件的编码
  • r.apparent_encoding
    根据爬取到的文件内容,识别文件的编码。使用该编码格式才可以阅读本文件
  • 通常使用方法:r.encoding= r.apparent_encoding

二、网站访问受限问题

  • 查看请求头部
    r.requests.headers
    例:可以看到该请求头部中说明是一个爬虫。
    故,有些网站访问可能会受限
    Requests库网络爬取实战
  • 更改请求头部信息
    定义一个字典类型的(键值对)变量,将其通过requests.get(url,header="") 方法的header参数重新发送请求,访问该网站。
    Requests库网络爬取实战
    其中,Mozilla/5.0是指模拟的一个浏览器

三、带参数的网络爬虫

原理:通过拼接带参数的url去请求资源
方式一:直接拼接url

以IP地址查询为例:
Requests库网络爬取实战
方式二:使用requests.get(url,params="")方法
通过params参数,以字典类型(键值对)的形式传递参数。

以百度搜索引擎为例:
Requests库网络爬取实战具体代码:
Requests库网络爬取实战

四、网络图片的爬取与存储

  1. 选取一个网络图片链接
  2. 以二进制的形式存储图片在指定电脑目录
    例:Requests库网络爬取实战