python爬虫之requests(自用)

响应对象response的方法

  • response.text 返回文本数据
  • response.content 返回字节流数据(二进制)及图片,音频
  • response.content.decode(‘utf-8’) 手动进行解码
  • response.encode() = 'utf-8’ 解码
  • response.url 返回url
  • response.status_code 返回状态码

requests设置代理

可以自己设置ip地址进行访问

  • 使用requests添加代理只需要在请求方法中(get/post)传递proxies参数就可以了
  • 快代理:http://www.kuaidaili.com/
  • 代理云:http://www.dailiyun.com/

cookie

  • 通过在客户端记录的信息确定用户身份
  • 请求时在headers里加入cookie,可以用来访问需要账户密码的网站

session

session :通过在服务端记录的信息确定用户身份 这里这个session就是一个指的是会话
比如验证码的时候需要保持会话,把requests换成requests.session()

处理不信任的SSL证书

在请求时(get/post)加入verify=False

json数据

使用json注意点

  • json中的字符串都是双引号
    python爬虫之requests(自用)