网络爬虫之Request库入门（1）

一、request的安装方法
1.用管理员权限打开cmd控制台，并进入相对应的python路径使用一下命名进行安装

pip install requests

2.在pycharm中的安装方法
网络爬虫之Request库入门（1）

3.测试requests库是否安装成功

import requests
r=requests.get("http://www.baidu.com")
//检测请求的状态码，如果状态码为200，访问成功，否则失败
r.status_code
r.encoding="utf-8"
print(r.text)

网络爬虫之Request库入门（1）
二、requests.get函数介绍

get函数格式如下

request.get(url,params=None,**kwargs)

url:拟获取页面的URL连接
params:url中的额外参数，字典或者字节流格式，可选
**kwargs:12个控制访问的参数

网络爬虫之Request库入门（1）
Response 对象的属性

理解Response的编码

import requests
r=requests.get("http://www.baidu.com")
#状态信息
print(r.status_code)
#网页的编码
print(r.encoding)
#备选编码
print(r.apparent_encoding)

输出
网络爬虫之Request库入门（1）
二、爬取网页的通用代码框架

import requests
#这个框架我们封装为getHTMLText函数
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r .encoding = r.apparent_encoding
        return r.text
    except:
        return"产生异常"
if __name__=="__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

三、Http协议及requests库的方法
requests库的7个方法。
网络爬虫之Request库入门（1）
Http协议

Http协议对资源的操作

理解PATCH和PUT的区别

HTTP协议与Requests库

1.requests.head方法
可以用很少的网络流量获取网络资源的概要信息

import requests
r=requests.head("http://www.baidu.com")
print(r.headers)

输出结果如下

网络爬虫之Request库入门（1）
2.requests.post方法

3.requests.put方法
与post方法类似，只不过它可以把原有的数据覆盖掉

4.requests.request方法

网络爬虫之Request库入门（1）

相关推荐