网络爬虫之Request库入门(1)

一、request的安装方法
1.用管理员权限打开cmd控制台,并进入相对应的python路径使用一下命名进行安装

pip install requests

2.在pycharm中的安装方法
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
3.测试requests库是否安装成功

import requests
r=requests.get("http://www.baidu.com")
//检测请求的状态码,如果状态码为200,访问成功,否则失败
r.status_code
r.encoding="utf-8"
print(r.text)

网络爬虫之Request库入门(1)
二、requests.get函数介绍
网络爬虫之Request库入门(1)
get函数格式如下

request.get(url,params=None,**kwargs)

url:拟获取页面的URL连接
params:url中的额外参数,字典或者字节流格式,可选
**kwargs:12个控制访问的参数

网络爬虫之Request库入门(1)
Response 对象的属性
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
理解Response的编码
网络爬虫之Request库入门(1)

import requests
r=requests.get("http://www.baidu.com")
#状态信息
print(r.status_code)
#网页的编码
print(r.encoding)
#备选编码
print(r.apparent_encoding)

输出
网络爬虫之Request库入门(1)
二、爬取网页的通用代码框架
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)

import requests
#这个框架我们封装为getHTMLText函数
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r .encoding = r.apparent_encoding
        return r.text
    except:
        return"产生异常"
if __name__=="__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

三、Http协议及requests库的方法
requests库的7个方法。

网络爬虫之Request库入门(1)
Http协议
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
Http协议对资源的操作
网络爬虫之Request库入门(1)
理解PATCH和PUT的区别
网络爬虫之Request库入门(1)
HTTP协议与Requests库
网络爬虫之Request库入门(1)
1.requests.head方法
可以用很少的网络流量获取网络资源的概要信息

import requests
r=requests.head("http://www.baidu.com")
print(r.headers)

输出结果如下

网络爬虫之Request库入门(1)
2.requests.post方法
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
3.requests.put方法
与post方法类似,只不过它可以把原有的数据覆盖掉
网络爬虫之Request库入门(1)
4.requests.request方法
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)
网络爬虫之Request库入门(1)