分享一个自己从零开始学习python爬虫的一些笔记

爬虫流程如下图所示:
分享一个自己从零开始学习python爬虫的一些笔记
在了解了爬虫的流程之后,我们需要学习一下关于一些http的知识

1.http请求头:
首先在谷歌浏览器中我们打开百度,打开之后我们按下f12将会出现这样一个界面:
分享一个自己从零开始学习python爬虫的一些笔记
这时候我们选择 Network
分享一个自己从零开始学习python爬虫的一些笔记
什么?这里面啥都没有?别急,这时候我们刷新一下
分享一个自己从零开始学习python爬虫的一些笔记
我们按照下图所示,跟着他点一遍
分享一个自己从零开始学习python爬虫的一些笔记
右边的Headers出现了一些东西,我们来研究一下
分享一个自己从零开始学习python爬虫的一些笔记

了解了这些后,我们再来看一下URL
URL详解:
分享一个自己从零开始学习python爬虫的一些笔记
看完了URL,我们可以正式开始进入到爬虫的主要内容了~

首先我们最基本的库就是Requests这个第三方库

让我们来学一下Requests中的几个主要得到方法吧

Requests主要的7个方法
requests.request() #构造一个请求,支撑一下各方法的基础方法
requests.get() #获取HTML网页的主要方法,对应于HTTP的GET
requests.head() #获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() #向HTML网页提交POST请求二点方法,对应于HTTP的POST
requests.put() #向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() #向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() #向HTML页面提交删除请求,对应于HTTP的DELETE

分享一个自己从零开始学习python爬虫的一些笔记

Requests中几个常用方法的用法:
分享一个自己从零开始学习python爬虫的一些笔记
分享一个自己从零开始学习python爬虫的一些笔记
如果提交的不是键值对类型的数据,服务器将会把他放在 data 里
分享一个自己从零开始学习python爬虫的一些笔记

requests.request 7 种请求方式:
分享一个自己从零开始学习python爬虫的一些笔记

把一些键值对的内容添加到URL中:
分享一个自己从零开始学习python爬虫的一些笔记
分享一个自己从零开始学习python爬虫的一些笔记
分享一个自己从零开始学习python爬虫的一些笔记

修改 user-agent 模拟任何浏览器进行访问
注意 ! 如果不修改的话,那么python将会告诉服务器你自己就是个爬虫,这样服务器就会拒绝你的访问!
分享一个自己从零开始学习python爬虫的一些笔记

可以向某一个连接提交文件

分享一个自己从零开始学习python爬虫的一些笔记
设置延时
分享一个自己从零开始学习python爬虫的一些笔记

可以隐藏用户的原ip 可以防止对爬虫得到逆追踪

分享一个自己从零开始学习python爬虫的一些笔记
Response对象包含爬虫返回的重要内容
分享一个自己从零开始学习python爬虫的一些笔记

Robots协议:
robots协议存在网站的robots。txt中。例如 www.jd.com/robots.txt
Disallow 代表不允许访问
分享一个自己从零开始学习python爬虫的一些笔记
接下来是爬虫的基本框架:
r.raise_for_status() 如果页面返回404 打印信息产生异常
如果放回的是200 表明连接正常
分享一个自己从零开始学习python爬虫的一些笔记
分享一个自己从零开始学习python爬虫的一些笔记

使用python发送想要搜索的信息给百度:
搜索引擎的接口:
百度:https://www.baidu.com/s?wd=#想要搜索的信息

使用方法:
创建一个键值对 {‘wd’:’#发送的内容’}
然后使用requests库的get方法
分享一个自己从零开始学习python爬虫的一些笔记

网络图片的爬取和存储:
1.获取图片的url
2.创建存放的根目录
3.创建图片存放目录 #url.split(’/’)[-1] 使用分割符,除去url的 ’ / ’ 变为一个列表,再使用[-1]获取列表最后的内容(图片的名字)
4.首先使用if 判断根目录是否存在,如果不存在就创建一个根目录
5.再使用一个if判断文件是否存在,如果不存在就使用 requests.get() 获取图片的文件
6.最后使用 with open 写入图片数据
分享一个自己从零开始学习python爬虫的一些笔记