您的位置: 首页 > 文章 > 爬虫学习笔记1-了解爬虫以及Http协议

爬虫学习笔记1-了解爬虫以及Http协议

分类: 文章 • 2024-06-02 23:27:40

1.了解爬虫

爬虫的概念：模拟浏览器，发送请求，获取响应
爬虫的作用：数据采集、软件测试、网络安全……
爬虫的分类：
通用爬虫： 搜索引擎的主要组成，作用就是将互联网的上页面整体的爬取下来之后，保存到本地
聚焦爬虫： 聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。
爬虫的流程：
1）获取一个url
2）向url发送请求，并获取响应（需要http协议）
3）如果从响应中提取url，则继续发送请求获取响应
4）如果从响应中提取数据，则将数据进行保存
爬虫遵循的协议：robot协议
定义：网络爬虫排除标准。
作用：告诉搜索引擎哪里可以爬，哪里不可以爬。

2、Http协议

（1）http以及https的概念和区别（HTTPS比HTTP更安全，但是性能更低）

HTTP：超文本传输协议，默认端口号是80
- 超文本：是指超过文本，不仅限于文本；还包括图片、音频、视频等文件
- 传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容
HTTPS：HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协，默认端口号：443
- SSL对传输的内容（超文本，也就是请求体或响应体）进行加密

（2）请求头和响应头
1）请求头

Content-Type
Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Referer (页面跳转处)
Cookie (Cookie)
Authorization(用于表示HTTP协议中需要认证资源的认证信息，如前边web课程中用于jwt认证)

注：加粗的请求头（User-Agent、Referer、Cookie）为常用请求头，在服务器被用来进行爬虫识别的频率最高

2）响应头
爬虫学习笔记1-了解爬虫以及Http协议

注：爬虫只关注一个响应头字段 Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

（3）常见的响应状态码

200：成功
302：跳转，新的url在响应的Location头中给出
303：浏览器对于POST的响应进行重定向至新的url
307：浏览器对于GET的响应重定向至新的url
403：资源不可用；服务器理解客户的请求，但拒绝处理它（没有权限）
404：找不到该页面
500：服务器内部错误
503：服务器由于维护或者负载过重未能应答，在响应中可能可能会携带Retry-After响应头；有可能是因为爬虫频繁访问url，使服务器忽视爬虫的请求，最终返回503响应状态码

（4）http请求的过程
1）在浏览器中输入一个网址时，需要将它先解析出ip地址来
2）当得到ip地址之后，浏览器以tcp的方式3次握手链接服务器
3）以tcp的方式发送http协议的请求数据给服务器
4）服务器tcp的方式回应http协议的应答数据给浏览器（渲染）

在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

注：浏览器展示的结果可以由多次请求对应的多次响应共同渲染出来，而爬虫是一次请求对应一个响应