【计算机网络】HTTP协议

URI和URL

URI(Uniform Resource Identifier):统一资源标识符
URL(Uniform Resource locator): 统一资源定位器

URI是以一种抽象的,高层次概念定义统一资源标识,而URL则是具体的资源标识的方式,URL是一种URI。

URI格式:
【计算机网络】HTTP协议

  • 协议方案名:使用 http:https: 等协议方案名获取资源时要指定协议类型。不区分大小写,最后附加一个冒号( :)。也可以使用 data:javascript: 这类指定数据或脚本程序的方案名
  • 登录信息(认证):指定用户名和密码作为从服务器端获取资源时必要的登录信息(身份认证)。此项是可选项。
  • 服务器地址:使用绝对 URI 必须指定待访问的服务器地址。地址可以是类似 hackr.jp 这种DNS可解析的名称,也可以是IP地址名。
  • 服务器端口号:指定服务器连接的网络端口号。此项也是可选项,若用户省略则自动使用默认端口。
  • 带层次的文件路径:指定服务器上的文件路径来定位特指的资源。
  • 查询字符串:针对已指定的文件路径内的资源,可以使用查询字符串传入任意参数。此项可选
  • 片段标识符:使用片段标识符通常可标记出已获取资源中的子资源。

HTTP协议格式

【计算机网络】HTTP协议
HTTP请求
【计算机网络】HTTP协议

  • 首行:方法+URL+版本
  • 请求头:请求的属性,冒号分割的键值对;每组之间使用 \n 分割;遇到空行表示请求头部分结束
  • 请求体:空行后面的内容都是请求体。请求体允许为空,如果请求体不为空则在请求头中会有一个Content-Length 的属性来标识请求体的长度

HTTP响应
【计算机网络】HTTP协议

  • 首行:版本号+状态码+状态码解释
  • 响应头:请求的属性,冒号分割的键值对;每组之间使用 \n 分割;遇到空行表示请求头部分结束
  • 响应体:空行后面的内容都是响应体。响应体允许为空,如果响应体不为空则在请求头中会有一个Content-Length 的属性来标识请求体的长度;如果服务器放回了一个html的页面,那么页面的内容就在响应体中。

HTTP方法

【计算机网络】HTTP协议

  • GET方法:获取资源
    GET方法用来请求访问已被URI识别的资源。指定的资源经服务器端解析后返回响应内容。
  • POST方法:传输实体主体
    POST方法用于传输信息给服务器,主要功能与GET方法类似,但一般推荐使用POST方式。
  • PUT方法:传输文件
    PUT方法用来传输文件。要求在请求报文的主体中包含文件内容,然后保存到请求URI指定的位置。但是PUT方法自身不带验证机制,任何人都可以上传文件,存在安全性问题,因此一般的Web网站不使用该方法。
  • HEAD方法:获得报文首部
    HEAD方法和GET方法一样,只是不返回报文主体部分。用于确认URI的有效性及资源更新的日期时间等。
  • DELETE方法:删除文件
    DELETE方法是用来删除文件的,是与PUT方法相反的方法。DELETE方法按请求URI删除指定的资源。但是DELETE方法和PUT方法一样自身不带验证机制,任何人都可以删除或上传文件,存在安全性问题,因此一般的Web网站不使用该方法。
  • OPTIONS方法:询问支持的方法
    OPTIONS方法用来查询针对请求URI指定的资源支持的方法。
  • TRACE方法:追踪路径
    TRACE方法是让Web服务端将之前的请求通信环回给客户端的方法。
    发送请求时,在 Max-Forwards 首部字段中填入数值,每经过一个服 务器端就将该数字减 1,当数值刚好减到 0 时,就停止继续传输,最 后接收到请求的服务器端则返回状态码 200 OK 的响应。
    客户端通过 TRACE 方法可以查询发送出去的请求是怎样被加工修改 / 篡改的。这是因为,请求想要连接到源目标服务器可能会通过代理 中转,TRACE 方法就是用来确认连接过程中发生的一系列操作。
    但是,TRACE 方法本来就不怎么常用,再加上它容易引发 XST(Cross-Site Tracing,跨站追踪)攻击,通常就更不会用到了。
  • CONNECT方法:要求用隧道协议连接代理
    CONNECT 方法要求在与代理服务器通信时建立隧道,实现用隧道协 议进行 TCP 通信。主要使用 SSL(Secure Sockets Layer,安全套接 层)和 TLS(Transport Layer Security,传输层安全)协议把通信内容 加 密后经网络隧道传输。
  • LINK方法和UNLINK方法已经被HTTP/1.1废弃,不再支持。

GET方法和POST方法的区别:
【计算机网络】HTTP协议

HTTP状态码

【计算机网络】HTTP协议
2XX 成功

  • 200 OK
    表示从客户端发来的请求在服务器端被正常处理了
  • 204 No Contnet
    该状态码代表服务器接收的请求已成功处理,但在返回的响应报文中 不含实体的主体部分。另外,也不允许返回任何实体的主体。一般在只需要从客户端往服务器发送信息,而对客户端不需要发送新信息内容的情况下使用。
  • 206 Partial Content
    该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的 GET 请求。响应报文中包含由 Content-Range 指定范围的实体内容。

3XX 重定向

  • 301 Moved Permanently
    永久性重定向。该状态码表示请求的资源已被分配了新的 URI,以后 应使用资源现在所指的 URI。也就是说,如果已经把资源对应的 URI 保存为书签了,这时应该按 Location 首部字段提示的 URI 重新保存。
  • 302 Fount
    临时性重定向。该状态码表示请求的资源已被分配了新的 URI,希望用户(本次)能使用新的 URI 访问。
    和 301 Moved Permanently 状态码相似,但 302 状态码代表的资源不 是被永久移动,只是临时性质的。换句话说,已移动的资源对应的 URI 将来还有可能发生改变。比如,用户把 URI 保存成书签,但不会 像 301 状态码出现时那样去更新书签,而是仍旧保留返回 302 状态码 的页面对应的 URI。
  • 303 See Other
    该状态码表示由于请求对应的资源存在着另一个 URI,应使用 GET 方法定向获取请求的资源。
    303 状态码和 302 Found 状态码有着相同的功能,但 303 状态码明确 表示客户端应当采用 GET 方法获取资源,这点与 302 状态码有区 别。

当 301、302、303 响应状态码返回时,几乎所有的浏览器都会把 POST 改成 GET,并删除请求报文内的主体,之后请求会自动再次 发送。
301、302 标准是禁止将 POST 方法改变成 GET 方法的,但实际使 用时大家都会这么做。

  • 304 Not Modified
    该状态码表示客户端发送附带条件的请求 2 时,服务器端允许请求访 问资源,但未满足条件的情况。304 状态码返回时,不包含任何响应 的主体部分。304 虽然被划分在 3XX 类别中,但是和重定向没有关系。
  • 307 Temporary Redirect
    临时重定向。该状态码与 302 Found 有着相同的含义。尽管 302 标准禁止 POST 变换成 GET,但实际使用时大家并不遵守。
    307 会遵照浏览器标准,不会从 POST 变成 GET。但是,对于处理响应时的行为,每种浏览器有可能出现不同的情况。

4XX 客户端错误

  • 400 Bad Request
    该状态码表示请求报文中存在语法错误。当错误发生时,需修改请求 的内容后再次发送请求。另外,浏览器会像 200 OK 一样对待该状态 码。

  • 401 Unauthorized
    该状态码表示发送的请求需要有通过 HTTP 认证(BASIC 认证、 DIGEST 认证)的认证信息。
    当第一次返回401响应,会弹出认证用的对话窗口;
    当第二次返回401响应,则表示用户认证失败

  • 403 Forbidden
    该状态码表明对请求资源的访问被服务器拒绝了。服务器端没有必要 给出拒绝的详细理由,但如果想作说明的话,可以在实体的主体部分对原因进行描述,这样就能让用户看到了。

  • 404 Not Fount
    该状态码表明服务器上无法找到请求的资源。除此之外,也可以在服 务器端拒绝请求且不想说明理由时使用。

5XX 服务器错误

  • 500 Internal Server Errot
    该状态码表明服务器端在执行请求时发生了错误。也有可能是 Web 应用存在的 bug 或某些临时的故障。
  • 503 Service Unavailable
    该状态码表明服务器暂时处于超负载或正在进行停机维护,现在无法 处理请求。如果事先得知解除以上状况需要的时间,最好写入 RetryAfter 首部字段再返回给客户端。

HTTP首部字段

通用首部字段
请求首部字段
响应首部字段
实体首部字段

HTTPS

Cookie和session