爬虫 spider02——详析http
HTTP协议
1.简介
HTTP协议(Hyper Text Transfer Protocol,超文本传输协议),是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。
HTTP基于TCP/IP通信协议来传递数据。
HTTP基于客户端/服务端(C/S)架构模型,通过一个可靠的链接来交换信息,是一个无状态的请求/响应协议。
2.特点
(1)HTTP是无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
(2)HTTP是媒体独立的:只要客户端和服务器知道如何处理的数据内容,任何类型的数据都可以通过HTTP发送。客户端以及服务器指定使用适合的MIME-type内容类型。
(3)HTTP是无状态:无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。
HTTP请求报文
HTTP请求报文由3部分组成(请求行+请求头+请求体):
请求行:
①是请求方法,GET和POST是最常见的HTTP方法,除此以外还包括DELETE、HEAD、OPTIONS、PUT、TRACE。
②为请求对应的URL地址,它和报文头的Host属性组成完整的请求URL。
③是协议名称及版本号。
请求头:
④是HTTP的报文头,报文头包含若干个属性,格式为“属性名:属性值”,服务端据此获取客户端的信息。
与缓存相关的规则信息,均包含在header中
请求体:
⑤是报文体,它将一个页面表单中的组件值通过param1=value1¶m2=value2的键值对形式编码成一个格式化串,它承载多个请求参数的数据。不但报文体可以传递请求参数,请求URL也可以通过类似于“/chapter15/user.html? param1=value1¶m2=value2”的方式传递请求参数。
HTTP请求报文头属性
Accept
请求报文可通过一个“Accept”报文头属性告诉服务端 客户端接受什么类型的响应。
如下报文头相当于告诉服务端,俺客户端能够接受的响应类型仅为纯文本数据啊,你丫别发其它什么图片啊,视频啊过来,那样我会歇菜的~~~
[javascript] view plain copy
- Accept:text/plain
Accept属性的值可以为一个或多个MIME类型的值(描述消息内容类型的因特网标准, 消息能包含文本、图像、音频、视频以及其他应用程序专用的数据)
cookie
客户端的Cookie就是通过这个报文头属性传给服务端的哦!如下所示:
[javascript] view plain copy
- Cookie: $Version=1; Skin=new;jsessionid=5F4771183629C9834F8382E23
服务端是怎么知道客户端的多个请求是隶属于一个Session呢?注意到后台的那个jsessionid = 5F4771183629C9834F8382E23木有?原来就是通过HTTP请求报文头的Cookie属性的jsessionid的值关联起来的!(当然也可以通过重写URL的方式将会话ID附带在每个URL的后面哦)。
Referer
表示这个请求是从哪个URL过来的,假如你通过google搜索出一个商家的广告页面,你对这个广告页面感兴趣,鼠标一点发送一个请求报文到商家的网站,这个请求报文的Referer报文头属性值就是http://www.google.com。
Cache-Control
对缓存进行控制,如一个请求希望响应返回的内容在客户端要被缓存一年,或不希望被缓存就可以通过这个报文头达到目的。
HTTP响应报文
HTTP的响应报文也由三部分组成(响应行+响应头+响应体)
响应行:
①报文协议及版本;
②状态码及状态描述;
响应头:
③响应报文头,也是由多个属性组成;
响应体:
④响应报文体,即我们真正要的“干货”
响应状态码
和请求报文相比,响应报文多了一个“响应状态码”,它以“清晰明确”的语言告诉客户端本次请求的处理结果。
HTTP的响应状态码由5段组成:
- 1xx 消息,一般是告诉客户端,请求已经收到了,正在处理,别急...
- 2xx 处理成功,一般表示:请求收悉、我明白你要的、请求已受理、已经处理完成等信息.
- 3xx 重定向到其它地方。它让客户端再发起一个请求以完成整个处理。
- 4xx 处理发生错误,责任在客户端,如客户端的请求一个不存在的资源,客户端未被授权,禁止访问等。
- 5xx 处理发生错误,责任在服务端,如服务端抛出异常,路由出错,HTTP版本不支持等。
以下是几个常见的状态码:
200 OK
你最希望看到的,即处理成功!
303 See Other
我把你redirect到其它的页面,目标的URL通过响应报文头的Location告诉你。
304 Not Modified
告诉客户端,你请求的这个资源至你上次取得后,并没有更改,你直接用你本地的缓存吧,我很忙哦,你能不能少来烦我啊!
404 Not Found
你最不希望看到的,即找不到页面。如你在google上找到一个页面,点击这个链接返回404,表示这个页面已经被网站删除了,google那边的记录只是美好的回忆。
500 Internal Server Error
看到这个错误,你就应该查查服务端的日志了,肯定抛出了一堆异常,别睡了,起来改BUG去吧!
◆200 (OK): 找到了该资源,并且一切正常。
◆302/307:临时重定向,指出请求的文档已被临时移动到别处, 此文档的新的url在location响应头中给出
◆304 (NOT MODIFIED): 该资源在上次请求之后没有任何修改。这通常用于浏览器的缓存机制。
◆401 (UNAUTHORIZED): 客户端无权访问该资源。这通常会使得浏览器要求用户输入用户名和密码,以登录到服务器。
◆403 (FORBIDDEN): 客户端未能获得授权。这通常是在401之后输入了不正确的用户名或密码。
◆404 (NOT FOUND): 在指定的位置不存在所申请的资源。
常见的HTTP响应报文头属性
Cache-Control
响应输出到客户端后,服务端通过该报文头属告诉客户端如何控制响应内容的缓存。
常见的取值有private、public、no-cache、max-age,no-store,默认为private。
private: 客户端可以缓存
public: 客户端和代理服务器都可缓存(前端的同学,可以认为public和private是一样的)
max-age=xxx: 缓存的内容将在 xxx 秒后失效
no-cache: 需要使用对比缓存来验证缓存数据
no-store: 所有内容都不会缓存
默认为private,缓存时间为31536000秒(365天)也就是说,在365天内再次请求这条数据,都会直接获取缓存数据库中的数据,直接使用。
ETag
一个代表响应服务端资源(如页面)版本的报文头属性,如果某个服务端资源发生变化了,这个ETag就会相应发生变化。它是Cache-Control的有益补充,可以让客户端“更智能”地处理什么时候要从服务端取资源,什么时候可以直接从缓存中返回响应。
Location
我们在JSP中让页面Redirect到一个某个A页面中,其实是让客户端再发一个请求到A页面,这个需要Redirect到的A页面的URL,其实就是通过响应报文头的Location属性告知客户端的,如下的报文头属性,将使客户端redirect到iteye的首页中:
[javascript] view plain copy
- Location: http://www.iteye.com
Set-Cookie
服务端可以设置客户端的Cookie,其原理就是通过这个响应报文头属性实现的:
[javascript] view plain copy
- Set-Cookie: UserID=JohnDoe; Max-Age=3600; Version=1
cookie机制:
客户端请求服务器,如果服务器需要记录该用户状态,就使用response向客户端浏览器颁发一个Cookie。客户端浏览器会把Cookie保存起来。当浏览器再请求该网站时,浏览器把请求的网址连同该Cookie一同提交给服务器。服务器检查该Cookie,以此来辨认用户状态。服务器还可以根据需要修改Cookie的内容。
Cookie的maxAge决定着Cookie的有效期,单位为秒(Second)。Cookie中通过getMaxAge()方法与setMaxAge(int maxAge)方法来读写maxAge属性。
如果maxAge属性为正数,则表示该Cookie会在maxAge秒之后自动失效。
如果maxAge为负数,则表示该Cookie仅在本浏览器窗口以及本窗口打开的子窗口内有效,关闭窗口后该Cookie即失效。
如果maxAge为0,则表示删除该Cookie。
Cookie并不提供修改、删除操作。如果要修改某个Cookie,只需要新建一个同名的Cookie,添加到response中覆盖原来的Cookie。
如果要删除某个Cookie,只需要新建一个同名的Cookie,并将maxAge设置为0,并添加到response中覆盖原来的Cookie。
Cookie cookie = new Cookie("username","helloweenvsfei"); // 新建Cookie
cookie.setMaxAge(0); // 设置生命周期为0,不能为负数
response.addCookie(cookie); // 必须执行这一句 输出到客户端
状态消息
1xx:信息 |
|
消息 |
描述 |
100 Continue |
服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求。 |
101 Switching Protocols |
服务器转换协议:服务器将遵从客户的请求转换到另外一种协议。 |
2xx:成功 |
|
消息 |
描述 |
200 OK |
请求成功(其后是对GET和POST请求的应答文档。) |
201 Created |
请求被创建完成,同时新的资源被创建。 |
202 Accepted |
供处理的请求已被接受,但是处理未完成。 |
203 Non-authoritative Information |
文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝。 |
204 No Content |
没有新文档。浏览器应该继续显示原来的文档。如果用户定期地刷新页面,而Servlet可以确定用户文档足够新,这个状态代码是很有用的。 |
205 Reset Content |
没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。 |
206 Partial Content |
客户发送了一个带有Range头的GET请求,服务器完成了它。 |
3xx:重定向 |
|
消息 |
描述 |
300 Multiple Choices |
多重选择。链接列表。用户可以选择某链接到达目的地。最多允许五个地址。 |
301 Moved Permanently |
所请求的页面已经转移至新的url。 |
302 Found |
所请求的页面已经临时转移至新的url。 |
303 See Other |
所请求的页面可在别的url下被找到。 |
304 Not Modified |
未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。 |
305 Use Proxy |
客户请求的文档应该通过Location头所指明的代理服务器提取。 |
306 Unused |
此代码被用于前一版本。目前已不再使用,但是代码依然被保留。 |
307 Temporary Redirect |
被请求的页面已经临时移至新的url。 |
4xx:客户端错误 |
|
消息 |
描述 |
400 Bad Request |
服务器未能理解请求。 |
401 Unauthorized |
被请求的页面需要用户名和密码。 |
401.1 |
登录失败。 |
401.2 |
服务器配置导致登录失败。 |
401.3 |
由于 ACL 对资源的限制而未获得授权。 |
401.4 |
筛选器授权失败。 |
401.5 |
ISAPI/CGI 应用程序授权失败。 |
401.7 |
访问被 Web 服务器上的 URL 授权策略拒绝。这个错误代码为 IIS 6.0 所专用。 |
402 Payment Required |
此代码尚无法使用。 |
403 Forbidden |
对被请求页面的访问被禁止。 |
403.1 |
执行访问被禁止。 |
403.2 |
读访问被禁止。 |
403.3 |
写访问被禁止。 |
403.4 |
要求 SSL。 |
403.5 |
要求 SSL 128。 |
403.6 |
IP 地址被拒绝。 |
403.7 |
要求客户端证书。 |
403.8 |
站点访问被拒绝。 |
403.9 |
用户数过多。 |
403.10 |
配置无效。 |
403.11 |
密码更改。 |
403.12 |
拒绝访问映射表。 |
403.13 |
客户端证书被吊销。 |
403.14 |
拒绝目录列表。 |
403.15 |
超出客户端访问许可。 |
403.16 |
客户端证书不受信任或无效。 |
403.17 |
客户端证书已过期或尚未生效。 |
403.18 |
在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。 |
403.19 |
不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。 |
403.20 |
Passport 登录失败。这个错误代码为 IIS 6.0 所专用。 |
404 Not Found |
服务器无法找到被请求的页面。 |
404.0 |
(无)–没有找到文件或目录。 |
404.1 |
无法在所请求的端口上访问 Web 站点。 |
404.2 |
Web 服务扩展锁定策略阻止本请求。 |
404.3 |
MIME 映射策略阻止本请求。 |
405 Method Not Allowed |
请求中指定的方法不被允许。 |
406 Not Acceptable |
服务器生成的响应无法被客户端所接受。 |
407 Proxy Authentication Required |
用户必须首先使用代理服务器进行验证,这样请求才会被处理。 |
408 Request Timeout |
请求超出了服务器的等待时间。 |
409 Conflict |
由于冲突,请求无法被完成。 |
410 Gone |
被请求的页面不可用。 |
411 Length Required |
"Content-Length" 未被定义。如果无此内容,服务器不会接受请求。 |
412 Precondition Failed |
请求中的前提条件被服务器评估为失败。 |
413 Request Entity Too Large |
由于所请求的实体的太大,服务器不会接受请求。 |
414 Request-url Too Long |
由于url太长,服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时,就会发生这种情况。 |
415 Unsupported Media Type |
由于媒介类型不被支持,服务器不会接受请求。 |
416 Requested Range Not Satisfiable |
服务器不能满足客户在请求中指定的Range头。 |
417 Expectation Failed |
执行失败。 |
423 |
锁定的错误。 |
5xx:服务器错误 |
|
消息 |
描述 |
500 Internal Server Error |
请求未完成。服务器遇到不可预知的情况。 |
500.12 |
应用程序正忙于在 Web 服务器上重新启动。 |
500.13 |
Web 服务器太忙。 |
500.15 |
不允许直接请求 Global.asa。 |
500.16 |
UNC 授权凭据不正确。这个错误代码为 IIS 6.0 所专用。 |
500.18 |
URL 授权存储不能打开。这个错误代码为 IIS 6.0 所专用。 |
500.100 |
内部 ASP 错误。 |
501 Not Implemented |
请求未完成。服务器不支持所请求的功能。 |
502 Bad Gateway |
请求未完成。服务器从上游服务器收到一个无效的响应。 |
502.1 |
CGI 应用程序超时。 · |
502.2 |
CGI 应用程序出错。 |
503 Service Unavailable |
请求未完成。服务器临时过载或当机。 |
504 Gateway Timeout |
网关超时。 |
505 HTTP Version Not Supported |
服务器不支持请求中指明的HTTP协议版本。 |