Py-plug-in (HTTP服务器)

HTTP基本框架

主要学习以下几个部分

启动服务器主要流程(HttpServer)

创建 tcp socket(socket)
绑定端口号(bind)
监听 socket 套接字
进入事件循环
1. 获得 new socket(accept)
2. 使用多个线程处理多个连接的并行操作(pthread_create),为了避免形成类似于僵尸进程,也为了不使进程因为等待阻塞,使用 pthread_detach 使线程结束后自动释放资源
3. 处理请求(HandlerRequest),给出响应

处理请求主要流程(HandlerRequest)

解析
- Http请求是行文本格式,这里按照行方式从 socket 中读取首行(ReadLine)
- 解析首行(ParseFirstLine),得到对应的方法(mathod)和url
- 解析url中的QueryString(ParseQueryString)
- 读取并解析 header 部分(Handlerheader),取出有用的字段(Content-Length)
根据请求详情决定执行动态逻辑还是静态逻辑
- 如果是 GET 请求,并且没有 query_string - 静态逻辑(HandlerstaticFile)
- 如果是 GET 请求,并且有 query_string - 动态逻辑(HandlerCGI)
- 如果是 POST 请求 - 动态页面(HandlerCGI)

静态页面主要流程(HandlerstaticFile)

根据解析出的 url_path,获取到对应的真是文件路径
- 为当前的 url_path 前拼接上自己的根目录,这里叫 static
- 当 url_path 最后一个字符是 '/' ,表示当前访问的是一个目录,那就为这个路径后拼接上默认的页面,这里叫 index.html
- 如果最后一个字符不是 '/',但是访问的还是一个目录,那就为这个路径后拼接上 '/index.html'
读取文件内容,并写入 socket
- 构造 Http 响应,四部分(首行,Header,空行,Body)

动态页面处理流程(HandlerCGI)

Py-plug-in (HTTP服务器)

父进程逻辑(HandlerFather)

子进程逻辑(HandlerChild)

设置环境变量,这里是简化了进程间通信
- 设置 REQUEST_METHOD
- 如果是 GET 请求,就设置 QUERY_STRING
- 如果是 POST 请求,就设置 CONTENT_LENGTH
将标准输入输出都重定向到管道中
- dup2(child_read,0)
- dup2(child_write,1)
进行程序替换(execl)

理解 CGI

CGI(Common Gateway Interface) 是WWW技术中最重要的技术之一，有着不可替代的重要地位。CGI是外部应用程序（CGI程序）与WEB服务器之间的接口标准，是在CGI程序和Web服务器之间传递信息的过程。

这里为了练习 Python 的使用,我的 CGI 程序都是使用 Python 完成的,可能有些人会有疑惑,为什么服务器的 CGI 是用 C/C++ 写,而这里的 CGI 使用 Python写的?

注意，http提供CGI机制，和 CGI程序是两码事，所以,理论上 CGI程序你用什么编程语言写都可以,只要是可执行文件,就 OK 了

Python数据库操作

和服务器交互

上面我们说过,在子进程逻辑中,我们将子进程的输入输出都重定向到管道里,子进程进行了程序替换,那么当然,这里的 CGI 程序也就是替换以后的子进程,而 CGI程序的标准输出已被重定向至管道中,所以当我们进行 print 操作时,实质上就是向管道中写数据,再被父进程读取到 socket 中

所以我们可以通过标准输出的方式构造 HTTP响应

这个程序中有很多可能会出问题的点

这些失败了,我们都做一个简单处理,就是返回 404 响应

Py-plug-in (HTTP服务器)

需要注意的点

Py-plug-in (HTTP服务器)

按行读取的时候(ReadLind),网络中的回车换行符可能有 \n,\r, \n\r,三种情况需要全部考虑到
解析请求时,用到了 Split 函数,其实现就是按照特定的字符分隔字符串,但是注意,这个函数里千万不要使用 strtok 来实现分隔,因为他是线程不安全的!因为他是线程不安全的!!因为他是线程不安全的!!!我们替换成 strtok_r 就好了
在解析 Header 的时候,如果我们已经得到我们需要的字段,比如 Content-Length 之后,不可以跳出循环,我们必须把接受缓冲区的数据全部读完,避免粘包问题!避免粘包问题!!避免粘包问题!!!
当我们向一个 socket 中写数据的时候,可以使用 sendfile 函数,这个函数的优点是直接从内核中将一个文件的内容写到 socket 中,不经过内核态,大大提高效率
处理父进程逻辑的之前, 必须将子进程对应的管道关掉,因为读取子进程的时很有可能读失败,如果操作系统发现当前管道还有一个读端,就会阻塞,直到读端关闭,而子进程已经读取失败,即子进程异常,就无法去关闭这个文件标识符,导致一直阻塞