Linux5大IO模型

1、概念理解:

在进行网络编程时,我们常常见到同步(Sync)/异步(Async),阻塞(Block)/非阻塞(Unblock)四种调用方式。
1、同步:所谓同步,就是在发出一个功能调用时,在没有得到结果之前,该调用就不返回。也就是必须一件一件事做,等前一件做完了才能做下一件事。就是我调用一个功能,该功能没有结束前,我死等结果。

2、异步:当一个异步过程调用发出后,调用者不能立刻得到结果。实际处理这个调用的部件在完成后,通过状态、通知和回调来通知调用者。就是我调用一个功能,不需要知道该功能结果,该功能有结果后通知我(回调通知)

3、阻塞:阻塞调用函数是指调用结果返回之前,当前线程会被挂起,函数只有在得到结果之后才会返回。也许会把阻塞调用和同步调用等同起来,实际上他是不同的。对于同步调用来说,很多时候当前线程还是**的,只是从逻辑上当前函数没有返回而已。 例如,我们在socket中调用recv函数,如果缓冲区中没有数据,这个函数就会一直等待,直到有数据才返回。而此时,当前线程还会继续处理各种各样的消息。
4、非阻塞:非阻塞和阻塞的概念相对应,指在不能立刻得到结果之前,该函数不会阻塞当前线程,而会立刻返回。通过select或poll或epoll通知调用者。

同步IO和异步IO的区别就在于:数据拷贝的时候进程是否阻塞。
阻塞IO和非阻塞IO的区别就在于:应用程序的调用是否立即返回。

2、Linux下5大IO模型:

阻塞I/O(blocking I/O),非阻塞I/O (nonblocking I/O),I/O复用(select 和poll) (I/O multiplexing)、信号驱动I/O (signal driven I/O (SIGIO))、异步I/O (asynchronous I/O (the POSIX aio_functions))。前4种是同步的后一种的异步的。
首先明白一个输入操作通常包含两个过程:等待数据准备好,从内核向进程复制数据。对于套接字上的输入操作,第一步涉及等待数据从网络中到达,被复制到内核中的某个缓冲区;第二步就是从内核缓冲区拷贝进应用进程缓冲区。

1、阻塞IO:

简介:进程会一直阻塞,直到数据拷贝完成。应用程序调用一个IO函数,导致应用程序阻塞,等待数据准备好。 如果数据没有准备好,一直等待….数据准备好了,从内核拷贝到用户空间,IO函数返回成功指示。
阻塞I/O模型图:在调用recv()/recvfrom()函数时,发生在内核中等待数据和复制数据的过程。
Linux5大IO模型

套接字是网络通信过程中端点的抽象表示,包含进行网络通信必需的五种信息:连接使用的协议,本地主机的IP地址,协议端口,远地主机的IP地址,远地进程的协议端口,通过返回描述符访问套接字。
套接字是通信的抽象,应用程序通过套接字描述符访问套接字,通过对应的一组API完成网络编程任务。
当调用recv()函数时,系统调用直到数据报到达内核并且拷贝到应用程序空间或被系统信号中断才返回,否则进程阻塞于此。一般系统调用都会使引用程序从用户空间切换到内核空间,当对应的条件满足才切换回用户空间。
当使用socket()函数创建套接字时,默认的套接字都是阻塞的,也就是说socket函数不能立即返回,线程处于等待状态,,直到操作完成。
并不是所有的以阻塞套接字为参数调用都会发生阻塞以下分为4种类:

  • 1、输入操作: recv()、recvfrom()函数。以阻塞套接字为参数调用该函数接收数据。如果此时套接字缓冲区内没有数据可读,则调用线程在数据到来前一直睡眠。
  • 2、输出操作: send()、sendto()函数。以阻塞套接字为参数调用该函数发送数据。如果套接字缓冲区没有可用空间,线程会一直睡眠,直到有空间。
  • 3、接受连接:accept()函数。以阻塞套接字为参数调用该函数,等待接受对方的连接请求。如果此时没有连接请求,线程就会进入睡眠状态。
  • 4、外出连接:connect()函数。对于TCP连接,客户端以阻塞套接字为参数,调用该函数向服务器发起连接。该函数在收到服务器的应答前,不会返回。这意味着TCP连接总会等待至少到服务器的一次往返时间。

使用阻塞模式的套接字,开发网络程序比较简单,容易实现。当希望能够立即发送和接收数据,且处理的套接字数量比较少的情况下,使用阻塞模式来开发网络程序比较合适。

2、非阻塞I/O模型:

创建socket套接字并返回对应的文件描述符。
简介:非阻塞IO通过进程反复调用IO函数(轮询,多次系统调用,并马上返回);在数据拷贝的过程中,进程是阻塞的;
我们把一个SOCKET接口设置为非阻塞就是告诉内核,当所请求的I/O操作无法完成时,不要将进程睡眠,而是返回一个错误(EWOULDBLOCK)。这样我们的I/O操作函数将不断的测试数据是否已经准备好,如果没有准备好,继续测试,直到数据准备好为止。在这个不断测试的过程中,会大量的占用CPU的时间。
把SOCKET套接字设置为非阻塞模式,即通知系统内核。不要让线程睡眠,而应该让函数立即返回。在返回时,该函数返回一个错误代码
ewouldblock
一个非阻塞模式套接字多次调用recv()函数的过程。前三次调用recv()函数时,内核数据还没有准备好。因此,该函数立即返回EWOULDBLOCK错误代码。第四次调用recv()函数时,数据已经准备好,被复制到应用程序的缓冲区中,recv()函数返回成功指示,应用程序开始处理数据。
当使用socket()函数创建套接字时(返回套接字对应的文件描述符),默认都是阻塞的。套接字设置为非阻塞模式后,调用函数会立即返回。大多数情况下,这些函数调用都会调用“失败”,并返回错误代码。说明请求的操作在调用期间内没有时间完成。通常,应用程序需要重复调用该函数,直到获得成功返回代码。Libevent里面全部都是设定非阻塞套接字。
Linux5大IO模型

3、I/O复用模型:

简介:主要是select和epoll;对一个IO端口,两次调用,两次返回,比阻塞IO并没有什么优越性;关键是能实现同时对多个IO端口进行监听;

调用阻塞在系统调用selcte上,而不是在recv真正得IO调用上面,内核数据准备好了,通知引用程序,然后调用recv将数据从内核空间拷贝到用户空间处理。
Linux5大IO模型

4、信号驱动式I/O模型:

使用信号,让内核在描述符准备就绪的时候发送SIGIO信号通知我们,然后在信号回调函数里面,将数据拷贝到用户空间。
Linux5大IO模型
首先开启套接字的信号驱动I/O功能,并安装一个信号处理函数,进程继续运行并不阻塞。当数据准备好读取,进程会收到一个SIGIO信号,可以在信号处理函数中调用I/O操作函数处理数据,并通知主循环数据已准备好。请读取。

5、异步I/O模型:

调用aio_read读取,这些函数的工作机制是:告知内核启动某个操作,并让内核在整个操作(包括将数据从内核复制到我们自己的缓冲区)完成后通知我们。信号驱动式是有了内核缓冲区有了数据,才发出信号让我们调用IO函数去读。而这个就是数据有了将其已经复制到了应用程序,然后通知我们,我们直接处理就可以了,不需要再次调用IO从缓冲区读到用户空间。
Linux5大IO模型
Aio_read,传递描述符,缓冲区指针和大小以及文件偏移,并告诉内核完成后以何种方式通知我们。该系统调用立即返回,等待IO期间,进程不阻塞。上述设置成了完成之后,用信号通知我们处理。该信号直到数据复制到了应用进程缓冲区才产生。
异步IO将两步合并为一步操作,并通知用户进程。‘
信号驱动式:内核缓冲区有了数据,发出信号,用户调用IO从内核缓冲区读到用户缓冲区,还是分了两步。

6、5大I/O模型比较

Linux5大IO模型