linux五种IO模型性能分析

一、概念理解

linux中IO的类型分为四类：同步（sync）和异步（async）,阻塞（block）和非阻塞（unblock）

同步：发出一个功能调用时，在没有得到结果前会一直等待，直到返回结果。

异步：当异步过程调用发出后，调用者不能立刻得到结果。在完成后，通过通知机制或回调函数来通知调用者

阻塞：调用结果返回前，当前线程会被挂起（线程进入非可执行状态，在这个状态下，CPU不会给线程分配时间片，即线程暂停运行）。函数只有在得到结果后才返回

注意：同步和阻塞是不同的，对同步调用，线程是激活的，当调用者等待的时候，线程还可以处理其它请求，而阻塞线程是会挂起的，是不会处理其它请求的。

非阻塞：在结果返回前，函数不会阻塞当前线程，而会立刻返回

同步IO和异步IP的区别在于：数据拷贝的时候进程是否阻塞。

阻塞IO和非阻塞IO的区别在于：应用程序的调用是否立即返回

二、linux下的五种I/O模型

1、阻塞I/O (blocking I/O)

2、非阻塞I/O (nonblocking I/O)

3、I/O 复用 (I/O multiplexing)

4、信号驱动I/O (signal driven I/O (SIGIO))

5、异步I/O (asynchronous I/O)

前四种都是同步，只有最后一种才是异步IO

阻塞IO模型：

进程会一直阻塞，直到数据拷贝完成

应用程序调用一个IO函数，导致应用程序阻塞，等待数据准备好。数据准备好后，从内核拷贝到用户空间，IO函数返回成功指示。阻塞IO模型图如下所示：

非阻塞IO模型

通过进程反复调用IO函数，在数据拷贝过程中，进程是阻塞的。模型图如下所示

IO复用模型

主要是select和epoll，对一个IO端口，两次调用，两次返回，关键能实现同时对多个IO端口进行监听。模型如下所示

信号驱动IO

两次调用，再次返回

首先我们允许套接口进行信号驱动IO，并安装一个信号处理函数，进程继续运行并不阻塞。当数据准备好时，进程会收到一个SIGIO信号，可以在信号处理函数中调用IO函数处理数据，模型如下所示

异步IO模型

数据拷贝时进程无阻塞，模型如下所示

5个IO模型的比较

如果这种模型难以理解，笔者利用去饭馆吃面做解释，有不符合的地方请谅解：

blocking IO:去饭馆点过面后，一直要在饭馆等待面做好

nonblocking IO:去饭馆点过面后，可以出去，但不知道什么时间面才好，要过1分钟来看下，处于忙等待，其它什么事也做不了。

multiplexing IO:这里相当于饭馆加了一个服务员，去饭馆点面不用知会老板，而是知会服务员，知会后在店里等待服务员通知面做好，在等待这段时间内，服务员也可以招待其它人员。服务员通知面做好了，自己把面端过来

signal-driven IO:在饭馆点过面后，可以出去，等面做好了，老板会打电话通知，但是面还是要自己端过来

asynchronous IO:去饭馆点过面后，可以出去，出去前指定自己坐哪个位置，等面做好了，老板会把面端到你指定的位置，再打电话通知你

三、select、poll、epoll简介

epoll是linux所特有，而select是POSIX所规定，一般操作系统均有实现。

select：查找

select本质是通过设置或检查存放fd标志位的数据结构来进行下一步处理。缺点是：

1、单个进程可监视的fd数量被限制，即能监听端口的大小有限。

一般来说和系统内存有关，具体数目可以cat /proc/sys/fs/file-max察看。32位默认是1024个，64位默认为2048个

2、对socket进行扫描时是线性扫描，即采用轮询方法，效率低。

当套接字比较多的时候，每次select()都要遍历FD_SETSIZE个socket来完成调度，不管socket是否活跃都遍历一遍。会浪费很多CPU时间。如果能给套接字注册某个回调函数，当他们活跃时，自动完成相关操作，就避免了轮询，这正是epoll与kqueue做的

3、需要维护一个用来存放大量fd的数据结构，会使得用户空间和内核空间在传递该结构时复制开销大

poll：

poll本质和select相同，将用户传入的数据拷贝到内核空间，然后查询每个fd对应的设备状态，如果设备就绪则在设备等待队列中加入一项并继续遍历，如果遍历所有fd后没有发现就绪设备，则挂起当前进程，直到设备就绪或主动超时，被唤醒后又要再次遍历fd

它没有最大连接数的限制，原因是它是基于链表来存储的，但缺点是：

1、大量的fd的数组被整体复制到用户态和内核空间之间，不管有无意义。

2、poll还有一个特点“水平触发”，如果报告了fd后，没有被处理，那么下次poll时再次报告该ffd。

epoll：

epoll支持水平触发和边缘触发，最大特点在于边缘触发，只告诉哪些fd刚刚变为就绪态，并且只通知一次。还有一特点是，epoll使用“事件”的就绪通知方式，通过epoll_ctl注册fd，一量该fd就绪，内核就会采用类似callback的回调机制来激活该fd，epoll_wait便可以收到通知。

epoll的优点：

1、没有最大并发连接的限制

2、效率提升，只有活跃可用的FD才会调用callback函数

3、内存拷贝，利用mmap()文件映射内存加速与内核空间的消息传递。

select、poll、epoll区别总结：

1、支持一个进程打开连接数

select：32位机器1024个，64位2048个

poll：无限制，原因基于链表存储

epoll：有上限，但很大，2G内存20W左右

2、IO效率

select：IO效率低

poll：IO效率低

epoll：只有活跃的socket才调用callback，IO效率高。

3、消息传递方式

select：内核需要将消息传递到用户空间，都需要内核拷贝动作

poll：同上

epoll：通过内核与用户空间共享一块内存来实现。

linux五种IO模型性能分析

dexcoder