UNIX环境高级编程笔记之高级I/O
UNIX环境高级编程笔记之高级I/O
本章说明了很多高级I/O功能:
非阻塞I/O——发一个I/O操作,不使其阻塞,记录锁,STREAMS机制
I/O多路转接——select和poll函数
readv和writev函数,以及存储映射I/O(mmap函数)
UNIX环境高级编程笔记之标准I/O库
一、总结
文件I/O一章讲了不带缓冲的I/O,本章讲的是带缓冲的I/O。不带缓冲针对的是内核的系统调用,而带缓冲针对的是用户空间的标准库函数,是基于带缓冲的I/O实现的。不带缓冲的I/O通过文件描述符的方式来引用一个文件,而带缓冲的I/O则通过文件流(stream)的方式来引用文件。至于为什么要用流的方式,原因就是带缓冲区,这样文件的读写就要经过缓冲区做缓冲,就像水流一样。
引入标准IO库的目的是为了提高IO的效率,避免频繁的进行read/write系统调用,而系统调用会消耗较多的资源。因此标准IO库引入了IO缓存,通过累积一定量的IO数据后,然后集中写入到实际的文件中来减少系统调用,从而提高IO效率。标准IO库会自动管理内部的缓存,不需要程序员介入。然而,也正是因为我们看不到标准IO库的缓存,有时候会给我们带来一定的迷惑性。
缓冲区的类型分为三种:
1)全缓冲:在填满标准I/O缓冲区后才进行实际I/O操作,对于磁盘上的文件通常是由标准I/O库实施全缓冲的,在一个流上执行第一次I/O操作时,相关标准I/O函数通常调用malloc等函数来获得所需的缓冲区。
2)行缓冲:这种情况下,当在输入输出中遇到换行符时,标准I/O库执行I/O操作,因此,当涉及终端设备交互时,才使用行缓冲。
3)不带缓冲:即标准I/O库不对字符进行缓冲存储,那么这种情况就直接调用的是read、write等系统调用函数。这种情况一般用在需要对输入输出及时响应的情况下,如标准出错流stderr通常是不带缓冲的。
二、看图说话
UNIX环境高级编程笔记之文件I/O
一、总结
在写之前,先唠几句,《UNIX环境高级编程》,简称APUE,这本书简直是本神书,像我这种小白,基本上每看完一章都是“哇”这种很吃惊的表情。其实大概三年前,那会大三,我就买了这本书,也看过一些,但好像没有留下什么印象,今天再看,依然觉得像新的一样。很大的原因我想是一直以来都在用windows(用windows做开发为什么学不到真正的技术,我想大家都懂的),当然知识结构不完整,学习能力这些就不说了。所以,对于那些致力于想在Linux下做开发的人来说,这本说一定是强推的。
如果你分得清write和发fwrite,read和fread这些函数的区别,那这章也许就对你没什么吸引力了。本人之前面试腾讯,也被问到这个问题,当时胡乱瞎扯了一通,也真是囧。
这章大体上讲了两件事:1)什么是不带缓冲的I/O;2)如何在多个进程间共享文件。作为总结,我用自己的话简单说一下这两个问题,详细的内容可以看上面这幅图。
对于第一个问题,不带缓冲指的是每个read和write这些文件I/O操作都调用的是系统调用,属于内核态的操作。而诸如fread和fwrite这些标准I/O操作属于用户态操作,具体是库函数的实现,需要借助用户缓冲区来实现(关于用户态和内核态的理解请看Linux探秘之用户态与内核态)。所以,不带缓冲是相对带用户缓冲区来说的(如果只从字面上理解缓冲,其实文件I/O也是带缓冲的,只不过内核缓冲区,具体后面开一篇博客来讲)
对于第二个问题,文件的共享需要让多个文件间扯上关系,不然也没辙。UNIX使用三种数据结构(进程表项,文件表项和V-Node节点表项)来表示一个打开的文件,如下图。这样当多个进程访问一个文件,只用新建一个进程表项,然后引用对应的文件即可。其中存在着:一个进程对应一个独立的文件表项,一个文件仅有一个V-Node表项。
因为一个文件仅有一个V-Node表项,所以,为了保证文件在多个进程间共享,需要谨慎处理好文件的一致性。比如两个进程A和B要写数据到一个文件,一般调用的是lseek和write这两个函数,首先A lseek写入的位置(如1500),然后转到B 也lseek到1500,又转到A开始write 100个字节,文件长度变为1600个字节,又转到B,但B此时从第1500个字节处开始write,这就造成写文件错误。因此,对于这样的多个操作造成文件共享信息的不一致,UNIX给出的解决方案是原子操作,对于上面这种情况的一个解决方案是使用open+O_APPEND组合的原子操作。
二、看图说话
一图胜过千言,看图!