深入分析javaweb技术内幕之磁盘I/O工作机制

几种访问文件的方式

读取和写入文件I/O操作都调用操作系统提供的接口,因为磁盘设备是由操作系统管理的,应用程序要访问物理设备只能通过系统调用的方式来工作。读和写分别对应read()和write()两个系统调用。而只要是系统调用就可能存在内核空间地址和用户空间地址切换的问题,这是操作系统为了保护系统本身的运行的安全,而将内核程序运行使用的内存空间和用户程序运行的内存空间进行隔离造成的。但是这样保证了内核程序运行的安全性,但是也必然存在数据可能需要从内核空间想用户空间复制的问题。

如果遇到非常耗时的操作,如磁盘I/O,数据从磁盘复制到内核空间,然后又从内核空间复制到用户空间,将会非常缓慢。这时操作系统为了加速I/O访问,在内核空间使用缓存机制,也就是将从磁盘读取的文件按照一定的组织方式进行缓存,如果用户程序访问的是同一段磁盘地址的空间数据,那么操作系统将从内核缓存中直接取出返回给用户程序,这样可以减小I/O的响应时间。

1.标准访问文件的方式

标准访问文件的方式就是当应用程序调用read()接口时,操作系统检查在内核的高速缓存中有没有需要的数据,如果已经缓存了,那么直接从缓存中返回,如果没有,则从磁盘中读取,然后缓存在操作系统的缓存中。

写入的方式时,用户的应用程序调用write()接口将数据从用户地址空间复制到内核地址空间的缓存中。这时对用户程序来说写操作就已经完成,至于什么时候再写到磁盘中由操作系统决定,除非显式地调用了sync同步命令。

深入分析javaweb技术内幕之磁盘I/O工作机制

2.直接I/O的方式

所谓的直接I/O的方式就是应用程序直接访问磁盘数据,而不经过操作系统内核数据缓冲区,这样做的目的就是减少一次从内核缓冲区到用户程序缓存的数据复制。这种访问文件的方式通常时再对数据的缓存管理由应用程序实现的数据库管理系统中。如在数据库管理系统中,系统明确地知道应该缓存哪些数据,应该失效哪些数据,还可以对一些热点数据做预加载,提前将热点数据加载到内存,可以加速数据的访问效率。在这些情况下,如果是由操作系统进行缓存,则很难做到,因为操作系统并不知道哪些是热点数据,哪些数据可能只会访问一次就不会再访问,操作系统只是简单地缓存最近一次从磁盘读取的数据。

但是直接I/O也有负面影响,如果访问的数据不在应用程序缓存中,那么每次数据都会直接从磁盘进行加载,这种直接加载会非常缓慢。通常直接I/O与异步I/O结合使用,会得到比较好的性能。

深入分析javaweb技术内幕之磁盘I/O工作机制


3.同步访问文件的方式

同步访问文件的方式比较容易理解,就是数据的读取和写入都是同步操作的,它与标准访问文件的方式不同的是,只有当数据被成功写到磁盘时才返回给应用程序成功的标识。

这种访问文件的方式性能比较差,只有在一些对数据安全性要求比较高的场景中才会使用,而且通常这种操作方式的硬件都是定制的。

4.异步访问文件的方式

异步访问文件的方式就是当访问数据的线程发出请求后,线程会接着去处理其他事情,而不是阻塞等待,当请求的数据返回后继续处理下面的操作。这种访问文件的方式可以明显地提高应用程序的效率,但是不会改变访问文件的效率。

深入分析javaweb技术内幕之磁盘I/O工作机制

5.内存映射的方式
内存映射的方式是指操作系统将内存中的某一块区域与磁盘中的文件关联起来,当要访问内存中的一段数据时,转换为访问文件的某一段数据。这种方式的目的同样是减少数据从内核空间缓存到用户空间缓存的数据复制操作,因为这两个空间的数据是共享的。(备注:作者看了下内存映射的文章,感觉内存映射的方式与直接I/O的方式没有太大区别,这里博主本人也没理解透彻)

2.2.2 Java访问磁盘文件

我们知道,数据在磁盘中的唯一最小描述就是文件,也就是说上层应用程序只能通过文件来操作磁盘上的数据,文件也是操作系统和磁盘驱动器交互的最小单元。值得注意的是,在Java中通常的File并不代表一个真是存在的文件对象,当你指定一个路径描述符时,它就会返回一个代表这个路径的虚拟对象,这个可能是一个真实存在文件或者是一个包含多个文件的目录。为何要这样设计呢?因为在大多数情况下,我们并不关心这个文件是否真的存在,而是关心对这个文件到底如何操作。例如,在我们的手机里通常存了几百个朋友的电话号码,但是我们关心的是我有么有这个朋友的电话号码,或者这个电话号码是什么,至于这个电话号码到底能不能用,也就是说使用这个电话记录要比大这个电话的次数多很多。

何时会真正检查一个文件存不存在?就是在真正需要读取这个文件时,例如,FileInputStream类都是操作一个文件的接口,注意到在创建一个FileInputStream对象时会创建一个FileDescriptor对象,其实这个对象就是真正代表一个存在的文件对象的描述。当我们操作一个文件对象时可以通过getFD()方法获取真正操作的与底层操作系统相关联的文件描述。例如,可以调用FileDescriptor.sync()方法将操作系统缓存中的数据强制刷新到屋里磁盘中。

下面以前面读取文件的程序为例介绍如何从磁盘读取一段文本字符,如图2-12所示。

当传入一个文件路径时,将会根据这个路径创建一个File对象来标识这个文件,然后根据这个File对象创建真正读取文件的操作对象,这时将会真正创建一个关联真实存在的磁盘文件的文件描述符FileDescriptor,通过这个对象可以直接控制这个磁盘文件。由于我们需要读取的是字符格式,所以需要StreamDecoder类将byte解码为char格式。至于如何从磁盘驱动器上读取一段数据集,操作系统会帮我们完成。至于操作系统是如何将数据持久化到磁盘及如何建立数据结构的,需要根据当前操作系统使用何种文件系统来回答。

深入分析javaweb技术内幕之磁盘I/O工作机制