Linux中的Ext2、ext3、ext4文件系统如何对磁盘中的文件进行存储和管理

本文出自 “Pavel” 博客,请务必保留此出处http://pavel86.blog.51cto.com/8349178/1688277

Ext2文件系统

Ext2文件系统中将磁盘分区划分为两个主要区域: 元数据区(matadata area)和数据区(data area). 其中元数据区用于存放文件的属主, 属组, 访问权限, 时间戳以及文件系统数据和元数据分配信息等相关属性信息, 数据区用于存放文件中的真实数据.

由于现在的物理磁盘的容量大小越来越大, 存储的数据越来越多, 在读取和写入文件有时需要遍历整个磁盘空间, 非常消耗时间, 因此在磁盘分区上创建文件系统时会先将磁盘划分为多个块组(block group), 每个块组中有各自的元数据区和数据区, 并对他们进行独立自治. 文件系统的逻辑结构如下图所示:

Linux中的Ext2、ext3、ext4文件系统如何对磁盘中的文件进行存储和管理

其中的 boot block 分区是指文件系统的启动扇区, 可以用于安装引导程序而不需要占用硬盘上唯一的MBR区域, 主要用于多操作系统主机上.

块组的内部逻辑结构如下图所示:

Linux中的Ext2、ext3、ext4文件系统如何对磁盘中的文件进行存储和管理

由上图所示可以看到块组中元数据区和数据区的逻辑结构.

数据区

数据区结构比较单一, 由许多大小相同的数据块(block)组成, 数据块的大小规格分别有: 1KB, 2KB, 4KB. 数据块的大小是在文件系统格式化后就固定的, 此后无法再进行修改. 对于目录来说, 数据块用于存储该目录下的文件名与该文件的inode号; 对于文件来说, 数据块用于存储文件中的数据. 因为数据块大小能够决定文件系统中存储的单个最大文件的大小, 而且块大小与主机承载业务类型有很大关系, 因此在设置数据块大小时应根据具体问题具体分析.

元数据区

元数据区主要有Super Block(超级块), FSD(文件系统描述说明), inode table(inode表), inode bitmap(inode位图)和block bitmap(数据块位图) 5部分组成.

1. Super Block(超级块)

超级块用于描述整个文件系统的元数据信息: block大小, block和inode的总量,空闲量,占用量, 文件系统的挂载和检测时间等信息, 超级块对于整个文件系统都是至关重要的, 因此会在多个随机的块组中备份超级块.

2. FSD(文件系统说明)

文件系统说明用于描述当前块组的元数据信息, 比如块组区间占用的block的编号范围.

3. inode table(inode表)

inode表存放的是每个文件自己的inode条目, 每个inode条目的大小是固定的128KB, 该条目中主要含有对应文件的两类信息: 文件的元数据信息和文件的数据块指针.

3-1. 文件的元数据信息主要有: 文件的属主, 属组, 访问权限, 时间戳等相关属性.

3-2. 文件的数据块指针用于存放该文件存储数据的block块的地址信息, 1个inode条目中含有4类指针: 12个直接指针, 1个间接指针, 1个二级间接指针和1个三级间接指针.其中直接指针可以直接指向block数据块, 间接指针指向一个数据块之后, 再由该数据块来指向更多的block数据块来获取更多数据块空间存储文件数据, 二级间接指针和三级间接指针以此类推. 每个block本身的地址标号会占用对应指针4B的存储空间, 因此不同的block块大小, 能存储的单个最大文件大小也不相同.

以block块大小为1KB为例:

12个直接指针可以指定的block存储空间为: 12x1KB=12KB;

1个间接指针可以指定的block存储空间为: 1KB/4BX1KB=256X1KB=256KB

1KB/4BX1KB/4BX1KB=256X256X1KB=65536KB

1KB/4BX1KB/4BX1KB/4BX1KB=256X256X256X1KB=16777216KB

单个文件总大小为: 48+256+65536+16777216KB=16843020KB=16.06GB

# 因为大于2KB的block会受到ext2文件系统本身的限制, 该计算方式不适用于block为2KB或4KB大小的block.

4. inode bitmap(inode位图)

inode位图使用每个Byte中的单个位用于描述对应位置的indoe条目是否空闲, 主要作用是便于查询空闲的inode条目和遍历整个inode条目空间.

5. block bitmap(block位图)

block位图原理与inode位图原理类似, 主要作用是便于查询空间的inode条目和遍历整个inode条目空间.

以上就是Ext2文件系统的逻辑结构.

 

=============================================================

 

Ext3文件系统

Ext3文件系统会将磁盘分区划分为3种区域: 元数据区, 数据区和日志区域, 其中(journal area)日志区域是Ext3文件系统和Ext2文件系统的最大区别, 如下图所示:

 

Linux中的Ext2、ext3、ext4文件系统如何对磁盘中的文件进行存储和管理

 

日志区域的主要功能是临时缓存正在进行I/O操作的文件的元数据信息, 当该文件正确传输完成后, 该文件系统就会将临时缓存的元数据信息存储至文件系统的元数据区中. 日志区域的最大优点是对于执行I/O操作的文件信息发生故障时, 文件系统不需要遍历整个文件系统的元数据区来查找发生故障的block数据块信息, 只需要查找日志区域中临时缓存的元数据即可, 大大缩短了查询时间.

Ext3文件系统的元数据区和数据区的结构和功能与Ext2文件系统相同, 此处就不再复述.

EXT3与EXT4的主要区别 

Linux kernel自2.6.28开始正式支持新的文件系统 Ext4。 Ext4是Ext3的改进版,修改了Ext3中部分重要的数据结构,而不仅仅像Ext3对Ext2那样,只是增加了一个日志功能而已。Ext4 可以提供更佳的性能和可靠性,还有更为丰富的功能: 

1.与Ext3兼容

   执行若干条命令,就能从Ext3在线迁移到Ext4,而无须重新格式化磁盘或重新安装系统。原有Ext3数据结构照样保留,Ext4作用于新数据,当然,整个文件系统因此也就获得了Ext4所支持的更大容量。 

2.更大的文件系统和更大的文件

   较之Ext3目前所支持的最大16TB文件系统和最大2TB文件,Ext4分别支持1EB(1,048,576TB,1EB=1024PB,1PB=1024TB)的文件系统,以及16TB 的文件。

3.无限数量的子目录

   Ext3目前只支持32,000个子目录,而Ext4支持无限数量的子目录。 

4.Extents

   Ext3采用间接块映射,当操作大文件时,效率极其低下。比如一个 100MB 大小的文件,在Ext3中要建立25,600个数据块(每个数据块大小为 4KB)的映射表。而Ext4引入了现代文件系统中流行的extents概念,每个 extent 为一组连续的数据块,上述文件则表示为“该文件数据保存在接下来的25,600个数据块中”,提高了不少效率。 

5.多块分配

   当写入数据到 Ext3 文件系统中时,Ext3 的数据块分配器每次只能分配一个 4KB 的块,写一个 100MB 文件就要调用 25,600 次数据块分配器,而 Ext4 的多块分配器“multiblock allocator”(mballoc) 支持一次调用分配多个数据块。 

6.延迟分配

   Ext3的数据块分配策略是尽快分配,而 Ext4 和其它现代文件操作系统的策略是尽可能地延迟分配,直到文件在 cache 中写完才开始分配数据块并写入磁盘,这样就能优化整个文件的数据块分配,与前两种特性搭配起来可以显著提升性能。 

7.快速 fsck

   以前执行 fsck 第一步就会很慢,因为它要检查所有的 inode,现在 Ext4 给每个组的 inode 表中都添加了一份未使用 inode 的列表,今后 fsck Ext4 文件系统就可以跳过它们而只去检查那些在用的 inode 了。 

8.日志校验

   日志是最常用的部分,也极易导致磁盘硬件故障,而从损坏的日志中恢复数据会导致更多的数据损坏。Ext4的日志校验功能可以很方便地判断日志数据是否损坏,而且它将Ext3 的两阶段日志机制合并成一个阶段,在增加安全性的同时提高了性能。 

9.“无日志”(No Journaling)模式

   日志总归有一些开销,Ext4允许关闭日志,以便某些有特殊需求的用户可以借此提升性能。 

10.在线碎片整理

   尽管延迟分配、多块分配和extents能有效减少文件系统碎片,但碎片还是不可避免会产生。Ext4支持在线碎片整理,并将提供e4defrag工具进行个别文件或整个文件系统的碎片整理。 

11.inode 相关特性

   Ext4支持更大的inode,较之Ext3默认的inode大小128字节,Ext4为了在 inode 中容纳更多的扩展属性(如纳秒时间戳或inode版本),默认inode大小为256字节。Ext4 还支持快速扩展属性(fast extended attributes)和inode保留(inodes reservation)。 

12.持久预分配(Persistent preallocation)

   P2P软件为了保证下载文件有足够的空间存放,常常会预先创建一个与所下载文件大小相同的空文件,以免未来的数小时或数天之内磁盘空间不足导致下载失败。 Ext4在文件系统层面实现了持久预分配并提供相应的API(libc 中的 posix_fallocate()),比应用软件自己实现更有效率。 

13.默认启用 barrier

   磁盘上配有内部缓存,以便重新调整批量数据的写操作顺序,优化写入性能,因此文件系统必须在日志数据写入磁盘之后才能写commit记录,若commit 记录写入在先,而日志有可能损坏,那么就会影响数据完整性。Ext4默认启用barrier,只有当barrier之前的数据全部写入磁盘,才能写barrier之后的数据。(可通过“mount -o barrier=0″命令禁用该特性。)