文章目录

1. 为什么会有分页机制？
2. 从虚拟地址到物理地址
3. 简单的分页模型
4. 页表和页目录

4.1 层次化的分页结构
4.2 页表
4.3 页目录

5. 地址变换的具体过程

1. 为什么会有分页机制？

有些资料说是为了实现“虚拟内存”，真的是这样吗？如果没有分页机制，能否实现“虚拟内存”？答案是肯定的。

当同时运行的任务很多时，内存可能就不够用。

x86分页机制详解

如图所示，每个段描述符都有 AVL 位（简称 A 位），用于表示一个段最近是否被访问过（准确地说是表明从上次操作系统清零该位后一个段是否被访问过）。

当创建描述符的时候，应该把 A 位清零。之后，每当该段被访问时，准确地说是处理器把这个段的段选择符加载进段寄存器时，CPU 就将该位置“1”；对该位的清零是由操作系统负责的，通过定期监视该位的状态，就可以统计出该段的使用频率（比如，每 1 秒钟查看一次，一旦置位就清零，统计 10 秒钟内被置位了多少次，次数越多说明使用越频繁）。当内存空间紧张时，可以把不经常使用的段退避到硬盘上，从而实现虚拟内存管理。

当某个段被换出到磁盘时，操作系统应该将这个段的描述符的 P 位清零。过上一段时间，当再次访问这个段时，因为它的描述符的 P 位是 0，处理器就会引发段不存在异常（中断号 11）。这类中断通常是由操作系统处理的，它会用同样的方法腾出空间，然后把这个段从磁盘调入内存。当这类中断返回时，处理器会再次执行引发异常的那条指令，这时候段已经在内存中（P=1），于是程序又可以继续执行了。

由此可见，即使没有分页机制，利用“分段”也可以实现“虚拟内存”。

但是，因为段的长度不固定，在段的换入换出时会产生外部碎片，这样就浪费了很多内存。为了解决这个问题，从 80386 处理器开始，引入了分页机制。分页机制简单来说，是用长度固定的页来代替长度不定的段，以解决因段的长度不同带来的内存空间管理变得复杂的问题。

尽管操作系统也可以利用纯软件来实施固定长度的内存分配，但是过于复杂。由处理器固件来做这件事情，可以省去很多麻烦，速度也可以提高。

总结一下，引入分页机制并不是为了实现虚拟内存，而是为了解决内存碎片的问题。

2. 从虚拟地址到物理地址

分页机制是 80x86 内存管理机制的第二部分。分段机制把逻辑地址转换成线性地址，而分页机制则把线性地址转换成物理地址。
x86分页机制详解

分页机制会把线性地址空间（段已映射到其中）划分成页面，然后这些线性地址空间的页面被映射到物理地址空间的页面上。如下图所示：

x86分页机制详解
80x86 使用 4K（2 的 12 次方）字节固定大小的页面。每个页面均是 4KB，且对齐于 4K 地址边界处（地址的低 12 位全是 0）。

3. 简单的分页模型

4GB（2 的 32 次方）的线性地址空间可以划分为 1048576（= 2 的 20 次方，即 1M）个页面。为了根据线性地址找到对应的物理地址，操作系统必须维护一张表（如下图所示）。

x86分页机制详解
这个表暂且叫做“页映射表”，它一共有 1048576 个表项，每个表项占 4 个字节，其内容是某个页的起始物理地址（共 32 比特，低 12 位全为 0）。

页映射表是这样使用的：因为页的尺寸是 4KB，所以线性地址的低 12 位可以作为页内偏移，高 20 位可以用来索引一个表项，找到了这个表项，就找到了对应的物理页。

具体可以参考我的博文：简单的分页模型

4. 页表和页目录

4.1 层次化的分页结构

上文提到的页映射表，一共有 1048576（=1M）个表项，每个表项占 4 个字节，所以表的大小是 4MB，在当时看来要占用相当一部分内存。考虑到在实践中，没有哪个任务会真的用到所有表项，充其量只是很小一部分，所以内存中放一个 4MB 的表格确实很浪费。也许你会建议，能不能先划出一小片内存，只存表格用到的部分，然后根据需要动态扩展。的确，这个方法可行。但是因为特殊原因（任务的 4GB 地址空间包括两个部分：局部空间和全局空间。页目录的前半部分指向任务自己的页表，后半部分则指向内核的页表。整个映射表的前一半对应全局地址空间，后一半对应局部地址空间），这张表从一开始就必须完全定义，所以不可避免地要占用 4MB 的内存空间。为了解决这个问题，同时又不会浪费宝贵的内存空间，处理器设计了层次化的分页结构。

4.2 页表

4GB 的线性地址空间可以划分为 1048576（2 的 20 次方，即 1M，也可以看成是 1024*1024）个页面，所以，可以随机地抽取这些页面，每 1024 个页面是一组，可以分成 1024 组。对于每组中 1024 个页面的物理地址，按某种顺序排列可以构成一张表（每个表项都是一个页面的物理地址），这个表就是页表。页表的大小是 1024*4B=4KB，刚好是一个物理页的大小。

4.3 页目录

因为已经分成了 1024 组，每组都有一个页表（大小为 4KB），所以这 1024 个页表又可以用一张表来指向，这就是页目录。类似于页表，页目录共有 1024 个表项（称作页目录项），**每个页目录项的内容是某个页表的物理地址。**页表的大小是 1024*4B=4KB，刚好是一个物理页的大小。

x86分页机制详解

有人说，这样不是更占内存吗？原来需要 4MB，现在存放 1024 个页表就要 4MB，再加上一个页目录，还要 4KB，何苦呢？

这样的层次化分页结构是每个任务都有的，或者说每个任务都有自己的页目录。在处理器内部，有一个控制寄存器叫 CR3，存放着当前任务的页目录的物理地址，故 CR3 又叫做页目录基址寄存器（Page Directory Base Register，PDBR）.
每个任务都有自己的 TSS（Task-State Segment ，任务状态段），其中就包括了 CR3 寄存器域，存放着任务自己的页目录的物理地址。当任务切换时，CR3 寄存器的内容也会被更新，更新为新任务的页目录的物理地址。
页目录和页表也是普通的页，混迹于全部的物理页中。它们和普通的页没有什么区别，无非就是功能不一样。当任务被操作系统撤销后，它们和任务所占用的普通的物理页一样会被回收。
页目录总是在物理内存中，页表可以在需要时再分配，这样就大大节省了物理内存。这就回答了前面的问题。

5. 地址变换的具体过程

具体怎么变换，还是用书上的例子来说明吧。
假设段部件输出的线性地址是 0x00801050，如果没有开启分页，那么这个地址就是物理地址；但是现在开启了分页，所以要经过页部件的转换，才能得到物理地址。

处理器的页部件专门负责线性地址到物理地址的转换工作。它首先将 32 位的线性地址分成 3 段，分别是高 10 位，中间 10 位和低 12 位。高 10 位用来索引页目录，中间 10 位用来索引页表，低 12 位作为页内偏移。

x86分页机制详解

当前任务的页目录的物理地址在 CR3 寄存器中，假设是 0x0000_5000;
段部件输出的线性地址是 0x0080_1050，按照高 10 位，中间 10 位和低 12 位分为三段，分别是0x002，0x001，0x050；
0x002 乘以 4（因为每个表项占 4 个字节）得到 0x008，作为偏移访问页目录，得到了0x0800_1000，这就是页表的物理地址，顺着它找到页表；
0x001 乘以 4（因为每个表项占 4 个字节）得到 0x004，作为偏移访问页表，得到了0x0000_c000,这就是我们要找的那个物理页的起始地址。
0x050 作为页内偏移，和物理页的起始地址 0x0000_c000相加，得到 0x0000_c050，这就是最终的物理地址。

参考资料
【1】《x86汇编语言：从实模式到保护模式》（李忠，电子工业出版社）
【2】《Linux内核完全剖析》（赵炯，机械工业出版社，2006）

x86分页机制详解

文章目录

1. 为什么会有分页机制？

2. 从虚拟地址到物理地址

3. 简单的分页模型

4. 页表和页目录

4.1 层次化的分页结构

4.2 页表

4.3 页目录

5. 地址变换的具体过程

相关推荐