linux系统调用全过程

linux系统调用全过程

什么是系统调用?

系统调用是操作系统提供给程序设计人员使用系统服务的接口

系统调用流程

Linux 提供了 glibc 库, 它封装了系统调用接口, 对上层更友好的提供服务, 系统调用最终都会通过 DO_CALL 发起, 这是一个宏定义, 其 32 位和 64 位的定义是不同的

  • 32 位系统调用

    • 用户态
      • 将请求参数保存到寄存器
      • 将系统调用名称转为系统调用号保存到寄存器 eax 中
      • 通过软中断 ENTER_KERNEL 进入内核态
    • 内核态
      • 将用户态的寄存器保存到 pt_regs 中
      • 在系统调用函数表 sys_call_table 中根据调用号找到对应的函数
      • 执行函数实现, 将返回值写入 pt_regs 的 ax 位置
      • 通过 INTERRUPT_RETURN 根据 pt_regs 恢复用户态进程
  • 64 位系统调用

    • 用户态
      • 将请求参数保存到寄存器
      • 将系统调用名称转为系统调用号保存到寄存器 rax 中
      • 通过 syscall 进入内核态
    • 内核态
      • 将用户态的寄存器保存到 pt_regs 中
      • 在系统调用函数表 sys_call_table 中根据调用号找到对应的函数
      • 执行函数实现, 将返回值写入 pt_regs 的 ax 位置
      • 通过 sysretq 返回用户态

glibc 将系统调用封装成更友好的接口

  • 本节解析 glibc 函数如何调用到内核的 open

  • 用户进程调用 open 函数
    • glibc 的 syscal.list 列出 glibc 函数对应的系统调用
    • glibc 的脚本 make_syscall.sh 根据 syscal.list 生成对应的宏定义(函数映射到系统调用)
    • glibc 的 syscal-template.S 使用这些宏, 定义了系统调用的调用方式(也是通过宏)
    • 其中会调用 DO_CALL (也是一个宏), 32位与 64位实现不同

  • 32位 DO_CALL (位于 i386 目录下 sysdep.h)
    • 将调用参数放入寄存器中, 由系统调用名得到系统调用号, 放入 eax
    • 执行 ENTER_KERNEL(一个宏), 对应 int $0x80 触发软中断, 进入内核
    • 调用软中断处理函数 entry_INT80_32(内核启动时, 由 trap_init() 配置)
    • entry_INT80_32 将用户态寄存器存入 pt_regs 中(保存现场以及系统调用参数), 调用 do_syscall_32_iraq_on
    • do_syscall_32_iraq_on 从 pt_regs 中取系统调用号(eax), 从系统调用表得到对应实现函数, 取 pt_regs 中存储的参数, 调用系统调用
    • entry_INT80_32 调用 INTERRUPT_RUTURN(一个宏)对应 iret 指令, 系统调用结果存在 pt_regs 的 eax 位置, 根据 pt_regs 恢复用户态进程

  • 64位 DO_CALL (位于 x86_64 目录下 sysdep.h)
    • 通过系统调用名得到系统调用号, 存入 rax; 不同中断, 执行 syscall 指令
    • MSR(特殊模块寄存器), 辅助完成某些功能(包括系统调用)
    • trap_init() 会调用 cpu_init->syscall_init 设置该寄存器
    • syscall 从 MSR 寄存器中, 拿出函数地址进行调用, 即调用 entry_SYSCALL_64
    • entry_SYSCALL_64 先保存用户态寄存器到 pt_regs 中
    • 调用 entry_SYSCALL64_slow_pat->do_syscall_64
    • do_syscall_64 从 rax 取系统调用号, 从系统调用表得到对应实现函数, 取 pt_regs 中存储的参数, 调用系统调用
    • 返回执行 USERGS_SYSRET64(一个宏), 对应执行 swapgs 和 sysretq 指令; 系统调用结果存在 pt_regs 的 ax 位置, 根据 pt_regs 恢复用户态进程

  • 系统调用表 sys_call_table
    • 32位 定义在 arch/x86/entry/syscalls/syscall_32.tbl
    • 64位 定义在 arch/x86/entry/syscalls/syscall_64.tbl
    • syscall_*.tbl 内容包括: 系统调用号, 系统调用名, 内核实现函数名(以 sys 开头)
    • 内核实现函数的声明: include/linux/syscall.h
    • 内核实现函数的实现: 某个 .c 文件, 例如 sys_open 的实现在 fs/open.c
      • .c 文件中, 以宏的方式替代函数名, 用多层宏构建函数头
    • 编译过程中, 通过 syscall_.tbl 生成 unistd_.h 文件
      • unistd_*.h 包含系统调用与实现函数的对应关系
    • syscall_.h include 了 unistd_.h 头文件, 并定义了系统调用表(数组)