gcc源码分析与应用系列教程(1)

因为工作的原因,接触到gcc源码,经过两个多月的分析和学习之后,对它有了一个初步的认识,打算写一篇文章来分享下自己的工作经验。
本系列采用gcc-9.2.0的源码,源码阅读工具为vscode,下面我们来看具体的内容。
gcc编译器分为三部分,分别是前端,中端,和后端。
前端主要实现词法分析,语法分析,语义分析等相关的功能,并将其转换为一种中间语言,我们把这种中间语言,我们把它称之为gimple。
为什么要实现这一步呢,因为现在的gcc,是一个支持多种语言的编译器,除了它的老本行c/c++外,还支持Fortran,ada,go,objc,objc++等。
同时,gcc是一个相对比较智能的编译器,能对用户编写的代码进行优化。那么问题来了,如果不将源码转换成一种中间语言,那么每一种变成语言都要独立地去实现一套优化机制,那样会工作量很大,将其转换成一种中间语言,在对其进行后续处理,那么很多模块就可以复用。
下面我们来看看gcc支持的几种编程语言(红线圈出部分,其中c-family是所有类c编程语言的公共部分):
gcc源码分析与应用系列教程(1)
下面我们再来看以下gimple长啥样,先满足以下好奇心,源码路劲在gcc/testsuite/gcc.dg/下,所有gimple开头的.c文件:

gcc源码分析与应用系列教程(1)
gcc源码分析与应用系列教程(1)
gcc源码分析与应用系列教程(1)
在转换成中间语言,执行一系列优化之后,在生成后端代码(中间其实还有个ssa和rtl,这个放在以后讨论),gcc同样支持多个后端:
gcc源码分析与应用系列教程(1)
以上我们大概了解了以下gcc中的前端,中段和后端。我们可以看出,gcc本身可以看成是一个编译器的框架,开发者自行编写前端的词法分析和语法分析这类前端语言,然后接入到gcc项目中,由gcc进行优化并生成最终的目标代码。
本系列教程分三个部分:
1.前端部分,用户自行开发一个类c的编程语言,并接入到gcc中生成任意汇编代码,再经过汇编,链接等步骤,最后生成一个可执行文件
2.后端部分,用户自己编写一个虚拟机,并自定义一套虚拟的汇编指令,然后通过对gcc后端的修改,使其gcc能够将c,c++,Fortran等语言的源码,转换成用户自己开开发的虚拟机代码,并执行。
3.中端部分,重点介绍gcc的generic,gimple,ssa,rtl等相关内容。