第三章 词法分析
3.1 对于词法分析器的要求
词法分析器的任务:从左至右逐个字符的对源程序进行扫描,产生一个个的单词符号,把作为字符串的源程序改造成为由单词符号串组成的程序。
词法分析器:执行词法分析的程序。输入:源程序。输出:单词符号
词法分析器的构造方法:手工方法:根据词法直接编程序(有限自动机)。自动方法:利用一些工具Lex。
单词符号:指语言中具有独立意义的最小的语法符号。
单词的种类:基本字(保留字,关键字)、标识符、常数、运算符、界符。
3.2 词法分析器的设计
3.2.1词法分析器的结构
3.2.2单词符号的识别
超前搜索:在单词识别的过程中,通过向前多读几个符号的形式,准确的进行单词的识别
一旦确定识别到的单词之后,需要进行扫描指针的回退,保证单词识别工作的顺利进行,例如: ++,&&,10e2, int a。
直接分析法:(1)以字母开头的(2)以小数点开头的(3)以数字开头的
3.2.3状态转换图法
状态转换图:一张有限方向图
状态转换图的功能:识别(接受)一定的符号串(单词)
状态转换图的结构:
(1)结点:代表状态,用圆圈表示。
(2)箭弧:状态之间用箭弧连接。
(3)箭弧上的标记:代表在射出节点下可能出现的字符或字符串。
3.3 正规表达式与有限自动机
3.3.1正规式与正规集的定义(递归的定义方法)
(1)ε和φ是∑上的正规式,它们所表示的正规集分别为{ε}和φ
(2)任何a∈∑,是∑上的一个正规式,他所表示的正规集为{ a }
(3)假定U和V都是∑上的正规式,他们所表示的正规集分别记为L(U)和L(V),那么
(a) (U|V)是正规式,所表示的正规集为L(U)∪L(V)
(b)(UV)是正规式,所表示的正规集为L(U) · L(V)(连接积)
(c)(U)*是正规式,所表示的正规集为 (L(U))*(闭包)
仅由有限次使用(1)(2)(3)所得到的表达式才是∑上的正规式,仅由这些正规式所表示的字集才是∑上的正规集。
3.3.2两个正规式的等价
若两个正规式U和V所表示的正规集相同,则认为二者等价,记为:U = V
3.3.3正规式的性质
设U,V,W是上的∑正规式,则
(1) U | V = V | U 或的交换律
(2) U | ( V|W ) = ( U|V ) | W 或的结合律
(3) U ( VW ) = ( UV ) W 连接积的结合律
(4) U ( V | W ) = ( UV ) | ( UW ) 分配律
( V | W ) U = VU | WU
(5) εU = Uε = U
3.3.4有限自动机
把状态转换图再形式化一下及所谓的有限自动机有两种:确定的有限自动机(DFA)和非确定的有限自动机(NFA)。
确定的有限自动机(DFA)定义:一个确定有限自动机(DFA)M是一个五元式:M = (S,∑, f, s0, F),其中S是一个有限的状态集合,它的每个元素我们称为一个状态∑是一个有穷的输入符号的字母表,它的每个元素我们称为一个输入字符f是从 S×∑ →S的单值部分映射s0是S的一个元素,为初始状态,它是唯一的状态集合F是终止状态的集合,它是S的子集(可空)。
非确定的有限自动机(NFA)定义:一个非确定有限自动机(NFA)M是一个五元式M = (S,∑, f, S0, F),其中S是一个有限的状态集合,它的每个元素我们称为一个状态∑是一个有限的输入符号的字母表,它的每个元素我们称为一个输入字符f是从S×∑*→2S 的部分映射,其中,2S表示S的幂集合(所有S的子集组成的集合)(f是非单值的àM是非确定)状态集合S0是初始状态集合,它是S的子集状态集合F是终止状态的集合,它是S的子集。
有限自动机的等价:对任何两个有限的自动机M1和M2,若有L(M1)=L(M2),则称M1与M2等价。
课后习题
感想:
这一章的重点在于有限自动机,包括将有限自动机的状态图确定化和最少化,构造正规式相应的DFA等等,套用基本的解题格式与思路。这一章较上一章较难,概念上有限自动机比较难理解,算法也有一定的难度。课后习题也未全部弄懂,还需自己多加深理解。