第五章 语法分析——自上而下分析
一、知识总结
本章介绍自下而上语法分析方法。所谓自下而上分析法就是从输入串开始,逐步进行“归约”,直至鬼月到文法的开始符号。或者说,从语法树的末端开始,步步向上”归约“,直到根结。
1、自上而下分析基本问题
自上而下分析法是一种”移进-归约“法,大意是用一个寄存富豪的先进后出栈,把输入符号一个一个地移进到栈里,当栈顶形成某个产生式的一个候选式时,即把栈顶的这一部分替换成(归约为)该产生式的左部符号。
归约是指根据文法的产生式规则,把产生式的右部替换成左部符号。
2、规范归约
(1)定义:令G是一个文法,S是文法的开始符号,假定αβδ是文法G的一个句型
其中α,β,δ∈(VN∪VT)*,A∈VN ,如果有
则β称是句型αβδ相对于非终结符A的短语。因为句型是由开始符号推出来的,而短语是由非终结符号推出来的。所以,短语是句型的一部份或全部符号串。
(2)直接短语
特别是,如果有A=>β,则称β是句型αβδ相对于规则A=>β的直接短语。
(3)句柄
一个句型的最左直接短语称为该句型的句柄。
(4)规范归约
定义:假定α是文法G的一个句子,我们称序列
αn, αn-1,······,α0
是α的一个规范归约,如果此序列满足:
(1) αn= α
(2) α0为文法的开始符号,即α0=S
(3) 对任何i,0 < i <=n, αi-1是从αi经把句柄替换成为相应产生式左部符号而得到的。
(5)修剪语法树
使用修剪语法树的方法来加深对自下而上语法分析的理解。
子树:是由该树的某个结点(子树的根)连同它的所有子孙组成。
简单子树:只有单层分支的子树(只有父子两代没有第三代)
(6)对语法树有如下结论
①每个句型都有一棵语法树与之对应
②每棵语法树的叶结点自左至右排列就组成一个句型
③每棵子树的叶结点自左至右排列就组成一个短语
④每棵简单子树的叶结点自左至右排列就组成一个直接短语
⑤每棵最左简单子树的叶结点自左至右排列就组成一个句柄
3、用符号栈进行自下而上的语法分析
(1)‘#’的使用
在分析开始时,将‘#’预先进栈,作为栈底符号;
将‘# ’作为输入串的结束符
(2)分析过程
自左向右对输入串ω不断向栈中进行移进——归约。
二、算符优先分析法
1、定义两个终结符‘a’与‘b’的优先关系
a =.b 表示a的优先性等于b
a >.b 表示a的优先性大于b
a <.b 表示a的优先性小于b
2、算符优先文法及优先表构造
算符优先文法
(1)算符文法
定义:一个文法,如果它的任一产生式的右部都不含两个相继(并列)的非终结符,即不含如下形式的产生式右部:
…QR…
则我们称该文法为算符文法,也称OG文法。
(2)定义终结符之间的优先关系
假定G是一个不含e产生式的算符文法。对于任何一对终结符a、b,我们说:
1. a =. b 当且仅当文法G中含有形如P→…ab…或P→…aQb…的产生式;
2. a <. b 当且仅当G中含有形如P→…aR…的产生式, 而R b…或R Qb…;
3. a>.b 当且仅当G中含有形如P→…Rb…的产生式,而 R …a或R…aQ。
(3)如果一个算符文法G中的任何终结符对(a,b)至多只满足下述三关系之一:
a=.b
a>.b
a<.b
则称G是一个算符优先文法(OPG文法)。
构造算符优先关系表
(1)通过检查产生式的每一个候选式可以找出满足a=.b
(即P→…ab…或P→…aQb…的产生式)
(2)为了满足<.和>.,需对G中每个非终结符P构造两个集合FIRSTVT(P)和LASTVT(P):
(3)构造集合FIRSTVT(P)的算法
按其定义,可用下面两条规则来构造集合FIRSTVT(P):
① 若有产生式P→a…或P→Qa…,
则aÎFIRSTVT(P);
② 若aFIRSTVT(Q),且有产生式P→Q…,
则aFIRSTVT(P)。
(4)同理构造构造集合LASTVT(P)的算法
按其定义,可用下面两条规则来构造集合LASTVT(P):
① 若有产生式P→… a或P→… aQ ,
则aLASTVT(P);
② 若aÎ LASTVT(Q),且有产生式P→… Q ,
则aLASTVT(P)。
(5)有了这两个集合之后,就可以通过检查每个产生式的候选式确定满足关系<.和>.的所有终结符对。
①假定有个产生式的一个候选形为
…aP…
那么,对任何bFIRSTVT(P),有a <. b。
②假定有个产生式的一个候选形为
…Pb…
那么,对任何aLASTVT(P),有a >. b。
注意:
对于‘#’号,相当于在文法开始符号S前加一个额外的开始符号,比如为Z
然后,把
Z →#S#
添加到原文法中,再进行分析。
3、算符优先分析算法的设计
(1)问题的提出
自下而上分析
移进-归约法:句柄为可归纳串
算符优先分析法:最左素短语为可归纳串
(2)素短语
指一个句型的短语,它至少包括有一个终结符号且除去它本身之外不再含任何更小的素短语
(3)最左素短语
处在句型最左端那个素短语成为最左素短语
(4)算符优先分析算法和设计
句型的一般表示形式: #N1a1N2a2…NnanNn+1#
其中,每个ai都是终结符,Ni是可有可无的非终结符
定理:
一个算符优先文法G的任何句型的最左素短语是满足如下条件的最左子串 Njaj…NiaiNi+1,
aj-1 <. aj
aj =. aj+1,aj+1 =. aj+2,…,ai-1 =. ai
ai >. ai+1
注意:出现在左端或右端的非终结符一定属于这个素短语
4.优先函数
(1)优先函数的定义
把每个终结符与两个自然数f(θ)与g(θ)相对应,使得
若θ1 <. θ2,则f(θ1) < g(θ2)
若θ1 =. θ2,则f(θ1) = g(θ2)
若θ1 >. θ2,则f(θ1) > g(θ2)
f称为入栈优先函数,g称为比较优先函数。
优点:便于比较,节省空间;
缺点:原来不存在优先关系的两个终结符,由于自然数相对应,变成可以比较的。要进行一些特殊的判断。
(2)优先函数的构造方法
如果优先函数存在,则可以通过以下三个步骤从优先表构造优先函数:
(1)对于每个终结符a,令其对应两个符号fa和ga,画一张以所有符号fa和ga为结点的方向图。如果a>.b,则从fa画一条弧至gb如果a<.b,则从gb画一条弧至fa 。
(2)对每个结点都赋予一个数,此数等于从该结点出发所能到达的结点(包括出发点自身)。赋给fa的数作为f(a)赋给ga的数作为g(a)。
(3)检查所构造出来的函数f和g是否与原来的关系矛盾。若没有矛盾,则f和g就是要求的优先函数,若有矛盾,则不存在优先函数。
(3)构造方法证明
现在必须证明:
若a=.b,则f(a)=g(b);若a<.b,则f(a)< g(b);若a>.b,则f(a)> g(b)。
第一个关系可从函数的构造直接获得。因为,若a=.b,则既有从fa到gb的弧,又有从gb到fa的弧。所以,fa和gb所能到达的结是全同的。
至于a<.b和a>.b的情形,只须证明其一。
如果a>.b,则有从fa到gb的弧。也就是gb能到达的任何结fa也能到达。因此,f(a) g(b)。所需证明的是,在这种情况下,f(a)=g(b)不应成立。
三.LR分析法
1.LR分析方法
LR分析方法是一种自下而上的分析方法
LR分析法的归约过程是规范推导的逆过程,所以LR分析过程是一种规范归约过程LR分析方法是一种适用于一大类上下文无关文法的分析方法
比较复杂,不适于用手工实现,可借助于YACC/bison实现
根据归约过程中向前看输入符号串中字符的个数,定义不同的LR(k)分析方法,通常,k=0,1
LR分析方法和LL分析方法的比较
LR(0)分析法需要知道什么是活前缀、LR(0)项目、项目集规范族、项目集的闭包、LR(0)分析表的构造。需要注意,该文法移进时不能归约,归约时只归一个产生式。
活前缀:文法G的活前缀是他的规范句型的前缀,该前缀不超过句柄的右端。
LR分析表的构造需要构造识别活前缀的有限自动机,用有限自动机中的状态表示分析表中的状态,用状态图中的状态之间的转换关系对分析表中的action、 goto函数等进行定义。
二、课后作业
三、感想
这一章的内容感觉比前几章内容更多也更有难度。学习了自下而上的语法分析,与上一章的自上而下分析的LL文法相反。本章还学习了规约,算符优先分析等内容。