词法分析的功能

功能

扫描源程序的字符串；
按照词法规则识别出单词符号作为输出；
对识别过程中发现的词法错误，则输出有关的错误信息。

词法分析器在编译器负责：

读取源程序；
识别单词；
过滤掉源程序的注释和空白；
将编译器生成的错误信息与源程序的位置关联（记录遇到的换行符的个数、给出错信息赋予一个行号）。

词法分析器和语法分析器的关系

词法分析器作为单独的一遍

词法分析器不断地读取输入串（源文件），直到识别出下一个符合单词模式的字符串（词素），词法分析器根据此“符合单词模式的字符串”生成下一个单词，将单词流的输出形成一个输出文件，作为语法分析器的输入。
《软件技术基础》之《词法分析》

词法分析器作为子程序

语法分析器调用词法分析器，指示词法分析器从它的输入不断读取字符，直到识别出下一个“符合单词模式的字符串”为止，词法分析器根据其生成下一个单词（token），返回给语法分析器。
《软件技术基础》之《词法分析》
示例：

上面的语句可以分成：

词法分析器的输出形式

单词的种类

标识符：用来命名程序中出现的变量、数组、函数、过程、标号等
基本字：也可称关键字或保留字，如if、while、for、do、goto等
常数：各种类型的常数，如233、3.1415、true等
运算符：如+、-、*、/等
界符：如；、：、（、）等

单词的输出形式：二元式

《软件技术基础》之《词法分析》

单词类型的划分

基本字、运算符、界符：一字一码；
标识符：单列一种；
标识符是以字母开头的的“字母/数字”串。用来表示各种名字，如变量名、函数名等。
常数：按类型分类，如整型、布尔型、字符型等。

词法分析器的结构

《软件技术基础》之《词法分析》

扫描缓冲区

输入缓冲区：源程序进入输入缓冲区；
预处理程序：取消注释、剔除无用的空白、回车、换行等；
扫描缓冲区：从输入缓冲区输入固定长度的字符串到另一个缓冲区（扫描缓冲区），词法分析可以直接在此缓冲区中进行符号识别

扫描缓冲区的结构：双缓冲区

设置左右两个缓冲区，当左缓冲区读完后，新读入的字符存入右缓冲区；反之，存放在左缓冲区；

起点指针 (lexeme Begin) ：用来指示正在扫描的单词的起点；
搜索指针 (forward) ：用于向前搜索，寻找单词的结束；

《软件技术基础》之《词法分析》

符号的识别

根据语言规定的词法规则，进行识别。

对不同类型的单词符号，有不同的识别要求

基本字：语言的固定格式
标识符：读到非字母数字
常数：根据常数的格式、大多数常数后都有运算符或界符
界符、运算符：需要超前搜索

词法分析技术——超前搜索

为了判定一个单词符号的识别，必须扫描到某一地方，而该单词符号并没有这么长，这种扫描方式叫做超前搜索。

起点指针指向当前单词的开始处。
搜索指针用于向前搜索，寻找单词的结束，搜索指针前移前需要确定是否达到末尾。
如果是，读取N个新字符到另一缓冲区，如果剩余字符不足N个，添加 eof 字符（或其他不会在源程序中的字符）。
单词确定后，搜索指针指向该词素结尾字符。
生成单词并记录或返回给语法分析器后，生成单词并记录或返回给语法分析器后，生成单词并记录或返回给语法分析器后起点指针指向下一个字符。

词法分析器的实现

状态转换图

简称转换图（transition diagram），是一张有限方向图，是设计词法分析器的有效工具。
它由如下成分构成：

结点（mode）：圆圈表示结点，代表状态（state）
有向边（弧）：连接结点，连接结点，边上的标记字符表示该状态下可能接收或识别的字符

特点：

有限的有向图；
有向边上标记字符；
唯一初态，若干终态（至少一个）。

状态转换图识别的串

从初态出发到某一终态路径上字符的连接。

识别标识符的状态转换图：

利用状态转换图识别单词符号的过程

从初态开始
从输入串中读一个字符
判明读入字符与从当前状态出发的哪条弧上的标记相匹配，便转到相应匹配的那条弧所指向的状态；
重复3，均不匹配时便告失败；到达终态时便识别出一个单词符号。

在很多程序设计语言中，基本字也符合标识符的模式，如何区分？
解决方法：

在符号表中预先填写保留字，并指明它们不是普通标识符；
为关键字或保留字建立单独的状态转换图。

其他状态转换图的例子

《软件技术基础》之《词法分析》

符号表

在程序中 ,用户用标识符定义了不少名字来代表不同的数据对象，编译程序将这些名字保存在符号表中。

符号表除了记录名字本身而外，还记录了与名字关联的各种属性信息。

符号表在词法分析阶段的角色

建立符号表，查填符号表；
将不重复的标识符、数字常数和字符常数的性质填入符号表中，如：名字、类型、数值等；
并且将变量（或常数）在符号表中的入口地址写到其自身的单词（TOKEN）中。

符号表的一般形式

每个名字对应一个表项，一个表项包括名字域和信息域。
《软件技术基础》之《词法分析》

信息域通常设置若干个子域和标志位，其内容可以是与名字有关的任何信息，如类型、种属、长度、相对地址、数组的内情向量、记录与分量的联系、形参标志、说明标志、赋值标志等。

因名字的长度、信息域的组成和长度可能是各不相同的，一般采用间接表技术。
间接符号表的数据结构：
《软件技术基础》之《词法分析》

《软件技术基础》之《词法分析》

《软件技术基础》之《词法分析》

词法分析的功能

功能

词法分析器和语法分析器的关系

词法分析器作为单独的一遍

词法分析器作为子程序

词法分析器的输出形式

单词的种类

单词的输出形式：二元式

单词类型的划分

词法分析器的结构

扫描缓冲区

扫描缓冲区的结构：双缓冲区

符号的识别

词法分析技术——超前搜索

词法分析器的实现

状态转换图

状态转换图识别的串

利用状态转换图识别单词符号的过程

其他状态转换图的例子

符号表

符号表在词法分析阶段的角色

符号表的一般形式

相关推荐