NLP-CS224n学习讲义PART 4——Dependency Parsing

1 依存语法和依存结构

NLP中的解析树与编译器中的解析树类似，用于分析句子的句法结构。主要有两个类型的结构——成分结构和依存结构。成分语法结构使用短语结构语法将单词组织成嵌套的成分。而我们主要关注的是依存结构解析。

句子的依存结构主要分析的是哪些词依赖于其他哪些词。这些单词之间的二元非对称关系称为依存关系，并被描述为从首领(或上级)到附属(或修饰词、下级)的指向关系。通常这些依存关系形成一个树结构。它们通常与语法关系的名称(主语、介词宾语、同位语等)一起输入。下图是一个依存树的例子。

Bills on ports and immigration were submitted by Senator Brownback, Republican of Kansas

[港口和移民法案是由堪萨斯州共和党参议员布朗巴克提交的]

1.1 依存关系语法分析

依存关系语法分析是分析给定输入句 $S$ 的语法依赖结构的任务。依存解析器的输出是一个依赖树 $G$ 其中输入句中的单词通过类型化的依存关系连接。形式上，依存分析问题要求创建一个如下的映射：

$(S = W_0W_1...W_n) \rightarrow G$

确切地说，依存解析中有两个子问题：

Learning：给定一组用依赖关系图注释的句子训练集 $D$ ，归纳出一个解析模型 $M$ ，该模型可用于解析新句子。
Parsing：给出一个解析模型 $M$ 和一个句子 $S$ ，根据 $M$ 推导出 $S$ 的最优依赖图 $D$ 。

1.2 基于跃迁的依存解析

基于跃迁的依存解析依赖于一种状态机，其通过定义可能的转换来创建从输入语句到依赖项树的映射。

Learning problem 就是根据状态机的转移历史，归纳出一个可以预测状态机下一次转移的模型。
Parsing problem 是给定前面归纳的模型，然后为输入语句构造最优的转换序列。

1.3 基于贪心确定性转换的解析

这个转换系统是一个状态机，它由状态和这些状态之间的转换组成。该模型推导出从某一初始状态到几种终态之一的一系列跃迁，

States:

对于任意句子 $S = w_0w_1...w_n$ ，一个状态可以描述为一个三元组 $c = (\sigma, \beta, A)$ ：

$\sigma$ 为单词 $w_i$ 的一个堆栈，
$\beta$ 为单词 $w_i$ 的一个缓冲区，
一组形式为 $(w_i, r,w_j)$ 的依赖弧 $A$ ，其中 $w_i,w_j$ 来自 $S$ ，而 $r$ 描述了一种依赖关系。

对于任意句子 $S = w_0w_1...w_n$ ，

一个初始状态 $c_0$ 的形式 $([w_0]_\sigma,[w_1,…, w_n]_\beta,\emptyset)$ (只有root在堆栈 $\sigma$ ，所有其他词都在缓冲区 $\beta$ 中，并且没有任何依赖关系)
一个终止的状态形式为 $(\sigma, [ \ ]_\beta, A)$ （缓冲区为空）

Transitions:

状态之间有三种类型的转换：

$Shift$ ：删除缓冲区中的第一个单词并将其插入到堆栈的顶部。（先决条件：缓冲区非空）
$Left-Arc_r$ ：向集合A中增加依赖弧 $(w_j, r, w_i)$ ， $w_i$ 为在栈顶的第二位的单词， $w_j$ 为栈顶的单词。将单词 $w_i$ 从栈顶删除。（先决条件：堆栈需要包含至少两个单词， $w_i$ 不能是根。）
$Right-Arc_r$ ：向集合A中增加依赖弧 $(w_i, r, w_j)$ ， $w_i$ 为在栈顶的第二位的单词， $w_j$ 为栈顶的单词。将单词 $w_j$ 从栈顶删除。（先决条件：堆栈需要包含至少两个单词）

1.4 基于神经网络依赖解析

虽然有许多用于依存分析的深度模型，但本节特别关注贪心且基于转换的神经网络依存分析器。与传统的基于特征的依赖解析器相比，这类模型具有相当的性能和显著的效率。与以前的模型的主要区别是在于它依赖于密集而非稀疏的特征表示。

此节描述的模型也将使用第1.3节所示的arc-standard系统进行转换。最后，模型的目标是预测从某个初始配置 $c$ 到一个终止配置的转换序列，其中对依赖解析树进行了编码。由于模型是贪心的，它试图基于从当前配置中提取的特征 $c = (\sigma, \beta, A)$ ，来正确地一次预测一个转换 $T \in \{Shift, Left-Arc_r, Right-Arc_r\}$ 。

Feature Selection:

一个句子的特征一般包括:

$S_{word}$ ：在堆栈 $\sigma$ 和缓冲区 $\beta$ 顶部的句子 $S$ 中一些单词(及其依赖项)的向量表示。
$S_{tag}$ ：在句子 $S$ 中一些单词的词性(POS)标签。词性标签包括一个小的，离散的集合： $P = \{NN, NNP, NNS, DT, JJ，...\}$ 。
$S_{label}$ ：在句子 $S$ 中一些单词的arc-labels由一个小的、离散的集合组成，其描述了依赖关系: $L = \{amod, tmod, nsubj, csubj dobj,...\}$ 。

对于每个特征类型，我们将有一个相应的嵌入矩阵，从特征的一个热编码映射到d维稠密向量表示。 $S_{word}$ 完整的嵌入矩阵为 $E^w \in R^{d\times N_w}$ ，其中 $N_w$ 为字典中词汇量大小。相应地，POS和label的嵌入矩阵为 $E^t \in R^{d \times N_t} 和 E^l \in R^{d\times N_l}$ ，其中 $N_t$ 为POS tags的数量， $N_l$ 为arc labels的数量。

最后，让从每组特征中选择的元素个数分别记为 $n_{word}、n_{tag}和\ n_{label}$

前向神经网络模型

网络包含一个输入层 $[x^w, x^t, x^l]$ ，一个隐藏层和一个最后带有cross-entropy的softmax层。模型如下图所示。

NLP-CS224n学习讲义PART 4——Dependency Parsing

NLP-CS224n学习讲义PART 4——Dependency Parsing

1 依存语法和依存结构

1.1 依存关系语法分析

1.2 基于跃迁的依存解析

1.3 基于贪心确定性转换的解析

States:

Transitions:

1.4 基于神经网络依赖解析

Feature Selection:

前向神经网络模型

相关推荐