论文笔记&总结|JMEE事件抽取联合模型
JMEE论文笔记
《Jointly Multiple EE via Attention-based Graph Information Aggregation》
原文链接为:https://arxiv.org/abs/1809.09078
摘要
对于一个句子中存在多个事件是很常见的现象,提取同一个句子中的多个事件难度要大于单个事件。之前的方法是通过建立长距离依赖的顺序模型来获取事件之间的关系,这样的方法效率很低。本文提出了一种新的联合事件抽取框架JMEE,引入了语法弧和基于注意力机制的图卷积神经网络。
1、引言
给定一个文本,需要提取文本中的触发词及类型和事件元素及类型。如ACE2005数据集定义的那样,事件抽取任务可分为事件识别和参数提取两个子任务。
同时抽取一个句子中的多个事件是很有难度的任务。前人做了很多工作:利用各种特征、保留更多的上下文特征、引入关系弧、引入篇章级的特征等。但是在句子级别的抽取任务上,对长距离依赖信息的获取十分低效,甚至还需要补充人工特征,这大大影响了模型的性能。并且这些方法都没有考虑到事件之间的关系。
解决上述问题的直接方法是引入由语言资源表示的快捷弧,例如依赖树,可以用较少的转换来实现词语之间的信息流联系。与序列顺序相比,使用语法依赖弧可以减少同一语句中一个事件触发词到另一个事件触发词的跳数。例如下图:
图中有两个事件,一个死亡事件含有四个事件元素(红色)、一个攻击事件含有三个事件元素(蓝色),从killed到barrage根据序列顺序需要六跳,根据dependency tree只需要三跳:
本文提出了一种新的联合多事件抽取的框架(JMEE)。通过引入语法弧来增强信息流,并通过图卷积神经网络来对图形信息进行建模。为了用快捷弧实现建模,我们采用图卷积神经网络通过图中相邻节点的代表向量学习每个节点的句法上下文表示。然后利用上下文语法表示通过自注意力机制联合提取触发词和事件元素,特别保留了多个事件之间的联系。
实验采用ACE2005数据集,论文贡献如下:
1.提出JMEE模型,基于语法结构增强了信息流并且实现了对同一个句子中多个事件的抽取。
2.提出了自注意力机制来聚集信息,保留了多个事件之间的联系。
3.所提出的模型在多个数据集上取得了目前最好的效果。
2、方法
用表示长度
为的句子,其中
表示第i个单词; 用
表示句子中的k个实体,k是实体的总个数; 利用BIO标注方式为每个
标注标签
,存在触发词由多个单词组成的情况。
如果我们可以获得触发词对应的类型,则需要判断每个实体是否是该类型触发词所对应的事件元素,并判断其对应的元素角色。JMEE只要由四个模块组成,分别是单词表示模块、语法卷积模块、注意力机制模块、预测模块。
2.1 单词表示
词向量由四部分组成:
1.glove编码
2.glove位置编码
3.窗口值为C的位置嵌入
4.实体类型编码
2.2语法图卷积神经网络
无向图是句子W的语法树,
和
是图对应的节点集和边集。在图中,每一个节点
代表句子W中的单词
。每一条边
都代表从单词
到
的有向语法弧并且带有相应的标签
。为了获取反方向的信息,添加了
,所对应的label是
。对每一个节点还加入了自循环,
。
上图中,对于只包含和这两个节点的子图来说,只有四条弧:
在语法图卷积网络的第k层,节点v的图卷积向量可表示为:
其中表示边
的标签,W和b是对应的权重和偏差,N(v)是v对应的领域集且包括v,f为**函数。
由此,预定义的有向弧标签数量为N,则对于单层的GCN网络标签数量为(2N+1),因此将有(2N+1)组参数对。本文应用Stanford Parser来获得依赖树,并将其语法关系简化为三种:
并且为不同的边赋予不同的权重来表示其重要性。节点的图卷积向量可表示为:
因为GCN通过快捷弧来获取依赖关系但收到层数的限制,所以利用上下文信息在不增加GCN层数的前提下对信息进行扩展。因此在GCN网络之前加入了双向LSTM网络来获取上下文信息。
2.3基于自注意力机制的触发词分类
对于单词的子注意力得分和上下文向量可表示为:
其中,norm表示归一化操作,然后将输入到全连接网络中,并根据softmax函数得到其分类。
2.4事件元素分类
当提取出一个满足BIO标签的触发词时,根据上下文向量C来对句子中的实体进行元素分类。将触发词向量和实体向量
根据序列长度进行平均池化后连接,并输入到全连接网络中进行元素预测。
其中表示第j个实体在第i个触发词下表示的元素角色。
2.5损失函数
损失函数为联合负对数似然损失函数。为了解决数据的稀疏性,在损失函数中添加了一个偏移项。
3、实验
与其他方法对比得到的实验结果如下:
对于多事件的抽取实验结果如下: