【论文笔记】Neural Relation Extraction with Multi-lingual Attention
一、概要
该paper发于ACL2017上,作者主要基于关系事实通常在各种语言中存在某种模式表达,并且不同语言之间的模式是不同的这两个动机,针对于当前存在的单语言关系抽取的方法,从而存在忽略不同语言中存在大量信息的问题,作者提出了一个基于多语言交叉Attention机制实体关系抽取方法,可以充分不同语言中的关系模式,从而增强关系模式的学习,文中提出的Multi-lingual Attention-based Neural Relation Extraction (MNRE)模型相对单语言模型有较好地提升。
二、模型方法
2.1 模型结构
2.2 Sentence Encoder
作者对比的CNN、GRU,以及LSTM对句子进行编码为distributed representation,在计算效率即效果上发现CNN最好,所以使用CNN对输入句子进行Encoder。
这里同样使用了word embedding与position embedding作为Input Representation,具体可以查看【论文笔记】Relation Classification via Multi-Level Attention CNNs对应的内容,之后使用了包括滑窗、卷积、分段Maxpooling、以及tanh函数,从而从输入句子中得到关于目标实体的关系模式的编码。
2.3 Multi-lingual Attention
①Mono-lingual Attention
对于第j种语言对应的句子集合
其中
其中
其中
②Cross-lingual Attention
整篇文章的重点就在这里了!!!假设j与k分别代表两种不同语言,那么cross-lingual representation
其中
其中
其中
是不是很简单???ACL!ACL!ACL!怎么自己想不到?
2.4 Prediction
对于每一个实体对以及对应的句子集在m中语言中,我们通过multi-lingual attention可以获得m*m的向量{
最后把这些向量经过全连接层即softmax函数,然后分别相加即可得到每个关系的概率,为了更好的考虑不同语言的特点,可以在全连接层时在共享权值的基础上加上每种语言特有的权值矩阵,如
三、实验结果
作者做得对比实验就不细讲的,虽然这些对比实验某种程度上是这篇论文价值的重要体现,但不是本次学习模型的目的,所以跳过,简单贴出一些实验结果。
四、结论与思考
该文章提出了多语言Attention关系提取方法,以考虑多种语言之间的模式一致性和互补性。 结果表明,其模型可以有效地建立语言之间的关系模式,实现很好地效果。
五、个人思考:
①作者文末提到此次只是针对句子级别的多语言Attention,可能还可以考虑词和字的多语言Attention,以及本次只是使用的中文和英文两种语言。
②本篇文章方法很简单,但是却能做出结果,并中ACL,一个方面是作者做了很多的对比实验,其并进行深入的讨论对比,这是值得学习的地方,另一方面是方法思路符合我们的常理,idea简单实用。
参考文献:
①Yankai Lin1, Zhiyuan Liu1,Maosong Sun.Neural Relation Extraction with Multi-lingual Attention
②代码链接:https://github.com/thunlp/MNRE。