《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

 

  1. 问题:
    1. 命名实体识别(NER)的主流方法大多采用RNN,如长短时记忆(LSTM)。然而,RNN以顺序方式处理句子。 这可能导致当前时间步骤的计算高度依赖于先前时间步骤的计算。 RNN的这种固有顺序性质使他们无法在训练示例上充分利用GPU并行性,因此可能导致更高的训练和测试时间成本。
    2. 与RNN不同,卷积神经网络(CNN)可以前馈方式处理所有单词,而不是逐句地在每个单词上构成表示。然而,很少有人使用CNN执行NER任务。这主要是因为CNN具有捕获本地上下文信息的能力,但它们在捕获长期上下文信息方面不如LSTM强大。虽然CNN的感受域可以通过堆叠多个卷积层或使用扩张的卷积层来扩展,但是全局上下文捕获问题仍然存在,尤其是对于变体大小的文本句子,这阻碍了CNN获得LSTM相当的性能。
  2. 方法:论文中提出一种门控关系(Gated Relation Network)网络,比普通的CNN更好的捕捉长期依赖上下文信息。
  1.  具体来说,在GRN中,首先使用CNN来探索每个单词的局部上下文特征。 然后建立单词之间的关系,并将它们作为一个门控机制,将局部上下文特征融合到全局中以预测标签。
  2. GRN允许在整个句子中并行计算
  1. Model
    1. Representation Layer :

          word-level features: 预训练的GloVe词向量

          character-level features:

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

  1. Context Layer
    1. 上下文层的目的是为相邻词之间建模局部上下文信息。局部依赖关系不限于一定距离,因此,应该能使上下文层能够适应不同规模的本地信息。论文设计了具有不同分支(branch)的上下文层,每个分支由一个特定的卷积层组成。具体来说,文中使用了三个卷积层,内核大小分别为1、3、5。每个分支首先在窗口大小内为每个单词提取本地信息,然后采用最大池操作来从所有分支中选择最强的通道信号。确保每个单词都能获得相应的上下文功能。

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

 

  1. 尽管具有不同的内核大小的上下文层可以捕获不同种类的局部上下文信息,但它仍然难以捕获全局上下文信息。
    1. Relation Layer
      1. 研究表明,序列中的短期和长期上下文信息在序列学习任务中都是非常重要的,文中提出的GRN中引入了门控关系层,旨在通过全局上下文信息增强传统CNN。具体来说,它为句子中任意两个单词之间的关系建模。然后,利用门控机制,通过对关系得分与其对应的局部上下文特征向量进行加权相加来组成全局上下文特征向量。
      2. 给定一个从Context Layer层获得的输入句子的局部上下文特征,计算词之间的关系分数(relation score)。首先,连接局部上下文词特征xi和xj ,然后使用一个线性函数获得关系分数rij 。

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

         平均这些关系分数:

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

                           

      1. ri 是一个融合了全局上下文的特征向量。但是,考虑到非实体词通常占据句子的大部分,这种操作可能会带来很大的噪声,误导标签预测。为了解决这个问题,文中进一步引入了门控机制,使关系层能够自适应地选择其他依赖词。具体而言,对于单词si,我们首先使用sigmoid函数将其所有关系得分向量rij标准化以减少它们的偏差。然后我们归一化的关系分数rij。

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

  1. ri由句子中其他单词的所有信息组成,它可以被看做词的全局上下文特征
    1. 在某种程度GRN可以被看做一种attention机制。 但又不一样,我们没有使用softmax函数,而是利用关系得分向量上的门控机制来决定所有单词在预测单词si的标签中如何发挥作用。

通过使用Attention公式如下:

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

  1. Experimental
    1. Dataset:

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

             2.  Result:

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》

《GRN: Gated Relation Network to Enhance Convolutional Neural Network for Named Entity Recognition》