论文笔记:Gazetteer-Enhanced Attentive Neural Networks for Named Entity Recognition
摘要
文章设计了一种利用外部词典加强命名实体识别的方法,整个模型大致分为【Inner-Region Encoder】、【Attentive Context Encoder】、【Utterance Encoder】三个部分, 模型概略图如下所示:
该模型有助于解决缺乏训练数据的场景
一、模型
【Inner-Region Encoder】: 对应模型图的(a)部分左侧,其使用下式编码实体:
其中为该实体的第一个词,为该实体的最后一个词。整个代表了Name Knowledge.
【Attentive Context Encoder】:对应模型图的(a)右侧部分,其使用下式编码实体:
即使用Name Knowledge的向量作为query vector
对句子中的其他单词进行Attention,最后得到的代表了Context Knowledge
【Gazetteer-Enhanced ANN】:即对应模型图的(b)部分,使用下式进行编码
其中为sigmoid
函数,是通过(1)式得到的实体向量表示,然后通过多标签、多类别交叉熵损失函数对网络进行训练:
二、结果
可以看到,在ACE2005数据集上,该模型较BaseLine有较大的提升,并且也能在Bert模型的基础上进行Fine Tune.
三、疑惑
- 每一句话的可能的候选区域(比如【George Washington】)是怎么得到的呢?文中似乎没有提到…
- 式(5)中,是one-hot向量吗,可是见图一(b), 不是可能含有多个Type吗?
- 命名实体识别的目标是识别出一句话中的实体,但是在这个网络中,要识别的实体已经存在于词典(Gazetteer)中了,也就是我们应该已经知道了实体的类别了,那识别它还有什么用呢?遇到不在Gazetteer中的实体,似乎我们又没办法使用该方法。