FINET: Context-Aware Fine-Grained Named Entity Typing

Abstract

FINET, 根据WordNet’s 的超级细粒度的type类型来对短文本中的named entity 进行检测类型。

使用多个检测器生成type的candidates，然后选择最合适的进行标注

FINET缓解了数据稀缺和噪音问题

WordNet 有16k个类型。

文中WordNet被称为type的系统，entity的集合和类型被称为KB。

FINET针对一个entity，通过一系列抽取器，生成一堆的candidate.

最后根据上下文选择最适合的类型。

目前为止最多的类型也就是WordNet的子集，为505.

Section 2 的Extractor不看了，我根本不关心

在实验中，作者的的确确全部用上了16k种类型。

Hyena和Pearl用了505和200种WordNet类型。

为了比较不同的granularities的，我们将每一个类型分为粗粒度CG，细粒度FG以及超细粒度SFG

CG就是artifact, event, person, location, organization

FG是Pearl中的，SFG就是其他的类型

P = precision

【论文笔记】FINET: Context-Aware Fine-Grained Named Entity Typing

New York Times 包含了一个entity

CoNLL 包含了CG的label，直接在evaluation里面用

Twitter

其他细粒度的label是通过基本原则来判断是否标注正确的，如果其他所有的extractor都认为正确，那么就是正确的

Cohen’s kappa measure在0.54-0.86之间，说明大部分都是一致认可的。

和relation similarity那篇文章用的spearman correlation差不多。

总结一下：

文章关于用taxonomy的fine-grained entity typing和我们预想的差不多，直接拿着16000类来进行typing，没有进行特殊处理，也没有人工验证，直接通过共同agreement来验证最终结果。