【论文笔记】FINET: Context-Aware Fine-Grained Named Entity Typing
FINET: Context-Aware Fine-Grained Named Entity Typing
Abstract
FINET, 根据WordNet’s 的超级细粒度的type类型来对短文本中的named entity 进行检测类型。
-
WordNet
-
短文本
-
entity typing
使用多个检测器生成type的candidates,然后选择最合适的进行标注
FINET缓解了数据稀缺和噪音问题
1 Introduction
WordNet 有16k个类型。
文中WordNet被称为type的系统,entity的集合和类型被称为KB。
FINET针对一个entity,通过一系列抽取器,生成一堆的candidate.
最后根据上下文选择最适合的类型。
目前为止最多的类型也就是WordNet的子集,为505.
Section 2 的Extractor不看了,我根本不关心
3 Type Selection
在实验中,作者的的确确全部用上了16k种类型。
Hyena和Pearl用了505和200种WordNet类型。
为了比较不同的granularities的,我们将每一个类型分为粗粒度CG,细粒度FG以及超细粒度SFG
CG就是artifact, event, person, location, organization
FG是Pearl中的,SFG就是其他的类型
P = precision
New York Times 包含了一个entity
CoNLL 包含了CG的label,直接在evaluation里面用
其他细粒度的label是通过基本原则来判断是否标注正确的,如果其他所有的extractor都认为正确,那么就是正确的
Cohen’s kappa measure在0.54-0.86之间,说明大部分都是一致认可的。
和relation similarity那篇文章用的spearman correlation差不多。
总结一下:
文章关于用taxonomy的fine-grained entity typing和我们预想的差不多,直接拿着16000类来进行typing,没有进行特殊处理,也没有人工验证,直接通过共同agreement来验证最终结果。