A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读

由于是跨考研0学生,对论文理解可能十分片面,欢迎各位指点!

1.动机:

这篇文章主要讲的是异构标签集之间的整合问题,同一数据集在使用不同标注方法时会造成标签的异构。如 中国地质大学,可能被打上标签{学校},也可能被打上标签{地点},而学校这个标签应该是从属于地点这个类别的,于是会产生如图结构。A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读
在标签集的扩展,异构标签集的合并中也有很好的效果。

2.baseline:

原有方法有两种,本文拿来作为baseline
①、对每个标签集单独训练一个模型,使用如下NER模型:A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读
首先对输入的词例进行单词级别嵌入,字符级别BiRNN处理,结合(异或)之后放到语境中再次利用BiRNN重编码,ri作为输入文本的最终表示。然后将ri投影到对应标签集T的标签空间,最终经过CRF。输入句子x,输出概率最大的标签序列。
②、所有标签集共享表示层,但是分别有各自的标签层。模型如下:A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读
跟之前的唯一不同就是共享了表示层。
以上两种方法最大的弊端就是,最终得到结果需要所有标签集全都相同才靠谱,如果产生了冲突,需要利用一些策略来解决冲突,而解决冲突这个过程会对性能产生较大影响。
文中提出了三种策略:①.随机选择标签②.选CRF概率最高的标签序列③.为每个标签计算CRF边缘概率,选最大的。
这两种方法最大的缺陷就是在处理冲突上,在冲突较少时,偶尔能匹敌作者的新方法,而当冲突增多时,作者的模型在绝大多数据集上均有很大提升。

3.本文模型:

A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读

3.1简介:

本文模型的创新是,将所有预测都在细粒度标签上预测,然后从下而上,找到最终标签。这样如 {中国地质大学,学校}和{中国地质大学,地点}就不会产生冲突,所以不用进行后期的冲突处理,提升了性能。

3.2监督方法:

由于标签集的异构,不一定都有细粒度标签,难以提供直接监督。本文提出了一种弱监督方法,即每个训练句子,都在对应数据集上有一套“黄金标签”。最终在最上层对比即可。如:{学校}{医院},最终都归于{地点},学习器黄金标记为{地址},也属于{地点},最终模型就判断分类正确,不管细粒度上是{学校}或者{医院}。但是{Alex}显然不属于地点,所以模型会根据黄金标签降低此类预测。

3.3具体细节

模型:为baseline中figure2的模型,因为在过程中就将所有标签集考虑到了,所以不用训练多个模型,而是直接在顶层输出细粒度预测的标签序列,学习的过程中协调了冲突。
损失函数:
A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读
φ为打分函数,代表y的分数。文中并没有给出。Z为配分函数,用以统计。
Zy代表所有预测的细粒度都属于y这个粗粒度词。损失函数目标就是提升输出序列yfg全部属于同一个粗粒度标签的概率。

4.实验结果:

实验数据集:
A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读

以下实验中:
Hconcat——所有数据混合的简单NER
Hindep——第一个baseline,对每个标签集训练一个
HMTL——第二个baseline,共享表示层,每个训练集有不同标签层
Hier——本文模型

4.1选择性标注——用新标签扩充已有数据集

由于Hconcat表现太差,作者在初步实验以后就丢掉了。
第一个实验假设了4种最起码在两个数据集出现过的最频繁标签。对于频繁标签t,通过在一个数据集上移除t和在另一个数据集上移除除了t以外的所有标记创建训练集。这两个数据集和t组成一个三元组。总共产生了32个三元组,在三种模型下共有96种结果,以下为节选。
A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读
如上图,为在平常数据集的表现,大多数都有些许提升。A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读
上图为在冲突较大的数据集上,发现有明显的提升。

4.2标签集合并:

A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy阅读
可以看出,本文模型依然具有较好表现,甚至超过了训练,测试集都属于I2B2’06学习出的模型,在不可见的Physio数据集上表现也很好。

5.总结:

本文从学习过程入手,通过输出细粒度标签,然后在粗粒度上监督的方法,将冲突纳入模型,从而消除了后期对冲突的处理,提升了模型的性能和鲁棒性,在冲突较多时尤为明显。