共指消解评价指标
一、简介
本篇博文主要介绍共指消解任务中常用的评价指标:MUC,B3,CEAF,以及BLANC。在实际应用中,通过采用上述评价指标的多种的平均值作为最终的评估指标。
二、MUC
MUC score计算了将预测的共指链映射到标注的共指链所需插入或者删除的最少的链接数量。其缺陷在于无法衡量系统预测单例实体(singleton entity)的性能。
三、B3
B3算法可以克服MUC的缺点,因为该算法主要是对每个mention来分别计算precision和recall,然后以所有mention的平均值作为最终的指标。
对于单个mention,计算方式如下所示:
其中,R代表算法预测的共指链,而K则代表数据集标注的共指链。
计算样例:
四、CEAF
CEAF是一种基于实体相似度的评估算法。对于实体相似度的计算,作者提出了两种方式:
(这两种计算方法的区别在于后者多了一个归一化的过程。)
以第一种相似度的计算方法,CEAF的准确率与召回率计算方法如下所示:
计算样例:
五、BLANC
BLANC算法实现了Rand Index,主要用于聚类算法。BLANC算法正确地处理单例实体,并根据被提及的数量奖励正确的实体。然而,BLANC背后的一个基本假设是,对于给定的提及集合,所有共指链接和非共指链接的总和是不变的。这意味着BLANC在键和响应上假定相同的提及。
六、参考文献
[1]. Cai, Jie, 和Michael Strube. 《Evaluation Metrics For End-to-End Coreference Resolution Systems》. 收入 Proceedings of the SIGDIAL 2010 Conference, 28–36. Tokyo, Japan: Association for Computational Linguistics, 2010. https://www.aclweb.org/anthology/W10-4305.
[2]. Luo, Xiaoqiang. 《On Coreference Resolution Performance Metrics》. 收入 Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, 25–32. Vancouver, British Columbia, Canada: Association for Computational Linguistics, 2005. https://www.aclweb.org/anthology/H05-1004.