【论文解读】隐式篇章关系分类:我们需要谈一谈评估 (ACL 2020)
论文地址:https://www.aclweb.org/anthology/2020.acl-main.480.pdf
代码链接: https://github.com/najoungkim/pdtb3
论文摘要
本文重新审视了之前在PDTB2.0版本上各个工作的一些差异,并且提出一个统一的评价标准,并且显示出了预训练模型可以取得远超目前最优模型。
另外他也对于PDTB3.0与PDTB2.0的变化进行了描述,并对于细颗粒度分类进行了一些实验,为下一步的工作打下基础。
论文拟解决的主要问题
在PDTB2.0上的相关工作中,其实验存在设置不一致,评价不一致等情况,需要统一标准。
论文贡献
- 指出了PDTB2.0上实验设置的不一致,并提出一个统一的标准能进行评估。
- 使用预训练模型在PDTB2.0和PDTB3.0上取得了最优性能,并且比较了两个语料库的差异。
- 讨论了下一步可以做的事情。
论文的创新点
预处理和评估上的不同
-
标签集合选择不同,一般的选择L1的4大类,以及L2的11小类。
-
语料划分不同
-
多标注的标签处理,有的工作只选取了第一个关系标签,有的工作则重采样了,然后在预测时,候选标签中对一个标签就算对了。
-
随机初始化不同,将采用运行5次实验取平均值的方法。
统一标准
- 交叉验证
划分上,使用滑动窗口在语料上进行12倍交叉验证,基于Dev:0-1,test:23-24,train:2-22,即每2个一组。
2.类别集合
在PDTB2.0上遵循原来的L1(4类)和L2(11类),在PDTB3.0上遵循大于100样例数的14类L2。在对付多标签时,使用所有的关系可能进行采样。
论文的实验
基准系统
几点发现
-
PDTB3.0的额外标注确实会更有效一些。
-
更细致的标注可能有用,但是样本不平衡。(New directional labels are potentially useful
but distributionally skewed)
在每一个大类别中,不同的小类的样本分布不同,除了因果(前两行)以外。数量少的类别性能又会有下降。 -
文章内的分布也是有用的,甚至是对于浅层篇章分析来讲。(Within-document label distribution is informative, even for shallow discourse parsing)
文章内的关系也是有相关性的,例如并列类通常是相邻的。原因和结果也是相邻的。 -
预训练模型很厉害,但是过于依赖词汇线索。(Vanilla pretrained encoders are strong, but
are overreliant on lexical cues)
预训练模型取得了最优值,但是对于一些词汇线索非常敏感,比如如果第二个篇章单元以to开始,则有95.8%的样例会被认为是目的。而如果有’-'符号在Span开头的话,则会降低9%的性能。 -
使用两个单模型建模后,选择存在于候选关系中正确的关系。这样性能会比真实性能要高。
论文的结论
该文强调了之前在PDTB中的工作存在不一致性,并且提出了一种改进方法。在PDTB2.0和PDTB3.0中使用了预训练模型取得了最优值。并且它还讨论了未来的几个方向,可以改进篇章关系识别的性能。