论文笔记(5.13,文本抗击,sentence)--Trick Me If You Can: Human-in-the-Loop Generation of Adversarial Examples
举行了一次人机对战比赛,基于Quizbowl问答任务,通过实验对比了多种传统模型的鲁棒性能,分析了传统模型对于理解性任务的局限现象的产生原因,以及人机互补的概念。
paper的价值主要在于:
1.通过human-in-loop的方式生成高质量的问答对抗样本
2.对传统问答模型的鲁棒性能进行剖析
实验结果
1.RNN相较于IR更加脆弱
基于RNN的问答系统更加容易受到语法语义上的干扰;IR系统则对一些特定的单词更加敏感
2.人类和模型能力互补
在前半段问题里,机器效果优于人类,而到后半场随着透露的信息越来越多,人类表现反超机器(推理能力更强)
Adversarially Authored Questions的特点
相较于传统数据集,Adversarially Authored Questions有以下特点:
- 更少的训练数量
- 问题的答案出现位置更加随机
- limited overlap
- NEs (更短更少的命名实体)
问答低鲁棒原因剖析
1.推理能力
- 显式线索远距离联系能力
- 蕴含在上下文中的计算(逻辑&代数)
- 多跳推理能力
2.干扰线索
- 句意改变
- 误导answer的类型
- 新的线索引入