CSS-VQA 的自我理解
我们依次介绍V-CSS的的所有步骤,该步骤包括四个主要步骤:初始对象选择(IO_SEL),对象局部贡献计算,关键对象选择(CO_SEL) ,以及动态答案分配(DA_ASS)。
1. Initial Objects Selection (IO_SEL). 通常,对于任何特定的QA对,图像
中只有几个对象是相关的。 为了缩小关键对象的选择范围,首先构造一个较小的对象集
,并假定
中的所有对象对于回答这个问题可能都是重要的,由于缺少每个样本的关键对象的注释,因此遵循[39]来提取与质量保证高度相关的对象。 具体来说,首先使用spaCy POS标记器[19]将POS标签分配给QA中的每个单词,然后提取QA中的名词。 然后,计算对象类别的GloVe嵌入之间的余弦相似度,并将提取的名词,
和QA中所有对象之间的相似度分数记为
,我们选择
得分最高的
对象作为
。
2. Object Local Contributions Calculation. 在获得对象集之后,我们开始计算每个对象对地面真实答案的预测概率的局部贡献,利用改进的Grad-CAM [35]得出每个参与者的局部贡献之后,我们计算第
个对象特征对地面真实答案
的贡献为:
其中是地面真实答案
的预测答案概率,
是第
个对象特征,而
是全1向量。 显然,如果分数
较高,则对象
对答案
的贡献较大。
3. Critical Objects Selection (CO SEL). 在获得中所有对象的私有贡献分数
之后,选择得分最高的前
个对象作为关键对象集
。
是每个图像的动态数字,它是满足等式5的最小数字:
在η是常数的情况下,我们在所有实验中设置η=0.65(有关动态设置的更多细节,请参见图4)。
然后,反事实视觉输入是集合
中集合
的绝对补码,即,
。 我们在图3中显示了
的示例。
4. Dynamic Answer Assigning (DA_Ass). 给定反事实的视觉输入和原始问题
,我们组成了一个新的VQ对(
,
)。 要为VQ对(
,
)分配真实答案,我们设计了一种动态答案分配(DA_Ass)机制。算法3中显示了DA_ASS的详细信息。具体而言,我们首先将另一个VQ对(
,
)输入到
模型中,并获得预测的答案分布
。 基于
,我们选择预测概率最高的top-N答案为
。 然后我们定义
。在极端情况下, 如果模型可以预测所有地面真实情况正确回答VQ对(
,
),即
,然后
是
,即对于所有候选答案为零。基本动机是,如果当前模型可以预测(
,
)的地面真相答案(即
包含关键对象,而
不包含),则(
,Q)的地面真相不应包含原始地面真相答案 再例如,图2中的“不是绿色”。