CSS-VQA 的自我理解

我们依次介绍V-CSS的的所有步骤，该步骤包括四个主要步骤：初始对象选择（IO_SEL），对象局部贡献计算，关键对象选择（CO_SEL），以及动态答案分配（DA_ASS）。

1. Initial Objects Selection (IO_SEL). 通常，对于任何特定的QA对 CSS-VQA 的自我理解，图像中只有几个对象是相关的。为了缩小关键对象的选择范围，首先构造一个较小的对象集，并假定中的所有对象对于回答这个问题可能都是重要的，由于缺少每个样本的关键对象的注释，因此遵循[39]来提取与质量保证高度相关的对象。具体来说，首先使用spaCy POS标记器[19]将POS标签分配给QA中的每个单词，然后提取QA中的名词。然后，计算对象类别的GloVe嵌入之间的余弦相似度，并将提取的名词， CSS-VQA 的自我理解和QA中所有对象之间的相似度分数记为,我们选择得分最高的对象作为。

2. Object Local Contributions Calculation. 在获得对象集 CSS-VQA 的自我理解之后，我们开始计算每个对象对地面真实答案的预测概率的局部贡献，利用改进的Grad-CAM [35]得出每个参与者的局部贡献之后，我们计算第个对象特征对地面真实答案的贡献为：

CSS-VQA 的自我理解

其中 CSS-VQA 的自我理解是地面真实答案的预测答案概率，是第个对象特征，而是全1向量。显然，如果分数较高，则对象对答案的贡献较大。

3. Critical Objects Selection (CO SEL). 在获得 CSS-VQA 的自我理解中所有对象的私有贡献分数之后，选择得分最高的前个对象作为关键对象集。是每个图像的动态数字，它是满足等式5的最小数字:

CSS-VQA 的自我理解

在η是常数的情况下，我们在所有实验中设置η=0.65(有关动态 CSS-VQA 的自我理解设置的更多细节，请参见图4)。

然后，反事实视觉输入 CSS-VQA 的自我理解是集合中集合的绝对补码，即，。我们在图3中显示了的示例。

CSS-VQA 的自我理解

4. Dynamic Answer Assigning (DA_Ass). 给定反事实的视觉输入 CSS-VQA 的自我理解和原始问题，我们组成了一个新的VQ对（,）。要为VQ对（,）分配真实答案，我们设计了一种动态答案分配（DA_Ass）机制。算法3中显示了DA_ASS的详细信息。具体而言，我们首先将另一个VQ对（,）输入到模型中，并获得预测的答案分布 CSS-VQA 的自我理解。基于，我们选择预测概率最高的top-N答案为。然后我们定义。在极端情况下，如果模型可以预测所有地面真实情况正确回答VQ对（,），即，然后是，即对于所有候选答案为零。基本动机是，如果当前模型可以预测（ CSS-VQA 的自我理解 ,）的地面真相答案（即包含关键对象，而不包含），则（，Q）的地面真相不应包含原始地面真相答案再例如，图2中的“不是绿色”。

CSS-VQA 的自我理解

相关推荐