CSS-VQA 的自我理解

    我们依次介绍V-CSS的的所有步骤,该步骤包括四个主要步骤:初始对象选择(IO_SEL),对象局部贡献计算,关键对象选择(CO_SEL) ,以及动态答案分配(DA_ASS)。

1. Initial Objects Selection (IO_SEL).   通常,对于任何特定的QA对CSS-VQA 的自我理解,图像CSS-VQA 的自我理解中只有几个对象是相关的。 为了缩小关键对象的选择范围,首先构造一个较小的对象集CSS-VQA 的自我理解,并假定CSS-VQA 的自我理解中的所有对象对于回答这个问题可能都是重要的,由于缺少每个样本的关键对象的注释,因此遵循[39]来提取与质量保证高度相关的对象。 具体来说,首先使用spaCy POS标记器[19]将POS标签分配给QA中的每个单词,然后提取QA中的名词。 然后,计算对象类别的GloVe嵌入之间的余弦相似度,并将提取的名词,CSS-VQA 的自我理解和QA中所有对象之间的相似度分数记为CSS-VQA 的自我理解,我们选择CSS-VQA 的自我理解得分最高的CSS-VQA 的自我理解对象作为CSS-VQA 的自我理解

 

        2. Object Local Contributions Calculation. 在获得对象集CSS-VQA 的自我理解之后,我们开始计算每个对象对地面真实答案的预测概率的局部贡献,利用改进的Grad-CAM [35]得出每个参与者的局部贡献之后,我们计算第CSS-VQA 的自我理解个对象特征对地面真实答案CSS-VQA 的自我理解的贡献为:

CSS-VQA 的自我理解

其中CSS-VQA 的自我理解是地面真实答案CSS-VQA 的自我理解的预测答案概率,CSS-VQA 的自我理解是第CSS-VQA 的自我理解个对象特征,而CSS-VQA 的自我理解是全1向量。 显然,如果分数CSS-VQA 的自我理解较高,则对象CSS-VQA 的自我理解对答案CSS-VQA 的自我理解的贡献较大。

        3. Critical Objects Selection (CO SEL).  在获得CSS-VQA 的自我理解中所有对象的私有贡献分数CSS-VQA 的自我理解之后,选择得分最高的前CSS-VQA 的自我理解个对象作为关键对象集CSS-VQA 的自我理解CSS-VQA 的自我理解是每个图像的动态数字,它是满足等式5的最小数字:

CSS-VQA 的自我理解

         在η是常数的情况下,我们在所有实验中设置η=0.65(有关动态CSS-VQA 的自我理解设置的更多细节,请参见图4)。

  然后,反事实视觉输入CSS-VQA 的自我理解是集合CSS-VQA 的自我理解中集合CSS-VQA 的自我理解的绝对补码,即,CSS-VQA 的自我理解。 我们在图3中显示了CSS-VQA 的自我理解的示例。

CSS-VQA 的自我理解

        4. Dynamic Answer Assigning (DA_Ass).  给定反事实的视觉输入CSS-VQA 的自我理解和原始问题CSS-VQA 的自我理解,我们组成了一个新的VQ对(CSS-VQA 的自我理解,CSS-VQA 的自我理解)。 要为VQ对(CSS-VQA 的自我理解,CSS-VQA 的自我理解)分配真实答案,我们设计了一种动态答案分配(DA_Ass)机制。算法3中显示了DA_ASS的详细信息。具体而言,我们首先将另一个VQ对(CSS-VQA 的自我理解,CSS-VQA 的自我理解)输入到CSS-VQA 的自我理解模型中,并获得预测的答案分布CSS-VQA 的自我理解。 基于CSS-VQA 的自我理解,我们选择预测概率最高的top-N答案为CSS-VQA 的自我理解。  然后我们定义CSS-VQA 的自我理解。在极端情况下,   如果模型可以预测所有地面真实情况正确回答VQ对(CSS-VQA 的自我理解,CSS-VQA 的自我理解),即CSS-VQA 的自我理解,然后CSS-VQA 的自我理解CSS-VQA 的自我理解,即对于所有候选答案为零。基本动机是,如果当前模型可以预测(CSS-VQA 的自我理解,CSS-VQA 的自我理解)的地面真相答案(即CSS-VQA 的自我理解包含关键对象,而CSS-VQA 的自我理解不包含),则(CSS-VQA 的自我理解,Q)的地面真相不应包含原始地面真相答案 再例如,图2中的“不是绿色”。