视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

目录

一、文献摘要介绍

二、引言

三、两个模型介绍

四、两个模型的深度研究

五、总结


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

Attention mechanisms have been widely used in Visual Question Answering (VQA) solutions due to their capacity to model deep cross-domain interactions. Analyzing attention maps offers us a perspective to find out limitations of current VQA systems and an opportunity to further improve them. In this paper, we select two state-of-the-art VQA approaches with attention mechanisms to study their robustness and disadvantages by visualizing and analyzing their estimated attention maps. We find that both methods are sensitive to features, and simultaneously, they perform badly for counting and multi-object related questions. We believe that the findings and analytical method will help researchers identify crucial challenges on the way to improve their own VQA systems.

作者认为由于注意力机制具有建模深层跨区域交互的能力,所以它得到了广泛的应用,分析注意力图为我们提供了一个观点,以找出当前VQA的局限性,并有机会进一步改进它们。在本文中,作者选择两种具有注意力机制的最新VQA方法,通过可视化和分析其估计的注意力图来研究其健壮性和缺点。作者发现这两种方法都对特征十分敏感,同时,它们在计数和与多对象相关的问题上表现不佳。这些发现和分析方法将有助于研究人员确定改进自身VQA系统的关键挑战。

二、引言

视觉问答(VQA)在计算机视觉和自然语言处理社区中吸引了越来越多的关注。 VQA的目标是根据任何给定图像的信息来回答问题。 随着深度学习见证了人工智能领域的一系列卓越成就,VQA在过去几年中也取得了巨大进步,产生了多个基准数据集,例如VQA 2.0 ,CLEVR 和 视觉基因组和大量方法,例如MFB和BAN。

通常将VQA作为一个多分类任务,以不同的答案作为候选类别。目前主流的方法首先是利用传统的神经网络和递归神经网络提取图像和问题表示。然后,采用许多融合方法,如早期融合[18]和双线性池[15,6,1,5]来融合问题和图像特征。此外,注意力机制正在发挥越来越重要的作用,因为这种机制鼓励深度跨领域的相互作用,而不引入实质性的参数。对VQA系统的注意力机制主要有两个分支:单注意和共同注意。单一注意只是考虑问题引导的图像注意力。相比之下,共同注意还考虑了图像引导的问题注意,共同建模多模态关系。

虽然已经取得了很大的进展,但很少有人对不同注意力机制的影响进行深入的分析。在本文中,我们深入研究了两种最先进的方法:多模态分解双线性池(MFB)和双线性注意力网络(BAN)发现其固有的局限性。这两种方法都采用了流行的双线性池进行多模态融合。然而,MFB只执行问题引导的视觉注意力(单注意力),而BAN将共同注意力扩展到双线性注意力,以实现更多的图像和语言交互。作者在VQA2.0数据集上进行了所有的实验,因为其答案分布比VQA1.0和VisualGenome数据集更均衡。此外,与充满合成图像的CLEVR数据集相比,它涵盖了更多的真实世界对象的关系。为了更深入地理解这两种方法,我们建议直接深入研究它们的注意力图。观察估计的注意力图是否与实际答案有关,可以反映相应方法的稳健性和局限性。

总之,在对这两种方法进行彻底的实验之后,我们提出了三个关键的观察:

  • 所选的特征对其性能敏感的。基于对象推荐的表示特征优于图像级特征。

  • 对于与多个对象相关的问题,注意力分布变得更加不准确。

  • 用软注意机制解决计数问题不好。

在每一个观察中,作者还分析了这些现象背后的主要原因,并认为在大多数具有注意机制的方法中可能存在类似的限制。我们相信这些发现将激励研究人员设计更有效的方法。此外,我们的分析方法有望为研究人员,在调试VQA系统时候,提供一个发现潜在障碍的机会 ,下面介绍一下MFB和BAN。

三、两个模型介绍

3.1Multimodal Factorized Bilinear Pooling Revisited

由于双线性池允许丰富的多模态交叉通道相互作用,与简单的求和和级联算法相比,融合方法在VQA系统中得到了广泛的应用。为了进一步减少双线性池中的参数数,多模态分解双线性池(MFB)将权重矩阵分解为两个低秩矩阵。

        具体地说,给定一个问题向量视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》 和一个图像特征向量视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》,MFB池的每个输出通道均为

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

其中视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》 是一个包含所有元素的向量,视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》是权重矩阵,视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》是两个分解矩阵。

        对于VQA的MFB的整个流程可以总结如下。首先,整体问题表式视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》 是通过具有权重视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》的自我注意方式获得的。

然后,然后,在图像上的加权问题特征,引导视觉注意力如下:

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

其中,视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》是一个图像特征向量,视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》。最后,注意力加权问题特征视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》和视觉特征视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》把它们融合在一起为视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》,作为答案的进一步预测。

3.2 Bilinear Attention Revisited

        基于共注意的模型将问题引导的视觉注意和视觉引导的问题注意结合在一起。为了进一步考虑每一对多模态特征,BAN将共注意扩展到双线性注意。融合特性可定义为:

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

其中视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》是双线性注意图,其总和为1如下:

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

其中视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》是一个包含所有元素的向量,视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》,并且视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》是按元素应用的。然后融合特征 视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》 可以用于进一步的分类。

MFB和BAN分别代表了在单一注意和共同注意方向上的流行尝试。对这两种方法的彻底分析也有望揭示其他具有注意机制的方法的类似局限性。

四、两个模型的深度研究

        在本节中,我们将对我们的关键观测结果进行详细分析。如上所述,我们对MFB[15]和BAN[5]进行了深入的研究。为了给出一个直观的演示,我们报告了MFB中图像注意向量视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》和BAN中双线性注意图视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》 的可视化。

4.1 Object feature & Image feature

与图像级特征相比,视觉对象特征在VQA任务中已经被证明是有效的。然而,性能增加背后的原因还没有得到很好的研究。在这项工作中, 我们从注意力的角度深入研究这一点。

        在我们的实验中,我们选择top-36 Faster-RNN 推荐(分数较高的36个对象)和ResNet-152在视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》之前的最后特征映射各自作为对象特征(36×2048)和图像特征(196×2048)。在BAN中,我们将批处理大小设置为64,隐藏状态的维度设置为1024。为了简化实验,我们不集成计数模型。与原来的实现不同,我们增加了300维随机初始化词嵌入,而不是300维计算词嵌入到每个300维Glove词嵌入。在VQA2.0验证集上的性能比较如表1所示。

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

毫不奇怪,与图像级特征相比,我们在两种方法的对象特征上都取得了更好的性能。此外,我们还发现,与图像特征相比,对象特征可以获得更精确的注意力分布。例如,在图1中。给出了一个关于消防栓的问题,我们可以看到,带有对象推荐的MFB集中在正确的实体上,而图像级表示则将注意力指向雪区。 由于注意力分布不准确,具有图像特征的模型预测了一个错误的答案,白色。类似地,当“他的尾巴是编织的吗?”被问及时,具有对象级表示的方法突出显示为尾巴为推荐,而不是具有单个特征映射的任意强调区域。

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

虽然很难定量地测量特征对整个数据集上的注意力图的负面影响,我们假设不准确的注意力图对性能下降负有很大的责任。我们分析,与特征映射相比,对象推荐具有更具体的语义意义,因此,单词与视觉特征之间的对应关系更容易学习,这就是为什么导致更准确的注意力分布和进一步的性能提升。

4.2 Single object & Multiple objects

根据推断最终答案需要多少对象,VQA2.0中的问题可以大致分为单个对象,例如,“狗的颜色是什么?”和多个对象,例如,“桌子上的书是什么颜色?“。在实验中,我们对这两种问题进行了比较。观察结果表明,与多个对象有关的问题的注意力分布更加不准确。例如,在图2中,两个模型都错误地集中在(a)中女性使用的笔记本电脑上,这意味着女性与笔记本电脑之间的关系没有得到很好的捕捉和建模。此外,两个模型都无法很好地整合相对位置。 我们可以在图2中看到,两个模型分别根据(b)中的左侧人和中间的人进行预测(白色和黄色)。总之,估计的注意力图不能学习相对位置。此外,空间位置对于推断(c)中的问题至关重要。这两种模型都集中在其他位置的错误物体上,例如水槽和厕所。

值得注意的是,当前的注意机制只通过比较视觉和问题表示和对象特征来学习注意分布,忽略了它们在图像中的位置。但是,如果没有很好的对象关系或位置信息,当问题与多个对象相关或图像中存在多个实例时,模型就无法将这些视觉上或语义上相似的对象分开。混乱会导致注意力分配不准确,从而导致单对象问题和具有多个对象的问题之间的准确性显着下降,这构成了当前VQA系统的主要障碍。为了缩小性能差距,明确考虑对象关系和位置可能是关键的一步。 特别地,基于图的神经网络可能是处理非结构化对象关联的有效方法。对象关系建模仍然是一个悬而未决的问题,值得进一步探索。

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

4.3 Counting problem

计数问题是与多个对象相关的问题的特例。由于这种软注意机制使注意权重规范化,从而导致计数相关信息的丢失。在这项工作中表明,即使有一个准确的注意分布,也可能得到较差的结果。例如,在图中3,这两种模型都将注意力集中在多个检测到的物体上,即(a)中的摩托车、(b)中的车辆和(c)中的时钟。然而,检测到的物体在视觉上是明显相似的,因此这些视觉特征的加权平均值可能与其中一个相似,这意味着计数的线索在软过程中丢失了。 注意过程,而不考虑注意的分布。这些限制可能存在于大量的VQA系统中。因此,为了从本质上提高计数性能,可以增加结构或更灵活的注意机制 是需要的。

视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》

五、总结

To facilitate further research on the VQA task, we delve into two state-of-the-art methods MFB [15] and BAN [5] on VQA 2.0 dataset by visualizing and analysing their estimated attention maps. We form three main observations. Firstly, the ​​​​​​​performance improvement with Faster-RCNN proposals is probably related to a more accurate attention distribution. Second, the attention distribution is much more inaccurate for questions related to multiple objects. Finally, counting problem is not well solved by soft attention mechanism due to the attention weight normalization. We believe that these observation results can help future VQA research and analysing attention maps will also assist researchers to debug their own VQA systems.

 

本文通过对对象特征和图像特征问题、单个对象和多个对象问题、计数问题等三个面阐述了目前VQA系统存在的问题,为以后设计和建模视觉问答系统提供了方向,是一篇值得参考的文章。