多模态融合(五)Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering
背景
本篇论文的工作来自香港中文大学。研究内容是VQA
摘要
学习有效地融合多模态特征是视觉问题回答的核心。本文提出了一种动态融合模态内、模态间信息流,即在视觉模态和语言模态之间传递动态信息的新方法。作者提到,在此之前,处理VQA问题所使用的方法基本分为两大派,模态内的关系学习或者模态间的关系学习。然而,在解决VQA问题的统一框架中,模态间和模态内的关系从来没有被联合研究过。本文认为,对于VQA问题,每个模态内的模态关系与模态间的关系是互补的,而现有的VQA方法大多忽略了这一点。
方法
Intermodality Attention Flow 模态间的注意力流
受Transformer模型的启发,利用
W
Q
,
W
V
,
W
K
W_Q,W_V,W_K
WQ,WV,WK矩阵将输入的视觉特征、文本特征分别转换为K、Q、V矩阵。即
之后计算(双向)模态间的信息流
第一次得到视觉特征和文本特征的更新值
将该更新与原特征concate后再线性变换,得到inter-modal交互的输出
Dynamic Intramodality Attention Flow 动态的模态内注意力流
传统的Transformer结构,是根据单模态输入得到的K,Q,V矩阵,计算模态内的自注意力
这样设计的模态内交互结构被称为native IntraMAF。有何缺点?
我们知道,native IntraMAF模块仅利用内模态信息来估计区域到区域和单词到单词的重要性。有些关系是重要的,但只能以来自其他模态的信息为条件加以识别。例如,即使是相同的输入图像,不同视觉区域对之间的关系也应该根据不同的问题进行不同的加权。即使是同一个图像,根据问题的不同,各region间关联关系也就不同,因此模态内注意力也应当考虑来自其他模态的信息。
据此,本文提出了一种动态的内模态注意流(DyIntraMAF)模块,以另一模态的信息为条件来估计本模态内部各组件关系的重要程度。
示意图如下
两种模态在计算Q、V矩阵时均受到来自对方的条件门控向量的影响
模态内的自注意力权值
对原特征进行第二次更新
将模态内和模态间注意力流进行集成
在本文提出的DFAF框架中,我们使用一个InterMAF模块和一个DyIntra- MAF模块来形成一个基本块。通过多个块的堆叠构成了DFAF网络。利用随机梯度下降法可以有效地训练非常深的模态内和模态间信息流。此外,我们在训练中利用多头注意力,将原始特征沿通道维度拆分为若干组,不同组产生并行的注意力流,不同组的视觉特征和文字特征独立更新。
实验结果
对比实验
消融研究
结论
本文提出了一种动态融合模态内和模态间注意力流的新框架(DFAF)用于VQA。DFAF框架根据模态间和模态内的注意力流交替地在模态内或者跨模态传递信息。inter-modal和intra-modal顺序连接构成了DFAF的基本单元,利用多个基本单元叠加可以提高VQA的性能。