论文-《Answer Them All! Toward Universal Visual Question Answering Models》重点翻译+扩展

The projector F is modeled as a 4-layer MLP with 1024 units with swish non-linear activation functions [45].

投影F是一个四层MLP，有1024个单元，并且具有swish非线性**函数。

注释：

1.MLP：

感知机是神经网络（深度学习）的起源算法，是一个包含若干个输入和一个输出的模型。

输入和输出之间学习到一个线性关系，得到的中间结果为：

再接着一个神经元**函数：

这个模型只能用于二元分类，且无法学习比较复杂的非线性模型，因此在工业界无法使用

进而出现了多层感知机（MLP），也成为深度神经网络（DNN），虽然DNN看起来很复杂，但是从小的局部模型来说，还是和感知机一样，即一个线性关系z=∑wixi+bz=∑wixi+b加上一个**函数σ(z)σ(z)。神经网络在感知机的模型上做了扩展，总结下主要有三点：

（1）加入了隐藏层，隐藏层可以有多层，增强模型的表达能力

（2）输出层的神经元也可以不止一个输出，可以有多个输出，这样模型可以灵活的应用于分类回归

（3）对**函数做扩展，神经网络一般多用Sigmoid或者Relu等

而MLP的主要特性有：

（1）包含多个层（最少一个隐藏层）

（2）每一层内的神经元无连接

（3）每一层的神经元仅和下一层的神经元全连接

（4）信号仅以前馈方式传输

2.Swish是Google在10月16号提出的一种新型**函数,其原始公式为:f(x)=x * sigmod(x),变形Swish-B**函数的公式则为f(x)=x * sigmod(b * x),其拥有不饱和,光滑,非单调性的特征,而Google在论文中的多项测试表明Swish以及Swish-B**函数的性能即佳,在不同的数据集上都表现出了要优于当前最佳**函数的性能。

Question-Conditioned Graph (QCG) represents images as graphs where object-level features from bottom- up region proposals act as graph nodes and edges that encode interactions between regions that are conditioned on the question.

问题条件图将图像表示为一个图，由自底向上机制对候选区域提取的对象层次的特征作为图的节点和边，边表示了问题条件下区域之间的关系。

注释：

这里关于QXG的内容一点也没有搜到，但是了解到这个和图卷积有关，所以解释一下图卷积吧。

卷积神经网络很好，但是它研究的对象还是限制在Euclidean domains（欧几里得域）的数据。Euclidean data最显著的特征就是有规则的空间结构，比如图片是规则的正方形栅格（像素），比如语音是规则的一维序列。而这些数据结构能够用一维、二维的矩阵表示，卷积神经网络处理起来很高效。

但对于大数据而言，并不时只有图片和文本。比如推荐系统、电子交易、计算几何、脑信号、分子结构等抽象出的图谱。这些图谱结构每个节点连接都不尽相同，有的节点有三个连接，有的节点有两个连接，是不规则的数据结构。

可以很明显的感受到，图有两个基本的特性：

一是每个节点都有自己的特征信息，也就是自身节点的性质。

二是每个节点还具有结构信息，也就是节点与节点之间相连的信息。

Bilinear Attention Network (BAN) [28] fuses visual and textual modalities by considering interactions between all region proposals (visual channels) with all question words (textual channels).

双线性注意力网络通过考虑所有候选区域（视觉通道）和所有问题单词（文本通道）的交互来融合视觉和文本形态。

注释：

借助bilinear model的思想提出了bilinear attention的思想。常规的attention map是对单个特征的attention，output=feature * attention map，而本文提出的bilinear attention map则对两个特征的attention， output=feature1 * bilinear attention map * feature2，表达式如下：

左图通过MLB把图像特征和文本特征融合，进而得到bilinear attention map，右图则是把bilinear attention map用于进行图像特征和文本特征的attention融合。

Unlike dual-attention mechanisms [38], BAN handles interactions between all channels.

与双重注意力机制不同的是，BAN处理所有通道之间的交互。

注释：

对于位置注意力模块，引入self-attention机制来捕获任意两个位置之间的空间依赖性，具有相似特征的两个位置可以促进相互改进，而不管它们再空间维度上的距离。

对于通道注意力模块，使用类似的self-attention机制来捕获任意两个通道maps之间的通道依赖关系，并使用所有通道maps的加权和来更新每个通道maps。

It can be considered a generalization of low-rank bilinear pooling methods that jointly represent each channel pair.

它被认为是联合表示每一个通道对的低秩双线性池化方法的泛化。

注释：

1.bilinear pooling:

2.low-rank bilinear pooling:
所谓的低秩双线性池化，我的理解是由于双线性池化运算时参数矩阵过大，所以通过某种手段进行降维，使之有更高的速率。（资料太难查了，我哭辽）

Relation Network (RN) [48] takes in every pair of region proposals, embeds them, and sums up all N2 pair embeddings to produce a vector that encodes relationships be- tween objects.

关系网络对每一对候选区域进行嵌入，并且对每一个嵌入对进行加和生成一个表示对象间关系的编码。

注释：

分类器能够从每个类别的少量样本学会比较，从而实现小样本学习（Few-Shot Learning），并且稍加改进，就能够实现从少样本学习到零样本学习。该方法称之为关系网络（Relation Network (RN)）。

Often VQA models achieve state-of-the-art performance using visual features that differ from past models, making it difficult to tell if good performance came from model improvements or improvements to the visual feature representation

VQA模型通常使用视觉特征来实现最先进的功能，这和过去的模型不一样，这就导致很难判断好的性能是来源于模型的改进还是由于视觉特征的表示。

UpDn, QCG and BAN are all designed to operate on region proposals.

UpDn，QCG,BAN都是被设计用来操作候选区域的。

For both MAC and RN, we needed to modify the input layers to accept bottom-up features, instead of convolutional feature maps.

而对于MAC和RN，我们需要修改输入层来接收自底向上的特征而不是卷积特征图。

For MAC, we replace the initial 2D convolution operation with a linear projection of the bottom-up features.

对于MAC，我们使用自底向上特征的线性映射取代初始2D卷积操作。

For RN, we remove the initial convolutional network and directly concatenate bottom-up features with question embeddings as the input.

对于RN，我们去掉了最初的卷积网络，直接连接问题嵌入的自底向上特征作为输入。

MAC has the largest performance drop, which suggests its reasoning cells were not able to compose real-world visuo-linguistic concepts effectively

MAC单元的性能下降最大，这代表推理单元无法有效地构建真实世界视觉语言概念。

We believe that the recurrent aggregation aids in capturing interactions between the bimodal embeddings, which is critical for reasoning tasks, and that it also helps remove duplicate proposals by performing a form of non-maximal suppression.

我们认为循环嵌入有助于捕获双模态嵌入之间的相互作用，这对推理任务来说事至关重要的，并且它会通过执行非最大抑制帮助去掉重复区域。

The Transparency By Design (TBD) network [37] obtains 99.10% accuracy on CLEVR by using ground truth functional programs to train the network, which are not available for natural VQA datasets.

透明设计网络通过使用真值功能程序训练网络，可以在CLEVR数据集上达到99.10%的准确率，不过这个在真实VQA数据集上没有使用。

注释：

MIT和普朗克航空系统公司的研究人员合作，围绕视觉注意力机制，提出了一组视觉推理原语（primitives），组合起来后得到的模型，能够以明确可解释的方式，执行复杂的视觉推理任务，在视觉理解数据集CLEVR上达到了99.1%的准确率。他们将这种设计模型的方法称之为“透明设计”（Transparency-by-Design，TbD），使用这种方法设计出的网络则称为“透明设计网络”（TbD-nets)。

Neural-Symbolic VQA (NS-VQA) [53] reports a score of 99.80% on CLEVR, but uses a question parser to allocate functional modules along with highly specialized segmentation-based CNN features.

NS-VQA记录了其在CLEVR数据集上的分数99.8%，但它使用一个问题解析器来分配功能模块以及高度专门化的基于分段的CNN特性。

注释：

NA-VQA模型结合了两个强大的思想：用于视觉识别和语言理解的深度表示学习和用于推理的符号程序执行。系统首先从图像中恢复结构场景表示，从问题中恢复程序跟踪，然后在场景表示上执行程序以获得答案。

论文-《Answer Them All! Toward Universal Visual Question Answering Models》重点翻译+扩展

相关推荐