Semantic Compositional Networks for Visual Captioning论文分享

Semantic Compositional Network for Visual Captioning是2017年发表在CVPR上的一篇论文。它的作者主要来自于杜克大学、清华大学和微软研究院（美国）。在这篇论文发表前，已经有几篇关于是使用语义信息来增强解码器生成语句质量的论文。这篇文章的创新之处在于它提出了一种使用语义信息来和循环神经网络参数进行的集成的方法。多标签分类网络对图像或者视频的分类结果被当作是视觉语义信息。

用于图像描述的普通RNN模型

有图像 Semantic Compositional Networks for Visual Captioning论文分享和对应的描述。我们首先提取特征向量。这通常是预训练卷积神经网络的最后输出的特征图。为了表示的简洁，我们用表示。长度为T的表述。不同的描述语句有不同的。被线性嵌入 Semantic Compositional Networks for Visual Captioning论文分享维的低维空间得到。的概率可以表示为。

对于简单的循环神经网络，它的运作可以表示如下 Semantic Compositional Networks for Visual Captioning论文分享，W是输入单词的转换矩阵，U是输入隐藏状态的转换矩阵，C是输入图像特征的转换矩阵。这三个矩阵把输入的三个特征映射到相同的低维实数空间中，其中图像特征只在第一步起作用。但是事实上，作者公布的代码里RNN的每一步都用到了图像特征。

语义概念检测

语义概念的检测有不少方法。这里采用的是多标签分类的方法。具体做法如下：首先从数据集的词汇表中提取中出现频率最高同时含义较为丰富的若干个单词作为图像的语义标签。接着图像有 Semantic Compositional Networks for Visual Captioning论文分享句描述，是该图像的标签向量。我们把出现在这几句描述中的单词标注为1，否则标注为0。然后在训练集上训练分类模型，在测试集上预测图像的标签概率分布。

这里的损失函数可以表示为 Semantic Compositional Networks for Visual Captioning论文分享。这实际上是单标签多分类网络的交叉熵损失函数的一种推广。多标签分类网络本身是一个多层感知机（MLP）。

SCN-RNN

这里就到了这篇论文的核心之处了。作者使用之前提取出来的图像语义信息来扩展传统的RNN网络参数，让这些权重矩阵成为依赖于标签的权重矩阵的集成。例如，普通的SCN-RNN可以表示成这样 Semantic Compositional Networks for Visual Captioning论文分享。和是依赖于语义标签的权重集成。s是语义概念向量。