《Adversarial Cross-Modal Retrieval》阅读笔记
论文地址:
https://www.researchgate.net/publication/320541510_Adversarial_Cross-Modal_Retrievalwww.researchgate.net
来源:ACM Multimedia 2017
作者:电子科技大学英才实验学院2014级本科生王泊锟同学以第一作者身份发表,获ACM Multimedia 2017会议最佳论文奖。
一、Introduction
该论文基于对抗学习机制在不同模态之间互相作用获得一个有效的共享子空间,提出了一种新颖对抗性的跨模态检索(ACMR)方法,用于跨模态检索任务。
对抗学习机制是基于两个不同的过程之间的相互作用实现的。
1.第一个过程是一个特征映射器,尝试在共享子空间中产生模型不变的表示来混淆另一个过程。再对特征投影施加三元组约束,以最小化具有相同语义标签的不同模态的所有项目的特征向量之间的距离,同时最大化相同语义上不同的图像和文本特征向量之间的距离。
2.后者是一个模态分类器,主要基于第一个过程中产生的特征表示信息对不同模态进行区分。论文在四个公开的数据集上进行了有效性实验,其性能明显优于其他跨模态检索方法。
文章要做的事情(cross-media retrieval):
输入:image(sentence)+dataset 输出:sentence(image)rank list
二、Contributions:
1.框架的核心是两个过程之间的相互作用,一个特征映射器和一个模态分类器,特征映射器为公共子空间中的不同模态的项目生成模态不变表示。其目的是混淆充当对手的模态分类器。模态分类器试图根据其模态区分项目,并以这种方式控制特征映射器的学习。通过将模态分类器置于对手角色中。当模态分类器无法分辨时结束。
2.训练特征投影仪,使得它共同执行标签预测并在数据中保留底层的跨模态语义结构。通过这种方式,它可以确保学习的特征既可以在模态中进行区分,也可以在模态之间进行不变。
三、Model:
ACMR Model
1.左侧输入是Image和Text
Image:VGG-fc7的输出作为特征v_i
Text:利用简单的BoW(TF-IDF)作为特征t_i
2.接下来ACMR需要做一个Feature Projection,也就是将v_i与
t_i映射到Subspace
S
假设Projection Function是f(·),那么Image
v_i的Projection Features就是
S_v=f(v_i;\theta_v),Text
t_i的是
S_t=f(t_i;\theta_t)。
ACMR Model的目的就是为了学习出有效的S_v与
S_t。
ACMR学习出的的S_v与
S_t应该有这样三个性质:
-
Modality-invariant
-
Cross-Modal similarity
-
Semantically-discriminative
文章全篇就是对这三个性质进行探讨,从直觉出发解决了检索问题。
Modality Classifier
ACMR希望学习出的S_v与
S_t是在Common Subspace,也就是说两者有identical distribution,即让Modality Classifier(MC)无法分辨出输入是Image还是Text。
MC与Feature Projector之间形成了一个Adversary的关系,MC需要尽可能的分辨出Input是Image还是Text,如果最后MC分辨不出来了,那么就证明FP将Image和Text学习到了同一空间(当然中间还有其他的约束)。
文中MC的Loss定义如下(对于v_i和
t_i分别要计算出Cross-entropy)
应该为:
Feature Projector
Modality Classifier解决的只是Modality-invariant(模态不变,与S_t是在Common Subspace)问题
Cross-Modal similarity与Semantically-discriminative就需要Feature Projector(FP)来解决了,FP分为两部分,分别想解决这两个问题:
Label prediction:Semantically-discriminative
Structure preservation:Cross-Modal similarity
其中,Label prediction的目的在于使映射出的不同语义(Semantic)的Subspace特征可以彼此区分,Structure preservation使要确保相同语义的跨模态的Subspace特征要保持一致(invariant),从下图可以领会出两者的区别
Label Prediction:ACMR的Label prediction的目的在于解决(Semantically-discriminative)intra-modal disciminative的问题,因此Loss可以简单的定义为多分类交叉熵损失,在ACMR中被称为intra-modal discriminative loss
Structure preservation:为了保存inter-modal invariance,我们在最大化同模态不同语义item的gap同时,还需要使得跨模态相同语义的item的gap尽可能小。ACMR利用Triplet Constraint解决这一问题,首先定义出mapped representation之间的distance,paper里使用l_2
ACMR在实验中分别为Image v_i 与Text
t_i 构建了很多Triplet:
\{(v_i,t_j^+,t_k^-)\}_i 和
\{(t_i,v_j^+,v_k^-)\}_i,然后为Triplet定义出inter-modal invariance loss
合二为一:
另外,ACMR还定义了正则化损失
最后,FP的总Loss由两个参数\alpha与
\beta控制,称为embedding loss
Optimization