论文阅读:Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition

Zoom-Net(ECCV2018)

文章
  Paper展示了通过对local的object feature和global的predicate feature进行深层次的message passing和interaction是增强relationship recognization性能的一个有效途径。为了能够对object和predicate学习好的特征,paper研究了3种可解释的模型。
论文阅读:Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition
1)Appearance Module(b):
  关注每个RoI的自身依赖性,不使用message passing,独立地对object和predicate特征进行学习,而且无法获得空间和上下文的信息。
2)Context-Appearance Module(c):
  直接在subject,predicate,object三个分支中进行信息的传递,但是这些特征信息的组合并不考虑这些RoI在原图中的空间分布。
3)Spatiality-Context-Appearance Module(d):
  空间特征是指比如subject和object之间的相对尺寸和位置
接下来是paper提出的模型的细节:
论文阅读:Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition
1)Constractive RoI Pooling:
  代表了一个<RoI, deRoI>的操作,首先对object进行RoI pooling得到归一化的局部特征,然后将这些特征进行deRoI pooling到predicate的box内,然后在该特征周围补0,达到和predicate一样的尺寸。SCA-M中一共有3处Constractive RoI pooling,分别为了综合subject-predicate,subject-object,predicate-object特征。
2)Pyramid RoI pooling:
  代表了一个<RoI, RoI>的操作,可以将predicate特征传递给subject和object特征。第一次RoI pooling是在整张图片的feature map上对predicate的union box进行RoI pooling;第二次RoI pooling是在上一步得到的feature map上对subject或者object的box进行RoI pooling。
论文阅读:Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition
将SCA-M堆叠起来便可以对s,p,o的特征进行更复杂的融合。
  Intra-Hierarchical Tree简称IH-tree,paper为object和predicate分别构建了IH-tree,用以度量object class内部以及predicate class内部之间的correlation。
论文阅读:Zoom-Net: Mining Deep Feature Interactions for Visual Relationship Recognition
  Object IH-tree和object loss: 一共有三层,根节点为所有的object class,有些object在去掉属性和噪声后其实是相同的,比如old man,young man,men的共有的更高的节点应该是man,这些去掉了属性修饰的class构成第二层,然后对于第二层的节点,又可以按照semantic进行聚类,比如man,woman,girl这些都应该是human,需要与animal等等区别,这样聚类又得到第三层。作者使用了NLTK来做这些事情。对于每个object的classify,softmax输出也会有三部分,分别对应三层,loss相加即可。 Predicate IH-tree和predicate loss: 和object一样,根节点是数据集出现的所有predicate,但是和object不一样的是,predicate的构成很复杂,包括动词、介词、形容词等等,因此构建第二层时,主要是要抽取共有的动词、介词或者动介词搭配,比如从on a man’s, on a, on her得到on,从stands on, standing on a, are standing on得到stand on,从wearing,wears a, wearing a pink等提取出wear。第三层有两类节点,verb和preposition,由第二层抽取。loss一样由3部分构成。