[IDW-CNN]Learning Object Interactions and Descriptions for Semantic Image Segmentation

IDW-CNN

Abstract

CVPR 2017的文章,中山,港中文,商汤和中科院深研院合作的文章,和DIS是相同的作者.
本文仍然是立足于说现有的图像详细标注太少,导致语义分割的性能的首选,所以采用一种若监督的方法来提升性能(这个motivation似乎可以是所有弱监督方法的mt).本文提出使用Image Descriptions in the Wild(IDW)数据集结合VOC2012联合训练,为此构造一种深度学习网络IDW-CNN来提高分割的性能.方法的有点是(1)可以联合不同数据集的不同的知识(2)随着IDW数据集的增大,VOC上的性能可以持续提高.

Introduction

使用IDW(图片和描述信息)联合学习的好处在于,物体交互信息可以转化到VOC12中提高分割性能,反过来VOC12可以捕获更精确的物体位置和边界信息来提高提高IDW提取物体交互的能力.

IDW的构建

首先,找到21个出现频率高的动词和从VOC中选择20中物体,组成一些句子,然后选择其中合法的句子;然后通过Internet搜索图片,获取图片和其周围的文字;之后使用Standford Parser对句子进行解析,最后得到最终的描述.

数据集分割

int-IDW: 1440张物体交互动作测试集
seg-IDW: 分割测试集
zero-IDW: 稀有类别测试集

Framework

[IDW-CNN]Learning Object Interactions and Descriptions for Semantic Image Segmentation
主要有四个Loss,分成两大模块

  • seg-stream
    1.和2.是seg-stream,在2.的位置使用seg进行监督,IDW是没有seg labemap的
  • int-stream
    3.和4.是物体交互-stream,其中VOC有object,但是没有交互动作
  • Object-Pair Selection是一种关键点
    由于一张图中的物体交互行为种类个数均不确定,使用OPS将每一种交互动作都传输到后续的层中进行训练,不同的图片自适应个数.

Seg-stream的反向传播

VOC的图片是具有labelmap的,但是IDW的没有.于是就是用2.预测的结果作为1.的ground truth进行反向传播.

Int-stream的反向传播

IDW具有object和interaction的label,但是VOC只有object没有interaction,这里就通过观测数据集中的分布来获取一个先验概率,如果VOC的interaction符合这个结果,就给低的penalty,否则该出高的penalty.

训练细节

首选只训练1.,然后训练1.2.3.,然后联合训练.

Experiment

最后在VOC12 test上达到了SOTA.
[IDW-CNN]Learning Object Interactions and Descriptions for Semantic Image Segmentation

Others

还没有开源代码