Motivation

本文是semi-supervised的方法。最近有很多方法是在已有标注的视频帧上finetune出结果，所以作者想提出单一forward的网络segment instance object in video。

Pipline

Efficient Video Object Segmentation via Network Modulation

网络的主体是“Segmentation Net”，Backbone是VGG16，作者在倒数四层每一层都加了一个“Modulator”，每个Modulator包括一个“Visual M”和“Spatial M”。

Visual Modulator

把visual guide frame（annotated first frame）输入网络（VGG16），并通过全链接，输出scalar个数为对应Segmentation Net最后4层通道数数。相当于学习Segmentation Net最后4层每个通道数的weight，每个通道学到的参数记作： Efficient Video Object Segmentation via Network Modulation

Spatial Modulator

把pre-mask变成一个2维高斯分布的heatmap，记作 Efficient Video Object Segmentation via Network Modulation ，用于添加一个location信息，会做下采样来和Segmentation Net最后四层的feature map 的尺寸对齐。同时还会对每次下采样的heatmap做一个防缩和平移(用一个1x1的卷积实现)：

Efficient Video Object Segmentation via Network Modulation

Modulator

因此结合两者，可以得到每一层的输出：

Efficient Video Object Segmentation via Network Modulation

Implementation details

作者也是先在image dataset上pretrain（stage1），再在video dataset（DAVIS2017）上finetune20 epoch。

Result

作者做了对比实验，-B实验是只在image 上pretrain，-M实验是作者在这两个网络最后一层加上作者设计的Modulator

Efficient Video Object Segmentation via Network Modulation

就搞不懂作者说的FT是怎么样的

2020年01月08日

Efficient Video Object Segmentation via Network Modulation

Motivation

Pipline

Visual Modulator

Spatial Modulator

Modulator

Implementation details

相关推荐