【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

论文链接

这篇论文非常有意思，不仅仅在于显著性，而在于数据集的生成。

本文主要内容：

一、提出使用神经网络做动态视觉显著性检测

二、提出一种人工合成视频数据的方法。★★★★★

三、在数据集上state-of-the-art，且速度更快。

网络结构

网络结构如图，输入单张图片经过全卷积网络输出得到静态显著性检测图，然后与下一帧的帧对结合，输入动态的全卷积网络得到最终的显著性检测图。网络结构非常清晰。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

视频数据的合成【人工合成帧对数据以及相应的显著性图】

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

如上图，我们可以通过合成不同的光流图，加到原来的图像中，得到不同运动模式，不同形变，平滑转移的动态视频帧对。

首先，我们将图像根据显著性真图G分割成一组超像素R，再将R分为前景F和背景B。考虑动态下，背景也存在一定运动，选取10%的B中超像素S，，在[-d,d]的范围中随机移动，其中d=h/10（竖直方向为例），其余背景保持不动。前景物体一般整体移动，会比较紧凑，但不同部位移动幅度不同，因此，前景物体位移为m，在水平方向上在[m-d/10，m+d/10]的范围随机移动。从而确定原始的运动方向矢量v。

最后提出如下的损失函数，其中v为原始的运动向量。第一项为一元限制，表示每个超像素趋于原来的位置，第二项为平滑限制，表示色彩相似【可以理解为同为前景，或同为背景】并且相邻的超像素有一致的运动模式。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】