【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

论文链接

这篇论文非常有意思,不仅仅在于显著性,而在于数据集的生成。

本文主要内容:

一、提出使用神经网络做动态视觉显著性检测

二、提出一种人工合成视频数据的方法。★★★★★

三、在数据集上state-of-the-art,且速度更快。

 

网络结构

网络结构如图,输入单张图片经过全卷积网络输出得到静态显著性检测图,然后与下一帧的帧对结合,输入动态的全卷积网络得到最终的显著性检测图。网络结构非常清晰。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

 

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

 

视频数据的合成【人工合成帧对数据以及相应的显著性图】

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

 如上图,我们可以通过合成不同的光流图,加到原来的图像中,得到不同运动模式,不同形变,平滑转移的动态视频帧对。

首先,我们将图像根据显著性真图G分割成一组超像素R,再将R分为前景F和背景B。考虑动态下,背景也存在一定运动,选取10%的B中超像素S,,在[-d,d]的范围中随机移动,其中d=h/10(竖直方向为例),其余背景保持不动。前景物体一般整体移动,会比较紧凑,但不同部位移动幅度不同,因此,前景物体位移为m,在水平方向上在[m-d/10,m+d/10]的范围随机移动。从而确定原始的运动方向矢量v。

最后提出如下的损失函数,其中v为原始的运动向量。第一项为一元限制,表示每个超像素趋于原来的位置,第二项为平滑限制,表示色彩相似【可以理解为同为前景,或同为背景】并且相邻的超像素有一致的运动模式。

 

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

λ表示多大程度上希望区域保持一致,对于前景区域F和选出的部分背景超像素S,希望他们保持原来的运动趋势,对于其他背景区域,只希望保持平滑。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

 wii‘ 如下式,C(r)表示超像素中像素的平均颜色向量,如果相邻像素分别为前景和背景,则w为0,保持前景和背景的不同,以及前景内和背景内的一致性。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

 最终结果:【做的时间比较早,效果肯定不必现在,但是这方面的研究也比较少】

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

 溶解实验:总之静态以及动态一起才最好。另外,丰富的训练数据也是非常关键的一环。

【视频显著性检测】Video Salient Object Detection via Fully Convolutional Networks【论文笔记】

有意思的点:

1. 输入帧对,而不是使用光流,保证使用的数据能够体现动态变化。【与光流信息相结合也是一种思路,例如浅融合,深度融合等等】

2 极大的数据生成,可以解决训练数据太少的因素,也极大拓展网络的性能【数据增强,以及多种预处理值得重视】