Video Object Segementation with Re-identification(VS-ReID)

一般的视频分割都是通过temporal continuity去传播掩码，但是对于一些漂移和大的移位问题导致目标丢失，不能解决。为了解决这类问题，这篇文章制定了一个自适应对象重新识别（VS-REID）机制来防止目标丢失。
整个模型中包括两部分：掩码传播模块和REID模块
前一模块是有flow warping（maskTrack中的技术）产生一个初始的预测图。
后一模块是通过自适应匹配（adaptive matching）恢复缺失的实例。

1. 介绍

a mask propagation module

ReID module

(1) a mask propagation module

有两个分支，一个RGB，一个optical flow
其中RGB中，输入一个bounding box和一个guided probability map，产生一个segmentation mask
在optical flow分支中，输入一个guided probability map和optical flow，产生一个预测结果。

guided probability map也是一个分割图

（2）re_identified with a high confidence==>a higher priority to be recovered

3.方法

Mask Propagation module

Video Object Segementation with Re-identification(VS-ReID)

从Pi,k到Pj,k 
Pi,k是指第i帧物体k的像素级别的分割概率结果图
Pj,k是指第j帧物体k的像素级别的分割概率结果图
Ii和Ij是相邻帧

1.用flownet2.0去提取optical flow fi->j
2.通过双边变形函数W根据fi->j计算Pi->j,k
3.用一个mask propagation 网络 Nmp去微调粗略估计

从上图可以看出输入部分接受的是大小规范的patch（将感兴趣的物体作为输入产生精确概率patch）
采用这种方式是因为：用物体补丁做为输入，可以更好的处理不同规模的物体。
我们通过bounding box b裁剪Ij,b fi->j,b和Pi->j,k ,b，然后resize到原始图像尺寸并且用一个全零map？？？？？（看代码）去产生Pj,k的预测值

Mask Propagation Network

1.采用更深的ResNet101（残差网络）网络去增加模型的容量（深度？？？）
2.因为我们用patch作为输入，所以可以捕获更多的细节比起放一整个图来说，我们也可以轻微的扩大bounding box图去获得更多的上下文信息。
3.为了提高预测图的分辨率，通过减少stride来扩大特征图的尺寸，并且通过dilated convolution（空洞卷积）去代替卷积
4.采用了空间金字塔池化和多尺度测试，早独立分支训练以后，两个流被联合微调以进一步改善性能

重识别模块

Video Object Segementation with Re-identification(VS-ReID)

1.先是用mask模块预测。
2.在第i帧上，输入tk（用bounding box t的尺寸去裁剪物体k），输出边界框x和重识别分数s（其中有两个网络，一个获得候选框网络Ndet，一个计算重识别分数的网络Nreid）

* 先通过Ndet获得候选框Xj，然后去找最相似的边界框。
* 其中重识别分数通过测量从Nreid提取的特征之间的余弦相似性。
* 假设xj是最相似的候选边界框，要满足两个条件
（1）xj和tk的重识别分数要大于一个阈值preid（要有足够大的相似度，才能证明是当前识别物体）
（2）当前Pi,k中没有包含Xj，当前Pi,k与Xj的IOU阈值小于一个pocc（如果包含就没必要重新识别了）

Ndet是采用的检测网络中的Faster R-CNN
Nreid采用的“识别网络”的架构，并且重新训练。

疑问：
在ReID中，输入的tk怎么得到的？
（从第一帧得到的？）

当前k已经跟丢，Pi,k中没有分割出的k
对于每个实例的bounding box在每一帧都存在吗?(这个应该不用考虑，那个网络只需要输入tk，不需要bounding box），最终得到的是一个bounding box

VS-ReID

Video Object Segementation with Re-identification(VS-ReID)

1.先初始化所有的概率引导图（初始分割图）
2.枚举出所有的分割实例，然后从头到尾先进行mask propagation module，得到预测分割结果
3.进行重识别模块，获得边界候选框X和重识别分数S
4.恢复过程和mask propagation过程很相似，但是不同的是没有来自相邻帧的引导概率图，只有第一帧裁剪出实例k的tk，还有算出来的optical flow，获得恢复后的引导概率图。
5.获得后，从当前帧为起始点开始双向传播去恢复。
6.设置了一个checkpoint机制去避免存在的概率图被损坏的情况。（因为可能前面恢复后，后面又进行再次对这个帧的恢复会造成上一次恢复损坏）
设置了一个Ci,k作为Pi,k被恢复的开始点，每一个概率map更倾向于被更近的图去更新。

实现细节

mask propagation的两个分支先是被独立训练。

RGB在MS-COCO和PASCAL VOC上预训练。引导概率map是由真值随机变形形成的。然后在DAVIS上微调。
flow 分支用RGB的权重初始化，然后在DAVIS上微调。
最后上面两支再都在DAVIS上微调。
检测和重识别网络在ImageNet上训练。## Video Object Segementation with Re-identification(VS-ReID)

Video Object Segementation with Re-identification(VS-ReID)