Video Object Segementation with Re-identification(VS-ReID)
Video Object Segementation with Re-identification(VS-ReID)
一般的视频分割都是通过temporal continuity去传播掩码,但是对于一些漂移和大的移位问题导致目标丢失,不能解决。为了解决这类问题,这篇文章制定了一个自适应对象重新识别(VS-REID)机制来防止目标丢失。
整个模型中包括两部分:掩码传播模块和REID模块
前一模块是有flow warping(maskTrack中的技术)产生一个初始的预测图。
后一模块是通过自适应匹配(adaptive matching)恢复缺失的实例。
1. 介绍
a mask propagation module
ReID module
(1) a mask propagation module
有两个分支,一个RGB,一个optical flow
其中RGB中,输入一个bounding box和一个guided probability map,产生一个segmentation mask
在optical flow分支中,输入一个guided probability map和optical flow,产生一个预测结果。
guided probability map也是一个分割图
(2)re_identified with a high confidence==>a higher priority to be recovered
3.方法
Mask Propagation module
从Pi,k到Pj,k
Pi,k是指第i帧物体k的像素级别的分割概率结果图
Pj,k是指第j帧物体k的像素级别的分割概率结果图
Ii和Ij是相邻帧
1.用flownet2.0去提取optical flow fi->j
2.通过双边变形函数W根据fi->j计算Pi->j,k
3.用一个mask propagation 网络 Nmp去微调粗略估计
从上图可以看出输入部分接受的是大小规范的patch(将感兴趣的物体作为输入产生精确概率patch)
采用这种方式是因为:用物体补丁做为输入,可以更好的处理不同规模的物体。
我们通过bounding box b裁剪Ij,b fi->j,b和Pi->j,k ,b,然后resize到原始图像尺寸并且用一个全零map?????(看代码)去产生Pj,k的预测值
Mask Propagation Network
1.采用更深的ResNet101(残差网络)网络去增加模型的容量(深度???)
2.因为我们用patch作为输入,所以可以捕获更多的细节比起放一整个图来说,我们也可以轻微的扩大bounding box图去获得更多的上下文信息。
3.为了提高预测图的分辨率,通过减少stride来扩大特征图的尺寸,并且通过dilated convolution(空洞卷积)去代替卷积
4.采用了空间金字塔池化和多尺度测试,早独立分支训练以后,两个流被联合微调以进一步改善性能
重识别模块
1.先是用mask模块预测。
2.在第i帧上,输入tk(用bounding box t的尺寸去裁剪物体k),输出边界框x和重识别分数s(其中有两个网络,一个获得候选框网络Ndet,一个计算重识别分数的网络Nreid)
* 先通过Ndet获得候选框Xj,然后去找最相似的边界框。
* 其中重识别分数通过测量从Nreid提取的特征之间的余弦相似性。
* 假设xj是最相似的候选边界框,要满足两个条件
(1)xj和tk的重识别分数要大于一个阈值preid(要有足够大的相似度,才能证明是当前识别物体)
(2)当前Pi,k中没有包含Xj,当前Pi,k与Xj的IOU阈值小于一个pocc(如果包含就没必要重新识别了)
Ndet是采用的检测网络中的Faster R-CNN
Nreid采用的“识别网络”的架构,并且重新训练。
疑问:
在ReID中,输入的tk怎么得到的?
(从第一帧得到的?)
- 当前k已经跟丢,Pi,k中没有分割出的k
- 对于每个实例的bounding box在每一帧都存在吗?(这个应该不用考虑,那个网络只需要输入tk,不需要bounding box),最终得到的是一个bounding box
VS-ReID
1.先初始化所有的概率引导图(初始分割图)
2.枚举出所有的分割实例,然后从头到尾先进行mask propagation module,得到预测分割结果
3.进行重识别模块,获得边界候选框X和重识别分数S
4.恢复过程和mask propagation过程很相似,但是不同的是没有来自相邻帧的引导概率图,只有第一帧裁剪出实例k的tk,还有算出来的optical flow,获得恢复后的引导概率图。
5.获得后,从当前帧为起始点开始双向传播去恢复。
6.设置了一个checkpoint机制去避免存在的概率图被损坏的情况。(因为可能前面恢复后,后面又进行再次对这个帧的恢复会造成上一次恢复损坏)
设置了一个Ci,k作为Pi,k被恢复的开始点,每一个概率map更倾向于被更近的图去更新。
实现细节
mask propagation的两个分支先是被独立训练。
-
RGB在MS-COCO和PASCAL VOC上预训练。引导概率map是由真值随机变形形成的。然后在DAVIS上微调。
-
flow 分支用RGB的权重初始化,然后在DAVIS上微调。
-
最后上面两支再都在DAVIS上微调。
-
检测和重识别网络在ImageNet上训练。## Video Object Segementation with Re-identification(VS-ReID)