【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation

【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation

abstract

Semantic labelling and instance segmentation are two tasks that require particularly costly annotations. Starting from weak supervision in the form of bounding box detection annotations, we propose a new approach that does not require modification of the segmentation training procedure. We show that when carefully designing the input labels from given bounding boxes, even a single round of training is enough to improve over previously reported weakly supervised results. Overall, our weak supervision approach reaches ∼95% of the quality of the fully supervised model, both for semantic labelling and instance segmentation.

From boxes to semantic labels(根据bounding box得到像素语义的先验信息)

  • C1 Background bounding box以外的都被标注为背景
  • C2 Object extent bounding box注释限制了每个实例的范围。假设物体形状的先验(例如,椭圆形物体比薄条或全矩形物体更有可能),该框还提供了有关预期对象区域的信息。我们在训练使用这个尺寸信息。
  • C3 Objectness 除了范围和面积外,手边还有更多的物体优先物。通常使用的两个前项是空间连续性和与背景的对比边界。一般来说,我们可以利用关于物体形状的先验信息,使用segment proposal[35],这些技术被设计用来枚举和排列图像区域中可能出现的物体形状。

Box baselines

Box

将bounding box以内的都标注为前景,以外的都标注为背景。

【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation
使用bounding box提供的先验信息训练convnet,再将convnet预测的结果作为下次迭代的输入,convnet预测得到的结果需要经过如下的去噪处理:

  1. 落在bounding box以外的像素都标注为背景(cue 1)
  2. 如果分割的结果和bounding box重叠太小(IoU<50%),这个区域将被重置为初始标签(fed in the first round).(cue 2)
  3. 由于语义标注方法的普遍应用,我们对网络的输出进行过滤,以更好地贴近object的边界。(我们使用DenseCRF[20]和DeepLabv 1参数[5])。在我们的弱监督场景中,边界感知滤波对于改进对象描述特别有用(cue 3)。

Box^i

我们还考虑了第二个变体:BoxiBox^i,它不使用填充的矩形作为初始标签,而是填充20%的内区域,并将边框的剩余内区保留为忽略区域。【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation

GrabCut baselines

我们提出了一种GrabCut的修正版本:GrabCut+,使用HED boundaries 作为pairwise term代替传统的RGB。(他的意思是不是用HED得到的边缘图代替RGB作为GrabCut中GMM建模的训练集?)
我们考虑了其他GrabCut变体,如[7,40];然而,建议的GrabCut提供了更高质量的片段(见补充材料)。与Boxi类似,我们还考虑了GrabCut I变体,它将召回转换为更高的精度。对于每个带注释的框,我们生成多个(∼150)扰动GrabCut输出。如果70%的分割蒙版将像素标记为前景,则将像素设置为Box对象类。如果少于20%的段将像素标记为前景,则将像素设置为背景,否则将其标记为忽略。扰动输出是通过抖动盒坐标(±5%)以及GrabCut考虑的外部背景区域的大小(从10%到60%)产生的。GrabCut I的一个示例结果可以在图3g中看到。

Adding objectness

在我们的最后一种方法中,我们试图通过使用segment proposal来更好地结合对象的形状先验。segment proposal技术的设计是为了生成一堆可能的对象分割结果,其中包含了尽可能多的“对象性”优先级(cue C3)。
使用MCG作为proposal的算法。作为最后阶段,MCG算法包括基于在Pascal VOC 2012数据集上训练的决策林的排序。我们不使用这个最后的排名阶段,而是使用所有(未排序)生成的分割结果。对于给定的bounding box标注,我们选取重叠度最高的proposal作为对应的分割结果。
使用MCG的结果来增强GrabCut+,标注框中的像素只有被MCG和GrabCut都标注为前景时才被取为前景。
【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation

不同方法的结果

【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation
【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation
【论文笔记】Simple Does It: Weakly Supervised Instance and Semantic Segmentation

From boxes to instance segmentation

在对前面章节的实验进行补充的基础上,我们还探讨了第二项任务:弱监督的实例分割。据我们所知,这是首次报道的关于这项任务的实验。随着对象检测的进展,需要提供比对象周围的简单边界框更丰富的输出。最近,[14,33,31]探索了训练凸集,以输出给定边界框内实例的前景和背景分段。这类网络使用区分实例的像素级注释进行培训。这些注释比语义标记更详细、更昂贵,因此人们对弱监督的培训很感兴趣。

如第3.2节所述,用于培训的部分是从单个对象包围框开始生成的。每个分割表示不同的对象实例,因此可以直接用于训练实例分段ConvNet。对于每个带注释的边界框,我们使用GrabCut+方法生成前景和背景分段(第3.2节),并训练ConvNet从图像和边界框信息到实例分割。

Instance segmentation results

Experimental setup 我们选择了一个有目的简单实例分割pipline。我们使用Fast-RCNN[10]检测(post NMS)和它们的类得分,并对每个检测估计一个相关的前景分割。我们使用一些基线方法(例如GrabCut)来估计前景,或者使用对任务进行训练的凸网[33,6]来估计前景。

Conclusion

本文提出的一系列实验为如何仅从包围盒注解中训练像素标记凸网提供了新的见解。我们表明,当仔细使用可用的线索时,只使用矩形作为输入的递归训练是非常有效的(BoxiBox_i)。更重要的是,当使用基于bounding box的分割技术,在噪声训练段的accuracy和recall之间取得很好的平衡时,我们可以在一轮训练中达到最先进的性能,而不需要修改分割网络训练过程(M∩G+)。我们的结果改进了以前报道的语义标记任务,达到了∼95%的质量,同一网络的训练在地面真值分割注解(对同一数据)。通过使用额外的培训数据和COCO的边界框注释,我们能够匹配完整的监督结果。我们还报告了弱监督的实例分割的第一个结果,其中,我们也达到了95%精度的全监督训练。
我们目前的方法利用了现有的盒驱动分割技术,分别处理每个带注释的框。在今后的工作中,我们将探索协同思想(将批注集作为一个整体处理),并考虑更弱的监管形式。