论文解读:IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things
IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things
摘要:本文工作,提出一个新的模块Instance Mask Projection(IMP),将预测的实例分割作为语义分割的新特征。 IMP在服装解析和街景分割数据集上都很有效 。在一些其他的数据集上也有提高。
我们建议结合目标/实例检测结果:边界框和实例mask预测中的信息。我们的方法的核心是一个新的操作模块,即实例mask投影(IMP),它将每次检测的Mask R-CNN的预测mask(带有不确定性)投影到一个feature map中,作为语义分割的辅助输入,极大地提高了准确性。
上图就是IMP模块的一个实例,生成的裙子检测结果作为IMP模块的输入(包含分类,置信度,边界框和MASK信息),被映射到特征层上,再和语义分割特征进行拼接用于进行最后的语义分割结果预测。
为什么要这么做?
预测的mask可以表明一些属性:对象存在与否,对象种类。、
通过使用检测/实例分割模型输出的实例掩码,该方法可以以对象的存在/不存在/类别为单位进行决策,并显式估计和使用检测对象的尺度来聚合特征。
作为验证该方法有效性的一部分,我们展示了几个新的结果:
- 对于某些对象,Mask R-CNN[16]预测的对象掩码有时比语义分割更准确。见第4.1节和4.2节。
- 根据这一认识,我们设计了实例mask投影(IMP)模块来投影这些掩码,作为语义分割的一个特性,参见第3.1节。
- 基于IMP的分割结果大大提高了服装分割中语义分割的研究水平。在ModaNet上显示最佳结果,将DeepIOV3 +的平均IOU从51%提高到71.4%。 参见4.2部分。
- 通过三个数据集,使用来自IMP的特征大大改善了全景分割基线(没有IMP的相同系统),并产生了最先进的结果。参见3部分。
本文的目标是开发一个联合实例/语义分割框架,它可以直接集成实例分割的预测,从而产生更准确的语义分割标记。本文分别使用Mask R-CNN 和 Panoptic FPN结构做实例分割和语义分割预测。也可以用其他实例,语义分割模型替代。实验也用了别的模型组合进行对比。
下图是Panoptic FPN+IMP 模型结构。
我们的整体模型包括四个部分:
- FPN+MASK R-CNN,用于目标/实例检测。
- IMP 实例掩码映射模块,以实例检测的输出结果作为输入去生成特征层。
- 语义分割模块采用Panopic FPN,上采样和转换四层的特征并相加起来。
- 结合模块。将IMP和语义分割结果拼接起来,进而组成了语义分割预测head模块。
在训练部分,我们采用了两个阶段的训练解决方案,首先训练一个Mask R-CNN检测/实例分割模型,然后以此作为初始预测来训练我们的整个模型。
下面是一些实验结果,评估和消融实验。
像素到边界的L2距离(一个评价方式)
我们提出的方法在平均IoU上有很大提升。
不同模型的分割效果展示。
Maskrcnn+IMP模块后,分割会更清晰。
Panotic-FPN+IMP不仅分割结果更清晰,边缘也较Maskrcnn+IMP更平滑,锯齿感更少。
总结:
In this work, we propose a new operator, Instance Mask Projection, which projects the results of instance segmen-
tation as a feature representation for semantic segmentation.This operator is simple but powerful. Experiments adding IMP to Panoptic-P2/Panotpic-FPN show consistent improvements, with negligible increases in inference time.
Although we only apply it on the Panoptic-P2/Panoptic-FPN, this operator can generally be applied to other architectures as well.