Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade论文笔记

Attention:

论文解读的博客原文发布于个人github论文合集 欢迎关注,有想法欢迎一起讨论!私信评论均可。

后面有些语法在****的markdown上不支持,导致显示bug,我就懒得改了,有需求直接访问原博客查看。

创建人 github论文汇总 个人博客 知乎论文专栏
ming71 paperdaily chaser 专栏

1. Insight

  • 率先提出不同的像素本身具有不同难度的可分性,可以通过不同的分支设计,学习不同难分度的像素分割任务,从而提升分割精度;
  • 将低层确定的像素进行mask,不参与后面的计算,能够加速网络计算;
  • 相比MC模型的单个训练,这个可以端到端训练.

2. Deep Layer Cascade

Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade论文笔记

  通过三个分支实现不同难度的pix分割识别。设置统一的ρ=0.95,每个分支加上两个646421的卷积层,其中21对应VOC的21类,再采用softmax在depth方向竞争确定pix的分类。以第一个分支为例,将得到的特征图经过卷积得到概率分布特征图后,筛选出大于ρ的概率类,直接确定该pix的label为对应的类别,并且后面用0mask阻断后面的传播。
  在这里被阻断的样本无非两类:
  (1)特别简单的分类任务,如牛肚子,背景,在这里直接确定,就不用参与后面的计算,加速模型
  (2)特别难分的对抗样本:如牛肚子中打分出现了几个车的像素,而且conf非常高。这类样本也在这里留下,可以直接计算损失即可,如果后面层训练这种错误的难分样本,会导致网络过拟合,难以学习正确的特征
  对于分类概率小于0.95的属于本阶段不易分出的pix,传入下一个阶段进行同样的分割,后面依次如此,每个分支处理对应难度的pix分割任务。

3. Contribution

  • 将简单和难分的pix使用不同的层进行区分学习,获得更好的效果
  • 由于很多pix在浅层就直接确定了不参与后面的计算(通过mask 0-1),可以减少计算量。(实验证明设置ρ=0.95都能筛选掉30%以上的pix)
  • 端到端的联合训练

Conclusion

  • 率先提出不同的像素本身具有不同难度的可分性,根据这个区分难度进行按照不同难度的自适应(手工分级)学习分割任务
  • 浅层确定了像素的分类后,通过0-1mask不参与后面计算,相当于Region-Conv降低计算量,提速