Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade论文笔记

文章目录

1. Insight
2. Deep Layer Cascade
3. Contribution
Conclusion

Attention:

论文解读的博客原文发布于个人github论文合集欢迎关注，有想法欢迎一起讨论！私信评论均可。

后面有些语法在****的markdown上不支持，导致显示bug，我就懒得改了，有需求直接访问原博客查看。

创建人	github论文汇总	个人博客	知乎论文专栏
ming71	paperdaily	chaser	专栏

1. Insight

率先提出不同的像素本身具有不同难度的可分性，可以通过不同的分支设计，学习不同难分度的像素分割任务，从而提升分割精度；
将低层确定的像素进行mask，不参与后面的计算，能够加速网络计算；
相比MC模型的单个训练，这个可以端到端训练.

2. Deep Layer Cascade

Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade论文笔记

通过三个分支实现不同难度的pix分割识别。设置统一的ρ=0.95，每个分支加上两个646421的卷积层，其中21对应VOC的21类，再采用softmax在depth方向竞争确定pix的分类。以第一个分支为例，将得到的特征图经过卷积得到概率分布特征图后，筛选出大于ρ的概率类，直接确定该pix的label为对应的类别，并且后面用0mask阻断后面的传播。
在这里被阻断的样本无非两类：
（1）特别简单的分类任务，如牛肚子，背景，在这里直接确定，就不用参与后面的计算，加速模型
（2）特别难分的对抗样本：如牛肚子中打分出现了几个车的像素，而且conf非常高。这类样本也在这里留下，可以直接计算损失即可，如果后面层训练这种错误的难分样本，会导致网络过拟合，难以学习正确的特征。
对于分类概率小于0.95的属于本阶段不易分出的pix，传入下一个阶段进行同样的分割，后面依次如此，每个分支处理对应难度的pix分割任务。

3. Contribution

将简单和难分的pix使用不同的层进行区分学习，获得更好的效果
由于很多pix在浅层就直接确定了不参与后面的计算（通过mask 0-1），可以减少计算量。（实验证明设置ρ=0.95都能筛选掉30%以上的pix）
端到端的联合训练

Conclusion

率先提出不同的像素本身具有不同难度的可分性，根据这个区分难度进行按照不同难度的自适应（手工分级）学习分割任务
浅层确定了像素的分类后，通过0-1mask不参与后面计算，相当于Region-Conv降低计算量，提速