DenseASPP for Semantic Segmentation in Street Scenes阅读笔记

DenseASPP for Semantic Segmentation in Street Scenes

摘要

本文提出了一种用于自动驾驶场景的DenseASPP网络。自动驾驶场景中的各个物体由于与摄像头距离不同,在规模尺寸上会有很大的差异,如图1所示。

因此,要使得多尺度的信息都被正确编码,这对场景中的高级特征表示方法提出了挑战。

针对这个问题,首先有人提出了带孔卷积[1],它能在不损失空间分辨率的前提下,提高感受野。然后有人提出了Atrous Spatial Pyramid Pooling(ASPP)[2],它可以将在不同扩张比下产生的带孔卷积特征图concatenate到最终的特征图中。

  • ASPP的不足
    对于自动驾驶场景来说,在scale-axis上的特征分辨率不够密集。
  • 解决方法
    提出Densely connected Atrous Spatial Pyramid Pooling(DenseASPP),它将一系列的带孔卷积层以一种密集的方式连接,因此它能够产生多尺度特征,这些特征以一种更加密集的方式包含着更广的scale范围,且这样做并不会显著扩大模型尺寸。

作者在Cityscapes[3]上进行了测试,并达到了最佳性能。

一、相关工作

高级语义信息对于好的performance至关重要,为了提取高级信息,FCN使用了多层的pooling以扩大感受野,但,这样做却降低了恢复出的图片分辨率,感受野和分辨率二者相互矛盾;于是提出了带孔卷积,带孔卷积核可以以不同的比率扩张(填零),优点是不增加参数量却扩大了感受野、增强了语义信息,但,在带孔卷积特征图中,所有神经元有同样的感受野,这意味着语义分割只在某一个规模上利用了特征,然而多尺度利用特征有利于处理模糊场景并且在分类时更具鲁棒性[4];于是提出了ASPP,它将不同带孔卷积率产生的特征串联起来,以使输出特征图中的神经元包含着多种尺寸的感受野,也就包含多规模信息,从而提升性能,但,ASPP也有不足,因为在自动驾驶领域的图片往往具有很高的分辨率,这就要求神经元拥有更大的感受野,在ASPP中如果扩大扩张比例(如d>24),则会使得带孔卷积越来越无效并且失去建模能力。

因此针对自动驾驶图片处理中,需要一个既能够编码多规模信息,又有更大的感受野的网络。

二、 网络结构

DenseASPP的网络结构如图2所示。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
图2(a)(b)是从细节与凝聚的不同角度对DenseASPP网络的描述,它以带孔卷积处理的层叠为base,它使用了上图中密集连接的方式,使得每一个带孔卷积生成的特征图feed到未被访问的带孔卷积层的头部。图2(b)给出了更为凝聚的表达方式。每一个带孔卷积层使用的d<24,这是合适的,从而避免了ASPP中d>24时出现的问题,并且,经过一系列的带孔卷积后,每一层的特征图都拥有着更为广阔的感受野,另一方面,通过一系列的特征串联,中间产生的特征图的神经元中包含了不同规模的语义信息,并且不同的特征图从不同的规模范围中编码多规模信息。

DenseASPP结合了并行和级联使用带孔卷积层的优点,并在更大范围内生成更多尺度的特征。DenseASPP的名字是继承了DenseNet[5],它可以被看做一个特殊的DenseASPP,即把它的d设置成1。因此DenseASPP也拥有着DenseNet的优点,它缓解了梯度下降问题并且有更少的参数。

三、设计细节

3.1空洞卷积和ASPP

空洞卷积是用来增大感受野又保证图像分辨率的,在自动驾驶领域,目标有很多不同的尺寸,要求特征图涵盖不同大小的感受野。DeepLabV3[6]提出两个策略即纵向和横向构建具有不同扩张率的空洞卷积层。纵向可以产生大的感受野,横向得到的输出实际上是对输入以不同大小的感受野进行的采样,横向的模型就是ASPP(Atrous Spatial Pyramid Pooling)。ASPP的表达式如下:
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
可以看到它都是对输入进行的3*3的conv,但是dilation rates不同。文章作者提出的网络是对纵横向的扩展,从而产生在规模上更为密集的感受野。

3.2更密集的特征金字塔和更大的感受野

DenseASPP的网络结构如图2所示,可以看到该结构虽然仅使用了很少的空洞卷积层,却产生了更密集且更大的特征金字塔,每个空洞卷积层可以用如下公式表达:
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
和ASPP比起来,DenseASPP将所有空洞卷积层堆叠,对它们使用密集连接。这样做主要有两个好处即更密集的特征金字塔和更大的感受野。

3.2.1更密集的特征金字塔

与ASPP相比,DenseASPP具有更密集的特征金字塔,‘更密集’不仅意味着特征金字塔具有更大的规模范围,还意味着与ASPP相比,更多的像素参与到了卷积当中。

更密集的规模采样
DenseASPP可以对输入以不同规模进行有效的采样,它的一个设计核心是使用密集连接将具有不同扩张率的层进行多样组合,而每一个组合相当于不同规模的感受野,因此得到了比ASPP更多规模范围的特征图。DenseASPP的简单特征金字塔表示如图3所示。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
很明显,堆叠的空洞卷积层之间的密集连接能够构成具有更密集的尺度多样性的特征金字塔。DenseASPP集合的感受野是ASPP中的超级集合。

更密集的像素采样
跟ASPP相比,DenseASPP的特征图计算中涵盖着更多的像素,在ASPP中,使用更大扩张率的空洞卷积对应的像素采集率跟具有相同感受野的传统卷积操作相比是非常稀疏的。ASPP中空洞卷积的示例如图4(a)所示。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
可以看到使用空洞卷积,即使得到了很大的感受野,仍然丢失了很多信息。而在DenseASPP中,密集连接的空洞卷积如图4(b)所示,可以看到上层的卷积使用了底层卷积的特征,从而增大了像素的采样率。二维示意图如图4(c)所示。

更大的感受野
在ASPP中四种扩张率的空洞卷积并行独立操作,在前馈过程中,相互之间是没有共享信息的,而DenseASPP中的不同扩张率的空洞卷积层通过跳跃连接(skip connections)分享信息,相互关联,在这种密集连接下的前馈过程中不仅包含一个更为密集的特征金字塔,并且具有一个更大的滤波器去感知更广的环境信息。更大的感受野能为高分辨率图像中的大型物体提供全局信息

3.3模型大小控制

通过设置每次空洞卷积产生的特征图的channel数以及设置在空洞卷积前进行1*1卷积操作对输入channel数减半,来实现模型规模的减小和模型参数的降低。在以DenseNet121为基线模型的DenseASPP网络里,通过以上策略,参数量相对基线模型大大减小。

四、实验结果

DenseASPP网络是针对街道场景中物体规模的变化和对场景信息的需求设计的。该网络在Cityscapes数据集中进行了实验性能评估。Cityscapes是由在街道上录制的大的多种多样的高分辨率(2048 × 1024)的照片组成,其中5000张图片有着高质量的19类像素级标签。在每个权重层之前,使用了BN以归一化输入数据,为了防止过拟合,使用了数据扩充,包括了水平翻转、按比例放大缩小图片尺寸、调整图片亮度、随机剪裁(512*512)图片碎片。

基线对比
网络以ASPP作为基线模型,并把其中的ResNet101换成了DenseNet121,其他的都保持相同,都是用了扩张率为6,12,18,24的带孔卷积操作,在Cityscapes的验证集上的实验结果如表2所示。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
可以看到,相对ASPP提升了4.2个百分点,并且随着DenseNet的加深,性能进一步提升。

设置对比
文章还对于DenseASPP的不同设置对性能的影响进行了实验,实验结果如表3所示。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
通过这次实验可以得出两个结论,第一个是,随着最大感受野尺寸的上升(可以通过增多空洞卷积层和使用更大的扩张率提升),性能提升,然而当最大的感受野尺寸超出128(即输入到DenseASPP中的特征(input)尺寸)时,性能不再提升。第二个结论是,即使是使用了一个相对弱的基线模型(DenseNet121),性能仍然出众。一些例子展示在图5中。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
与state-of-the-art对比
在DenseNet161上训练DenseASPP,只是用良好标注的数据,并且在Cityscapes官网进行了测试,得到了测试集结果。使用多尺度测试,该模型达到了80.6%的mIoU,与最佳模型进行对比结果展示在表1和表4中。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
值得注意的是,表1中对于pole、traffic light等小型目标的识别精度不如ResNet38。这可能是较大的感受野和过多context信息导致的。

模型简化测试
消融实验中关注了最后一个特征图的质量,因为它对分割精度十分重要。在该实验中,从特征和结果的层面去评估特征图,进一步研究影响特征图的两大因素:感受野的尺寸和规模/像素采样率。

(1) 特征相似度
context信息对于区分易混淆的事物和识别大型物体非常重要,比如数据集中的地皮和围栏,卡车,汽车和小轿车极易混淆。上文图5展示了基线模型和DenseASPP的两个图片上的例子,可以看到由于ASPP没有足够的上下文信息,未能成功区分以上容易混淆的事物,而文章模型可以,这就证明了DenseASPP有建模大的context信息能力。

文章进行了特征级别的分析,去观测模型如何分类像素。由于最终的输出是19层(19类)的特征图,并使用softmax将每个对应位置的像素分类,因此,有着相同类别的像素也就有着类似的特征。进一步计算全特征图的特征相似度(使用余弦相似性),结果展现在图6中。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
在该图中,可以看到使用了DenseASPP的相似性图在某个连续区域内,特征相似性很高,这就说明,该区域内的像素易被分为一类,而去掉DenseASPP后,相似性图的联通区域变相,且变得散乱,因此该区域内的像素不太可能被分为一类,这就是DenseASPP使用大的context信息对实现正确分割带来的益处。

(2) 感受野可视化
因为经验感受野的尺寸往往小于理论感受野,文章使用了一种方法观察经验感受野的实际尺寸[7],得到heat map表示哪些像素实际影响了代表图片理论感受野尺寸的特征向量。DenseASPP和ASPP中最大扩张率的空洞卷积层被分别作为观测对象,结果如图8所示。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
可以看到,DenseASPP的实际感受野更大,且采样更为密集。

(3) 规模多样性阐述
若逐步去除DenseASPP中的顶层空洞卷积层,则空间的规模采样率和像素采样率都会减小,以致影响到分割性能,这种影响可视化成图7。
DenseASPP for Semantic Segmentation in Street Scenes阅读笔记
由图7可知,当逐步减少顶层空洞卷积层时,空间采样率快速减小,大的物体的分割效果受到很大影响,而小物体的分割效果还好,这进一步证明了,在街道场景分割任务中,密集堆叠空洞卷积层的重要性。

五、结论

文章针对物体规模变化幅度很大的街道场景的语义分割任务,提出了DenseASPP,它使用一种密集的方式连接各个空洞卷积层,它大范围地有效产生了密集的空间和规模采样率。理论分析以及在Cityscapes数据集上进行的可视化和模型简化测试结果都证明了DenseASPP的有效性。

网络贡献
(1) DenseASPP能够生成涵盖非常大范围的特征图;
(2) DenseASPP的生成特征能够以非常密集的方式覆盖上述规模范围。

六、参考文献

[1] C.Liang-Chieh,G.Papandreou,I.Kokkinos,k.murphy,and A. Yuille. Semantic Image Segmentation with Deep Convo- lutional Nets and Fully Connected CRFs. In ICLR, 2015.
[2] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully con- nected crfs. arXiv preprint arXiv:1606.00915, 2016.

[3] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urban scene understanding. In CVPR, 2016.

[4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully con- nected crfs. arXiv preprint arXiv:1606.00915, 2016.

[5] G.Huang,Z.Liu,K.Q.Weinberger,andL.vanderMaaten. Densely connected convolutional networks. arXiv preprint arXiv:1608.06993, 2016.

[6] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam. Re- thinking atrous convolution for semantic image segmenta- tion. arXiv preprint arXiv:1706.05587, 2017.

[7] B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,andA.Torralba. Object detectors emerge in deep scene cnns. arXiv preprint arXiv:1412.6856, 2014.