学习笔记15-ENet

ENet:A Deep Neural Network Architecture for Real-Time Semantic Segmentation.

提出问题:深度神经网络在移动应用上进行实时像素级语义分割存在困难,需要大量的浮点运算,而且有很长的运行时间,这阻碍了其可用性。虽然CNN在图像分类等应用取得了巨大的成功,但CNN应用于图像像素级标注时只能提供粗糙的空间结果。然而,现有提出的用于分割的神经网络,如SegNet、FCN都使用的VGG16,但这些网络需要大量的参数和很长的推断时间,这对许多移动设备或者电池设备来说是不能实现的。

一、网络架构

1、瓶颈模块ENet bottleneck module

学习笔记15-ENet

采用了ResNets的观点,该模块具有单个主分支和与之分离的卷积滤波器的扩展,然后进行逐个元素加法合并,如图2b所示。

bottleneck模块主要有非下采样和下采样两种情况:

1)非下采样bottleneck:

每一个block辅线包括3个卷积层:一个1x1投影用来减少维度;一个主要卷积层(即conv,可能是普通卷积,不对称分解卷积或者膨胀空洞卷积);一个1x1扩展层用于升维。在全部卷积之间置有批处理标准化Batch Norm和PReLU。

主分支直接恒等映射(只有下采样才会增加通道数)。两个分支融合后再接PReLU。

2)下采样bottleneck:

每一个block辅线包括3个卷积层:将第一个1x1投影在所有维度被步长为2的2x2卷积替换用于降采样,其余不变。

主分支:增加最大池化层(用于提取上下文信息)和Padding层(零填充通道以匹配特征通道数目)。两个分支融合后再接PReLU。

2、整体架构-详见下图

学习笔记15-ENet

initial:初始阶段包含一个简单块,即图2a,这样做可以开始显著减少存储空间。

编码器阶段:stage1由5个瓶颈块组成,第一个bottleneck做下采样,后面是4个重复的bottleneck;

stage2和stage3有相同的结构,除了第3阶段在开始时不对输入进行下采样外,后面有时加空洞卷积,或分解卷积。

解码器阶段:stage4和5,一个上采样紧接着普通bottleneck。

由于性能原因,最后决定只将一个完全卷积作为最后一个网络的模块,它单独占用解码器处理时间的相当大一部分。encoder阶段是使用padding和max pooling做下采样。在decoder阶段使用max unpooling和空洞卷积进行上采样。

二、设计技巧

1、特征图分辨率Feature map resolution

Q:降低特征图分辨率意味着空间信息的丢失,如精确的边缘形状,如何让解决?

本文选用SegNet方法解决问题,由于其能够减少内存需求,通过保存在最大池化层选择的元素索引,并使用它们在解码器中生成稀疏的上采样映射。

2、早期下采样Early downsampling

早期处理高分辨率的输入会耗费大量计算资源,ENet开始两个block极大的减少了输入尺寸,只使用了特征图的一小部分。观点:视觉信息在空间上是高度冗余的,因此可以被压缩成一个更有效的表示。此外,我们的直觉是,最初的网络层不应该直接有助于分类,相反,它们应该作为良好的特征提取器和为后面网络部分的输入预处理。

3、Nonlinear operations

我们发现在网络最初的层中删除了大部分的ReLUs改进了结果。故最终使用PReLUs。

猜测原因:之所以学到这种有损的函数可能是原来的ResNets是可以有几百层深的网络,而我们的网络只使用几个层,它需要快速获取信息。

4、分解卷积Factorizing filters

每个nxn卷积可以分解成nx1卷积和1xn卷积。这增加了从块中学习到的功能的多样性,并且增加了感受野。另外,这种分解能够更快速,大量减少参数的数量,使其减少冗余层中间的非线性操作,使其计算函数更加丰富。

5、Dilated convolutions

Dilated convolutions可以有效的提高感受野。使用Dilated convolutions是交叉使用,而非连续使用。