学习笔记15-ENet

ENet:A Deep Neural Network Architecture for Real-Time Semantic Segmentation.

提出问题：深度神经网络在移动应用上进行实时像素级语义分割存在困难,需要大量的浮点运算，而且有很长的运行时间，这阻碍了其可用性。虽然CNN在图像分类等应用取得了巨大的成功，但CNN应用于图像像素级标注时只能提供粗糙的空间结果。然而，现有提出的用于分割的神经网络，如SegNet、FCN都使用的VGG16，但这些网络需要大量的参数和很长的推断时间，这对许多移动设备或者电池设备来说是不能实现的。

一、网络架构

1、瓶颈模块ENet bottleneck module

学习笔记15-ENet

采用了ResNets的观点，该模块具有单个主分支和与之分离的卷积滤波器的扩展，然后进行逐个元素加法合并，如图2b所示。

bottleneck模块主要有非下采样和下采样两种情况：

1）非下采样bottleneck:

每一个block辅线包括3个卷积层：一个1x1投影用来减少维度；一个主要卷积层（即conv，可能是普通卷积,不对称分解卷积或者膨胀空洞卷积）；一个1x1扩展层用于升维。在全部卷积之间置有批处理标准化Batch Norm和PReLU。

主分支直接恒等映射(只有下采样才会增加通道数)。两个分支融合后再接PReLU。

2）下采样bottleneck:

每一个block辅线包括3个卷积层：将第一个1x1投影在所有维度被步长为2的2x2卷积替换用于降采样，其余不变。

主分支：增加最大池化层（用于提取上下文信息）和Padding层（零填充通道以匹配特征通道数目）。两个分支融合后再接PReLU。

2、整体架构-详见下图

学习笔记15-ENet

initial:初始阶段包含一个简单块，即图2a，这样做可以开始显著减少存储空间。

编码器阶段：stage1由5个瓶颈块组成，第一个bottleneck做下采样，后面是4个重复的bottleneck；

stage2和stage3有相同的结构，除了第3阶段在开始时不对输入进行下采样外，后面有时加空洞卷积，或分解卷积。

解码器阶段：stage4和5，一个上采样紧接着普通bottleneck。

由于性能原因，最后决定只将一个完全卷积作为最后一个网络的模块，它单独占用解码器处理时间的相当大一部分。encoder阶段是使用padding和max pooling做下采样。在decoder阶段使用max unpooling和空洞卷积进行上采样。

二、设计技巧

1、特征图分辨率Feature map resolution

Q:降低特征图分辨率意味着空间信息的丢失，如精确的边缘形状,如何让解决?

本文选用SegNet方法解决问题，由于其能够减少内存需求，通过保存在最大池化层选择的元素索引，并使用它们在解码器中生成稀疏的上采样映射。

2、早期下采样Early downsampling

早期处理高分辨率的输入会耗费大量计算资源，ENet开始两个block极大的减少了输入尺寸，只使用了特征图的一小部分。观点：视觉信息在空间上是高度冗余的，因此可以被压缩成一个更有效的表示。此外，我们的直觉是，最初的网络层不应该直接有助于分类，相反，它们应该作为良好的特征提取器和为后面网络部分的输入预处理。

3、Nonlinear operations

我们发现在网络最初的层中删除了大部分的ReLUs改进了结果。故最终使用PReLUs。

猜测原因：之所以学到这种有损的函数可能是原来的ResNets是可以有几百层深的网络，而我们的网络只使用几个层，它需要快速获取信息。

4、分解卷积Factorizing filters

每个nxn卷积可以分解成nx1卷积和1xn卷积。这增加了从块中学习到的功能的多样性，并且增加了感受野。另外，这种分解能够更快速，大量减少参数的数量，使其减少冗余层中间的非线性操作，使其计算函数更加丰富。

5、Dilated convolutions

Dilated convolutions可以有效的提高感受野。使用Dilated convolutions是交叉使用，而非连续使用。

一、网络架构

1、瓶颈模块ENet bottleneck module

2、整体架构-详见下图

二、设计技巧

相关推荐