图像分割“Efficient Deep Models for Monocular Road Segmentation”

快速图像分割,在KITTI数据库上做路面的分割,原始分辨率分割可以达到50ms。主要的改动是反卷积层中参数分布的改动。

路面分割是个二分类问题:路面和非路面。使用模型f(x,γ)表示网络结构,γ是网络参数,通过最小化误差得到:
图像分割“Efficient Deep Models for Monocular Road Segmentation”

网络结构
FCN一般有一个浓缩部分,还有一个对应的反卷积部分。论文提出的改进模型如下图所示:
图像分割“Efficient Deep Models for Monocular Road Segmentation”

浓缩网络层使用VGG分类网络初始化,每个膨胀层对应一个具有相同分辨率的浓缩层。每个反卷积层使用双线性插值将输入上采用2倍,之后使用ReLU解决梯度消失问题。网络的详细描述如下表所示:
图像分割“Efficient Deep Models for Monocular Road Segmentation”

网络参数优化
1. 减少参数
FCN使用VGG16作为浓缩部分,网络有4096个7*7的滤波器,比较大且比较多的滤波器是主要的计算负担。论文将滤波器个数降为1024,滤波器尺寸降为3*3。网络参数降低,将导致识别率降低,论文在膨胀部分采取了一些参数保存的方法保持较高的识别率。
2. 保持识别率
增加反卷积部分的宽度,基于U-Net,提出新的参数分布,U-Net的滤波器数目可变,像U-Net一样,每类使用多个滤波器。新结构有CNcl个滤波器,网络的两部分滤波器数目一样多,新结构的权值分布如下图所示:
图像分割“Efficient Deep Models for Monocular Road Segmentation”

实验结果
图像分割“Efficient Deep Models for Monocular Road Segmentation”