语义分割论文笔记--DeepLab-V1

前言

论文:Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

1. 问题

在利用CNN处理图像分割任务时,有以下两个主要问题需要解决:

  • 池化和下采样造成分辨率降低,导致位置信息难以恢复;
  • CNN的空间不变性导致细节信息丢失,限制了模型精度 。

2. 问题分析

  • 对图像进行下采样会压缩其分辨率,同时必然会丢失位置信息。相比图像分类, 图像分割对位置信息比较敏感,所以需要尽量减少下采样操作。
  • CNN的空间不变性使其在高级视觉任务如图像分类中取得了很好的效果,但是对于图像分割这类低级视觉任务,需要的是精确的空间位置信息,而不是高级抽象的空间特征。

3. 解决方法

  • 减少下采样操作,引入空洞卷积,保持感受野不变
  • 引入fully connected CRF恢复位置信息

4. 主干网络

对VGG-16进行修改:

  • 将MaxPool_4和MaxPool_5的步长由2改为1,相当于减少了两次下采样,保证特征图的分辨率
  • 将Conv5_1、Conv5_2和Conv5_3的dilate rate设置为2
  • 将三个全连接层改为卷积层,以适用于图像分割

为了加速网络的训练,将第一个全连接层的卷积核尺寸设置为3×3,将通道数由4096降低至1024。在后续的实验中发现将第一个全连接层的dilate rate设为12时(LargeFOV), 分割结果最好。
语义分割论文笔记--DeepLab-V1
网络不包含decoder部分,直接将标签图resize到原图的1/8,和encoder的输出计算损失函数,测试时将输出双线性插值到原图大小。

5. 全连接条件随机场(Fully-connected Conditional Random Fileds)

6. 参考资料