语义分割论文笔记--DeepLab-V1
文章目录
前言
1. 问题
在利用CNN处理图像分割任务时,有以下两个主要问题需要解决:
- 池化和下采样造成分辨率降低,导致位置信息难以恢复;
- CNN的空间不变性导致细节信息丢失,限制了模型精度 。
2. 问题分析
- 对图像进行下采样会压缩其分辨率,同时必然会丢失位置信息。相比图像分类, 图像分割对位置信息比较敏感,所以需要尽量减少下采样操作。
- CNN的空间不变性使其在高级视觉任务如图像分类中取得了很好的效果,但是对于图像分割这类低级视觉任务,需要的是精确的空间位置信息,而不是高级抽象的空间特征。
3. 解决方法
- 减少下采样操作,引入空洞卷积,保持感受野不变
- 引入fully connected CRF恢复位置信息
4. 主干网络
对VGG-16进行修改:
- 将MaxPool_4和MaxPool_5的步长由2改为1,相当于减少了两次下采样,保证特征图的分辨率
- 将Conv5_1、Conv5_2和Conv5_3的dilate rate设置为2
- 将三个全连接层改为卷积层,以适用于图像分割
为了加速网络的训练,将第一个全连接层的卷积核尺寸设置为3×3,将通道数由4096降低至1024。在后续的实验中发现将第一个全连接层的dilate rate设为12时(LargeFOV), 分割结果最好。
网络不包含decoder部分,直接将标签图resize到原图的1/8,和encoder的输出计算损失函数,测试时将输出双线性插值到原图大小。