前言

论文：Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

1. 问题

在利用CNN处理图像分割任务时，有以下两个主要问题需要解决：

池化和下采样造成分辨率降低，导致位置信息难以恢复；
CNN的空间不变性导致细节信息丢失，限制了模型精度。

2. 问题分析

对图像进行下采样会压缩其分辨率，同时必然会丢失位置信息。相比图像分类，图像分割对位置信息比较敏感，所以需要尽量减少下采样操作。
CNN的空间不变性使其在高级视觉任务如图像分类中取得了很好的效果，但是对于图像分割这类低级视觉任务，需要的是精确的空间位置信息，而不是高级抽象的空间特征。

3. 解决方法

减少下采样操作，引入空洞卷积，保持感受野不变
引入fully connected CRF恢复位置信息

4. 主干网络

对VGG-16进行修改：

将MaxPool_4和MaxPool_5的步长由2改为1，相当于减少了两次下采样，保证特征图的分辨率
将Conv5_1、Conv5_2和Conv5_3的dilate rate设置为2
将三个全连接层改为卷积层，以适用于图像分割

为了加速网络的训练，将第一个全连接层的卷积核尺寸设置为3×3，将通道数由4096降低至1024。在后续的实验中发现将第一个全连接层的dilate rate设为12时(LargeFOV), 分割结果最好。
语义分割论文笔记--DeepLab-V1
网络不包含decoder部分，直接将标签图resize到原图的1/8，和encoder的输出计算损失函数，测试时将输出双线性插值到原图大小。

5. 全连接条件随机场(Fully-connected Conditional Random Fileds)

语义分割论文笔记--DeepLab-V1

文章目录

前言

1. 问题

2. 问题分析

3. 解决方法

4. 主干网络

5. 全连接条件随机场(Fully-connected Conditional Random Fileds)

6. 参考资料

相关推荐