语义分割论文笔记--DeepLab-v2
前言
论文:DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFs
代码:https://github.com/ZhangXiangd/semantic-segmentation
1. 问题
在deeplab-v1提出两个问题的基础上又增加了一个新的问题:
- DCNN连续的最大池化和下采样导致的空间分辨率下降(v1)
- 图像中的对象具有不同的尺度,解决这个问题的常用方法是将图像进行缩放得到其不同分辨率的版本,通过训练不同尺度的输入得到多尺度特征,或者在预测时采用多尺度预测。虽然该方法能够提高性能,但是增加了计算量和存储空间(v2)
- DCNN的空间不变性影响了空间定位精度(v1)
2. 解决方法
- 减少下采样操作,引入空洞卷积,保持感受野不变
- 受空间池化金字塔(SPP)的启发,提出了空洞空间池化金字塔(ASPP)模块,该模块由并行的具有不同采样率的空洞卷积构成
- 引入fully connected CRF恢复位置信息(Unet中是采用跳跃连接,将编码器得到的特征和解码器的特征进行融合)
3. 模型
-
空洞卷积的优势
为了体现出空洞卷积的优势,论文中将其与普通的“下采样+卷积+上采样”进行了对比试验:
a. 下采样+卷积+上采样:给定一张图像,先经过下采样将分辨率降低2倍得到原图的1/4大小,再做卷积,最后经过上采样得到结果。整个过程得到的结果相当于在原图的1/4内容上的卷积响应
b. 空洞卷积:在原图上做采样率为2的空洞卷积,计算整张图的响应,从图中可以看到结果更好 -
ASPP
采用不同采样率的空洞卷积,融合多尺度特征(与inception网络结构类似)
ASPP实验:
ASPP-S: 四个分支,采样率分别为{2,4,8,12}
ASPP-L:四个分支,采样率分别为{6,12,18,24} -
模型总览
deeplab-v2对图像进行分割的主要步骤:
a. 输入图像经过基于空洞卷积和ASPP改进的DCNN得到粗略的分割结果(原图的1/8)
b. 通过双线性插值得到原图大小的分割结果
c. 通过全连接的条件随机场细化分割结果,得到最终结果
4. 实验细节
- 小卷积核+大dilate rate
- poly学习率策略
- 数据增强(Aug):随机缩放
- ResNet-101 pretrained on MS-COCO
- 多尺度输入(MSC):{0.5,0.75,1},融合原则:取不同尺度得分图的最大响应
5. 参考资料
https://zhuanlan.zhihu.com/p/37645755
https://blog.****.net/u011974639/article/details/79138653#t8