【图像分割论文阅读】The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
本文出自加拿大蒙特利尔学习算法研究院、蒙特尔理工学院、蒙特利尔伊玛吉亚公司、巴塞罗那计算机视觉中心
联合出品。注意到Bengio
也在其中。文章最终发表于CVPR2017
.[Tiramisu
译作提拉米苏]
论文地址:The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
背景
从某种意义上来说,本文的结构是经典的Encoder-Decoder
模型,仿照的是U-Net
的构造,主要贡献在于结合当时分类效果最好的模型DenseNet
,经过调整,将DenseNet
改造并成功用于编解码过程FC-
。最后的实验是在CamVid、Gatech
两个数据集上完成的。最后,在上述两个数据机上的表现达到SOTA
,但是模型大小至多为那些SOTA
模型的1/10.(注意这里作者实验中测试了三种深度的模型。)
模型结构
如下图所示文章中的模型结构与U-Net
如出一辙,微小差异在于上采样过程upsample path
的设计,包括恢复图像分辨率所采样方法、以及连接方式有差异。
下图左侧为卷积降采样过程,此间产生特征,右侧代表Upsample path
用于恢复图像分辨率以获取更多细节信息。中间的虚线代表skip connection
.文章主要是设计扩展Dense-Net
用以替代U-Net
中的一般卷积,由图中绿色部分标识。另外一个细微不同在于,Upsamole path
中的上采样方式采用的是transposed convolution
,也就是反卷积Deconv
。
其中Dense-Net Block
的结构如下:
Dense-Net
对于输入进行如上图所示的操作,经过四个3*3
的卷积,完整说来每一个layer包含BN+ReLU+CONV+Dropout
四个部分。每个卷积产生大小为k
的特征图,经过这个block会产生4k
个特征图。
这一过程的的特点在于,由于结构中skip connection
的存在,使得输出不仅仅包含非线性映射,还包括一个恒等变换:
其中代表非线性变换。
这样堆叠的结果是,在层的变化为
文中的上采样、降采样的具体形式如下图:
最后作者采用的模型结构为:
实验
实验的评价指标为IoU
,以及全局准确度。在CamVid
数据集的表现如下图。可以看出,本文使用的FC-Dense Net
模型在不使用ImageNer
数据预训练的前提下,取得的全局准确率高达91.5%
,而模型的的参数仅仅为此前SOTA
的十分之一。作者在文中提到,可以在其他数据上预训练可能会得到更好的结果。以及利用均值场推理
进行后处理也能提升性能。
最后参数量的减少很大程度上是因为采用的基础模型为Dense-Net
,特征图共享以及skip connection
是模型参数量减少的主要原因,并不是作者在upsample path
中有什么别出心裁的设计。