Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

Title Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey
标题 使用DCNN的图像分割演变调研
pdf地址 https://arxiv.org/pdf/2001.04074.pdf

摘要

  从自动驾驶汽车到医学诊断,图像分割任务的需求无处不在。图像的分割是计算机视觉中必不可少的任务之一。与其他视觉任务相比,此任务相对复杂,因为它需要底层空间信息。基本上,图像分割可以分为两种类型:语义分割和实例分割。这两个基本任务的组合版本称为全景分割。在最近的时代,深度卷积神经网络(CNN)的成功极大地影响了分割领域,并为我们提供了各种成功的模型。在本次调查中,我们将浏览一下基于CNN的语义和实例分割工作的发展。我们还指定了一些最新模型的比较架构细节,并讨论了它们的训练细节,以使您对这些模型的超参数调整有一个清晰的了解。最后,我们对这些模型在不同数据集上的性能进行了比较。
关键字: 卷积神经网络,深度学习,语义分割,实例分割,全景分割,调研

1.简介

  我们生活在人工智能(AI)时代,深度学习的发展正在推动AI迅速传播 [1],[2]。在不同的深度学习模型中,卷积神经网络(CNN)[3、4、5]在不同的高级计算机视觉任务中表现出出色的性能,例如图像分类[6、7、8、9、10、11、12、13、14、15],对象检测[16、17、18、19、20、21、22、23、24、25、26、27、28]等。尽管AlexNet的出现和成功改变了领域传统机器学习算法对CNN的计算机视觉研究但是CNN的概念并不是一个新概念。它始于Hubel和Wiesel的发现[29],该发现解释说,初级视觉皮层中存在简单而复杂的神经元,并且视觉处理始终始于诸如定向边缘之类的简单结构。受到这一想法的启发,戴维·马尔(David Marr)为我们提供了下一个见解,即愿景是等级制的[30]。福岛邦彦(Kunihiko Fukushima)受Hubel和Wiesel的研究启发,并使用简单和复杂的神经元建立了一个称为Neocognitron [31]的多层神经网络。它能够识别图像中的图案,并且具有空间不变性。 1989年,Yann LeCun将Neocognitron的理论思想转变为实用的LeNet-5 [32]。 LeNet-5是第一个用于识别手写数字的CNN。 LeCun等使用反向传播[33] [11] 算法训练其CNN。 LeNet-5的发明为CNN在各种高级计算机视觉任务中的持续成功铺平了道路,也激发了研究人员探索此类网络解决像素级分类问题(如图像分割)的能力。与传统的机器学习方法相比,CNN的主要优势在于能够以端到端的训练方式为手头的问题学习适当的特征表示,而不是使用需要领域专业知识的手工特征[34]。

  图像分割的应用非常广泛。 从自动驾驶汽车[35]到医学诊断[36,37],图像分割任务的需求无处不在。 在本文中,我们试图对基于CNN的不同图像分割模型进行调查。 讨论了图像的语义分割和实例分割。 在此,我们描述了不同的最新图像分割模型的架构细节。 此外,这些模型的不同方面以表格的形式呈现,以便清楚地理解。

本文的贡献

  • 给出了基于CNN的图像分类和演化概况。
  • 详细探讨了一些基于CNN的流行的最先进的分割模型。
  • 比较这些模型的训练细节,以便清楚地了解超参数调优。
  • 比较这些最先进的模型在不同数据集上的性能指标。

文章组织
从第一节的介绍开始,论文组织如下:第二节,我们给出了我们工作的背景细节。第3节和第4节分别讨论了语义分割和实例分割的工作。第5节简要介绍了全景分割。在第6节中总结本文。

2. 背景细节

2.1 图像分割

  在计算机视觉中,图像分割是一种根据像素的不同属性将数字图像分为多个区域的方法。 与分类和对象检测不同,它通常是低级别或像素级别的视觉任务,因为图像的空间信息对于语义上分割不同区域非常重要。 细分旨在提取有意义的信息以便于分析。 在这种情况下,图像像素的标记方式应使图像中的每个像素都具有某些特征,例如颜色,强度,纹理等[38,39]。 图像分割主要有两种类型:语义分割和实例分割。 另外,还有另一种称为全景分割的类型[40],它是两个基本分割过程的统一版本。 图1显示了不同类型的分割,图2显示了相同的示例。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

2.2 为什么选择CNN?

  图像分割的任务并不是计算机视觉的新领域。各种研究人员正在使用传统的机器学习算法(例如[41,42,43])以各种方式来解决此任务,并借助各种技术,例如阈值[44],区域增长[45,46],边缘检测[47, 48、49],聚类[50、51、52、53、54、55、56、57],超像素[58、59]等。大多数成功的作品都是基于手工机器学习特征,例如HOG [60,61,62,63],SIFT [64,65]等。首先,特征工程需要领域专业知识,因此这些机器学习模型的成功在深度学习开始占领计算机视觉的那个时代被放慢了速度。为了提供出色的性能,深度学习只需要数据,而不需要任何传统的手工特征工程技术。而且,传统的机器学习算法无法针对错误的预测进行自我调整。另一方面,深度学习具有根据预测结果进行自我调整的能力。在不同的深度学习算法中,CNN在计算机视觉的不同领域都取得了巨大的成功,并且抢占了图像分割领域[66,67,68]。

3. 语义分割

  语义分割描述了将图像的每个像素与类别标签相关联的过程[69]。 图3显示了语义分割的黑匣子视图。 自2012年AlexNet成功以来,我们得到了基于CNN的各种成功的语义分割模型。 在本节中,我们将调查基于CNN的语义分割模型的发展。 另外,我们将在这里对一些最新模型进行详尽的探索。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.1 基于CNN的语义分割模型的演变:

  CNN在语义分割模型中的应用有巨大的多样性。 在[70]中,作者使用了多尺度CNN进行场景标记,并在Sift flow[71],Bercelona数据集[72]和Standford background数据集[73]中获得了先进的结果。 R-CNN [74]使用选择性搜索[75]算法首先提取建议区域,然后将CNN应用于每个建议区域,在PASCAL VOC语义分割挑战中[76]。 R-CNN在当时是领先的手工特征工程语义分割系统并取得了创纪录的结果。 同时,Gupta等 [63]使用CNN以及geocentric embedding进行RGB-D语义分割。

  在不同的基于CNN的语义分割模型中,如3.2.1节所述,全卷积网络(FCN)[78]获得了最大的关注,并且出现了基于FCN的语义分割模型的趋势。 FCN的主要变化是基本模型VGG16,双线性插值技术(用于对最终特征图进行上采样)和跳层连接(用于在最终层中组合低层和高层特征以进行细粒度语义分割),从而帮助该模型获得了最先进的结果。然而,FCN分割结果非常模糊。 为了减少歧义,从整个图像中获得上下文信息非常有帮助。 在[79]和[80]中,作者使用了上下文特征并获得了最先进的性能。 最近,在[81]中,作者使用完全卷积的双流融合网络进行交互式图像分割。

  Chen等人在语义分割中融合了扩张卷积和条件随机场(CRF),并在3.2.2节中讨论了DeepLab [82]。 后来,作者在DeepLabv2中引入了ASPP [83]。 DeepLabv3 [84]走得更远,并使用了改进的ASPP模块来合并多个上下文。 DeepLab的所有三个版本均取得了良好的效果。

  Deconvnet [85]使用卷积网络,然后使用层次结构相反的反卷积网络进行语义分割,如3.2.3节所述。 Ronneberger等人使用了一种称为U-Net的U形网络[86],该网络具有收缩和扩展的路径来进行语义分割。收缩路径提取特征图并减少空间信息,这是传统的卷积网络。扩展路径将收缩的特征图作为输入并应用反卷积。在扩展路径的每个步骤中,网络将缩小的反卷积特征图与来自收缩路径的相应裁剪特征图连接起来。通过这种方式,U-Net将高级特征和低级空间信息结合在一起,以实现更精确的分段。第3.2.4节更详细地讨论了该模型。最近,在[87]中,作者将带有multiRes块的U-Net用于多模态生物医学图像分割,并且比使用经典U-Net获得了更好的结果。 SegNet [88]是用于语义分段的编码器-解码器网络。编码器是基本的VGG16网络,不包括FC层。解码器与编码器相同,但是层在层次上相反。解码器使用卷积和反池化操作获得大小与输入图像相似的特征图,以精确定位已分割的对象。 SegNet在3.2.7节中讨论。除了一些单独的修改外,U-Net,Deconvnet和SegNet的基本体系结觉相似。这些体系结构的后半部分是前半部分的镜像

  Liu等人在FCN [78]体系结构中混合了全局平均池和L2归一化层,并提出了ParseNet [89]在各种数据集中获得最新的结果。 赵等提出了金字塔场景解析网络(PSPNet)[90]。 他们在最后提取的特征图的顶部使用了金字塔聚合模块,以整合全局上下文信息以进行更好的分割。 Peng等人使用了大内核的全局卷积的思想来利用局部和全局特征的优势[91]。 金字塔注意力网络(PAN)[92],ParseNet [89],PSPNet [90]和GCN [91]使用全局上下文信息和局部特征进行更好的分割。 第3.2.6、3.2.9和3.2.8节将详细讨论这些模型。

  全卷积DenseNet [10]在[93,94]中用于解决语义分割问题。 DeepU-Net [95],基于ResNet的FCN,用于分割海域。 同时,ENet [96],ICNet [97]被用作自动驾驶汽车的实时语义分割模型。 最近的一些著作[98,99,100]结合使用了编码器-解码器体系结构和扩张卷积来进行更好的分割。 Kirillov等人[101] 在DeepLabV3 [84]和语义FPN [102]中使用了基于点的渲染,并产生了最新的语义分割模型。

3.2 一些流行的最新语义分割模型

在本节中,我们将探索一些先进的语义分割网络的细节。

3.2.1 FCN

  Long等提出了全卷积网络(FCN)的思想[78]来解决语义分割任务。他们使用在ILSVRC [103]数据上预先训练的AlexNet [6],VGGNet [8]和GoogleNet [9]作为基础模型。他们通过将全连接层替换为1×1卷积层,并通过通道为21的1×1卷积以预测PASCAL VOC [104]每个类(包括背景)的得分。此过程以低分辨率生成类热图。作者已经意识到,在FCN-AlexNet,FCN-VGG16和FCN-GoogLeNet中,FCN-VGG16在PASCAL VOC 2011验证数据集上给出了最高的平均IU(56.0%)。因此,他们选择了FCN-VGG16网络进行进一步的实验。当网络产生粗略的输出位置时,作者使用双线性插值对粗略的输出进行32倍采样以产生密集预测结果。但是,这种上采样不足以进行细粒度的像素级语义分割。因此,作者使用跳层连​​接[105]组合了VGG16的最终预测层和低层特征,并将这种组合称为deep jet。图4显示了不同的deep jet:FCN-16和FCN-8和FCN-32。作者已经表明,在PASCAL VOC 2011和2012 [104]测试数据集中,FCN-8表现最佳,而在NYUDv2 [106]和SIFT Flow [71]数据集中,FCN-16表现最佳。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.2 DeepLab

  Chen等结合了深度卷积神经网络(DCNN)和概率图模型的方法,并产生了DeepLab [82]来处理语义分割。 DeepLab在PASCAL VOC 2012语义分割任务的测试集中实现了71.6%的IOU准确性。在将DCNN应用于语义分割时,作者面临两个技术难题:下采样和空间不变性。为了解决第一个问题,作者采用了“空洞”(有孔)[107]算法来高效地计算CNN。图5a和5b显示了1-D和2-D中的空洞算法。为了解决第二个问题,他们应用了完全连接的条件随机场(CRF) 来捕获细节。此外,作者已经将感受野的大小比原始VGG16 [8]网络减小了6倍,以减少网络的时间消耗,并且还将多尺度预测用于更好的边界定位。作者再次使用Atrous空间池化金字塔(ASPP)修改了DeepLab,以聚合多尺度特征以实现更好的定位,并提出了DeepLabv2 [83]。图6显示了ASPP。该体系结构使用ResNet [10]和VGGNet [8]作为基础网络。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.3 Deconcnet

  Noh等人提出的Deconvnet [85]具有卷积和反卷积网络。除最终分类层外,卷积网络在拓扑上与VGG16 [8]的前13个卷积层和2个完全连接的层相同。与VGG16中一样,在一些卷积层之后也添加了池化层和整流层。反卷积网络与卷积网络相同,但在层次上却相反。它还具有多个系列的反卷积,反池化和整流层。卷积和反卷积网络的所有层都提取特征图,但反卷积网络的最后一层除外,后者最后生成与输入图像大小相同的按像素分类的概率图。在反卷积网络中,作者采用了反池化,这是卷积网络池化操作的逆操作,以重建**的原始大小。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.4 U-Net

  U-Net [86]是一种U形语义分割,具有收缩路径和扩展路径。 收缩路径的每一步都包含两个连续的3×3卷积,然后是ReLU非线性和使用步幅为2的2×2窗口的最大池化。在收缩期间,特征抽象信息增加而空间信息减少。 另一方面,扩展路径的每个步骤都包括特征图的上采样和随后的2×2上卷积。 然后,将缩小的特征图与来自收缩路径的相应裁剪的特征图拼接在一起。 然后应用两个连续的3×3卷积运算,然后进行ReLU非线性处理。 以这种方式,扩展路径将特征和空间信息结合起来以进行精确分割。 U-Net的架构如图8所示。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.5 ParseNet

  Liu等人提出了一种称为ParseNet [89]的端到端架构,这是对全卷积神经网络的改进。作者添加了全局特征或全局上下文信息,以实现更好的细分。在图10中,显示了ParseNet的模型描述。关于卷积特征图提取,ParseNet与FCN相同[78]。之后,作者使用了全局平均池来提取全局上下文信息进而执行反池化,以得到与输入特征图相同的大小。现在,将原始特征图和反池化后的特征图进行组合以预测最终的分类得分。由于作者已经组合了来自网络两个不同层的两个不同的特征图,因此这些特征图的规模和范式将有所不同。为了使组合生效,他们使用了两个L2归一化层在待合并的两个特征图之后。该网络在ShiftFlow [71],PASCAL-context[111]和PASCAL VOC 2012数据集上都达到了最新水平。注:由于文章使用的全局池化是平均池化,在反池化的时候,就是把得到的结果复制H*W遍。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.6 SegNet

  SegNet [88]具有编码器-解码器体系结构,后接最终的像素级分类层。在编码器网络的每一层中,使用滤波器组执行卷积运算以生成特征图。然后,为减少内部协变量偏移,作者使用了批标准化[112] [113],然后使用ReLU [114]非线性运算。然后使用2×2步长为2的非重叠窗口对结果输出要素图进行最大池化。最大池化可实现更好的分类精度,但会降低特征图的大小会导致边界模糊的有损图像表示,这对于边界信息很重要的分割目的而言并不理想。为了在子采样之前在编码器特征图中保留边界信息,SegNet仅存储每个编码器图的最大池索引。对于语义分割,输出图像分辨率应与输入图像相同。为此,SegNet使用来自相应编码器特征图的存储的最大池索引,在其解码器中进行上采样,从而生成高分辨率的稀疏特征图。为了使特征图密集,使用可训练的解码器滤波器组执行卷积操作。然后对特征图进行批量归一化。由最终解码器生成的高分辨率输出特征图被馈送到可训练的多类softmax分类器中,以进行像素级标记。 SegNet的体系结构如图11所示。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.7 GCN

  像ParseNet一样,全卷积网络[91]也使用全局特征和局部特征来使逐像素预测更加准确。语义分割的任务是分类和局部化任务的组合。这两个任务本质上是矛盾的。分类应该是变换不变的,而局部化应该是变换敏感的。以前的最新模型将重点放在局部化上,而不是分类上。在GCN中,作者没有使用任何完全连接的层或全局池层来保留空间信息。另一方面,在像素级分类的情况下,他们使用了较大的内核大小(全局卷积)以使网络转换不变。为了进一步精炼边界,作者使用了边界精炼(BR)块。如图12所示,ResNet被用作骨干网。 GCN模块插入到网络中,然后插入BR模块。然后,通过解卷积层对较低分辨率的分数图进行上采样,然后将其与较高的分数图相加,以生成用于最终分割的新分数图。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.8 PSPNet

  Zhao等人提出的金字塔场景解析网络(PSPNet)[90]也使用全局上下文信息进行更好的分割。在此模型中,作者在使用扩张FCN提取的最后一个特征图的顶部使用了金字塔池化模块。在“金字塔池化”模块中,使用4个不同金字塔级别(分别具有1×1、2×2、3×3和6×6)的全局池化操作得到4个全局特征图,随后应用1×1卷积层对下采样的特征图进行特征提取,然后并上采样到原始大小。最终这4个特征图外加输入特征图被合并在一起以包含局部和全局上下文信息。然后,它们再次由卷积层处理以生成逐像素预测。在图13中,显示了PSPNet的体系结构。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.9 FC-DenseNet

  DenseNet [10]是基于CNN的分类网络,仅包含用于识别的下采样路径。 J´egou等 [115]通过添加上采样路径来重新获得输入图像的全分辨率,扩展了DenseNet。为了构建上采样路径,作者遵循了FCN的概念。他们将DenseNet的下采样操作称为Transition Down(TD),将扩展的DenseNet的上采样操作称为Transition UP(TU),如图14所示。详细操作如图3的右上图所示。上采样路径使用密集块序列[10]代替FCN的卷积运算,并使用转置卷积作为上采样运算。上采样特征图与从下采样路径的相应层得到的特征图连接在一起。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.2.10 Gated-SCNN

  Takikawa等人提出了门控形状CNN(GSCNN)[94]用于语义分割。 如图15所示,GSCNN由两个网络流组成:常规流和形状流。 常规流是用于处理语义区域信息的经典CNN。 形状流由多个门控卷积层(GCL)组成,该层使用来自常规流的低级特征图来处理区域的边界信息。 两种流的输出都馈入融合模块。 在融合模块中,两个输出都使用Atrous Special Pyramid Pooling [83]模块进行组合。 ASPP的使用有助于他们的模型保留多尺度的上下文信息。 最终,Fusion模块生成了具有精确边界的对象的语义区域。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.3 讨论

  从2012年开始,迄今已连续数年出现了基于CNN的不同语义分割模型。在第3小节中,我们描述了各种最新模型的网络中的主要升级,以实现更好的语义分割。在不同的模型中,完全卷积网络(FCN)为语义分割设定了路径。各种模型都使用FCN作为其基本模型。 DeepLab及其版本以不同方式使用了atrous算法。 SegNet,DeconvNet,U-Net具有类似的体系结构,其中这些体系结构的第二部分与上半部分在层次上相对。 ParseNet,PSPNet和GCN已针对上下文信息解决了语义分割问题。 FCDenseNet使用自上而下/自下而上的方法将低级特征与高级特征结合在一起。因此,语义分割模型的性能取决于网络的结构以及其他方面,例如数据集的大小,语义注释数据的数量,不同的训练超参数(例如学习率,动量,权重衰减) ,优化算法,损失函数等。在本节中,我们以表格形式给出了每个模型的不同比较方面。

3.3.1 不同的最新语义分割模型的优化细节

  表1显示了不同模型的优化细节,我们可以看到模型的成功不仅取决于体系结构。 表2列出了基础网络(在ImageNet [116]数据集上进行了预训练),数据预处理技术(基本上是数据增强)和用于不同模型的不同损失函数。 表3简要显示了每个模型的一些重要功能。
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译
Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

3.3.2 最先进的语义分割模型的性能比较

Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey——翻译

4. 实例分割

5. 全景分割

由于重点调研语义分割综述,有关实例分割和全景分割的部分暂时放下。