学习笔记--深度学习时代的显著目标检测综述

学习笔记–深度学习时代的显著目标检测综述

这篇文章作者引用了182篇参考文献,撰写正文16页,堪称显著目标检测领域综述的良心之作。本文系论文学习笔记。

1 引言

文章开篇作者首先介绍了显著目标检测的起源与发展,然后对先前有关的综述文章做以总结。本文的贡献主要为:
从多个角度系统回顾深度SOD模型
创新一种基于属性的深度SOD模型性能评估方法
讨论输入扰动的影响
研究对抗攻击对SOD模型的影响
交叉数据集泛化研究
对一些开放性问题和未来的研究方向的概述

2 基于深度学习的SOD模型

作者从四个维度分析54个深度SOD模型:SOD典型网络结构、从监督层级看SOD、从学习范式看SOD、目标级别与实例级别的SOD。作者将表中列举的诸多SOD模型按照上述分类方法分类,粗略按照时间顺序进行逐个进行阐述。
学习笔记--深度学习时代的显著目标检测综述

2.1 SOD典型网络结构

SOD典型网络结构按照时间顺序经历了多层感知机、全卷积网络、混合网络、胶囊网络的四个发展阶段,全卷积网络是主流方向。
学习笔记--深度学习时代的显著目标检测综述
多层感知机方法将图像处理为多个超像素、块(MCDL、ELD、MDF、SuperCNN)和通用目标区域(LEGS、MAP、SSD)单元,然后为每一单元训练一个多层感知机为该区域打分,计出显著预测值。
多层感知机网络虽然能实现优于非深度模型的结果,但是由于其需要挨个处理每一个图像子单元,因此其时间花费是相当大的,而且图像被分割为多个子单元,图像像素间的关键空间信息就会被遗失掉,不利于模型的性能提升。借鉴全卷积网络(FCN)在语义分割领域取得的优异成绩,修改流行的VGGNet和ResNet分类网络,现行的FCN模型,大致可以总结为单流网络(RFCN、RACDNN、DLS、UCF、DUS、LICNN、SuperVAE)、多流网络(MSRNet、SRM、FSN、HRSOD、DEF)、边融合网络(DSS、NLDF、Amulet、DSOS、RADF、RSDNet-R、CPD、MWS、EGNet)、自底向上自顶向下网络(DHSNet、SBF、BDMP、RLN、PAGR、ASNet、PiCANet、RAS、AFNet、BASNe、MLSLNet、PAGE-Net、PoolNet、PS、JDFPR)和分支网络(SU、WSS、ASMO、C2S-Net、CapSal、BANet、SCRN、SSNet)。
混合网络是将FCN子网络与多层感知机进行融合,产生基于多尺度上下文的边缘检测(DCL、CRPSD)。
胶囊网络是由Hinton等人提出的新型网络,Y. Liu 和Q. Qi 等人将胶囊网络应用于SOD检测。(TSPOANet)

2.2 从监督层级看SOD

基于是否使用人工标注的显著真值图进行训练,深度SOD方法可以分为全监督、无监督、弱监督方法。
全监督训练方法一方面数据标签需要耗费大量的时间和精力,另一方面在精细标注的真值图上训练出来的模型存在过拟合以及现实场景的泛化能力差的问题。
无/弱监督训练过程中不适用具体的真值图,可以避免进行手工标记真值图的工作,目前主要利用图像层级分类标签(WSS、LICNN、SuperVAE)或者伪像素显著标签实施(SBF、ASMO、DUS、C2S-Net、MWS)。

2.3 从学习范式看SOD

从学习范式的角度来看,SOD可以分为单任务学习和多任务学习。
机器学习中,标准的方法就是单任务学习,一次学一个任务,绝大多数SOD模型都是采用的这种学习方法。利用某一领域知识监督训练SOD模型。
人类可以在已有的相关经验的基础上,学习处理新的任务。那机器是否也可以如此呢?由此产生多任务学习,结合相关任务的训练信号中的特定信息,提高了模型的泛化能力。多任务学习可以解决巨量参数模型训练的数据匮乏问题。多任务结合常有:显著目标感数(MAP、DSOS、RSDNet)、注视点预测(SU、ASNet)、图像分类(WSS、ASMO、)、噪音模式建模(DUS、)、语义分割(RFCN、SSNet、)、轮廓/边缘检测(NLDF、C2S-Net、AFNet、MLSLNet、PAGE-Net、PoolNet、BANet、EGNet、SCRN)、图像字幕(CapSal)

2.4 目标级别与实例级别的SOD

目标级SOD方法输出的预测图只标记每个像素的显著性而不区分不同的目标。而实例级(MAP、MSRNet)既标注每个像素的显著性又区分每个目标。
大多数SOD方法都是目标级别的,只检测像素显著性不关注单独的实例。
实例级SOD方法产生带有明确对象标签的显著性掩模,对显著性区域进行更详细的解析。对许多需要更细差别的实际应用程序而言,实例级信息是至关重要的。

3 SOD数据集

作者分析了自2007年至2019年间用于SOD检测的19个数据集。

学习笔记--深度学习时代的显著目标检测综述

4评估指标

这一部分作者主要介绍了7种常用的评估指标:Precision-Recall (PR), F-measure, Mean Absolute Error (MAE), Weighted Fβ measure (Fbw), Structural measure (S-measure), Enhanced-alignment measure (E-measure), Salient Object Ranking (SOR).更加详细的公式以及计算详见论文1

5基准分析

这部分从基准结果的性能总览、基于属性的评估、输入扰动影响分析、对抗攻击分析、数据集交叉泛化评估5个方面展开。
基准结果的性能总览:在6个数据集上,采用max-Fmeasure, S-measure, MAE三个属性,评估了47种SOD模型。

学习笔记--深度学习时代的显著目标检测综述
基于属性的评估:在分析之前,作者首先对分析使用的模型、数据集以及属性做了介绍。
学习笔记--深度学习时代的显著目标检测综述
作者选择了6个模型(3个非深度模型,3个深度模型),并随机从6个SOD数据集中个选出300张图片,组成一个1800张的数据库,进行各项分析。属性分析主要是从显著目标分类,挑战和场景分类三方面进行的,每一方面又分几类,具体见上表。从请注意,这些属性不是互斥的。每一类别中的数字代表该类别在总数据集中的比例。具体分析表6,是按照最后两行,每一栏进行的。具体作者的分析详见论文。
学习笔记--深度学习时代的显著目标检测综述
除了就Max-F进行分析,作者还就F-Measure进行了分析。
学习笔记--深度学习时代的显著目标检测综述
作者将扰动分为随机输入扰动和故意设计的对抗攻击输入。
输入扰动影响分析:这一部分的分析主要体现在表8中,噪音有Gaussian blur, Gaussian noise, Rotation, Gray四类,其中前三种根据参数不同各有两类。整体而言非深度方法比深度方法的鲁棒性更强,主要受益于人工超像素层级特征的鲁棒性。针对每一种噪音具体分析,非深度模型的性能,基本不受角度变换的影响,对强Gaussian noise十分敏感。深度方法对Gaussian blur 和强 Gaussian noise敏感,主要是因为这两类噪声会影响浅层网络的感受野。
学习笔记--深度学习时代的显著目标检测综述
对抗攻击分析:对抗攻击是指为图片添加人眼看不出明显差别的噪声,但会导致机器识别错误。这项研究在分类任务中已经广泛开展开来,但在SOD领域还有待开发。这一部分,作者在三个典型的深度模型上开展的,分析了SOD模型的鲁棒性(表9对角线)和网络间的可转移性(表9非对角线)。测试依旧是在混合数据集上进行的。将SOD视作特殊的语义分割,作者采用了语义分割中的对抗攻击算法DAG,通过定性与定量分析,可以看出,一点对抗攻击都会引起巨大的性能下降,通常与随机施加的噪音相比,这些对抗的例子会导致更糟糕的预测。可转移性是指针对一个模型生成的对抗样本在不进行任何修改的情况下误导另一个模型的能力。结果表明,DAG攻击很少在不同的SOD网络之间转移。这可能是因为在不同的SOD模型中,攻击的空间分布非常不同。
学习笔记--深度学习时代的显著目标检测综述
数据集交叉泛化评估:在这部分作者首先介绍了设计的编解码网络,然后就研究结果进行分析。网络的实施细节见文献。这一部分最值得借鉴的是数据集交叉的思路。
学习笔记--深度学习时代的显著目标检测综述
考虑到作者选用的6个数据集中,ECSSD的图片数最少(1000),所以模型在不同数据集上训练时随机选取1000张,800张用于训练,200张用于验证。下表是一些分析结果。按列看,表示所有模型在同一个数据集上的性能,可以反映该数据集图片检测的难度;SOC最难,MSRA10K最简单,通过比较最后一行的Mean others.
按行看,一个训练模型在不同数据集上的性能,反映出该模型的泛化能力。MSRA10K泛化能力最差,最高行下降百分比>0,且最大;DUTS拥有最好的泛化能力,最低行下降百分比<0,且绝对值最大。下降比计算公式:
学习笔记--深度学习时代的显著目标检测综述
学习笔记--深度学习时代的显著目标检测综述

6讨论

讨论主要围绕SOD模型设计、数据集收集、显著性排名与相对显著性、与注视点的关联、语义SOD、无/弱监督训练SOD、SOD在现实场景中的应用这7个方面展开的。
在进行SOD模型设计应该多多从特征集合、损失函数、网络拓扑、动态推理结构四个角度思考问题。深度模型最大的优势在于可以提取比传统方法丰富千百倍的特征,然而网络 不同层提取的特征如何有效融合将直接影响SOD模型的预测结果,原文给出了目前常见的特征融合策略:多流/多分辨率融合,自顶向下自底向上融合,边输出融合,其他研究领域相关特征融合(注视点、语义分割)等。针对损失函数的设计,研究人员或将SOD的评估指标写入损失函数,或直接利用MIoU.网络拓扑直接影响网络的训练难度和参数量,诸多实验表明ResNet做基础网络骨架够贱的网络往往优于VGG.在网络拓扑设计这个角度,AutoML将会是一个很有前景的研究方向。动态推理结构主要用于降低网络参数并最大限度地保持网络性能。动态推理结构可以理解为选择网络**部分输出特征或者实现早期停止,静态方法主要有卷积核分解、网络修剪。
SOD数据集收集作者考虑了现有数据及与现实世界存在数据选择的偏差(理论数据集较理想,背景单一,每张图必然存在显著目标),不同数据集之间相同目标的标签设计规则不一致,标签的粗细程度不同,具体领域数据集四个点。
显著性排名与相对显著性这一小节讨论多显著性目标和显著性共存物体或区域的显著性的问题,作者总结相关的解决办法有显著目标排名和多观测器投票。
在与注视点的关联这一小节,作者讨论了两者的相似性和差异性,列举了一些两者联合进行SOD开发的工作。
语义SOD使用语义分割数据集预训练SOD模型或多任务并行训练SOD和语义分割模型的方式,将语义分割信息用于SOD。
无/弱监督训练SOD主要解决全监督高成本和时间消耗的问题,在研究和实际应用中具有很大的应用价值,需要记住分类级别的标签或者伪像素标签。
SOD在现实场景中的应用,为了满足移动和嵌入式应用程序的需求,需要更简单、更轻的网络架构,可以利用模型压缩或知识蒸馏等技术。