显著度论文阅读(0)
这几个月一直在看显著度方面的论文,断断续续的,不成体系,一会儿看看生物方面的东西,一会儿又要看看图相处理方面的东西,什么方面都有涉及,挺杂的。最开始看得是11年的一篇,看的挺开心,因为讲得很简单的样子,之后又看了14年的一篇《Salient Object Detection: A Survey》,是一个综述,虽然内容也不难,但是总是也看不懂,拖了几个月了连这一篇都没看完,决定对这篇论文中的方法都仔细看一遍,没准看着看着就懂了呢。这个系列就是阅读论文,作总结,然后说说学了什么吧。
第一篇论文是《Learning to Detect A Salient Object》2007,出现在2014年那篇中Block-based Models with Intrinsic Cues里。收获挺多。
1简介.
论文首先从现有的算法的缺陷开始,如图:
可以看出,现有的算法(Itti)将一些不是很显著的物体标注出来,比如说网格、阴影、边缘,这是由于算法只使用了low-level的信息,而这些信息并不能很好的反应显著性物体,这篇paper就使用了一些high-level的信息,比如说更倾向于识别物体(Saliency Object),而不是背景等等。这个过程是通过监督学习获得的。训练数据是通过人工圈画显著性物体获得。这种监督学习就可以视为high-level信息的获得。具体的,文中提出了一组local、regional和global的特征来定义一个一般的显著性物体。之后,使用CRF学习(条件随机场),去检测物体。效果见图1最后一行。
2.数据集的获得
给定一个图片,让多个人用矩形去圈画一个最显著的物体,之后,计算每个像素点被标注为显著性物体的概率,概率就是样本平均。由此,便获得了一个图像saliency probability map,很有趣的一点是,文中提到,对不同的人,同一张图片,圈画的都大致相同。当然,对于一些图片,肯定是有不同的,比如说有两个红球在图片上,圈哪一个都有可能,这种情况在这篇paper中不考虑,也就是说,只关注具有一个显著性物体的图片。具体的实验过程看论文吧。在得到了saliency probability map之后,我们可以对一个detectedsalient object mask A定义region-based and boundary-basedmeasurements,detected salient object mask 就是一个二值图像,用于标注是否是显著性物体,度量是用来评估模型好坏的。
3.建立模型
将salient object识别问题视为二元标注问题。使用CRF进行建模(CRF没怎么看过,下面的可能有错),目的是学习到图像I和标注A之间的条件分布P(A|I),由此可以对新图像进行预测,即对新图像I,求得A使得P(A|I)达到最大。文章中使用能量函数对条件分布P(A|I)进行建模, ,能量越低,概率越大。其中,能量函数是如下定义的:
也就是几个项的线性组合。其中,是一组Salient object feature,包含多种特征。用于表明像素x是否属于显著性物体,定义如下:
这里,是具体的特征,文中给出了三种特征。
第一种:local信息:Multi-scale contrast。基于图像的pyramid(金字塔)表示。
这里是pyramid的
图像,
是x的9*9的邻域。之后
还要归一化到[0, 1]之间。这里不多说,就是多尺度下,像素x和周边的对比。有个图:
第二种:regional信息:Center-surround histogram。
对于一个像素这里也有一个有趣的发现,文中提到,显著性物体的与
之间的
距离一般是最大的,也就是说,显著性物体具有高的区域对比度。还有一些具体操作,暂且不谈。图如下:
可以看出来,这个特征挺不错的,不像local特征那样子有精细刻画,做到了体现区域的对比度。
第三种:global信息:Colorspatial-distribution。使用的是混合高斯模型(GMMs)对颜色分布进行建模。
假设有个颜色中心,颜色为
的像素
在二维空间上的概率函数是以
为期望的高斯分布,也即
,这样,像素的概率函数
是混合高斯分布,如此,可以知道后验概率
,也就是像素
属于颜色
的可能性大小。
其中,以及
是参数。对于一幅图像,我们可以学习到这个图像的GM分布,也就是得到参数
以及
,比如说EM算法。之后,可以对global信息进行建模。首先,文中给出:
其中体现的是空间的水平方向上的颜色中心,与期望
的水平方向分量有微妙的不同。假如是对期望进行近似(对期望的近似(不是样本均值)),则有
,之后使用贝叶斯公式,再假设p(I_x)对于x都相同,则得到(14),这是(14)的一种可能的来源,总之
就是体现的空间上的一种平均吧,没太理解。h表示水平方向,
表示水平坐标。(13)式类似,体现的是一种空间上颜色变化的幅度。垂直方向上也做同样处理,最后综合起来考虑。最终,
还要归一化
之后有:
越大,说明在x处,归属于c的可能性越大,
越小,说明该颜色在空间上的离散程度越小,所以精度越大,更可能是显著的物体。实验证明这种建模是有道理的,如这幅图所示:
之后,还有一些细节,详见论文。
再回到这个式子,举个例子,如果f表示对比度特征,f越大,说明对比度越强。如果a=0,也即分配到了非显著物体。而假设这时候对比度f小,那么F就小,这样,能量就小,概率就大。如果a=0,而f很大,这说明a本来应该是显著的(f很大),但是被分配到了发生了错误的标签(a=0),这时候,概率就会很小。
对于一幅图像,上述的f_k和都可以计算出来,需要学习的是(3)中的参数,使用的是极大似然估计。一个总结的效果图如下
之后,论文还对实验进行了一些分析,就不细说了。
引用:
T.Liu, J. Sun, N. Zheng, X. Tang, and H.-Y. Shum, “Learning
todetect a salient object,” in CVPR, 2007, pp. 1–8.