Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

大多数用于图像分割和标记最先进的技术都使用了在像素或图像区域上的条件随机场。

本文中在图像的所有像素总中定义全连接CRF模型。这样会产生数十亿的边缘,使得传统算法难以求解,针对这一问题本文提出了用于全连接CRF模型的高效近似推断算法,用来求解。

其中PEP(pairwise edge potentials)是有高斯核的线性组合定义的。用来描述标签和标签之间关系的特征函数。

1 Introduction

一种常用的图像分割方法是在图像像素的分类中将此问题作为条件随机场的最大后验推断。

 

  • 最大后验(英文为Maximum a posteriori,缩写为MAP)。举个例子:数字通信系统中,最大后验概率准则是指在接收到混合波形后,判断出发送信号的条件概率密度最大。由于它是在收到混合波形后才具备的,故称为后验概率(或概率密度)。
  • 核函数是一种把低维数据映射到高维数据的工具。

基本的CRF模型由像素或图像块以及相邻像素间的势函数组成。由这种邻接的CRF模型限制了其对于图像内远程建模的能力,而且通常会导致分割边界过度平滑的问题。未来提高分割和标记精度,有一些研究拓展了基本的CRF框架,以便在图像区域内定义分层连接和高阶势函数。但是这些方法的准确性会受到无监督图像分割的限制。 这也限制了基于区域方法在复杂图像区域进行分割的能力。

本文中,探索了一种用于准确予以分割的新型模型结构,使用了全连接的CRF,在图像中的所有像素对中建立势函数。在【18 22 6 17】的研究中,全连接的CRF已经用于语义凸显给标记,但是全连接模型推理的复杂性限制了它们只能应用与数百个或更少的图像区域。另外,通过这些方法实现的分割精度仍然受到无监督分割的限制。

2 The Fully Connected CRF Model

定义 I {I1, . . . , IN}和 X{X1, . . . , XN},Ij为像素j的颜色向量,Xj是像素j的标签。

条件随机场(I,X)可以通过吉布斯建模得到P(X | I):

Efficient Inference in Fully Connected CRFs with Gaussian Edge PotentialsEfficient Inference in Fully Connected CRFs with Gaussian Edge PotentialsEfficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

标签分类的最大后验概率MAP为:Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

为了方便,以下的标记中把条件省略掉,如Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

在全连接CRF模型中,根据吉布斯分布可以定义:Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

其中,i 和 j 的范围为1~N,通过分类器独立的为每个像素计算单像素势函数Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials,该分类器可以在给定个图像特征的标签中产生一个分布。我们在实现中使用的单像素势函数包括,形状,纹理,位置和颜色的描述。

由于单像素分类器的输出独立于其他像素分类器产生的输出,因此通常由单像素分类器产生的MAP标记通常是由噪声的,如下图(b)所示:

Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

成对像素的势函数为:

Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

 

其中,Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

fi 和 fj 是像素i和j在一个任意特征空间的特征向量。w是线性权重,μ是兼容性函数Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials,为相邻相似标签引入了一个惩罚项。(例如,它将标记为“天空”和“鸟”的一对附近像素,处罚到,与标记为“天空”和“猫”的像素相同的程度。)

对于多分类的语义分割和标注问题,我们使用对比度敏感的双核势函数。I代表颜色,p代表位置。

Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials

 

appearance kernel(外观内核)受到观察的启发,即具有相似颜色的附近像素可能属于同一类;接近度和相似度由分母中的参数θ控制。smoothness kernel(平滑内核)可以消除较小的孤立区域。相关参数根据section4中的算法,从数据中学习得到。

 3 Efficient Inference in Fully Connected CRFs

xxxxx

3.1 Mean Field Approximation

用平均场近似的方法计算Q(X)的分布代替P(X),在所有的Q分布中,最小化KL散度D(Q||P),Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials