条件随机场(Conditinal random field, CRF)是给定一组随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。即输出变量之间存在成对马尔科夫性,局部马尔可夫性和全局马尔可夫性。成对马尔可夫性:假设u,v为无向图G中任意两个没有边连接的节点,那么在给定其它剩余节点的条件下随机变量Yu,Yv是条件独立的。局部马尔可夫性:假设v为无向图G中任意一个节点,W为与v有边连接的所有节点,O为除v,W外的所有节点,那么在给定随机变量组YW的条件下随机变量Yv与随机变量组YO是独立的。全局马尔可夫性:设节点集合A,B是在无向图G中被节点集合C分开的任意节点集合,那么给定在给定随机变量组YC的条件下随机变量组YA与YB是独立的。上述成对马尔科夫性,局部马尔可夫性和全局马尔可夫性是相互等价的。
设X,Y是随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图G=(V,E)表示的马尔科夫随机场,即:
P(Yv|X,YW,YO)=P(Yv|X,YW)
对任意节点
v成立,则称条件概率分布
P(Y|X)为条件随机场。式中
W,O分别表示为与
v有边连接的所有节点,为除
v,W外的所有节点,即满足局部马尔可夫性。在实际问题中,我们更关心的是如何求其联合概率分布。对概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积形式,即将联合概率进行因子分解,便于模型的学习与计算。一般来说,将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式。根据Hammersley-Clifford定理,概率无向图模型的联合概率分布
P(Y)表示为如下形式:
P(Y)=1Z∏CΨC(YC)Z=∑Y∏CΨC(YC)
其中
C是无向图的最大团,
YC是
C的节点对应的随机变量,
ΨC(YC)是
C上定义的严格正函数,称为势函数,通常定义为
ΨC(YC)=exp{−E(YC)}。根据上式定义,通常也称该模型为对数线性模型。下面我们详细讨论该模型以及CRF在计算机视觉领域中的应用。
1. 最大熵模型的关系
最大熵模型基于最大熵原理,认为在学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型才是最好的模型。直观的,概率模型必须满足已有的事实,即最大熵原理也可表述为在满足约束条件的模型集合中选取熵最大的模型。假设分类模型是一个条件概率分布P(Y|X),X∈X表示输入,Y∈Y表示输出;给定一个训练数据集T={(xi,yi),…,(xn,yn)},学习的目标就是利用最大熵原理选择最好的分类模型P(Y|X)。
首先考虑模型的约束条件。根据训练数据集T,我们可以确定经验联合分布P^(X,Y)和经验边缘分布P^(X),即利用频数简单统计;特征函数f(x,y)描述输入x和输出y之间的某一个事实,若满足事实取1,反之取0,一个典型的二值函数。
那么特征函数关于经验联合概率分布P^(X,Y)的期望为
EP^(f)=∑x,yP^(X,Y)f(x,y)
特征函数关于模型
P(Y|X)和经验边缘分布
P^(X)的期望为
EP(f)=∑x,yP^(X)P(Y|X)f(x,y)
如果模型能获取训练数据中的信息,那么可以假设两个期望相等。因此最大熵模型的学习等价于约束最优化问题:
maxP∈CH(P)=−∑x,yP^(X)P(Y|X)logP(Y|X)s.t.EP^(fi)=EP(fi),i=1,⋯,n∑yP(y|x)=1
按照最优化问题的习惯,一般将最大值问题改写为等价的最小值问题求解(即
minP∈C−H(P))。这里,将约束最优化的原始问题转换为无约束的对偶问题,通过求解对偶问题求解原始问题。引进拉格朗日乘子
w0,⋯,wn,定义拉格朗日函数
L(P,w):
L(P,w)=−H(P)+w0(1−∑yP(y|x))+∑i=1nwi(EP^(fi)−EP(fi))
原始问题对应的对偶问题为
maxwminPL(P,w)。由于拉格朗日函数时
P的凸函数,因此原始问题的解与对偶问题的解是等价的。这里,我们只求解内部的极小化问题
minPL(P,w),具体的,求L(P,w)
对P(y|x)
的偏导数:∂L(P,w)∂P(y|x)=∑x,yP^(x)(1+logP(y|x))−∑yw0−∑x,y(P^(x)∑iwifi(x,y))=∑x,yP^(x)(1+logP(y|x)−w0−∑iwifi(x,y)))
令偏导等于0,在
P^(x)>0的情况下,解得
P(y|x)=exp(∑iwifi(x,y)+w0−1)=exp(∑iwifi(x,y))1−w0
由于
∑yP(y|x)=1,
Pw(y|x)=1Zw(x)exp(∑iwifi(x,y))Zw(x)=∑yexp(∑iwifi(x,y))
上述即为最大熵模型,其中
w为参数向量,
fi(x,y)为特征函数。可以看出最大熵模型与CRF在形式上很类似;但是两者刻画的对象不同,CRF从概率图模型出发,主要刻画随机变量之间的相关性;而最大熵模型基于最大熵原理进行模型的选择。
2. 非监督的图像分割
这里介绍基于MAP-MRF的框架用于图像分割。假设 X,Y代表图像数据和相应的像素标签,我们考虑简单的二值标记问题,即Ys∈{0,1},s为像素索引。MAP-MRF框架就是根据观测数据预测对应标签的后验概率,P(Y|X)。根据贝叶斯公式,P(Y|X)∝P(X|Y)P(Y),其中P(X|Y)为似然函数,P(Y)为用马尔科夫随机场建模的先验概率。
似然函数P(X|Y)一般根据数据的具体分布形式来决定相应的形式,比如在给个类别给定的条件下,数据服从高斯分布。一般我们认为在给定标签下,数据条件独立。这里,具体的概率分布形式我们采用数据惩罚项:
P(X|Y)=∏sP(Xs|Ys)∝∏sexp{−D(Xs,Φ(Ys))}
Φ(Ys)表示对应类别下的参数向量,比如高斯分布中的均值向量;
D为距离度量。该罚项使得越靠近给定类别的样本隶属于该类别的概率越高。
先验概率
P(Y)则用马尔科夫随机场刻画相邻像素间的相关性。各个像素点标签看着一组随机变量,则其满足马尔可夫性,则
P(Y)∝exp{−∑s∑t∈N(s)V(Ys,Yt)}
N(s)代表当前像素点
s的8-领域像素;
V(Ys,Yt)为clique potential function,定义了相邻像素间的平滑惩罚项:
V(Ys,Yt)=λexp{−D(Xs,Xt)/μ}(1−δ(Ys,Yt))
λ为该平滑惩罚项的权重因子,一般通过交叉验证估计;
δ(Ys,Yt)为Kronecker delta function,若
Ys=Yt则为1。可以看出
V(Ys,Yt)强制空间平滑性。如果
Ys≠Yt,则惩罚项
V(Ys,Yt)成立;但是当
D(Xs,Xt)较大时,则惩罚较小,最后概率偏大。因此,像素点
s,t趋向于不同的标签,形成分割边界。
那么最终的后验概率分布为:
P(Y|X)∝P(X|Y)P(Y)=∏sexp{−D(Xs,Φ(Ys))}exp{−∑s∑t∈N(s)V(Ys,Yt)}
对上式取负对数得到如下的后验能量函数:
E(X,Y)=∑sD(Xs,Φ(Ys))+∑s∑t∈N(s)V(Ys,Yt)
最小化该能量函数,我们就能得到满足后验概率最大的标签配置。优化该能量函数步骤如下:
1)已知参数向量
Φ={Φ(0),Φ(1)},推断
Y:
Y^=argminYE(X,Y)
上述问题实质很难得到全局最优的
Y^,一般采用belief propagation算法或MCMC采样算法,也可采用收敛较快的iterative conditional mode(IDM)算法。
2)已知
Y,参数向量
Φ的估计只依赖第一项,则采用最大似然估计算法便可。
两个步骤不断迭代便能得到最终的标签,也即分割图。
3. 监督的图像分割
随机场刻画的随机变量之间的相关性。在图像分割任务中,随机变量可以是单个像素点也可以是superpixel;这种相关性可以刻画空间领域的相关性,也可以刻画图像在不同尺度空间中的相关性如下图,甚至可以刻画视频序列在时间维度上的相关性如下图。


那么定义的相关能量函数:
E(Y|X)=∑i∈vE1(yi|X)+α∑(i,j)∈NSE2(yi,yj|X)+β∑(i,j)∈NTE3(yi,yj|X)
上述中的
E1为unary potentials项,定义形式一般为常见分类器如随机深林或logistics损失;
E2,E3为pairwise potentials项,也称为平滑项,刻画相邻标签的类别兼容性;
NS代表在同尺度下的紧邻节点变量,
NT代表如上图在不同尺度下的parent-child关系节点,也可是上图中的序列在时间维度上的紧邻节点;
α,β为正则超参数。这里值得一提的是不同尺度上的parent-child关系节点的定义为 在尺度
t下的某一个节点
qt的父节点为
pt+1,其中节点
pt+1为在尺度
t下的各节点代表的superpixel与当前节点
qt所代表的superpixel之间重叠面积最大的节点。这样的定义方式,我们只需使用常见的梯度下降法或拟牛顿法并结合带标记的训练数据对参数进行学习;其中模型中超参数一般采用交叉验证得到。而在推断过程中,常采用graph-cut或MCMC,belief propagation等算法。
4. 非监督的异常检测
当然,CRF也可以在非监督框架下做检测。比如unary potentials项可以定义为单个节点的local outlier probabilities (LoOP),一种标准的局部异常因子(local outlier factor, LOF),可以作为当前节点数据被当作异常的概率;而pairwise potentials项则使用特征的距离度量来反应相似性,因此特征越相似的节点越能进行组合并共享一个标签。最终使用belief propagation算法得到后验概率p(Y|X),并定义一个阈值进行异常的检测。
这里主要介绍一个常见的模型-Ising model:假设在前景检测中,前景目标具有空间结构相关性,记着Y∈{0,1}m×n。那么考虑图模型,这种空间结构相关性可用马尔科夫随机场来建模,每一个像素点即为节点,像素间的相关性用边来表示。则Y的能量函数可以为:
∑ijλ1Yij+∑(ij,kl)∈ϵλ2|Yij−Ykl|
上式中第一项则为unary potentials项,第二项为pairwise potentials项。很显然上述模型的最小化解一定是
Y=0。所以在构造模型时,一般还会考虑数据
X,比如结合标记
Y的误差项并进一步满足低秩等约束,来优化求解
Y。