一、概述
总的来说,推断的任务就是求概率。假如我们知道联合概率P(x)=P(x1,x2,⋯,xp),我们需要使用推断的方法来求:
边缘概率:P(xi)=∑x1⋯∑xi−1∑xi+1⋯∑xpP(x)
条件概率:P(xA∣xB),x=xA∪xB
MAPInference:z^=zargmaxP(z∣x)∝zargmaxP(z,x)
以下是一些推断的方法:
①精确推断:
Variable Elimination(VE,变量消除法)(针对树结构);
Belief Propagation(BP,信念传播,Sum-Product Algo)(针对树结构);
Junction Tree Algorithm(针对图结构)
②近似推断:
Loop Belief Propagation(针对有环图);
Mente Carlo Inference(例如Importance Sampling,MCMC);
Variational Inference
二、Variable Elimination(变量消除法)
- 变量消除法

对于上述图结构,假如我们希望求边缘概率P(d),我们就可以应用变量消除法:
P(d)=a,b,c∑P(a,b,c,d)=因子分解a,b,c∑P(a)P(b∣a)P(c∣b)P(d∣c)=b,c∑P(c∣b)P(d∣c)ϕa(b)a∑P(a)P(b∣a)=c∑P(d∣c)ϕb(c)b∑P(c∣b)ϕa(b)=c∑P(d∣c)ϕb(c)=ϕc(d)
- 解释
我们可以通过观察直接将P(d)展开计算的形式来理解变量消除法的作用。首先我们假设a,b,c,d都是离散的二值随机变量,只能取0和1两个值,然后直接将P(d)展开:
P(d)=a,b,c∑P(a,b,c,d)=a,b,c∑P(a)P(b∣a)P(c∣b)P(d∣c)=P(a=0)P(b=0∣a=0)P(c=0∣b=0)P(d∣c=0)+P(a=0)P(b=0∣a=0)P(c=1∣b=0)P(d∣c=1)+P(a=0)P(b=1∣a=0)P(c=0∣b=1)P(d∣c=0)+P(a=0)P(b=1∣a=0)P(c=1∣b=1)P(d∣c=1)+P(a=1)P(b=0∣a=1)P(c=0∣b=0)P(d∣c=0)+P(a=1)P(b=0∣a=1)P(c=1∣b=0)P(d∣c=1)+P(a=1)P(b=1∣a=1)P(c=0∣b=1)P(d∣c=0)+P(a=1)P(b=1∣a=1)P(c=1∣b=1)P(d∣c=1)=8⋅因子积
如果直接计算上式中的每一项再加起来就会需要相当大的计算量,而且上式只是每个变量都是二值变量的情况下,如果每个变量能取更多的值就会有更大的计算量。变量消除法就是根据某些节点只与图中自己的邻接节点有关这一特性来简化计算,相当于应用了乘法分配律(ab+ac=a(b+c))来避免计算每一项在加起来。变量消除法在上式中的计算过程为:
P(d)=(将与a有关的放到一起)=P(c=0∣b=0)P(d∣c=0)⋅P(a=0)P(b=0∣a=0)+P(c=1∣b=0)P(d∣c=1)⋅P(a=0)P(b=0∣a=0)+P(c=0∣b=1)P(d∣c=0)⋅P(a=0)P(b=1∣a=0)+P(c=1∣b=1)P(d∣c=1)⋅P(a=0)P(b=1∣a=0)+P(c=0∣b=0)P(d∣c=0)⋅P(a=1)P(b=0∣a=1)+P(c=1∣b=0)P(d∣c=1)⋅P(a=1)P(b=0∣a=1)+P(c=0∣b=1)P(d∣c=0)⋅P(a=1)P(b=1∣a=1)+P(c=1∣b=1)P(d∣c=1)⋅P(a=1)P(b=1∣a=1)(应用乘法分配律)=P(c=0∣b=0)P(d∣c=0)⋅ϕa(b=0)+P(c=1∣b=0)P(d∣c=1)⋅ϕa(b=0)+P(c=0∣b=1)P(d∣c=0)⋅ϕa(b=1)+P(c=1∣b=1)P(d∣c=1)⋅ϕa(b=1)(将与b有关的放到一起)=P(d∣c=0)⋅P(c=0∣b=0)ϕa(b=0)+P(d∣c=1)⋅P(c=1∣b=0)ϕa(b=0)+P(d∣c=0)⋅P(c=0∣b=1)ϕa(b=1)+P(d∣c=1)⋅P(c=1∣b=1)ϕa(b=1)(应用乘法分配律)=P(d∣c=0)⋅ϕb(c=0)+P(d∣c=1)⋅ϕb(c=1)=ϕc(d)
- 缺点
变量消除的缺点很明显:
①计算步骤⽆法存储:每次计算一个边缘概率就要重新计算一遍整个图;
②消除的最优次序是⼀个NP-hard问题:对于复杂的图来说,想要找到一个最优的消除次序是困难的。
三、Belief Propagation(信念传播算法)
- Variable Elimination算法的计算重复问题
对于以下图结构:

已知联合概率:
P(a,b,c,d,e)=P(a)P(b∣a)P(c∣b)P(d∣c)P(e∣d)
我们在计算e的边缘概率时,使用变量消除法的步骤如下:
P(e)=a,b,c,d∑P(a,b,c,d,e)=a,b,c,d∑P(a)P(b∣a)P(c∣b)P(d∣c)P(e∣d)=md→e(e)d∑P(e∣d)mc→d(d)c∑P(d∣c)mb→c(c)b∑P(c∣b)ma→b(b)a∑P(b∣a)P(a)
我们在计算c的边缘概率时,使用变量消除法的步骤如下:
P(c)=a,b,d,e∑P(a,b,c,d,e)=a,b,d,e∑P(a)P(b∣a)P(c∣b)P(d∣c)P(e∣d)=(b∑P(c∣b)a∑P(b∣a)P(a))⋅(c∑P(d∣c)d∑P(e∣d))
我们发现在计算c的边缘概率时的前一部分与在计算e的边缘概率时的一部分重复了,可以想象在求其他边缘概率的分布时也会有大量的重复,而Belief Propagation算法就是来解决这个问题。
- Belief Propagation的引出
上面我们一直计算的是有向图的马尔可夫链,现在我们将问题从链结构引申到树结构,从有向图引申到无向图(Belief Propagation只针对树状结构)。举例来说,有如下无向树:

现在我们知道该联合概率的因子分解可以写为:
P(a,b,c,d)=Z1ψa(a)ψb(b)ψc(c)ψd(d)⋅ψab(a,b)ψbc(b,c)ψbd(b,d)
我们要求解边缘概率P(a),也要应用到变量消除法,大体步骤是先消去c和d,然后再消去b,该过程如下所示:
p(a)=ψamb→a(a)b∑ψb⋅ψab(mc→b(b)c∑ψc⋅ψbc)(md→b(b)d∑ψd⋅ψbd)
我们可以看到求解的过程主要就是求以下两项(这里写得规范一些,比如a写作xa):
{mb→a(xa)=∑xbψab⋅ψb⋅mc→b(xb)⋅md→b(xb)p(xa)=ψa⋅mb→a(xa)
现在我们可以将求解xa边缘概率的过程抽象出来得到求解xi边缘概率的过程:
{mj→i(xi)=∑xjψij⋅ψj⋅∏k∈Neighbor(j)−imk→j(xj)p(xi)=ψi⋅∏k∈Neighbor(j)mk→i(xi)
我们可以继续观察求解xi边缘概率的公式,并对一些部分做一下定义:
⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧mj→i(xi)=∑xjψij⋅belief(xj)selfψj⋅childrenk∈Neighbor(j)−i∏mk→j(xj)p(xi)=ψi⋅∏k∈Neighbor(j)mk→i(xi)
因此求解mj→i(xi)需要两步:
{belief(xj)=self⋅childrenmj→i(xi)=∑xjψij⋅belief(xj)
如图展示了求解xa的边缘概率的消去(信息传递)过程:

可以想象,在求其他边缘概率时势必会有很多重复的消去过程,但是由于我们已经有了计算mj→i(xi)的通项,我们就可以利用这个公式来消除计算上的重复,而Belief Propagation算法正是利用了这个通项解决了这个问题。
- Belief Propagation
Belief Propagation算法的思想是:
不要直接求P(a)、P(b)、P(c)、P(d),只需求所有的mj→i。
Belief Propagation算法首先求所有的信息传递(收集或分发)的过程得到所有的mj→i(图的遍历),然后套用公式计算边缘概率,总的来说也就是BP=VE+Caching:

Belief Propagation算法遍历图的一种方法(Sequential Implementation)如下:
①Get root,assume a is root;
②Collect Message:
for xi in Neighbor(Root):
collectMsg(xi)
③Distribute Message:
for xi in Neighbor(Root):
distributeMsg(xi)
还有另外一种遍历的方法(Parellel Implementation),这是一种应用在分布式计算中的方法,可以并行计算,这里不做过多介绍。
- Max-product
事实上,信念传播算法分为Max-product和 Sum-product,上面讲的属于Sum-product,与Sum-product不同的是Max-product只需要将把求和符号换成求最大值max的符号即可。Max-product是 Sum-Product算法的改进,也是在HMM中应用到的 Viterbi算法的推⼴。
仍然拿以下图结构来举例,只画出了要求解的节点(a,b,c,d),其他节点(E)未画出:

Max-product的作用是用来求一个序列来使得后验概率最大,也就是:
(xa∗,xb∗,xc∗,xd∗)=xa,xb,xc,xdargmaxP(xa,xb,xc,xd∣E)
求解过程如下:
①mc→b=xcmaxψc⋅ψbc②md→b=xdmaxψd⋅ψbd③mb→a=xbmaxψb⋅ψab⋅mc→b⋅md→b④maxP(xa,xb,xc,xd)=xamaxψa⋅mb→a
这里也进行了一次类似收集信息的过程:

与Sum-product不同的是,在求解maxP(xa,xb,xc,xd)这个过程中我们不需要求ma→b、mb→c、mb→d,因为我们需要的是maxP(xa,xb,xc,xd)概率的值和xa∗,xb∗,xc∗,xd∗这个序列。
四、概念补充
- 道德图
我们常常想将有向图转为⽆向图,从⽽应⽤更⼀般的表达式。对于有向图中的三种结构,有不同的转换方法:

P(A,B,C)=ϕ(A,B)P(A)P(B∣A)ϕ(B,C)P(C∣B)
这说明A,B和B,C是团,因此可以直接去掉箭头:


P(A,B,C)=ϕ(A,B)P(B)P(A∣B)ϕ(B,C)P(C∣B)
这说明A,B和B,C是团,因此可以直接去掉箭头:


P(A,B,C)=ϕ(A,B,C)P(B∣A)P(B)P(B∣C)
这说明A,B,C是一个团,需要在A,C之间加一条线:

观察这三种情况可以将有向图到无向图的转换方法的步骤概括为:
①将每个节点的⽗节点两两相连
②将有向边替换为⽆向边
得到的无向图就是道德图。
- 因子图
对于⼀个有向图,可以通过引⼊环的⽅式,可以将其转换为⽆向图(Tree-like graph),这个图就叫做道德图。但是我们上⾯的 BP 算法只对⽆环图有效,通过因⼦图可以变为⽆环图。
联合概率的因子图分解方法为:
P(x)=S∏fS(xS)
其中:
①S:图的节点子集
②xS:S的随机变量子集
有以下无向图:

可以将其转换成一个简单的因子图:

其中f=f(a,b,c),对比无向图的因子分解P(x)=Z1ψ(a,b,c),我们可以看到因子分解本身对应一个特殊的因子图。
因子图不是唯一的,可以看做对因子分解的进一步分解,比如以下分解:

对应的计算公式为P(x)=f1(a,b)f2(a,c)f3(b,c)fa(a)fb(b)fc(c),因式分解不是唯一的,只需要保证乘积等于概率P(x)即可。在上面的因式分解中我们可以看做这个因子图分为两层:

也就是说因子图可以做到随机变量节点之间不直接相连,只与因子节点相连,因子节点只与变量节点相连。