概率图模型

概率图模型


概率图模型分类

  概率模型 将学习任务归结于计算概率分布。
  利用观测值推测未知分布称为 推断 ,假设观测变量为O,关系的状态为Y,其它变量为R,那么 生成式模型 考虑 联合分布 P(Y,R,O),判别式模型 考虑 条件分布 P(Y,R|O),所谓的推断是根据P(Y,R,O)或者P(Y,R|O)得到P(Y|O)。

  概率图模型 分为有 有向无环图模型(贝叶斯网络)无向图模型(马尔可夫网络)


贝叶斯网络

  
  最典型的贝叶斯网络为 隐式马尔可夫链,是一种生成式模型 。  


马尔可夫网络

  最典型的马尔可夫网络是 马尔可夫随机场,是一种生成式模型。
  而条件随机场 ,是一种判别式模型。链式条件随机场(CRF) 是一种特殊的条件随机场且比较重要。


隐式马尔可夫链

  
  参数λ=(A,B,π)A为转移概论矩阵,B为观测概率矩阵,π为初始状态概率向量。

  概率计算的 前向后向 算法,以及解码时候的 维特比算法 都是基于动态规划算法。

  监督学习算法估计参数基于最大似然估计,用频率代替概率,加平滑处理。非监督学习采用 EM算法

马尔可夫随机场

  马尔可夫性 指的是马尔可夫网络中一个点的概率分布仅仅与领域内点有关,严谨的数学描述有三种定义: 局部马尔可夫性全局马尔可夫性成对马尔可夫性 。这三种定义等价。

  可以证明马尔可夫随机场的联合概率P(x)可以 因子分解 为团上的势能函数之积,即P(x)ΠQΨQ(xQ)。又由于团间存在覆盖关系,所以保留极大团即可,其它势能函数可以合并。P(x)ΠQΨQ(xQ)

  势能函数为正值函数,做最大似然估计应该是指数函数,类似热力学的温度是势能的负对数线性函数,我们定义证据为势能的负对数线性函数,且证据通常取lnΨQ(xQ)=Σu,vQ,uvαuvxuxv+ΣuQβuxu即考虑连边和点本身的关系。如果我们认为点本身的关系看作与一个虚拟点连接的关系,那么可以仅考虑两点间关系。


条件随机场

  条件随机场相比马尔可夫随机场多了给定的条件X,求P(Y|X),是一个判别式模型,而Y是一个马尔可夫随机场。

CRF

  
  CRF是一种特殊的条件随机场,模型图与隐马尔可夫链一致,不过Y是无向图。那么根据前面的推导,可以得出

P(y|x)exp(Σu,vQ,uvαuvt(yu,yv|x)+ΣuQβus(yu|x) t,s

  写成张量形式,为P(Y|X)=softmax(wF(Y,X))
  
  在学习和推断上,CRF与隐马尔可夫链有类似的地方,都有 前向后向维特比算法 ,都采用 最大似然估计估计参数,不过CRF估计参数需要用牛顿法或者其它近似算法求解。
  但是CRF还多了边际化的困难,即积分掉无关变量,求解对特定维度的分布,需要利用 采样 算法。


LDA

  
  基于生成式有向图模型的一个重要应用是LDA,话题模型。
  概率图如下图所示:
  概率图模型
 
  其中α,η为Dirichlet分布(多项式分布)的参数。T,N,K分别为文章数,词汇数,话题数。ΘtRK为文章t的话题分布,wtRN为文章t的文本词频向量,βkRN为话题k的词频分布。
  
  利用这一概率图可以写出对于的概论函数并求解参数的最大似然估计,不过求解时候要用到近似和采样算法。但是算法思想上面都基本说清楚了,具体实现有一些细节略去。