概率图模型
概率图模型
概率图模型分类
概率模型 将学习任务归结于计算概率分布。
利用观测值推测未知分布称为 推断 ,假设观测变量为O,关系的状态为Y,其它变量为R,那么 生成式模型 考虑 联合分布 P(Y,R,O),判别式模型 考虑 条件分布 P(Y,R|O),所谓的推断是根据P(Y,R,O)或者P(Y,R|O)得到P(Y|O)。
概率图模型 分为有 有向无环图模型(贝叶斯网络),无向图模型(马尔可夫网络) 。
贝叶斯网络
最典型的贝叶斯网络为 隐式马尔可夫链,是一种生成式模型 。
马尔可夫网络
最典型的马尔可夫网络是 马尔可夫随机场,是一种生成式模型。
而条件随机场 ,是一种判别式模型。链式条件随机场(CRF) 是一种特殊的条件随机场且比较重要。
隐式马尔可夫链
参数
概率计算的 前向, 后向 算法,以及解码时候的 维特比算法 都是基于动态规划算法。
监督学习算法估计参数基于最大似然估计,用频率代替概率,加平滑处理。非监督学习采用 EM算法 。
马尔可夫随机场
马尔可夫性 指的是马尔可夫网络中一个点的概率分布仅仅与领域内点有关,严谨的数学描述有三种定义: 局部马尔可夫性 , 全局马尔可夫性 , 成对马尔可夫性 。这三种定义等价。
可以证明马尔可夫随机场的联合概率P(x)可以 因子分解 为团上的势能函数之积,即
势能函数为正值函数,做最大似然估计应该是指数函数,类似热力学的温度是势能的负对数线性函数,我们定义证据为势能的负对数线性函数,且证据通常取
条件随机场
条件随机场相比马尔可夫随机场多了给定的条件X,求P(Y|X),是一个判别式模型,而Y是一个马尔可夫随机场。
CRF
CRF是一种特殊的条件随机场,模型图与隐马尔可夫链一致,不过Y是无向图。那么根据前面的推导,可以得出
写成张量形式,为
在学习和推断上,CRF与隐马尔可夫链有类似的地方,都有 前向 ,后向 ,维特比算法 ,都采用 最大似然估计估计参数,不过CRF估计参数需要用牛顿法或者其它近似算法求解。
但是CRF还多了边际化的困难,即积分掉无关变量,求解对特定维度的分布,需要利用 采样 算法。
LDA
基于生成式有向图模型的一个重要应用是LDA,话题模型。
概率图如下图所示:
其中
利用这一概率图可以写出对于的概论函数并求解参数的最大似然估计,不过求解时候要用到近似和采样算法。但是算法思想上面都基本说清楚了,具体实现有一些细节略去。