关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

From : http://www.cnblogs.com/wybang/p/3206719.html

           http://cos.name/2013/01/lda-math-beta-dirichlet/

 

机器学习领域中,概率模型是一个常用的利器。用它来对问题进行建模,有几点好处:1)当给定参数分布的假设空间后,可以通过很严格的数学推导,得到模型的似然分布,这样模型可以有很好的概率解释;2)可以利用现有的EM算法或者Variational method来学习。通常为了方便推导参数的后验分布,会假设参数的先验分布是似然的某个共轭分布,这样后验分布和先验分布具有相同的形式,这对于建模过程中的数学推导可以大大的简化,保证最后的形式是tractable。

    

作者:郭小贤
链接:https://www.zhihu.com/question/23749913/answer/34885653
来源:知乎

Dirichlet的概率是(多项)分布的概率的概率,所以Dirichlet就是(多项)分布的分布。至于如何理解“概率的概率”,其实重点理解了共轭先验(conjugate priors)也就什么都理解了。
这么说吧,共轭先验(conjugate priors)是一种概率密度,它使得后验概率的密度函数和先验概率的密度函数有着相同的函数形式。
先看一个著名的贝叶斯公式:
P ( X | evidence ) = P ( evidence | X ) * P ( X ) / P ( evidence)
evidence是给定的样本集合,所以 P ( evidence) 是一个确定的值;
P ( evidence | X )是likelihood,在给定的模型参数X下样本数据evidence服从这一模型的概率;
P ( X )为X的先验概率,在我们没有模型参数的情况下X的概率;
P ( X | evidence )为后验概率,在给定样本数据时的模型参数服从的概率。
如果P ( X )能使得P ( evidence | X )和P ( X | evidence )具有相同的表达形式,那么我们就说P ( X )为共轭先验(conjugate priors)。
Dirichlet分布就是多项分布的共轭先验分布。先验概率取为共轭先验的好处就在于:每当有新的观测数据,就把上次的后验概率作为先验概率,乘以新数据的likelihood,然后就得到新的后验概率,而不必用先验概率乘以所有数据的likelihood得到后验概率。

    在概率模型中,Dirichlet这个词出现的频率非常的高。初始机器学习的同学或者说得再广一些,在学习概率模型的时候,很多同学都不清楚为啥一个表现形式如此奇怪的分布Dirichlet分布会出现在我们的教科书中,它是靠啥关系攀上了多项分布(Multinomial distribution)这个亲戚的,以至于它可以“堂而皇之”地扼杀我大天朝这么多数学家和科学家梦想的?为了引出背后这层关系,我们需要先介绍一个概念——共轭先验(Conjugate Prior)

  • Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki
  • 用中文来讲,在贝叶斯统计理论中,如果某个随机变量Θ的后验概率 p(θ|x)和其先验概率p(θ)属于同一个分布簇的,那么称p(θ|x)和p(θ)为共轭分布,同时,也称p(θ)为似然函数p(x|θ)的共轭先验。

    介绍了这个重要的概念之后,我们回到文章的正题。

首先需要弄清楚什么是二项分布(Binomial distribution)。这个概念是从伯努利分布推进的。伯努利分布是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。二项分布即重复n次的伯努利试验,记为 X~b(n,p)。概率密度函数(概率质量函数)为关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

-------------------------------------------------------------------------------------

Beta分布的由来:

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系


----------------------------------------------------------------------------------------------------------------------------------

看看Beta分布,给定参数关于Beta分布、二项分布与Dirichlet分布、多项分布的关系关于Beta分布、二项分布与Dirichlet分布、多项分布的关系,取值范围为[0,1]的随机变量x的概率密度函数关于Beta分布、二项分布与Dirichlet分布、多项分布的关系,其中关于Beta分布、二项分布与Dirichlet分布、多项分布的关系关于Beta分布、二项分布与Dirichlet分布、多项分布的关系。这里假定,先验分布和似然概率如下所示:

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系
关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

那么很容易知道后验概率为

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

     

-------------------------------------------------------------------------------------------------------------------

Dirichlet 分布的由来:

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系


-------------------------------------------------------------------------------------------------------------------

多项分布,从字面上所表现出的含义,我们也大抵知道它的意思。它本身确实也是这样的,其单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3...,k),其中关于Beta分布、二项分布与Dirichlet分布、多项分布的关系。多项分布的概率密度函数为关于Beta分布、二项分布与Dirichlet分布、多项分布的关系。而Dirichlet分布的的密度函数形式也如出一辙:关于Beta分布、二项分布与Dirichlet分布、多项分布的关系,其中关于Beta分布、二项分布与Dirichlet分布、多项分布的关系。到这里,我们可以看到Beta分布和Dirichlet 分布有多相似啊,二项分布和多项分布有多相似啊

     再一次来看看共轭。假设关于Beta分布、二项分布与Dirichlet分布、多项分布的关系有先验分布

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

另有似然函数

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

则后验概率

关于Beta分布、二项分布与Dirichlet分布、多项分布的关系

,和Dirichlet 分布形式一致。

    其实,细心的读者已经发现,这里这四类分布,如果但从数学形式上看,它们的组织形式都是一致的,都是通过乘积的形式构成,加上先验分布、似然函数和后验分布之间的乘积推导关系,可以很容易发现,它们所表现出的共轭性质很容易理解。