贝叶斯估计、最大似然估计、最大后验概率估计的区别
似然函数和概率函数(很重要)
这个式子有两种解读方法:
把 theta 看成常量,而 x 为变量,此时式子为概率函数,表示在不同 x 出现的概率。
把 x 看成常量,theta 看成变量,此时式子为似然函数,表示在不同 theta 情况下,x 出现的概率。
最大似然估计(MLE)
是一种用来估计概率模型参数的方法,其思想是:找到使观测数据发生的概率最大值的参数。
我们所求解的是使 x 出现概率最大情况下的 theta 的取值。
最大后验概率估计(MAP)
上面讲了,最大似然估计是找到使得似然函数最大值情况下的 theta 的取值,也就是说,最大似然估计是把 theta 看成是一个固定的值,只是一开始并不知道,最终求出来一个值,一个数值!
然而,最大后验概率估计认为,theta 并不是一个值,而是一个随机变量,这个随机变量具有某种的概率分布(也即是先验分布),求解的时候不仅需要考虑似然函数,也同时要考虑这个先验分布。
所以最终我们所关心的是:
也就是上式取最大值时候的 theta 为所求。根据贝叶斯法则,上式可以转换为:
因此最大化的函数变成了 P( theta|x ),该式子也称为 theta 的后验概率,因此得名最大后验概率估计。
此时再回头看最大似然估计,他就是认为 theta 是一个固定的值,因此 theta 的概率分布为 P(theta) = 1。
所以,最大后验概率估计的步骤:
确定参数的先验概率分布以及似然函数
确定参数的后验概率分布
取对数,求导,最大值
贝叶斯估计
贝叶斯估计跟最大后验概率估计很像,都是把 theta 看成随机变量,但不同的是,贝叶斯估计并不是直接估算出 theta 的某个特定的值,而是估计 theta 的分布。
然而发现积分并不好求。如果使用共轭先验分布,就可以很好的解决这个问题。
共轭先验分布:在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。
注:二项分布参数的共轭先验是Beta分布,多项式分布参数的共轭先验是Dirichlet分布,指数分布参数的共轭先验是Gamma分布,⾼斯分布均值的共轭先验是另⼀个⾼斯分布,泊松分布的共轭先验是Gamma分布。
所以贝叶斯估计的步骤:
确定参数的似然函数
确定参数的先验分布(共轭先验分布)
确定参数的后验分布函数
贝叶斯求解参数的后验分布