瞎想-从符号字面意思上看看最大似然估计MLE和最大后验估计MAP
Version | S | Description | Date | By |
---|---|---|---|---|
V1 | C | First Version | 2020-11-21 | AYZP |
C―― Create,
A—— Add,
M—— Modify,
D—— Delete。
前言
今天在图书馆看看自己以前的一些数学笔记的时候,对以前瞎存在的一些瞎鸡儿问题做了一些瞎鸡儿的想法,记录一下,方便以后慢慢懂了之后来推翻。
一 分析
首先,明白估计是来干嘛的:
利用经验数据获得对未观测量的点态估计
即,利用已有观测到的经验数据,对下一时刻的未进行观测的数据进行估计,也叫预测。
再详细的说一下估计到底是求什么:
根据已有观测数据X去估计未知的参数
θ
\theta
θ,这个参数
θ
\theta
θ可以用来描述未观测到的总体。
用人话讲就是,得到了这个参数 θ \theta θ,你就可以利用一个包含有 θ \theta θ的数学公式,算出未观测到的下一时刻数据的状态,这就完成了估计。
所以,估计就变成了求未知参数 θ \theta θ。
二 求参数 θ \theta θ
从上面的分析我们知道了,估计就是求总体参数 θ \theta θ,现在有两个流派来求这个参数 θ \theta θ,一个是概率派,一个是贝叶斯派。
2.1 概率派求参数 θ \theta θ:
概率派怎么求这个参数 θ \theta θ呢,概率派先做了个假设:
- 假设参数 θ \theta θ是一个未知的常数,
- 假设已有的经验数据为随机变量 X X X(实际上就是一个数据矩阵),这个经验数据 X X X服从一个概率分布
X ~ P ( X ∣ θ ) X \widetilde{~~~} P(X|\theta ) X P(X∣θ)
然后,我们的任务就是求这个参数 θ \theta θ,使得这个概率 P ( X ∣ θ ) P(X|\theta) P(X∣θ)的概率值最大。为什么要这样呢,理解一下: P ( X ∣ θ ) P(X|\theta) P(X∣θ)从表面上看,是当 θ \theta θ发生时, X X X出现的概率,换句话说,就是当我们得到了一个参数 θ \theta θ,这个参数 θ \theta θ使得真实的数据 X X X出现的概率最大,也就是说通过这个 θ \theta θ估计计算下一时刻 X X X能最接近真实数据 X X X。
最后,频率派是怎么求 θ \theta θ,用最大似然估计(Maximum Likelihood Estimate, MLE):
2.2 贝叶斯派求参数 θ \theta θ
贝叶斯派怎么求这个参数 θ \theta θ呢,贝叶斯派也做了个假设:
- 假设参数 θ \theta θ是一个概率分布,注意不是常值了!
θ
~
P
(
θ
)
\theta \widetilde{~~~} P(\theta )
θ
P(θ)
(也有装逼者,称这个
θ
\theta
θ有一个先验)
- 假设已有的经验数据为随机变量
X
X
X(实际上就是一个数据矩阵),这个经验数据
X
X
X服从一个概率分布
X ~ P ( X ∣ θ ) X \widetilde{~~~} P(X|\theta ) X P(X∣θ)
然后,贝叶斯派怎么求这个概率分布 θ \theta θ呢?那就是如这个派的名字一样,用贝叶斯公式来求这个 θ \theta θ,而求这个 θ \theta θ的过程就叫做最大后验估计(maximum a posteriori probability estimate, 简称MAP),请看超人:
P ( θ ∣ X ) P(\theta|X) P(θ∣X)是指当 X X X发生的情况下, θ \theta θ发生的概率。而 arg max θ P ( θ ∣ X ) \mathop {\arg \max }\limits_\theta P(\theta |X) θargmaxP(θ∣X)是指求使得 P ( θ ∣ X ) P(\theta|X) P(θ∣X)最大的 θ \theta θ的值。也就是说,在已知 X X X发生下,出现最多的 θ \theta θ是哪个 θ \theta θ(记住哦,在贝叶斯派里,我们 θ \theta θ是个分布呢)。
是不是可以反过来想一想,在真实的数据 X X X中,某个参数 θ \theta θ出现的次数最多,那么通过这个出现次数最多的参数 θ \theta θ估计计算得到的下一时刻 X X X能最接近真实数据 X X X
上面的公式显示,是在已知经验数据 X X X的情况下,直接求参数 θ \theta θ。确切的说,是求出现最多的参数 θ \theta θ。在 X X X和 θ \theta θ都是分布的情况下,直接求不出来,就用贝叶斯公式来求,通过贝叶斯公式,将直接求 θ \theta θ的过程转换为频率派的 P ( X ∣ θ ) P(X|\theta) P(X∣θ)。
三 小结
总的来说,而贝叶斯派就是通过贝叶斯公式直接干参数 θ \theta θ。频率派就是用概率知识反向偷参数 θ \theta θ一把。
- MLE是概率角度求解未知常数参数θ
- MAP是贝叶斯角度求解未知概率分布参数θ
以上个人愚见,慢慢补充。
参考文献
[1] 百度百科. Map (最大后验). https://baike.baidu.com/item/Map/13682429
[2] AYZP. 最大似然估计MLE和最大后验估计MAP. ****. 2020-05.
https://blog.****.net/ALexander_Monster/article/details/106146642