参数估计
样本的统计量
设随机变量
1. 样本均值为:
2. 样本的方差为:
样本方差的分母使用
样本的矩
-
k 阶样本原点矩Ak=1n∑i=1nXki -
k 阶样本中心矩Mk=1n∑i=1n(Xi−X¯¯¯)k
矩估计
矩估计,即矩估计法,也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩(即所考虑的随机变量的幂的期望值)的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代(未知的)总体矩,解出感兴趣的参数。从而得到那些参数的估计。
1. 设总体的期望为
原点矩表达式:
根据该总体的一组样本,求得原点矩:
2. 矩估计的结论:
1. 根据各自阶的中心矩相等,计算得到:
2. 由于是根据样本求得的估计结果,根据记号习惯,写作:
3. 正态分布的矩估计
在正态分布的总体中采样得到n个样本:
4. 均匀分布的矩估计
设
矩估计要求满足:
从而:
贝叶斯估计和最大似然估计
这部分内容转载自这里
最大似然估计(Maximum Likehood Estimation MLE)
最大似然估计的核心思想是:找到参数θ的一个估计值,使得当前样本出现的可能性最大。简单说来就是:谁大像谁!
假设有一组独立同分布
最大似然估计会寻找关于θ 的最可能的值,即在所有可能的 θ 取值中,寻找一个值使这个采样的“可能性”最大化!
因为是”模型已定,参数未知”,此时我们是根据样本采样
实际使用中,因为f(xi|θ)一般比较小,而且n往往会比较大,连乘容易造成浮点运算下溢。所以一般我们用对数似然函数(用对数的好处:对数函数与原函数增减性相同,而且求导方便):
那最终
根据前面的描述,总结一下求最大释然估计值的步骤:
1. 写似然函数
2. 一般对似然函数取对数,并将对数似然函数整理
3. 对数似然函数求导,令导数为0,求得似然方程
4. 根据似然方程求解,得到的参数即为所求估计值
对数似然求解实例
问:假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?
解:我们假设罐中白球的比例是
按照第二部分提到的似然估计求解过程,先写出似然函数:
接下来对似然函数对数化:
然后求似然方程:
最后求解似然方程,得:
以上就是最大似然估计的详细完整过程!
贝叶斯估计
统计学里有两个大的流派,一个是频率派,一个是贝叶斯派。时至今日,这两派还未就各自的观点达成统一。我们前面提到的最大似然估计就是频率派的典型思路,接下来再看看贝叶斯派的思路,到底跟频率派估计有何不同。
先来看几个相关的小公式:
两个随机变量
如果x,y是独立随机变量,上面的式子可以表示为:
那么条件概率就可以表示为:
对于一个完备事件组
由以上这些,可以得出贝叶斯公式:
其中,
MLE与Bayes的区别
通过观察MLE与Bayes的公式,发现Bayes公式比MLE公式里就多了一项
换句话说,最大似然估计没有考虑模型本身的概率,或者说认为模型出现的概率都相等。而贝叶斯估计将模型出现的概率用先验概率的方式在计算过程中有所体现。
举个大家上学时候就遇到的例子:
假如人们会感染一种病毒,有一种测试方法,在被测试者已感染这个病毒时,测试结果 为阳性的概率为95%。在被测试者没有感染这个病毒时,测试结果为阳性的概率为2%。现在,有一个人的测试结果为阳性,问这个人感染了病毒吗?
如果用最大似然估计的方法,既然感染了病毒出现阳性的概率为95%,没感染出现阳性的概率为2%,本着谁大像谁的原则,那我就认为这个人已经感染了病毒。
但是如果用贝叶斯方法进行估计,如果我们得知有一个先验概率,比如整体人群中只有1%的人会感染此种病毒,那么由贝叶斯公式:
其中,p(真阳性|检测为阳性)为后验概率,即我们通过检测出为阳性可以判断为真阳性的概率;
由此可见,在贝叶斯估计中,先验概率对结果的影响很大。在这种场景下,采用贝叶斯估计似乎更为合理一些。
最后来个总结:从本质上来说,最大似然是对点估计,贝叶斯推断是对分布估计。即,假设求解参数θ,最大似然是求出最有可能的θ值,而贝叶斯推断则是求解θ的分布。
Tips
MLE简单又客观,但是过分的客观有时会导致过拟合(Over fitting)。在样本点很少的情况下,MLE的效果并不好。比如我们前面举的病毒的例子。在这种情况下,我们可以通过加入先验,用贝叶斯估计进行计算。
贝叶斯估计最要命的问题是,实际应用场景中的先验概率不是那么好求,很多都是拍脑袋决定的。一旦是拍脑袋决定的,这玩意自然就不准;更有甚者,很多时候是为了方便求解生造出来一个先验。那既然这样,要这个先验还有什么卵用呢?所以频率派的支持者就揪住这点不放攻击贝叶斯派。
在现在看来,Frequentist与Bayesian这两派还将长期并存,在各自适合的领域发挥自己的作用。
方差与偏差
偏差(bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
方差(Variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。