虽然非计算机专业,但因为一些原因打算学习西瓜书,可由于长时间没有碰过概率统计的知识,有所遗忘。所以特意重新复习了一遍类似的知识,写在这里权当总结。主要参考《概率论与数理统计》(陈希孺)。
参数估计就是根据样本推断总体的均值或者方差、或者总体分布的其他参数。可以分两种,一种是点估计(估计一个参数的值),另一种是区间估计(估计一个参数的区间)。参数估计的方法有多种,各种估计方法得出的结果不一定相同,很难简单的说一个必定优于另一个。
点估计
点估计主要有三种方法:矩估计、最大似然估计、贝叶斯估计。
矩估计
定义k 阶样本原点矩为
ak=1n∑i=1nXki
若
k=1则原点矩显然就是样本均值
X¯;再定义
k 阶样本
中心矩为
mk=1n∑i=1n(Xi−X¯)k.
另一方面,总体分布设为
f(x;θ1,θ2,...,θk)
则有
m阶原点矩
αm=∫xmf(x;θ1,θ2,...,θk)dx.
矩估计的思想就是:令样本
k 阶矩等于总体
k 阶矩,得到一组方程,由此
反解出{θi}.
一般原则是要求解
n个参数,就选
n个最低阶的矩,令它们相等并反解。
例题:设X1,...,Xn为区间 [θ1,θ2] 上均匀分布总体中抽出的n个样本,估计出θ1,θ2.
计算出样本中心矩m1=∑iXi/n和m2=∑iX2i/n.再计算出总体中心矩分别为θ1+θ22 和 (θ1+θ2)212,令它们对应相等,解出来两个 θ 即可。
极大似然估计
符号同前,样本(X1,...,Xn)的联合概率密度(PDF)为
f(x1;θ1,...,θk)f(x2;θ1,...,θk)...f(xn;θ1,...,θk).
现在反过来,
固定样本{Xi}而把上面PDF看作关于
{θi}的“密度函数”,加引号是因为实际上
{θi}是固定参数而非随机变量,这里可以叫做似然函数(likehood, 而非probability)。既然似然函数的
{Xi}固定,那么可以认为
最可能的{θi}取值必然是使得似然函数最大的那组取值。也就是说
{θi}的估计值是使得下面表达式最大的那个值
L(X−1,⋯,Xn;θ1,⋯,θk)=∏i=1nf(Xi;θ1,⋯,θk)
上式为累乘,取对数变为求和累加,称为对数似然函数(
因为对数函数也同一点取得最大值)
lnL=∑i=1nlnf(Xi;θ1,⋯,θk)
如果函数性质足够好,用上式分别对
{θi}求导令其为零,求得驻点再验证极值点和最值点。
例题:设X1,⋯,Xn为从[0,θ]均匀分布总体中抽取的样本,估计参数θ.
直接看出来单个样本密度函数为θ−1,所以似然函数为
L={θ−n00<Xi<θ,i=1,⋯,nother
函数性质不够好,需要直接求最大值:在函数非零区间内,θ越小函数值越大,而θ最小值为max{Xi},这就是估计值。
所以直观看来,极大似然估计给出了一个比较奇怪的估计值:它认为样本的最大值就是总体的上界。
贝叶斯估计
贝叶斯估计参数时,最好需要对参数的分布状况有一个先验的了解,以单参数θ为例,假设根据经验,其先验分布为h(θ).这里虽然θ的确是一个确定的参数,谈不上概率分布,但是在贝叶斯估计这套理论中,必须根据经验或者历史给出这么一个”先验分布”。h(θ)必须非负,但不要求归一,不归一时称为”广义先验密度”。
参数为θ且样本为{Xi}的概率为(PDF)
h(θ)∏i=1nf(Xi,θ)
这样,它关于
{Xi}的边缘密度为
p(X1,⋯,Xn)=∫h(θ)∏i=1nf(Xi,θ)dθ
由此得到在
{Xi}给定条件下,
θ的条件概率密度为
h(θ|X1,⋯,Xn)=h(θ)∏i=1nf(Xi,θ)/p(X1,⋯,Xn)
上式给出来了在抽到样本
{Xi}情况下的参数
θ的概率密度,称为“后验密度”,
形式上看就是一个带有连续参数的贝叶斯公式。获得上面条件概率表达式以后,
θ的估计值如何求,有多种方式,比如,求这个分布的均值作为
θ的估计值。
例题:做n次独立重复试验,每次观察事件A是否发生,A在每次试验中发生的概率为p,用试验结果估计p.
设先验密度为h(p),设A发生记为Xi=1,否则记为Xi=0. 对于样本Xi,P(Xi=1)=p而P(Xi=0)=1−p,所以事件(X1,⋯,Xn)概率密度为
pS(1−p)n−S
其中S=∑iXi,所以后验密度为h(p|X1,⋯,Xn)=h(p)pS(1−p)n−S∫10h(p)pS(1−p)n−Sdp
不妨取上式均值p^为p的估计值。如果取h(p)为均匀分布,则经过化简计算可得p^=(S+1)/(n+2).
用期望(一阶原点矩)去估计的结果是S/n,在n很大时,两者相同;在n很小,比如n=1,S=1时,期望估计给出p^=1,而贝叶斯估计给出p^=2/3.
点估计的准则
前面提到的参数的点估计方法有三种,在确定的情况下,应该选择哪种估计更恰当,这就是估计优良性准则的问题。
无偏性
字面意思就是一个估计没有偏差。
定义:假设某总体的分布包含位置参数θ1,⋯,θk,而X1,⋯,Xn为抽取出的样本,要估计的统计量设为g(θ1,⋯,θk),g(⋅)为一已知函数,设g^(X1,⋯,Xn)为一个估计量,如果对于任何的θ1,⋯,θk取值,都有
Eθ1,⋯,θk[g^(X1,⋯,Xn)]=g(θ1,⋯,θk)
则称g^(⋅)为g的一个无偏估计量。
上式E(⋅)求期望算符有下标,表示在系统参量分别为某θ1,⋯,θk时,抽取样本{Xi},计算g^,再对不同抽取的样本进行求期望操作(固定θ,对样本求期望)。上面定义并未对样本容量n提出要求。
注意,E(⋅)括号里面本质上是一个随机变量,所以这才能求期望。
例题:可以证明,样本均值X¯是总体均值μ的无偏估计,样本方差s2=1n−1∑i(Xi−X¯)2是总体方差σ2的无偏估计;但是样本中心二阶矩1n∑i(Xi−X¯)2并非总体方差的无偏估计,而且样本标准差s并非总体标准差的无偏估计。
在前面的极大似然估计那里的例题,给出的θ的估计值是抽取到的样本的最大值,可以证明它并非无偏估计。
例题:如何把上面的θ^修正为无偏估计。
先计算出Eθ(θ^).前面说过E(⋅)里面的θ^本质上是一个随机变量,为求其期望,需要求出它的密度分布函数PDF,为此可以先求出它的累积分布函数CDF。下式为θ^的CDF
Gθ(x)=⎧⎩⎨⎪⎪⎪⎪0(xθ)n1x⩽00<x<θx⩾θ
对于上式第二行的解释:当0<x<θ,则想要事件{θ^<x}发生,则必须有{X1<x},{X2<x},⋯,{Xn<x}
同时发生(因为θ^为它们中的最大值),而它们是独立事件,每个事件发生的概率P(Xi<x)=x/θ (因为均匀分布)。对上式求导得到随机变量θ^的PDF为gθ(x)={nxn−1/θn00<x<θother
有了PDF就可以求期望Eθ(θ^)=∫θ0xgθ(x)dx=nn+1θ
所以如果要使用这个估计值,就应该乘以n+1n因子才能成为无偏估计。
相合性
相合性的字面意思和无偏性几乎一样,但数学本质是不同的,是对参数估计量完全不同的两个方面的描写。大数定理说的是,如果X1,⋯,Xn独立同分布均值为μ,则对于任意给定的正数ε都有
limn→∞P(|X¯−μ|⩾ε)=0.
相合性大致相当于大数定理的一种“推广”。
定义:设总体分布依赖于参数θ1,⋯,θk,而g(θ1,⋯,θk)是一个给定的函数。设X1,⋯,Xn为抽取的样本,而g^(X1,⋯,Xn)为一个估计量,则对于任意的正数ε,有
limn→∞Pθ1,⋯,θk(|g^(X1,⋯,Xn)−g(θ1,⋯,θk)|⩾ε)=0
由上面的定义,大数定理无非就是表达了”样本均值是总体均值的相合的估计量“这层意思。注意这里没有对不同的样本求期望,而是令样本容量趋于无穷,这是和无偏性的差别。
最小方差误差
如果现在有两个无偏估计,要在一起比较性能,则可以比较其方差的大小,方差越小,估计量越稳定。上面说过了,估计量g^(X1,⋯,Xn)本质上还是一个随机变量,其随机性来自于{Xi}的随机性。所以估计量的方差,就是这个随机变量通常意义下的方差而已。
如果一个无偏估计g^对于任何其他的无偏估计g^1以及任何的{θi}取值,都有更小的方差,则称此g^为一个最小方差无偏估计(MVU)。
区间估计
前面说的参数估计,是利用各种方法把一个分布中的未知参数根据样本求出估计值,所以叫做点估计。区间估计则是把未知参数估计到一个区间中,并给出置信系数。
定义:给定一个小量α∈[0,1],下式概率等于1−α,对于参数θ的任何取值都成立,则称区间估计[θ^1,θ^2]的置信系数为1−α.
Pθ(θ^1(X1,⋯,Xn)⩽θ⩽θ^2(X1,⋯,Xn))
有时候难以找到恰当的α恰好使得上式概率为1−α,常常找到一个稍大的β,使得上式不小于1−β。所以如果找到这样的β,则称1−β为区间的置信水平。置信系数为最大的置信水平。
枢轴变量法
先来定义某分布(比如正态分布)的上β分位点Φ(μβ)=1−β,其中Φ(⋅)为一个累积分布函数CDF. 或者如下图,图中是一个分布的PDF,μβ为其上β分位点。

例题:样本X1,⋯,Xn来自于正态总体N(μ,σ2),σ2已知,根据样本求μ的区间估计。
由概率论知识,n−−√(X¯−μ)/σ∼N(0,1),以ΦN(x)表示标准正态分布的CDF,则有
P(−μα/2<n−−√(X¯−μ)/σ<μα/2)=Φ(μα/2)−Φ(−μα/2)=1−α
⇒P(X¯−σμα/2⩽μ⩽X¯+σμα/2)=1−α
依据定义,μ的置信系数为1−α的区间估计是[X¯−σμα/2,X¯+σμα/2].
在此问题中,随机变量Y=n−−√(X¯−μ)/σ起到了中间人的作用,所以叫它枢轴变量。总的思路是,先利用概率论知识找枢轴变量,使得枢轴变量整体服从某个完全已知的分布(此问题中为N(0,1)),再根据分位点的意义,列出方程P(A<Y<B)=1−α,其中A,B为和α有关的分位点。最后将不等式A<Y<B改写成a<θ<b的形式,结合区间估计的定义即可得出结论。
另外,此问题中σ2已知,如果未知也可以做,做法如下:
根据概率论知识,有枢轴变量n−−√(X¯−μ)/s服从自由度为n−1的t分布(此分布完全确定),其余步骤模仿例题,得出置信系数为1−α的区间估计为
[X¯−stn−1(α/2)/n−−√,X¯+stn−1(α/2)/n−−√]
其中
tn−1(α/2)为分位点。
如果找到的枢轴变量不严格满足某特定已知分布,但n很大以至于可以近似满足某已知分布,则可以结合中心极限的思想,做一个近似,姑且认为枢轴变量满足。这叫做大样本近似。
置信界(单侧估计)
前面的枢轴变量法找的是区间的两个端点,有时候不需要两个端点,而只需要估计参数是不是大于(小于)某个值。
若对参数θ的一切取值,有
Pθ(Θ(X1,⋯,Xn)⩾θ)=1−α
成立,则称Θ为一个置信系数为1−α的置信上界。若将⩾换为⩽则称Θ为一个置信系数为1−α的置信下界。
解决问题的方法和两个端点的枢轴变量法一样,只不过不等式都变成了单边的了而已。
贝叶斯法
贝叶斯法处理统计问题的思路都是相似的,这里还是必须先假定一个先验密度函数h(θ),设样本X1,⋯,Xn,计算出后验密度函数h(θ|X1,⋯,Xn),找出两个值θ1,θ2使得
∫θ2θ1h(θ|X1,⋯,Xn)dθ=1−α
成立,则区间
[θ1,θ2]可以作为一个区间估计,
后验信度为
1−α.
一般来说会有很多
θ1,θ2满足条件,选择的原则通常是使得
|θ1−θ2|最小。
贝叶斯法和枢轴变量法的区别
枢轴变量那一套方法是奈曼理论(J.Neyman),而贝叶斯(Bayes)理论与其观念上有根本区别。奈曼理论中,置信系数为0.95的确切意思是:对于给定的参数θ,抽取样本,根据样本计算区间,则这样的行为每进行100次,平均有且仅有95次计算出来的区间包含真实的参数θ;而贝叶斯法的后验信度为0.95的意思是:计算出来的区间包含真实参数的相信程度为0.95.