第六章 参数估计(Parameter estimation)
样本估计整体:
在统计学中,由于大多数情况下难以获得总体的情况,所以人们通常选择通过样本去估计总体(主要是通过样本的统计量估计总体的统计量)。
参数估计:通常为**已知样本分布(通常为正态分布)**的情况下
由于知道每个样本的具体的值,故能知道样本的所有的数值特征
可以利用样本的参数(主要是xˉ和s2)对总体对应的参数(μ和σ2)进行估计。
参数估计方法:
参数估计有两种方法分别是:点估计和区间估计
点估计(Point estimate for a parameter):又包括矩估计和最大似然估计。
点估计:
矩估计
矩估计直接用样本的统计量代替相应总体的统计量较为直白、粗暴,胜在简单:
利用如下公式直接对参数进行估计:
其中,Ak是x的k阶原点矩。
Ak=n1i=1∑nxik
-
期望估计(一阶原点矩)
A1=E(x)=xˉ
-
方差估计(二阶原点距)
A2=E(x2)=D(x)+[E(x)]2
最大似然估计
最大似然估计认为:出现所得到的观测值的原因,是因为其出现概率最大,具体计算操作此处暂不涉及。
评价标准:如果判断一个估计量是好是坏?
判断一个估计量的好坏:首先要以不存在系统性偏差为前提(期望相同);在这个前提下误差越小越好(方差更下);同时样本数越多,估计的越准(依概率收敛于被估计参数)。
- 无偏性:估计量的数学期望等于被估计参数。【期望相同】
- 有效性:均为无偏时,方差小的有效性更强。【方差更小】
- 一致性:随着样本量的增大,估计值接近被估计参数。【收敛于被估计参数】
区间估计:
区间估计认为,小概率事件不会在一次实验中发生,故可以利用分位数确定参数所在区间范围。
考虑到样本参数直接等于总体参数的可能性接近于0,区间估计对齐进行优化:增加可能存在的误差区间【这个误差的大小由置信水平$1-\alpha 决定(\alpha$可以当做犯错误的概率)】
- 若要求犯错的概率越低,那么误差的水平将会越大。
- 若要求误差的水平越小,那么犯错的概率将会越高。
这是建立在已知信息(即样本的数量)不变的情况下,如果增大信息量(即增加样本量)那么可以同时减少误差和犯错概率!
林德伯格中心极限定理:保证正态总体前提
抛开数学公式的解释就是:当样本量足够大的时候,样本的分布将可以近似为正态分布,而如果已知是正态分布,那么一切都变得好办了起来。

注:图片来自知乎,作者慧航,如有侵权,请联系删除。
由此中心极限定理,可以将很多未知分布的问题转化为正态分布的问题,使得问题变得可以研究。因此接下来所讨论的问题均在已知正态总体的情况下进行讨论。
单个总体:
估计均值:
如果需要对整体均值(μ)进行估计,按照整体方差(σ2)已知或未知分成两种不同的情况。分别采用z(也可是说u,下文统一用z)统计量或者t统计量。
待估参数 |
其他参数(σ) |
统计量 |
置信区间 |
$\mu $ |
未知 |
t=s/nxˉ−μ∼t(n−1) |
[xˉ±tα/2ns] |
$\mu $ |
已知 |
z=σ/nxˉ−μ∼N(0,1) |
[xˉ±zα/2nσ] |
注:在大样本(统计学中认为n≥30的,可以称之为大样本)的情况下,即使总体方差未知也可以使用z统计量进行估计。(从操作难度上来看,选择z或者t作为统计量是一样的)
- SPSS中只有t检验
-
z和t统计量的主要区别在于t统计量厚尾
估计方差:
如果需要对整体方差(σ2)进行估计,按照整体均值( μ )已知或未知分成两种不同的情况,由于已知均值未知方差情况过于少见(以至于大多数教材都未列出),且二者差异只在自由度不同。此处只对μ未知的情况进行研究讨论。
待估参数 |
其他参数($\mu $) |
统计量 |
置信区间 |
σ |
未知 |
χ2=σ2(n−1)S2∼χ2(n−1) |
[χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2] |
两个总体:
两个总体的估计,主要有估计均值之差和估计方差之比两种情况,基本思路是将两总体转化为单总体再进行操作。所以具体的操作步骤和单总体操作基本类似,只是由于总体变成了两个,新增了一个分类维度,叫做“均值是否相同”。
分类:
独立样本估计均值之差:
-
方差已知的情况下,无论样本大小,对参数进行估计,均采用z统计量。
统计量 |
置信区间 |
z=n1σ12+n2σ22(x1−x2)−(μ1−μ2) |
[(x1−x2)±zα/2n1σ12+n2σ22] |
-
方差未知的情况下,需要对样本的大小进行讨论,采用不同的方法
-
大样本情况下的均值之差估计,不需要考虑总体方差是否相同
统计量 |
置信区间 |
z=n1s12+n2s22(x1−x2)−(μ1−μ2) |
[(x1−x2)±zα/2n1s12+n2s22] |
-
小样本情况下的均值之差估计:在小样本的情况下,若方差已知。
|
方差相同 |
方差不同 |
统计量 |
t=sp1/n1+1/n2(x1−x2)−(μ1−μ2)∼t(n1+n2−2) |
t=n1s12+n2s22x1−x2∼t(v) |
置信区间 |
[(xˉ1−xˉ2)±tα/2(n1+n2−2)sp2(1/n1+1/n2)] |
[(x1−x2)±tα/2(v)n1s12+n2s22] |
参数信息 |
sp2=n1+n2−2(n1−1)s12+(n2−1)s22 |
v=n1−1(s12/n1)2+n2−1(s22/n2)2(n1s12+n2s22)2 |
匹配样本估计均值之差
使用匹配样本可以排除由于样本本身的差异对结果造成的影响,下边列出方差未知情况下的匹配样本均值之差的参数估计
|
统计量 |
置信区间 |
大样本 |
z=σd/ndˉ∼N(0,1) |
[dˉ±zα/2nσd] |
小样本 |
z=sd/ndˉ∼tα(n−1) |
[dˉ±zα/2nsd] |
其中:
d=nd∑X1i−X2i
-
σd:总体各差值的标准差,sd:样本各插值的标准差:
sd=nd−1∑(di−dˉ)2
估计方差之比:
估计方差之比,先构造卡方统计量,对方差进行估计;再利用估计的方差做比,构造F统计量,从而求出方差之比的参数估计范围。由于应用较少,在此略去不表。(有时间再填这个坑吧)
思维导图:
