关于《概率论与数理统计》最全假设检验总结

 

前面写了一个参数估计,现在也顺便把假设检验也总结一下吧,主要参考书还是那本《概率论与数理统计》(陈希孺)。

假设检验就是提出一个命题,根据样本判断对错。

问题提法

有一个已知分布的总体,其中个别参数未知。现在抽取的一组样本X1,X2,⋯,XnX1,X2,⋯,Xn,并针对该未知参数而提出一个命题(命题正确与否完全由该未知参数决定),称为原假设H0H0,其否定称为备择假设或对立假设H1H1;任务是:提出一个检验ΦΦ,并根据此检验,判断接受原命题还是备择命题。

检验ΦΦ是一个判断准则,对于一个问题,可以提出许多种检验。

例:原来一种产品质量指标符合正态分布N(μ1,σ2)N(μ1,σ2),经过工艺改进后其均值可能有提高(设为μ2μ2),为验证是否提高,现在抽出样本X1,⋯,XnX1,⋯,Xn;原假设H0:{μ2⩾μ1}H0:{μ2⩾μ1},备择假设H1:{μ2<μ1}H1:{μ2<μ1};提出检验ΦΦ:若X^⩾CX^⩾C则接受原命题,否则拒绝原命题,CC为某待定常数。

按上面所说,接受H0H0与否,取决于抽到的样本如何。所谓接受域是这样一个集合

A=(X1,⋯,Xn)|使得H0成立A=(X1,⋯,Xn)|使得H0成立

拒绝域是这样一个集合

B=(X1,⋯,Xn)|使得H′0成立B=(X1,⋯,Xn)|使得H0′成立

功效函数和两类错误

因为检验可以有很多种,同一个样本,在不同的检验下,会得出不同的结论,检验之间自然也存在着优劣之分。标志着某检验的效能的量叫做某检验的功效函数。

定义:设总体的未知参数为λλ,则βΦ(λ)=Pλ(根据Φ拒绝H0)βΦ(λ)=Pλ(根据Φ拒绝H0)为检验ΦΦ的功效函数。

在功效函数的定义中,概率P(⋅)P(⋅)的下标λλ表示的意思是:令总体的未知参量为某λλ值时,抽取样本,根据检验ΦΦ分析样本后拒绝原假设的概率。也就是说某检验的功效函数是系统未知参量的函数,功效函数等于被原假设被拒绝的概率

并非单纯地功效函数越大,检验就越优。这里要分情况考虑:由于H0H0正确与否完全取决于系统未知参数的值,所以对于所有使得H0H0成立的参数的值,我们希望我们的检验拒绝H0H0的概率越低越好(功效函数尽量小);反过来,对于所有使得H1H1成立的参数的值,我们希望我们的检验拒绝H0H0的概率越高越好(功效函数尽量大)。
关于《概率论与数理统计》最全假设检验总结
上图中,H0:λ<0H0:λ<0,H1:λ⩾0H1:λ⩾0,在λ<0λ<0时应该接受原假设,所以一个更优的检验的功效函数应该具有更小的值;同理在λ⩾0λ⩾0时,一个更优的检验的功效函数应该具有更大的值,所以上图中检验Φ1Φ1比检验Φ2Φ2更优

由上图可见,即使选择了一个非常优秀的检验,也可能在不该拒绝的时候拒绝,在不该接受的时候接受。所谓第一类错误指的是:H0H0正确但检验拒绝了它;第二类错误指的是:H0H0错误,但检验接受了它。在上图中的反应就是,在区间[−∞,0−][−∞,0−]上,功效函数要始终值很小才能尽量避免第一类错误,在区间[0+,+∞][0+,+∞]上,功效函数应该值始终很大才能尽量避免第二类错误。

想同时处理好这两类错误是不可能的:观察λ=0λ=0处取值βΦ(λ)|λ=0βΦ(λ)|λ=0记为ss,因为功效函数是连续的,如果ss太大,则在0−0−附近,第一类错误出现的概率会增大;如果ss太小,则在0+0+附近,第二类错误出现的概率会增大。换句话说,要求同时处理好这两类错误,就等于要求功效函数在区间[0−,0+][0−,0+]上是急增长的,而这是不可能的。

所以一般处理方法的思想是,先令第一类错误概率不超过某个确定的小量αα,再调节第二类错误概率使其尽量低。

定义:设ΦΦ是原假设H0H0的一个检验,βΦ(λ1,⋯,λk)βΦ(λ1,⋯,λk)为其功效函数,α∈[0,1]α∈[0,1]是一个常数,如果对于任意(λ1,⋯,λk)∈H0(λ1,⋯,λk)∈H0满足

βΦ(λ1,⋯,λk)⩽αβΦ(λ1,⋯,λk)⩽α

则称ΦΦ为H0H0的一个水平为αα的检验。

*如果有检验ΦΦ,水平为αα,且对于任何一个其他的水平同为αα的检验ΨΨ都有

βΦ(λ1,⋯,λk)⩾βΨ(λ1,⋯,λk),∀(λ1,⋯,λk)∈H′0βΦ(λ1,⋯,λk)⩾βΨ(λ1,⋯,λk),∀(λ1,⋯,λk)∈H0′

则称检验ΦΦ是水平αα的一致最优检验。很多情况下,一致最优检验是不存在的。

正态总体的参数检验

总体方差σ2σ2已知,检验总体均值μμ

例题:设X1,⋯,XnX1,⋯,Xn是来自正态总体N(μ,σ2)N(μ,σ2)的样本,其中σ2σ2已知,提出假设如下(μ0μ0是一个常数)H0:μ⩾μ0H0:μ⩾μ0,H1:μ<μ0H1:μ<μ0

提出检验Φ:当X¯⩾CΦ:当X¯⩾C时接受原假设,否则拒绝. 考虑功效函数

βΦ(μ)=Pμ(X¯<C)=Pμ(n−−√(X¯−μ)/σ<n−−√(C−μ)/σ)βΦ(μ)=Pμ(X¯<C)=Pμ(n(X¯−μ)/σ<n(C−μ)/σ)

另一方面n−−√(X¯−μ)/σ∼N(0,1)n(X¯−μ)/σ∼N(0,1),以Ψ(⋅)Ψ(⋅)记其累积分布函数CDF,根据CDF的意义,可以得出

βΦ(μ)=Ψ(n−−√(C−μ)/σ)βΦ(μ)=Ψ(n(C−μ)/σ)

它是μμ的减函数。控制第一类错误的概率不超过α=0.05α=0.05可以表达为:对μ⩾μ0μ⩾μ0,βΦ(μ)<αβΦ(μ)<α,因为是减函数,只需令βΦ(μ0)=αβΦ(μ0)=α即可,也就是说,令n−−√(C−μ0)/σ=μ1−α=−μαn(C−μ0)/σ=μ1−α=−μα即可(μ1−αμ1−α表示分位点)。解出C=μ0−σμα/n−−√C=μ0−σμα/n.

这样,检验ΦΦ就满足了第一类错误概率小于α=0.05α=0.05,至于第二类错误,如果要求第二类错误概率一律低于β=0.05β=0.05,则这是不可能的:已经限制了βΦ(μ0+)=α=0.05βΦ(μ0+)=α=0.05,不可能再限制βΦ(μ0−)⩾1−β=0.95βΦ(μ0−)⩾1−β=0.95. 所以要处理第二类错误,只能放宽要求:对某个指定的μ′0<μ0μ0′<μ0,有βΦ(μ′0)⩾1−ββΦ(μ0′)⩾1−β.

这就要求(因为βΦ(μ)βΦ(μ)是单减的)

βΦ(μ′0)=Ψ(n−−√(C−μ′0)/σ)=1−ββΦ(μ0′)=Ψ(n(C−μ0′)/σ)=1−β

代入上面求的常数CC,可得(设μβμβ是另一个分位点)

Ψ(n−−√(μ0−μ′0)σ−μα)=1−β⇒n−−√(μ0−μ′0)σ−μα⩾μβΨ(n(μ0−μ0′)σ−μα)=1−β⇒n(μ0−μ0′)σ−μα⩾μβ

解不等式得出$$n\geqslant\sigma2\frac{(\mu_\alpha+\mu_\beta)2}{(\mu_0-\mu_0')^2}$$这就要求样本容量足够大。至此,似乎得出了一个奇怪的结论:要求第二类错误概率足够低,却推出了样本容量不能太小。实际上解释是:样本容量越大,越能反应出总体的特征,分辨率越高(X¯X¯越精确),从而犯第二类错误的可能性越小。

总体方差σ2σ2未知,检验总体均值μμ

问题和前面一样,只不过条件换成总体的方差未知。这时提出的检验ΦΦ和上面类似,但使用样本标准差ss代替σσ,同时,把正态分布换成*度为n−1n−1的tt分布:

Φ:当n−−√(X¯−μ0)/s⩾−tn−1(α)时接受H0,否则拒绝.Φ:当n(X¯−μ0)/s⩾−tn−1(α)时接受H0,否则拒绝.

证明思路是,写出该检验的功效函数,它是μμ和σσ的二元函数,但是当μ=μ0μ=μ0时其值为αα(因为这时n−−√(X¯−μ0)/sn(X¯−μ0)/s服从tt分布),可以分析得出,当μ>μ0μ>μ0时,功效函数的值小于αα,所以只需要把μ=μ0μ=μ0处作为临界值就可以了。