抽样分布

1.1统计量

1.1.1 统计量概念
当我们从总体中抽取一个样本(X1X_1,X2X_2,…XnX_n),并不直接用它对总体的有关性质进行推断,是因为其有关信息相对分散。为了使统计推断成为可能,首先把关心的信息集中起来,对不同的研究目的,构成不同的样本函数,这就称之为统计量。
例:(X1X_1,X2X_2,…XnX_n)是从某总体XX中的一个样本.,则:
xˉ=1ni=1nXi\bar{x} = \frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i

S2=1n1i=1n(Xixˉ)2S^2 = \frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{x})2
都是统计量,而i=1n[XiE(X)]2,[XiE(X)]/D(X)\displaystyle\sum_{i=1}^{n}[X_i-E(X)]2,[X_i-E(X)]/D(X),都不是统计量,这是因为E(X)DXE(X)和D(X)都是依赖于总体的未知参数

统计量实际上是样本的一个函数。由样本构造具体的统计量,实际上是对样本的对所含的总体信息按某种要求进行处理,把分散的样本信息集中到取值上。

1.1.2 常用统计量

  • Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i样本的均值,它反映出总体XX数学期望的信息。样本均值是最常用的统计量。

  • S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^2样本方差,它反映的是总体X方差的信息。样本方差S2S_2及样本标准差SS也是最常用的统计量。

  • V=S/XˉV = S/\bar{X}是样本的变异系数,它反映出总体变异系数CC的信息。其中变异系数定义为
    C=D(X)/E(X)C=\sqrt {D(X)}/E(X),它反映出随机变量在以它的均值为单位时取值的离散程度。此统计量消除了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时不同总体的离散程度。它在投资风险分析中、不同群体或行业的收入差距描述中有广泛的作用。

  • mk=1ni=1nXikm_k=\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i^k,称mkm_k样本k阶矩。它反映出总体K阶矩的信息。显然,m1=Xˉm_1=\bar{X}就是样本均值。

  • vk=1n1i=1n(XiXˉ)kv_k=\frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^k ,称为VkV_k为样本K阶中心矩。它反映出总体k阶中心矩信息,显然,v2v_2就是样本方差。

  • a3=n1i=1n(XiXˉ)3/(i=1n(Xixˉ)2)3/2a_3=\sqrt {n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^{3}/(\displaystyle\sum_{i=1}^{n}(X_i-\bar{x})^2)^{3/2},称a3a_3样本偏度。它反映出总体的偏度信息。偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜性。如果XX~NN(μσ2)(μ,σ^2),则偏度a3=0a_3=0

  • a4=(n1)i=1n(XiXˉ)4/[i=1n(XiXˉ)2]3a_4=(n-1)\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^4/[\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^2]-3,称a4a_4样本峰度。它反映出总体峰度的消息。峰度反映了密度函数曲线在众数附近的“峰”的尖峰程度。正态随机变量XX~NN(η,σ^2)的峰度a4=0a_4=0
    偏度和峰度的概念在质量控制和可靠性研究中有着极其广泛的应用。

  • 对于给定的统计推断问题,包含了原样本中关于该问题的全部有用信息的统计量。对于未知参数的估计问题,保留了原始样本中关于未知参数θ的全部信息的统计量,就是充分统计量。如样本均值X是总体数学期望的充分统计量。数学上,设(X₁, …,Xₑ)是来自总体X的一个随机样本,T=T(X₁, …,Xₑ)是一统计量。若在T=t的条件下,样本的条件分布与未知参数θ无关,则称统计量T是θ的充分统计量

  • 设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量。

1.2常用抽样分布
统计推断三个中心内容:抽样分布参数估计假设检验
研究统计量的性质和评价一个统计量的推断优良性,完全取决于抽样分布的性质。

在总体XX的分布的数学表达式,若对任一自然数nn都能导出统计量T=T(X1,X2Xn)T=T(X_1,X_2…X_n)的分布的数学表达式, 这样称为精确地抽样分布。

在正态总体条件下,主要有χ2χ_2分布,tt分布,FF分布,常称为统计三大分布。

1.2.1 χ2χ_2分布
设随机变量X1,X2,XnX_1,X_2,…X_n相互独立,且XiX_ii=1,2ni=1,2…,n)服从标准正态分布N0,1N(0,1),则它们的平方和i=1nXi2\displaystyle\sum_{i=1}^{n}X_i^2服从自由度为n的χ2χ_2分布。

自由度是统计学中常用的一个概念,它可以解释为独立变量的个数。还可解释为二次型的秩。例如,Y=X2Y=X^2是自由度为1的χ2χ_2分布,rank(YY)=1;Z=i=1nXi2Z=\displaystyle\sum_{i=1}^{n}X_i^2是自由度为n的Y=X2Y=X^2分布,rank(ZZ)=n。

下面给出当n=1,n=4,n=10,n=20时,χ2χ^2分布的概率密度函数曲线,如图:
抽样分布
χ2χ^2分布的数学期望为:
E(χ2)=nE(χ^2) = n
χ2χ^2分布的方差为:
D(χ2χ^2)=2n

χ2χ^2分布具有可加性,即若χ12χ^2_1~χ2(n1)χ^2(n_1), χ22χ^2_2~χ2(n2)χ^2(n_2),且独立,则χ2χ^2+χ22χ^2_2 ~ χ2(n1+n2)χ^2(n_1+n_2)

由上图:当自由度足够大时,χ2χ^2分布的概率密度曲线趋于对称。当n—▶+时,χ2χ^2分布的极限分布是正态分布。

χ2(n)χ^2(n)pp分位数χp2(n)χ^2_p(n)可由卡方分布表查到。当自然度n很大时,2χ2(n)\sqrt {2χ^2(n)}近似服从N(2n1,1)N(\sqrt {2n-1},1)。实际上,当自由度n>45时,有
χp2(n)χ^2_p(n)12(μp+2n1)2\frac {1}{2}(μ_p+\sqrt {2n-1})^2

式中,μpμ_p即为ZpZ_p,为正态pp分位数。可有正态分布表查得。
1.2.2 tt分布
t 分布(t distribution)也称学生氏分布。

设随机变量XX~N(0,1)N(0,1),YY ~ χ2(n)χ_2(n),且X与Y独立,则
t = XY/n\frac {X}{\sqrt {Y/n}}

其分布称为t分布,即为t(n),其中n为自由度,

t 分布为的密度数时一偶函数。抽样分布
当n≥2时,t 分布的数学期望值E(t)=0E(t) = 0.
当n≥3时,t 分布的方差D(t)=nn2D(t) = \frac{n}{n-2}.

图中看出,t分布的密度函数曲线与标准正态分布N(0,1)N(0,1)的密度函数曲线非常相似,都是单峰偶函数。只是,t(n)t(n)的密度函数的两侧尾部要比N(0,1)N(0,1)的两侧尾部粗一些。t(n)t(n)的方差比N0.1N(0.1)的方差大一些。

自由度为1的分布称为柯西分布,随着自由度n的增加,t分布的密度函数越来越接近标准正态分布密度函数(t≥30)。

1.2.3 F分布
FF分布有广泛的应用,在方差分析,回归方差有着显著性检验中有重要的地位。

设随机变量YYZZ相互独立,且YYZZ分别服从自由度为mmnnχ2χ_2分布,随机变量XX有如下:
X=Y/mZ/n=nYmZX=\frac{Y/m}{Z/n}=\frac{nY}{mZ}

则称XX服从第一自由度为mm,第二自由度nn
抽样分布
设随机变量XX服从F(m,n)F(m,n)分布,则数学期望和方差分别为:
E(X)=nn2E(X) = \frac {n}{n-2},n>2n>2

D(X)=2n2(m+n2)m(n2)(n4)D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)}

1.3 样本均值的分布和中心极限定理

中心极限定理(central limit theorem): 设从均值μμ、方差σ2σ^2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值Xˉ\bar{X}的抽样分布近似服从均值为μμ,方差为σ2/nσ^2/n的正态分布。

样本比例的抽样分布

样本比例的定义 前面的抽样分布问题,都是关于计量值的变量,然而在实际应用还常会遇到一些计数变量的情形。例如,在消费调查及民意测验中常要对具有某一特征的产品或事物的喜好人数进行研究。那时我们常假定总体重对具有某一特征产品的喜好比例为π,在此条件下去研究当从总体重随机抽取n个个体进行调查时,喜好某一产品的人数X的概率。在实际应用中我们所关心的正是总体中对某一产品喜好的人数比例为π。如果在样本中大小为n的样本中具有某一特征的个体数为X,则样本比例用p^\hat p表示;
p^=Xn\hat p=\frac {X}{n}
以后就用样本比例p^\hat p来估计总体比例π。

大样本比例分布逼近正态分布。

由二项分布的原理和渐进分布的理论可知,当n充分大时,p^\hat p的分布可用正态分布去逼近。此时,p^\hat p服从均值π,方差π1πn\frac {π(1-π)}{n}的正态分布,即

p^\hat p~N(ππ1πn)N(π,\frac{π(1-π)}{n})
一般情况下,如果X是一随机变量,C为一常数,则CX与X有相同的分布形状。设E(X)= μ,D(X)=σ2σ^2,则E(CX) =Cμ,D(CX)=C2σ2C^2σ^2

两个样本均差之差的分布

均差之差的定义
Xˉ\bar X是独立的独自总体X1X_1~N(μ1σ12)N(μ_1,σ_1^2)的一个容量为n1n_1的样本的均值。Xˉ2\bar X_2是独立的抽自总体X2X_2~N(μ2σ22)N(μ_2,σ_2^2)的一个容量为n2n_2的样本的均值,则有

E(Xˉ1Xˉ2)=E(Xˉ1)E(Xˉ2)=μ1μ2E(\bar X_1 - \bar X_2)=E(\bar X_1)-E(\bar X_2)=μ_1-μ_2

D(Xˉ1Xˉ2)=D(Xˉ1)D(Xˉ2)=σ12n1+σ22n2D(\bar X_1 - \bar X_2)=D(\bar X_1)-D(\bar X_2)=\frac {σ_1^2}{n_1}+\frac {σ_2^2}{n_2}

如果两个总体均为正态分布,则Xˉ1Xˉ2\bar X_1-\bar X_2也称正态分布,其均值和方差就分别是以上

n1n_1n2n_2比较大时,一般要求n130n_1≥30,n230n_2≥30,则Xˉ1Xˉ2\bar X_1-\bar X_2的抽样分布不管总体分布如何均可用正态分布来近似,其均值就是分别是以上

样本方差的分布

样本方差的定义

X1,X2XnX_1,X_2 … ,X_n来自正态分布的样本,则可以推导出如下结果:
设总体分布为N(μσ2)N(μ,σ_2)的正态分布,则样本方差S2S^2的分布为:
(n1)S2/σ2(n-1)S^2/σ^2~χ(n1)χ(n-1)
其中,将χ2(n1)χ^2(n-1)称为自由度为n-1的卡方分布

两个样本方差比的分布

我们介绍两个总体分布均为正态分布时,分别来自这两个总体的两个样本方差比的分布。
X1,X2Xn1X_1,X_2^…。X_{n1}是来自正态总体N(μ1σ12)N(μ_1,σ_1^2)的一个样本,Y1,Y2Yn2Y_1,Y_2^…。Y_{n2}是来自正态总体N(μ2σ22)N(μ_2,σ_2^2)的一个样本,且Xi(i=1n1)X_i(i=1…。n_1)Yi(i=1n2)Y_i(i=1…。n_2)相互独立:

Sx2/Sy2σ12/σ22=Sx2/σ12Sy2/σ22\frac{S_x^2/S_y^2}{σ_1^2/σ_2^2}=\frac{S_x^2/σ_1^2}{S_y^2/σ_2^2}~F(n11,n21)F(n_1-1,n_2-1)

式中,Sx2=1n11i=1n1(Xi,Xˉ)2S_x^2 = \frac {1}{n_1-1}\displaystyle\sum_{i=1}^{n_1}(X_i,\bar X)^2

Xˉ=1n1i=1n1Xi\bar X=\frac{1}{n_1}\displaystyle\sum_{i=1}^{n_1}X_i

Sy2=1n21i=1n2(YiYˉ)2S_y^2 = \frac{1}{n_2-1}\displaystyle\sum_{i=1}^{n_2}(Y_i- \bar Y)^2

Yˉ=1n2i=1n2Yi\bar Y=\frac {1}{n_2}\displaystyle\sum_{i=1}^{n_2}Y_i
F(n11,n21)F(n_1-1,n_2-1)是第一自由度(分子自由度)为n11n_1-1,第二自由度(分母自由度)为n21n_2-1的F分布。