1.1统计量
1.1.1 统计量概念
当我们从总体中抽取一个样本(X1,X2,…Xn),并不直接用它对总体的有关性质进行推断,是因为其有关信息相对分散。为了使统计推断成为可能,首先把关心的信息集中起来,对不同的研究目的,构成不同的样本函数,这就称之为统计量。
例:(X1,X2,…Xn)是从某总体X中的一个样本.,则:
xˉ=n1i=1∑nXi
S2=n−11i=1∑n(Xi−xˉ)2
都是统计量,而i=1∑n[Xi−E(X)]2,[Xi−E(X)]/D(X),都不是统计量,这是因为E(X)和D(X)都是依赖于总体的未知参数
统计量实际上是样本的一个函数。由样本构造具体的统计量,实际上是对样本的对所含的总体信息按某种要求进行处理,把分散的样本信息集中到取值上。
1.1.2 常用统计量
-
Xˉ=n1i=1∑nXi是样本的均值,它反映出总体X数学期望的信息。样本均值是最常用的统计量。
-
S2=n−11i=1∑n(Xi−Xˉ)2是样本方差,它反映的是总体X方差的信息。样本方差S2及样本标准差S也是最常用的统计量。
-
V=S/Xˉ是样本的变异系数,它反映出总体变异系数C的信息。其中变异系数定义为
C=D(X)/E(X),它反映出随机变量在以它的均值为单位时取值的离散程度。此统计量消除了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时不同总体的离散程度。它在投资风险分析中、不同群体或行业的收入差距描述中有广泛的作用。
-
mk=n1i=1∑nXik,称mk为样本k阶矩。它反映出总体K阶矩的信息。显然,m1=Xˉ就是样本均值。
-
vk=n−11i=1∑n(Xi−Xˉ)k ,称为Vk为样本K阶中心矩。它反映出总体k阶中心矩信息,显然,v2就是样本方差。
-
a3=n−1i=1∑n(Xi−Xˉ)3/(i=1∑n(Xi−xˉ)2)3/2,称a3为样本偏度。它反映出总体的偏度信息。偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜性。如果X~N(μ,σ2),则偏度a3=0。
-
a4=(n−1)i=1∑n(Xi−Xˉ)4/[i=1∑n(Xi−Xˉ)2]−3,称a4为样本峰度。它反映出总体峰度的消息。峰度反映了密度函数曲线在众数附近的“峰”的尖峰程度。正态随机变量X~N(η,σ^2)的峰度a4=0。
偏度和峰度的概念在质量控制和可靠性研究中有着极其广泛的应用。
-
对于给定的统计推断问题,包含了原样本中关于该问题的全部有用信息的统计量。对于未知参数的估计问题,保留了原始样本中关于未知参数θ的全部信息的统计量,就是充分统计量。如样本均值X是总体数学期望的充分统计量。数学上,设(X₁, …,Xₑ)是来自总体X的一个随机样本,T=T(X₁, …,Xₑ)是一统计量。若在T=t的条件下,样本的条件分布与未知参数θ无关,则称统计量T是θ的充分统计量
-
设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量。
1.2常用抽样分布
统计推断三个中心内容:抽样分布,参数估计,假设检验。
研究统计量的性质和评价一个统计量的推断优良性,完全取决于抽样分布的性质。
在总体X的分布的数学表达式,若对任一自然数n都能导出统计量T=T(X1,X2…Xn)的分布的数学表达式, 这样称为精确地抽样分布。
在正态总体条件下,主要有χ2分布,t分布,F分布,常称为统计三大分布。
1.2.1 χ2分布
设随机变量X1,X2,…Xn相互独立,且Xi(i=1,2…,n)服从标准正态分布N(0,1),则它们的平方和i=1∑nXi2服从自由度为n的χ2分布。
自由度是统计学中常用的一个概念,它可以解释为独立变量的个数。还可解释为二次型的秩。例如,Y=X2是自由度为1的χ2分布,rank(Y)=1;Z=i=1∑nXi2是自由度为n的Y=X2分布,rank(Z)=n。
下面给出当n=1,n=4,n=10,n=20时,χ2分布的概率密度函数曲线,如图:

χ2分布的数学期望为:
E(χ2)=n
χ2分布的方差为:
D(χ2)=2n
χ2分布具有可加性,即若χ12~χ2(n1), χ22~χ2(n2),且独立,则χ2+χ22 ~ χ2(n1+n2)
由上图:当自由度足够大时,χ2分布的概率密度曲线趋于对称。当n—▶+∞时,χ2分布的极限分布是正态分布。
χ2(n)的p分位数χp2(n)可由卡方分布表查到。当自然度n很大时,2χ2(n)近似服从N(2n−1,1)。实际上,当自由度n>45时,有
χp2(n)≈21(μp+2n−1)2
式中,μp即为Zp,为正态p分位数。可有正态分布表查得。
1.2.2 t分布
t 分布(t distribution)也称学生氏分布。
设随机变量X~N(0,1),Y ~ χ2(n),且X与Y独立,则
t = Y/nX
其分布称为t分布,即为t(n),其中n为自由度,
t 分布为的密度数时一偶函数。
当n≥2时,t 分布的数学期望值E(t)=0.
当n≥3时,t 分布的方差D(t)=n−2n.
图中看出,t分布的密度函数曲线与标准正态分布N(0,1)的密度函数曲线非常相似,都是单峰偶函数。只是,t(n)的密度函数的两侧尾部要比N(0,1)的两侧尾部粗一些。t(n)的方差比N(0.1)的方差大一些。
自由度为1的分布称为柯西分布,随着自由度n的增加,t分布的密度函数越来越接近标准正态分布密度函数(t≥30)。
1.2.3 F分布
F分布有广泛的应用,在方差分析,回归方差有着显著性检验中有重要的地位。
设随机变量Y与Z相互独立,且Y与Z分别服从自由度为m和n的χ2分布,随机变量X有如下:
X=Z/nY/m=mZnY
则称X服从第一自由度为m,第二自由度n

设随机变量X服从F(m,n)分布,则数学期望和方差分别为:
E(X)=n−2n,n>2
D(X)=m(n−2)(n−4)2n2(m+n−2)
1.3 样本均值的分布和中心极限定理
中心极限定理(central limit theorem): 设从均值μ、方差σ2(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值Xˉ的抽样分布近似服从均值为μ,方差为σ2/n的正态分布。
样本比例的抽样分布
样本比例的定义 前面的抽样分布问题,都是关于计量值的变量,然而在实际应用还常会遇到一些计数变量的情形。例如,在消费调查及民意测验中常要对具有某一特征的产品或事物的喜好人数进行研究。那时我们常假定总体重对具有某一特征产品的喜好比例为π,在此条件下去研究当从总体重随机抽取n个个体进行调查时,喜好某一产品的人数X的概率。在实际应用中我们所关心的正是总体中对某一产品喜好的人数比例为π。如果在样本中大小为n的样本中具有某一特征的个体数为X,则样本比例用p^表示;
p^=nX
以后就用样本比例p^来估计总体比例π。
大样本比例分布逼近正态分布。
由二项分布的原理和渐进分布的理论可知,当n充分大时,p^的分布可用正态分布去逼近。此时,p^服从均值π,方差nπ(1−π)的正态分布,即
p^~N(π,nπ(1−π))
一般情况下,如果X是一随机变量,C为一常数,则CX与X有相同的分布形状。设E(X)= μ,D(X)=σ2,则E(CX) =Cμ,D(CX)=C2σ2
两个样本均差之差的分布
均差之差的定义
设Xˉ是独立的独自总体X1~N(μ1,σ12)的一个容量为n1的样本的均值。Xˉ2是独立的抽自总体X2~N(μ2,σ22)的一个容量为n2的样本的均值,则有
E(Xˉ1−Xˉ2)=E(Xˉ1)−E(Xˉ2)=μ1−μ2
D(Xˉ1−Xˉ2)=D(Xˉ1)−D(Xˉ2)=n1σ12+n2σ22
如果两个总体均为正态分布,则Xˉ1−Xˉ2也称正态分布,其均值和方差就分别是以上
当n1和n2比较大时,一般要求n1≥30,n2≥30,则Xˉ1−Xˉ2的抽样分布不管总体分布如何均可用正态分布来近似,其均值就是分别是以上
样本方差的分布
样本方差的定义
设X1,X2…,Xn来自正态分布的样本,则可以推导出如下结果:
设总体分布为N(μ,σ2)的正态分布,则样本方差S2的分布为:
(n−1)S2/σ2~χ(n−1)
其中,将χ2(n−1)称为自由度为n-1的卡方分布
两个样本方差比的分布
我们介绍两个总体分布均为正态分布时,分别来自这两个总体的两个样本方差比的分布。
设X1,X2…。Xn1是来自正态总体N(μ1,σ12)的一个样本,Y1,Y2…。Yn2是来自正态总体N(μ2,σ22)的一个样本,且Xi(i=1…。n1)与Yi(i=1…。n2)相互独立:
σ12/σ22Sx2/Sy2=Sy2/σ22Sx2/σ12~F(n1−1,n2−1)
式中,Sx2=n1−11i=1∑n1(Xi,Xˉ)2
Xˉ=n11i=1∑n1Xi
Sy2=n2−11i=1∑n2(Yi−Yˉ)2
Yˉ=n21i=1∑n2Yi
F(n1−1,n2−1)是第一自由度(分子自由度)为n1−1,第二自由度(分母自由度)为n2−1的F分布。