抽样分布

1.1统计量

1.1.1 统计量概念
当我们从总体中抽取一个样本（ $X_1$ , $X_2$ ,… $X_n$ ）,并不直接用它对总体的有关性质进行推断，是因为其有关信息相对分散。为了使统计推断成为可能，首先把关心的信息集中起来，对不同的研究目的，构成不同的样本函数，这就称之为统计量。
例：（ $X_1$ , $X_2$ ,… $X_n$ ）是从某总体 $X$ 中的一个样本.，则：
$\bar{x} = \frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i$

$S^2 = \frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{x})2$
都是统计量，而 $\displaystyle\sum_{i=1}^{n}[X_i-E(X)]2,[X_i-E(X)]/D(X)$ ,都不是统计量，这是因为 $E(X)和D（X）都是依赖于总体的未知参数$

统计量实际上是样本的一个函数。由样本构造具体的统计量，实际上是对样本的对所含的总体信息按某种要求进行处理，把分散的样本信息集中到取值上。

1.1.2 常用统计量

$\bar{X} = \frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i$ 是样本的均值，它反映出总体 $X$ 数学期望的信息。样本均值是最常用的统计量。
$S^2 = \frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^2$ 是样本方差，它反映的是总体X方差的信息。样本方差 $S_2$ 及样本标准差 $S$ 也是最常用的统计量。
$V = S/\bar{X}$ 是样本的变异系数，它反映出总体变异系数 $C$ 的信息。其中变异系数定义为
$C=\sqrt {D(X)}/E(X)$ ,它反映出随机变量在以它的均值为单位时取值的离散程度。此统计量消除了均值不同对不同总体的离散程度的影响，常用来刻画均值不同时不同总体的离散程度。它在投资风险分析中、不同群体或行业的收入差距描述中有广泛的作用。
$m_k=\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i^k$ ,称 $m_k$ 为样本k阶矩。它反映出总体K阶矩的信息。显然， $m_1=\bar{X}$ 就是样本均值。
$v_k=\frac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^k$ ,称为 $V_k$ 为样本K阶中心矩。它反映出总体k阶中心矩信息，显然， $v_2$ 就是样本方差。
$a_3=\sqrt {n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^{3}/(\displaystyle\sum_{i=1}^{n}(X_i-\bar{x})^2)^{3/2}$ ,称 $a_3$ 为样本偏度。它反映出总体的偏度信息。偏度反映了随机变量密度函数曲线在众数（密度函数在这一点达到最大值）两边的偏斜性。如果 $X$ ~ $N$ $(μ，σ^2)$ ,则偏度 $a_3=0$ 。
$a_4=(n-1)\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^4/[\displaystyle\sum_{i=1}^{n}(X_i-\bar{X})^2]-3$ ,称 $a_4$ 为样本峰度。它反映出总体峰度的消息。峰度反映了密度函数曲线在众数附近的“峰”的尖峰程度。正态随机变量 $X$ ~ $N$ (η,σ^2)的峰度 $a_4=0$ 。
偏度和峰度的概念在质量控制和可靠性研究中有着极其广泛的应用。
对于给定的统计推断问题，包含了原样本中关于该问题的全部有用信息的统计量。对于未知参数的估计问题，保留了原始样本中关于未知参数θ的全部信息的统计量，就是充分统计量。如样本均值X是总体数学期望的充分统计量。数学上，设(X₁， …，Xₑ)是来自总体X的一个随机样本，T=T(X₁， …，Xₑ)是一统计量。若在T=t的条件下，样本的条件分布与未知参数θ无关，则称统计量T是θ的充分统计量
设 X1,X2, …, Xn是取自总体X的样本，X(i) 称为该样本的第i个次序统计量，它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n)，则称X(1),X(2), …,X(n)为顺序统计量。

1.2常用抽样分布
统计推断三个中心内容：抽样分布，参数估计，假设检验。
研究统计量的性质和评价一个统计量的推断优良性，完全取决于抽样分布的性质。

在总体 $X$ 的分布的数学表达式，若对任一自然数 $n$ 都能导出统计量 $T=T(X_1,X_2…X_n)$ 的分布的数学表达式，这样称为精确地抽样分布。

在正态总体条件下，主要有 $χ_2$ 分布， $t$ 分布， $F$ 分布，常称为统计三大分布。

1.2.1 $χ_2$ 分布
设随机变量 $X_1,X_2,…X_n$ 相互独立，且 $X_i$ （ $i=1,2…，n$ ）服从标准正态分布 $N（0,1）$ ，则它们的平方和 $\displaystyle\sum_{i=1}^{n}X_i^2$ 服从自由度为n的 $χ_2$ 分布。

自由度是统计学中常用的一个概念，它可以解释为独立变量的个数。还可解释为二次型的秩。例如， $Y=X^2$ 是自由度为1的 $χ_2$ 分布，rank（ $Y$ ）=1； $Z=\displaystyle\sum_{i=1}^{n}X_i^2$ 是自由度为n的 $Y=X^2$ 分布，rank（ $Z$ ）=n。

下面给出当n=1，n=4，n=10，n=20时， $χ^2$ 分布的概率密度函数曲线，如图：
抽样分布
$χ^2$ 分布的数学期望为：
$E(χ^2) = n$
$χ^2$ 分布的方差为：
D（ $χ^2$ ）=2n

$χ^2$ 分布具有可加性，即若 $χ^2_1$ ~ $χ^2(n_1)$ , $χ^2_2$ ~ $χ^2(n_2)$ ,且独立，则 $χ^2$ + $χ^2_2$ ~ $χ^2(n_1+n_2)$

由上图：当自由度足够大时， $χ^2$ 分布的概率密度曲线趋于对称。当n—▶+ $∞$ 时， $χ^2$ 分布的极限分布是正态分布。

$χ^2(n)$ 的 $p$ 分位数 $χ^2_p(n)$ 可由卡方分布表查到。当自然度n很大时， $\sqrt {2χ^2(n)}$ 近似服从 $N(\sqrt {2n-1},1)$ 。实际上，当自由度n>45时，有
$χ^2_p(n)$ ≈ $\frac {1}{2}(μ_p+\sqrt {2n-1})^2$

式中， $μ_p$ 即为 $Z_p$ ,为正态 $p$ 分位数。可有正态分布表查得。
1.2.2 $t$ 分布
t 分布（t distribution）也称学生氏分布。

设随机变量 $X$ ~ $N(0,1)$ , $Y$ ~ $χ_2(n)$ ,且X与Y独立，则
t = $\frac {X}{\sqrt {Y/n}}$

其分布称为t分布，即为t（n），其中n为自由度，

t 分布为的密度数时一偶函数。抽样分布
当n≥2时，t 分布的数学期望值 $E(t) = 0$ .
当n≥3时，t 分布的方差 $D(t) = \frac{n}{n-2}$ .

图中看出，t分布的密度函数曲线与标准正态分布 $N(0,1)$ 的密度函数曲线非常相似，都是单峰偶函数。只是， $t(n)$ 的密度函数的两侧尾部要比 $N(0,1)$ 的两侧尾部粗一些。 $t(n)$ 的方差比 $N（0.1）$ 的方差大一些。

自由度为1的分布称为柯西分布，随着自由度n的增加，t分布的密度函数越来越接近标准正态分布密度函数（t≥30）。

1.2.3 F分布
$F$ 分布有广泛的应用，在方差分析，回归方差有着显著性检验中有重要的地位。

设随机变量 $Y$ 与 $Z$ 相互独立，且 $Y$ 与 $Z$ 分别服从自由度为 $m$ 和 $n$ 的 $χ_2$ 分布，随机变量 $X$ 有如下：
$X=\frac{Y/m}{Z/n}=\frac{nY}{mZ}$

则称 $X$ 服从第一自由度为 $m$ ,第二自由度 $n$
抽样分布
设随机变量 $X$ 服从 $F(m,n)$ 分布，则数学期望和方差分别为：
$E(X) = \frac {n}{n-2}$ , $n>2$

$D(X)=\frac{2n^2(m+n-2)}{m(n-2)(n-4)}$

1.3 样本均值的分布和中心极限定理

中心极限定理（central limit theorem）: 设从均值 $μ$ 、方差 $σ^2$ (有限)的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值 $\bar{X}$ 的抽样分布近似服从均值为 $μ$ ，方差为 $σ^2/n$ 的正态分布。

样本比例的抽样分布

样本比例的定义 前面的抽样分布问题，都是关于计量值的变量，然而在实际应用还常会遇到一些计数变量的情形。例如，在消费调查及民意测验中常要对具有某一特征的产品或事物的喜好人数进行研究。那时我们常假定总体重对具有某一特征产品的喜好比例为π，在此条件下去研究当从总体重随机抽取n个个体进行调查时，喜好某一产品的人数X的概率。在实际应用中我们所关心的正是总体中对某一产品喜好的人数比例为π。如果在样本中大小为n的样本中具有某一特征的个体数为X，则样本比例用 $\hat p$ 表示；
$\hat p=\frac {X}{n}$
以后就用样本比例 $\hat p$ 来估计总体比例π。

大样本比例分布逼近正态分布。

由二项分布的原理和渐进分布的理论可知，当n充分大时， $\hat p$ 的分布可用正态分布去逼近。此时， $\hat p$ 服从均值π，方差 $\frac {π（1-π）}{n}$ 的正态分布，即

$\hat p$ ~ $N(π，\frac{π（1-π）}{n})$
一般情况下，如果X是一随机变量，C为一常数，则CX与X有相同的分布形状。设E（X）= μ，D（X）= $σ^2$ ,则E（CX） =Cμ，D（CX）= $C^2σ^2$

两个样本均差之差的分布

均差之差的定义
设 $\bar X$ 是独立的独自总体 $X_1$ ~ $N(μ_1，σ_1^2)$ 的一个容量为 $n_1$ 的样本的均值。 $\bar X_2$ 是独立的抽自总体 $X_2$ ~ $N(μ_2，σ_2^2)$ 的一个容量为 $n_2$ 的样本的均值，则有

$E(\bar X_1 - \bar X_2)=E(\bar X_1)-E(\bar X_2)=μ_1-μ_2$

$D(\bar X_1 - \bar X_2)=D(\bar X_1)-D(\bar X_2)=\frac {σ_1^2}{n_1}+\frac {σ_2^2}{n_2}$

如果两个总体均为正态分布，则 $\bar X_1-\bar X_2$ 也称正态分布，其均值和方差就分别是以上

当 $n_1$ 和 $n_2$ 比较大时，一般要求 $n_1≥30$ , $n_2≥30$ ,则 $\bar X_1-\bar X_2$ 的抽样分布不管总体分布如何均可用正态分布来近似，其均值就是分别是以上

样本方差的分布

样本方差的定义

设 $X_1,X_2 … ，X_n$ 来自正态分布的样本，则可以推导出如下结果：
设总体分布为 $N(μ，σ_2)$ 的正态分布，则样本方差 $S^2$ 的分布为：
$(n-1)S^2/σ^2$ ~ $χ(n-1)$
其中，将 $χ^2(n-1)$ 称为自由度为n-1的卡方分布

两个样本方差比的分布

我们介绍两个总体分布均为正态分布时，分别来自这两个总体的两个样本方差比的分布。
设 $X_1,X_2^…。X_{n1}$ 是来自正态总体 $N(μ_1，σ_1^2)$ 的一个样本， $Y_1,Y_2^…。Y_{n2}$ 是来自正态总体 $N(μ_2，σ_2^2)$ 的一个样本，且 $X_i(i=1…。n_1)$ 与 $Y_i(i=1…。n_2)$ 相互独立：

$\frac{S_x^2/S_y^2}{σ_1^2/σ_2^2}=\frac{S_x^2/σ_1^2}{S_y^2/σ_2^2}$ ~ $F(n_1-1,n_2-1)$

式中， $S_x^2 = \frac {1}{n_1-1}\displaystyle\sum_{i=1}^{n_1}(X_i,\bar X)^2$

$\bar X=\frac{1}{n_1}\displaystyle\sum_{i=1}^{n_1}X_i$

$S_y^2 = \frac{1}{n_2-1}\displaystyle\sum_{i=1}^{n_2}(Y_i- \bar Y)^2$

$\bar Y=\frac {1}{n_2}\displaystyle\sum_{i=1}^{n_2}Y_i$
$F(n_1-1,n_2-1)$ 是第一自由度（分子自由度）为 $n_1-1$ ,第二自由度（分母自由度）为 $n_2-1$ 的F分布。

相关推荐