数据科学-统计量及其抽样分布

统计量及其抽样分布

1 统计量

1.1 统计量的概念

X1,X2,...XnX_{1},X_{2},...X_{n} 是从总体XX 中抽取的容量为nn 的一个样本,如果有此样本构造一个函数T(X1,X2,...Xn)T(X_{1},X_{2},...X_{n}),不依赖于任何未知参数,则称函数T(X1,X2,...Xn)T(X_{1},X_{2},...X_{n})是一个统计量

统计量是样本的一个函数。由样本构造具体的统计量,实际上是对样本所含的总体信息按某种邀请进行加工处理,把分散的样本中的信息集中到统计量的取值上。

1.2 常用统计量

  • 样本均值,反映总体XX的数学期望的信息。
  • 样本方差,反映总体XX方差的信息
  • 样本变异系数

2 由正态分布导出的几个重要分布

2.1抽样分布

在总体XX 的分布类型已知时,若对任一自然数nn都能推导出统计量T=T(X1,X2,...Xn)T=T(X_{1},X_{2},...X_{n}) 的分布的数学表达式,这种分布称为精确的抽样分布。

2.2 X2X^2 分布

数据科学-统计量及其抽样分布

2.3 tt 分布

数据科学-统计量及其抽样分布

2.4 FF 分布

数据科学-统计量及其抽样分布数据科学-统计量及其抽样分布

3 样本均值的分布与中心极限定理

当总体分布为正态分布N(μ,σ2)N(\mu,\sigma^2)时, X\overline{X}的抽样分布仍为正态分布, X\overline{X}的数学期望为$ \mu ,,方差为\sigma^2/n$ 则
数据科学-统计量及其抽样分布

在实际的问题中,总体的分布并不总是正态分布或近似正态分布,此时X\overline{X}的分布取决于总体分布的情况。值得庆幸的是,当抽样个数 nn 比较大的时候,无论总体是什么分布,样本均值X\overline{X}的分布总是近似正态分布,只要总体的方差有限。
数据科学-统计量及其抽样分布
中心极限定理:设从均值为μ\mu、方差为σ2\sigma^2(有限)的任意一个总体中抽取样本量为 nn 的样本,当nn充分大时,样本均值 $\overline{X} 的抽样分布近似服从均值为\mu,方差为\sigma^2/n$的正态分布。

中心极限定理邀请nn 必须充分大,总体偏离正态越远,要求nn 越大。常要求n30n\geq30。大样本,小样本之间不是以样本量大小来区分。在样本量固定的条件下所进行的统计推断,问题分析,不管样本量有多大,都称为小样本问题;在样本量无限大的条件下进行的统计推断,问题分析称为大样本问题。n30n\geq30 为一种经验说法。

参考资料:贾俊平《统计学》第七版第六章