您的位置: 首页 > 文章 > 可汗学院统计学笔记（一）

可汗学院统计学笔记（一）

分类: 文章 • 2023-12-04 14:18:52

基本概念

1.总体（Population）与样本（Sample）

总体是研究对象的整体，通常数目很大，直接对总体进行分析费时费力。因此通过对总体进行抽样得到可以代表总体的样本。注意：采样过程应该是随机的，否则样本无法代表总体的特征。

2.均值(mean)

令总体数为N,样本数为n，每一个样本的取值用表示可汗学院统计学笔记（一），则

总体均值：可汗学院统计学笔记（一）

样本均值：可汗学院统计学笔记（一）

3.方差(Variance)与标准差（Standard deviation）

方差和标准差描述的是数据的离散程度，也就是远离中心的程度

总体方差：可汗学院统计学笔记（一）

用样本估计总体的方差：可汗学院统计学笔记（一）

这个公式计算的方差通常会低估总体的方差：当样本分布与总体分布相近时，计算得到的样本均值接近总体均值，这时得到的样本方差也就接近总体方差；但是可能的情况是，采样得到的样本与总体偏差较大时（有偏的），由于样本均值总是分布在样本点的中心，这时样本点与样本均值之间的距离小于与总体均值的距离，计算得到的样本方差小于总体方差。这是一种更普遍的情况，因此用上式计算得到的方差通常会低估总体方差。

无偏的样本方差：

可汗学院统计学笔记（一）

将分母改为n-1，相当于以一个大于1的系数修正了有偏的方差。实验证明，这个公式能更好地估计总体方差。上述情况是在我们不知道总体的均值时，否则就不需要用n-1来保持无偏了。

总体标准差：可汗学院统计学笔记（一）

样本标准差：可汗学院统计学笔记（一）

与方差不同，s不是可汗学院统计学笔记（一）的无偏估计，因为s的期望不是。而可以证明的期望是。

总体方差的推导：

可汗学院统计学笔记（一）

计算方差的简便公式：可汗学院统计学笔记（一）

更快的计算方法：可汗学院统计学笔记（一）

4.随机变量、概率密度函数、期望

随机变量实际上是一种函数，只有在随机过程中才给它赋值。

概率密度函数下方的面积表示的才是概率，是概率密度函数在某一个区间内的积分。任何一个确切的点的概率值为0

期望值（Expected value）：对于随机变量来说，总体数是无穷的，计算总体均值时我们无法将所有的值相加再除以无穷。因此，将每个数值的出现的频率乘以数值然后对所有数值求和，就得到了期望。期望值实际上等同于总体均值。

5.二项分布

二项分布就是重复n次独立的伯努利实验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立实验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

用p表示一次实验中成功的概率，1-p表示一次实验中失败的概率，则二项分布n次独立重复性实验中，成功的次数k的概率为：

可汗学院统计学笔记（一）

二项分布的期望:

可汗学院统计学笔记（一）

可汗学院统计学笔记（一）

二项分布的方差：

可汗学院统计学笔记（一）

6.泊松分布

考虑这样一个问题：一个小时内经过某路口的车辆数的概率。由于车辆经过一个路口是一瞬间的事，因此，可以把这个问题看成：在n个瞬时中，有k个瞬时有车经过路口的概率。设车经过路口的概率为p，则这个问题是一个n趋近于无穷大时的二项分布问题。

假设已知泊松分布的期望为可汗学院统计学笔记（一）。则,

则概率可以这样计算：

可汗学院统计学笔记（一）

7.大数定律(Law of Large numbers)

对每次实验的结果求和然后求均值，当实验的次数足够多时，这个数值会收敛于总体均值或期望值。

可汗学院统计学笔记（一） ,

可汗学院统计学笔记（一）

8.正态分布(Normal distribution)

概率密度函数：

可汗学院统计学笔记（一）

Standard Z score: 可汗学院统计学笔记（一），表示数据离均值的距离是几个标准差。

正态分布可以通过二项分布近似很好地得到。

累计分布函数CDF：

可汗学院统计学笔记（一）

经验法则：

可汗学院统计学笔记（一）：68-95-99.7

参考：

可汗学院：统计学 http://open.163.com/special/Khan/khstatistics.html