从零开始学统计 02 | 总体参数

一、老板的任务

一切的噩梦来自于，老板给你的任务：

计算所有肝脏细胞中X基因表达量大于30的可能性。

现在，假设已经拿到在实际的肝脏中大约 2400 亿个细胞的X基因表达值。

使用直方图绘制，可以看到X基因大多表达量是 10 - 30

从零开始学统计 02 | 总体参数

1. 使用直方图求解

现在我们计算一个肝细胞的X基因表达量大于30的可能性，需要两个值：

X 基因表达量大于30的细胞数
总细胞数

利用小学除法：

从零开始学统计 02 | 总体参数

根据观察值，代入

从零开始学统计 02 | 总体参数

2. 使用正态分布求解

将刚刚的直方图趋势，对应于分布，可以得到均值为20，标准差为10的正态分布曲线

从零开始学统计 02 | 总体参数

现在，换个思路，利用正态分布曲线来计算一个肝细胞的X基因表达量大于30的可能性。

这时，需要两个值：

计算表达量大于30的面积
曲线下的总面积

计算公式就是小学的除法：

从零开始学统计 02 | 总体参数

带入值

从零开始学统计 02 | 总体参数

可以得到和直方图近似的值，这意味着正态曲线是真实数据的一个很好的近似值。

但是，真实的情况是，我们不可能去测量 2400 亿个细胞作为数据集，这是一个浩大的工程。

解决这个问题之前，我们先看看什么是总体参数：

二、总体参数

总体，通俗来说就是一类事物的总称，比如要研究人，那么地球上的人就是一个总体，研究金枪鱼在海洋中的分布，那么海里所有的金枪鱼就是一个总体。很显然，直接这样统计总体很不切实际，后面我们会提到解决办法。

总体中提到的均值，标准差，中位数等统计指标，都是总体参数。

比如，代表总体正态曲线的均值和标准差就是总体参数

从零开始学统计 02 | 总体参数

均值为总体均值（population mean），Population Mean
标准差为总体标准差(the population standard deviation)，简称：Population SD

对于指数分布来说，形状由率（Rate）决定

从零开始学统计 02 | 总体参数

总体参数：

率为总体率，Population Rate

伽马分布，形状由形状（Shape）和率（Rate）参数决定，

从零开始学统计 02 | 总体参数

总体参数就是：

形状为总体形状，Population Shape
率为总体率，Population Rate

还有其他的分布是同样的。

三、估计总体参数

我们不可能去测量 2400 亿个细胞作为数据集作为总体，来拿到总体参数。

解决办法是，可以从总体中随机找几个测量值来估计总体参数。

也就是说，不论其他人怎么做实验，在肝细胞中测量X基因的值，一直来自于总体。

从总体得出的结论，比如观察单个细胞中表达量大于30的概率，同样适用于其他人或未来的实验。

举个栗子，下图中，两组实验的5个样本都来自于总体：

从零开始学统计 02 | 总体参数

我们去测量这5个值，不止是拿到本身的数值，而是要拿到总体参数，进而去作为得出可复现结论的基础。

但是，两组实验拿到的测量值，但是会得到不同的总体参数。

从零开始学统计 02 | 总体参数

这就引出一个问题，既然每次得到的是不同的估计总体参数，怎么保证得到可复现的结果呢？

造成这个结果的主要原因是样本量太少，也就是说数据越多，我们对估计总体参数的准确性也就越有信心。

统计学中衡量我们对总体参数估计的信心，有一个量化指标，叫置信水平。

在做统计分析时，要计算P值（p-value）和置信区间（confidence interval）来量化估计参数的置信度。

这里挖个坑，且听下回分解。

致谢：

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw

从零开始学统计 02 | 总体参数

一、老板的任务

1. 使用直方图求解

2. 使用正态分布求解

二、总体参数

三、估计总体参数

相关推荐