参数估计

样本的统计量

设随机变量X的N个样本为X1,X2,...,Xn，则
1. 样本均值为：

X ¯ ¯ ¯ = 1 n \sum i = 1 n X i ，

2. 样本的方差为：

S 2 = 1 n - 1 \sum i = 1 n (X i - X ¯ ¯ ¯) 2

样本方差的分母使用n−1而非n是为了无偏

样本的矩

k阶样本原点矩 $A k = 1 n \sum i = 1 n X k i$
k阶样本中心矩 $M k = 1 n \sum i = 1 n (X i - X ¯ ¯ ¯) k$

矩估计

矩估计，即矩估计法，也称“矩法估计”，就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩（即所考虑的随机变量的幂的期望值）的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代（未知的）总体矩，解出感兴趣的参数。从而得到那些参数的估计。
1. 设总体的期望为μ，方差为σ2（μ和σ未知，待求），则有
原点矩表达式：

{E (X) = μ E (X 2) = V a r (X) + [E (X)] 2 = σ 2 + μ 2

根据该总体的一组样本，求得原点矩：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ A 1 = 1 n \sum i = 1 n X i A 2 = 1 n \sum i = 1 n X 2 i

2. 矩估计的结论：
1. 根据各自阶的中心矩相等，计算得到：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ μ = X ¯ ¯ ¯ σ 2 = 1 n \sum i = 1 n X 2 i - X ¯ ¯ ¯ 2 = 1 n \sum i = 1 n (X i - X ¯ ¯ ¯) 2

2. 由于是根据样本求得的估计结果，根据记号习惯，写作：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ μ ˆ = X ¯ ¯ ¯ σ ˆ 2 = 1 n \sum i = 1 n (X i - X ¯ ¯ ¯) 2

3. 正态分布的矩估计
在正态分布的总体中采样得到n个样本：X1,X2,...,Xn，该总体的期望和方差为：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ μ ˆ = X ¯ ¯ ¯ σ ˆ 2 = 1 n \sum i = 1 n (X i - X ¯ ¯ ¯) 2

4. 均匀分布的矩估计
设X1,X2,...,Xn为定义在[a,b]均匀分布的总体中采样得到n个样本，求a，b：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ E (X) = a + b 2 V a r (X) = (b - a) 2 12

矩估计要求满足：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ μ ˆ = X ¯ ¯ ¯ σ ˆ 2 = 1 n \sum i = 1 n (X i - X ¯ ¯ ¯) 2

从而：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ μ ˆ = a + b 2 σ ˆ 2 = (b - a) 2 12

⟹ {a = μ ˆ - 3 \sqrt σ ˆ b = μ ˆ + 3 \sqrt σ ˆ

贝叶斯估计和最大似然估计

这部分内容转载自这里

最大似然估计(Maximum Likehood Estimation MLE)

最大似然估计的核心思想是：找到参数θ的一个估计值，使得当前样本出现的可能性最大。简单说来就是：谁大像谁！

假设有一组独立同分布(i.i.d)的随机变量X，给定一个概率分布D，假设其概率密度函数为f，以及一个分布的参数θ，从这组样本中抽出x1,x2,⋯,xn，那么通过参数θ的模型f产生上面样本的概率为：

f (x 1, x 2, \dots, x n | θ) = f (x 1 | θ) \times f (x 2 | θ) \times \dots \times f (x n | θ)

最大似然估计会寻找关于θ 的最可能的值，即在所有可能的 θ 取值中，寻找一个值使这个采样的“可能性”最大化！
因为是”模型已定，参数未知”，此时我们是根据样本采样x1,x2,⋯,xn取估计参数θ，定义似然函数为：

L (θ | x 1, x 2, \dots, x n) = f (x 1, x 2, \dots, x n | θ) = \prod f (x i | θ)

实际使用中，因为f(xi|θ)一般比较小，而且n往往会比较大，连乘容易造成浮点运算下溢。所以一般我们用对数似然函数（用对数的好处：对数函数与原函数增减性相同，而且求导方便）：

ln L (θ | x 1, x 2, \dots, x n) = \sum i = 1 n f (x i | θ)

l ˆ = 1 n ln L

那最终θ的估计值为：

θ ˆ M L E = a r g m a x θ l ˆ (θ | x 1, x 2, \dots, x n)

根据前面的描述，总结一下求最大释然估计值的步骤：
1. 写似然函数
2. 一般对似然函数取对数，并将对数似然函数整理
3. 对数似然函数求导，令导数为0，求得似然方程
4. 根据似然方程求解，得到的参数即为所求估计值

对数似然求解实例

问：假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？
解：我们假设罐中白球的比例是p，那么黑球的比例就是1−p。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的概率是p(x|θ)，这里x是所有的抽样，θ是所给出的模型参数，表示每次抽出来的球是白色的概率为p。
按照第二部分提到的似然估计求解过程，先写出似然函数：

p (x | θ) = p (x 1, x 2, \dots, x n | θ) = p (x 1 | θ) \cdot p (x 2 | θ) \dots p (x n | θ) = p 70 (1 - p) 30

接下来对似然函数对数化：

l n p (x | θ) = l n (p 70 (1 - p) 30) = 70 l n p + 30 l n (1 - p)

然后求似然方程：

l n' p (x | θ) = 70 p - 30 1 - p

最后求解似然方程，得：p=0.7
以上就是最大似然估计的详细完整过程！

贝叶斯估计

统计学里有两个大的流派，一个是频率派，一个是贝叶斯派。时至今日，这两派还未就各自的观点达成统一。我们前面提到的最大似然估计就是频率派的典型思路，接下来再看看贝叶斯派的思路，到底跟频率派估计有何不同。
先来看几个相关的小公式：
两个随机变量x,y的联合概率p(x,y)的乘法公式：

p (x, y) = p (x | y) p (y) = p (y | x) p (x)

如果x,y是独立随机变量，上面的式子可以表示为:

p (x, y) = p (x) p (y) = p (y) p (x)

那么条件概率就可以表示为：

p (x | y) = p (x, y) p (y), p (y | x) = p (x, y) p (x)

对于一个完备事件组y1,y2,⋯,yn，可以使用全概率公式：

p (x) = \sum i = 1 n p (y i) p (x | y i), 其 中 \sum i = 1 n p (y i) = 1

由以上这些，可以得出贝叶斯公式：

p (y i | x) = p (x, y i) p (x) = p (y i) p (x | y i) p (x)

其中，p(yi|x)是后验概率。p(x|yi)是条件概率，或者说似然概率，这个概率一般都可以通过历史数据统计得出。而p(yi)是先验概率，一般也是根据历史数据统计得出或者认为给定的，贝叶斯里的先验概率，就是指p(yi)。对于p(x)，我们前面提到可以用全概率公式计算得出，但是在贝叶斯公式里面我们一般不care这个概率，因为我们往往只需要求出最大后验概率而不需要求出最大后验的具体值。

MLE与Bayes的区别

通过观察MLE与Bayes的公式，发现Bayes公式比MLE公式里就多了一项p(yi)(咱们先抛开p(x)不考虑)，而条件概率或者说似然概率的表达式是一致的。从数学表达式的角度来说，两者最大的区别就在这里：贝叶斯估计引入了先验概率，通过先验概率与似然概率来求解后验概率。而最大似然估计是直接通过最大化似然概率来求解得出的。

换句话说，最大似然估计没有考虑模型本身的概率，或者说认为模型出现的概率都相等。而贝叶斯估计将模型出现的概率用先验概率的方式在计算过程中有所体现。

举个大家上学时候就遇到的例子：
假如人们会感染一种病毒，有一种测试方法，在被测试者已感染这个病毒时，测试结果为阳性的概率为95%。在被测试者没有感染这个病毒时，测试结果为阳性的概率为2%。现在，有一个人的测试结果为阳性，问这个人感染了病毒吗？
如果用最大似然估计的方法，既然感染了病毒出现阳性的概率为95%，没感染出现阳性的概率为2%，本着谁大像谁的原则，那我就认为这个人已经感染了病毒。
但是如果用贝叶斯方法进行估计，如果我们得知有一个先验概率，比如整体人群中只有1%的人会感染此种病毒，那么由贝叶斯公式：

p (真 阳 性 | 检 测 为 阳 性) = p (真 阳 性) p (检 测 为 阳 性 | 真 阳 性) p (真 阳 性) p (检 测 为 阳 性 | 真 阳 性) + p (真 阴 性) p (检 测 为 阳 性 | 真 阴 性) = 0.01 \times 0.95 0.01 \times 0.95 + 0.99 \times 0.02 = 0.324

其中，p(真阳性|检测为阳性)为后验概率，即我们通过检测出为阳性可以判断为真阳性的概率；p(真阳性)为先验概率，p(检测为阳性|真阳性)为条件概率，p(真阳性)p(检测为阳性|真阳性)+p(真阴性)p(检测为阳性|真阴性)为全概率，检测出为阳性是由一个完备事件组构成的：这个人要么是真阳性，要么是真阴性。
由此可见，在贝叶斯估计中，先验概率对结果的影响很大。在这种场景下，采用贝叶斯估计似乎更为合理一些。
最后来个总结：从本质上来说，最大似然是对点估计，贝叶斯推断是对分布估计。即，假设求解参数θ，最大似然是求出最有可能的θ值，而贝叶斯推断则是求解θ的分布。

Tips

MLE简单又客观，但是过分的客观有时会导致过拟合(Over fitting)。在样本点很少的情况下，MLE的效果并不好。比如我们前面举的病毒的例子。在这种情况下，我们可以通过加入先验，用贝叶斯估计进行计算。
贝叶斯估计最要命的问题是，实际应用场景中的先验概率不是那么好求，很多都是拍脑袋决定的。一旦是拍脑袋决定的，这玩意自然就不准；更有甚者，很多时候是为了方便求解生造出来一个先验。那既然这样，要这个先验还有什么卵用呢？所以频率派的支持者就揪住这点不放攻击贝叶斯派。
在现在看来，Frequentist与Bayesian这两派还将长期并存，在各自适合的领域发挥自己的作用。

方差与偏差

偏差(bias)：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。

方差(Variance)：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。
参数估计