关于参数估计

虽然非计算机专业，但因为一些原因打算学习西瓜书，可由于长时间没有碰过概率统计的知识，有所遗忘。所以特意重新复习了一遍类似的知识，写在这里权当总结。主要参考《概率论与数理统计》(陈希孺)。

参数估计就是根据样本推断总体的均值或者方差、或者总体分布的其他参数。可以分两种，一种是点估计(估计一个参数的值)，另一种是区间估计(估计一个参数的区间)。参数估计的方法有多种，各种估计方法得出的结果不一定相同，很难简单的说一个必定优于另一个。

点估计

点估计主要有三种方法：矩估计、最大似然估计、贝叶斯估计。

矩估计

定义 $k$ 阶样本原点矩为

a_{k} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}^{k}

若

k = 1

则原点矩显然就是样本均值

\bar{X}

；再定义

k

阶样本中心矩为

m_{k} = \frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{k} .

另一方面，总体分布设为

f (x; θ_{1}, θ_{2}, . . ., θ_{k})

则有

m

阶原点矩

α_{m} = \int x^{m} f (x; θ_{1}, θ_{2}, . . ., θ_{k}) d x .

矩估计的思想就是：令样本

k

阶矩等于总体

k

阶矩，得到一组方程，由此反解出

{θ_{i}}

.
一般原则是要求解

n

个参数，就选

n

个最低阶的矩，令它们相等并反解。

例题：设 $X_{1}, . . ., X_{n}$ 为区间 $[θ_{1}, θ_{2}]$ 上均匀分布总体中抽出的 $n$ 个样本，估计出 $θ_{1}, θ_{2}$ .
计算出样本中心矩 $m_{1} = \sum_{i} X_{i} / n$ 和 $m_{2} = \sum_{i} X_{i}^{2} / n$ .再计算出总体中心矩分别为 $\frac{θ_{1} + θ_{2}}{2}$ 和 $\frac{(θ_{1} + θ_{2})^{2}}{12}$ ，令它们对应相等，解出来两个 $θ$ 即可。

极大似然估计

符号同前，样本 $(X_{1}, . . ., X_{n})$ 的联合概率密度(PDF)为

f (x_{1}; θ_{1}, . . ., θ_{k}) f (x_{2}; θ_{1}, . . ., θ_{k}) . . . f (x_{n}; θ_{1}, . . ., θ_{k}) .

现在反过来，固定样本

{X_{i}}

而把上面PDF看作关于

{θ_{i}}

的“密度函数”，加引号是因为实际上

{θ_{i}}

是固定参数而非随机变量，这里可以叫做似然函数(likehood, 而非probability)。既然似然函数的

{X_{i}}

固定，那么可以认为最可能的

{θ_{i}}

取值必然是使得似然函数最大的那组取值。也就是说

{θ_{i}}

的估计值是使得下面表达式最大的那个值

L (X - 1, \dots, X_{n}; θ_{1}, \dots, θ_{k}) = \prod_{i = 1}^{n} f (X_{i}; θ_{1}, \dots, θ_{k})

上式为累乘，取对数变为求和累加，称为对数似然函数(因为对数函数也同一点取得最大值)

l n L = \sum_{i = 1}^{n} l n f (X_{i}; θ_{1}, \dots, θ_{k})

如果函数性质足够好，用上式分别对

{θ_{i}}

求导令其为零，求得驻点再验证极值点和最值点。

例题：设 $X_{1}, \dots, X_{n}$ 为从 $[0, θ]$ 均匀分布总体中抽取的样本，估计参数 $θ$ .
直接看出来单个样本密度函数为 $θ^{- 1}$ ，所以似然函数为
$L = {\begin{cases} θ^{- n} & 0 < X_{i} < θ ， i = 1, \dots, n \\ 0 & o t h e r \end{cases}$ 函数性质不够好，需要直接求最大值：在函数非零区间内， $θ$ 越小函数值越大，而 $θ$ 最小值为 $m a x {X_{i}}$ ，这就是估计值。
所以直观看来，极大似然估计给出了一个比较奇怪的估计值：它认为样本的最大值就是总体的上界。

贝叶斯估计

贝叶斯估计参数时，最好需要对参数的分布状况有一个先验的了解，以单参数 $θ$ 为例，假设根据经验，其先验分布为 $h (θ)$ .这里虽然 $θ$ 的确是一个确定的参数，谈不上概率分布，但是在贝叶斯估计这套理论中，必须根据经验或者历史给出这么一个”先验分布”。 $h (θ)$ 必须非负，但不要求归一，不归一时称为”广义先验密度”。
参数为 $θ$ 且样本为 ${X_{i}}$ 的概率为(PDF)

h (θ) \prod_{i = 1}^{n} f (X_{i}, θ)

这样，它关于

{X_{i}}

的边缘密度为

p (X_{1}, \dots, X_{n}) = \int h (θ) \prod_{i = 1}^{n} f (X_{i}, θ) d θ

由此得到在

{X_{i}}

给定条件下，

θ

的条件概率密度为

h (θ | X_{1}, \dots, X_{n}) = h (θ) \prod_{i = 1}^{n} f (X_{i}, θ) / p (X_{1}, \dots, X_{n})

上式给出来了在抽到样本

{X_{i}}

情况下的参数

θ

的概率密度，称为“后验密度”，形式上看就是一个带有连续参数的贝叶斯公式。获得上面条件概率表达式以后，

θ

的估计值如何求，有多种方式，比如，求这个分布的均值作为

θ

的估计值。

例题：做 $n$ 次独立重复试验，每次观察事件 $A$ 是否发生， $A$ 在每次试验中发生的概率为 $p$ ，用试验结果估计 $p$ .
设先验密度为 $h (p)$ ，设 $A$ 发生记为 $X_{i} = 1$ ，否则记为 $X_{i} = 0$ . 对于样本 $X_{i}$ ， $P (X_{i} = 1) = p$ 而 $P (X_{i} = 0) = 1 - p$ ，所以事件 $(X_{1}, \dots, X_{n})$ 概率密度为
$p^{S} (1 - p)^{n - S}$ 其中 $S = \sum_{i} X_{i}$ ，所以后验密度为 $h (p | X_{1}, \dots, X_{n}) = \frac{h (p) p^{S} (1 - p)^{n - S}}{\int_{0}^{1} h (p) p^{S} (1 - p)^{n - S} d p}$ 不妨取上式均值 $\hat{p}$ 为 $p$ 的估计值。如果取 $h (p)$ 为均匀分布，则经过化简计算可得 $\hat{p} = (S + 1) / (n + 2)$ .
用期望(一阶原点矩)去估计的结果是 $S / n$ ，在 $n$ 很大时，两者相同；在 $n$ 很小，比如 $n = 1, S = 1$ 时，期望估计给出 $\hat{p} = 1$ ，而贝叶斯估计给出 $\hat{p} = 2 / 3$ .

点估计的准则

前面提到的参数的点估计方法有三种，在确定的情况下，应该选择哪种估计更恰当，这就是估计优良性准则的问题。

无偏性

字面意思就是一个估计没有偏差。

定义：假设某总体的分布包含位置参数 $θ_{1}, \dots, θ_{k}$ ，而 $X_{1}, \dots, X_{n}$ 为抽取出的样本，要估计的统计量设为 $g (θ_{1}, \dots, θ_{k})$ ， $g (\cdot)$ 为一已知函数，设 $\hat{g} (X_{1}, \dots, X_{n})$ 为一个估计量，如果对于任何的 $θ_{1}, \dots, θ_{k}$ 取值，都有
$E_{θ_{1}, \dots, θ_{k}} [\hat{g} (X_{1}, \dots, X_{n})] = g (θ_{1}, \dots, θ_{k})$ 则称 $\hat{g} (\cdot)$ 为 $g$ 的一个无偏估计量。

上式 $E (\cdot)$ 求期望算符有下标，表示在系统参量分别为某 $θ_{1}, \dots, θ_{k}$ 时，抽取样本 ${X_{i}}$ ，计算 $\hat{g}$ ，再对不同抽取的样本进行求期望操作(固定 $θ$ ，对样本求期望)。上面定义并未对样本容量 $n$ 提出要求。
注意， $E (\cdot)$ 括号里面本质上是一个随机变量，所以这才能求期望。

例题：可以证明，样本均值 $\bar{X}$ 是总体均值 $μ$ 的无偏估计，样本方差 $s^{2} = \frac{1}{n - 1} \sum_{i} (X_{i} - \bar{X})^{2}$ 是总体方差 $σ^{2}$ 的无偏估计；但是样本中心二阶矩 $\frac{1}{n} \sum_{i} (X_{i} - \bar{X})^{2}$ 并非总体方差的无偏估计，而且样本标准差 $s$ 并非总体标准差的无偏估计。

在前面的极大似然估计那里的例题，给出的 $θ$ 的估计值是抽取到的样本的最大值，可以证明它并非无偏估计。

例题：如何把上面的 $\hat{θ}$ 修正为无偏估计。
先计算出 $E_{θ} (\hat{θ})$ .前面说过 $E (\cdot)$ 里面的 $\hat{θ}$ 本质上是一个随机变量，为求其期望，需要求出它的密度分布函数PDF，为此可以先求出它的累积分布函数CDF。下式为 $\hat{θ}$ 的CDF
$G_{θ} (x) = {\begin{cases} 0 & x ⩽ 0 \\ {(\frac{x}{θ})}^{n} & 0 < x < θ \\ 1 & x ⩾ θ \end{cases}$ 对于上式第二行的解释：当 $0 < x < θ$ ，则想要事件 ${\hat{θ} < x}$ 发生，则必须有 ${X_{1} < x}, {X_{2} < x}, \dots, {X_{n} < x}$ 同时发生(因为 $\hat{θ}$ 为它们中的最大值)，而它们是独立事件，每个事件发生的概率 $P (X_{i} < x) = x / θ$ (因为均匀分布)。对上式求导得到随机变量 $\hat{θ}$ 的PDF为 $g_{θ} (x) = {\begin{cases} n x^{n - 1} / θ^{n} & 0 < x < θ \\ 0 & other \end{cases}$ 有了PDF就可以求期望 $E_{θ} (\hat{θ}) = \int_{0}^{θ} x g_{θ} (x) d x = \frac{n}{n + 1} θ$ 所以如果要使用这个估计值，就应该乘以 $\frac{n + 1}{n}$ 因子才能成为无偏估计。

相合性

相合性的字面意思和无偏性几乎一样，但数学本质是不同的，是对参数估计量完全不同的两个方面的描写。大数定理说的是，如果 $X_{1}, \dots, X_{n}$ 独立同分布均值为 $μ$ ，则对于任意给定的正数 $ε$ 都有

lim_{n \to \infty} P (| \bar{X} - μ | ⩾ ε) = 0.

相合性大致相当于大数定理的一种“推广”。

定义：设总体分布依赖于参数 $θ_{1}, \dots, θ_{k}$ ，而 $g (θ_{1}, \dots, θ_{k})$ 是一个给定的函数。设 $X_{1}, \dots, X_{n}$ 为抽取的样本，而 $\hat{g} (X_{1}, \dots, X_{n})$ 为一个估计量，则对于任意的正数 $ε$ ，有
$lim_{n \to \infty} P_{θ_{1}, \dots, θ_{k}} (| \hat{g} (X_{1}, \dots, X_{n}) - g (θ_{1}, \dots, θ_{k}) | ⩾ ε) = 0$

由上面的定义，大数定理无非就是表达了”样本均值是总体均值的相合的估计量“这层意思。注意这里没有对不同的样本求期望，而是令样本容量趋于无穷，这是和无偏性的差别。

最小方差误差

如果现在有两个无偏估计，要在一起比较性能，则可以比较其方差的大小，方差越小，估计量越稳定。上面说过了，估计量 $\hat{g} (X_{1}, \dots, X_{n})$ 本质上还是一个随机变量，其随机性来自于 ${X_{i}}$ 的随机性。所以估计量的方差，就是这个随机变量通常意义下的方差而已。
如果一个无偏估计 $\hat{g}$ 对于任何其他的无偏估计 ${\hat{g}}_{1}$ 以及任何的 ${θ_{i}}$ 取值，都有更小的方差，则称此 $\hat{g}$ 为一个最小方差无偏估计(MVU)。

区间估计

前面说的参数估计，是利用各种方法把一个分布中的未知参数根据样本求出估计值，所以叫做点估计。区间估计则是把未知参数估计到一个区间中，并给出置信系数。

定义：给定一个小量 $α \in [0, 1]$ ，下式概率等于 $1 - α$ ，对于参数 $θ$ 的任何取值都成立，则称区间估计 $[{\hat{θ}}_{1}, {\hat{θ}}_{2}]$ 的置信系数为 $1 - α$ .
$P_{θ} ({\hat{θ}}_{1} (X_{1}, \dots, X_{n}) ⩽ θ ⩽ {\hat{θ}}_{2} (X_{1}, \dots, X_{n}))$

有时候难以找到恰当的 $α$ 恰好使得上式概率为 $1 - α$ ，常常找到一个稍大的 $β$ ，使得上式不小于 $1 - β$ 。所以如果找到这样的 $β$ ，则称 $1 - β$ 为区间的置信水平。置信系数为最大的置信水平。

枢轴变量法

先来定义某分布(比如正态分布)的上 $β$ 分位点 $Φ (μ_{β}) = 1 - β$ ，其中 $Φ (\cdot)$ 为一个累积分布函数CDF. 或者如下图，图中是一个分布的PDF， $μ_{β}$ 为其上 $β$ 分位点。
关于参数估计

例题：样本 $X_{1}, \dots, X_{n}$ 来自于正态总体 $N (μ, σ^{2})$ ， $σ^{2}$ 已知，根据样本求 $μ$ 的区间估计。
由概率论知识， $\sqrt{n} (\bar{X} - μ) / σ \sim N (0, 1)$ ，以 $Φ_{N} (x)$ 表示标准正态分布的CDF，则有
$P (- μ_{α / 2} < \sqrt{n} (\bar{X} - μ) / σ < μ_{α / 2}) = Φ (μ_{α / 2}) - Φ (- μ_{α / 2}) = 1 - α$ $\Rightarrow P (\bar{X} - σ μ_{α / 2} ⩽ μ ⩽ \bar{X} + σ μ_{α / 2}) = 1 - α$ 依据定义， $μ$ 的置信系数为 $1 - α$ 的区间估计是 $[\bar{X} - σ μ_{α / 2}, \bar{X} + σ μ_{α / 2}]$ .

在此问题中，随机变量 $Y = \sqrt{n} (\bar{X} - μ) / σ$ 起到了中间人的作用，所以叫它枢轴变量。总的思路是，先利用概率论知识找枢轴变量，使得枢轴变量整体服从某个完全已知的分布(此问题中为 $N (0, 1)$ )，再根据分位点的意义，列出方程 $P (A < Y < B) = 1 - α$ ，其中 $A, B$ 为和 $α$ 有关的分位点。最后将不等式 $A < Y < B$ 改写成 $a < θ < b$ 的形式，结合区间估计的定义即可得出结论。

另外，此问题中 $σ^{2}$ 已知，如果未知也可以做，做法如下：
根据概率论知识，有枢轴变量 $\sqrt{n} (\bar{X} - μ) / s$ 服从自由度为 $n - 1$ 的 $t$ 分布(此分布完全确定)，其余步骤模仿例题，得出置信系数为 $1 - α$ 的区间估计为

[\bar{X} - s t_{n - 1} (α / 2) / \sqrt{n}, \bar{X} + s t_{n - 1} (α / 2) / \sqrt{n}]

其中

t_{n - 1} (α / 2)

为分位点。

如果找到的枢轴变量不严格满足某特定已知分布，但 $n$ 很大以至于可以近似满足某已知分布，则可以结合中心极限的思想，做一个近似，姑且认为枢轴变量满足。这叫做大样本近似。

置信界(单侧估计)

前面的枢轴变量法找的是区间的两个端点，有时候不需要两个端点，而只需要估计参数是不是大于(小于)某个值。

若对参数 $θ$ 的一切取值，有
$P_{θ} (Θ (X_{1}, \dots, X_{n}) ⩾ θ) = 1 - α$ 成立，则称 $Θ$ 为一个置信系数为 $1 - α$ 的置信上界。若将 $⩾$ 换为 $⩽$ 则称 $Θ$ 为一个置信系数为 $1 - α$ 的置信下界。

解决问题的方法和两个端点的枢轴变量法一样，只不过不等式都变成了单边的了而已。

贝叶斯法

贝叶斯法处理统计问题的思路都是相似的，这里还是必须先假定一个先验密度函数 $h (θ)$ ，设样本 $X_{1}, \dots, X_{n}$ ，计算出后验密度函数 $h (θ | X_{1}, \dots, X_{n})$ ，找出两个值 $θ_{1}, θ_{2}$ 使得

\int_{θ_{1}}^{θ_{2}} h (θ | X_{1}, \dots, X_{n}) d θ = 1 - α

成立，则区间

[θ_{1}, θ_{2}]

可以作为一个区间估计，后验信度为

1 - α

.
一般来说会有很多

θ_{1}, θ_{2}

满足条件，选择的原则通常是使得

| θ_{1} - θ_{2} |

最小。

贝叶斯法和枢轴变量法的区别

枢轴变量那一套方法是奈曼理论(J.Neyman)，而贝叶斯(Bayes)理论与其观念上有根本区别。奈曼理论中，置信系数为 $0.95$ 的确切意思是：对于给定的参数 $θ$ ，抽取样本，根据样本计算区间，则这样的行为每进行 $100$ 次，平均有且仅有 $95$ 次计算出来的区间包含真实的参数 $θ$ ；而贝叶斯法的后验信度为 $0.95$ 的意思是：计算出来的区间包含真实参数的相信程度为 $0.95$ .

点估计

矩估计