EM算法原理分析

EM算法主要用于含有隐藏变量的参数估计问题。
在将EM算法之前，先讲一下Jensen不等式。
定理：假设f是一个凸函数，X是随机变量，即：

E [f (X)] \geq f (E X)

此外，如果f是严格凸的，当且仅当

X = E [X] = 常 数 （ 不 再 是 随 机 变 量 ） 时 E [f (X)] = f (E X)

.
不理解的可以看下面的图：
EM算法原理分析

是不是一目了然？简单解释一下：假设X是一个随机变量，有0.5的概率落在a点，有0.5的概率落在b点，因此X的期望

E [X]

便落在a,b 的中点处。根据f是凸函数，我们可以在图上画出

f (a), f (b), f (E [X])

的位置，而

E [f (X)]

则落在

f (a), f (b)

的中点处。
由上图可知，因为f是凸函数，所以有

E [f (X)] \geq f (E X)

。同理，如果f是凹函数，则有

E [f (X)] \leq f (E X)

。
EM算法
假设我们有m个独立样本(独立性假设)

{x^{(1)}, . . ., x^{(m)}}

,给定以下似然函数：

l (θ) = \sum_{i = 1}^{m} l o g p (x; θ) = \sum_{i = 1}^{m} l o g \sum_{z} p (x, z; θ)

我们希望求出模型

p (x, z)

的参数

θ

. 然而，由于存在隐藏变量

z

θ

的求解是很困难的，如果能够提前得到

z

,那么最大似然估计将变得简单起来。（请记住这一点，因为后面的EM算法的E步其实就相当于给z做了一个先验假设，然后再做优化）
对于每个样本i，假设

Q_{i}

是关于z的分布（

\sum_{z} Q_{i} (z) = 1, Q_{i} (z) \geq 0

）,因此可得到下列不等式：

\begin{aligned} (1) & l (θ) & = \sum_{i = 1}^{m} l o g p (x^{(i)}; θ) \\ (2) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} p (x^{(i)}, z^{(i)}; θ) \\ (3) & = \sum_{i = 1}^{m} l o g \sum_{z^{(i)}} Q_{i} (z^{(i)}) \frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \\ (4) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} \end{aligned}

最后一步怎么得来的呢？其实就是用到了Jensen不等式。特别的，

f (x) = l o g x

是一个凹函数，因为

f^{^{″}} (x) = \frac{- 1}{x^{2}} < 0

.因此有

E [f (x)] \leq f (E (x))

，其中自变量x为

\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})}

,代入得：

f (E_{z^{(i)} \sim Q_{i}} [\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})}]) \geq E_{z^{(i)} \sim Q_{i}} [f (\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})})]

.
综上便可得到上文所述不等式。
那么，不等式什么时候取等号呢？其实上文的定理已经提到了，当自变量为常数时等号成立，对应到我们得不等式中，即：

\frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} = c

.
事实上，我们知道

\sum_{z} Q_{i} (z) = 1

,因此我们可以得到下面得推导：

\begin{aligned} (5) & Q_{i} (z^{(i)}) & = \frac{p (x^{(i)}, z^{(i)}; θ)}{\sum_{z} p (x^{(i)}, z; θ)} \\ (6) & = \frac{p (x^{(i)}, z^{(i)}; θ)}{p (x^{(i)}; θ)} \\ (7) & = p (z^{(i)} | x^{(i)}; θ) \end{aligned}

也就是说，我们可以简单设置

Q_{i}

为在参数

θ

下给定

x^{(i)}

时，关于

z^{(i)}

的后验分布。
因此，我们可以得到EM算法的迭代过程如下：
循环以下两步直到收敛{
（E-step）对于每个样本i,

Q_{i} (z^{(i)}) := p (z^{(i)} | x^{(i)}; θ) .

（M-step）

θ := a r g m a x_{θ} \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ)}{Q_{i} (z^{(i)})} .

}
那么我们怎么知道EM算法是否收敛呢？我们假设

θ (t) 和 θ (t + 1)

为迭代过程中的参数，那么我们只要证明

l (θ (t)) \leq l (θ (t + 1))

,那么就可以得到EM算法是在不断优化，直至收敛。顺着这个思想，我们假设

Q_{i} (z^{(i)}) := p (z^{(i)} | x^{(i)}; θ)

,此时

l (θ^{(t)}) = \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t)})}{Q_{i} (z^{(i)})}

参数

θ^{(t + 1)}

通过最大化等式右边的式子获得，因此：

\begin{aligned} (8) & θ^{(t + 1)} & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t + 1)})}{Q_{i} (z^{(i)})} \\ (9) & \geq \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t)})}{Q_{i} (z^{(i)})} \\ (10) & = l (θ^{(t)}) \end{aligned}

当 $θ$ 为 $θ^{(t + 1)}$ 时， $\frac{p (x^{(i)}, z^{(i)}; θ^{(t + 1)})}{Q_{i}^{(t)} (z^{(i)})}$ 不一定为常数了，所以等号不一定成立，因此上述第一个式子为大于等于。
至于第二个不等式，由EM算法的M步可知， $θ^{(t + 1)}$ 是通过最大化上一步的函数值得到的，即：

θ^{(t + 1)} := a r g m a x_{θ} \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; θ^{(t)})}{Q_{i} (z^{(i)})} .

再把

θ^{(t + 1)}

迭代回去，得到的函数值肯定会大于等于上一步的函数值，因此第二个不等式成立。
综上，通过EM算法，我们总可以得到

l (θ^{(t + 1)}) \geq l (θ^{(t)})

，从而不断优化，直到收敛，收敛条件是函数值增长小于等于阈值（阈值自己设定）时，停止迭代。

二高斯混合模型（Gaussian Misture Model, GMM）
EM算法的一个重要应用就是高斯混合模型的参数估计。
高斯混合模型（Gaussian Misture Model, GMM）是指具有如下形式的概率分布模型：

p (y | θ) = \sum_{j = 1}^{k} ϕ_{j} p (y | θ_{j})

其中，

ϕ_{j}

是系数，

ϕ_{j} \geq 0, \sum_{j = 1}^{k} ϕ_{j} = 1

;

p (y | θ_{j})

是高斯分布密度，

θ_{j} = (μ_{j}, σ_{j}^{2}) = ((μ_{j}, Σ_{j})

p (y | θ_{j}) = \frac{1}{(2 π)^{\frac{1}{2}} σ_{j}} e x p (- \frac{(y - μ_{j})^{2}}{2 σ_{j}^{2}})

称为第j个分模型。
一般混合模型可以由任意概率分布密度代替上式中的高斯分布密度，我们这里只介绍最常用的高斯混合模型。

E-step：计算

w_{j}^{(i)} = Q_{i} (z^{(i)} = j) = P (z^{(i)} = j | x^{(i)}; ϕ, μ, Σ) .

即

w_{j}^{(i)}

是针对第i个样本，在参数为

ϕ, μ, Σ

已知样本特征

x^{(i)}

的情况下，属于第j个分模型的概率。
M-step：最大化以下式子优化参数

ϕ, μ, Σ

：

\begin{aligned} (18) & L & = \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)}) l o g \frac{p (x^{(i)}, z^{(i)}; ϕ, μ, Σ)}{Q_{i} (z^{(i)})} \\ (19) & = \sum_{i = 1}^{m} \sum_{z^{(i)}} Q_{i} (z^{(i)} = j) l o g \frac{p (x^{(i)} | z^{(i)} = j; μ, Σ) p (z^{(i)} = j; ϕ)}{Q_{i} (z^{(i)}) = j} \\ (20) & = \sum_{i = 1}^{m} \sum_{z^{(i)}} w_{j}^{(i)} l o g \frac{\frac{1}{(2 π)^{\frac{1}{2}} | Σ_{j} |^{\frac{1}{2}}} e x p (- \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j})) \cdot ϕ_{j}}{w_{j}^{(i)}} \end{aligned}

首先我们关于 $μ_{l}$ 最大化以上式子。将L对 $μ_{l}$ 求导，得到：

\begin{aligned} (21) & \frac{\partial L}{\partial μ_{l}} & = \nabla_{μ_{l}} \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g \frac{\frac{1}{(2 π)^{\frac{1}{2}} | Σ_{j} |^{\frac{1}{2}}} e x p (- \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j})) \cdot ϕ_{j}}{w_{j}^{(i)}} \\ (22) & = \nabla_{μ_{l}} \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} \frac{1}{2} (x^{(i)} - μ_{j})^{T} Σ_{j}^{- 1} (x^{(i)} - μ_{j}) \\ (23) & = \frac{1}{2} \sum_{i = 1}^{m} w_{l}^{(i)} \nabla_{μ_{l}} 2 μ_{l}^{T} Σ_{l}^{- 1} x^{(i)} - μ_{l}^{T} Σ_{l}^{- 1} μ_{l} \\ (24) & = \sum_{i = 1}^{m} w_{l}^{(i)} (Σ_{l}^{- 1} x^{(i)} - Σ_{l}^{- 1} μ_{l}) \end{aligned}

令导数等于零，可得到 $μ_{l}$ 的更新规则如下：

μ_{l} := \frac{\sum_{i = 1}^{m} w_{l}^{(i)} x^{(i)}}{\sum_{i = 1}^{m} w_{l}^{(i)}} .

至于

Σ

的更新跟

μ_{l}

类似，不再赘述。下面讲一下

ϕ

的更新。
通过观察式子，我们可以把无关变量去掉，得到：

L (ϕ) = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g ϕ_{j} .

另一方面，因为

ϕ_{j} = p (z^{(i)} = j; ϕ)

，所以有约束条件

\sum_{j = 1}^{k} ϕ_{j} = 1

.因此，我们使用拉格朗日乘子

β

将有约束问题转换成无约束问题，如下：

L (ϕ) = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} l o g ϕ_{j} + β (\sum_{j = 1}^{k} ϕ_{j} - 1)

值得注意的是，这里并没有把约束条件

ϕ_{j} > 0

加上，这是为什么呢？别急，下文会提到。
对以上式子求导，得到：

\frac{\partial L (ϕ)}{\partial ϕ_{j}} = \sum_{i = 1}^{m} \frac{w_{j}^{(i)}}{ϕ_{j}} + β

令导数等于零，可得到

ϕ_{j}

的更新规则如下：

ϕ_{j} := \frac{\sum_{i = 1}^{m} w_{j}^{(i)}}{- β} .

使用约束条件

\sum_{j = 1}^{k} ϕ_{j} = 1

，我们可以得到

- β = \sum_{i = 1}^{m} \sum_{j = 1}^{k} w_{j}^{(i)} = \sum_{i = 1}^{m} 1 = m (使 用 条 件 w_{j}^{(i)} = Q_{i} (z^{(i)} = j), 从 而 \sum_{j = 1}^{k} w_{j}^{(i)} = 1)

，因此，我们可以进一步化简得到：

ϕ_{j} := \frac{1}{m} \sum_{i = 1}^{m} w_{j}^{(i)} .

我们可以看到，

ϕ_{j}

恒大于零，默认满足约束条件

ϕ_{j} > 0

。

再简单说明一下我理解的EM算法与Kmeans算法的联系与区别：
联系：Kmeans算法可以看作EM算法的一个特例，Kmeans中的簇即为EM算法中的隐藏变量；
区别：Kmeans中每一个数据点都只属于一个簇中，属于硬分隔；
而EM算法使用后验概率的方法，相当于一个数据点分到每一个簇都有一个概率，概率和为1.

参考：吴恩达CS229 Lecture notes “The EM algorithm”
《统计学习方法》（李航著）

相关推荐