EM算法

1.直观理解

通俗理解：https://blog.****.net/v_JULY_v/article/details/81708386

通俗的理解看出就是EM算法由于不知道隐变量的分布，先给出参数的随机初始值，然后根据参数，去得到隐变量的分布，然后根据隐变量和观测变量的共同分布基于最大似然去重新估计参数，知道参数稳定。

2.数学推导

极大似然估计：

L (θ) = \sum_{i} \log p (x_{i}; θ) = \sum_{i} \log (\sum_{j} p (x_{i}, z_{j}; θ))

L (θ) = \sum_{i} \log (\sum_{j} \frac{p (x_{i}, z_{j}; θ)}{Q_{j} (z_{j})} Q_{j} (z_{j}))

= \sum_{i} \log (E_{z_{j} Q_{j} (z_{j})} (\frac{p (x_{i}, z_{j}; θ)}{Q_{j} (z_{j})}))

由于log函数是凹函数，有 $f (E (x)) \geq E (f (x))$ ，则上式可化为：

L (θ) \geq \sum_{i} \sum_{j} Q_{j} (z_{j}) \log \frac{p (x_{i}, z_{j}; θ)}{Q_{j} (z_{j})}

当

\frac{p (x_{i}, z_{j}; θ)}{Q_{j} (z_{j})} = c

(常数)时，取等号。

因此以当前点构造的下界为：

\frac{p (x_{i}, z_{j}; θ)}{Q_{j} (z_{j})} = c

因为

z_{j}

的分布为

Q_{j}

，同时他们的概率和应为1。

\sum_{j} Q_{j} (z_{j}) = 1

所以，可得：

\sum_{j} \frac{p (x_{i}, z_{j}; θ)}{c} = 1

\sum_{j} p (x_{i}, z_{j}; θ) = p (x_{i}; θ) = c

Q_{j} (z_{j}) = \frac{p (x_{i}, z_{j}; θ)}{\sum_{j} p (x_{i}, z_{j}; θ)} = p (z_{j} | x_{i}; θ)

至此，E步完毕。E步目的是为了构造最大下界，此时Q函数为后验概率。

而M步为了最大化下界：

将 $Q_{j} (z_{j})$ 代入原有的 $L (θ)$ 中去：

max_{θ} \sum_{i} \sum_{j} Q_{j} (z_{j}) \log \frac{p (x_{i}, z_{j}; θ)}{Q_{j} (z_{j})}

最大化下界，得到新的

θ

估计。

3.图形理解

Machine Learning Series No.6 -- EM algorithm

先随机初始化 $θ_{0}$ ，对应的下界为 $g_z 0$ ，然后E步构造似然函数下界 $g_z 1$ ，使得下界在 $θ_{0}$ 时与 $L (θ)$ 相等（即Jensen不等式中，等于常数时取等号）。M步最大化下界，得到 $M 1$ ,对应的 $θ_{1}$ 为参数的新的估值。这个过程在迭代求解。

4.与K-means的关系

https://www.zhihu.com/question/49972233?sort=created

5.EM算法

EM算法中的Q函数为：

Q (θ, θ_{i}) = E_{z} [\log P (X, Z | θ) | X, θ_{i}]

而将我们的最大似然推导出来的Q函数代入，下界得到的却是：

\sum_{i} \sum_{j} p (z_{j} | x_{i}, θ_{t}) \log \frac{p (x_{i}, z_{j}; θ)}{p (z_{j} | x_{i}, θ_{t})}

这里注意，求解出来的Q函数代入的时候，不能使用

\frac{p (x_{i}, z_{j}; θ)}{p (z_{j} | x_{i}, θ_{t})} = p (x_{i})

这里的

θ

是不一样的。

最终的等价可由以下式子推出：

Machine Learning Series No.6 -- EM algorithm

Machine Learning Series No.6 -- EM algorithm

EM算法

1.直观理解

2.数学推导

3.图形理解

4.与K-means的关系

5.EM算法

相关推荐