文章目录

多项式分布与狄利克雷分布

多项式分布
狄利克雷分布

潜在狄利克雷分布模型

文本生成
模型定义

LDA 与 PLSA 异同

潜在狄利克雷分布（Latent Dirichlet Allocation, LDA），是一种无监督学习算法，用于识别文档集中潜在的主题词信息。在训练时不需要手工标注的训练集，需要的仅仅是文档集以及指定主题的数量 k 即可。对于每一个主题均可找出一些词语来描述它。

LDA是一种典型的词袋模型，即它认为一篇文档是由一组词构成的一个集合，词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

多项式分布与狄利克雷分布

狄利克雷分布是多项式分布的共轭先验概率分布。

多项式分布

假设重复进行 $n$ 次独立随机试验，每次试验可能出现的结果有 $k$ 种，第 $i$ 种结果出现的概率为 $p_i$ ，第 $i$ 种结果出现的次数为 $n_i$ ，随机变量 $X=(X_1,X_2,\ldots,X_k)$ 表示试验所有可能的结果的次数， $X_i$ 表示第 $i$ 种结果出现的次数。那么随机变量X服从多项分布：
$P(X_1=n_1,X_2=n_2,\ldots,X_k = n_k) = \frac{n!}{n_1!n_2!\ldots n_k!} p_1^{n_1} p_2^{n_2}\ldots p_k^{n_k}$
其中 $p=(p_1, p_2,...,p_k)，\sum_{i=1}^k p_i =1, \sum_{i=1}^k n_i =n$ 。我们称变量X服从参数为 $(n,p)$ 的多项式分布，记作： $X \sim Mult(n,p)$ 。

狄利克雷分布

多元连续随机变量 $\theta = (\theta_1,\theta_2,\ldots,\theta_k)$ 的概率密度为：
$P(\theta| \alpha) = \frac{\Gamma(\sum\limits_{i=1}^K\alpha_i)}{\prod_{i=1}^K\Gamma(\alpha_i)}\prod_{i=1}^K\theta_i^{\alpha_i-1}$
其中 $\sum_{i=1}^k \theta_i =1,\theta_i \geq 0, \alpha=(\alpha_1,\alpha_2,\ldots,\alpha_k), \alpha_i \gt 0$ ，且 $\Gamma(s)$ 是伽马函数：
$\Gamma(s) = \int_{0}^\infty x^{s-1}e^{-x}dx \qquad s>0$
则称随机变量 $\theta$ 服从参数为 $\alpha$ 的狄利克雷分布，记作 $\theta \sim Dir(\alpha)$ 。

狄利克雷分布有一些重要性质：（1）狄利克雷分布属于指数分布族；（2）狄利克雷分布是多项分布的共轭先验。

如果后验分布与先验分布属于同类，则二者称为共轭分布，先验分布称为共轭先验。使用共轭分布的好处是便于从先验分布计算后验分布。

由于多项分布的先验分布和后验分布都是狄利克雷分布，所以狄利克雷分布是多项分布的共轭先验；狄利克雷后验分布的参数等于狄利克雷先验分布参数 $\alpha=(\alpha_1,\alpha_2,\ldots,\alpha_k)$ 加上多项分布的观测计数 $n=(n_1,n_2,\ldots,n_k)$ 。

潜在狄利克雷分布模型

文本生成

LDA 模型是概率图模型，特点是以狄利克雷分布为多项式分布的先验分布，学习过程就是给定文本集合，通过后验概率分布的估计，推断模型的所有参数。利用LDA进行话题分析，就是对给定文本集合，学习每个文本的话题分布，以及每个话题的单词分布。文本生成过程如下图所示：

潜在狄利克雷分布（LDA）初探
可以认为LDA是概率潜在语义分析(PLSA)的扩展，在文本生成过程中，LDA使用狄利克雷分布作为先验分布，而PLSA不使用先验分布(或者说假设先验分布是均匀分布)。LDA的优点是：使用先验概率分布，可以防止学习过程中产生的过拟合。

模型定义

LDA使用三个集合：

$V$ 个单词集合 $W=\{w_1,\ldots,w_v,\ldots,w_V\}$
$M$ 个文本的集合 $D=\{\mathbf w_1,\ldots,\mathbf w_m,\ldots, \mathbf w_M \}$ ， $\mathbf w_m$ 是第m个文本的单词，共 $N_m$ 个单词序列 $\mathbf w_m = (w_{m1},\ldots,w_{mn},\ldots,w_{mN_m})$
$K$ 个话题的集合 $Z=\{z_1,\ldots,z_k,\ldots,z_K\}$

给定狄利克雷分布的超参数α和β，LDA文本集合的生成过程如下：

(1) 生成话题的单词分布

随机生成K个话题的单词分布：按照狄利克雷分布 $Dir(\beta)$ 随机生成一个参数向量 $\varphi_k = (\varphi_{k1},\varphi_{k2},\ldots,\varphi_{kV}), \varphi_k \sim Dir(\beta)$ ， $\varphi_{kV}$ 表示话题 $z_k$ 生成单词 $w_v$ 的概率， $\varphi_{k}$ 作为话题 $z_k$ 的单词分布 $P(w|z_k)$ 。

(2) 生成文本的话题分布

随机生成 $M$ 个文本的话题分布：按照狄利克雷分布 $Dir(\alpha)$ 随机生成一个参数向量 $\theta_m = (\theta_{m1},\theta_{m2},\ldots,\theta_{mk}), \theta_m \sim Dir(\alpha)$ ， $\theta_{mk}$ 表示文本 $\mathbf w_m$ 生成话题 $z_k$ 的概率， $\theta_m$ 作为文本 $\mathbf w_m$ 的话题分布 $P(z|\mathbf w_m)$ 。

(3) 生成文本的单词序列

要随机生成 $M$ 个文本的 $N_m$ 个单词，则文本 $\mathbf w_m,(m= 1,2,... ,M)$ 的单词 $w_{mn} (n=1,2,.. ,Nm)$ 的生成过程如下:

(3-1) 首先按照多项分布 $Mult(\theta_m)$ 随机生成一个话题 $z_{mn}$ ， $z_{mn} \sim Mult(\theta_m)$ 。

(3-2) 然后按照多项分布 $Mult(\varphi_{z_{mn}})$ 随机生成一个单词 $w_{mn}, w_{mn} \sim Mult(\varphi_{z_{mn}})$ ，文本 $\mathbf w_m$ 本身是单词序列 $\mathbf w_m = (w_{m1},\ldots,w_{mn},\ldots,w_{mN_m})$ ，对应着隐式的话题序列 $Z=\{z_{m1},z_{m2},\ldots,z_{mN_m}\}$ 。

上述过程对应的概率图模型如下：

潜在狄利克雷分布（LDA）初探

展开后如下图所示：

潜在狄利克雷分布（LDA）初探

LDA 与 PLSA 异同

相同点：两者都假设话题是单词的多项分布，文本是话题的多项分布。

不同点：

在文本生成过程中，LDA使用狄利克雷分布作为先验分布，而PLSA不使用先验分布(或者说假设先验分布是均匀分布。;使用先验概率分布，可以防止学习过程中产生的过拟合。
学习过程LDA基于贝叶斯学习，而PLSA基于极大似然估计。

参考文章：

《统计学习方法第二版》

【转】LDA数学八卦

潜在狄利克雷分布（LDA）初探

文章目录

多项式分布与狄利克雷分布

多项式分布

狄利克雷分布

潜在狄利克雷分布模型

文本生成

模型定义

LDA 与 PLSA 异同

相关推荐