潜在狄利克雷分布(Latent Dirichlet Allocation, LDA),是一种无监督学习算法,用于识别文档集中潜在的主题词信息。在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量 k 即可。对于每一个主题均可找出一些词语来描述它。
LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
多项式分布与狄利克雷分布
狄利克雷分布是多项式分布的共轭先验概率分布。
多项式分布
假设重复进行n次独立随机试验,每次试验可能出现的结果有k种,第i种结果出现的概率为pi,第i种结果出现的次数为ni,随机变量X=(X1,X2,…,Xk) 表示试验所有可能的结果的次数,Xi表示第i种结果出现的次数。那么随机变量X服从多项分布:
P(X1=n1,X2=n2,…,Xk=nk)=n1!n2!…nk!n!p1n1p2n2…pknk
其中p=(p1,p2,...,pk),∑i=1kpi=1,∑i=1kni=n 。我们称变量X服从参数为(n,p)的多项式分布,记作:X∼Mult(n,p)。
狄利克雷分布
多元连续随机变量θ=(θ1,θ2,…,θk)的概率密度为:
P(θ∣α)=∏i=1KΓ(αi)Γ(i=1∑Kαi)i=1∏Kθiαi−1
其中∑i=1kθi=1,θi≥0,α=(α1,α2,…,αk),αi>0,且Γ(s)是伽马函数:
Γ(s)=∫0∞xs−1e−xdxs>0
则称随机变量θ 服从参数为α的狄利克雷分布,记作θ∼Dir(α)。
狄利克雷分布有一些重要性质:(1)狄利克雷分布属于指数分布族;(2)狄利克雷分布是多项分布的共轭先验。
如果后验分布与先验分布属于同类,则二者称为共轭分布,先验分布称为共轭先验。使用共轭分布的好处是便于从先验分布计算后验分布。
由于多项分布的先验分布和后验分布都是狄利克雷分布,所以狄利克雷分布是多项分布的共轭先验;狄利克雷后验分布的参数等于狄利克雷先验分布参数α=(α1,α2,…,αk) 加上多项分布的观测计数n=(n1,n2,…,nk)。
潜在狄利克雷分布模型
文本生成
LDA 模型是概率图模型,特点是以狄利克雷分布为多项式分布的先验分布,学习过程就是给定文本集合,通过后验概率分布的估计,推断模型的所有参数。利用LDA进行话题分析,就是对给定文本集合,学习每个文本的话题分布,以及每个话题的单词分布。文本生成过程如下图所示:

可以认为LDA是概率潜在语义分析(PLSA)的扩展,在文本生成过程中,LDA使用狄利克雷分布作为先验分布,而PLSA不使用先验分布(或者说假设先验分布是均匀分布)。LDA的优点是:使用先验概率分布,可以防止学习过程中产生的过拟合 。
模型定义
LDA使用三个集合:
-
V个单词集合W={w1,…,wv,…,wV}
-
M个文本的集合D={w1,…,wm,…,wM},wm 是第m个文本的单词,共Nm个单词序列wm=(wm1,…,wmn,…,wmNm)
-
K个话题的集合Z={z1,…,zk,…,zK}
给定狄利克雷分布的超参数α和β,LDA文本集合的生成过程如下:
(1) 生成话题的单词分布
随机生成K个话题的单词分布:按照狄利克雷分布Dir(β) 随机生成一个参数向量φk=(φk1,φk2,…,φkV),φk∼Dir(β),φkV表示话题zk 生成单词wv的概率,φk作为话题zk的单词分布P(w∣zk)。
(2) 生成文本的话题分布
随机生成M个文本的话题分布:按照狄利克雷分布Dir(α) 随机生成一个参数向量θm=(θm1,θm2,…,θmk),θm∼Dir(α),θmk表示文本 wm 生成话题zk的概率,θm作为文本wm的话题分布P(z∣wm)。
(3) 生成文本的单词序列
要随机生成M个文本的Nm个单词,则文本 wm,(m=1,2,...,M) 的单词wmn(n=1,2,..,Nm)的生成过程如下:
(3-1) 首先按照多项分布Mult(θm)随机生成一个话题zmn,zmn∼Mult(θm)。
(3-2) 然后按照多项分布Mult(φzmn)随机生成一个单词wmn,wmn∼Mult(φzmn),文本wm本身是单词序列wm=(wm1,…,wmn,…,wmNm),对应着隐式的话题序列Z={zm1,zm2,…,zmNm}。
上述过程对应的概率图模型如下:

展开后如下图所示:

LDA 与 PLSA 异同
相同点:两者都假设话题是单词的多项分布,文本是话题的多项分布。
不同点:
-
在文本生成过程中,LDA使用狄利克雷分布作为先验分布,而PLSA不使用先验分布(或者说假设先验分布是均匀分布。;使用先验概率分布,可以防止学习过程中产生的过拟合 。
-
学习过程LDA基于贝叶斯学习,而PLSA基于极大似然估计。
参考文章:
《统计学习方法 第二版》
【转】LDA数学八卦