主题模型LDA-ML之七
LDA 主题模型
LDA的应用方向
- 信息提取和搜索
- 文档分类/聚类、文章摘要、社区挖掘
- 基于内容的图像聚类、目标识别
- 生物信息数据的应用
基础函数
LDA基本函数
LDA涉及的问题
- 共轭先验分布
- Dirichlet分布
- LDA模型:Gibbs采样算法学习参数
共轭先验分布
在贝叶斯概率理论中,如果后验概率p(θ|x)和后验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时先验分布叫做似然函数的共轭先验分布。
LDA的解释
- 共有m篇文章,一共涉及了K个主题;
- 每篇文章(长度为Nm)都有各自的主题分布,主题分布式多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为α;
- 每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为β;
- 对于某篇文章的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程,直到m篇文章全部完成上述过程。
LDA总结
- 由于在词和文档之间加入的主题的概念,可以较好的解决一词多义和多词一义的问题;
- 在实践中发现,LDA用于短文本往往效果不明显–这是可以解释的,因为一个词被分配给某个主题的次数和一个主题包括的词的数目尚未收敛,往往需要其他方案连接成长文档;
- LDA可以和其他算法相结合,首先使用LDA将长度为Ni的文档降维到K维,同时给出每个主题的概率,从而可以使用IF-IDF继续分析或者直接作为文档的特征进入聚类或者标签传递算法-用于社区发现等问题。