文本挖掘与分析课程笔记_Week2
分类:
文章
•
2024-01-16 09:05:22
第二周笔记
熵函数

熵应用于词的预测

条件熵
- 某个词在另一个词出现(或不出现)的前提下的熵
- 通过调整熵函数中相应条件的概率,即可得到条件熵


用条件熵寻找组合关系

用“互信息”来寻找组合关系
- 互信息具有非负性
- 对称性
- 当X和Y是相互独立时,它们互信息为0(两个词关联性越强,互信息越大)


用KL-divergence重写互信息(引入概率)
- 分子:实际观察到的两个随机变量的联合分布
- 分母:理想的两个随机变量的联合分布(相互独立)
- 缺点:不出现的词概率为0(有些情况下不合理)【引入下面平滑概念】

Smoothing 平滑

主题挖掘与分析的定义
- 原始数据可以不止文本,可加入其它许多非文本信息
- 在收集到的系列文本中找k个主题
- 找出哪篇文章在多大程度上涵盖了哪个主题
- 对一些比较具体的问题,可以采用更有针对性的处理

从系列文本中挖掘k个主题
- 防止取得的主题是一些频繁词:TF-IDF
- 防止取得的主题(术语)太相似:Greedy algorithm 贪心算法

词对文本涵盖的计算

用单个词做主题可能产生的问题
- 单个词做为主题表现力不够
- 词汇涵盖的不完整性(如关联词)
- 单个词脱离上下文(语境)后会有多义(模糊)

提升方法:用词分布来表示主题
- 可以用更多词来表示主题
- 可加入权重进行调节(区分词的重要程度)
- 单个词可以通过其同组词来判断其具体意思

- 输入:C,k,V ; C为文本的集合,k是主题数,V是词汇表
- 输出:词分布,主题在文档中的覆盖

文本挖掘的生成模型
- 基于数据来推算参数
- 需要先建立模型,模型不同,结果(参数)也不同

最简单的语言模型:一元语言模型

对一元语言模型(Unigram LM)的估计
- 极大似然估计:能赋予我们的被观察数据最大概率
- 极大似然估计不一定是最优估计

极大似然估计 vs. 贝叶斯
- 用极大似然估计的话,数据太小时会有问题(未出现的词概率就为0)
- 贝叶斯加入了先验知识,使得任何词的概率不会为0


语言模型的建立
- Wi表示某个词,共有M个,θi表示该词的概率
- 可用拉格朗日乘数法解函数

课后测验
