第二周笔记

熵函数

X的熵与其不确定性有关，不确定性越大，熵越大

文本挖掘与分析课程笔记_Week2

熵应用于词的预测

熵越高的词，越难预测

文本挖掘与分析课程笔记_Week2

条件熵

某个词在另一个词出现（或不出现）的前提下的熵
通过调整熵函数中相应条件的概率，即可得到条件熵

文本挖掘与分析课程笔记_Week2

用条件熵寻找组合关系

对某个词在不同前提词下的条件熵进行比较

文本挖掘与分析课程笔记_Week2

用“互信息”来寻找组合关系

互信息具有非负性
对称性
当X和Y是相互独立时，它们互信息为0（两个词关联性越强，互信息越大）

文本挖掘与分析课程笔记_Week2

用KL-divergence重写互信息（引入概率）

分子：实际观察到的两个随机变量的联合分布
分母：理想的两个随机变量的联合分布（相互独立）
缺点：不出现的词概率为0（有些情况下不合理）【引入下面平滑概念】

文本挖掘与分析课程笔记_Week2

Smoothing 平滑

增加了虚拟段（使得不出现的词也不会概率为0）

文本挖掘与分析课程笔记_Week2

主题挖掘与分析的定义

原始数据可以不止文本，可加入其它许多非文本信息
在收集到的系列文本中找k个主题
找出哪篇文章在多大程度上涵盖了哪个主题
对一些比较具体的问题，可以采用更有针对性的处理

文本挖掘与分析课程笔记_Week2

从系列文本中挖掘k个主题

防止取得的主题是一些频繁词：TF-IDF
防止取得的主题（术语）太相似：Greedy algorithm 贪心算法

文本挖掘与分析课程笔记_Week2

词对文本涵盖的计算

文本挖掘与分析课程笔记_Week2

用单个词做主题可能产生的问题

单个词做为主题表现力不够
词汇涵盖的不完整性（如关联词）
单个词脱离上下文（语境）后会有多义（模糊）

文本挖掘与分析课程笔记_Week2

提升方法：用词分布来表示主题

可以用更多词来表示主题
可加入权重进行调节（区分词的重要程度）
单个词可以通过其同组词来判断其具体意思

文本挖掘与分析课程笔记_Week2

输入：C，k，V ； C为文本的集合，k是主题数，V是词汇表
输出：词分布，主题在文档中的覆盖

文本挖掘与分析课程笔记_Week2

文本挖掘的生成模型

基于数据来推算参数
需要先建立模型，模型不同，结果（参数）也不同

文本挖掘与分析课程笔记_Week2

最简单的语言模型：一元语言模型

并不适用某些问题，像关心单词顺序的

文本挖掘与分析课程笔记_Week2

对一元语言模型（Unigram LM）的估计

极大似然估计：能赋予我们的被观察数据最大概率
极大似然估计不一定是最优估计

文本挖掘与分析课程笔记_Week2

极大似然估计 vs. 贝叶斯

用极大似然估计的话，数据太小时会有问题（未出现的词概率就为0）
贝叶斯加入了先验知识，使得任何词的概率不会为0

文本挖掘与分析课程笔记_Week2

语言模型的建立

Wi表示某个词，共有M个，θi表示该词的概率
可用拉格朗日乘数法解函数

文本挖掘与分析课程笔记_Week2

课后测验

文本挖掘与分析课程笔记_Week2

文本挖掘与分析课程笔记_Week2

第二周笔记

熵函数

熵应用于词的预测

条件熵

用条件熵寻找组合关系

用“互信息”来寻找组合关系

用KL-divergence重写互信息（引入概率）

Smoothing 平滑

主题挖掘与分析的定义

从系列文本中挖掘k个主题

词对文本涵盖的计算

用单个词做主题可能产生的问题

提升方法：用词分布来表示主题

文本挖掘的生成模型

最简单的语言模型：一元语言模型

对一元语言模型（Unigram LM）的估计

极大似然估计 vs. 贝叶斯

语言模型的建立

课后测验

相关推荐