公式

1. 计算词境相似度
假如d1表示cat,d2表示dog,x1,x2,…,xn分别表示句子中单词正则化后出现的概率。
公式
2. TF-IDF加权
TF: 词频
IDF:反文档频率公式
包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
TF-IDF的计算: TF*IDF
3. 熵函数 条件熵函数
公式

公式
eg.
公式
4. 互信息 公式
互信息的计算:KL发散
公式
5. 极大似然估计
对事件发生的次数归一化 公式
公式
当count(w1)为0时,我们又不希望概率为0,此时就需要对其作平滑化处理,即计数时加上一个很小的常量。
公式
6. 贝叶斯
公式公式
7. 概率主题模型:一元语言模型 似然函数
公式
8. 概率主题模型:二元语言模型 似然函数
公式
9. 概率主题模型:混合模型估计 似然函数
假设选择这背景模型 主题模型的概率是一样的,即都为0.5,再假设这个文档中只有the和text两个词,且其在背景中概率分别为0.9和0.1,然后求出text和the的概率,似然函数就是两个概率的乘积。
公式
10. 概率主题模型:EM算法
假设用z=0表示词来自主题分布,z=1表示背景分布
公式
11. 概率主题模型:PLSA
公式
公式
12. EM应用于PLSA
公式
公式
13. PLSA与LDA似然函数对比
公式
PLSA的最大似然估计
公式
14. 主题模型与聚类
公式
15. 混合模型聚类
公式
16. EM算法应用于聚类
公式
17. 文本分类:生成分类器——朴素贝叶斯
更常使用下面这一行对数形式,因为对数便于保留精度
公式
P.S.因为p(d)是一个常数,所以p(theta|d)就可以直接等同于分子 公式
以上式子中p(theta) p(w|theta)的求法:
公式
当数据集过小的话,在利用极大似然估计求概率时会出现概率为0的情况,但这是不准确的,为了避免这种情况我们应该作平滑化处理,即分子分母都加上平滑因子
公式
得分函数
公式
18. 判别分类器——二元逻辑回归
公式
公式
19. 分类正确率
公式
20. 精确率 查全率 F1值
公式
公式
21. 多层次等级与二元逻辑回归:引入多个二元类文件
公式
22. 有序逻辑回归
公式