公式
1. 计算词境相似度
假如d1表示cat,d2表示dog,x1,x2,…,xn分别表示句子中单词正则化后出现的概率。
2. TF-IDF加权
TF: 词频
IDF:反文档频率
包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
TF-IDF的计算: TF*IDF
3. 熵函数 条件熵函数
eg.
4. 互信息
互信息的计算:KL发散
5. 极大似然估计
对事件发生的次数归一化
当count(w1)为0时,我们又不希望概率为0,此时就需要对其作平滑化处理,即计数时加上一个很小的常量。
6. 贝叶斯
7. 概率主题模型:一元语言模型 似然函数
8. 概率主题模型:二元语言模型 似然函数
9. 概率主题模型:混合模型估计 似然函数
假设选择这背景模型 主题模型的概率是一样的,即都为0.5,再假设这个文档中只有the和text两个词,且其在背景中概率分别为0.9和0.1,然后求出text和the的概率,似然函数就是两个概率的乘积。
10. 概率主题模型:EM算法
假设用z=0表示词来自主题分布,z=1表示背景分布
11. 概率主题模型:PLSA
12. EM应用于PLSA
13. PLSA与LDA似然函数对比
PLSA的最大似然估计
14. 主题模型与聚类
15. 混合模型聚类
16. EM算法应用于聚类
17. 文本分类:生成分类器——朴素贝叶斯
更常使用下面这一行对数形式,因为对数便于保留精度
P.S.因为p(d)是一个常数,所以p(theta|d)就可以直接等同于分子
以上式子中p(theta) p(w|theta)的求法:
当数据集过小的话,在利用极大似然估计求概率时会出现概率为0的情况,但这是不准确的,为了避免这种情况我们应该作平滑化处理,即分子分母都加上平滑因子
得分函数
18. 判别分类器——二元逻辑回归
19. 分类正确率
20. 精确率 查全率 F1值
21. 多层次等级与二元逻辑回归:引入多个二元类文件
22. 有序逻辑回归