公式 - 源码之家

1. 计算词境相似度
假如d1表示cat,d2表示dog,x1,x2,…,xn分别表示句子中单词正则化后出现的概率。

2. TF-IDF加权
TF: 词频
IDF:反文档频率
包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。
TF-IDF的计算: TF*IDF
3. 熵函数 条件熵函数

eg.

4. 互信息
互信息的计算：KL发散

5. 极大似然估计
对事件发生的次数归一化

当count(w1）为0时，我们又不希望概率为0，此时就需要对其作平滑化处理，即计数时加上一个很小的常量。

6. 贝叶斯

7. 概率主题模型：一元语言模型似然函数

8. 概率主题模型：二元语言模型似然函数

9. 概率主题模型：混合模型估计似然函数
假设选择这背景模型主题模型的概率是一样的，即都为0.5，再假设这个文档中只有the和text两个词，且其在背景中概率分别为0.9和0.1，然后求出text和the的概率，似然函数就是两个概率的乘积。

10. 概率主题模型：EM算法
假设用z=0表示词来自主题分布，z=1表示背景分布

11. 概率主题模型：PLSA

12. EM应用于PLSA

13. PLSA与LDA似然函数对比

PLSA的最大似然估计

14. 主题模型与聚类

15. 混合模型聚类

16. EM算法应用于聚类

17. 文本分类：生成分类器——朴素贝叶斯
更常使用下面这一行对数形式，因为对数便于保留精度

P.S.因为p(d)是一个常数，所以p(theta|d)就可以直接等同于分子
以上式子中p(theta) p(w|theta)的求法：

当数据集过小的话，在利用极大似然估计求概率时会出现概率为0的情况，但这是不准确的，为了避免这种情况我们应该作平滑化处理，即分子分母都加上平滑因子

得分函数

18. 判别分类器——二元逻辑回归

19. 分类正确率

20. 精确率查全率 F1值

21. 多层次等级与二元逻辑回归：引入多个二元类文件

22. 有序逻辑回归

公式

相关推荐