《统计自然语言处理》学习笔记
概率论
-
最大似然估计:用相对频率作为概率的估计值,这种估计概率值的方法称为最大似然估计
-
贝叶斯法则:条件概率计算的依据
-
二项分布:n重伯努利试验,试验只有两种结果,且每次试验相互独立。
信息论
-
熵:entropy,自信息,描述一个随机变量的不确定性。熵越大,不确定性越大。
-
联合熵:X和Y是离散随机变量,则X和Y的联合熵为
其中logP(x,y)为联合概率,利用条件概率展开后,可得
,称为熵的连锁规则 -
互信息:反应了在知道Y值以后,X不确定性的减少量,可以理解为Y值透露了多少X的信息量。计算公式
I(X,Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)
-
相对熵:又称KL散度,衡量相同空间里,两个概率分布之间差距。当两个随机分布完全相同时,相对熵为0
-
交叉熵:衡量估计模型和真实概率分布之间差异。
-
困惑度:设计语言模型时,通常用困惑度来代替交叉熵,衡量语言模型的好坏