《统计自然语言处理》学习笔记

概率论

  1. 最大似然估计:用相对频率作为概率的估计值,这种估计概率值的方法称为最大似然估计

  2. 贝叶斯法则:条件概率计算的依据 《统计自然语言处理》学习笔记

  3. 二项分布:n重伯努利试验,试验只有两种结果,且每次试验相互独立。

《统计自然语言处理》学习笔记

信息论

  1. 熵:entropy,自信息,描述一个随机变量的不确定性。熵越大,不确定性越大。

    《统计自然语言处理》学习笔记

  2. 联合熵:X和Y是离散随机变量,则X和Y的联合熵为

    《统计自然语言处理》学习笔记
    其中logP(x,y)为联合概率,利用条件概率展开后,可得
    《统计自然语言处理》学习笔记

    ,称为熵的连锁规则

  3. 互信息:反应了在知道Y值以后,X不确定性的减少量,可以理解为Y值透露了多少X的信息量。计算公式

    I(X,Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)

    《统计自然语言处理》学习笔记

  4. 相对熵:又称KL散度,衡量相同空间里,两个概率分布之间差距。当两个随机分布完全相同时,相对熵为0

    《统计自然语言处理》学习笔记

  5. 交叉熵:衡量估计模型和真实概率分布之间差异。

    《统计自然语言处理》学习笔记

  6. 困惑度:设计语言模型时,通常用困惑度来代替交叉熵,衡量语言模型的好坏