信息论基础

 熵

1) 定义


信息论基础

        熵又可以称为自信息,可以视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不缺定性越大,那么正确估计其值的可能性就越小,越不确定的随机变量越需要大的信息量用以确定其值。

2)联合熵

信息论基础

3)条件熵

信息论基础

4) 互信息(用于断词)

         根据熵的连锁规则,有

信息论基础

 因此,

信息论基础

       这个差叫做X和Y的互信息,记作I(X;Y),其反应的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。

       互信息越大,说明两汉字关联度强。

5) 相对熵

信息论基础

6) 交叉熵

信息论基础

7) 困惑度

信息论基础