信息论基础
熵
1) 定义
熵又可以称为自信息,可以视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不缺定性越大,那么正确估计其值的可能性就越小,越不确定的随机变量越需要大的信息量用以确定其值。
2)联合熵
3)条件熵
4) 互信息(用于断词)
根据熵的连锁规则,有
因此,
这个差叫做X和Y的互信息,记作I(X;Y),其反应的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。
互信息越大,说明两汉字关联度强。
熵又可以称为自信息,可以视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大,它的不缺定性越大,那么正确估计其值的可能性就越小,越不确定的随机变量越需要大的信息量用以确定其值。
2)联合熵
根据熵的连锁规则,有
因此,
这个差叫做X和Y的互信息,记作I(X;Y),其反应的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。
互信息越大,说明两汉字关联度强。