probability and statistic(5) 信息量、交叉熵、香农熵、KL散度

信息量、交叉熵、香农熵、KL散度

1.信息量

信息量来衡量一个事件的不确定性,一个事件发生的概率越大,不确定性越小,则其携带的信息量就越小。

公式: I ( x ) = − l o g 2 p ( x ) I(x) = -log_2p(x) I(x)=log2p(x)
举个简单的例子:
事件一:巴西队和西班牙队进行足球比赛,赛前预测巴西队获胜的概率是50%
事件二:巴西队和洛杉矶湖人队进行足球比赛,赛前预测巴西队获胜概率99%

这样我们通过信息量的计算公式得到事件二的信息量明显小于事件一,也就是事件一的不确定性很大,事件二的不确定性很小,即这场比赛没什么大的悬念

2.香农熵

香农熵主要描述的是一个系统的混乱程度,代表系统中信息量的总和,如果熵越大,代表这个系统越混乱,即不确定性就越大
公式: H ( p ) = − ∑ x p ( x ) l o g 2 p ( x ) H(p) = -\sum_x p(x)log_2p(x) H(p)=xp(x)log2p(x)

2.交叉熵

交叉熵是用来度量两个概率分布的差异程度,通常用于机器学习中分类任务作为损失函数
公式为 H ( p , q ) = − ∑ p i l o g ( q i ) H(p,q)=-\sum p_ilog(q_i) H(p,q)=pilog(qi)
p代表真实事件的概率,q代表预测概率

3.KL散度

KL散度(相对熵)其实也是用来描述两个概率分布的差异程度
他的表达形式为: D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) D(p||q) = \sum_{x\in X}p(x)log\frac{p(x)}{q(x)} D(pq)=xXp(x)logq(x)p(x)
他也是交叉熵和原始数据熵的差 D ( p ∣ ∣ q ) = H ( p , q ) − H ( p ) D(p||q) = H(p,q) - H(p) D(pq)=H(p,q)H(p)
注意: D ( p ∣ ∣ q ) ! = D ( q ∣ ∣ p ) D(p||q) != D(q||p) D(pq)!=D(qp)
值越大表示越不相似

举个例子:
probability and statistic(5) 信息量、交叉熵、香农熵、KL散度
交叉熵和KL散度关系
由这两者的表达式可以很清晰的看出两者之间的联系.下面从实际应用的角度来说明一下两者的使用场景的差异(机器学习):
在机器学习的模型优化策略损失函数的选择时,可以使用cross entropy,在这种情况下p是数据的经验分布,因此p是不变的constant;在这种情况下,KL散度中的p是不变的,因此后面的-H§的常量,因此,优化这两个目标是等价的. 但是如果p是变化的,那么这两者显然就不一样了.因此在未知p的情况下,想要让q去近似p,可以使用KL度量两个分布之间的距离.作为优化目标.