熵(entropy)的定义:
(1)离散熵。 离散型随机变量X,X的熵为H(X)=−x∑P(x)log(P(x))
熵的意义在于衡量了变量的不确定性。熵越大,不确定性越大,包含的信息量越大。太阳从东边出来的可能性为1,从西边为0,此时的熵为1∗log(11)+0∗log(01)=0,此时变量是非常确定的,而且包含的信息量很小。硬币的正反可能性都是0.5,此时熵为0.5∗log(0.51)+0.5∗log(0.51)=1(取log=log2),此时两者的概率相同,不确定性最大。
有如下结论:
- 均匀分布时,熵最大,H(X)=log∣C∣
- 确定分布{0,0,1,...,0}时,熵最小,H(X)=0
(2)微分熵。是从连续型变量的角度来定义,
H(X)=−∫−∞∞p(x)logp(x)dx=−E[logp(x)]
微分熵并不是严格意义上的信息熵,微分熵的值可正可负,值的范围不确定。但是可以通过微分熵的相对大小去映射熵的相对大小。
最大熵
当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的
具有最大熵的概率分布推得。可以认为最大熵模型是在已知情况下,对随机变量X的一种状态的平衡分布,可看作一种自然法则。即假设我们没有对X=0和X=1的先验,根据最大熵模型,会得出P(X=0)=P(X=1)=0.5,这也符合了一种存在的法则。
在已知均值和方差的情况下,采用最大熵模型,可以推出满足条件的高斯分布。说明高斯分布满足了在已知情况下,对未知的情况下进行的最大限度的平衡,符合自然法则。
互信息论
条件熵:给定随机变量A后,X的熵(剩余的不确定性)
H(X∣Y)=y∑p(y)H(X∣Y=y)=−y∑p(y)x∑p(x∣y)logp(x∣y)=−y∑x∑p(x,y)logp(x∣y)
由上式可得,若X和Y独立,则H(X∣Y)=H(X)
联合熵:
H(X,Y)=−y∑x∑p(x,y)logp(x,y)=−y∑x∑p(x,y)logp(x∣y)p(y)=H(X∣Y)+H(Y)=H(Y∣X)+H(X)
若X和Y独立,则p(x,y)=p(x)p(y)⇒H(X,Y)=H(X)+H(Y)
信息增益(Information gain,IG)
给定随机变量A后,X所增加的不确定性
IG(X∣A)=H(X)−H(X∣A)=H(X)−a=1∑∣A∣P(A=a)H(X∣A=a)

信息增益性质:
IG(A∣X)=IG(X∣A)
IG(X∣X)=H(X)
IG(X∣A)=H(X)+H(A)−H(X,A)