深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

大家好,继续理论学习,在我当年的一篇讲softmax和LR回归的博客里

就是这篇博客!

还有这篇!

在里面只是简单地讲了交叉熵的公式,但是为什么深度学习当时要取最小的交叉熵来优化参数,其实我没太明白,今天搞明白了,来记录一下。

1.信息量

信息量的大小可以衡量事件的不确定性或发生的惊讶程度。一个事件发生的概率越小则其所含的信息量越大。设事件发生的概率为P(x),则其信息量表示为:

深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

2.信息熵

对于一个随机变量x而言,它的所有可能取值的信息量的期望就称为信息熵,知道是期望我们就可以写出下列表达式:

深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

3.交叉熵

现在有样本集的两种概率分布p和q,其中p是样本的真实分布,q为非真实分布(在深度学习中可以看做是预测分布),如果我们要用非真实分布q来预测样本(对应于得到训练完的样本来进行测试),则是基于分布q的信息量的期望,由于样本来自于分布p,因此期望与真实分布一致,所以基于q的样本预测公式为:

深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

上式即是交叉熵的表达式。

4.相对熵

将用非真实分布q预测样本与用真实分布p预测样本的差值成为相对熵,又称为KL散度。

深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

5.上述概念在机器学习中的应用

机器学习的目的就是使q(x)更加接近p(x),因此我们自然而然想到就是要求相对熵的最小值。而相对熵公式中的后一项由于p(x)的分布是确定的,因此可以说是常数,这样就变成了我们熟悉的,要求交叉熵的最小值,也即求最大似然估计。

深度学习理论——信息量,信息熵,交叉熵,相对熵及其在机器学习中的应用

感觉把之前零散学习的知识点串起来了,感觉很有收获,希望也能帮到大家,我们下期见!