chap3-线性模型

目录

 


关于交叉熵在loss函数中使用的理解

1.先谈谈信息量

chap3-线性模型
由于是概率所以p(x0)p(x0)的取值范围是[0,1][0,1],绘制为图形如下:
chap3-线性模型
2.熵就是信息量的期望。

chap3-线性模型

3 相对熵(KL散度)

相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x),我们可以使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。在机器学习中,P往往用来表示样本的真实分布,比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布,比如[0.7,0.2,0.1]。

KL散度的计算公式:

chap3-线性模型

4 交叉熵

chap3-线性模型

在机器学习中,我们需要评估label和predicts之间的差距,使用KL散度刚刚好,即DKL(y||y^)DKL(y||y^),由于KL散度中的前一部分-H(y)不变,故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss,评估模型。