衡量两个概率分布之间的差异性的指标

衡量两个概率分布之间的差异性的指标

总结一下衡量两个概率分布之间的差异性的指标,这里只是简单涉及到了KL散度、JS散度、交叉熵和Wasserstein距离

KL散度(Kullback–Leibler divergence)

KL散度又称为相对熵,信息散度,信息增益。
定义:KL散度是是两个概率分布 ???? 和 ???? 之间差别的非对称性的度量,KL散度是用来度量使用基于 ???? 的编码来编码来自 ???? 的样本平均所需的额外的位元数。 典型情况下,???? 表示数据的真实分布,???? 表示数据的理论分布,模型分布,或 ???? 的近似分布。
定义式:
衡量两个概率分布之间的差异性的指标
因为对数函数是凸函数,所以KL散度的值为非负数。

注意
衡量两个概率分布之间的差异性的指标

JS散度(Jensen-Shannon divergence)

定义:JS散度度量两个概率分布的相似度,基于KL散度的变体,解决了KL散度非对称的问题。一般地,JS散度是对称的,其取值是 0 到 1 之间。定义如下:
衡量两个概率分布之间的差异性的指标
注意
KL散度和JS散度度量的时候有一个问题:
如果两个分配 ????,???? 离得很远,完全没有重叠的时候,那么KL散度值是没有意义的,而JS散度值是一个常数。这在学习算法中是比较致命的,这就意味这这一点的梯度为 0。梯度消失了。

交叉熵(Cross Entropy)

定义:在神经网络中,交叉熵可以作为损失函数,因为它可以衡量P和Q的相似性。
衡量两个概率分布之间的差异性的指标
交叉熵和相对熵的关系:
衡量两个概率分布之间的差异性的指标

Wasserstein距离

定义
参考WGAN,真实数据与生成数据的概率分部距离
衡量两个概率分布之间的差异性的指标