概率分布差异的度量方式

参考链接:https://zhuanlan.zhihu.com/p/58506295?utm_source=ZHShareTargetIDMore

常见的有很多衡量概率分布差异的度量方式,比如total variation(TRPO推导里面有用到),还有经常被用到的KL散度。相比于这些度量方式,Wasserstein距离有如下一些好处。

能够很自然地度量离散分布和连续分布之间的距离;
不仅给出了距离的度量,而且给出如何把一个分布变换为另一分布的方案;
能够连续地把一个分布变换为另一个分布,在此同时,能够保持分布自身的几何形态特征;

KL散度不是距离度量,它不满足对称性。
概率分布差异的度量方式

概率分布差异的度量方式
基于Wasserstein距离可以找出Wasserstein平均(Wasserstein barycenter),相比于欧式平均(Eulidean average)来说,它更能够描述其形态特征,如图2所示。
概率分布差异的度量方式
概率分布差异的度量方式
Wasserstein距离的起源是optimal transport problem,把概率分布想象成一堆石子,如何移动一堆石子,通过最小的累积移动距离把它堆成另外一个目标形状,这就是optimal transport所关心的问题。

首先,要能完成这个操作,先要确保本来的这一堆石子的总质量要和目标石子堆总质量一样;考虑到概率分布的归一化条件,这一点是自然被满足的。

其次,我们暂时假设石子都是很小的,无限可分的;毕竟如果一个大石块要求堆成两座山仅仅通过移动肯定没法做到。(后面会有另外的定义方式来把大石块“劈开”)