Wasserstein GAN论文的定理证明
证明如下:
其中当测度趋于0时,EM距离下的概率分布趋于P0,而其他距离则不会收敛,且EM距离下损失函数是连续的,任意一点处均有梯度;
定理1证明如下:
以下推论告诉我们:用神经网络来最小化EM距离(至少理论上)可行
推论1证明如下:
所有这些说明:对我们的问题,至少与JS散度相比,EM距离作损失函数更合理。
接下来的定理描述这些距离和散度引入拓扑的相对强度:KL最强,紧随JS和TV,EM最弱;
推论2:令P为紧空间X上的分布,且为X上的分布序列,则n→0时,考虑所有的限制:
推论2证明如下:
这里强调的是:学习低维流形支撑的分布时,KL,JS和TV距离为不合理的损失函数,但此时EM距离却合理,这是因为:
(1)EM距离可使概率序列收敛至真实数据的概率分布,其它距离不可收敛;
(2)EM距离的损失函数连续,可用梯度下降学习低维流形上的概率分布;其它距离的损失函数不连续;
(3)EM距离引入的拓扑相对强度最弱;
由推论2可知W距离比JS距离有更好的属性,只是W距离原始定义式中的下确界较难确定;因此可将W距离转化为如下公式:
证明如下:
证明如下: