BAAI 2020 北京智源大会 | 孙若愚 | Towards Better Global Landscape of GAN
Towards Better Global Landscape of GAN: How Two Lines of Code Change Makes a Difference
回放地址
报告内容
概述
本次Talk是BAAI 2020 北京智源大会 人工智能的数理基础论坛的一场报告,sun在本次报告中介绍了自己最近的工作,可以总结为
1,在function space和parameter space从理论角度分析了GAN的经验版本(empirical version);
2,指出JS-GAN有bad basin,而RS-GAN没有bad basin;
3,进行了simulation,得出RS-GAN在某些方面比JS-GAN性能上要更好一些;
Introduction
sun首先介绍了研究的动机,有两点。
1,Hard to tune ; 即不容易调试,传统的GAN可能需要花费很长的时间进行调试才能达到满意的效果;
2,Huge:BigGAN requires 8 V100,15 days; 即计算资源,资金和时间上的开销巨大;
引用sun的话,GAN training is extremly hard.
本次talk中有什么?
- 对于GAN的研究者:
- 对GAN的全球动态更加了解
- 提倡R-GAN
- 对于一般的听众
- 了解GAN是怎么工作的
- 对于数学专业的
- 了解平衡分析(equilibrium analysis)的强大
工作的Contributions
分析了empirical loss of GANs(with neural-nets)的global landscape
-
Theory - 理论上
- JS-GAN有指数个bad basin,每一个都是mode-collapse的
- Relativistic GANs(R-GAN) 没有bad-basin
-
Experiments - 实验上
- R-GAN已经被在实践中使用了:仅需要修改两行代码
- 确认有"better landscape" : narrower nets ; more robust to initial point;
Part Ⅰ Review of GAN and Literature
GAN的目标就是生成data,GAN试图找到和true distribution相近的data分布。比如当你想临摹衣服梵高的画像时,你怎么才能判断你画的像不像呢?此时,你需要一个裁判(critic)来告诉你你的临摹和原作的差距(gap)是多大。
所以目标函数(object function) 是生成的分布 和真正的分布之间的一个函数,其中Φ的定义如下
D可以被看做是critic,这就是min-max optimization。这里有一个sanity check,当我们生成的分布和真实的分布一样时,的Loss将会是最小的,这里面涉及到一系列的数学主题,有min-max optimization , game theory(博弈论),probability(概率轮)。本次talk会从min-max optimization这个角度来看。
然后我们来看一下相关的理论研究,可以分为两个部分,分别是Statistical analysis(统计分析)和Optimization analysis(优化分析)。
Now to explain the Gap in the existing Theory ,GAN theory is complicated in the sense that you have to do it in the multi steps,你必须从pdf space 到generator function space ,and then go to parameter space ,人们在实践中用的是parameter space optimization,但是原始的good fellow paper是在pdf space进行的理论分析。
从优化理论的角度看来有很多问题,…,要想在一篇paper中回答所有的问题含有难度,在这个talk中我们将把注意力集中到第一个问题和第二个问题,尤其是第二个问题。
本次talk我们将突出讲在G function space analysis和 Local-min analysis ,但是理解了它以后,你可以很容易使用neural network来理解parameter space中的问题。
在Goodfellow的paper中,在中是凸的。Goodfellow证明的本质是
any linear functional of the probability density is convex
译:概率密度的任何线性函数都是凸的
即,对于任意的函数f,在中是凸的。不论f是怎样奇怪的形式,它在中总是凸的。从一个角度来看,这样意味着optimization也会变得很简单。但是从另一个角度来看,pdf space并没有利用GANs的结构,因为任何形式的函数都是凸的,所以这看起来缺少了一些东西。
Part Ⅱ Analysis of JS-GAN and RS-GAN
Mode Collapse:考虑生成两个点,红色的线D是identifier或是critic,刚开始时D能够成功的划分Y和X,后来随着你的技术越来越精湛,生成的点与X越来越接近,越过了D;随后D向右移动,再次成功的对Y和X进行了分类;再之后Y继续向右移动,跨过了D。这样重复了多次后,生成的点会持续落在同一个地方,因为critic不能再提供更多的反馈。
但是之前的工作来看这个现象还没有一个严谨的数学定理。
解决这个问题的办法是使用个性化标准(personalized criteria)。类比到学校中是给排名不同的学生规定不同的毕业标准,来最大化他们的潜力。
下面来定义h-GAN和R-h-GAN 。
h-GAN是一个非正式的名字,它的意思是它有一个确定的h函数,并且Loss函数是True Data和False Data的可分离的组合。
在R-GAN中,我们需要一对和,我们把和放到同一个h函数中。
在这里我们可以使用和JS-GAN同一个h函数,这叫做RS-GAN(Relativistic Stanard GAN),当然你还可以使用其它的h函数,比如hinge loss或者least-square loss,不过在这里我们会拿RS-GAN举例,它很容易解释。
我们在W-GAN中得到了一些启发。W-GAN和JS-GAN在两方面不同:
- 将logistic regression loss变成linear
- 将X和Y看成一对来考虑(Couple X and Y)。是R-h-GAN的一种特殊情况。
我们假设是coupling提升了landscapes,并且是至关重要的。
而第一个不同并没有起到太大的作用。
我们将W-GAN从linear恢复成logistic regression loss,并保持coupled,它比原来的W-GAN工作的要更好一些。
这就是RS-GAN
Part Ⅲ Landscape Analysis:Formal Results
我们经过实验经过计算得出结论:
The mode collapse is a strict local-min for JS-GAN;but RS-GAN has no strict local-min;
Non-basin V.S. basin
Non-basin可以类比成一条河流,沿着这条河流你可以顺流而下。
basin 可以比作是天池,四面环山,你很有可能会被困在里面。
接着证明了h-GAN(比如JS-GAN)有bad-basin,R-GAN没有basin。
我们可以把这一结果推广到Parameter Space
我不想讲太多的数学证明细节,意识到这一点可能比证明更重要。
Part Ⅳ Explaining Two-Cluster(聚类) Experiments
RS-GAN训练的更快
D Loss 很难理解,它有很多patterns,但是至少在下面这种情况下(图a),我们能解释这种现象为什么发生,图a中的y=0.48处是因为陷入到basin中了,而在RS-GAN中没有这种现象。
数学本质,Non-linear dynamics is very complicated ε=( o`ω′)ノ,so this work:Let’s identify equilibirum points ,ignore details of dynamics for now.[sun的原话:if you really want to use dynamics analyse ,you’ll take 5 years to write a paper(○´・д・)ノ
Part Ⅴ Real Experiment Example
在pytorch只需要改变两行代码。
我们做了三个predictions。(P0中有个typo)
以及实验的结果。