DeLiGAN: 对于多样性和有限数据的GAN

技术人还是要写技术文啊，写什么情感大戏啊。

开始遨游CVPR2017，主要是为了学习更多的深度学习网络架构

讲道理计算机视觉的深度学习架构是深度学习各领域比较先进的，比如CNN，自编码器，GAN，注意力机制都是出于CV然后应用于其他领域的。所以即使我不学CV了还是要看CVPR的论文

论文本身

讨论一下GAN的缺点:
1. Mode Collapse：当GAN无法达到识别网络D每趟的运行次数大于生成网络G的时候，生成网络生成的所有内容都将归于同样的对象，比如训练GAN for MNIST最后所有的生成内容都为1
2. 训练速度慢，训练吃数据：原始GAN的生成网络与识别网络都是MLP（不是很懂为什么）。较CNN来说，MLP更吃数据而且运行速度更慢
3. GAN生成数据的多样性来自于GAN的生成者输入的噪音N。原始GAN的噪音是高斯噪音。而这篇文章主要的重点，笔者认为在于尝试去用一个有点想Batch Normalization的方式去学习噪声输入

图右就是DeLiGAN的结构。可以看到，DeLiGAN在输入的时候进行了变化。

2.DeLiGAN
DeLiGAN使输入噪音通过一个高斯混合模型（Mixture-of-Gaussian model）

$p_{z} (z) = \sum_{i = 1}^{N} ϕ_{i} g (z | μ_{i}, Σ)$

其中 $ϕ_{i}$ 是权值，也是采用重参数单元（我使用的是指的是 $g (z | μ_{i}, Σ)$ ）的概率。在文章中 $ϕ$ 使用的是uniform概率，即原公式变为

$p_{z} (z) = \sum_{i = 1}^{N} \frac{g (z | μ_{i}, Σ)}{N}$

我们随机的从N个重参数单元中选取一个，每一个选取概率相同

假设第 $i$ 个单元被选择。我们将输入重新定义为

$z = μ_{i} + σ_{i} ϵ w h e r e ϵ \sim N (0, 1)$

将其代入GAN的模型，可以将原模型变为：

$p_{d a t a} (G (z)) = \sum_{i = 1}^{N} \int \frac{p_{d a t a} (G (μ_{i} + σ_{i} ϵ | ϵ)) p (ϵ) d ϵ}{N}$

其中 $μ$ 和 $σ$ 都是应该学习的参数

3.学习 $μ$ 与 $σ$

notice：作者说明为什么不试着在单元的地方使用权值参数：因为无法正常训练，无法得到权值的梯度

由于 $p_{d a t a} (G (z))$ 在 $μ_{i}$ 处有局部最小值，所以当G优化 $σ$ 的时候， $σ$ 可以小于0。为了避免这个，我们尝试在GAN网络基础上用L2正则化

$m a x_{G} V_{G} (D, G) = m i n_{G} E_{z \sim p_{z}} [l o g (1 - D (G (z)))] + λ \sum_{i = 1}^{N} \frac{(1 - σ_{i})^{2}}{N}$
4. 实验

这个论文实验最有意思的地方在于他对不同的数据库用不同的架构
DeLiGAN: 对于多样性和有限数据的GAN

可以看出，他用了Inceptive的结构，这对于某些网络结构有非常好的效果。

DeLiGAN: 对于多样性和有限数据的GAN
从h-m中看出，效果大概比GAN好（j-m是它定义的一些架构，就不描述了）

我觉得……还行吧，暂时没有运行过。整体比较玄学，并没有解释为什么这个设计好与好在哪，我只能说输入从普通的高斯噪音变成了加强版的高斯噪音

我认为单元的设计有点像Dropout + ensemble。

我懂为什么对多样性有帮助，但是并不是很懂对limited data有什么帮助