《生成对抗网络》原理

1.符号表示
Pg P_{g}
表示生成器的分布。
pz(z) p_{z}(z)
表示输入噪声变量的先验。
G(z;θg) G\left(z ; \theta_{g}\right)
表示由噪声所生成的分布,其中 G 是由网络层和参数 θ表示的可导函数。
D(x;θd) D\left(x ; \theta_{d}\right)
是判别器,D(x) 表示 x 来自数据集而不是pg的概率。

训练 D 的目标是最大化给训练集和生成数据分配正确标签的概率。同样情况下我们训练G来最小化
log(1D(G(z))) \log (1-D(G(z)))
此时的G和D在进行零和博弈,通过价值函数 V(G,D)表示为
minGmaxDV(D,G)=Expdata (x)[logD(x)]+Ezpz(z)[log(1D(G(z)))] \min _{G} \max _{D} V(D, G)=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]

文中采用的方法是:在优化判别器D的k个步骤和优化生成器G的一个步骤之间交替进行。这样做的结果是:只要G改变的足够慢,D将被保持在最优值的附近。具体算法为:
《生成对抗网络》原理
事实上,这场minimax游戏的全局最优解是:pg=pdata p_{g}=p_{\mathrm{data}} 下面阐述证明。

首先,我们考虑对于任意的生成器G,存在最优判别器D
命题一:固定G,最优判别器DDG(x)=pdata(x)pdata(x)+pg(x) D_{G}^{*}(x)=\frac{p_{\text {data}}(x)}{p_{\text {data}}(x)+p_{g}(x)}
证明:
对于任意生成器G,最大化V(G,D),此时令 g(z)=xV(G,D)=xpdata (x)log(D(x))dx+zpz(z)log(1D(g(z)))dz=xpdata (x)log(D(x))+pg(x)log(1D(x))dx \begin{aligned} V(G, D) &=\int_{x} p_{\text {data }}(x) \log (D(x)) d x+\int_{z} p_{z}(z) \log (1-D(g(z))) d z \\ &=\int_{x} p_{\text {data }}(x) \log (D(x))+p_{g}(x) \log (1-D(x)) d x \end{aligned}
对于任意(a,b)∈R2 \{0,0},函数 yalog(y)+blog(1y)y \rightarrow a \log (y)+b \log (1-y)aa+b\frac{a}{a+b} 处取得最大值。所以,等式1可以改写成:
C(G)=maxDV(G,D)=Expdata [logDG(x)]+Ezpz[log(1DG(G(z)))]=Expdata [logDG(x)]+Expg[log(1DG(x))]=Expdita [logpdata (x)Pdata (x)+pg(x)]+Expg[logpg(x)pdata (x)+pg(x)] \begin{aligned} C(G) &=\max _{D} V(G, D) \\ &=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}}\left[\log D_{G}^{*}(\boldsymbol{x})\right]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}}\left[\log \left(1-D_{G}^{*}(G(\boldsymbol{z}))\right)\right] \\ &=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}}\left[\log D_{G}^{*}(\boldsymbol{x})\right]+\mathbb{E}_{\boldsymbol{x} \sim p_{g}}\left[\log \left(1-D_{G}^{*}(\boldsymbol{x})\right)\right] \\ &=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {dita }}}\left[\log \frac{p_{\text {data }}(\boldsymbol{x})}{P_{\text {data }}(\boldsymbol{x})+p_{g}(\boldsymbol{x})}\right]+\mathbb{E}_{\boldsymbol{x} \sim p_{g}}\left[\log \frac{p_{g}(\boldsymbol{x})}{p_{\text {data }}(\boldsymbol{x})+p_{g}(\boldsymbol{x})}\right] \end{aligned}

上面式子用积分形式可以表示为:pdata (x)logpdata (x)pdata (x)+pε(x)dx+pε(x)logpε(x)pdata (x)+pε(x)dx \int p_{\text {data }}(x) \log \frac{p_{\text {data }}(x)}{p_{\text {data }}(x)+p_{\varepsilon}(x)} \mathrm{d} x+\int p_{\varepsilon}(x) \log \frac{p_{\varepsilon}(x)}{p_{\text {data }}(x)+p_{\varepsilon}(x)} \mathrm{d} x

运用KL散度和JS散度的概念,将其改写为:
maxDV(G,D)=log(4)+KL(pdata pdata +pg2)+KL(pεpdata +pε2)=log(4)+2×JSD(pdata pg) \begin{aligned} \max _{D} V(G, D) &=-\log (4)+\mathrm{KL}\left(p_{\text {data }} \| \frac{p_{\text {data }}+p_{g}}{2}\right)+\mathrm{KL}\left(p_{\varepsilon} \| \frac{p_{\text {data }}+p_{\varepsilon}}{2}\right) \\ &=-\log (4)+2 \times \mathrm{JSD}\left(p_{\text {data }} \| p_{g}\right) \end{aligned}

所以,当 pg=pdata 时,C(G)取得全局最小值 -log(4),生成模型完美地重现数据分布。