《生成对抗网络》原理

1.符号表示
$P_{g}$
表示生成器的分布。
$p_{z}(z)$
表示输入噪声变量的先验。
$G\left(z ; \theta_{g}\right)$
表示由噪声所生成的分布，其中 G 是由网络层和参数 θ表示的可导函数。
$D\left(x ; \theta_{d}\right)$
是判别器，D(x) 表示 x 来自数据集而不是p_g的概率。

训练 D 的目标是最大化给训练集和生成数据分配正确标签的概率。同样情况下我们训练G来最小化
$\log (1-D(G(z)))$
此时的G和D在进行零和博弈，通过价值函数 V(G,D)表示为
$\min _{G} \max _{D} V(D, G)=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\boldsymbol{x})}[\log D(\boldsymbol{x})]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}(\boldsymbol{z})}[\log (1-D(G(\boldsymbol{z})))]$

文中采用的方法是：在优化判别器D的k个步骤和优化生成器G的一个步骤之间交替进行。这样做的结果是：只要G改变的足够慢，D将被保持在最优值的附近。具体算法为：
《生成对抗网络》原理
事实上，这场minimax游戏的全局最优解是： $p_{g}=p_{\mathrm{data}}$ 下面阐述证明。

首先，我们考虑对于任意的生成器G，存在最优判别器D
命题一：固定G，最优判别器D是 $D_{G}^{*}(x)=\frac{p_{\text {data}}(x)}{p_{\text {data}}(x)+p_{g}(x)}$
证明：
对于任意生成器G，最大化V(G,D)，此时令 g(z)=x $\begin{aligned} V(G, D) &=\int_{x} p_{\text {data }}(x) \log (D(x)) d x+\int_{z} p_{z}(z) \log (1-D(g(z))) d z \\ &=\int_{x} p_{\text {data }}(x) \log (D(x))+p_{g}(x) \log (1-D(x)) d x \end{aligned}$
对于任意(a,b)∈R² \{0,0},函数 $y \rightarrow a \log (y)+b \log (1-y)$ 在 $\frac{a}{a+b}$ 处取得最大值。所以，等式1可以改写成：
$\begin{aligned} C(G) &=\max _{D} V(G, D) \\ &=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}}\left[\log D_{G}^{*}(\boldsymbol{x})\right]+\mathbb{E}_{\boldsymbol{z} \sim p_{\boldsymbol{z}}}\left[\log \left(1-D_{G}^{*}(G(\boldsymbol{z}))\right)\right] \\ &=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}}\left[\log D_{G}^{*}(\boldsymbol{x})\right]+\mathbb{E}_{\boldsymbol{x} \sim p_{g}}\left[\log \left(1-D_{G}^{*}(\boldsymbol{x})\right)\right] \\ &=\mathbb{E}_{\boldsymbol{x} \sim p_{\text {dita }}}\left[\log \frac{p_{\text {data }}(\boldsymbol{x})}{P_{\text {data }}(\boldsymbol{x})+p_{g}(\boldsymbol{x})}\right]+\mathbb{E}_{\boldsymbol{x} \sim p_{g}}\left[\log \frac{p_{g}(\boldsymbol{x})}{p_{\text {data }}(\boldsymbol{x})+p_{g}(\boldsymbol{x})}\right] \end{aligned}$

上面式子用积分形式可以表示为： $\int p_{\text {data }}(x) \log \frac{p_{\text {data }}(x)}{p_{\text {data }}(x)+p_{\varepsilon}(x)} \mathrm{d} x+\int p_{\varepsilon}(x) \log \frac{p_{\varepsilon}(x)}{p_{\text {data }}(x)+p_{\varepsilon}(x)} \mathrm{d} x$

运用KL散度和JS散度的概念，将其改写为：
$\begin{aligned} \max _{D} V(G, D) &=-\log (4)+\mathrm{KL}\left(p_{\text {data }} \| \frac{p_{\text {data }}+p_{g}}{2}\right)+\mathrm{KL}\left(p_{\varepsilon} \| \frac{p_{\text {data }}+p_{\varepsilon}}{2}\right) \\ &=-\log (4)+2 \times \mathrm{JSD}\left(p_{\text {data }} \| p_{g}\right) \end{aligned}$

所以，当 p_g=p_data 时，C(G)取得全局最小值 -log(4)，生成模型完美地重现数据分布。

《生成对抗网络》原理

相关推荐