生成模型

生成模型的目的是从一系列样本 $x=\{x_1,x_2,...,x_m\}$ 中学习 $x$ 的分布 $p(x)$ ，我们可以仿照EM算法，通过隐变量 $z$ 和生成函数 $g()$ 来得到 $\hat x=g(z)$ ，并尽可能的让 $\hat {x}$ 接近 $x$ 。
上述方法有一个弊端，我们首先依据全概率公式将 $p(x)$ 写成如下形式：
$p(x)=\sum p(x|z)p(z)$
我们易获取到 $p(z)$ ，但是在 $z$ 确定的情况下，无法得知 $p(x|z)$ ，这意味着我们无法将 “利用 $g()$ 函数生成的 $\hat x_i$ ” 与 “真实的 $x_i$ ” 进行对应，如下图所示：
模型学习 - VAE（变分自编码）专题
那么怎么解决这个问题呢，接着往下看~

VAE模型

在VAE模型中，我们解决了上述问题。我们可以从两个角度理解VAE模型，首先是角度1。

理解角度1

为了解决上述问题，将学习 $p(x)$ 改为学习 $p(z|x)$ 即可！
我们令 $p(z|x)\sim N(\mu,\sigma^2)$ （ps：为什么这个先验分布是正态分布呢？因为若是其他分布，后面计算KL散度的时候会导致分母为0）。则VAE的编码解码过程如下图所示：
模型学习 - VAE（变分自编码）专题
更具体的，我们假设 $p(z|x)\sim N(0,1)$ ，即：我们在编码过程中期望学到 $\mu_i=0,\sigma_i=1$ ，则VAE的训练过程中会产生以下两种情况（类似于对抗）：
1.若 $\sigma_i^2\rightarrow1$ ，此时加在 $x_i$ 上的噪声大，会导致已有的解码能力效果变差，通过反向传播会使得 $\sigma_i^2\rightarrow0$ ；
2.若 $\sigma_i^2\rightarrow0$ ，此时加在 $x_i$ 上的噪声小，会导致已有的解码能力效果变好，通过反向传播会使得 $\sigma_i^2\rightarrow1$ ；

VAE模型的损失函数如下：
$L_{vae}^{p(z|x)}=loss(x,\hat x)+KL[N(\mu,\sigma^2)||N(0,1)]$
损失函数中第一部分 $loss(x,\hat x)$ 代表真实数据 $x$ 与生成数据 $\hat x$ 之间的误差，可以使用简单的logistics损失或者MSE损失。
损失函数中第二部分是一个KL散度，用于衡量编码过程中得到的分布是否接近我们设置的先验分布 $N(0,1)$ ，下面对这部分进行详细的剖析。

$KL[N(\mu,\sigma^2)||N(0,1)]$

$=\int \frac{1}{\sqrt{2\pi}\sigma}exp\{\frac{-(x-\mu)^2}{2\sigma^2}\}\centerdot\log \frac{\frac{1}{\sqrt{2\pi}\sigma}exp\{\frac{-(x-\mu)^2}{2\sigma^2}\}}{\frac{1}{\sqrt{2\pi}}exp\{\frac{-x^2}{2}\}}dx$

$=\frac{1}{2}\int \frac{1}{\sqrt{2\pi}\sigma}exp\{\frac{-(x-\mu)^2}{2\sigma^2}\}\centerdot[-\log \sigma^2+x^2-\frac{(x-\mu)^2}{\sigma^2}]dx$

$=\frac{1}{2}(-\log \sigma^2+\mu^2+\sigma^2-1)$

$=\frac{1}{2}\mu^2+\frac{1}{2}(\sigma^2-\log \sigma^2-1)$

理解角度2

在理解角度1中，我们由于不能计算 $p(x|z)$ ，所以将学习 $p(x)$ 改为了学习 $p(z|x)$ ，但是我们忽略了 $p(x)$ 不仅可以使用全概率公式分解为 $p(x)=\sum p(x|z)p(z)$ ，还可将 $p(x)$ 写为 $p(x)=\int p(x,z)dz$ ，在这种情况下，我们假设先验分布为 $q(x,z)$ ，则我们的学习目标变为：令 $p(x,z)$ 无限趋近 $q(x,z)$ ，如下所示：

$KL[p(x,z)||q(x,z)]$

$=\int\int p(x,z)\log \frac{p(x,z)}{q(x,z)} dz dx$

将 $p(x,z)=\hat p(x)p(z|x)$ 带入上式，其中 $\hat p(x)$ 代表利用已有的 $x$ 值通过估计得到的分布，可得：

$=\int \hat p(x)[ \int p(z|x) \log \frac{\hat p(x)p(z|x)}{q(x,z)}dz] dx$

$=E_{x\sim\hat p(x)}[\int p(z|x) \log \frac {\hat p(x)p(z|x)}{q(x,z)}dz]$

将 $q(x,z)=q(z)q(x|z)$ 和 $p(z|x)\log \frac {p(z|x)}{q(z)}=KL[p(z|x)||q(z)]$ 带入上式，可得：

$=E_{x\sim\hat p(x)}\{E_{z\sim p(z|x)}[-\log q(x|z)] + KL[p(z|x)||q(z)]\}$

我们可以发现，这样计算得到的公式中每一项可以和 $L_{vae}^{p(z|x)}$ 中的每一项对应：

$-\log q(x|z)\longleftrightarrow loss(x,\hat x)$

$KL[p(z|x)||q(z)]\longleftrightarrow KL[N(\mu,\sigma^2)||N(0,1)]$

模型学习 - VAE（变分自编码）专题

目录

生成模型

VAE模型

理解角度1

理解角度2

相关推荐