论文泛读:基于Disentangle的Image-to-Image Translation
1. Multimodal Unsupervised Image-to-Image Translation
针对什么问题?
本文指出,在许多场景中,对于交叉领域的映射是多模态的,而现有的Image-to-Image Translation方法,如Pix2Pix, CycleGAN经仅仅只能得到一个确定性的映射。这是什么意思呢?
- 举个例子,一个冬天的场景可能会有多个状态,天气、时间、光线等因素都会使得冬天的场景看起来不一样。
- 而现有的方法,若是做 夏天->冬天,一张夏天的场景仅能转换出到一种冬天领域下的场景,无法做到多种不同的输出。
- 特别是,本文指出,有些方法通过注入噪音完成图像中信息的改变,但是经过训练后的网络会忽略这些噪音,从而使得噪音的注入无效。
提出什么方法?
故本文针对以上问题,提出了MUNIT模型,并做了以下的假设
-
首先,假设图像的潜在空间(Latent Space)可以被分解为内容空间(Content Space)和风格空间(Style Space)。
- 内容空间编码了在图像翻译时需要保留的内容
- 风格空间代表了剩余那些输入图片中不需要保留的变量
-
其次,假设处于不同领域中的图像共享一个共同的内容空间,但是不共享风格空间。如下图所示,其中共享同一个内容空间,但是风格空间彼此独立。
那么,在进行领域转换的时候,将内容编码和不同的随机采样的风格编码相结合,就可以得到多样化和多模态的输出。
效果怎么样?
实验表明该方法在多模态输出建模中的有效性,且能生成质量更好的图像。
1.1 Model
上图为模型的概述。整个模型包含了两个auto-encoders,也就是模型中的红线和蓝线,各自代表一个domain。
- 在图(a)中,两个auto-encoders的作用如下
- 对于,针对domain1的auto-encoders将其分解成风格空间和内容空间,再通过损失重构成原图
- 对于,针对domain2的auto-encoders将其分解成风格空间和内容空间,再通过损失重构成原图
- 在图(b)中,对于拆分后的操作如下
- 通过采样获取风格编码, 将其和一起输入到domain1的auto-encoders中,使其能够重构为。
- 通过采样获取风格编码, 将其和一起输入到domain2的auto-encoders中,使其能够重构为。
其中,auto-encoders的构造如下图
- 可以看到,内容编码和风格编码都有各自的Encoder才获得
- 对于Content Encoder,它由几个跨步卷积紧跟着几个残差块获得
- 对于Style Encoder,它由几个跨步卷积紧跟着几个全局的池化,并接上了全连接层
- 之后,作者通过使用AdaIN方法将Content Code和Style Code结合了在一起,具体操作如下
- 对于Content Code,它继续接几个残差块来不断地传播语义特征
- 对于Style Code,它通过MLP获得AdaIN的参数,在Content Code传播的过程中结合AdaIN参数
- 最后,再通过上采样获得最后的重构图像
其中,AdaIN的公式如下
- z代表卷积后输出的**值
- 代表通道均值
- 代表通道标准差
- 代表MLP生成的参数
1.2 Optimization
-
首先,是图像重构损失(Image Reconstruction),如下
- 即从Domain1中采样数据,通过Domain1的Auto-Encoders来提取内容空间和风格空间,再通过Domain1的转换为重构后的图像,和原始图像做损失。
- 同理,可以推出损失。
-
其次,是隐藏重构损失(Latent Reconstruction)
- 其中是先验分布中采样的,由得到,。
- 通过将转化为Domain2中的图像,并通过Domain2中的内容解码器抽取内容空间,得到重构后的的内容空间和原做损失
- 通过将转化为Domain2中的图像,并通过Domain2中的风格解码器抽取风格空间,得到重构后的风格空间和原做损失
- 同理,可以推出。
-
最后,是对抗损失(Adversarial Loss)
- 判别器尝试区分由翻译到中的图像与中的真实图像
- 同理,可以推出的损失
根据以上的单一损失描述,可以得到本文的总损失如下:
其中,都是超参数。
1.3 Experiment
- 验证指标
- Human Preference,即人们对图像的欣赏度
- LPIPS Distance,验证翻译后的多样性
- Inception Score,验证多模态翻译后的真实度
- 对比模型
- UNIT
- CycleGAN
- CycleGAN*
- BicycleGAN
- 数据集
- Edges <-> Shoes/handbags
- Animal Image Translation
- Street Scene Images
- Summer <-> Winter
下面是挑选的实验中的几张效果图,总之就是比其他方法真实,且多样性好
2. Unsupervised Image-to-Image Translation Networks
- 待补充
3. Diverse Image-to-Image Translation via Disentangled Representations
- 实验中有sunny, foggy等,哪来的数据?
4. Image-to-Image-Translation-for-Cross-Domain-Disentanglement
- 注入噪音会被选择性忽视,从而难以得到多样化的输出结果
- 如何共享区域?
- 如何控制梯度回流?
- 这个直接表明态度,共享相同类似的内容,如论文中手写数字的例子。也间接反映了缺陷,一旦两幅图内容差距太大,可能效果就不好了
- 跨域检索
5. Conditional Image-to-Image translation
- 一张图,只能对应一种迁移后的结果
- GAN确保生成的图像属于目标领域,双向构造保证重构图像的质量
- 讲述了如何从一个编码器得到两个不同的特征:独立特征,风格特征;于优化的过程中
- 两种特征都从同一个Encoder出来,难道仅通过后续的损失来更新Encoder以控制输出特征的不同?
- The encoders serve as feature extractors, which take an image as input and output the two kinds of features, domain independent
features and domain-specific features, with the corresponding modules in the encoders - 文中说是Encoder中的不同模块
- 在文章中的Settings中也提到了,Encoder的输出有两个分支,一个卷积抽取内容,一个全连接抽取风格
- 此外,Encoder和Decoder中**函数的构造都是有选择性的
- 本文的都是视觉性实验,无指标
- 且输入图像为64x64,很小,怀疑是因为没钱买设备的原因
- The encoders serve as feature extractors, which take an image as input and output the two kinds of features, domain independent
最后,感谢论文作者的贡献,respect! 本文的github.io版请走传送门。
注:本文为作者原创,转载需注明出处!