Generative Adversarial Text to Image Synthesis --- 根据文字描述生成对应的图片
总说
简单的说就是根据文字进行生成相应的图片。
先看效果:
架构
这里首先用一个 text embedding网络来将文字转换为向量,
因为普通的GAN就是一个
然后作者提出了GAN-CLS以及GAN-INT.
GAN-CLS
如果是普通的GAN,那么D只要负责看G的生成图片是真是假就行。但是这里的任务是要让G生成符合
1. 判断G生成的图片是真是假
2. 判断生成的图片是否符合
所以:
与普通GAN不同的是,这里多了一种错误情况,即看上去挺真的,但是对应的描述
这里可以大概想到在D中加入
GAN-INT
其实就是不仅用以前的
因此加入插值的语料进行训练,可以增加G的创新性吧。
另外一点是:这种插值的语料没有对应的真实图片。也就是说我根本没有插值语料的
文中的解释:
D learns to predict whether image and text pairs match or not. Thus, if D does a good job at this, then by satisfying D on interpolated text embeddings G can learn to fill in gaps on the data manifold in between training points.
就是说既然D能够很好的判断给定的图片与给定的文本
z 起的作用
先定义content和style。一般情况下很多时候一句话就是描述content的,而不会描述style(style主要是包括背景和姿态)。那么这种情况下我们就希望
然后他们首先弄了一个inverse G的网络。当然很简单,用以前生成的样本对就行。然后
其中
然后作者把图片按照style进行聚类(平均背景颜色,鸟类姿态等),然后取属于同一聚类的样本,求得
还是GAN-INT-CLS模型的
总结
通过分别在G和D里面加入