GAN系列论文选读

1.cGAN(Conditional Generative Adversarial Nets):

cGAN通过加约束来使得GAN可以生成具体服从某一分布的样本,如mnist中生成某一类数值的图片,

GAN系列论文选读

原理如下:

GAN系列论文选读

2.SeGAN:

核心内容:通过输入被部分遮挡的mask以及原图,来生成未被遮挡的物体。具体如下图:左侧沙发被盆栽挡住部分结构,输入原图以及被遮挡沙发的ground truth,最终生成一个完整的彩色沙发图。

具体理解如下:

GAN系列论文选读


Segmentor部分的输入为4个channel的张量(RGB 3个+1个 可见的Mask标签),generator的输出为生成的RGB图像。

网络结构:

使用Resnet-18作为Segmentor的前部,在Resnet18的最后一个卷积层后接ROI Pooling层,随后接一个3364(58*58)的FC层,之后使用Upsampling 层将FC的输出上采样至256*256。论文中表明使用Upsampling层能提高最终的效果,其输出记为O。

Painting部分使用了cGAN(conditional generative adversarial network),包含一个G和一个D,其中Generator的输入M可被定义为:

为方便理解,我在这里分别列出:

O:GAN系列论文选读        SV: GAN系列论文选读     J-O-SV : GAN系列论文选读

GAN系列论文选读


Generator and Discriminator:

generator 使用的是Unet这一种编码解码器,discriminator 的结构为4层卷积层+sigmoid activation。

Loss:

GAN系列论文选读即bce

GAN系列论文选读

由上,segmentor的Loss主要分为3部分:full object之外的loss + visible_loss + invisible_loss

GAN系列论文选读

文中提到研究表明加入L1,L2 loss有助于GANs的训练,因此定义painting 部分的loss为:

GAN系列论文选读

故网络整体的loss为:GAN系列论文选读