GAN系列论文选读
1.cGAN(Conditional Generative Adversarial Nets):
cGAN通过加约束来使得GAN可以生成具体服从某一分布的样本,如mnist中生成某一类数值的图片,
原理如下:
2.SeGAN:
核心内容:通过输入被部分遮挡的mask以及原图,来生成未被遮挡的物体。具体如下图:左侧沙发被盆栽挡住部分结构,输入原图以及被遮挡沙发的ground truth,最终生成一个完整的彩色沙发图。
具体理解如下:
Segmentor部分的输入为4个channel的张量(RGB 3个+1个 可见的Mask标签),generator的输出为生成的RGB图像。
网络结构:
使用Resnet-18作为Segmentor的前部,在Resnet18的最后一个卷积层后接ROI Pooling层,随后接一个3364(58*58)的FC层,之后使用Upsampling 层将FC的输出上采样至256*256。论文中表明使用Upsampling层能提高最终的效果,其输出记为O。
Painting部分使用了cGAN(conditional generative adversarial network),包含一个G和一个D,其中Generator的输入M可被定义为:
为方便理解,我在这里分别列出:
O: SV:
J-O-SV :
Generator and Discriminator:
generator 使用的是Unet这一种编码解码器,discriminator 的结构为4层卷积层+sigmoid activation。
Loss:
即bce
由上,segmentor的Loss主要分为3部分:full object之外的loss + visible_loss + invisible_loss
文中提到研究表明加入L1,L2 loss有助于GANs的训练,因此定义painting 部分的loss为:
故网络整体的loss为:。