Image-to-Image Translation with Conditional Adversarial Networks
CVPR2017年的一篇文章,大名鼎鼎的pix2pix,paper链接https://arxiv.org/abs/1611.07004,一作是MIT的PHD,现在是UC Berkeley的postdoctoral,作者的主页https://people.eecs.berkeley.edu/~isola/,code已经released在github上面了https://github.com/phillipi/pix2pix,截至目前google citation已经585。
文章要做的事情
输入:一张图片 输出:一张图片
文章将这个任务描述为图像到图像的翻译(image-to-image translation),img2img translation示例如下所示。
文章中的一些实验结果的效果图如下所示。
Google Maps at 512x512 resolution
citescapes label2photo
facades labels2photo
day2night
edge2handbags
edge2shoes
edges2photo
failure cases
pix2pix方法
输入一张图片,然后通过U-Net产生一张新的图片,最后在通过cGAN对原始的ground-truth和产生的图片判断真假,如下左图是pix2pix的框架图,右图为U-Net的结构图。
pix2pix训练的loss function如下所示。
loss function的物理意义是使得generator产生的图片不仅能骗过discriminator,而且还能与ground-truth在L1 metric下尽可能接近,对于discriminator,文章中采用的是patchGAN,从ablation study来看这个trick还是挺work的,文中对比了4个patch,70X70最work。
文章中比较work的几个点:
1. U-Net
2. cGANs+L1
3. patchGAN