深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

该论文用GAN给卡通画上色,其基本框架是pix2pix,主要贡献是在pix2pix的基础上加入了feature loss和色彩平滑loss。

由于该论文是基于pix2pix的,所以其使用的G网络和D网络都与pix2pix一样:
深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

左边是G网络,使用的是U-net。右边是D网络使用的是patchGAN中的D网络,其输出是一个30*30的矩阵。

我们主要看看损失函数。

首先是原始的pix2pix的两个损失函数,分别是原始的GAN损失函数和G网络的L1损失函数,没啥好说的:
深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

由于pix2pix中G网络的L1损失函数只是像素级别的损失函数,无法作用到高级的抽象特征,因此引入了VGG网络的中间层作为生成图片和真实图片的特征抽取器,然后计算L2距离。具体如下:
深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks
其中ϕj 表示VGG的第j层的输出特征图。论文选择了第4层。

为了防止生成图片的色彩产生突变,论文加入了一个平滑损失函数:
深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

其中i,j是生成图片y的像素坐标。这个损失函数跟计算图片的x,y坐标轴上的梯度很像。

这样论文的损失函数为:
深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

实验结果

不同损失函数的作用
深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks

与pix2pix的比较:
深度学习【48】Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks