风格转移

这几天看了一篇风格转移的论文，这里大致介绍下论文的内容，并且推到下论文中出现的公式。

Neural Style Transfer

基本思想

有两张图片，我们关注一张图片的内容(Content)记为C，一张图片的风格(Style)记为S，想要生成一张图片包含C的内容和S的风格，记为G。

那么如何获取图片的C和S那？论文使用训练好的VGG net解决这一问题。

文中使用VGG net的中间层来表示C：对于一张input_image，中间某一输出层shape为height×width×channel，将其reshape成(channel×(height∗width))。这样便得到了C，简单的理解是使用训练好的VGG net对图片进行再编码。为公式推导方便我们记为FN×M，N为特征图的数量，M为特征图的大小。

对于S的表示略微复杂：在VGG net的某一层，得到了该层的feature maps，计算这些feature maps的特征相关性feature correlations，就可以得到这一层的“风格表示”，最终的S是多个层的“风格表示”的线性组合。

怎么计算feature correlations那？文中介绍了使用Gram Matrix的方法。

G l i j = \sum k F l i k F l j k

从定义可以看出，Gram阵是对称阵，我们公式推导会多次用到这一性质。

loss定义

论文中定义的Loss是对ContentLoss和StyleLoss进行加权求和。

L t o t a l = α L c o n t e n t + β L s t y l e

其中α和β是超参数 ![NST2.png](../images/NST2.png)

ContentLoss

为公式推到方便，先来定义几个符号

p→: 原始图像

x→: 生成图像

l: VGG net的第l层

Fl: 原始图像在VGG net第l层的内容特征表示

Pl: 生成图像在VGG net第l层的内容特征表示

ContentLoss定义为

L c o n t e n t (p \to, x \to, l) = 12 \sum i, j (F l i j - P l i j) 2

误差对l层每一**值的偏导

\partial L c o n t e n t \partial F l i j = ⎧ ⎩ ⎨ (F l - P l) i j 0 i f F l i j > 0 i f F l i j < 0

这一步偏导好求，就是当Flij<0时偏导是0，文中没有做解释

StyleLoss

a→: 原始图像

x→: 生成图像

l: VGG net的第l层

Al: 原始图像在VGG net第l层的风格特征表示

Gl: 生成图像在VGG net第l层的风格特征表示

第l层的StyleLoss定义为

E l = 1 4 N 2 l M 2 l \sum i, j (G l i j - A l i j) 2

TotalStyleLoss定义为

L s t y l e (a \to, x \to) = \sum l = 0 L w l E l

误差对l层每一**值的偏导

\partial E l \partial F l i j = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 1 N 2 l M 2 l ((F l) T (G l - A l)) j i 0 i f F l i j > 0 i f F l i j < 0

接下来是推导过程

\partial E l \partial F l i j = \partial E l \partial G l \partial G l \partial F l i j = \sum m, n N \partial E l \partial G l m n \partial G l m n \partial F l i j

考虑这个式子∂Glmn∂Flij 当m≠i,n≠i时，上式为0 当m=i,n≠i时，上式为Fnj 当m≠i,n=i时，上式为Fmj 当m=i,n=i时，上式为Fij

∴ \sum m, n N \partial E l \partial G l m n \partial G l m n \partial F l i j = \sum n, n \neq i N \partial E l \partial G l i n F n j + \sum m, m \neq i N \partial E l \partial G l m i F m j + 2 \partial E l \partial G l i i F i j

又

∵ \sum n, n \neq i N \partial E l \partial G l i n F n j + \partial E l \partial G l i i F i j = 2 [(G i 1 - A i 1) F 1 j + (G i 2 - A i 2) F 2 j + \dots + (G i N - A i N) F N j]

∵ \sum m, m \neq i N \partial E l \partial G l m i F m j + \partial E l \partial G l i i F i j = 2 [(G 1 i - A 1 i) F 1 j + (G 2 i - A 2 i) F 2 j + \dots + (G N i - A N i) F N j]

利用Gram矩阵的对称性得

\sum n, n \neq i N \partial E l \partial G l i n F n j + \partial E l \partial G l i i F i j = \sum m, m \neq i N \partial E l \partial G l m i F m j + \partial E l \partial G l i i F i j

∴ \partial E l \partial F l i j = 1 N 2 l M 2 l \sum k N (G l - A l) i k F l k j = 1 N 2 l M 2 l ((G l - A l) F l) i j = 1 N 2 l M 2 l ((F l) T (G l - A l)) j i

论文实现

link

Acknowledgement

Image Style Transfer Using Convolutional Neural Networks by Gatys et al. CVPR 2016

Neural Transfer with PyTorch

原文链接

https://jiweibo.github.io/Neural-Style-Transfer/