StyleGAN2探骊得珠(一):论文解读与注释,文中的SCALE这个词到底是什么意思?

StyleGAN2的论文标题是:《Analyzing and Improving the Image Quality of StyleGAN》,它剖析了第一代StyleGAN实践中发现的一些深层次问题,并就此进行了一些卓有成效的优化。

研究这篇论文,让我们有机会能够一窥神经网络实践中的一些奥妙,有助于我们理解神经网络的设计原理和技巧,使得我们有可能设计自己的神经网络并对它进行优化。

StyleGAN2论文的下载地址是:http://arxiv.org/abs/1912.04958

也可以到百度网盘下载:https://pan.baidu.com/s/15jv2hVVrcC-dsPjqZ_p9Xw  提取码: rvir

我们打开论文进行阅读,遇到一个让人感到十分困惑的单词:scale。仔细数了一下,scale这个单词在StyleGAN2论文的正文里一共出现了11次,参考文献里出现了6次(这里面的论文我还没有一一阅读,从字面上看这里的scale更接近于“规模”的意思),附录里出现了15次;同时,以动名词scaling的形式,在正文里出现了2次,在附录里出现了2次。显然,这是一个非常重要的单词,那它到底指的是什么意思呢?

在常见的计算机用语中,scale比较常见的翻译一个是“规模”,如:large scale parellel computing通常翻译为“大规模并行计算”;另外一个是“伸缩、扩展”,如:scalability通常翻译为“可伸缩性”或“可扩展性”。

另外,根据必应词典给出的解释:

scale - 必应词典

美[skeɪl] 英[skeɪl]

  • n.秤;比例尺;范围;刻度

  • v.攀登;到达…顶点;去鳞;刮除牙石

  • 网络缩放;规模;音阶

把以上相关意思一一匹配到论文中进行翻译、解读,都很难让人满意,以至于对整篇论文的主旨都搞得不知所云、一头雾水。

有一天我找到一篇名为《多样本尺度参数的非参数检验》的论文,阅读之后才恍然大悟,原来在StyleGAN2这篇论文里,scale的真实含义实际上指的是“尺度”。

在《多样本尺度参数的非参数检验》这篇文章里,尺度是这样定义的:尺度参数主要用来描述总体概率分布的离散程度,常用的方差、标准差、平均差等都是关于尺度的参数。

我对尺度的理解如下:

StyleGAN本质上通过生成器generator与判别器discrimnator的对抗,不断优化生成器的神经网络和判别器的神经网络,最终使得生成器生成的图像让判别器无法判别真假(预测为真的概率接近 0.5),其过程就是表现为两个神经网络的权重和偏置不断调整,使得代表整个神经网络的运算矩阵所表达的特征期望平均值不断逼近样本平均值,同时使得所表达的特征期望方差为最小。

在这个过程中,“尺度”就是特征方差、标准差、平均差所代表的概率分布的离散程度。在训练开始的时候,生成器生成的图像特征的概率分布是随机的“白噪声”,运算矩阵不掌握任何输入样本所内含的特征信息,特征方差很大。在训练的过程中,我们必须保证“尺度”的度量标准始终是不变的,在此前提下不断通过“梯度下降”优化网络权重和偏置,在迭代的终点使得特征尺度“收敛”到一个稳定的期望平均值和最小的方差,在视觉上就是在概率分布图上得到一个足够窄、足够高的尖峰,同时这个尖峰所覆盖的面积占到总体概率分布100%的相当大的一个比例。这个过程也可以描述为逐步发现一个特征聚类中心(尖峰),并且使得这个尖峰越来越明显,越来越突出,并且把周边的概率分布都吸引到这个尖峰的附近。

作为名词,scale可以翻译为“尺度”;作为动词,scale或者scaling就可以翻译为“调整尺度”。调整尺度的含义在于,在训练过程中,尺度的度量标准可能会使用各种不同的方法进行计算,在进行数学计算的过程中可能会人为放大或缩小了尺度,因此为了保证在整个训练过程中保持尺度度量标准的一致性,就需要把数据计算引入的方差的放大或缩小复原到本阶段原始的尺度上。

按照以上对于scale这个单词的理解,我们再来读StyleGAN2论文,似乎文章的内容就容易理解一些了,举几个例子:

StyleGAN2探骊得珠(一):论文解读与注释,文中的SCALE这个词到底是什么意思?

翻译:我们假设液滴伪影是生成器故意为之的结果,生成器会携带信号强度信息偷偷越过实例归一化操作,其方法是:生成一个非常强的、在统计上占有绝对优势的局部尖峰,生成器就可以在其他地方按照它偏好的方式有效地对信号的尺度大小进行调整。

StyleGAN2探骊得珠(一):论文解读与注释,文中的SCALE这个词到底是什么意思?

翻译:基于输入的样式,调制操作对卷积的每个输入特征图的尺度进行调整,这可以通过调整卷积权重的尺度而替代性地予以实现。

StyleGAN2探骊得珠(一):论文解读与注释,文中的SCALE这个词到底是什么意思?

翻译:随后的归一化操作,其目的是将输出复原到单位标准差。基于公式 2,这可以通过将每个输出特征图 j 都乘以 1/σj 来实现。

StyleGAN2探骊得珠(一):论文解读与注释,文中的SCALE这个词到底是什么意思?

翻译:进行优化之前,我们通过映射网络 f 运行10000次随机的潜码 z,可以得到 μw= Ez f(z)。我们也可以近似地得到W的尺度,计算的方法是:σw²=Ez ||f(z)-μw||₂²,即算出到几何中心的欧氏距离平方的平均值。

(完)