3DFaceGAN: Adversarial Nets for 3D Face Representation, Generation, and Translation论文泛读
3DFaceGAN: Adversarial Nets for 3D Face Representation, Generation, and Translation论文泛读
(MLA引用格式
Moschoglou, Stylianos, et al. “3dfacegan: Adversarial nets for 3d face representation, generation, and translation.” arXiv preprint arXiv:1905.00307 1.2 (2019).)
本文是利用GAN网络处理关于三维人脸重建,三维人脸翻译,三维人脸,多标签三维人脸翻译的任务。
(对于人脸翻译,没有搞懂这个是什么,按文中的意思应该是根据低分辨率的点云生成高分辨率的点云,应该是类似于图像翻译的内容吧。图像作为一种交流媒介,有很多种表达方式,比如灰度图、彩色图、梯度图甚至人的各种标记等。在这些图像之间的转换称之为图像翻译,是一个图像生成任务。)
作者称本文是第一个使用GAN方法解决此类问题的。
针对三维网格数据以往的方法有:
-
几何深度学习方法
自编码器结构 -
将三维点的坐标连接到一维向量中,并利用完全连接的层来正确解码点云的结构
丢失了三角剖分和空间相邻信息,参数量大,难以训练。 -
利用PCA学习已有模型的参数
公式限制了三维表示的几何细节,并限制在其潜在的模型空间 -
体素回归网络
由于离散化,预测的三维形状质量不高,对应的非表面点难以处理
因为三维没有成熟的深度学习方法,所以本文还是选择利用二维的方法解决,那么面临的一个问题就是选择何种的输入,本文选择将三维顶点信息(x,y,z)存储到uv空间,这样就得到了二维的输入——uv图,但uv图中存储的是三维网格信息。
预处理过程:
网格数据:
顶点映射到uv图:
插值得到密集uv图:
本文的亮点:
- 用uv图表示3D网格数据,作为GAN的输入
- GAN的生成器和辨别器采用同样的自编码器结构
- 所使用的自编码器是经过预训练的
- 训练过程中生成器和辨别器的decoder参数不更新
文章里通过一系列的实验证明了每个设计的有效性。