Few-shot Video-to-Video Synthesis
Few-shot Video-to-Video Synthesis
打卡+坚持
今日语录:千里之行始于足下
让蒙娜丽莎说话,让大卫雕塑跳舞的快速视频到视频的合成
摘要
视频到视频的合成v旨在把输入的语义视频,例如人体姿态或者是分割掩模的视频转换为输出的具有真实感的视频。尽管当下最好的vid2vid已经取得很大的进展,但是仍然有两个主要的限制性。第一个是,他们缺乏数据,在训练的时候需要大量的目标人物或者是场景的图像。其次,这个学习模型的泛化能力有限。一个姿态到人的vid2vid模型只能合成在训练集中单个人的姿态。他不能泛化到其他不在训练集中的其他人。为了解决这种局限性,我们提出了一种小样本的vid2vid的框架,这种框架学习通过在测试时利用少量的样本图片合成之前没有见过的物体或场景的视频。我们的模型通过利用一个注意力机制的新型网络权值生成模块实现小样本的泛化能力。我们使用几个大规模的视频数据集,包括人类舞蹈视频、说话的人脸和街景视频,与基准比较并进行了大量的实验验证。实验结果验证了该框架在解决现有vid2vid方法的两个局限性方面的有效性。代码可以在我们的网站上找到。
1. Introduction
视频-视频合成是指将输入的语义视频转换为输出的具有真实感的视频。它的应用范围很广,包括利用人体姿态序列[7,12,57,67]生成人类跳舞的视频,或者使用分段掩模序列[57]生成驾驶视频。通常,要获得这样的模型,首先要收集目标任务的训练数据集。它可以是一组目标人物表演各种动作的视频,也可以是一组在城市里行驶的汽车上的摄像头捕捉到的街道场景视频。然后使用该数据集训练一个模型,该模型在测试时将新的输入语义视频转换为对应的真实感视频。换句话来说,我们希望有这样的vid2vid模型,对于人来说,它可以生成此人在训练集中没有的新动作的视频,而对于一个街道场景,vid2vid模型可以生成与训练集中具有相同风格的新街道场景的视频。随着生成式对抗网络框架发展以及条件生成式对抗网络的出现,现有的vid2vid方法表现出了很好的前景。
我们认为仅推广到新的输入语义视频时不够的。我们还应该建立一个模型,它可以推广到未知的领域,比如生成训练数据集中没有包含的人类受试者的视频。更理想的情况是,一个vid2vid模型应该能够通过利用测试时给出的几个样本图像来合成未知的视频。如果一个vid2vid模型不能推广到训练集中没有的人或场景风格,那么我们必须为每个新的主题或场景样式训练一个模型。此外,如果一个vid2vid模型仅使用少量的样本图像无法实现这种域泛化能力,那么就必须为每个新的主题或场景样式收集大量的图像。这将使得模型不容易扩展。遗憾的是,现有的vid2vid方法存在这些缺点,因为它们没有不能这样进行泛化。
vid2vid与few-shot vid2vid得对比 图一
现有的vid2vid方法[7,12,57]没有考虑将其推广到不可见域。一个训练好的模型只能用来合成类似于训练集中的视频。例如,vid2vid模型只能用于生成训练集中的人的视频。当需要为一个新的人合成视频时,需要收集这个人的数据集,并使用它来训练一个新的vid2vid模型。而我们的few-shot vid2vid模型没有局限性。我们的模型可以利用测试时提供的少量样本图像来合成新的人的视频。
为了解决这些限制,我们提出了few-shot vid2vid框架。few-shot vid2vid 框架需要两个输入来生成视频,如图1所示。除了像vid2vid中那样的输入语义视频外,它还需要第二个输入,该输入由一些在测试时可用的目标域样本图像组成。注意,这在现有的vid2vid方法中中是不存在的[7,12,57,67]。我们的模型使用这些少量的示例图像,通过一种新的网络权值生成机制来动态配置视频合成机制。具体来说,我们训练一个模型来使用样本图像生成网络权值并精心设计了学习目标函数,方便学习网络权值生成模块。
我们通过使用几个大规模的视频数据集,包括跳舞视频,头部讲话视频和街道场景视频与各种基准方法的比较进行了广泛的实验验证。实验结果表明,该方法有效地解决了现有vid2vid框架的局限性。此外,我们的模型的性能与训练数据集中视频的多样性以及测试时可用的样本图像的数量呈正比。当模型在训练时遇到更多不同的域时,它可以更好地泛化来处理未知的域(图7(a))。当在测试时给模型更多的样本图像时,合成视频的质量会提高(图7(b))。
2. Related Work
The proposed few-shot vid2vid model is based on GANs [13]. Specifically, we use a conditional GAN framework. Instead of generating outputs by converting samples from some noise distribution [13, 42, 32, 14, 25], we generate outputs based on user input data, which allows more flexible control over the outputs. The user input data can take various forms, including images [22, 68, 30, 41], categorical labels [39, 35, 65, 4], textual descriptions [43, 66, 62], and videos [7, 12, 57, 67]. Our model belongs to the last one. However, different from the existing videoconditional GANs, which take the video as the sole data input, our model also takes a set of example images. These example images are provided at test time, and we use them to dynamically determine the network weights of our video synthesis model through a novel network weight generation module.
This helps the network generate videos of unseen domains.
GANS:
few-shot vid2vid模型是基于GANs。具体来说,我们使用了的是Conditional GAN框架。我们不是通过转换一些噪声分布的样本来生成输出[13,42,32,14,25],而是基于用户输入数据生成输出,这使得我们可以更灵活地控制输出。
未完待续!!!!!!!!!!!!!!!!!!