Few Shot Vid2Vid 论文心得

【飞桨】、【PaddlePaddle】、【论文复现

Few Shot Vid2Vid 论文心得

一直以来,我对怎么实现视频里的人物和风格迁移很好奇,觉得能做到这些,简直是太神奇了。因此,当论文复现营进入了论文精读得第二阶段,我就速读了两篇这方面的论文,Few Shot Vid2Vid 和 First Order Motion Model for Image Animation. 

局限于水平太低,我实在看不出这两篇论文的主要目的有什么不同。只是感觉Few Shot Vid2Vid好像泛化能力要强一点,因为除了人物和表情迁移,它还能被用于街景迁移任务中,而且也没有类似泰勒展开式这些深奥的数学知识要求。

对于Few Shot Vid2Vid研究动机,研究任务和网络结构,老师在课件(文本视频)上已经讲的很详细。我觉得在复现论文时,会面对许多挑战.

1. 第一步要准备好足够的数据集进行人物,表情和街景迁移任务训练。这一步应该不难,但可能会很耗时。

2. 输入的描述也让我觉得很困惑,比如来自目标域的K个示例图像e,相应的语义图像s是什么,它们跟驱动的视频是什么关系,应该怎么样获取,到现在为止,都还是个未知数。

 

Few Shot Vid2Vid 论文心得

(建议的Few Shot Vid2Vid 论文心得值为2.)

3. 从网络结构图看来,训练网络结构非常复杂,除了要构建网络训练生成软掩盖图、帧数之间的光流,还要构建包含特征提取网络EF,多层感知网络FP ,Attention机制网络EA和 SPADE生成器ES 这个看上去令人生畏的网络去合成中间图像。在将它们合成之前,怎么样去有效测试每一个单独的网络,确保每一个单独的网络都能正常运转?

Few Shot Vid2Vid 论文心得

4. 论文中没有看到有关最优参数的设定范围。由于网络结构很复杂,网络参数肯定不会少,肯定需要多轮调整和优化参数,超参数去解决网络收敛问题,过拟合或者欠拟合问题。每一轮训练应该很耗时, 因此训练时能不能找到足够的计算资源,训练过程中能不能保持稳定的系统支持将是一个头疼的问题。

复现这篇论文非常具有挑战性。如果能够成功复现,自然也是获益良多!