pdf: https://ora.ox.ac.uk/objects/uuid:6bdd4768-6fbd-40ac-8efc-edca8a0325b3/download_file?file_format=pdf&safe_filename=Chung%2Band%2BZisserman%252C%2BOut%2Bof%2Btime%2B-%2Bautomated%2Blip%2Bsync%2Bin%2Bthe%2Bwild.pdf&type_of_work=Conference+item

github: https://github.com/joonson/syncnet_python

Out of time: automated lip sync in the wild

即时追捕：自然环境下的自动唇音同步

摘要：

这项工作的目标是确定音频-视频同步之间的嘴运动和语音在视频。我们提出了一种两流ConvNet体系结构，使声音和嘴图像之间的映射能够从未标记的数据中进行端到端的训练。训练后的网络用于确定视频中的假同步错误。我们将网络应用于另外两项任务：主动说话人检测和唇语阅读。在这两个任务上，我们在标准基准数据集上设置了一个新的最新技术。

1.介绍

音频到视频的同步（或缺乏）是电视广播中的一个问题，为生产者和观众。在电视中，假同步错误高达几百毫秒并不少见。如果错误的原因在传输中，视频通常会滞后于音频。这些错误往往是显而易见的——一般观众的可探测性阈值在-125ms左右（音频）将视频延迟到45ms（音频引导视频）[1]。

在电影制作中，音频到视频的同步是一项常规任务，因为音频和视频通常是使用不同的设备录制的。因此，许多解决办法是在这个行业，拍手板是最传统的。现代解决方案使用的是时间码，有时是摄像机内置麦克风的音频和外部微p之间的时间扭曲磨练，但使用视觉内容作为对齐指南是不常见的。

我们在这项工作中的目标是开发一个独立于语言和说话人的解决方案，以解决假同步问题，只使用视频和音频流，可供电视视图。r.关键贡献是ConvNet体系结构和数据处理管道，使声音和嘴巴形状之间的映射能够从电视广播中区分学习，没有标记的数据。据我们所知，我们是第一个端到端的列车工作AV同步系统..

这个解决方案与许多不同的应用程序相关。我们证明了该方法可以应用于三个不同的任务：（一）确定视频中的假同步错误；（二）检测。说话人在一个有多张脸的场景中；和（Iii）唇阅读。所有这些任务的实验性能都非常强。在扬声器检测和唇读方面，我们的结果超过了t他在公共数据集、哥伦比亚[4]和OuluVS2[2]方面的最新进展。

1.1.相关工作

关于音频到视频的同步问题有大量的工作。其中大多数是基于电视接收机无法使用的方法（例如。将时间戳嵌入传输流）；相反，我们专注于只依赖视听数据的计算机视觉方法。

许多论文将音素识别作为解决假同步问题的代理任务。在Lewis等人中。[15]使用线性预测来提供音频中的音素识别和r生态识别音素与嘴的位置相关联，以提供假同步视频。Morishima等人[19]将人脸参数分类为viseme，并利用viseme进行音素映射来获取e同步。虽然[13]和[18]没有明确地将声音分类为音素，但它们的方法与上述方法相似，因为它们通过让说话人记录一个音素来开发模型元音字母T。无论是[13]还是[18]，都将人脸参数（如颌骨位置）与声音信号的FFT相关联。佐里奇和潘兹奇[29]利用神经网络来解决这个问题。多层进料。前向神经网络被训练来预测来自MFCC输入向量的Viseme。采用参数人脸模型进行视觉处理。我们不对声音进行中间分类嘴巴形状成元音或音素。

最近的论文试图在没有这种标签的情况下找到语音和视觉数据之间的对应关系。一些方法是基于规范相关分析（CCA）[3，22]或共进音频和视觉特征的TIA分析（CoIA）[20]。几何参数或二维DCT特征）。与我们最相关的工作是Marcharet等人的工作。[17]使用深层神经网络。基于N）的分类器，根据预定义的视觉特征（语音类似然、瓶颈特征等）来确定时间偏移。），而我们直接学习视觉特征。

与本文开发的体系结构相关的是Siamese网络[6]，其中学习了相似性度量，用于没有显式类标签的人脸分类。[23，27]也是值得注意的是，它们同时训练多流网络，其中输入具有不同的域。

2. 表征和架构

本节描述音频和视频输入的表示和网络体系结构。网络摄取每种数据类型的0.2秒剪辑。在数据集中（第3节），没有EX。plicit注释（例如。音素标签，或精确的时间偏移）给出了音频视频数据，但我们假设在电视广播中，音频和视频是通常的同步了。

该网络由两个不对称的音频和视频流组成，每一个都在下面描述。

2.1音频流

输入音频数据为MFC C值..这是一个表示的短期功率谱的声音在非线性梅尔尺度上的频率。每个时间步骤使用13个mel频带。The特征以100Hz的采样率计算，为0.2秒的输入信号提供20个时间步骤。

【论文翻译】Out of time: automated lip sync in the wild

图1.输入表示。左：时间表示为音频的热图。音频图像中的13行（A到M）编码13个MFCC特征中的每一个，它们代表不同频率下的功率。一箱一箱。右图：口腔区域的灰度图像。

表征

音频被编码为一个热图图像，表示每个时间步骤和每个Mel频带的MFCC值（参见图1）。图像的顶部和底部三行被反射以减少Boun。达利效应。以前的工作[9]也试图为类似的输入训练图像样式的ConvNet。

架构

我们使用的卷积神经网络灵感来自那些设计的图像识别..我们的层体系结构（图2）是基于VGGM[5]，但有修改的过滤器大小，以吸收输入的不寻常的维度。VGG-M采用的是尺寸为224×224像素的正方形图像，而我们的输入尺寸为20像素（时间步长），而另一方向只有13像素（因此，输入图像为13×20像素）。

2.2 视频流

表征

视觉网络的输入格式是口区域作为灰度图像的序列，如图1所示。5帧的输入尺寸为111×111×5（W×H×T），相当于0.2-seco在25Hz帧速率下的NDS。

架构

我们的体系结构基于[7]，它是为视觉语音识别的任务而设计的。特别是，该体系结构基于早期融合模型，该模型紧凑且快速。火车。对conv1滤波器进行了修改，以摄取5通道输入。

【论文翻译】Out of time: automated lip sync in the wild

图2.双流ConvNet架构。两条溪流同时训练。

2.3 损失函数

训练目标是音频和视频网络的输出对于真对是相似的，对于假对是不同的。具体地说，网络之间的欧几里德距离吞吐量被最小化或最大化。我们建议使用对比损失（方程1），最初提出的训练暹罗网络[6]。v和a是视频和音频流的fc7向量，分别。音频[0，1]是音频和视频输入之间的二进制相似度量。

【论文翻译】Out of time: automated lip sync in the wild

这一点的另一种方法是将问题作为分类（在同步/关闭同步时，或使用合成数据进入不同的偏移量箱中）来解决该问题，但是我们无法实现收敛。行政长官使用这种方法。

2.4 训练

训练过程是对单流ConvNet[14，24]的通常过程的适应，并受到[6，23]的启发。然而，我们的网络是不同的，因为它由不相同的strea组成ms，两组独立参数以及来自两个不同领域的输入。利用具有动量的随机梯度下降来学习网络权值。同时学习网络两个流的参数。

数据增强

应用数据增强通常会提高验证性能，并减少ConvNet图像分类任务中的过度拟合[14]。对于音频，在±10%范围内随机改变音量.我们不改变音频播放速度，因为这可能会影响重要的定时信息。对于错误的例子，我们及时采取随机作物。对于视频，我们采用标准在Image Net分类任务中使用的增强方法[14，24]（例如。随机裁剪，翻转，移色）。单个转换应用于单个剪辑中的所有视频帧。

细节

我们的实现基于MATLAB工具箱Mat ConvNet[26]，并在具有12GB内存的NVIDIA Titan X GPU上进行了培训。网络进行批量归一化训练[10]..学习率为10觰到104被使用，这比通常用于训练具有批处理规范化的ConvNet的速度要慢。训练在20个历元后停止，或验证误差没有改善3个历元时停止时代，以较早者为准。

3 数据集

【论文翻译】Out of time: automated lip sync in the wild

图3.BBC News视频的静止图片

在本节中，我们描述了用于自动生成用于训练唇同步系统的大规模视听数据集的管道。利用所描述的方法，我们收集了几个h来自BBC视频的演讲时间，涵盖了数百名发言者。我们从BBC在2013年到2016年间录制的新闻节目开始（图3），因为大量不同的人出现了i新闻，与固定演员的戏剧不同。对培训，验证和测试集进行时间划分，每个集合对应的视频日期如表1所示..

处理管道概述见图4。管道的视觉部分是基于Chung和Zisserman[7]使用的方法，我们在这里给出了该方法的简要草图..一，射击界线确定通过比较连续帧之间的颜色直方图[16]。然后对每个帧执行基于HOG的[12]的人脸检测方法，并使用K将人脸检测分组到帧之间的LT跟踪器[25]..我们丢弃视频中出现多个面部的任何剪辑，因为在这个场景中，扬声器是不知道的。

【论文翻译】Out of time: automated lip sync in the wild

表1.数据集统计：记录日期，以及真实（正）和假口槽音视频训练样本的数量，face track的小时数..

【论文翻译】Out of time: automated lip sync in the wild

图4.管道生成视听数据集。

管道的音频部分是直截了当的。使用Mel频率倒谱系数（M FCC）[8]特征来描述音频，这是语音识别系统中常用的..否其他预处理是在音频上执行的。

3.1汇编培训数据

【论文翻译】Out of time: automated lip sync in the wild

图5.获取真假音视频对子的过程

真正的音视频对是通过拍摄一个5帧视频剪辑和相应的音频剪辑来生成的..只有音频被随机移动最多2秒以产生合成假音频视频对。这如图5所示。我们从同一个剪辑中提取音频，这样网络就学会了识别对齐，而不是扬声器。

细化训练数据

使用该方法生成的训练数据是嘈杂的，因为它包含声音和嘴巴形状不相关的视频（例如。配音视频）或非同步

网络最初是在这种噪声数据上进行训练的，训练后的网络被用来通过拒绝超过阈值的距离的正对来丢弃训练集中的假阳性。A net然后对这些新数据进行重新培训。

讨论

该方法不需要对训练数据进行注释，与以前的一些基于音素识别的工作不同。我们训练音频-视频对，这种方法的优点是可用数据的数量几乎是无限的，获取它的成本是最小的（几乎任何从互联网下载的语音视频都可以用于培训）。关键的假设是我们下载的大多数视频都是近似同步的，尽管有些视频可能有假同步错误。ConvNet损失函数和训练通常可以容忍数据有些嘈杂。

4.实验

在本节中，我们使用经过训练的网络来确定视频中的假同步错误。每个流的256维fc7向量被用作表示音频和视频的特征。to ob在信号之间的相似性度量中，取特征的欧几里得距离。这与训练时使用的距离函数相同。直方图（图6）显示了度量的分布。

【论文翻译】Out of time: automated lip sync in the wild

图6.欧几里德距离的分布为真和假音视频对，使用单一的0.2秒样本。请注意，这是在嘈杂的验证数据上，其中可能包括非剪辑。演讲者或配音视频。

4.1确定嘴唇同步错误

为了找到音频和视频之间的时间偏移，我们采取了滑动窗口的方法。对于每个样本，在±中计算一个5帧视频特征和所有音频特征之间的距离。1秒的射程。正确的偏移量是当这个距离最小时。然而，正如表2所示，并不是所有的样本在一个剪辑是有区别的（例如，可能有样本，在其中没有任何东西）是在那个特定的时候说的），因此每个剪辑都取了多个样本，然后平均。典型的响应图如图8所示。

评价

音频和视频之间的精确时间偏移是不知道的。因此，评估是手动完成的，如果假同步错误不是detec，则同步被认为是成功的给人类的桌子。我们从数据集的一部分中随机抽取数百个剪辑，这些剪辑已经被保留用于测试，如第3节所述。成功率见表2。.

【论文翻译】Out of time: automated lip sync in the wild

表2在人类可探测范围内的准确性。

还在韩国和日本的视频样本上进行了实验（图7），以表明我们的方法在不同的语言中工作。质的结果是非常好的，并将是AVA。从我们的研究页面。

性能

数据准备流水线和网络的运行速度明显快于中型笔记本电脑的实时运行速度（苹果MacBook Pro与NVIDIA Ge Force GT750M图形），但面部除外检测步骤（外部应用程序），实时运行在×0.3左右..

4.2应用:主动扬声器检测

【论文翻译】Out of time: automated lip sync in the wild

图8.对于不同的偏移值，音频和视频功能之间的平均距离，在一个剪辑上平均。实际偏移位于低谷..这里显示的三个例子片段是为了区别你的场景。左：同步AV数据；中：音频引导视频；右：音频和视频不相关。

AV同步问题和主动扬声器检测问题密切相关，因为视频和伴随音频之间的对应关系必须建立。因此，可以扩展同步方法来确定多个人脸存在的场景中的说话人。我们定义了时间偏移的置信度（synch）值化误差）作为欧几里德距离的最小值和中值之间的差值（例如。对于图8中的两个地块，此值约为6到7）。在一个多主题的场景中，人脸自然是音频和视频对应度最高的人..一个非扬声器应该有一个接近零的相关性，因此也是一个非常低的分数。

与单模态主动扬声器检测方法不同的是，我们的方法也可以检测到人在说话的情况，但与音频无关（例如）。In du选项卡视频）。

评估

我们使用数据集（图9）和Chakravarty等人的评估协议来测试我们的方法。[4].目的是确定谁是说话人在一个多主体的场景..

【论文翻译】Out of time: automated lip sync in the wild 图9.哥伦比亚数据集的静止图像[4]。

该数据集包含6个扬声器，其中5个（贝尔、博林格、利伯曼、长、病）用于测试。使用剩余扬声器（Abbas）在Poin上的注释设置分数阈值其中ROC曲线与对角线相交（误差率相等）。

我们在表3中报告了F1分数。每个测试样本的分数在10帧或100帧窗口上平均。演出几乎是完美的。对于100帧窗口。增加平均窗口的大小的缺点是，该方法不能检测到人在很短的时间内说话的例子；尽管这是在这种情况下不是问题。

【论文翻译】Out of time: automated lip sync in the wild

表3哥伦比亚扬声器检测数据集上的F1分数。[4]的结果已从他们论文的图3b中数字化，精确到±0.5%左右

4.3应用：唇部阅读

为任何任务训练一个深度网络都需要大量的数据，但对于唇读等问题，大规模的注释数据的收集可能会非常昂贵。但是，没有标签口语视频是丰富和容易获得。

同步网络的一个有用的副产品是它使非常强的嘴描述符能够在没有任何标记数据的情况下被学习。我们利用这个结果在O上设置了新的最新技术乌卢VS2[2]数据集。这包括52个被试说出相同的10个短语（例如。“谢谢”、“你好”等）或10个预定的数字序列。它是在一个独立于扬声器的实验中评估的，其中12个指定的主题被保留用于测试。只有视频流用于训练和测试，即。这是一个“唇读”实验，而不是视听语言认知的实验haploid generation 单倍体后代（代号）

实验装置

本实验采用一个简单的具有一层和250个隐藏单元的单向LS TM分类器..设置如图10所示。LSTM网络摄取视觉特征（fc7**）来自5帧滑动窗口的ConvNet），一次移动1帧，并在序列末尾返回分类结果。

训练细节

我们对递归网络的实现是基于Caffe[11]工具箱的。该网络采用Stocastic梯度下降训练，学习率为10°C。梯度是反向传播的爱德为剪辑的全长。使用Softmaxlog损失，这是典型的n路分类问题..这里n=10表示10个短语或数字序列。损失只在f处计算时间步长。

【论文翻译】Out of time: automated lip sync in the wild

图10.网络配置为唇读实验..在LS TM培训时，ConvNet权重没有更新。

【论文翻译】Out of time: automated lip sync in the wild

表4在OuluVS2上测试集合分类精度，正面视图。

评估

我们将我们的结果与以前在这个数据集上的最新进展进行了比较；也比较了相同的LS TM设置，而不是在Image Net[21]上预先训练的VGG-M[5]卷积网络。我们报告结果见表4。特别值得注意的是，我们的结果超过了[7]，这是使用一个在一个非常大的标记数据集上预先训练的网络获得的。

5.结论

我们已经证明，一个两流ConvNet可以训练同步音频到嘴的运动，从自然的语音视频，这是容易获得的。这种方法的一个有用的应用在我身上迪亚玩家，其中假同步错误可以在运行时在本地机器上纠正。此外，该方法还可以推广到任何有用的问题，即学习两者之间的相似度量。不同领域的相关数据。

我们还表明，训练后的网络有效地工作在视频中的扬声器检测和唇读任务。

【论文翻译】Out of time: automated lip sync in the wild

1.介绍

1.1.相关工作

2. 表征和架构

2.1音频流

表征

架构

2.2 视频流

表征

架构

2.3 损失函数

2.4 训练

数据增强

细节

3 数据集

3.1汇编培训数据

细化训练数据

讨论

4.实验

4.1确定嘴唇同步错误

评价

性能

4.2应用:主动扬声器检测

评估

4.3应用：唇部阅读

实验装置

训练细节

评估

5.结论

相关推荐