【论文翻译】Out of time: automated lip sync in the wild
1.介绍
1.1.相关工作
2. 表征和架构
2.1音频流
图1.输入表示。左:时间表示为音频的热图。音频图像中的13行(A到M)编码13个MFCC特征中的每一个,它们代表不同频率下的功率。一箱一箱。右图:口腔区域的灰度图像。
表征
音频被编码为一个热图图像,表示每个时间步骤和每个Mel频带的MFCC值(参见图1)。图像的顶部和底部三行被反射以减少Boun。达利效应。以前的工作[9]也试图为类似的输入训练图像样式的ConvNet。
架构
我们使用的卷积神经网络灵感来自那些设计的图像识别..我们的层体系结构(图2)是基于VGGM[5],但有修改的过滤器大小,以吸收输入的不寻常的维度。VGG-M采用的是尺寸为224×224像素的正方形图像,而我们的输入尺寸为20像素(时间步长),而另一方向只有13像素(因此,输入图像为13×20像素)。
2.2 视频流
表征
视觉网络的输入格式是口区域作为灰度图像的序列,如图1所示。5帧的输入尺寸为111×111×5(W×H×T),相当于0.2-seco在25Hz帧速率下的NDS。
架构
我们的体系结构基于[7],它是为视觉语音识别的任务而设计的。特别是,该体系结构基于早期融合模型,该模型紧凑且快速。火车。对conv1滤波器进行了修改,以摄取5通道输入。
图2.双流ConvNet架构。两条溪流同时训练。
2.3 损失函数
训练目标是音频和视频网络的输出对于真对是相似的,对于假对是不同的。具体地说,网络之间的欧几里德距离吞吐量被最小化或最大化。我们建议使用对比损失(方程1),最初提出的训练暹罗网络[6]。v和a是视频和音频流的fc7向量,分别。音频[0,1]是音频和视频输入之间的二进制相似度量。
这一点的另一种方法是将问题作为分类(在同步/关闭同步时,或使用合成数据进入不同的偏移量箱中)来解决该问题,但是我们无法实现收敛。行政长官使用这种方法。
2.4 训练
训练过程是对单流ConvNet[14,24]的通常过程的适应,并受到[6,23]的启发。然而,我们的网络是不同的,因为它由不相同的strea组成ms,两组独立参数以及来自两个不同领域的输入。利用具有动量的随机梯度下降来学习网络权值。同时学习网络两个流的参数。
数据增强
应用数据增强通常会提高验证性能,并减少ConvNet图像分类任务中的过度拟合[14]。对于音频,在±10%范围内随机改变音量.我们不改变音频播放速度,因为这可能会影响重要的定时信息。对于错误的例子,我们及时采取随机作物。对于视频,我们采用标准在Image Net分类任务中使用的增强方法[14,24](例如。随机裁剪,翻转,移色)。单个转换应用于单个剪辑中的所有视频帧。
细节
我们的实现基于MATLAB工具箱Mat ConvNet[26],并在具有12GB内存的NVIDIA Titan X GPU上进行了培训。网络进行批量归一化训练[10]..学习率为10觰到104被使用,这比通常用于训练具有批处理规范化的ConvNet的速度要慢。训练在20个历元后停止,或验证误差没有改善3个历元时停止时代,以较早者为准。
3 数据集
图3.BBC News视频的静止图片
在本节中,我们描述了用于自动生成用于训练唇同步系统的大规模视听数据集的管道。利用所描述的方法,我们收集了几个h来自BBC视频的演讲时间,涵盖了数百名发言者。我们从BBC在2013年到2016年间录制的新闻节目开始(图3),因为大量不同的人出现了i新闻,与固定演员的戏剧不同。对培训,验证和测试集进行时间划分,每个集合对应的视频日期如表1所示..
处理管道概述见图4。管道的视觉部分是基于Chung和Zisserman[7]使用的方法,我们在这里给出了该方法的简要草图..一,射击界线确定通过比较连续帧之间的颜色直方图[16]。然后对每个帧执行基于HOG的[12]的人脸检测方法,并使用K将人脸检测分组到帧之间的LT跟踪器[25]..我们丢弃视频中出现多个面部的任何剪辑,因为在这个场景中,扬声器是不知道的。
表1.数据集统计:记录日期,以及真实(正)和假口槽音视频训练样本的数量,face track的小时数..
图4.管道生成视听数据集。
管道的音频部分是直截了当的。使用Mel频率倒谱系数(M FCC)[8]特征来描述音频,这是语音识别系统中常用的..否其他预处理是在音频上执行的。
3.1汇编培训数据
图5.获取真假音视频对子的过程
真正的音视频对是通过拍摄一个5帧视频剪辑和相应的音频剪辑来生成的..只有音频被随机移动最多2秒以产生合成假音频视频对。这如图5所示。我们从同一个剪辑中提取音频,这样网络就学会了识别对齐,而不是扬声器。
细化训练数据
使用该方法生成的训练数据是嘈杂的,因为它包含声音和嘴巴形状不相关的视频(例如。配音视频)或非同步
网络最初是在这种噪声数据上进行训练的,训练后的网络被用来通过拒绝超过阈值的距离的正对来丢弃训练集中的假阳性。A net然后对这些新数据进行重新培训。
讨论
该方法不需要对训练数据进行注释,与以前的一些基于音素识别的工作不同。我们训练音频-视频对,这种方法的优点是可用数据的数量几乎是无限的,获取它的成本是最小的(几乎任何从互联网下载的语音视频都可以用于培训)。关键的假设是我们下载的大多数视频都是近似同步的,尽管有些视频可能有假同步错误。ConvNet损失函数和训练通常可以容忍数据有些嘈杂。
4.实验
在本节中,我们使用经过训练的网络来确定视频中的假同步错误。每个流的256维fc7向量被用作表示音频和视频的特征。to ob在信号之间的相似性度量中,取特征的欧几里得距离。这与训练时使用的距离函数相同。直方图(图6)显示了度量的分布。
图6.欧几里德距离的分布为真和假音视频对,使用单一的0.2秒样本。请注意,这是在嘈杂的验证数据上,其中可能包括非剪辑。演讲者或配音视频。
4.1确定嘴唇同步错误
为了找到音频和视频之间的时间偏移,我们采取了滑动窗口的方法。对于每个样本,在±中计算一个5帧视频特征和所有音频特征之间的距离。1秒的射程。正确的偏移量是当这个距离最小时。然而,正如表2所示,并不是所有的样本在一个剪辑是有区别的(例如,可能有样本,在其中没有任何东西)是在那个特定的时候说的),因此每个剪辑都取了多个样本,然后平均。典型的响应图如图8所示。
评价
音频和视频之间的精确时间偏移是不知道的。因此,评估是手动完成的,如果假同步错误不是detec,则同步被认为是成功的给人类的桌子。我们从数据集的一部分中随机抽取数百个剪辑,这些剪辑已经被保留用于测试,如第3节所述。成功率见表2。.
表2在人类可探测范围内的准确性。
还在韩国和日本的视频样本上进行了实验(图7),以表明我们的方法在不同的语言中工作。质的结果是非常好的,并将是AVA。从我们的研究页面。
性能
数据准备流水线和网络的运行速度明显快于中型笔记本电脑的实时运行速度(苹果MacBook Pro与NVIDIA Ge Force GT750M图形),但面部除外检测步骤(外部应用程序),实时运行在×0.3左右..
4.2应用:主动扬声器检测
图8.对于不同的偏移值,音频和视频功能之间的平均距离,在一个剪辑上平均。实际偏移位于低谷..这里显示的三个例子片段是为了区别你的场景。左:同步AV数据;中:音频引导视频;右:音频和视频不相关。
AV同步问题和主动扬声器检测问题密切相关,因为视频和伴随音频之间的对应关系必须建立。因此,可以扩展同步方法来确定多个人脸存在的场景中的说话人。我们定义了时间偏移的置信度(synch)值化误差)作为欧几里德距离的最小值和中值之间的差值(例如。对于图8中的两个地块,此值约为6到7)。在一个多主题的场景中,人脸自然是音频和视频对应度最高的人..一个非扬声器应该有一个接近零的相关性,因此也是一个非常低的分数。
与单模态主动扬声器检测方法不同的是,我们的方法也可以检测到人在说话的情况,但与音频无关(例如)。In du选项卡视频)。
评估
我们使用数据集(图9)和Chakravarty等人的评估协议来测试我们的方法。[4].目的是确定谁是说话人在一个多主体的场景..
图9.哥伦比亚数据集的静止图像[4]。
该数据集包含6个扬声器,其中5个(贝尔、博林格、利伯曼、长、病)用于测试。使用剩余扬声器(Abbas)在Poin上的注释设置分数阈值其中ROC曲线与对角线相交(误差率相等)。
我们在表3中报告了F1分数。每个测试样本的分数在10帧或100帧窗口上平均。演出几乎是完美的。对于100帧窗口。增加平均窗口的大小的缺点是,该方法不能检测到人在很短的时间内说话的例子;尽管这是在这种情况下不是问题。
表3哥伦比亚扬声器检测数据集上的F1分数。[4]的结果已从他们论文的图3b中数字化,精确到±0.5%左右
4.3应用:唇部阅读
为任何任务训练一个深度网络都需要大量的数据,但对于唇读等问题,大规模的注释数据的收集可能会非常昂贵。但是,没有标签口语视频是丰富和容易获得。
同步网络的一个有用的副产品是它使非常强的嘴描述符能够在没有任何标记数据的情况下被学习。我们利用这个结果在O上设置了新的最新技术乌卢VS2[2]数据集。这包括52个被试说出相同的10个短语(例如。“谢谢”、“你好”等)或10个预定的数字序列。它是在一个独立于扬声器的实验中评估的,其中12个指定的主题被保留用于测试。只有视频流用于训练和测试,即。这是一个“唇读”实验,而不是视听语言认知的实验haploid generation 单倍体后代(代号)
实验装置
本实验采用一个简单的具有一层和250个隐藏单元的单向LS TM分类器..设置如图10所示。LSTM网络摄取视觉特征(fc7**)来自5帧滑动窗口的ConvNet),一次移动1帧,并在序列末尾返回分类结果。
训练细节
我们对递归网络的实现是基于Caffe[11]工具箱的。该网络采用Stocastic梯度下降训练,学习率为10°C。梯度是反向传播的爱德为剪辑的全长。使用Softmaxlog损失,这是典型的n路分类问题..这里n=10表示10个短语或数字序列。损失只在f处计算时间步长。
图10.网络配置为唇读实验..在LS TM培训时,ConvNet权重没有更新。
表4在OuluVS2上测试集合分类精度,正面视图。
评估
我们将我们的结果与以前在这个数据集上的最新进展进行了比较;也比较了相同的LS TM设置,而不是在Image Net[21]上预先训练的VGG-M[5]卷积网络。我们报告结果见表4。特别值得注意的是,我们的结果超过了[7],这是使用一个在一个非常大的标记数据集上预先训练的网络获得的。
5.结论
我们已经证明,一个两流ConvNet可以训练同步音频到嘴的运动,从自然的语音视频,这是容易获得的。这种方法的一个有用的应用在我身上迪亚玩家,其中假同步错误可以在运行时在本地机器上纠正。此外,该方法还可以推广到任何有用的问题,即学习两者之间的相似度量。不同领域的相关数据。
我们还表明,训练后的网络有效地工作在视频中的扬声器检测和唇读任务。