Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

研究方向由离散语音情感分类转变为连续语音情感识别了,首先需要了解这二者的区别。

  1. 从分类问题转为回归问题,以便能够对连续的情感维度进行建模
  2. 片段级别的情感标签转换为时间连续标签

连续语音情感识别面对的问题:

  1. 缺乏可靠的来自评估群体的黄金标准
  2. 面临训练模型过程中数据稀缺性的问题

对于问题一,目前常通过最大化相关系数或视听特征与情感评分的互信息估计RL模型。对于问题二,文献中通常使用SVR进行情感预测;后来提出使用合作学习方式,从未标记的语音中选取包含最多信息的实例。


文章的主要工作

  1. 提出使用基于象限的时间划分来估算情感注释的RL,完成特征选择。
  2. 定义了一个动态的基于共识的合作策略,来预测来自多个SSRM的情感。主要方法是首先为每一个说话人建立一个SSRM,然后应用合作策略,合并不同SSRM的响应结果,同时动态选择观察窗口,并在该窗口中估计响应的一致性。本文提出的合作方法可以在某一语音序列上单独训练成新的说话人模型,再嵌入进系统中。另外,沿着观察窗口的动态适应性使得系统可以自动选择最一致的模型。
  3. 在RECOLA数据集上评估模型的性能。

系统框架与模型算法

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

单一说话人回归模型

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

  • 声学特征提取

使用OpenSMILE提取ComPARE特征集,包括4个能量特征、55个频谱特征和6个声学特征,再计算他们的一阶导数,得到共130个LLD。

  • 黄金标准估计

提出了一种新的加权平均策略,用于保持原始情感注释动态(与文献Prediction of asynchronous dimensional emotion ratings from audiovisual and physiological data中的类似)。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

其中,Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models表示每句话评估者的数量,d表示情感的每个维度,即d={a,v},Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models表示每个评估者,评估值的偏移量均相同,为Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models,由公式1-3计算得到。Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models为其余Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models-1个评估者Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models标注的平均成对皮尔逊相关系数,并且有Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models,表示由评估者Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker ModelsContinuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models提供标注的正皮尔逊相关系数。

在计算中,不考虑负相关系数的标注,从而避免在标准化过程中出现不必要的补偿效应。

  • 基于象限的时间划分QBTD

根据二维情感表示理论,每一个象限传达了情感的特定特征,本文建议考虑这种特殊性从而选择相关的特征子集来估算RL。首先将Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models和相关声学特征Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker ModelsContinuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models。通过拼接单个象限的所有段来执行分段。这样做的优点是避免特征选择受到数量多的象限的误导。

  • RL估计和特征选择

根据文献Correcting time-continuous emotional labels by modeling the reaction lag of evaluators,假设每个说话人的RL不同,并且同一说话人的情感维度在6个等级之间的变化可以忽略不计,用基于相关性的黄金标准估计补偿这种影响。而本文将最优的RL估计与在二维唤醒价空间上每个象限的特征选择相关联,以便进行特征选择。

得到Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models之后,对于每个象限和在[0,0.4,8]s的可变的RL值,对应的黄金标准片段以时间RL后移,并计算CFS。使CFS最大的RL定义为最优Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models,对于给定的维度可得到2个最优值,因此可对每一个维度的两个方向的最优值与相应片段长度加权平均,以估算最终的RL。最后将相应的黄金标准以RL的时间移回来可得到注释延迟的补偿。

结果表明,唤醒维度的RL=3.89s±1.16s,效价维度的RL=4.52s±2.15s,即唤醒维度主观性更少,可用更少的时间评估。特征选择结果如图所示

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

  • 特征归一化和线性回归

使用Z-score方法归一化特征,其均值和标准差将作为参数存储在SSRM中,用于后续的合作回归。使用SIMPLS算法对所选特征做偏最小二乘法回归,对说话人的整个语音进行连续块拆分交叉验证(10次)提取出最优的LVa和LVu。

合作回归模型CRM

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

CRM将每一个SSRM的输出作为输入,仅根据表现出共识的预测得到最终的情感预测。合作原理基于双重策略,首先,每个SSRM应用在一个新的说话人Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models的语音上,产生单独的预测响应。然后只保留Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models个预测中最一致的预测,合并产生最终的预测。在动态变化的窗口中使用相互一致性相关系数Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models(CCC)计算这种一致性,公式如下:

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    其中Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models表示皮尔逊相关系数(CC),Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models表示标准差,Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models表示均值,三者在观测时间间隔T上假设y1和y2处于稳态下计算的。由于需要选择最优的持续时间和使用滑动窗口,模型的预测输出可能会有重叠,但这些预测最终会进行逐时平均。最终在8s内应用移动平均产生最终的平滑响应。

实验

数据集

    文章使用RECOLA数据集评估提出模型的性能。该数据集是一个多模态的法语数据集,包括23个公开的情感语音序列,每个序列长5min,并在唤醒维和效价维上进行了标注。

SSRM的训练和优化

    绘制了从每一个SSRM得到的CCC、CC、RMSE和CFS。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

结论:从声学特征上来看,唤醒维比效价维更好,与文献中的一致,即与效价维相比,唤醒维展现了与声学特征更强的相关性。

CRM的整体性能

    使用留一法评估CRM的性能,以保证说话者在测试系统时的独立性。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:声学特征预测唤醒维的能力更好,CRM中弱预测变量PLS的组合与文献Emotional audiovisual speech synthesis based on PAD中的提升策略类似,其性能可与文献“Prediction of asynchronous dimensional emotion ratings from audiovisual and physiological data”和“AV+EC 2015–The first affect recognition challenge bridging across audio, video, and physiological data”中在完整的数据集上训练的机器学习方法相媲美。

包括SSRM的CRM

    1)分析了每个说话人的SSRM参与合作次数,注意到存在少部分的人没有参与到合作原则中。2)分析了这些说话者的黄金标准注释总变化较小,即注释时基本保持稳定。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:系统可以通过动态选择合作成员以确保具有低泛化能力的SSRM模型不会降低整体的预测性能。

与标准方法的比较

    另外设置两个模型AVERAGE和GLOBAL,前者为所有SSRM的输出平均,不使用合作策略;后者为对整个训练集使用唯一的PLS模型训练。其中,后者将无法灵活的添加新语音序列。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:使用基于合作策略的CRM具有更好的性能。

基于估算RL的黄金标准与特征同步

    本文提出的模型中,对每个SSRM使用估算的RL进行了黄金标准与声学特征的同步。将其与不使用估算RL回移黄金标准的方法(即不进行同步)进行对比,比较CCC的值。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:在两个维度上使用同步的模型均展现更好的性能。

SSRM的QBTD优化

    本文提出分别对每个象限的所有段的拼接进行划分段处理,为了进行对比,使用给定情感维度的所有象限对SSRM进行全局优化,比较二者的CCC。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:使用QBTD的局部优化性能更好。原因是,QBTD可以选择与二维唤醒效价空间的每个象限相关性较高的声学特征。并且通过对声学特征的分析知道,它们强烈依赖于象限,尤其是效价维。

评估者之间的一致性与预测性能的相关性

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:通过对每个说话人评价的平均成对皮尔逊相关系数CC进行评估,预测效果与评价者之间的一致性成正相关,并且具有较强的线性相关性。此外,没有发现CC与性别的关联,证明提出的模型不受说话人性别限制和说话者的影响。

PLS和SVR的比较

    在默认设置下,将使用PLS的CRM与SVR进行比较,SVR的设置与文献“LIBSVM: A library for support vector machines”中的一致,比较结果如图。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:尽管在验证SSRM中SVR的效果更好,但PLS对于过拟合更稳健,可显著提高测试集性能。本文的结论是弱预测器比复杂的算法更能提升性能。

预测性能的动态评估

    由于录制的语音时间较长,需要衡量预测的紧密度,因此在测试中,对每个预测使用了范围在[5, 300]s内的滑动窗口,根据相应的黄金标准计算了它们在该分段内的CCC和CC。给定一个w0,计算在相同长度w0的所有段的CCC和CC并提取它们的最大值。

Continuous Estimation of Emotions in Speech by Dynamic Cooperative Speaker Models

    结论:窗口长度减小,性能指标增加,即预测在较小的时间间隔内能达到较高的水平。但窗口长度过小(小于4s),CCC和CC的重要性降低,这是因为它们计算的可靠性取决于数据量大小。因此文章认为观察窗口长度小于4s是无意义的。