Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts

融合语音和文字的句段级别情感识别技术

摘要:
(1)多模式情感识别的最新发展利用深度学习技术来实现卓越的性能,其模型基于适用于文本,音频和视觉的不同特征。这项工作的重点是跨深度学习模型的跨模式融合技术,用于从语音和相应的转录本中进行情感检测。
(2)研究了基于长短期记忆(LSTM)的递归神经网络(RNN)和带语音级描述符(utterance-level)的卷积神经网络(CNN)在语音情感识别中的应用。
(3)在这些模型上采用了不同的融合策略,以得到每个情感类别的总分。在为特定通道设计的神经网络中捕获每种情绪的通道内动态
(4)在IEMOCAP多模式情绪检测数据集上的与说话人和会话无关的实验证明了所提出方法的有效性。该方法产生了基于语音和文本的话语级情感识别的最新结果。

1. Introduction

文章基础
文本是情感识别的重要通道[1,2]。 具体的词语通常用来表达意向的情感。来自文本的情感分析与来自语音的情感识别任务非常相似。然而,言语中的情感暗示与语言内容中的情感暗示是不同的。 语音中的情感内容以语音特征的变化为特征,例如音调,能量,声音,响度和其他与频率相关的度量。
多通道方法利用来自多个通道的互补信息来改进情绪检测系统。
Early-fusion
多模态分析主要考虑特征级(feature-level fusion)融合(也称为早期融合early fusion)。 这是通过在将可用特性传递给模型之前在输入级别连接可用特性来实现的。
Late-fusion
决策级融合(decison-level fusion)的特点是为每个领域建立单独的模型。 这导致通过特定于领域的模型[16,17]有效地捕获通道内动态。最后的分类是通过加权平均融合上的决策投票来执行的。缺点: 当特征空间不同时,此类技术的性能将受到限制,因为它们无法捕获模态间的动力学。

本文的贡献
本文提出了针对文本和语音域的情感识别神经网络模型。我们采用各种融合技术[19]提供跨模态(inter-modality)的相关性,同时保留单独的模型以捕获模态内(intra-modality)的动态。通过使用文本和语音信号的联合模型,可以进一步改善模态动态。因此,早期和晚期融合技术都增强了单峰架构。
创新点:在基于深度学习的单模态情感检测系统上有效地融合了早期和晚期融合方法。

文章结构
第2节:介绍了从文本中识别情感的方法。
第3节:介绍了基于语音对情感进行分类的方法。
第4节:介绍了采用的各种融合策略。
第5节:讨论了实验评估。
第六节:结论。
Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts

2. Emotion Recognition from Text

这一部分介绍了基于文本的情感识别的特征提取和提出的神经网络框架。特征提取模块为其上下文相关性在基于LSTM的神经网络中建模的每个发声提供表示。

2.1. Feature Extraction(特征提取)
通过使用卷积神经网络(CNN)从话语转录中提取特征。基于神经网络的特征提取器(例如CNN)学习包含基于单词和单词概率的语义含义的输入语句的抽象表示。具有卷积和最大池化层的简单CNN用作特征提取器[20]。
CNN的输入表示是300维的预训练词向量。这些是从**Fast-Text嵌入(一个工具)**中提取的[21]。卷积层由三个大小分别为f1,f2,f3的卷积核组成,每个卷积核具有fout特征图(输出)。我们使用这些卷积核执行一维卷积,然后对其输出进行最大池化(maxpooling)。最后,将合并的特征投影到尺寸为DT的全连接层(dense layer)上,其经过**后的向量用作文本表示T∈R DT

2.2. LSTM RNN framework
该体系结构由一个LSTM循环层和3个全连接层组成。循环连接捕获用于对话语的给定文本进行分类的相关上下文信息。这有助于识别情绪,其中连续的单词为情绪类提供了额外的提示。每个话语(utterance)的DT维度特征被馈送到具有N1个循环连接的LSTM层。 完全连通的层中隐藏单元的数量由大到小依次为N2、N3和N4,最新的(N4)是情感类别的数量

3. Emotion Recognition from Speech

在特征提取阶段,为每个话语提取声学特征,并将其用于从声学特征构建用于情感识别的CNN。 这个CNN在图1中显示为“联合CNN模型”。这是因为,在第4节中,我们将利用这个模型进行早期融合,它具有更好的性能

3.1. Feature Extraction
使用openSMILE工具包[22]从语音信号中提取特征。基于IS13 ComParE1挑战[23]的特征提取可以使每个语音产生6373个特征。
详细特征参数

  • 功能集由LLD(例如音高,Mel频谱,响度,Mel频率倒频谱系数等)
  • 统计量度(HSD)(例如平均值,标准偏差,最小值,最大值等)组成。
    将这些特征进行Min-Max归一化和基于L2范数特征选择以将特征尺寸减小为Ds。 该基于低维语音的特征S∈R Ds用作CNN的输入。

3.2. CNN Framework
用于获得语音情感类的神经网络由两个具有ReLU**的卷积层组成,每个卷积层之后是一个最大池层。然后是三个完全连接的层。每个卷积层具有Nf个卷积核,每个卷积核的宽度为Nw。 卷积核的步长为1。将第二层卷积层的输出扁平化(flattened)后,然后将其送入大小为Nc2和Nc3的两个全连接的层。输出层具有情感标签数量的长度。

  • flattened层:将多维输入变成一维。
    第2节中介绍的基于LSTM的模型也可以用于语音。我们观察到,它也提供了类似的性能。然而,这项工作坚持使用CNN进行语音,因为它在融合方面比使用基于LSTM的系统产生更好的性能,这可能是因为完全不同的建模方法。

4. Fusion Techniques(融合技术)

该方法结合模型输出进行后期融合,将文本特征和声学特征相结合进行早期融合

4.1. Early Fusion
早期融合是最常见的融合技术之一。 在特征级融合中,我们结合了通过文本和语音的特征提取阶段获得的信息[24]。话语的最终输入表示为:
Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts
第3节中介绍的CNN语音模型也被视为情感检测的联合模型。 如图1所示。通过早期融合获得卷积层大小为UD =(T; S)的特征向量。 这有助于捕获同一模型中文本和语音之间的交互方式动态。 我们将此模型称为joint-CNN。

4.2. Late Fusion Techniques
在LSTM和joint-CNN情感识别器的输出考虑了三种类型的决策级融合。我们考虑联合模型与领域特定模型的后期融合。 除了在联合CNN模型中捕获的模式之外,它们还有助于捕获模式间(inter-modality)的动态。
4.2.1. Late Fusion-I
通过组合多个系统的分数来执行此决策级融合。如果在相似的特征空间上构建不同的模型(例如集成方法),则总和合并规则将非常有用
给定话语的平均融合输出得分由下式给出:
Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts
后期融合-I,对来自基于LSTM的文本情感识别器和joint-CNN模型的输出给予相同的权重。
4.2.2. Late Fusion-II
加权平均融合中给定发声的输出分数由下式给出:Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts
其中,w1,w2<=1,并且w1 + w2 =1。权重是使用试验和错误法根据验证数据的性能确定的。
4.2.3. Late Fusion-III
后验概率也可以使用乘积规则来组合[19]:
Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts
其中 j ′ ≠ j,j表示类索引。基本假设是特征空间是不同的且类条件独立的[19]。 这非常有用,因为我们正在构建一个特定于域的模型,并将其与具有不同特征表示的joint-CNN结合使用。通过使用后期融合技术,可进一步改善联合CNN系统的模式间动力学。

5. Experimental Evaluation(实验评估)

5.1. Dataset
多模态情感识别是使用交互式情感二元运动捕捉数据库(IEMOCAP) 进行的[25]。它是一个数据库,包含从10个说话者对之间的双向交互获得的音频,视频,转录和运动捕捉数据。这是用于多模式情感识别任务的最常用数据集之一。这些科目涉及情感互动,共分为五个部分,每个部分都有一对主题。 这些视频被分成带有9种分类和3维标签的情感注释的话语。IEMOCAP数据集具有大约12个小时的语音内容,并且是该任务最大的公开可用数据集之一。我们将情感分为六大类(愤怒,幸福,悲伤,中立,兴奋和沮丧)。每个记录至少由3个注释器标记。实验中使用了大多数人的情感标签一致的录音。

5.2. Experimental Procedure
**我们认为六个情感类别与最近关于多模式情感识别的文献保持一致。现有的有关基于语音的情感识别的大多数文献[3,5]仅考虑了其中四个类别(不包括兴奋和沮丧)。但是,由于类别之间的混淆程度较大,以及类别分布的变化,这些模型的六个类别的性能会下降。一些多模式系统仅考虑四到五个类别[26、27、28]。在类似的评估(四类分类任务)下,拟议的系统和基线优于此类系统,因此本文不包括它们进行比较
训练和验证数据是使用前四个会话(由120个视频(5810话语)中的8位发言人组成)创建的。会话5由31个视频(1623声)组成,用于测试。通过这种方法,我们可以确保训练后的模型看不到测试发言人和会话。验证集被选为训练数据的20%。
表1中显示了基于文本和语音的情感识别的超参数详细信息以及其他方法的其他参数。对于单模态和双模态体系结构,将使用初始学习率为0.001的Adam优化器以及交叉熵损失。对于CNN,对于LSTM,使用早停法(early-stopping criterion)标准进行40个epoch。 用6的耐心因子监视验证损失(泛化损失validation loss)。将0.2的dropout应用于LSTM层以进行正则化。 从文本中提取特征使用具有超参数的单层CNN,如表1所示。LSTM和CNN是使用Keras工具包实现的[29]。
Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts
多峰情绪识别通常在文献中使用
加权准确度(WA)或未加权准确度(UA)或F1分数(F1)**进行评估。

5.3. Baseline Systems(基线系统)
我们将提出的方法与最新的话语级别系统的性能进行比较。 此外,对话级别(dialog-level)的系统被认为是分析性能差异的原因,这是由于除了这些系统的话语级别功能之外还提供了上下文信息。

  1. Tensor融合网络(TFN)[18]:这是一种基于融合的方法,可对模型内和模型间的动力学进行显式建模。 单模,双模和三模交互在特定设计的融合层和推理层中聚合。
  2. 内存融合网络(MFN)[12]:这种方法利用称为增量内存注意力网络的融合机制来实现多视图顺序学习。
    该模型为话语级多模式情感识别系统提供了最新的结果。 我们将TFN和MFN视为我们的基准系统,尽管它们除了语音和文本外还使用视觉功能。
  3. 双向上下文LSTM(cLSTM)[24]:这是一个对话级别的情感识别器,它通过使用单独的LSTM对上下文的单峰和多峰特征进行分层建模来对话语进行分类。 该决定也受到邻近话语的影响。
  4. 交互式对话式记忆网络(ICON)[11]:这种方法使用全局记忆来对自身和说话者的影响进行分层建模。 它由自影响模块,动态全局影响模块和用于实现此目的的多跳内存组成。 该对话框级别的模型提供了最新的对话框级别的情感识别。 但是,对话级别的系统(例如ICON)需要发声的历史记录,这在实时人机交互中并不容易获得。

5.4. Results
Fusion Techniques for Utterance-Level Emotion Recognition Combining Speech and Transcripts
6. Conclusions
我们在深度学习模型上提出了新颖的融合技术,以改善多模式场景中的情绪识别。提议的基于文本和语音的模型上的早期和晚期融合技术的组合利用了跨语言和口语内容可用的补充信息。当在标准基准标记数据集上进行评估时,它们可以实现最好的话语级别识别性能。该性能接近用于多模式情感识别的最佳模型,该模型在决策过程中利用了自我和其他说话者的影响。这表明适当的建模和融合方法可作为从多种形式进行情绪识别的良好方向。未来的研究将集中于合并视频片段特有的视觉特征和模型,以帮助通过融合做出决策。