DATN阅读笔记

原文链接: http://chenhao.space/post/c1174f04.html

Improving Multi-label Emotion Classiﬁcation via Sentiment Classiﬁcation with Dual Attention Transfer Network

基于双重注意力迁移网络的情感分类改进多标签情感分类

来源: 2018 EMNLP https://www.aclweb.org/anthology/D18-1137/

Introduction

目标：通过情感分类改进多标签情感分类(multi-label emotion classification)

方法：提出了一种新的迁移学习架构，将句子表示(sentence representation)分成两个不同的特征空间，通过双重注意力机制分别捕获一般的(general)情感词和其他重要的特定的(emotion-specific)情感词。

Sentiment analysis 一般是指情感极性二分类或三分类。

Emotion analysis 一般是指多标签情感分类，如：anger, anticipation, disgust, fear, joy, love, optimism, pessimism, sadness, surprise and trust.

多标签情感分类任务的大规模数据集不易获取，而且获取成本很高。但是情感极性分类任务(sentiment polarity classification task)获取数据集相对容易。

作者希望这些资源可以改进对于情感词的表征(sentiment-sensitive representations)，从而更准确地识别社交媒体上的emotions。

为了实现这一目标，作者提出了一种迁移学习方法。

迁移学习相关背景：

源域：具体地，在迁移学习中，我们已有的知识叫做源域(source domain)

目标域：要学习的新知识叫目标域(target domain)

大多数现有的迁移学习方法有两种：

1）假设源任务和目标任务共享相同的句子表征

2）把每个句子的表征划分为一个共享特征空间和两个特定于任务的特征空间

如果将这两种迁移学习方法应用到我们的场景(即多标签情感分类)。

第一种方法可能会使学习的句子表征更多地关注于一般的情感词，如“good”，而较少关注于其他情感模糊(sentiment-ambiguous)的词，如“shock”，它也是emotion analysis中的不可或缺的一部分。

第二种方法既能捕捉一般的情感词，又能捕捉特定(emotion-specific)的情感词。但是，某些情感词仅出现在源情感分类任务中，这些词在特定源的特征空间受到更多的关注，而在共享特征空间中受到较少的关注，因此在我们的emotion classification任务中将会忽略它们。

因此，作者提出了一个 shared-private (PS) model：

使用一个共享的LSTM层提取用于sentiment和emotion分类任务的共享的情感特征，再用一个特定于目标的LSTM层来提取特定的emotion特征。

但是呢，并不难保证这个简单的模型能够很好地区分这两个特征空间来提取共享特征和特定于目标的特征。

以Table 1中的T1句为例，由于 good 和 goodness 在训练数据中出现的频率高，共享层和特定任务层都将较高的注意权重分配给 good 和 goodness ，而将较低的注意权重分配给 fearless 。这种情况下，SP模型只能预测出 joy emotion，而忽视了 optimism emotion。

为了加强两个特征空间的正交性(两个特征空间关注的结果不要一样)，我们进一步引入了双重注意力机制(dual attention mechanism)，它将一个特征空间中的注意权重作为额外输入，以计算另一个特征空间中的注意权重，并显式地最小化两组注意权重之间的相似性。

Methodology

Base Model for Emotion Classification

对于输入的句子，emotion classification 的目的是识别其中包含的一种或多种 emotion。设 $x= (w_1,w_2,...,w_n)$ 为输入的句子， $\Large \epsilon$ 为预定义的emotion标签，因此，对于每个 $x$ ，我们的任务是预测它是否包含 $\Large \epsilon$ 中的一种或多种emotion。