《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记

1. 背景

从2019年作者Fan在论文 Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling 中定义了 TOWE(Target-oriented Opinion Words Extraction)任务,旨在从评论文本中抽取给定(target aspect)对应的观点词(opinion Words)。

因为target aspect是需要提前给定的,而且需要标注他们之间的关系用于训练,所以标注量很大。

考虑到标注大量细粒度情感分析数据是耗时且困难的,这篇论文提出了从迁移学习的角度出发,提出潜在观点迁移网络,从资源丰富的评论情感分类中迁移潜在的观点知识来提升TOWE。


2. 介绍

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
其中红色的表示opinion target 也就是我们平常说的aspect term。蓝色的情感词,箭头表示的是情感词指向的opinion target。

由于缺乏注释数据,TOWE数据集很少,严重限制了TOWE的性能。在实际场景中,用户通常在评论中引入了大量的目标。注释者很难识别一个句子中所有的方面并定位到相应的意见词。所以这就限制了模型的有效性

相比之下,有很多情感分类的数据集可以获取,里面包含了实质性的观点信息和语义模式。因此,作者建议把潜在的opinion知识转移到TOWE中。但是还是有以下两个挑战:

  1. 情感分类数据集中的情感词是非注释的,转移之前要找到他们。
  2. 因为评论的情感分类不考虑target包含的信息,因此获得的潜在信息是整个句子的,且与目标无关。因此这些信息不能直接被TOWE使用。

提出了Latent Opinions Transfer Network (LOTN)模型。

对于第一个问题,我们首先在评论情绪分类数据集上训练一个基于注意力的Bi-LSTM,通过概率权重提取意见词。第二个问题,提出了一种有效的转换方法,将情感分类模型中的全局注意力分布转化为潜在的目标相关的观点词。

最后,我们通过辅助学习信号将这些捕获函数整合到我们的模型中。另外,我们加入了预训练模型的编码器,进一步引导TOWE模型学习潜在观点,证明了该方法的有效性。


3. 模型

3.1 TOWE问题重述

给定一个评论S = { w1 ,w2,…wt,…,wn},它是由一个意见目标wt和n个词组成的。使用{BIO}进行标记。
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
其中下划线表示意见目标。


3.2 训练前情绪分类模型

评论情绪分类(句子级)目的是检测评论文本的总体的情绪极性。

给定了一个评论序列,S = { s1 ,s2…,sm},通过word embedding 映射成向量表示{ w1 ,w2…wm},然后利用Bi-LSTM网络对单词表示{ w1 ,w2…wm}进行编码,生成上下文表示{hsc1,hsc2,…,hscm}。

注意机制被用来捕捉潜在的和全局的意见词。hsci的注意力权重ai被定义为:

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
其中hscavg表示为所有隐藏状态的平均值。

评论表示rsc是所有隐藏状态的加权和:
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
然后把rsc输入到一个线性层和softmax层来预测情绪标签。


3.3 潜在意见转移网络(LOTN)

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
LOTN主要分为两部分,第一部分是TOWE模块,即基于位置嵌入的Bi-LSTM,第二部分是评论情感分类模块,即基于注意力的Bi-LSTM。

LOTN通过两种不同的方法将潜在的观点从情感分类模块转移到TOWE模块。

首先,预训练的评论情绪分类模块获取的信息整合到TOWE模块的编码层,引入外部的意见信息。

其次,因为情感分类过程没有考虑目标的信息,所以预训练模块捕捉到的潜在观点词具有全局性、不依赖目标。为了解决这个问题,提出了一个启发式转化方法,通过考虑目标和其他词的位置信息,将全局注意力权重转化为目标相关词,然后通过一个辅助学习信号合并到TOWE中。


3.3.1 基于位置嵌入的Bi-LSTM

给定一个句子 s={ w1 ,w2…wn} ,其中包含方面词 wt
首先生成句子中每个单词到目标词的相对距离,用 li 表示
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
然后通过位置嵌入表 Epos ∈RL*d1 去获得位置嵌入,其中d1是嵌入维度,L是最大位置索引。

另外作者还是用了一个单词嵌入表 Eemb ∈R|V|*d2 获得词的语义表示。

每个单词的表示由字向量和对应该位置的位置向量串联而成:
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
“;”表示的是串联运算。这里的单词嵌入表

最后通过Bi-LSTM捕捉每个单词的上下文信息:
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
θt 是Bi-LSTM中的参数。上下文表示 hit 可以用来预测给定目标(target aspect)的观点词(情感词)。


3.3.2 Transferring Pretrained Encoder(转移预训练编码器)

为了转移潜在的观点知识,将任务的句子s输入到预训练的情绪分类模块,生成对应的 {hsc1,hsc2,…,hscm} 和注意力权重 {a1,a2,…,an}

从语义层面上看,预训练情绪分类模型的编码器包含了大量的隐含意见信息。因此把两个隐藏状态进行整合。

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
所有这里的 ri 即包含了任务特定的上下文信息,也包含了来自情感分类模块的外部opinion知识。


3.3.3 转移潜在的观点词(情感词)

提出了两种方法:

  1. Transformation Method
  2. 辅助学习信号(Auxiliary Learning Signal)

3.3.3.1 Transformation Method

情感分类模块中的注意力机制以概率权重的方式捕捉潜在的意见词(情感词),但是捕捉到的目标是全局的和目标无关的。

更接近意见目标的词更有可能成为目标的意见词。因此,我们通过目标和相关距离权重 ci 将目标信息引入到注意分布中:

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
n 是输入句子的长度,ai 表示的是情感分类模块计算出的注意力权重,t表示的是opinion target 在文中的位置。 |i-t| 表示的是单词 wiwt 之间的绝对距离。距离越近,权重越大。

归一化:

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
设置一个阈值 1/n 。如果大于阈值则表示这是一个潜在的,目标相关的观点词。
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记


3.3.3.2 辅助学习信号

yia 代表情感分类模块中的opinion知识,我们也可以通过辅助学习信号将这些潜在的观点知识整合到TOWE模块中。
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
其中 Waba 分别是权重矩阵和偏差矩阵,这里的 y 表示的是预测概率。Ⅱ(·)是指数函数。LONE通过优化辅助损失La来包含这些潜在的观点知识。有助于TOWE更好地解码目标的意见信息。


3.3.4 解码(Decoding)

LTON通过 ri 来预测 wi 的标记 yi∈{B,I,O} ,可以看成一个三分类问题,我们使用softmax层来计算预测概率:

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
TOWE任务的交叉熵损失函数定义如下:
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
在这里{B,I,O}对应的转化为标签{1,2,3},其中 yi 表示真实的标签。

LONE还通过辅助学习信号La来整合潜在的观点,所以,最终的损失函数定义如下:
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记
λ用来衡量辅助学习的重要性,可以手动调整,通过最小化损失函数J来获得最优的性能


4 实验

4.1 数据集

数据集:SemEval 2014 , SemEval 2015, SemEval 2016

Yelp Review 和 Amazon Review 用于预训练情感分类模块
《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记


4.2 结果

《Latent Opinions Transfer Network for Target-Oriented Opinion Words Extraction》阅读笔记


5.总结

本文针对TOWE(Target-oriented Opinion Words Extraction)子任务,对现有的模型进行了改进,通过迁移学习的知识,把预训练的情感分类中得到的opinion Word(情感词)传递给TOWE模型,避免了繁琐的手工标注信息。