Unsupervised Sentiment Analysis with Signed Social Networks--阅读笔记
Abstract
背景:数量庞大的数据用户产生了大量的社交媒体数据,减慢了个人和公众情感分析的进度。
存在的挑战:
- 社交媒体数据往往带有噪声,且是不完整和快速发展的,这就需要设计一个复杂的学习模型。
- 情感标签难以收集,由于无法区分情感极性而进一步加剧了这个问题。
存在的机遇:
- 社交媒体数据在文字和用户交互包含丰富的情感信息,有助于情感分析。
- 目前的研究对具有正连接和负连接的有符号社交网络几乎没有注意。
主要工作:这篇文章研究了一个在有符号社交网络中进行无监督情感分析的新问题。具体来说,在有符号社交网络中引入了情感信息和隐含情感信号,并将其引入到情感模型中。
Introduction
这篇文章主要解决了以下两个问题:
- 用户之间积极和消极的互动是否显示出不同的情感极性?
- 如何以无监督的方式明确模拟用户之间的积极和消极的情感分析?
为解决这两个问题,提出了一个无监督情感分析框架SignedSenti,总结贡献如下:
- 验证了用户之间积极和消极的互动有助于揭示文本中不同的情感极性;
- 提出了一个新的框架SignedSenti,用于在正面和负面用户交互中利用文本术语中的显式情感信号和隐式情绪信号
用于无监督的情绪分析; - 在真实世界的有符号社交网络上验证了SignedSenti框架的有效性。
Problem Statement
-
T={t1,t2,...tm} be a set ofm text posts; -
F={f1,f2,...fd} be a set ofd textual terms; -
U={u1,u2,...un} be a set ofn users; -
O={o1,o2,...od} be a set ofl items; text-item relation matrixO∈{0,1}m∗l whereOi,j=1 if text postti is about itemoj , otherwiseOi,j=0 . - User-Text relation matrix
T∈0,1n×m such thatTi,j=1 if text posttj is posted by userui ,Ti,j=0 otherwise. - User-User relation matrix
A∈Rn×n whereAij=1 ,Aij=−1 andAij=0 represent positive, negative and missing links from userui touj , respectively.
Definition 1 Positive Linked Set:
如果
Definition 2 Negative Linked Set:
如果
Assumption 1 Signed Link Based Partial Order:
具有正连接的两个post的相似性大于具有负连接的两个post相似性,即:
Data Analysis
- Epinions:商品评价数据,用户可以通过评分去相信或不相信其他人的评价,当评分为1,2,3分为当做负连接,评分为4,5,6当做正连接;
- Slashdot:论文评价数据,用户可以标注其他人为自己的朋友或敌人,即对应正负连接。
Proposed Framework-SignedSenti
Basic Model for Unsupervised Sentiment Analysis
无监督情感分析本质上是聚类问题,它的基本模型可由如下非负矩阵分解问题构建:
-
U∈Rm×k 为text-sentiment cluster matrix,其中如果text postti 属于类cj 则Uij=1 ,否则Uij=0 。(m 为text post的总数,k 为情感类的总数) -
V∈Rd×k 为term-sentiment matrix, 其中每一行表示每个term在k 个情感类中的分布情况。(d 为term的总数) - 后半部分正则化项避免过拟合。
Sentiment Signals from Textual Terms
有些术语带有强烈的情感色彩,如“wonderful” 和 “appealing”表达积极的情感, “terrible” 和“disappointed”表达负面的情感。
根据情感词库SentiWordNet,定义了term-sentiment indication matrix
为了利用文本情感信号,我们强迫基本模型中的情绪矩阵
Exploiting Positive and Negative Interactions
如果
否则:
所以应该增加一个惩罚项来拉动
其中:
上述公式可改写为:
-
M 为稀疏矩阵,其中Mij=Mji=Mkk=−1 和Mik=Mki=Mjj=1 ,其他为0.
Objective Function of SignedSenti
- 参数
α 和β 分别控制来自terms和有符号社交网络的情感信号的贡献。
因上述目标函数难解,故放宽限制条件:
Optimization Algorithm for SignedSenti
固定V ,更新U :
固定U ,更新V :
算法框架:
Experiments
Experimental Setting
- 评估指标:聚类准确性
- 对比算法:
实验结果:
实验总结:提出的框架比其他算法效果更好!
-