TIMME: 一种针对多任务多关系的嵌入模型
⬆⬆⬆ 点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
社交网络上的意识形态分类任务有很广阔的应用场景。本工作从Twitter数据入手,获取Twitter数据后拟用图神经网络(Graph Neural Network)解决此问题。主流的图嵌入模型研究仅关注规模小而稀疏,且标签丰富的数据集,比如学术网络数据。许多真实应用场景,比如Twitter这种社交网络数据,规模大且连接稠密,但是标签却异常稀疏。这种大而稠密的数据使得主流嵌入模型效率很低,标签稀疏又非常容易产生过拟合现象。真实场景下的数据还往往具有特征不完全性和异质性的特点,进而带来更大的挑战。因此,我们提出了TIMME,一种针对多任务多关系的嵌入模型,利用多种关系类型作为补充来处理规模庞大而标签稀疏的图数据,并进一步提出了可以使得本模型能在特征缺失的情况下使用不完整的特征进行学习的方法。
肖之屏,UCLA CS 在读博士生, 导师为Prof. Yizhou Sun。当前的主要研究方向为社交网络上的数据挖掘。个人主页http://web.cs.ucla.edu/~patricia.xiao/。
一、Motivation:问题背景
什么是意识形态分类?在美国的政治环境中,意识形态可简单分为左倾(自由派)和右倾(保守派)。虽然在不同的社会议题上,普遍现象表明:不同的人对议题A左倾思想,并对议题B具有右倾思想,但是讲者在本工作中简化意识形态分类模型,认为每一个人只具有一种意识倾向,左倾or右倾。
讲者选择该研究课题的原因在于:对于像美国这样的普选制国家,意识形态分歧关系到美国民众生活的方方面面,尤其在大选年(2020)会更加关注意识形态的分歧,该研究课题具有一定的社会价值。此外,该研究课题面临了两个挑战性:
挑战一
如何采集普通人的意识形态数据?
解决方案:选择社交网络的数据作为切入点,由于普通人不像政治家通常在专门的网站上发表言论以及投票行为,对于普通人来说,并不能在公共场合集中地记录自己的政治立场,所以我们只能试图从其他方面,譬如推特上的行为,来寻找线索。
挑战二
如何基于有限的推特数据,尽可能地分析得知每一个的政治倾向?
解决方案:提出了TIMME模型。
为什么选择Twitter数据?讲者主要做了以下两点阐述。
原因一
Twitter提供了数据接口,可以合法、高效的获得Twitter提供的数据。
原因二
Twitter吸引了大量的政治家(具有非常明确的政治倾向),并将其认为是与公众交流互动的平台。政治家可作为采集数据的核心,是非常高质量的带标签的数据。
下图展示了Twitter数据的简单图结构,存在5种简单的关系模式:retweet、mention、like、reply、follow。
图1. Twitter数据集上不同关系的用户示例
同时,Twitter的图结构数据又带来了一些挑战:
1)规模庞大
2)异构性
3)不完整(经常缺失的feature)
4)标签稀缺(<1%的label)
二、Preliminaries:相关方法
idea1
图神经网络(Graph Neural Network)
基于图卷积神经网络(Graph Convolution Network, GCN)的延展与改进:在每一个neural network 的layer中,从每一个node进行,对该节点上一个layer的representation以及其neighbor的representation 进行统计、变换以计算当前layer下node的representation。
图2. 图卷积神经网络(GCN)的结构
idea2
多任务学习(Multi-Task Learning)
采用hard parameter-sharing:模型不仅仅只有一个objective,同时考虑多种目标函数,从某一层开始,神经网络开始分歧,产生task-specific layers。
图3. 多任务学习框架的结构
三、Methodology:TIMME数据和模型
讲者总结了本次工作的主要贡献:
(1)数据集
主要收集,整理,并公布了Twitter数据集,数据集中的特征缺失和标签极端稀疏的问题,普遍存在于绝大多数真实社交网络中,这对后续的研究者们带来了客观的研究挑战。本数据集可以供其他研究者们检验自己模型的可推广性。
(2)TIMME 模型
a.能够处理稀疏的标签 (label)
具体方法是,通过多任务学习来学习图模型的边,补足节点的label不充分的问题,由于很多节点没有label,而边信息十分丰富,从而缓解了单纯依靠节点标签引入的监督信息不足的问题。
b.能够处理多种关系类型 (multi-relational)
比只处理单种类型关系的模型更加灵活,同时能够发现关系之间存在的隐藏关系。
c.能够处理缺失的特征 (feature)
当存在一部分节点的特征缺失时,一种做法是采用one-hot embedding;另一种则是讲者提出的方法,将缺失部分的特征视作可学习的参数。这种处理方法有一些技术上的trick,可以参考本工作的代码。
具体地,一方面就数据集的获取方式而言,主要包括以下步骤:
Step 1: 从官网收集当前活跃的政治家名单 (congressman, cabinet members, president, etc.);
Step 2: 借助Google (自动) 寻找人名对应的Twitter账号;
Step 3: 按照一定的标准选取他们的followers & followees账号;
Step 4: 挖掘这些账号之间更多种类的互动行为,构建网络。
数据集的节点由政治家以及他们的部分存在关注或者被关注关系的一阶邻居构成,边是这些政治家之间存在的关系。根据对节点不同的筛选标准,可以构建了4个不同规模的数据集。
图4. 4种不同规模的数据集
PureP:只包含了政治家;
P50:政治家之外的人必须被50个政治家或者关注50个政治家;
P20~50: 政治家之外的人关注20~50个政治家,或者被20~50个政治家关注;
P+all:所有的数据集都被包含在内,并额外囊括了一些仅关注三五位政治家的人(outlier)。
另一方面,讲者详细介绍了TIMME模型的构成,主要分为两个部分Encoder和Decoder。
(1)多种类型关系的Encoder
考虑了多种关系GCN之间的propagation,根据模型将GCN进行延展。存在有很多不同的adjacent matrix,每一种adjacent matrix对应着不同的模型参数,通过计算每种关系的attention,以生成layer间的propagation。
在社交网络中,将关系出和关系入看做不同的关系,即分别考虑关注与被关注的relation representation,且同时需考虑自身的representation,因此在有R种不同关系的情况下,一共2R+1种不同的 adjacent matrix。
(2) 多任务的Decoder
Decoder与Encoder中所有任务共享layer 的不同参数,Decoder分开为R+1种task,每一种关系(R种关系预测任务)对应的link prediction 都看作单独的task,且最后需进行意识形态分类(1种分类任务)任务。
图5. TIMME模型的整体框架
进一步,针对TIMME模型Decoder,讲者展示了三种不同的Decoder 变体:
a. TIMME-single:单任务学习模式
只训练第R种关系对应的loss。一般地,当只训练一个loss时,只有该种关系对应的performance较好,但从实验结果中,讲者发现,只训练一种关系的link prediction 结果是其他关系的link prediction 的performance较好,该发现表明关系之间存在infer现象;
b. TIMME:简单的多任务学习模式
通过对每一种任务的不同task-specific embedding layer学习得到的loss进行简单的相加和,得到一个整体的joint loss;
c. TIMME-hierarchical:有层级的多任务学习模式
主要是处理意识形态分类任务,是指间接的从link prediction 对应的task-specific embedding layer中得到,并通过学习不同link对应的weight,可间接分析哪种link 对于预测用户意识形态的分类更加重要性。
图6. 多任务Decoder的三种变体
四、Experiment:实验结果
讲者主要设计了以下五种实验:
(1)各任务性能分析 (Task-Level)
主要分析了关系类别预测以及意识形态分类任务,选择的任务性能衡量标准如下:
实例分类 (Entity-Classification):Accuracy,F1-score
链路预测 (Link-Prediction):ROC-AUC, PR-AUC
Baseline:GCN(+),r-GCN,HAN(+)
注:由于官方代码中GCN以及HAN不带有link prediction,因此讲者加入了TIMME模型中的link prediction 模块。
图7. link-prediction 以及node-classification 的实验结果
实验数据表明,讲者提出的TIMME模型在链路预测和实体分类任务上的performance 优于其他baseline模型,并且multi-task 的performance优于single-task。此外,TIMME模型不需要很精准的调参,这一点也优于其他的baseline模型。
(2)(美国) 各州结果 (State-Level)
图8. 每个州的意识形态分类结果
TIMME模型在意识形态分类问题的预测上比符合常识,各州的倾向性交明确。但讲者同时也注意到了Utah在保守党的意识形态倾向性不强,造成这种bias的原因在于,在Twitter上underrepresent 一些右倾的voice。比如Utah的用户不喜使用Twitter来发表言论,因此基于Twitter数据进行意识形态的分类具有一定的局限性。
注:在数据分析时,应注意数据来源的合法合规,Twitter数据明确规定任何研究不能使用用户的实时位置信息,因此讲者在爬取地理位置信息时,主要针对的是用户在profile中定义的位置信息。
(3)(美国) 郡县结果 (County-Level)
图9. Florida意识形态分类结果
讲者选择的摇摆州(也就是在民主党和共和党之间倾向不明显)的意识形态预测结果也很有参考价值。其中,Florida就是其中一个比较典型的摇摆州,分类结果符合公众认知。
(4)部分账号结果 (Account-Level)
图10. 部分账号的意识形态分类结果
讲者选择新闻媒体账号进行account-level意识形态分类,新闻媒体的意识倾向具有三个特点:即具有分析价值;具有公认的意识形态偏向;没有 ground-truth label,标签未被包含于训练集,可用作测试集。实验结果如图所示,图中蓝色表示公众认为其具有左倾意识形态,黑色为中立,红色则为右倾,结果符合公众的认知。
(5)对比实验 (Ablation Study)
图11. 不同类型特征对结果的影响
研究了不同类型的feature对实验结果的影响。结果表明,random feature的performance最差。One-hot feature的performance较好。而讲者基于缺失的feature 进行实验获得的performance仅次于One-hot feature的结果。
图12. TIMME-single以及TIMME-hierarchical的实验结果
讲者针对TIMME-single 以及TIMME-hierarchical模型进行了对比实验。一方面,对TIMME-single模型进行对比实验发现,当只训练一个task时,其他的task也会受益,例如,只训练retweet,like关系的涨幅较大,这说明retweet关系的存在使得like存在的可能性变高。另一方面,从TIMME-hierarchical模型中可得出follow关系最能体现用户的意识形态。在PureP的数据集上,reply更能体现政治家之间的亲密程度, 原因可能在于政治家之间follow对方的行为发生时间较久远,而在Twitter上爬取的数据不全面。
资源汇总(code & data etc.)
汇总页面 (Presentation) http://web.cs.ucla.edu/~patricia.xiao/timme.html
Github (Code & Data etc.) https://github.com/PatriciaXiao/TIMME
Q&A
为什么要使用multitask,而不是用端到端的模型?
因entity的label太稀疏,单凭它自己作为label比较难以学好这个图。不过稍微澄清一下我个人认为我们的模型还是应该算是“end to end”;因为所有的task一起跑的,并没有分先后或者不同phase。
然后模型中的GCN 用了几层?
示意图是很写实的,正如Encoder那部分画的一样,说是两层就两层。不过,更准确来说是multi-relation版本的GCN layer,与standard GCN还是不太一样。
整理:刘美珍
审稿:肖之屏
排版:田雨晴
AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至[email protected]!
微信联系:AITIME_HY
AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。
更多资讯请扫码关注
(点击“阅读原文”下载本次报告ppt)
(直播回放:https://b23.tv/qJLloi)