【论文阅读】Author2Vec: Learning Author Representations by Combining Content and Link Information
《Author2Vec: Learning Author Representations by Combining Content and Link Information》
Ganesh J, Ganguly S, Gupta M, et al. 2016.
Abstract
在本文中,我们考虑从书目合著者网络中学习作者向量表示。在图像方面,深度学习现有的方法(如DeepWalk)由于侧重于对链接信息的建模,因此存在连接稀疏性问题。我们假设,以统一的方式捕获内容和链接信息将有助于缓解稀疏性问题。为此,我们提出了一个新的模型Author2vec,它能够学习低维的作者向量表示,使得写出类似内容和共享类似网络结构的作者在向量空间中更加接近。这样的向量表示在各种应用中都是有用的,例如链接预测,节点分类,推荐和可视化。对于链路预测和聚类任务,我们学习的作者向量效果分别比DeepWalk高出2.35%和0.83%。
1. Introduction
最近,将信息网络嵌入低维向量空间越来越引起人们的关注。其原因是,一旦获得了嵌入的向量形式,网络挖掘任务可以通过现成的机器学习算法来解决。为了用可扩展的方式构建良好的表示,研究人员开始使用深度学习作为分析图形的工具。例如,近期的一个模型DeepWalk使用均匀采样(截断随机游走)将图结构转换成包含顶点的线性序列的样本集合。他们将每一个样本作为一个句子处理,运行Skip-Gram模型(其最初设计用于从线性序列中学习单词表示),以从这些样本中学习顶点的表示。
DeepWalk的主要缺点是显示世界信息网络中固有的链路稀疏性问题。例如,两个编写与“机器学习”相关科学文章的作者如果没有连接,就不会被DeepWalk认为是相似的。在本文中,我们的目的是通过融合文本信息和链接信息以协同的方式来克服上述问题,以此来创建作者表示。我们在大型数据集上进行的实验表明,利用内容和链接信息减轻了链接稀疏性问题。
2. Author2Vec Model
假设合著者网络
Context-Info Model: 该模型目标是单纯通过文本概念(论文摘要)捕捉作者向量表示。模型将作者
其中,
其中
Link-Info Model: Link-Info模型的目标是通过链接信息丰富先前模型获得作者向量表示。该模型将作者向量(
其中,
其中
Training Details: 我们可以通过共享作者向量的权重来平均地连接两个模型。因此,Author2Vec的总体目标函数可以写成如下:
我们使用随机梯度下降,mini-batch设置为256,学习率设置为0.1,来学习模型的参数。
3. Experiments
我们通过链路预测和聚类这两个任务来验证。在所有实验中,我们根据经验将
Link Prediction: 对于链路预测,我们使用CND中从1990-2009年一共20年的数据,最后一年用于测试,其余年份用于训练。正样本是在训练集中有合著关系的作者对。对于每一个正样本对,我们随机选择一个负样本对。测试集包含,在测试年份里有合著关系,但是在训练年份没有合著过的作者对。最终的数据集包含2485764个训练对和15342个测试对。我们使用逻辑回归来解决这个二分类问题。
Clustering: CND包含人工注释的每篇论文的研究领域。为了简单起见,我们通过选择作者发布论文最多的领域,来将每个作者和领域联系起来。我们采用K-Means聚类算法(K=24,表示24个计算机科学领域),将嵌入向量作为特征,并使用归一化互信息(NMI)度量。
Analysis: 由表1可以观察到:
(1)仅使用内容信息而没有链接关系,模型表现不佳。
(2)仅使用链接信息学习的,模型表现也很差。这是因为没有全局内容信息,作者向量往往对噪声链接敏感。
(3)DeepWalk比以前讨论的模型更胜一筹,主要是基于随机游走的方法由于负采样方法。
(4)但是,由于内容信息和链接信息的融合,Author2Vec优于DeepWalk。链路预测性能提高了2.35%,聚类任务性能提高了0.83%,这表明Author2Vec获得的作者向量的优越性。
4. Conclusions
给定参考书目网络,Author2Vec融合了内容和链接信息来学习高质量的作者表示。我们计划扩展加权图模型,其中边的权重表示共同撰写论文的数量,同时还可以加入全球网络信息以增强嵌入。