《Adversarial learning for weakly-supervised social network alignment》翻译

Abstract

如今,一个自然人加入多个社交网络来享受不同种类的服务是很常见的。跨多个社交网络连接相同的用户,也称为社交网络对齐,是一个重大的研究挑战的重要问题。现有的方法通常在成对的样本级别上链接社会身份,当可用的注释数量有限时,这可能导致性能表现并不优越。在同构信息的激励下,本文将社交网络中的所有身份作为一个整体来考虑,并从分布层面对社交网络进行对齐。我们的目标是学习一个投影函数,不仅最小化两个社交网络中用户身份分布的距离,而且将可用的标注作为学习指导。我们提出了三种模型SNNAu_u、SNNAb_b和SNNAo_o来学习弱监督对抗学习框架下的投影函数。然后,我们评估该模型在多个数据集上的表现,结果证明我们的方案的优越性。

Introduction

最近社交网络变得越来越流行,用户可以同时在多个平台注册账户,享受不同类型的服务。在每个社交平台上,用户可以创建一个身份来代表他/她独特的个人形象。跨多个社交平台对同一自然人身份进行比对,即社交网络比对,因其巨大的实用价值而受到越来越多的关注。成功的网络对齐使许多应用受益,如朋友推荐、信息扩散预测和网络动力学分析。

现有的大多数方法都是有监督的,需要大量的人工标记样本来训练分类器将匹配的标识对与不匹配的标识对分离开来。考虑到获得标记实例的高成本,提出了几种半监督方法来合并未标记实例以提供补充信息。半监督方法可以利用未标记的数据来帮助捕获底层数据分布的形状,这在实践中更有希望实现社交网络对齐。

现有的半监督方法通常在成对样本级别执行网络对齐。 他们首先将来自不同社交网络的身份嵌入到一个共同的潜在空间中,其中来自同一网络的相似身份应紧密分布,而跨社交网络的带注释身份对也应分组在一起。 然后将身份之间的距离视为网络对齐的指标。 这种方法的主要局限性在于它们仍然需要大量注释以确保性能。 如图1所示,席琳·迪翁(Celine Dion)和阿黛尔(Adele)是受欢迎的歌手,史蒂芬·库里(Stephen Curry)是NBA球员。 考虑到他们的共同利益,席琳·迪翁(Celine Dion)和阿黛尔(Adele)在两种平台(Twitter和Facebook)上的距离都更近。 假设选择Celine Dion作为带注释的身份对。 传统的样本级半监督方法将生成潜在空间,如图2a所示。 席琳·迪翁(Celine Dion)的身份紧密分布,而潜在空间保留了单个网络内部的原始身份相似性。 但是,对于Twitter中的斯蒂芬·库里(Stephen Curry),他最近的Facebook邻居是阿黛尔(Adele),而不是他在Facebook中的身份,这导致了错误匹配。
《Adversarial learning for weakly-supervised social network alignment》翻译
《Adversarial learning for weakly-supervised social network alignment》翻译
与之前的半监督作品不同,我们将整个社交网络中的所有身份视为一个整体,并在分布级别上进行身份对齐。 如图1所示,由于利益共享,两个原始功能空间中的身份分布呈现相似的形状,这被称为跨社会网络的同构。如图2b所示,如果我们可以通过一组操作Φ(例如,转置)来转换Twitter空间中的身份分布,以最大程度地减少与Facebook中的身份分布之间的距离,则同一自然人的身份将彼此靠近分组。受同构启发,我们将社交网络对齐问题转化为学习操作Φ,以最小化两个分布之间的距离。 在之前的工作之后,我们将运算Φ称为投影函数。 通过从全局的角度介绍同构,进一步降低了对样品水平监督的要求。

这个想法需要一个分布距离的度量标准,为此我们引入了wasserstein距离(WD)。与KL散度等其他指标相比,WD是对称的,即使两个分布没有重叠也能够测量两个分布之间的距离。我们将每个身份分布视为一组加权积分,而WD则表征将一组积分传输到另一组积分中的最低成本。 但是,WD最小化是在分布级别上以无监督方式执行的,而标记的身份对则将指导信息保留在样本级别中。考虑到完全不同的目的和方案,我们利用可用的注释作为指标来指导分布最小化问题具有挑战性。

我们总结了我们的贡献:

  • 我们从一个新的角度研究了弱监督社会网络一致性的新问题,引入分布紧密度以提供补充信息。
  • 我们设计了三个基于对抗性学习的模型,以最小化分布距离并同时合并可用的注释。
  • 我们在五组数据集上评估提出的方案, 实验结果表明了所提出模型的优越性能。

预备工作和问题定义

WD通过估计将一个分布改变为另一个分布的最小工作量来衡量两个分布之间的紧密性。WD的正式定义如下:
《Adversarial learning for weakly-supervised social network alignment》翻译
在这个任务中,PI\mathbb{P}^IPI\mathbb{P}^I是两个离散概率分布,P=ipiδxi\mathbb{P}= \sum _i p_i \delta _{x_i}, xix_i是分布P\mathbb{P},pip_i的一个样本,pip_i是其对应的概率能力,δxi\delta _{x_i}是狄拉克函数,Γ(PI,PJ)\Gamma (\mathbb{P}^I, \mathbb{P}^J)表示与边缘PI\mathbb{P}^IPJ\mathbb{P}^J的联合概率分布γxyγ(x,y)。函数d测量两个样本之间的ground距离(例如欧几里德距离)。WD的目标是找到理想的联合分布,以达到期望的内界。

问题定义
我们用到了一个社交网络N={V,W,P}N=\left \{ V,W,P \right \},其中 V={v1,v2,...,vn}V=\left \{ v_1, v_2, ..., v_n \right \},是包含n个用户的用户集。每一个用户viv_i由一个d维特征向量wiw_i表示,wiw_i组成了特征矩阵WRd×nW\in \mathbb{R}^{d\times n},PR1×nP\in\mathbb{R}^{1\times n}包含社交用户的拓扑影响,例如输入度或输出度的计数。

定义1 弱监督社交网络对齐

给定两个部分对齐的社交网络O={VO,WO,PO}O=\left \{ V_O, W_O,P_O \right \}, E={VE,WE,PE}E=\left \{ V_E, W_E,P_E \right \}和一些匹配的身份对M={(vo,ve)voVO,veVE}M = \left \{ (v_o,v_e)|v_o \in V_O ,v_e \in V_E \right \},我们的目标是发现其他所有的匹配身份对Y={(vo,ve)vo,veVE,(vo,ve)M}Y = \left \{ (v_o,v_e)|v_o \in ,v_e \in V_E,(v_o,v_e)\notin M \right \},其中,vov_ovev_e属于同一个自然人。

我们假设两个网络作品中的特征向量的维数都是d,这很容易被流行的网络作品嵌入模型所满足。在这里,我们旨在学习一个理想的匹配身份的投影函数。因此,所研究的问题可以进一步澄清如下:

定义2 社交网络对齐的投影函数

给定源分布PO\mathbb{P}^O, 目标分布PE\mathbb{P}^E和注释集M={(vo,ve)voVO,veVE}M = \left \{ (v_o,v_e)|v_o \in V_O ,v_e \in V_E \right \}。目标是学习一个映射函数Φ\Phi,映射函数Φ\Phi满足:(1) Φ\Phi应该最小化原模型分布PΦ(O)\mathbb{P}^{\Phi(O)}和目标模型分布PΦ(E)\mathbb{P}^{\Phi(E)}的WD距离。(2) 对于注释集MM中的匹配对(vo,vev_o, v_e), Φ\Phi应该最小化映射源点Φ(vo)\Phi (v_o)和映射目标点vev_e

训练过程结束后,给定一个源身份vov_o,可以根据目标社交网络中的身份vev_e与ground距离d(Φ(vo),ve)d(Φ(v_o),v_e)来选择他/她的匹配候选人。较小的ground距离意味着两个相同的人有更大的机会成为同一个自然人。

对抗学习框架

遵循先前的工作,我们选择线性变换作为投影函数ΦΦ。给定一个具有特征向量wow_o的源节点vov_o,其投影点定义为:Φ(wo)=G×woΦ(w_o)=G×w_o,其中GRd×dG∈R^{d×d}为变换矩阵。所研究的问题可以理解为矩阵GG的学习问题,我们也尝试用神经网络的非线性投影函数,但效果不好。这可能是因为非线性投影严重地改变了输入分布,进一步破坏了同构。Zhang等人引入GAN模型进行双语词汇归纳任务。受此启发,我们设计了以下SNNA模型,它不仅可以最小化WD,而且还包含了注释。

单向投影模型SNNAu_u

首先我们提出了单向投影模型SNNAu_u,它只将源分布单向投影到目标社交空间。图3显示了SNNAu_u的框架。发生器GG可被视为投影函数ΦΦ,而鉴别器DD设计用于估计投影源分布PG(O)\mathbb{P}^{G(O)}和目标分布之间PE\mathbb{P}^{E}的WD。SNNAu_u的目标可以大致定义如下:
《Adversarial learning for weakly-supervised social network alignment》翻译
其中,wow_o是来自源分布PO\mathbb{P}^O的源身份vov_o的特征向量(受到PO\mathbb{P}^O的拓扑影响pop_o), wew_e是目标分布的样本。遍历所有可能的联合分布以计算期望的infγΓ(PE,PG(O))inf _{\gamma \in \Gamma (\mathbb{P}^E, \mathbb{P}^{G(O)})}是很困难的(Zhang et al.2017b)。 Vallani等当ground距离d定义为欧几里得距离时,基于Kantorovich-Rubinstein对偶性提出了WD最小化目标的简单版本:
《Adversarial learning for weakly-supervised social network alignment》翻译
函数ff 必须是K-Lipschitz连续的,这意味着对于所有x1x2Rx_1,x_2∈R, f(x1)f(x2)Kx1x2\left | f(x_1) - f(x_2) \right | \leqslant K\left | x_1 -x_2 \right |,而且K>0K>0是Lipschitz常数。该目标旨在确定所有可能K-Lipschitz函数的上确界。前馈神经网络具有强大的逼近能力(Hornik 1991)。因此我们选择一个多层前馈网络以找到一个理想函数ff,该函数在图3中定义为鉴别器DD。鉴别器的目标函数是学习一个理想函数ff来估计PE)\mathbb{P}^{E)}PG(O)\mathbb{P}^{G(O)}之间的WD距离:
《Adversarial learning for weakly-supervised social network alignment》翻译
其中θθ是在鉴别器中使用的多层神经网络中设置的参数。 我们引入了裁剪技巧来满足K·Lipschitz限制,该限制在每次梯度更新后将权重θθ限制在一个小窗口[-c,c]中。

生成器G被设计为最小化估计的WD。 在公式(2)中,G仅存在于第二项中,因此我们旨在通过最小化以下目标来学习理想的生成器:
《Adversarial learning for weakly-supervised social network alignment》翻译
随着loss逐渐减少,判别器的WD逐渐减小,从而导致同一个人的身份在目标空间中组合在一起。

同时,我们还结合了一些注释来指导投影函数的学习过程,如图3中的组件A所示。假设在一个训练批次中,我们有一组源身份及其匹配的目标身份表示为Mt ⊂M。对于标记集合Mt中的匹配身份对(vove)(v_o,v_e),我们旨在最小化投影源节点G(vo)G(v_o)与目标节点vev_e之间的距离:
《Adversarial learning for weakly-supervised social network alignment》翻译
《Adversarial learning for weakly-supervised social network alignment》翻译
其中ww是相应身份的特征向量。 该目标结合了可用的注释,以促进学习投影功能。λcλ_c是控制损耗LCL_C权重的超参数。

这是SNNAu_u的训练过程算法:
《Adversarial learning for weakly-supervised social network alignment》翻译
首先,我们从第2行到第8行对判别器进行训练,这是为了避免GAN崩溃的风险。然后通过最小化目标(3)和(4)的加权组合来更新生成器,如第9至13行所示,这意味着学习的生成器不仅最小化估计的WD,而且适合可用的注释。

双向投影模型SNNAb_b

单向模型SNNAu_u对投影矩阵G没有约束。Mu等已证明正交投影有助于更好地对齐用户身份。 正交投影在理论上因其数值稳定性而吸引人使用正交投影时,投影分布是通过旋转和缩放在平面中原始分布的反射,这将保留原始分布的内部特征。 因此,我们在投影矩阵的学习中增加了正交约束。

将传统的正交约束引入对抗学习很麻烦,因为它们的优化很困难。我们还设计了双向投影模型SNNAb_b以潜在地引入正交约束。 如图4所示,SNNAb_b在两个方向上进行投影。如果投影函数G使分布PG(O)\mathbb{P}^{G(O)}PE\mathbb{P}^{E}之间的WD最小,则其转置形式GTG^T 应该能够使分布PGT(E)\mathbb{P}^{G^T(E)}PO\mathbb{P}^{O}之间的WD最小化。考虑到输入网络部分对齐而分布PE\mathbb{P}^{E}PG(O)\mathbb{P}^{G(O)}不同,则学习的投影矩阵只能是自洽的,可以接近于正交矩阵,但不完全正交。
《Adversarial learning for weakly-supervised social network alignment》翻译
SNNAb_b模型可以很容易地由具有共享投影矩阵G的两个SNNAu_u模型实现。第一个SNNAu_u模型利用投影函数G作为生成器和判别器DeD_e来估计分布PG(O)\mathbb{P}^{G(O)}PE\mathbb{P}^{E}之间的WD。 第二个SNNAu_u模型使用生成器GTG^T作为投影和判别器,以估计分布PO\mathbb{P}^{O}PGT(E)\mathbb{P}^{G^T(E)}之间的WD。两个SNNAu_u模型的优化是迭代进行的。 训练结束后,我们仍然使用学习的投影函数G为网络O中的源身份选择目标候选者。

正交投影模型
与SNNAb_b中使用的自洽假设不同,我们进一步引入了更严格的正交约束。 如果G是一个正交矩阵,则应使用转置矩阵GTGwo=woG^TGw_o = w_o轻松地从其投影版本中恢复源分布,这可以确保社会身份和自然人可以双向转换。 由于重建后的分布可能与原始分布相同,因此学习的投影矩阵比SNNAb_b模式更接近正交矩阵。 因此,我们设计了一个重构组件,将更严格的正交约束整合到对抗训练模型中。

如图5所示,我们旨在通过转置矩阵GTG^T从投影分布RG(O)\mathbb{R}^{G(O)}重构原始源分布RO\mathbb{R}^{O}。 重建的源分布定义为RO\mathbb{R}^{O'},我们引入以下目标函数以最小化原始分布和重建的源分布之间的差异:
《Adversarial learning for weakly-supervised social network alignment》翻译
其中λrλ_r是用于控制重构误差权重的超参数。 随着损耗LRL_R的最小化,学习矩阵G将更加正交。 通过将新定义的重建损失添加到算法1的第12行中,可以轻松地从SNNAu_u扩展SNNAo_o的训练过程。将了解投影矩阵是正交的,拟合可用的注释并使投影的源分布与投影之间的WD最小化。SNNAo_o中生成器的损失函数是距离最小损失LGL_G,注释指导损失LCL_C和重构损失LRL_R的加权和。

《Adversarial learning for weakly-supervised social network alignment》翻译

Experiments

Datasets 数据集我们使用两对社交网络数据集和三对学术合著者数据集进行评估。
数据集由我们公司的合著者抓取并格式化。 表1显示了详细的统计信息。
《Adversarial learning for weakly-supervised social network alignment》翻译
Data preprocessing
对于Twitter用户,他们的功能空间是基于发布的推文和好友关注关系而构建的。 对于推文,我们首先使用NTLK2词干处理已爬网的推文并删除停用词或稀有词。 之后,将单个用户发布的推文作为一个整体进行收集,然后由tf-idf特征向量表示。 我们进一步利用属性保留网络嵌入模型TADW将网络拓扑信息和文本属性封装到低维潜在空间中。 其他数据集的特征空间也使用TADW构造,但用户属性有所不同(Flickr用户的已发布图片标签和加入的组,新浪微博用户的微博文本和主题标签,以及豆瓣的兴趣标签和加入的组)。 对于社交网络,关注者的标准化计数被视为用户viv_i的拓扑权重pip_i,它将被用来从身份分布中采样训练样本。

对于DBLP数据集,我们首先根据2015年,2016年和2017年的出版物构建了三个共同作者子网络。对于共同作者子网络中的每个节点(作者),我们在相应的文献中收集该作者的已发表论文。 已发表论文的标题和摘要作为节点属性。 文本属性被格式化为tf-idf向量,然后由TADW通过共同作者关系嵌入到潜在特征向量中。 对于合著者网络,我们将节点的度数用作其采样权重。 请注意,独立学习不同网络的特征空间可以确保我们建议的通用性。

Baseline Methods
我们将我们的模型与以下最新的基线方法进行了比较,包括半监督和监督模型。

  • MAH 是一个半监督模型,利用子空间学习算法,利用社会结构来提高链接性能。
  • COSNET是一个基于能量的模型,考虑了多个网络之间的局部和全局一致性。开发了一种有效的次梯度算法来训练模型。
  • IONE是一个统一的优化框架,用于联合训练用于捕获身份相似性的网络嵌入目标和用于跨网络连接身份的用户对齐目标。

Parameter setup
对于我们的建议,将潜在特征空间的维数d设置为100。在所有SNNA模型中,鉴别器D是仅具有一个隐藏层的多层感知器网络,因为过于强大的鉴别器可能会导致GAN损坏训练并使生成器失去对抗能力。对于生成器G,其投影矩阵被随机初始化为正交矩阵。 最小训练批量的大小为256,学习率α设置为0.0001。 如算法1所述,在每次训练迭代中将对鉴别器进行ndn_d次训练,并将ndn_d设置为5。裁剪权重c为0.01,注释权重λc设置为0.2,重构权重λrλ_r设置为0.3。 基线是根据原始文件执行的。 对于CoLink模型,我们将SVM分类器用作基于属性的模型。 ULink模型是通过约束凹凸程序优化来训练的。

Evaluation Metric
遵循先前的工作,我们选择Hit-precision 作为评价指标。
《Adversarial learning for weakly-supervised social network alignment》翻译
其中hitxhit(x)是匹配的目标用户在返回的前k个候选目标身份中的排名位置。 根据预计的源标识与目标标识之间的ground距离选择最合适的候选对象。 Hit-P校正由匹配的身份对分数的平均值计算:0mh(xi)m\frac{\sum_{0}^{m}h(x_i)}{m},其中m是匹配的身份对中源身份的数量。

Experimental Results
对于每个数据集,我们随机选择匹配的身份对的TtrT_{tr}部分作为训练数据,并随机选择NteN_{te}个匹配的身份对作为测试集。 在这里,我们将训练比率TtrT_{tr}固定为10%,并将测试集NteN_{te}的大小设置为500。我们将建议的模型与基线进行比较,并报告k设置不同时的Hit-Precision分数。 我们重复此过程三遍,并报告平均分数。
《Adversarial learning for weakly-supervised social network alignment》翻译
表2示出了实验结果。 可以看到,所有方法在DBLP数据集上的表现都比在社交网络上更好。 这可能是因为合著者网络更加密集并且用户属性经过格式化和整洁。 由于COSNET引入了全局和局部拓扑相似性,因此其性能优于MAH方法。 作为一种监督模型,ULink在弱监督学习环境中实现了不良表现,因为它需要很大一部分注释(例如原始作品的80%)才能达到理想的性能。 CoLink可以在基线之间实现最佳性能,因为它精心设计了一个目标函数来合并属性,而基于属性的模型和基于关系的模型可以相互促进。
人们还可以看到,所有提案在具有不同设置的两个数据集上均优于基线方法。
这是因为引入了分布紧密度信息作为补充。 单向模型SNNAuSNNA_u击败最佳基准(CoLink)约3%。 通过引入自洽约束,SNNAbSNNA_b的性能进一步提高,这证明正交投影矩阵有助于更好地对齐身份。SNNAoSNNA_o在所有方法中均达到最佳性能,比最佳基准(CoLink)高出7%。 与更严格的正交约束相比,SNNAoSNNA_o的性能比SNNAbSNNA_b进一步提高了3%。

Learing Behavior of the SNNAo_o
对抗性学习也因其不稳定的训练行为而闻名。 因此,我们提出了在k = 5的DBLP1516数据集上SNNAoSNNA_o模型的训练轨迹。 每进行1万次训练后,我们将保存一个检查点模型,最后可以得到100个检查点模型。 对于每个检查点模型,我们将其鉴别器的输出值记录为WD近似值,并在社交网络对齐任务中记录其Hit-P校正分数。 请注意,我们将近似的WD距离重新缩放为0到10的范围。
《Adversarial learning for weakly-supervised social network alignment》翻译
如图6所示,随着训练批次的增加,WD降低,而HitP矫正分数增加。 结果表明:1)提出的模型可以有效地降低动态分配情况下的WD。 2)较小的WD导致更好的网络对齐性能。 因此,我们可以将估计的WD距离最小的检查点模型保存为最终模型。

Parameter sensitivity study
最后分析了所提出的SNNAo_o模型的参数灵敏度。我们首先分析了训练比率TtrT_{tr}对Twitter-Flickr数据集上模型性能的影响。我们修正了k=5,并用不同的TtrT_{tr}集展示了SNNAoo的性能。最佳基线CoLink也用于比较。从图7a可以看出,随着TtrT_{tr}的增加,两种方法的性能都提高了。SNNAo_o始终优于CoLink,而它们之间的性能差距往往较小。这是因为注释可以弥补CoLink忽略分布贴近度信息的限制。接下来,我们研究重建权重λrλ_r对模型性能的影响。当增大λrλ_r时,Hit-Precision得分先增大后减小,说明适当的正交约束有助于提高性能。较大的λrλ_r将使训练过程更集中于侦察任务,这可能会中断优化以达到最小的WD距离。

Related Work
现有的社会网络比对方法大致可以分为有监督的、半监督的和无监督的。大多数现有的相关工作都是在监督下进行的,其目的是训练一个二进制分类器,将匹配的用户身份对与不匹配的用户身份对分开。曼等人通过在潜在低维空间中连接身份,提出了一个有监督的社会网络工作对齐模型。将两个网络中的用户身份映射到一个潜在空间,并学习投影函数来链接属于同一自然子的身份。ULink也是一种嵌入监督方法。ULink首先将多个网络中的用户身份映射到一个潜在的空间中,然后最小化同一个人的用户身份之间的距离,最大化不同人的用户身份之间的距离。考虑到实现足够的注释来完全训练监督模式是非平凡且耗时的,提出了一些非监督的方法,这些方法主要依靠强鉴别特征来链接用户身份UUIL是这项工作的基础,但UUIL侧重于无监督学习,而SNNA旨在加入少量注释以提高对齐性能。最近,一些半监督方法被提议纳入未标记数据以捕获内部数据分布。Korula等人引入了一种流行的半监督模型,根据基于邻域的网络特征执行UIL任务。CosNet(Zhang等人。是一个基于能量的模型,通过考虑本地和全球一致性来链接用户身份。
现有的半监督方法通常将用户身份从成对样本层链接起来,在注释非常有限的情况下无法获得理想的性能。因此,在本文中,我们的目标是从分布层次上执行社会网络对齐。将所研究的问题转化为分布投影函数的学习,在对抗性训练框架下求解。

Conclusion
本文研究了一类新的弱监督社会网络对齐问题。结论是,我们从身份分布级别执行社交网络对齐,这有助于减少所需注释的数量。将所研究的问题转化为一个理想的投影函数的学习,不仅可以最小化两个社会网络的身份分布之间的wasserstein距离,而且可以在投影空间中将可用的匹配身份组合在一起。
此外,我们还提出了三个具有不同水平正交约束的SNNAu_u、SNNAb_b和SNNAo_o模型。
我们在多个数据集上评估了我们的建议,实验结果证明了SNNA模型的优越性。