【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

论文链接:https://arxiv.org/abs/1905.05659

来源:IJCAI 2019



1 摘要

现有的异质网络嵌入方法(HNE)通常是无监督的,为了最大化利用HNEs中有价值的监督信息,作者提出ActiveHNE模型。

实验证明了ActiveHNE的有效性,以及在降低query成本方面的优势。

2 介绍

2.1 挑战

(1)异质性带来的普遍问题:如何处理不同类型的节点。

(2)大多数HNE方法都是无监督的,而适当地利用监督信息,可以提高HNE的效果。

(3)然而,标签的获取是很困难的,因为需要人为参与。

主动学习(active learning, AL)可以解决挑战(3),选择出最有价值的节点进行标注。然而HIN中的节点不是独立的单一的分布(non-i.i.d.),是由边连接起来的,AL应该考虑到数据的依赖性,而且对不同类型的节点也应区别考虑。

2.2 作者提出

提出ActiveHNE模型解决上述挑战。

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

模型由两部分组成:DHNE(Discriminative Heterogeneous Network Embedding)和AQHN(Active Query in Heterogeneous
Networks )。

(1)DHNE

DHNE中引入了基于GCN的半监督HNE方法。先将HIN分解成同质的bipartite networks。在每层卷积,分别学习节点在每个network的语义信息,然后将它们拼接起来作为节点输出向量。

(2)AQHN

除了引入网络的中心性外,还引入了两种主动选择策略,即HIN在不确定性和代表性方面的卷积信息熵卷积信息密度

这些策略使用局部卷积实现了对HIN的异质性以及节点之间的依赖关系的利用,过滤器的参数是由节点重要程度决定的(由节点的度和邻居节点的类型数衡量)。

然后使用多臂老虎机机制,递归地向专家抛出query(unlabel data),这些节点是最值得被标注的。

ActiveHNE旨在通过为DHNE输入AQHN得到的最优价值的监督信息,提升HNE的效果。

2.3 贡献

(1)形式化了主动的异质网络嵌入学习问题,目的是通过寻找最值得标注的节点,使用这些标注节点,从而提高HNE的效果。

(2)考虑到了网络的异质性和节点间的依赖关系,使用局部卷积和多臂老虎机机制解决上述问题。

3 The ActiveHNE Framework

3.1 Discriminative Heterogeneous Network Embedding (DHNE)

先将HIN分解成同质网和bipartite networks(只由两种类型的节点组成)。然后在每个卷积层,分别卷积每个network中节点的深层语义信息,然后将它们拼接起来作为节点输出向量。

{Gtt=1,2,...,T}{\{G_t|t=1,2,...,T\}}表示分解出来的同质网络,{Att=1,2,...,T}{\{A_t|t=1,2,...,T\}}表示{Gt}{\{G_t\}}相对应的邻接矩阵。

频谱图卷积定理在归一化图的基础上定义了傅里叶域中的卷积
拉普拉斯算子:Lt=ItDt12AtDt12=Dt12(DtAt)Dt12L_t=I_t-D^{-\frac{1}{2}}_t A_t D^{-\frac{1}{2}}_t=D^{-\frac{1}{2}}_t(D_t-A_t)D^{-\frac{1}{2}}_t。其中ItI_t是单位矩阵,Dt=diag(iAt(i,j))D_t=diag(\sum_i A_t(i,j))表示度矩阵。

由于节点间的连接可能是有向的,所以不对称的矩阵比对称矩阵LtL_t更适合傅里叶域。定义非对称的转移概率矩阵为:Pt=Dt1AtP_t=D^{-1}_tA_t

本文分别在分解得到的每个network上使用转移概率矩阵PtP_t作为傅里叶偏置。特别地。令Pt=ΦtΛtΦt1P_t=\Phi_t\Lambda_t\Phi^{-1}_t,其中Λt\Lambda_tΦt\Phi_t分别是PtP_t的特征向量矩阵和特征值的对角矩阵。

卷积定义如下:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

其中XtRNt×DX_t\in R^{N_t\times D}是网络GtG_t的输入,gθtg_{\theta_t}是过滤器,Φt1Xt\Phi^{-1}_tX_tXtX_t的傅里叶变换。

为了对目标节点的局部邻域进行卷积,将gθt(Λt)g_{\theta_t}(\Lambda_t)定义为K阶的多项式滤波器:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

其中θtRK\theta_t\in R^K是多项式系数组成的向量。(2)式代入(1)式可得下式:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

从上式可知,在图GtG_t上的卷积,只依赖和目标节点最远距离是K的那些节点。也就是说,卷积操作之后的输出信号,由网络上局部谱滤波器的K阶近似定义。其中滤波器参数θtk\theta_{tk}可在整个网络GtG_t上共享。

进一步将(3)式一般化成D×dD\times d的滤波器,将原始特征从D维转化为d维。因此,GtG_t上的卷积操作形式化为:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

ΘtRD×d\Theta_t\in R^{D\times d}表示滤波器参数(要训练的权重矩阵),HtRNt×dH_t\in R^{N_t\times d}表示卷积的输出信号。σ()\sigma(\cdot)ReLU()ReLU(\cdot)**函数。

拼接节点在每个network中得到的向量表示,作为节点的最终输出信号。若节点不是某一network中的元素,则使用零向量代表节点在该network中的输出信号。使用ZtZ_t定义拼接后的向量表示,在GtG_t上的第l层卷积操作定义如下:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

在经过β\beta层的卷积和拼接操作后,得到所有节点的最终输出向量E=ZβRN×Td(β)E=Z^\beta \in R^{N\times Td^{(\beta)}}(T表示networks的数量)。为了得到有区分度的embeddings,添加全连接层来预测节点的标签:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

其中,ΘpreRTd(β)×C\Theta^{pre}\in R^{Td^{(\beta)}\times C}是隐层到输出层的权重矩阵。FRN×CF\in R^{N\times C}FicF_{ic}是第i个节点属于第c类的概率。最后一层的**函数σ()\sigma(\cdot)是softmax函数。

最终,有监督的基于交叉熵的损失函数定义如下:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

若第i个节点属于第c类,则Yic=1Y_{ic}=1,否则为0。(6)式和(7)式定义了半监督的node embedding模型。

3.2 Active Query in Heterogeneous Networks (AQHN)

DHNE是半监督的HNE,需要标签信息。为了训练出更有效的DHNE模型,提出了主动学习query(选择出unlabel data)的模型AQHN。AQHN的目的就是通过主动学习,筛选出最有价值的节点,进而让专家去标注这些节点用于DHNE模型中的监督。

**不确定性(uncertainty)和代表性(representativeness)**是AL中选择样本常使用的方法。

不确定性是选择在当前分类模型中,最不确定的样本;代表性是选择无标签数据中最能代表整体特征的样本。

接下来介绍基于不确定性和代表性,针对HIN的3个主动选择策略:网络中心性(Network Centrality)、卷积信息熵(Convolutional Information Entropy)和卷积信息密度(Convolutional Information Entropy)。然后,利用多臂老虎机机制,提出一种新方法将这些策略结合起来,自适应地、迭代地选择最有价值的一批节点送去标注。

3.2.1 选择策略

3.2.1.1 网络中心性(NC)

NC是衡量节点代表性的有效方法。本文使用度中心性(degree centrality):ϕnc(vi)=Ni\phi_{nc}(v_i)=|N_i|,来评估节点的中心性。其中,Ni|N_i|表示节点viv_i的邻居。

受谱图卷积将卷积信号定义为相邻信号的线性加权和的思想启发,提出了两种新的基于相邻信号卷积的主动选择节点策略。

首先定义卷积参数,然后定义两种选择策略。

wi=tanh(niN+miVT)[0,1)w_i=tanh(\frac{n_i}{N}+\frac{m_i}{V_T})\in [0,1)衡量节点viv_i的重要性。nin_i表示节点的邻居数,mim_i表示节点邻居的类型数。N,VTN, V_T分别表示网络中的节点数和节点类型数。ni,min_i, m_i值越大,说明节点viv_i蕴含的信息越复杂,viv_i就对它的邻居节点越重要。

后面的操作中,使用wiw_i作为对邻居进行卷积的权重参数。

3.1.1.2 卷积信息熵(CIE)

信息熵(IE)广泛用于不确定性的衡量,本文使用如下的CIE衡量节点viv_i的不确定性:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

3.1.1.3 卷积信息密度(CID)

节点的代表性对于衡量节点价值也很重要。使用k-means聚合节点向量,从而计算节点的信息密度(ID)。聚合的簇数是标签类别数。节点viv_i的CID值计算如下:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

其中dis()dis(\cdot)是距离度量函数(i.e., 欧式距离),ψ(vi)\psi(v_i)是节点viv_i所属簇的中心向量,EjE_j是第j个节点的向量表示。

CIE和CID都是基于节点自身和其邻居节点,衡量节点重要程度的。IE和ID只使用了节点自身的信息。由于网络中节点之间存在许多连边,所以使用CIE和CID更合适。

3.2.2 主动节点选择的多臂老虎机(Multi-Armed Bandit for Active Node Selection)

使用上述三个策略选取最优价值的节点。

首先根据ϕnc,ϕcie,ϕcid\phi_{nc}, \phi_{cie}, \phi_{cid}选出值最高的b个节点,作为每次的初始候选节点。

为每个策略分配不同的权重,加权求和作为节点重要性的最终衡量标准。主动节点选择问题就被转换为了评估每个策略的重要性问题

但每种策略的重要性都是时效性的,因此很难具体说明。所以提出一个新模型,基于多臂老虎机机制(MAB),自适应地学习动态的权重参数。

MAB每次迭代只能play one arm,本文使用的是组合的多臂老虎机(CMAB),即每次迭代可以play multiple arms

基于CMAB的思想,将每个选择策略看成一个arm,通过评估对应arm的期望回报,估计每个策略的重要性。定义CrλC^\lambda_r为arm λ\lambda在第r次迭代的初始值,QrQ_r是迭代中实际query的节点集合。arm λ\lambda的实际回报值定义如下:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

其中LrL_r是在第r次迭代中可用的已标注节点集合;Qrλ=CrλQrQ^\lambda_r=C^\lambda_r \cap Q_r是第r次迭代中,被arm λ\lambda控制的query节点集合。fLrf_{L_r}是在LrL_r上训练的分类器,ψ(fLr)\psi(f_{L_r})fLrf_{L_r}的分类结果。

然而当前迭代的μr(λ)\mu_r(\lambda)值是不可计算的,因为QrλQ^\lambda_r的真实值是未知的。通常使用经验回报来估计arms的预期回报,但是在每次迭代为每个arm计算经验μr(λ)\mu_r(\lambda)值是非常耗时的。所以,使用arm带来的节点局部embedding变化,来估计每个arm的期望回报值

首先定义在第r次迭代中,由arm λ\lambda引起的局部embedding变化如下:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

其中EjrE^r_j是第r次迭代中节点vjv_j的embedding,N(vi)N(v_i)是节点viv_i的邻居。如上式所示,第r次迭代中arm λ\lambda的经验回报等于由arm λ\lambda控制的节点和其邻居的embedding变化。

AL策略的目的就是选择那些如果给定了标签值,则会对embeddings最大程度带来改变的节点。如果改变的不多,说明标签没有提供足够多的新信息。

为了更公平地比较避免偏差,用μ^r(λ)=Δr(λ)Δr(λ=1Λλ)\hat{\mu}_r(\lambda)=\frac{\Delta_r(\lambda)}{\Delta_r(\bigcup^{\Lambda}_{\lambda=1}\lambda)}来估计第r次迭代中arm λ\lambda的经验回报。其中,Δr(λ=1Λλ)\Delta_r(\bigcup^{\Lambda}_{\lambda=1}\lambda)表示所有arms带来的局部embedding的改变。另外,在第r次迭代中,Δr(λ=1Λλ)λΛΔr(λ)\Delta_r(\bigcup^{\Lambda}_{\lambda=1}\lambda) \leq \sum^{\Lambda}_{\lambda} \Delta_r(\lambda),因为不同的QrλQ^{\lambda}_r可能有交集。

由于每个选择策略的重要程度是随时间变化的,使用前两次的经验回报平均值,作为对当前期望回报的估计

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

然后作者又把μˉr(λ)\bar{\mu}_r(\lambda)调整为了μ~r(λ)\tilde{\mu}_r(\lambda)(具体原因见论文):

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

为了避免选择有争议的节点,使用weighted Borda count估计第r次迭代中un-queried nodes viλ=1ΛCrλv_i\in \bigcup^{\Lambda}_{\lambda=1} C^{\lambda}_r的期望回报:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

最终从λ=1ΛCrλ\bigcup^{\Lambda}_{\lambda=1} C^{\lambda}_r中选出top b个(~μ)r(vi)\tilde(\mu)^*_r(v_i)最大的节点,作为第r次迭代中的query batch QrQ_r

4 实验

数据集:DBLP、Cora、MovieLens

实验任务:节点分类任务,使用Accuracy衡量。

对比方法:

  • GCN
  • metapath2vec
  • AGE和ANRMAB:active network embedding methods,没有考虑节点间依赖关系以及网络的异质性。
  • DHNE:ActiveHNE的一种变体,它在初始AL设置中随机选择要query的节点。

实验结果:

(1)对比不同方法,在三个数据集上进行节点分类任务,准确率对比图如下:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

(2)对ActiveHNE模型进行多种变形,以证明每个选择策略的有效性:

【论文解读 IJCAI 2019 | ActiveHNE】Active Heterogeneous Network Embedding

5 总结

本文研究了,如何通过获取最优的节点标签,实现主动判别异质网络嵌入。

提出ActiveHNE模型,将异质图分解成了多个同质图和bipartite sub-networks(二部图),然后在这些networks上使用GCN

提出了三种基于卷积的query策略,并将其结合,选择出最有价值的节点作为query,供专家打标签,然后反馈给下一轮判别性网络嵌入


本文的目的是从异质图中选取出最有价值的节点,然后给这些节点打标签,以用于半监督的节点嵌入学习。利用了这些有价值的信息,可以更好地学习到节点的表示。

但是节点的数量很多,如何选取有价值的节点就成了问题。本文采用了网络中心性(IC)、卷积信息熵(CIE)、卷积密度熵(CIE)作为衡量节点重要性的标准。

如何合理结合这三个策略?

接着就结合了强化学习中的组合的多臂老虎机机制(CMAB),自适应地学习动态的参数,为上述三个策略分配不同的权重。将每个选择策略看成一个arm,通过评估对应arm的期望回报,估计每个策略的重要性

在节点分类任务中得到了很好的效果。