【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)
有关注意力机制的基本概念,可以参考 https://nndl.github.io/
本文介绍了一种使用注意力机制进行图的结点分类的架构。
这里使用注意力机制原因有三:
1. 运算高效
2. 可以用于结点度数不同的情形(因为其它某些spatial方法需要对每个度数训练一个模型)
3. 可用于inductive learning任务
图注意力网络只有一个graph attention layer
输入:
输出:
其中,N是结点数,F和F’是每个结点的特征数
权重矩阵:
于是可以计算注意力系数
代表了j的特征对i的重要性。但是注意在本文模型中,只计算i和j为邻居结点的情形。
为了更好比较注意力系数,我们将其用softmax归一化
由经验可知,注意力机制a是一个单层前馈神经网络,由一个权重向量表示。
再玄学地加一个LeakyReLU后,可表示为:
其中||表示连接
以上即为下图左侧所示,而右侧是用multi-head(多头注意力),即利用多个查询来并行地从输入信息中选取多组信息,每个注意力关注输入信息的不同部分。
之后根据计算好的系数把特征加权求和
是非线性**函数
然后用multi-head变成这样:
与其他方法对比:
复杂度低
不需要整张图,只需要知道相邻结点
是MoNet的特例