【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

有关注意力机制的基本概念,可以参考 https://nndl.github.io/ 

本文介绍了一种使用注意力机制进行图的结点分类的架构。

这里使用注意力机制原因有三:

1. 运算高效

2. 可以用于结点度数不同的情形(因为其它某些spatial方法需要对每个度数训练一个模型)

3. 可用于inductive learning任务

 

图注意力网络只有一个graph attention layer

输入:【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

输出:【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

其中,N是结点数,F和F’是每个结点的特征数

权重矩阵:【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

于是可以计算注意力系数【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

代表了j的特征对i的重要性。但是注意在本文模型中,只计算i和j为邻居结点的情形。

为了更好比较注意力系数,我们将其用softmax归一化

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

由经验可知,注意力机制a是一个单层前馈神经网络,由一个权重向量【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)表示。

再玄学地加一个LeakyReLU后,可表示为:

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

其中||表示连接

以上即为下图左侧所示,而右侧是用multi-head(多头注意力),即利用多个查询来并行地从输入信息中选取多组信息,每个注意力关注输入信息的不同部分。

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

 

之后根据计算好的系数把特征加权求和【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)是非线性**函数

然后用multi-head变成这样:【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS(GAT)

 

与其他方法对比:

复杂度低

不需要整张图,只需要知道相邻结点

是MoNet的特例