【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

有关注意力机制的基本概念，可以参考 https://nndl.github.io/

本文介绍了一种使用注意力机制进行图的结点分类的架构。

这里使用注意力机制原因有三：

1. 运算高效

2. 可以用于结点度数不同的情形（因为其它某些spatial方法需要对每个度数训练一个模型）

3. 可用于inductive learning任务

图注意力网络只有一个graph attention layer

输入：【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

输出：【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

其中，N是结点数，F和F’是每个结点的特征数

权重矩阵：【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

于是可以计算注意力系数【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

代表了j的特征对i的重要性。但是注意在本文模型中，只计算i和j为邻居结点的情形。

为了更好比较注意力系数，我们将其用softmax归一化

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

由经验可知，注意力机制a是一个单层前馈神经网络，由一个权重向量【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）表示。

再玄学地加一个LeakyReLU后，可表示为：

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

其中||表示连接

以上即为下图左侧所示，而右侧是用multi-head（多头注意力），即利用多个查询来并行地从输入信息中选取多组信息，每个注意力关注输入信息的不同部分。

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

之后根据计算好的系数把特征加权求和【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）是非线性**函数

然后用multi-head变成这样：【论文笔记】图注意力网络 GRAPH ATTENTION NETWORKS（GAT）

与其他方法对比：

复杂度低

不需要整张图，只需要知道相邻结点

是MoNet的特例