SuperGlue: Learning Feature Matching with Graph Neural Networks 2019 论文笔记

Magic Leap, ETH Zurich

提出了特征点匹配网络SuperGlue，寻找两幅图像局部特征点之间的对应关系的神经网络，该网络使用图神经网络预测损失。

搭配super point在室内外重定位任务中达到SOTA的精度。

论文方法：

首先输入图像对记为A，B，各包含了关键点和局部描述子，因此是集合形式{(p,d)}

p=(x,y,c)是关键点，其中c是置信度；d是描述子，本文中是superpoint。

网络结构介绍：

1.图神经网络

借鉴人眼反复匹配的过程：注意力+反复迭代+上下文信息，因此使用注意力图神经网络作为第一个模块，允许图像间、图像间的长距离信息融合。

关键点编码：这一步是图神经网络节点 i 的初始化步骤：
$^{(0)}x_i=d_i+MLP_{enc}(p_i)$
同时编码了位置信息 p和视觉信息d
该网络为多路复用图神经网络，其节点由两幅图的特征点共同组成。

连接同一图像上两个节点的边为内边，其集合记为 $\epsilon_{self}$ ，

连接了来自两个不同图像的特征点的边的集合称为 $\epsilon_{cross}$

迭代更新A中的节点：
$^{(ℓ+1)}x^A_i=^{(ℓ)}x^A_i+MLP([^{(ℓ)}x^A_i||m_{\epsilon →i}])$
[…||…]表示将节点i自己的状态和 $\epsilon$ 集合中的所有指向节点i的边信息级联，然后使用多层感知机

B中节点相同。

从 $l$ = 1开始，如果是奇数那么$ \epsilon=\epsilon_{self} $,否则$ \epsilon = \epsilon_{cross}$,也就是说在图像内和图像间交叉传播

2.注意力融合

即状态更新中的 $m_{\epsilon →i}$ 的求解方法：
$m_{\epsilon →i} = \sum_{(i,j)\in \epsilon}\alpha_{ij}V_j \\这里使用注意力 \ 即加权方法\\权值 \alpha_{i,j} = softmax(q_i^TK_j),代表q与k之间的相似性度。\\$
其中的q,v,k都是根据每一层迭代结果以及网络层的参数计算出来的：

已知 $l$ 层迭代的参数为 $w1,w2,w3,b1,b2,b3$ ,
$q_i=W_1^{(ℓ)}x^Q_i+b_1 \\ [k_j\ v_j]^T=[W_2\ W_3]^T \ ^{(ℓ)}x^S_j+[b_2\ b_3]^T$
经过L层的迭代最终的A 中的匹配描述符：
$f^A_i=W·^{(L)}x^A_i+b,\ ∀i∈ A$
B中类似。