NN-Descent构建K近邻图——论文超详细注解

个人博客：www.mzwang.top

论文题目

Efficient K-Nearest Neighbor Graph Construction for Generic Similarity Measures

作者拟解决的主要问题

K近邻图的构建在很多基于Web的应用上是一个重要的操作，比如协同过滤（基于用户的邻居作推荐）、相似性搜索等。一个有效地构建方法将使K近邻图的应用更加广泛。

暴力构建K近邻图的时间复杂度为 $O(n^2)$ ，为了能更高效的构建K近邻图，现存的工作扩展性都不太好，而且一般都特定于具体的相似性度量。

有效的K近邻图构建仍然是一个开放的问题，解决该问题的已知方案中没有一个是通用、有效和可扩展的。因此，本文提出了NN-Descent方法，该方法具有以下优点：

通用。适用于任意的相似性度量准则。
可扩展。随着数据集尺寸的增加，Recall仅有很小的下降。由于对每一个数据点的局部信息进行操作，因此适用于分布式计算环境（MapReduce）.
节省空间。整个构建过程仅涉及到一种数据结构——近邻图。
快速、精确。百分之几的相似性比较便可实现90%以上的召回率。
容易实施。主要代码不超过200行（C++）。

论文主要研究内容

如何有效地构建一个K近邻图，具体如下：

适用任意相似性度量的K近邻图构建方法。
在较短的时间内快速构建K近邻图的方法。
构建一个在其上能快速、精确执行搜索的K近邻图。
适用于MapReduce框架的K近邻图构建方案。

论文使用的方法

抽象描述注解

$V$ 表示数据集，数据集尺寸为 $N=|V|$ ，相似性度量 $\sigma$ ： $V \times V \rightarrow R$ 。 $\forall v \in V$ ， $B_K(v)$ 表示 $v$ 的 $K$ 个最近邻， $R_K(v)= \lbrace u \in V | v \in B_K(u) \rbrace$ 表示 $v$ 的反向K个最近邻。 $B[v]$ 和 $R[v]$ 分别表示 $B_K(v)$ 和 $R_K(v)$ 的近似。 $\overline{B}[v]=B[v] \cup R[v]$ 表示 $v$ 的一般邻居。

当在 $V$ 上的度量方式为距离度量时，即 $d$ ： $V \times V \rightarrow [0,\ +\infty]$ 。 $\forall r \in [0,\ +\infty]$ ，以 $v$ 为球心的r-球定义为： $B_r(v)=\lbrace u \in V | d(u, \ v) \leq r\rbrace$ 。

如果 $\exists c$ 满足：
$|B_{2r}(v)| \leq c|B_{r}(v)|, \ \forall v \in V \tag{1}$
则称度量空间V增长受限， $c$ 是增长常量。

基础算法注解

基本思想：邻居的邻居更可能是邻居。

理论推导

我们可以从 $V$ 中每一个点的现有的近似K近邻出发，通过探索该点邻居的邻居（在当前近似K近邻中）而不断完善该点的K近邻。换句话说，可从粗略的K近邻图出发通过改进而不断完善它。对这一观点的量化表达如下：

让 $K=c^3$ （后面公式推导要用到， $K$ 取此值是方便推导），假定已有的近似K近邻图（可以随机给每个点选邻居构建，也可通过其它数据结构辅助构建，如哈希，树等）为 $B$ 。 $\forall v \in V$ ， $B^\prime[v]=\bigcup _{v^\prime \in B[v]} B[v^\prime]$ 表示 $v$ 所有邻居的邻居集合，它也是在完善 $v$ 的K近邻时的候选点集。当B的精度比较高时（迭代完善了一定次数或通过某种更好的方式初始化B），高到什么程度呢？就是给定一个固定的半径 $r$ ，对 $\forall v \in V$ ， $B[v]$ 包含的K个邻居均匀地分布在 $B_r(v)$ 中。这样的话，当各事件相互独立且 $K<< |B_{r/2}(v)|$ 时， $B^\prime [v]$ 很可能包含在 $B_{r/2}(v)$ 中的K个邻居。换句话说，对 $\forall v \in V$ ，通过探索 $B^\prime [v]$ 来使 $v$ 到它的近似K近邻的距离减半。

对 $B_{r/2}(v)$ 中的一点 $u$ ，要从 $B^\prime[v]$ 里面找到，则至少存在一点 $v^\prime$ ，使得 $v^\prime \in B[v]$ ，且 $u \in B[v^\prime]$ 。接下来，我们只需要找满足上述条件的 $v^\prime$ 即可。而若 $v^\prime \in B_{r/2}(v)$ ，则有以下几个不等式成立：

$v^\prime \in B_r(v)$ ，因此， $P\lbrace v^\prime \in B[v]\rbrace \geq K/|B_r(v)|$ ， $P\lbrace v^\prime \in B[v]\rbrace$ 表示概率。注解： $v^\prime \in B_{r/2}(v)$ ，则 $v^\prime \in B_r(v)$ 必然成立。若 $v$ 的 $K$ 个邻居都在 $B_r(v)$ 中取的话，则一共有 $C_{|B_r(v)|}^K$ 种情况，而 $B_r(v)$ 中的一点不是 $v$ 的邻居的情况有 $C_{|B_r(v)|-1}^K$ 种， $B_r(v)$ 中的一点不是 $v$ 的邻居的概率为 $C_{|B_r(v)|-1}^K/C_{|B_r(v)|}^K$ ，即为 $(|B_r(v)|-K)/|B_r(v)|$ ，因此 $B_r(v)$ 中的一点是 $v$ 的邻居的概率为 $1-C_{|B_r(v)|-1}^K/C_{|B_r(v)|}^K$ ，即为 $K/|B_r(v)|$ 。 $B_{r/2}(v)$ 中的一点更可能是 $v$ 的邻居，故 $v^\prime$ 是 $v$ 的邻居的概率大于等于 $K/|B_r(v)|$ 。
$d(u,\ v^\prime) \leq d(u, \ v) + d(v, \ v^\prime) \leq r$ ，因此， $P\lbrace u \in B[v^\prime]\rbrace \geq K/|B_r(v^\prime)|$ 。注解： 由第一条推论可知，因此 $B_r(v^\prime)$ 中的一点是 $v^\prime$ 的邻居的概率为 $K/|B_r(v^\prime)|$ ，而 $u$ 与 $v^\prime$ 的距离小于等于 $r$ ，故 $u$ 是 $v^\prime$ 的邻居的概率大于等于 $K/|B_r(v^\prime)|$ 。
$|B_r(v)| \leq c|B_{r/2}(v)|$ ，且 $|B_r(v^\prime)| \leq c|B_{r/2}(v^\prime)| \leq c|B_r(v)| \leq c^2|B_{r/2}(v)|$ 。注解： 重点是 $|B_{r/2}(v^\prime)| \leq |B_r(v)|$ 部分的推导，而此处可由图1明显推出。由于 $v^\prime$ 在 $v$ 的 $r/2$ -球中， $v^\prime$ 的 $r/2$ -球一定包含于 $v$ 的 $r$ -球中。

图1 不等式推导二维辅助理解图

由以上3个不等式和假定的各事件的独立性可得：
$P\lbrace v^\prime \in B[v] \land u \in B[v^\prime]\rbrace \geq K/|B_{r/2}(v)|^2 \tag{2}$
注解： 上式其实就是1.与2.两个事件同时发生的概率再由3.式化简的结果。它的意义是，对于 $B_{r/2}[v]$ 中的确定的点 $v^\prime$ ，它既是 $v$ 的邻居又是 $u$ 的反向邻居的概率大于等于 $K/|B_{r/2}(v)|^2$ 。

因此，当 $v$ 的邻居从 $B_{r/2}(v)$ 中取时，在 $B_{r/2}(v)$ 中的一点 $u$ 属于 $v$ 的邻居的邻居的概率为：
$P\lbrace u \in B^\prime[v]\rbrace \geq 1-(1-K/|B_{r/2}(v)|^2)^{|B_{r/2(v)}|} \approx K/|B_{r/2(v)}| \tag{3}$
注解： 先考虑 $u$ 不是 $v$ 的邻居的邻居的概率。此时，从 $B_{r/2}(v)$ 中取出的一点设为 $x$ ， $x$ 不是 $v$ 的邻居或者 $u$ 不是 $x$ 的邻居，发生这种情况的概率由式（2）可得应为 $1-K/|B_{r/2}(v)|^2$ ， $B_{r/2}(v)$ 中一共有 $|B_{r/2}(v)|$ 个点，它们都不满足上述情况（ $x$ 不是 $v$ 的邻居或者 $u$ 不是 $x$ 的邻居）的概率为： $(1-K/|B_{r/2}(v)|^2)^{|B_{r/2(v)}|}$ ，这便是 $u$ 不是 $v$ 的邻居的邻居的概率，从而 $u$ 是 $v$ 的邻居的邻居的概率为： $1-(1-K/|B_{r/2}(v)|^2)^{|B_{r/2(v)}|}$ 。下面对该式进行化简，由于 $K<< |B_{r/2}(v)|$ ，因此 $K/|B_{r/2}(v)|^2$ 是无穷小，化简过程用到一个重要极限：
$\lim_{x \rightarrow \infty}(1+\frac{1}{x})^x=e \tag{4}$
一个等价无穷小公式：
$e^x -1 \sim x$
整个数据集的直径设为 $\Delta$ ，式（3）表明，只要我们取一个足够大的 $K$ （取决于增长因子 $c$ ），即使我们从一个随机的K近邻图开始，通过探索每一个对象邻居的邻居，便可找到该对象的处于半径为 $\Delta/2$ 的范围内的K个近邻。不断的迭代这一过程，每个对象的邻居距离该对象的距离会不断收缩，最终，构建一个高质量近似K近邻图。

伪代码

算法1 NN-Descent基础算法

注解：(1)处为更新统计，如果某一个对象的K近邻列表更新了， $c$ 就会加1。算法1的终止条件为自然终止，即没有更新时（ $c=0$ ）终止。

改进算法注解

局部连接

让每一个对象探索它邻居的邻居的操作也可通过局部连接等价实现。局部连接可这样理解：给定一点 $v$ ，它的邻居集为 $\overline{B}[v]$ ，在 $\overline{B}[v]$ 上的局部连接是计算每一对不同的 $p$ 和 $q$ 之间的相似性（ $p，q \in \overline{B}[v]$ ），并且根据此相似性更新 $B[p]$ 与 $B[q]$ 。通俗的将，局部连接就是每一个点介绍它的邻居去了解彼此。

局部连接能代替一个对象探索它邻居的邻居的操作吗？看下面的示例：

图2 局部连接实现示例

如图2所示， $b \in B_K(a)$ ， $c \in B_K(b)$ 。在算法1中，当探索到 $a$ 时，我们需要比较 $a$ 与 $c$ ，当探索到 $c$ 时，我们也需要比较 $a$ 与 $c$ ，这是冗余计算的一种情况，可通过索引编号的顺序来解决。同样地， $a$ 与 $c$ 之间的比较可通过对 $\overline{B}[b]$ 进行局部连接来实现。

局部连接实现起来很简单，那么它有什么好处呢？

增强了数据的局部性，使执行更有效。如果每一个对象的邻居的个数平均为 $\overline{K}$ ，算法1每次迭代探索每一个对象的邻居的邻居时将接触到 $\overline{K}^2$ 个点，而局部连接只需要接触 $\overline{K}$ 个点。
单机实施时，提升了cache的命中率，从而加速了K近邻图的构建。分布式实施时，能减少机器之间数据的复制。

增量搜索

随着算法的执行，每一个对象的K近邻更新的幅度逐渐减小。而且，在某次迭代中参与比较的两个点，就更可能在之前的迭代中已经比较过了。这就造成冗余计算，而增量搜索就是要解决这个问题的。

给每一个点的K近邻列表中的每一个对象附加一个布尔标记，当一个新对象插入到该列表中的某个条目时，它的标记初始化为true。
只有当两个对象至少一个的标记为true，它们才进行局部连接。一个对象参与局部连接之后，它被标记为false（true变false，false还是false）。

采样

采样是为了解决以下两个问题：

局部连接的高成本。一次迭代，就算只考虑K近邻，时间复杂度为 $K^2N$ ，如果再考虑反向近邻，时间复杂度更高。
冗余计算。两个点同时连接到多个不同对象，这两个点将比较多次。

使用采样来缓解这两个问题的具体方案如下：

邻居取样。局部连接之前，对用于局部连接的每一个对象，从标记为true的K近邻中取样 $\rho K$ 个对象（ $\rho \in (0, 1]$ ）。每一次迭代，仅仅这些被取出的数据被标记为false。
反向邻居。只根据取样对象和标记为false的对象来构建反向邻居列表。对构建得的反向邻居列表再次取样。
在标记为true对象之间进行局部连接，以及在标记为true对象与标记为false对象之间进行局部连接。

因此，我们就可以通过取样率 $\rho$ 来进行精度和速度的trade-off。

提前终止

一个很自然的终止标准是：某次迭代中，K近邻图不再被改善。实际上，开始迭代时，K近邻图能充分的更新，而随着迭代的进行，K近邻图更新的次数快速收缩，此时的迭代就显得意义不大了，考虑到迭代的计算成本，这些迭代其实没必要执行。为了解决这个问题，本文采取的方案是：在每次迭代中，统计所有对象K近邻列表更新的次数 $count$ ，当$count < \delta KN $时终止发生，其中$ \delta$是精度参数，它粗略反应了由于提前终止允许错过的真正的K近邻的比例。

伪代码

算法2 NN-Descent改进算法

注解： 算法2是在算法1的基础上结合了四个改进（局部连接；增量搜索；采样；提前终止），注意算法2其实也不能完全避免冗余计算，先理解一下这个算法，然后我会给出示例。

(1)、(2)属于增量搜索和采样部分，对于当前对象 $v$ ，在它的邻居列表中取 $\rho K$ 个标记为true的邻居到 $new[v]$ ，并将这些邻居标记为false（对于伪代码中的(3)），在它的邻居列表中取出所有标记为false的邻居到 $old[v]$ 。

(4)是取 $v$ 的反向邻居，正如取 $v$ 的 $old[v]$ 一样，其它所有点也会取各自的 $old$ ，以所有点的 $old$ 集合中包含的点作为探索范围，检查它们的邻居列表中含 $v$ 的点，含 $v$ 则加入到 $old^\prime [v]$ ， $old^\prime [v]$ 的意义是：点 $v$ 的反向邻居，且在该反向邻居的邻居表中， $v$ 被标记为false。 $new^\prime$ 同理。

(5)是说最后参与局部连接的 $old[v]$ 是由两部分组成：一部分是从 $v$ 的邻居列表中取出的标记为false的邻居集，另一部分是从 $old^\prime [v]$ 中取样的 $\rho K$ 个点。最后参与局部连接的 $new[v]$ 同理（(6)）。

(7)表示局部连接。 $new[v]$ 里面的点相互之间进行局部连接，为防止重复比较，设定比较顺序。 $new[v]$ 中的点与 $old[v]$ 中的点进行局部连接。

(8)统计更新，某一对象的邻居列表更新时，新插入的对象标记为true（满足：增量搜索）。

(9)为终止条件。当更新量小于某一阈值时终止。

冗余计算示例

图3 冗余计算示例

如图3所示，第一次迭代时 $v_3$ 和 $v_4$ 都取样了 $v_1$ ，都没有取样 $v_2$ ，因此，它们的邻居列表中 $v_1$ 都标记为false， $v_2$ 都标记为true。此时， $new^\prime[v_1]$ 含 $v_3$ 、 $v_4$ ，若 $v_3$ 、 $v_4$ 都被取样加入到参与局部连接的 $new[v_1]$ ，则 $v_3$ 和 $v_4$ 会进行一次相似性计算。第二次迭代时， $v_3$ 和 $v_4$ 都取样了 $v_2$ ，然后 $v_2$ 在它们的列表中被标记为false。此时， $new^\prime[v_2]$ 含 $v_3$ 、 $v_4$ ，若 $v_3$ 、 $v_4$ 都被取样加入到参与局部连接的 $new[v_2]$ ，则 $v_3$ 和 $v_4$ 又会进行一次相似性计算。

当然，上述分两次迭代的说明也可在一次迭代中发生。不过，上述冗余计算的情况在取样过程的参与下发生的概率是很小的。

论文的创新点

一种新的构建K近邻图的方法，具体创新包括：

对于一个随机K近邻图，通过几次迭代而不断的完善K近邻图，最终得到一个更好的K近邻图。（构图思路）
处理某个点时，在该点的各邻居之间进行选边。这种方式相较于处理某个点时，该点与该点的邻居的邻居之间进行选边而言，局部性更好。两种方式实现的结果都是一样的。（选边策略）

论文的结论

具体实验分析可以看作者的原文。本文提出的NN-Descent方法可使用任意度量方式构建的K近邻图。经验复杂度为 $O(n^{1.14})$ ，很容易实现并行化。

我的观点或思考

本文一开始是随机构建一个K近邻图，这样做的优点是简单快速。但是，迭代的过程过多地依赖随机初始化的K近邻图，这样可能不够稳定，某些情况下只需几次迭代，而另一些情况则可能需要很多。因此，一个简单地改进可从初始化K近邻图这个角度入手。

最近提出的基于近邻图的近似最近邻搜索算法——NSG和NSSG，他们在构建索引时，第一步构建K近邻图与第二部MRNG或SSG选边策略是分开进行的，有没有可能在K近邻图构建的同时执行某一选边策略。

选边的时候将三角不等式考虑进去，从而避免一些不必要的计算。

NN-Descent构建K近邻图——论文超详细注解

论文题目

相关信息

作者与单位

出处与时间

作者拟解决的主要问题

论文主要研究内容