EVO:第一篇事件相机实时SLAM的论文

本文完整介绍了 EVO: A Geometric Approach to Event-Based 6-DOF Parallel Tracking and Mapping in Real Time 这篇论文的内容。主要用于个人记录,转载请注明出处。

前言

搞事件相机SLAM的同学应该对EVO这个研究并不陌生。在我看来,这篇17年的工作,与16年 kim [2] 的工作,意味着只依靠Event Camera就能够实现SLAM,而不需要其他sensor的辅助(例如初始化)。

而 kim [2] 的这个工作,采用了首先恢复intensity的方式进行slam,有些绕回到老路。所以EVO这篇,我认为可以算得上是第一篇充分利用event特性的SLAM方法。

然而自己一直没有认真研究过这篇论文,今日难得有空,认真的看了看。发现基本方法很简单,所用到的技术也出现在之前或之后的论文当中。所以我理解起来也很容易。在此做简单整理。

EVO的demo视频:https://youtu.be/bYqD2qZJlxE

Mapping部分

我首先介绍mapping部分,而不是像论文中从tracking开始。因为mapping部分相对独立,而tracking用到了mapping的一些结果。

Mapping主要利用了Rebecq在16年提出的 EMVS[3] 技术。对这部分的分析请看我之前一篇较为详细的介绍:EMVS: Event-Based Multi-View Stereo 论文详细分析。EVO所采用的关键帧的创建等也与EMVS一文中的策略基本相同,所以略过。

Tracking部分

Tracking部分的核心是 image-to-model alignment。即通过当前获得的图像,与所对应的3D model进行对齐配准,得到运动参数。

具体而言,首先通过事件积累得到2D的积累图。再从Mapping得到的相邻关键帧对应的local map中,选取具有逆深度的地图点,假设当前相机位置将这个local map投影到当前图像平面,再利用LK方法进行对齐。具体采用的是逆增量式LK算法,这种方法可以提前计算一部分矩阵,提高计算速度,论文[4]中介绍的很清楚。

下图示意了tracking的过程。(a)为已知的模型(即通过mapping部分建立的local map),(b)为关键帧看到的图像,将这个图通过warp,与©的事件积累图进行对齐,得到(c.)对应的相机位姿。

EVO:第一篇事件相机实时SLAM的论文

其他细节

bootstrapping
了解了Tracking和Mapping的思路后,很自然想到的问题是:mapping需要得到trace,而tracking时又用到了mapping的local map和keyframe,那么怎么初始化?

论文提出了自举方法。即最开始一段儿时间平行于一个平面场景进行运动,进行tracking后再mapping得到一个初始地图。这里并没有展开介绍,我觉得具体应该是:假设平面运动,那么在align是就是一个纯二维的LK跟踪,得到了一个二维的轨迹,这是不需要已知3D model的;再利用这个轨迹,对这个二维的平面数据进行mapping,完成自举。

event frame的创建
创建采用定事件数量的方式进行积累。数量是70%的当前地图点。实验表明大概是2000个,用时0.6~2ms。

LK对齐时加速策略
采用类似于随机梯度下降的方式进行对齐。即不是使用全部的点去warp,而是每次随机选择一部分点(约300-500个),warp后算一个增量。由于model大概有10k个地图点,所以一般需要20-30次完成一个epoch。5个epoch后完成一次完整的warp。

model的高斯平滑
将model投影后的结果进行高斯滤波,由此使图像更加光滑。

逆深度与降噪
采用逆深度方式编码距离,并采用15pixel的体素对地图进行滤波。

小结

EVO的地位毋庸置疑,采用的方法也是比较经典的方法。总之还是不错的一篇论文。

参考文献

[1]. Henri Rebecq. EVO: A Geometric Approach to Event-Based 6-DOF Parallel Tracking and Mapping in Real Time
[2]. H. Kim, A. Handa, R. Benosman, S.-H. Ieng, and A. J. Davison, “Simultaneous mosaicing and tracking with an event camera,” in Proc. Brit. Mach. Vis. Conf., Nottingham, U.K., 2014, pp. 1–12.
[3]. H. Rebecq, G. Gallego, and D. Scaramuzza, “EMVS: Event-based multiview stereo,” in Proc. Brit. Mach. Vis. Conf., York, U.K., 2016, pp. 1–11.
[4]. S. Baker and I. Matthews, “Lucas-kanade 20 years on: A unifying framework,” Int. J. Comput. Vis., vol. 56, no. 3, pp. 221–255, 2004.