阅读笔记——回环检测综述:Methods for Appearance-based Loop Closure Detection

二、基于表观的回环检测(Appearance-Based Loop Closure Detection)简介

回环检测的性能主要取决于图像的特征描述方法,以及检索之前存在图像的能力。(The performance of an appearance-based loop closure detection algorithm is highly influenced by the description method used to describe images and the ability of the algorithm to retrieve images similar to the current one.)

2.1 图像描述

2.1.1 全局描述子

PHOG(Pyramid Histogram of Oriented Gradients)

主要包括局部形状(local shape)和空间布局(spatial layout )两部分。local shape用HOG特征表示,Pyramid用于表示全局空间分布。如下图所示,在同一张图片上,取L个尺度,每个尺度上做例如,1x1、2x2、4x4 …等分割成一个个cell,每一个cell取HOG特征,组成一个一维向量,最后将这些向量拼接起来作为PHOG特征。
阅读笔记——回环检测综述:Methods for Appearance-based Loop Closure Detection

2.1.2 局部图像特征

全局描述子的确定:不能很好的处理几个视觉问题:如部分遮挡,光照变化,相机视点变化。(but they are not able to cope with several visual problems like partial occlusions, illumination changes or camera rotations)而局部特征可以解决。
局部特征也称关键点(keypoint)
首先是提取keypoint ,再形成局部特征的关键点集合,最后形成局部描述子(从每个局部特征附近进行一些测量以形成一个描述子)
一个好的特征检测器应该有以下性质:repeatability, distinctiveness, locality, quantity, accuracy and efficiency.

SIFT

SURF(speed up robust feature)

FAST

ORB

2.2 图像检索

首先,全局描述子不能很好的描述图像,从而产生错误的候选图像;其次,局部描述子又因为检测出的描述子太多,对于检索来说是困难的。
所以,我们可以从两方面改善数据库的庞大导致检索困难的问题:采用更加有效的检索方案、使用特征量化

K-D树(更加有效的检索方案)

kd树是一种二叉树,可以用于高维的数据检索。
细节请见:https://www.cnblogs.com/wqbin/p/10744277.html

BOW 词袋模型(特征量化的方法)

主要分为以下几步:

  1. 检测出特征点
  2. 形成特征描述子
  3. 对特征描述子进行聚类,将相似的特征描述子分到同一个视觉单词中
  4. 对一副图像形成视觉向量Set={(w1,n1),(w2,n2),(w3,n3),…},其中wi代表视觉单词的ID,ni代表该视觉单词的权重,权重的计算由TF-IDF得来。
  5. 若要判断两幅图像是否形成回环,即评价两幅图像的视觉向量的相似度,这里相似度的度量不能选择简单的L1范数等,因为这样会容易产生错误的结果。
    阅读笔记——回环检测综述:Methods for Appearance-based Loop Closure Detection

三、回环检测常用数据集

阅读笔记——回环检测综述:Methods for Appearance-based Loop Closure Detection
Lip6 Indoor 具有高的感知偏差(也就是两个很像的场景,例如办公室一样的桌子,但不是同一个地方)
Lip6 outdoor 变换很大的场景
以上都有人工标注的ground-truth
city centre 和 new college 都是Oxford Dataset人工标注的,但是由双目相机拍摄的(同一场景具有左右两张图片);并且有pose file (标注相机的位姿)。
KITTI 这个数据集具有广泛的应用,并且不是每个序列中存在回环,可以使用其他人(如Arroyo, R., Alcantarilla, P.F., Bergasa, L.M., Yebes, J.J., Bronte, S.: Fast and effective visual
place recognition using binary codes and disparity information. In: IEEE/RSJ International Conference on Intelligent Robots and Systems (2014))提供的ground-truth.