非结构化环境下基于外观的闭环检测研究综述

目录摘要全文 图/表

PDF

DOI：10.13973/j.cnki.robot.210510

引用本文

李康宇, 王西峰, 徐斌, 姬丽娟, 耿牛牛. 非结构化环境下基于外观的闭环检测研究综述[J]. 机器人, 2023, 45(2): 238-256.

LI Kangyu, WANG Xifeng, XU Bin, JI Lijuan, GENG Niuniu. A Survey of Appearance-based Loop Closure Detection in Unstructured Environment[J]. ROBOT, 2023, 45(2): 238-256.

非结构化环境下基于外观的闭环检测研究综述

李康宇^1,2 , 王西峰¹ , 徐斌² , 姬丽娟² , 耿牛牛²

1. 中国机械科学研究总院集团有限公司, 北京 100037;
2. 机科发展科技股份有限公司, 北京 100037

收稿日期：2021-11-29；录用日期：2022-03-08; 修回日期：2022-03-14

作者简介：李康宇（1995–），男，博士生。研究领域：视觉SLAM，深度学习;
王西峰（1964 –），男，研究员。研究领域：机电一体化;
徐斌（1982 –），男，博士。研究领域：车辆工程。

通信作者：李康宇, liky@mtd.com.cn。

摘要：首先讨论了现有的场景外观描述方法及其应对各类非结构化因素时的性能。其次，介绍了基于纯图像检索、引入拓扑和度量信息的场景记忆模型的特性，并作为案例讨论了视觉词典的性能优化及构造方法。接着，对闭环检测的关键环节——闭环匹配、后验和优化——进行了分析。再次，概述了常用的性能评估指标和基准数据集。最后，总结了闭环检测研究现状，展望了无监督学习、语义上下文信息和模型轻量化等新技术的应用潜力。

关键词：视觉SLAM 闭环检测深度学习位姿优化

中图分类号：TP242 文献标志码：A 文章编号：1002-0446(2023)-02-0238-19

A Survey of Appearance-based Loop Closure Detection in Unstructured Environment

LI Kangyu^1,2 , WANG Xifeng¹ , XU Bin² , JI Lijuan² , GENG Niuniu²

1. China Academy of Machinery Science and Technology Group, Beijing 100037, China;
2. Machinery Technology Development Co. Ltd., Beijing 100037, China

Abstract: Firstly, the existing scene appearance description methods and their performances when dealing with various unstructured factors are discussed. Secondly, the characteristics of scene memory models based on pure image retrieval, and topological information and metric information are introduced, and as a case, the performance optimization and construction methods of the visual dictionary are discussed. Thirdly, three key steps of loop closure detection (LCD) are analyzed, including loop closure matching, subsequent verification, and optimization. Fourthly, the popular evaluation metrics and the standard datasets for LCD methods are presented. Finally, the current situation of LCD research is summarized, and the potential of novel techniques including unsupervised learning, semantic context, and lightweight model is described.

Keywords: visual SLAM (simultaneous localization and mapping) loop closure detection deep learning pose optimization

1 引言（Introduction）

对自身状态和外部环境的感知是移动机器人在未知环境下进行自主作业的基础。基于同步定位与地图创建（SLAM）^[1]技术，移动机器人可通过搭载的传感器实时获取外部信息，在实现位姿估计和定位的同时，增量地构建出环境地图。其中，视觉SLAM主要依靠视觉传感器采集主要信息，具有采集信息丰富、环境适应性强、成本低等优势，受到了学术界和工业界的广泛关注。

机器人通过判断当前位置是否为曾经访问过的区域，可以为后端的位姿优化施加更加全局、紧凑的约束，这一过程被称为闭环检测。闭环检测是视觉SLAM系统中十分重要的环节，正确的闭环检测结果能够消除视觉里程计估计位姿时产生的累积漂移，可帮助丢失轨迹的机器人重新定位^[2-3]。然而在非结构化环境下，闭环检测的结果总是存在失真的可能性，这是因为此类环境具有视觉纹理变化不稳定、环境物体非固定、先验信息缺乏的特点，典型的非结构化因素有：随季节、天气、时间变化而改变的场景外观，非固定路径引入的视角偏移，随机出现且相互遮挡的动态障碍物，场景相似导致的感知混淆^[2]等。显然，假阳性闭环将引入错误的约束，这将导致机器人出现丢失定位、破坏地图全局一致性等问题^[4]。因此，为了提升机器人定位精度和系统鲁棒性，实现有效、正确的闭环检测至关重要。

闭环检测本质上是求解数据之间的关联性问题。在大规模复杂环境下，基于图像与图像数据的相似性匹配方法性能优异^[5]。其中，基于外观的方法^[6-10]主要使用图像信息来解决闭环匹配问题，为了提升其性能，学者们围绕其核心环节展开了研究：(1) 场景外观描述：相比使用整幅图像进行相似性匹配，基于图像特征的方法能够显著压缩信息，提高闭环检测效率，在实际应用中占据主流地位^[5]。但压缩过程将不可避免地丢失大量有效信息，这对于外观变化较大的图像匹配来说是不利的，所以构建更鲁棒和准确的视觉场景外观描述尤为重要。(2) 场景记忆模型：为了判断当前所处位置是否曾访问过，系统首先需要建立场景记忆模型，存储已访问区域的信息^[11]。记忆模型需要具备良好的辨识度、检索效率和可拓展性，且能够筛除感知混淆、含义模糊等异常因素^[12-16]。基于外观的闭环检测通常在图像检索的框架下进行，再结合机器人运行带来的内在特性发展出多种形式的记忆模型^[14]。(3) 闭环决策与优化：作为最终环节，闭环匹配旨在挖掘当前观测与记忆模型存储的历史观测之间的关联性，以相似度比较^[6]和概率计算^[8]为代表的方法已普遍用于预判候选闭环的位置。但由于场景非结构化因素和算法的局限性，匹配失真的情况难以避免。为此，通常基于视觉SLAM的多种内在特性，将几何或时序一致性后验作为匹配的补充来确保输出正确的闭环。随后，根据闭环施加的约束更新机器人的位姿和环境地图。以上3个环节相互关联，依次构成闭环检测的整体系统，可归纳为图 1所示的形式。特别是近年来随着深度学习技术的快速发展，以自编码器（AE）^[17]、卷积神经网络（CNN）^[18]为代表的深度学习方法已经被闭环检测领域广泛关注，并面向该领域的特定问题设计出了多种形式的网络结构，有效提升了系统的精度和鲁棒性。

图 1 闭环检测的基本流程 Fig.1 The basic process of loop closure detection

本文围绕非结构化环境下基于外观的闭环检测展开研究，从场景外观描述、场景记忆模型、闭环决策与优化、性能评价指标4个方面进行分析。由于机器人在非结构化环境下的环境感知和长期自主运行能力日益受到关注，且近期深度学习在计算机视觉和机器人领域表现突出，故最后着重讨论了基于深度学习的闭环检测方法和所面临的挑战。

2 场景外观描述（Scene appearance description）

移动机器人所搭载的相机为视觉SLAM系统提供了丰富且完整的传感器数据，即所处场景的外观图像数据。对于闭环检测来说，需要对图像数据进行准确、鲁棒且高效的描述，从而建立模型并进行匹配^[19]。从数学角度来看，图像可以表示为一个元素数量有限的矩阵，每个元素可表示为具有特定位置和幅值的数值（像素）。而从视觉理解角度来说，图像是空间中多个物体及其语义信息的组合映射。因此，对场景外观的描述方法可分为：基于统计特征的描述和基于语义信息的描述。表 1整理了应对非结构化环境挑战时所提算法的主要特性。

表 1 部分场景外观描述算法 Tab. 1 Scene appearance description methods mentioned in this paper

所属类型	文献	算法	挑战						语义信息
所属类型	文献	算法	天气变化	季节变化	光照变化	视点变化	动态物体	实时性	语义信息
Ⅰ	[21]	SIFT			√	√
	[22]	SURF			√	√
	[25]	BRIEF			√	√		√
	[27]	ORB			√	√		√
	[33]	SDA*			√	√		√
	[35]	LIFT*			√	√
	[36]	SuperPoint*			√	√		√
Ⅱ	[14]	NetVLAD*		√	√	√	√
	[16]	SeqCNNSLAM*		√	√	√	√	√
	[40]	HoG			√
	[41]	CALC*	√	√	√	√	√	√
	[42]	Gist			√
	[44]	BRIEF-Gist			√	√	√	√
	[48]	AlexNet +SPP*			√
	[51]	ResNet18*	√	√	√	√	√	√
Ⅲ	[58]	Patch- NetVLAD*	√	√	√	√	√	√
	[60]	Jigsaw Puzzle			√	√		√
	[61]	SP-Grid*	√	√	√	√
	[62]	Multi-scale CNN*	√	√	√	√		√
	[63-64]	AlexNet(conv3)*	√	√	√	√
Ⅳ	[78]	Faster R-CNN*				√	√		√
	[79]	YOLO+ORB*			√	√	√		√
	[80]	DeepLabv3+*			√	√	√	√	√
	[81]	LoST*		√	√	√	√		√
	[83]	SegNet*			√	√	√	√	√
	[88]	Encoder-Decoder*	√	√	√	√			√
	[89]	SVG-Loop*	√		√	√	√		√
注：*：基于深度学习；Ⅰ：局部描述符；Ⅱ：全局描述符；Ⅲ：区域描述符；Ⅳ：基于语义信息；挑战：判定依据为所属文献和相关测试文[50] 的实验结论（√：具备克服该挑战性因素的能力；空白：文献中未提供相关数据）。

表 1 部分场景外观描述算法 Tab. 1 Scene appearance description methods mentioned in this paper

2.1 基于统计特征的描述

基于统计特征的描述，其目的在于从高维数据中提取出信息量充足但不冗余的数据，并用简洁规范的特征向量表示，这一过程表现为数据的压缩和降维。通过这种方法，视觉SLAM系统不必将全尺寸图像作为输入来执行闭环检测，极大地缩短了计算时间。如图 2所示，基于统计特征的外观描述方法可分为局部特征描述符、全局特征描述符和区域特征描述符3种^[20]。

图 2 3种描述符的图例 Fig.2 Legend of three types of descriptors

2.1.1 局部特征描述符

局部特征描述符是应用于关键点邻域范围内的描述符。早期应用于闭环检测的局部特征描述算法大多数基于梯度直方图，如SIFT（尺度不变特征变换）^[21]和SURF（加速鲁棒特征）^[22]算法。SIFT算法通过高斯卷积和高斯差分构建出图像金字塔，在不同尺度上提取关键点，并以邻域内图像梯度的128维向量描述关键点。SURF算法继承了SIFT算法的思想，通过降低描述特征向量的维数、以黑塞矩阵定位关键点等方式提升算法效率。SIFT和SURF算法的优势在于对尺度、方向、亮度变换和噪声均有一定的不变性，但由于描述符使用浮点数存储，会占用大量的空间。

目前特征描述的发展趋势为低存储和高效率。一种思路是使用主成分分析（PCA）等降维算法继续压缩特征向量维度，如PCA-SIFT^[23]或基于PCA算法对SURF算法进行降维^[24]。另一种思路是使用更适合计算机处理的二进制编码表示描述符。例如BRIEF（binary robust independent elementary features）算法^[25]在关键点邻域内采样多个点对，并比较各点对之间的强度，以二进制值串的形式生成特征描述符。图像匹配时只需计算2个二进制值串的汉明距离，效率显著提升。由于BRIEF只是一种特征描述符，并不具备特征提取能力，因此需要与特征提取算法搭配使用，如FAST（feature from accelerated segment test）角点检测算法^[26]。ORB（oriented FAST and rotated BRIEF）^[27]便是建立在BRIEF和FAST算法上的一种二进制特征描述算法，并基于灰度质心法弥补BRIEF算法不具备旋转不变性的缺点。类似的算法还有BRISK（binary robust invariant scalable keypoint）^[28]和FREAK（fast retina keypoint）^[29]等。文[30] 证实了基于二进制描述符方法的描述符提取耗时和描述符匹配耗时明显少于基于浮点数描述符方法，且精度并无明显降低。如Mur-Artal团队^[31-32]提出的ORB-SLAM系列便是一种性能优异的SLAM算法，在大规模动态场景下该算法的闭环检测精度和实时性均表现优异。

上述几类局部特征描述符使用的是人工设计的特征，而源于人类直觉的特征很容易忽略环境中的有效信息。得益于通过深度学习提取更加鲁棒的特征，Gao等^[33]基于堆叠降噪自编码器（SDA）提出了一种无监督特征描述方法，描述以关键点为中心的局部区域，在TUM^[34]等数据集上取得了比FAB-MAP 2.0算法^[7]更好的效果。基于学习的方法倾向于将特征检测和特征描述整合到统一的体系结构内，以便增强图像间的匹配性能^[35-38]。如Yi等^[35]设计了一种端到端的网络架构LIFT（learned invariant feature transform），该架构集成了特征提取、方向估计和特征描述。但这一类有监督学习的方法存在的问题是，不同于语义信息明显的人脸关键点检测，一张任意给定的图像很难人为判定哪些像素点可作为关键点，导致标注困难。因此，许多深度学习方法仍然依赖SIFT算法提取关键点来生成真值。DeTone等^[36]在2018年提出的特征提取与描述联合学习算法SuperPoint给出了解决思路，如图 3所示，该算法首先利用关键点显著的基本形状元素生成标注数据集，通过训练得到具备提取关键点能力的模型。然后通过单应变换将上述提取合成图像关键点的能力迁移至对真实世界图像关键点的提取上，实现真实场景数据的自标注。SuperPoint算法构建了一个统一网络来集成特征检测和描述两部分的推理，在实验中的性能与SIFT算法相当，并优于LIFT算法和ORB算法。其他端到端的局部特征学习算法，如LF-NET^[37]及RF-NET^[38]，在图像匹配数据集HPatches^[39]上也表现出了优异的性能。

图 3 Synthetic Shapes数据集 Fig.3 Synthetic Shapes dataset

2.1.2 全局特征描述符

全局特征描述符能够将图像作为整体进行描述，并提供更抽象、紧凑的表达。HoG（histogram of gradient）^[40]是一种常用的图像全局特征描述符。它首先将图像划分为均匀间隔的单元，然后与SIFT算法类似，基于梯度统计方法计算每个单元梯度方向的直方图，最后组合为对整体的描述符。使用HoG算法生成特征描述符过程冗长、实时性较差，并且依赖梯度方向意味着对视点变化和遮挡不够鲁棒。为了解决上述问题，特拉华大学的Merrill等^[41]提出了一种基于卷积自编码器的HoG描述符提取算法（CALC）。图 4展示了针对闭环检测设计的轻量级卷积神经网络架构。该架构首先对输入图像进行灰度化、投影变换和缩放处理，接着一方面使用HoG算法生成固定长度的特征描述向量$ \mathit{\boldsymbol{X}} $，另一方面使用卷积$ \to $池化$ \to $卷积$ \to $池化$ \to $卷积$ \to $3个全连接层的结构提取特征向量$ \hat{\mathit{\boldsymbol{X}}} $，使其与$ \mathit{\boldsymbol{X}} $具有相同的维度，从而通过欧几里得距离进行比较。通过调整网络参数优化$ \hat{\mathit{\boldsymbol{X}}} $与$ \mathit{\boldsymbol{X}} $的$ l_{2} $损失函数，使模型学习到提取图像HoG描述符的能力。由于特征向量$ \mathit{\boldsymbol{X}} $所表征的图像先经过了随机投影变化，可以确保学习到的HoG描述符能够从原始图像中提取对视角变化更加鲁棒的特征。实验表明该算法的可靠性和实时性均满足大规模场景下的SLAM需求，特别是该方法属于无监督学习，在新数据中也很容易训练。

图 4 原始图像到损失函数的数据流 Fig.4 The data flow from raw images to the loss layer

Oliva等^[42]提出的Gist算法是闭环检测中广泛使用的另一种全局特征描述符。文[43] 使用Gabor-Gist描述符在长达13 mile的大面积街区内实现了闭环检测，表明Gist算法可用于大规模环境。与局部描述符相同，全局描述符同样可以通过二进制编码来提升速度。例如Sünderhauf等^[44]提出的BRIEF-Gist算法便是用BRIEF描述符^[25]作为整幅图像的描述符，计算64 bit的BRIEF-Gist描述符仅耗时1 ms，2个描述符间的相似度计算仅需0.001 ms，极大提升了匹配效率。

自Krizhevsky等^[45]提出AlexNet算法并取得了2012年ILSVRC（ImageNet大规模视觉识别挑战赛）冠军以来，深度学习方法逐步取代了传统人工特征算法，占据了图像分类、目标检测等计算机视觉任务的主导地位。考虑到闭环检测与图像分类的相似性，Sünderhauf等^[46]采用CNN特征进行闭环检测研究，证实了即使在外观变化严重的情况下，使用网络中层特征（conv3）也能实现很好的闭环检测。与图像分类不同的是，高层特征在闭环检测中表现得并不突出，仅仅对视角变化更鲁棒，但对外观变化十分敏感。类似结论在文[47] 中也有所体现：实验表明基于VGG-5算法的视觉场景识别精度高于VGG-16，且神经网络的层数太少或太多均不利于场景识别。这是因为高层特征在提取更抽象语义信息的同时将失去区分语义内容相近场景的能力。卷积神经网络采取逐层提取特征的方法，低层几何细节丰富，高层语义表征能力强，因此根据环境中的变化因素选择合适的卷积层至关重要。为了兼顾各层特性，一种策略是融合多个尺度的特征图。例如Chen等^[48]以AlexNet为骨干网络，通过空间金字塔池化（SPP）法^[49]融合多层特征，构建出基于多尺度特征融合的闭环检测算法。实验表明在特征融合时增加SPP层数可以提高闭环的精度和召回率。

为应对各项非结构化因素的挑战，基于深度学习的特征描述符既要足够抽象以便提升泛化能力，又不能过分抽象而破坏了空间信息。如何设计更有效的模型结构成为研究重点。诸多成果表明，专门针对闭环检测或位置识别任务设计的神经网络结构在性能上优于通用型网络。如Arandjelovic等^[14]设计了可嵌入端到端训练的卷积神经网络结构NetVLAD，可采用中层特征聚合得到的单一特征向量来表征图像。得益于特殊设计的结构，NetVLAD在应对外观和视点极端变化、动态物干扰和感知混淆等挑战时取得了比HoG^[40]、SeqSLAM^[8]和CALC^[41]等方法更优的性能^[50]。文[16] 提出的SeqCNNSLAM算法使用由卷积神经网络生成的鲁棒特征描述符替换原算法中的描述符，显著提升了视点的不变性。此外，还开发了一种被称为A-SeqCNNSLAM的加速方法来降低图像匹配的计算复杂度。Wang等^[51]以性能更佳的残差网络ResNet18^[52]作为提取特征和生成特征描述符的基础结构，在低维特征空间中使用CNN特征生成的描述符计算相似度，克服了动态物体、局部遮挡以及光照、季节和视点变化等复杂因素带来的影响。

闭环检测对实时性的要求较高，但AlexNet和VGG等参数量较大的模型需要耗费庞大的计算资源。在参数和计算成本上都具备优势的网络结构，如DenseNet^[53]、MobileNet^[54]等常被作为生成闭环检测的特征描述符的基础结构^[55-56]。总体而言，研究人员的关注点更多地聚焦在如何利用深度学习方法提升描述符的表征能力，往往忽视了算法的计算复杂度。为了满足实时性需求，许多基于深度学习的方法部署在GPU上^{[41, 46, 57]}，增大了成本负担。在满足闭环检测精度要求的前提下，还需要研究更加紧凑、轻量化的神经网络架构以降低计算量和内存占用。

2.1.3 区域特征描述符

全局特征描述符的优势在于更适合处理环境外观的动态变化，但是在视点变化、物体遮挡时表现不佳，局部特征描述符则在这类情形下更鲁棒。由于非结构化环境存在光照变化、视点变化、物体遮挡等多种因素的组合情况，因此学者们尝试在2种描述符之间找到折中方案，即使用全局的方法来描述被划分为多个封闭区域的图像子集。

区域的形状和大小可根据需求设定。图 5给出了常见的3种区域划分方法。最简单直观的方法如图 5(a)所示，按照固定的窗口大小和步长将图像分割为若干子集，Patch-NetVLAD^[58]算法便是采用了这种策略。该方法的优势是操作便捷高效，缺点是没有充分利用图像内容，导致区域描述与图像内容解耦，难以补充语义信息。另外更为精细化的区域划分方法为基于像素分割的方法和基于区域提议的方法，分别如图 5(b)(c) 所示。

图 5 区域划分方法 Fig.5 Regions-based segmentation methods

基于像素分割的方法是指按照颜色、纹理等某种属性将图像拆分，使每个区域具有一种相干属性，并进一步将用于闭环检测的显著性信息从背景中分离出来。Ren等^[59]提出的超像素分割能够从图像中提取局部的、具有一致性的子区域，常被引入闭环检测研究领域中。例如，在文[60] 中，一种称为“拼图”的图像分割算法将每个超像素视为“拼图块”，旨在从图像中分离出几组显著区域。尽管闭环匹配不需要全部的显著区域，但这种稀疏的提取方法可能遗漏关键区域。相比之下，Neubert等^[61]提出的多尺度超像素网格（SP-Grid）更为紧凑，其策略为根据图像属性将图像划分为不同大小、形状和分布的稠密子区域。这些区域比图 5(a)的固定网格能更好地适应图像内容，从而增强对视角变化的鲁棒性。与其他场景外观描述方法类似，在像素分割中使用基于深度学习的方法也取得了比手工特征更好的效果。与CNN结合使用，SP-Grid方法能够在昼夜、季节、天气、视角等不断变化的环境中进行位置识别。在类似方法中，Xin等^[62]提出了基于CNN和图像内容的位置识别方法，利用超像素分割法生成包含内容信息的多尺度地标，并使用CNN提取具有代表性信息的地标特征，在描述图像时还考虑了地标的空间及尺度分布，这进一步提升了场景描述的鲁棒性。

基于区域提议的方法旨在关注图像中的显著区域并去除混淆区域，具体形式为在图像中生成一系列可能包含显著区域的候选框。基于显著区域而非整幅图像来描述场景，可以大大降低场景中视点变化或物体遮挡的干扰。显然，该方法的主要难点在于如何从图像中检测出有效、显著的区域，同时区域提议算法和特征描述算法的选择至关重要，这些将直接影响后续闭环检测的效果。近年来，深度学习技术在目标检测领域大放异彩，这为基于区域提议的闭环检测提供了近似思路。区域提议与CNN组合使用的能力已在多项成果中得到了验证^[63-64]。该方案的基本流程为：首先由表现优异的区域提议算法，如Edge Boxes^[65]、BING^[66]、RPN（region proposal network）^[67]，检测出显著区域；然后使用CNN生成该区域的特征描述符。例如Sünderhauf等^[63]采用Edge Boxes算法在每幅图像中提议50或100个候选区域，并在ImageNet数据集^[68]上使用预训练的AlexNet模型生成特征描述符，在多项数据集上均表现出了较好的精度。在此基础上，Panphattarasap等^[64]采取了相同的区域提议和描述符生成方法，同时进一步考虑了图像中显著区域的空间分布一致性，从而弱化不同位置存在类似地标的影响。但考虑到计算效率，耗时约1.8 s的Edge Boxes算法无法实时处理图像^[63]。相较而言基于学习的BING和RPN算法则更加高效^[69]，但在通用性上弱于Edge Boxes算法^[70]。

将精度和效率均纳入考量时，区域提议往往比其他环节更加难以均衡。因此，基于区域提议的场景外观描述仍需探索一种在保障精度和鲁棒性的同时兼顾效率的提议算法。另外，基于区域提议的方法很容易将行人、车辆等动态目标视为显著区域，导致在闭环匹配时找不到对象，故还需进一步改进。

2.2 基于语义信息的描述

与统计特征相比，高级视觉特征，即语义信息能提供更稳健、更具辨识度的场景描述，并且具有平移不变性的特点。特别是随着天气、照明、季节或动态物体遮挡等因素的不断变化，同一地点的图像的统计特征会发生极大的改变。但如文[71] 所表述的，图像中物体所对应的语义标签对上述变化具有不变性，因此基于语义信息更容易找到非结构化环境下图像间的匹配关系。在早期的研究中，Costante等^[72]提出了一种语义知识迁移方法，使机器人在新场景下运行时不必重新训练，不过其描述符仍使用传统的SIFT算法。近年来的语义描述主要以深度学习方法为主^{[71, 73]}。尽管2.1节中提及的场景外观描述方法使用了深度学习进行特征提取与描述，但依然是基于图像的统计特征。如表 1所示，尽管这些方法取得了良好的效果，但在非结构化场景下仍有可能出现问题，例如2.1节提到的动态物体导致闭环检测失败的问题。而引入语义信息的优势在于，在进行场景外观描述时可以融入人类知识，比如利用先验知识将行人、车辆等目标排除在外。

得益于深度学习技术的革命性进步，近年来计算机视觉领域成果颇丰，例如目标检测算法Faster R-CNN^[67]、YOLO^[74]等，以及语义分割算法SegNet^[75]、RefineNet^[76]、Mask R-CNN^[77]等。鉴于这些算法在目标检测领域的成功应用，许多研究者直接将相关算法应用于闭环检测中^[78-86]。例如Hu等^[78]将Faster R-CNN算法拓展至闭环检测领域，所生成的带有类别信息的特征描述向量的形式为$ [{ {\mathit{\boldsymbol{\varepsilon}}}}_{1} \; \; {{\mathit{\boldsymbol{\varepsilon}}}}_{2}\; \; \cdots \; \; {{\mathit{\boldsymbol{\varepsilon}}}}_{n} ] $，其中$ {{\mathit{\boldsymbol{\varepsilon}}}}_{i} =[n_{i} \; \; p_{i} \; \; x_{1i} \; \; x_{2i} \; \; y_{1i} \; \; y_{2i}] $，用于表示图像中存在的物体类别$ i $的属性；$ n_{i} $表示该类别$ i $出现的次数；$ p_{i} $表示类别$ i $的最大置信度；$ (x_{1i}, y_{1i}) $和$ (x_{2i}, y_{2i}) $分别为定位矩形框左上角和右下角的坐标。通过融合Faster R-CNN算法输出的语义信息，大大增强了闭环场景和非闭环场景间的区分度。类似的还有Wang等^[79]使用YOLO算法提供的语义信息增强SLAM系统的闭环鲁棒性。相比目标检测，语义分割可以为图像中的每个像素分配一个与其对应的类别标签，提供更精细化的语义信息。Garg等^[81]从相反方向成功识别出了曾访问过的区域，反向场景带来的极端外观变化导致闭环检测难度远超以往任何研究。

场景外观描述算法大多建立在静态环境假设上，而现实世界中动态物体是普遍存在的，这限制了算法的应用性能。动态目标又可分为低动态和高动态两类。例如TUM RGB-D数据集^[34]的动态序列中，sitting序列可视为缓慢移动的低动态目标，而walking序列则属于快速移动的高动态目标。对于只占图像较小篇幅的低动态目标来说，一般可将其视为噪声^[85]。而占据画面较大幅面的动态目标会严重破坏特征描述符的辨识度。一种有效的策略是利用具有先验知识的语义信息滤除动态区域，仅使用静态区域构建场景描述。文[80] 提出了一种去除动态目标的区域选取方法，其流程具有代表性（如图 6所示）：首先基于DeepLabv3+ 算法^[82]对原始图像图 6(a)进行语义分割；然后通过滤波去除语义图像图 6(b)中面积小于阈值的区域，得到图 6(c)；最后基于语义信息和先验知识筛除移动的行人，得到可用于特征提取的区域。DS-SLAM方法^[83]类似，在ORB-SLAM2方法^[32]的基础上添加语义分割线程，将基于SegNet方法^[75]生成的语义信息应用于场景外观描述中。Zhang等^[84]则是采用Mask R-CNN方法^[77]分割出潜在的高动态目标并将其剔除。高速运动物体还存在视觉影像模糊和形变的问题，难以从图像中分割出来。为解决这个问题，Xiao等^[85]基于匀速运动假设推断下一帧中运动目标的位置，以此填补被语义分割和动态目标检测筛除掉的图像区域。

图 6 区域选择 Fig.6 Selection of the region

与单独使用语义信息相比，结合图像的统计特征或几何信息更有助于处理极端的视点变化和外观变化^{[83, 87-88]}。如Schönberger等^[88]提出一种结合高级语义信息和3D几何信息的描述符学习算法，以便在视点变化、光照变化、季节变换等因素导致外观变化严重的情况下进行视觉定位。Yuan等^[89]提出的SVG-Loop方法集成了语义、视觉和几何信息，在公共数据集TUM RGB-D^[34]、KITTI^[90]以及真实室外场景中均表现出了较好的闭环性能。

尽管基于语义信息的场景外观描述方法的精度和鲁棒性均表现突出，但仍需进一步考察此类方法在不同场景下的泛化能力。这是因为学习算法的性能上限和泛化能力与训练数据集的标注质量和样本分布直接相关。受高昂的标注成本限制，许多用于特征提取的模型参数都是在通用数据集上直接训练得来的^[78]。虽然也有部分研究^[91-93]使用了相关性更强的城市景观Cityscapes^[94]等数据集，或者包含大量外观变化的特定数据集SPED^[95]，但与移动机器人的实际作业场景仍有区别，这些都导致了机器人更换作业场景后泛化能力不强。如何将无监督的语义分割算法应用于场景外观描述仍是一个巨大的挑战。

3 场景记忆模型（Scene remembering model）

场景记忆模型指的是机器人管理和存储历史观测数据的特征集合的方法，以便于查询曾访问过的位置。机器人采集的图像数量及其描述符的规模随时间不断扩增，特征集合的管理方式直接影响了后续闭环匹配的效率，因此有必要以更高维、高效的形式代替原始的特征描述。虽然基于外观的闭环检测方法通常在图像检索的框架下运行，但机器人本身的内在特性又使得两者有所差异。例如机器人运动和图像采集在时间和空间上均是连续的，这意味着可将拓扑和度量信息融入到基于外观的场景记忆模型中。从这一角度来看，可将场景记忆模型分为纯图像信息和引入拓扑与度量信息两类^[11]。另外，词袋模型（bag of visual words）中的视觉词典（VV）作为一种典型的场景记忆模型被广泛使用，并针对闭环检测的需求发展出了多种形式^{[2, 6-7, 31-32]}。

3.1 基于纯图像信息的记忆模型

机器人运行时采集的图像及其特征描述符不断增加，且视觉传感器的离散采样意味着描述符个体相互独立。对于$ n $个时刻内的特征描述符$ x $，最简单的场景记忆模型是不经任何处理把所有描述符存储至内存，构成特征向量集合$ {X}=\{{{x\mathit{\boldsymbol{}}}}_{1}, \; {{x\mathit{\boldsymbol{}}}}_{2}, \; \cdots, \; {{x\mathit{\boldsymbol{}}}}_{n} \} $。当执行闭环匹配时，只需要将当前观测与$ {X} $中存储的描述符一一比对，相似度超过阈值的便视为候选闭环。一些基于传统全局特征描述符^[44]或深度学习的方法^{[46-48, 62-63]}采取这种方法来构建场景记忆模型，可应对小规模场景下的位置识别。随着地图规模不断增大，这种特征库的规模和计算复杂度也不断增加，这对于机器人在大规模场景下的长期运行是不利的。因此，需要以更加高效和紧凑的形式来构建模型。

考虑到场景记忆模型中的信息只包含图像，与图像检索高度相似，可引入计算机视觉领域中的先进技术。例如视觉词典早期主要应用于图像检索领域，如今已被广泛拓展至闭环检测领域^{[6-7, 10, 12-13]}。特别是基于倒排索引等技术，使得匹配效率只和词典规模有关而不受地图规模影响，确保了记忆模型的可拓展性^[6]。

3.2 引入拓扑和度量信息的记忆模型

拓扑与度量信息和视觉感知的结合是人类用来记忆曾到访地点的主要形式^[96]。尽管人类无法准确地给出距离和绝对方向，但仍可以通过地点间的相邻关系、相对位置、方向以及视觉特征来建立起场景的记忆模型。基于此，人类可以轻而易举地判断出某个位置是否到访过。

对于机器人来说，拓扑信息定义了其运动路径中哪些地点之间是相邻的，环境中的特定位置可表示为节点，相邻位置间的路径表示为边。度量信息则定义了地点间的相对位置关系和方向，可由视觉里程计或其他传感器提供。纯图像信息的记忆模型利用倒排索引和树状结构来提高后续匹配环节的效率。而当记忆模型中包含拓扑和度量信息后，由于已知地点间的相对位置关系，因此只需要在机器人当前所处位置的邻近区域搜索潜在的闭环候选即可。这意味着匹配实际所需要的数据规模可大大压缩，同样提升了匹配的效率。通过滤波器采样的方法也能够指定搜索区域，例如Maddern等^[97]基于Rao-Blackwellised粒子滤波器^[98]和拓扑与度量信息对潜在的闭环位置进行采样，匹配所需的时间受粒子数量控制，不会随着曾到访地点的数量增加而增加。类似地，Liu等^[99]利用粒子滤波器来缩减匹配范围，剔除与当前观测不相关的图像。

3.3 记忆模型的典型形式：视觉词典 3.3.1 视觉词典的性能优化

视觉词典的辨识度强弱和规模大小是影响其性能的主要因素^[15]。对于闭环检测来说，视觉词典的辨识度越高越有利，所以一方面要增强视觉词典的表征能力，另一方面也要将一些含义模糊、相关性差的视觉单词从词典中剔除出去，例如Xu等^[100]筛除动态区域仅使用静态特征生成视觉词典，Roman-Rangel等^[101]提出移除香农熵高的单词。而视觉词典的规模并非越大越好。虽然更大的视觉词典能覆盖更丰富的场景信息，但会增加计算复杂度、占用更多的存储空间。因此，理想的视觉词典要将表征性能、计算复杂度和存储空间均纳入寻优考量，并在三者间找到平衡。

一种策略是采用学习的方法来构造视觉词典，同时优化词典的结构来降低计算及存储负担。例如闭环检测的经典算法FAB-MAP^[6]采用Chow-Liu树^[102]算法学习视觉单词的共视概率，在1 000 km大规模环境中取得了较好的综合性能。引入词汇树^[103]层次索引思想，能够在大幅扩增视觉词典规模的同时维持甚至降低计算复杂度。早期Schindler等^[104]将该思想应用在城市道路位置识别上，将超过1亿个SIFT描述符聚类为视觉单词，并分层存储至词汇树中。Galvez-López等^[2]于2012年提出的DBoW2也采用了树状结构来分层构造视觉词典（见图 7），视觉单词通过无监督学习算法K-Means++^[105]聚类得到。树状结构中每个节点的权重由词频与逆向文档频率的乘积TF-IDF表示。该参数反映了视觉单词的辨识度，数值越大说明辨识度越高。除了采用倒排索引寻找闭环外，该方法还拓展了正向索引来加快几何验证和特征匹配。鉴于DBoW2的性能优异，并提供了开源C++ 库，近年来以ORB-SLAM系列^{[31-32, 106]}、VINS-Mono^[107]为代表的诸多优秀SLAM系统都使用DBoW2库进行闭环检测。

图 7 树状词典 Fig.7 Vocabulary tree

与上述基于K均值算法的研究成果不同，利用互信息等无监督学习机制也能够实现描述符的聚类。例如Zhang等^[108]在2019年提出了一种名为HsIB（hierarchical sequential information bottleneck）的视觉词典构造方法，该方法采用了最大化互信息方法，其核心是将信息瓶颈理论引入至树状词典的构建中，将描述符的聚类作为数据压缩任务，从而消除词典中辨识度低或冗余的单词。

3.3.2 视觉词典构造方法

一般来说，构造方式可分为离线和在线2种。离线构造是指在执行闭环检测之前，基于训练图像中提取的特征生成内容固定的视觉词典。在离线构建视觉词典时，实用的词典一般在大规模数据集上训练而成。许多基于视觉词袋模型（bag of visual words，BoVW）的闭环检测算法采取离线构造视觉词典的方法，如FAB-MAP系列^[6]和ORB-SLAM系列^[31-32]。离线构造的局限是，只有当机器人的作业环境与训练使用的数据集类似时，即视觉词典基本上能够覆盖和表征已访问区域时，建立起的场景记忆模型才具有较好的性能。但是地图信息是在不可知、非固定、高动态的非结构化环境下得到的，上述的条件很难得到保证^[73]，导致实际应用效果大打折扣，并且在更换作业区域时仍需重新训练。

在线构造是指在执行闭环时实时地将场景内容添加到视觉词典中。在Nicosevici等^[109]早期的工作中提出了一种增量式的词典在线构造方法，该方法利用特征跟踪^[110]从初始的$ m $帧图像中提取基本特征簇，然后使用凝聚聚类算法不断将新采集的$ m $帧图像的特征簇合并至基本簇中，不断丰富视觉词典的内容。为了进一步提升视觉词典的辨识度，并剔除冗余单词，Nicosevici等^[12]又利用基于Fisher分类器^[111]的方法取代了原有聚类方法，该方法只需要少量先验环境信息就取得了优于离线方法的性能。类似的方法还有IBuILD（incremental bag of binary words for appearance based loop closure detection）^[112]。与上述基于实值描述符的方法不同，IBuILD方法的特点在于视觉单词由二进制描述符BRIEF^[25]生成，进一步降低了所需的存储空间和计算成本。然而，该方法并未构造出适用于二进制视觉单词的树状结构词典，这限制了词典规模的可扩展性。Muja等^[113]曾提出一种多层树状结构的优先搜索算法，用于提升二进制特征的匹配速度。该结构非常适合于添加和删除描述符。为了解决IBuILD方法的局限性，Garcia-Fidalgo等^[10]将上述多层树状结构引入到二进制视觉词典中，提出了一种基于增量式词袋模型的闭环检测方法iBow-LCD（incremental bag-of-words loop closure detection），可以有效地检索、插入和删除新的视觉单词。

4 决策与优化（Decision and optimization）

本节重点讨论如何检测出正确的闭环，并根据闭环施加的约束更新位姿。

4.1 闭环匹配

在给定当前观测的特征描述和记忆模型中存储的历史观测描述后，闭环匹配旨在通过相似度比较或概率计算的方法评估是否存在潜在的闭环候选。

相似度比较方法需首先定义相似度分数的计算公式和阈值，以此遍历图像来计算观测之间的相似度得分，分数高于阈值的一组图像对应该位置可能存在闭环。图像的相似度分数一般由特征空间下的距离表示。当基于全局特征方法描述图像时，图像被表示为单个特征向量，此时相似度分数的计算较为简单。常用的距离度量方式有余弦相似度、欧几里得范数等。例如Nicosevici等^[12]依据视觉词典将图像转化为视觉单词的直方图向量，以向量夹角余弦计算相似度，给出了室外和水下场景的闭环匹配。Wan等^[114]提出的DCF-BoW（bag of deep convolutional feature）利用余弦相似度来计算图像的相似性，可利用无序图像数据集快速构建相似度矩阵，并找到潜在的匹配。Newman等^[115]利用余弦距离作为两幅图像间的相似性度量，并基于相似度矩阵的奇异值分解来消除感知混淆的影响。Bampis等^[116]和Liu等^[117]则是利用向量间的L2范数作为相似度分数。Lopez-Antequera等^[118]利用卷积神经网络提取图像的特征描述，验证了L2范数比L1范数和余弦相似度更适合于度量图像的相似性。当利用区域特征描述符描述场景时，可分别计算每个区域间的相似度分数，以累积得分作为最终的匹配依据^[33]。

相似度分数可构成相似度矩阵，按照矩阵元素的数值大小来绘制可视化图像，可直观地表现出其特性：图像对角线的条纹表示图像与自身的相似性，而对角线以外的条纹对应着潜在的闭环^[4]。在相似度矩阵中，受感知混淆等非结构化因素的干扰，如果仅依靠阈值来筛选闭环匹配，偶尔会出现得分数值较大但实际为假阳性闭环的元素^[119]。这种元素往往是独立的，即前后相邻帧的观测相似度并不会很高。根据这一特点，文[118] 采取连续图像序列相似度比对的方法，只有当一定数量的图像序列符合条件时才认定为同一位置。这种情形在相似度矩阵的可视化图像中表现为对角线以外的较长条纹。

基于概率计算的方法将闭环匹配视为概率估计问题。该方法关注的并非是2个观测之间的相似性，而是观测来自于同一位置的概率，概率大于给定阈值对应着可能存在闭环。Cummins等^[120]建立了一种具有代表性的基于外观的贝叶斯概率框架，并在FAB-MAP算法^[6]和FAB-MAP2.0算法^[7]中延用了该框架。当把机器人的连续运动路径视为多个离散的点位时，可以将$ k $时刻当前观测到的场景外观描述表示为尺寸为$ |v| $的特征集合$ Z_{k} =\{z_1 , \cdots , z_{ |v|}\} $，$ k $时刻以内的所有观测集合表示为$ \mathcal{Z}^{k} $，将观测到的$ n_{k} $个离散位置表示为$ L^{k}=\{L_1 , \cdots , L_{n_{k}} \} $。此时，观测集合$ \mathcal{Z}^{k} $来自于位置$ L_{i} $的概率（置信度）为$ p(L_{i} |\mathcal{Z}^{k}\} $。文中将$ p(L_{i} |\mathcal{Z}^{k}\} $的计算视为递归贝叶斯估计问题，即利用上一时刻位置估计中获得的先验置信度来推测当前时刻的状态，并根据观测结果更新当前时刻的置信度。Angeli等^[13]提出的闭环检测算法在类似的贝叶斯概率框架下完成，将SIFT和颜色直方图 2类特征融合作为滤波器的输入，并将图像的时序相干性纳入贝叶斯滤波方案中，以便在应对瞬态匹配误差时提升鲁棒性。Kejriwal等^[121]遵循了文[13] 中的方法，融合了多个观测信息以形成单个观测似然，然后将其用于计算闭环发生的概率。

4.2 闭环后验

现实世界中存在大量相似场景，例如类似的建筑结构、长走廊、布局相近的车间等，会加剧感知的混淆不清^[2]。这导致闭环匹配虽然可以找到相似图像，却不一定是真正的闭环。出于这个原因，目前诸多闭环检测方法会在匹配后引入时序信息或几何信息进行后验决策。

4.2.1 基于时序一致性的验证

时序一致性是指场景图像在时间上具有连续性，即相邻帧图像对应的场景变化也必然是连续的。时序一致性是视觉SLAM系统所采集图像的重要特征之一，因此常被作为约束条件来消除误匹配^{[2, 13, 31-32, 98, 106, 122]}。如图 8所示，典型的时序一致性表现为：当机器人到达曾经访问过的区域，并且$ t-1 $时刻的图像$ I_{t-1} $与$ t-k $时刻的图像$ I_{t-k} $达成闭环匹配时，在随后的$ \varDelta $时刻内应依次、连续地发生多次闭环，且闭环应被约束至$ t-k+\varDelta $时刻内。基于时序一致性，可将误匹配$ I_{j} $排除在外。

图 8 时序一致性 Fig.8 Temporal consistency

Angeli等^[13]提出了基于增量式词袋模型的闭环检测方法，在使用贝叶斯滤波估计闭环概率时，将图像的时序一致性纳入考量。文中设$ S_{t} $为$ t $时刻闭环假设的随机概率，$ S_{t} =i $为当前位置图像$ I_{t} $与$ i $时刻的位置图像$ I_{i} $构成闭环事件，另$ S_{t} =-1 $表示$ i $时刻不存在闭环。根据时序一致性要求，$ t $时刻与$ t-1 $时刻闭环假设随机概率的概率密度函数应为如下情形中的一种：

(1) $ p(S_{t} =-1|S_{t-1} =-1)=0.9 $，即若$ t-1 $时刻未发生闭环，则$ t $时刻不发生闭环的概率较高。

(2) $ p(S_{t} =i|S_{t-1} =-1)=0.1/(t-p+1) $，其中$ i\in [0, \; t-p] $，即若$ t-1 $时刻未发生闭环，则$ t $时刻发生闭环的概率很低。

(3) $ p(S_{t} =-1|S_{t-1} =j)=0.1 $，其中$ j\in [0, \; t-p] $，即若$ t-1 $时刻发生了闭环，则$ t $时刻未发生闭环的概率很低。

(4) $ p(S_{t} =i|S_{t-1} =j) $，其中$ i, j\in [0, \; t-p] $，即$ t $时刻出现闭环且$ t-1 $时刻出现闭环的概率满足以$ j $为中心点时$ i $与$ j $在时间距离上的正态分布。

Angeli等^[13]所提的方法将当前时刻和上一时刻均纳入闭环考量，在感知混淆干扰下仍具备较好的闭环精度。类似的，Tsintotas等^[122]将连续$ \beta $个输入帧触发的闭环匹配作为决策的依据，实验中$ \beta $取值为2。ORB-SLAM系列算法^[31]比较了连续3个相邻帧图像序列而非单个实例，实验结果表明基于时序一致性的后验决策能够提升系统的鲁棒性。

4.2.2 基于几何信息的验证

几何信息是指图像所含元素及其描述符的分布和关联情况。BoVW存在一个缺陷，聚类生成的视觉词典只关注存在哪些特征描述符，而忽略了描述符的空间分布和关联信息。研究证明引入几何信息将大大减少闭环误匹配，特别是在场景外观剧烈变化情形下^{[2, 31, 122-124]}。最直观的几何信息就是图像中所含元素及其描述符间的相对位置关系。例如在Johns等^[123]提出的Cooc-Map方法中，特征组的表达由2个部分组成：视觉单词和空间词（2个特征在图像中的位置关系），添加关联信息的单词对（word pair）能更好地应对极端光照条件变化。

更常见的几何验证方法是基于对极几何约束的方法。在不同视角下拍摄场景，该场景中的同一空间点在2幅图像中的投影点受对极几何约束，利用这种几何关系即可验证闭环的真实性。对极约束的代数形式由基础矩阵表达，通常采用随机采样一致性（RANSAC）方法^[125]进行求解。例如Gálvez-López^[2]、Mur-Artal^[31-32]、Cummins^[7]和Zhang^[108]等诸多学者均采取了这种方法。对极几何约束中同时包含了平移和旋转。由于目的只是为了验证几何一致性，而非精确的位姿估计，在FAB-MAP 2.0^[7]中提出了更加简化的模型，其位姿变化被限制为绕垂直轴的纯旋转。这样大大减少了异常的匹配点对，使得几何一致性验证极快。

基于几何信息的后验决策是剔除错误闭环的有效方法之一，但其缺点是易受相似环境的干扰，如走廊、车间等，因此往往需要结合时序一致性来相互补偿，得到更加可靠的闭环结果。

4.3 闭环优化

闭环检测的最终目的是为位姿优化施加约束，获得较长时间内的最优轨迹和地图。在SLAM发展早期，以扩展卡尔曼滤波（EKF）为代表的滤波器方法被广泛应用于后端优化。EKF方法建立在马尔可夫假设^[126]上，即未来状态的条件概率仅依赖于当前状态，而与所有过去状态无关。这一假设与闭环检测存在矛盾，闭环检测旨在施加一个更全局的约束，意味着当前的观测可能与较长时间以前的观测产生关联，而EKF方法在这种情况下并不适用。另一方面，EKF方法中的线性化近似误差会不断累积，同时更新地图的耗时不断增加，仅适用于优化较小规模的地图。因此，现阶段的SLAM系统主要采用以光束平差法（BA）和位姿图为代表的图优化方法，可有效求解大规模的定位与地图构建问题。

BA方法本质上是求解最小二乘优化问题。该方法将机器人位姿和路标点均视为待优化的变量，导致其增量线性方程的规模巨大。一个重要的突破是认识到增量线性方程的系数矩阵是稀疏的，非零值仅存在于约束连接的块中^[127]，因此可基于这种稀疏性作加速处理。在检测到闭环后，许多重要的工作，如文[3, 12, 83]，均采用BA方法来纠正视觉里程计的漂移并更新地图。然而在较大规模场景下，即便是利用海塞矩阵的稀疏性也无法做到实时地优化整个全局地图。为此，BA方法由最初的形式发展出各类控制计算规模的形式。例如DSO（direct sparse odometry）^[128]和LDSO（direct sparse odometry with loop closure）算法^[129]采用滑动窗口滤波来维护少量邻近关键帧的优化，ORB-SLAM2算法^[32]定义了称作“共识图”的结构来选取少量的关键帧和路标进行优化。不过，这种优化方法主要用于维护视觉里程计的局部位姿估计，而对于更全局的闭环检测线程来说，采取位姿图优化来减轻计算负担更适合。区别在于，位姿图优化只把机器人的位姿视为优化变量，而路标则只作为优化位姿时的约束，从而得到计算规模大大缩减的位姿图。以LDSO^[129]、RGB-D SLAM^[130]、DVO-SLAM^[131]为代表的诸多SLAM系统均采取了这种策略，利用闭环检测和位姿图优化来确保得到全局一致的地图。

5 性能评估（Performance evaluation）

随着研究工作的不断开展和深入，近年来涌现出各种形式的闭环检测方法。为了评估各类方法的性能优劣、验证算法在不同条件下的可行性，学术界建立起以精度、召回率为基础的性能评估体系，并开源了涵盖各类情形、多种场景的数据集。另外，学者们一般以运行时间和内存占用来衡量算法在车载计算平台上的可行性。本节围绕闭环检测中常用的性能评价指标和相关数据集展开讨论。

5.1 性能评价指标

由于闭环检测的结果未必与事实情况一致，根据事实和检测结果的组合，可能出现表 2中的4种情况。

表 2 闭环检测的4种情况 Tab. 2 Four situations of loop closure

精度和召回率：计算方式如式(1) 所示。精度的高低反映了闭环检测的命中率的高低，而召回率的大小反映了成功检测出闭环的覆盖率的高低。

$ \begin{align} \text{Precision}=\frac{\rm TP}{{\rm TP}+{\rm FP}}, \; \; \; \text{Recall}=\frac{\rm TP}{{\rm TP}+{\rm FN}} \end{align} $

(1)

精度—召回率曲线下的面积（AUC）：理想的闭环检测系统应该达到100% 精度和100% 召回率，但实际上精度和召回率存在负相关现象，即提高精度往往导致召回率的降低，所以通常以AUC来评估算法的综合性能^{[2, 6, 9-10, 12, 41, 133-134]}。偶尔也会使用式(2) 所示的$ F_1 $值来综合衡量^{[46, 132]}，表示高精度和高召回率之间的合理折中。

$ \begin{align} { F_1}=2\times \frac{\text{Precision}\times \text{Recall}}{\text{Precision}+\text{Recall}} \end{align} $

(2)

精度为100% 时的最大召回率：该数值也是判断算法闭环检测能力的重要指标^[11]。这是因为在实际应用中，若假阳性FP引入错误的约束，可能会严重破坏位姿估计的全局一致性^[4]。不过，随着更鲁棒的位姿优化方法^[135]的提出，系统对假阳性和数据关联错误等异常情况有了较好的容错能力。特别是在不断变化的场景中，尽可能多地检测出闭环比筛除所有误匹配更为重要^[11]。

运行时间和内存占用：该指标是部署算法时需要衡量的关键因素。运行时间一般由2部分组成：特征提取及描述时间和图像匹配时间。特征提取及描述时间取决于算法的复杂度，对于深度学习方法来说就是模型结构的复杂性和参数量。而图像匹配时间和内存占用受数据库中存储的图像总量和描述符形式的影响。

在计算上述以精度、召回率衍生的性能指标时，均需要有先验的真值，因此只能在实验室环境下对已知场景进行评估。针对缺乏真值的未知环境，如何建立起合理、科学的评估模式仍需进一步研究。同时，在兼顾闭环检测性能的前提下，还需要研究更加高性能的特征提取及描述和图像匹配算法以保障计算量和内存占用较小，降低硬件成本。

5.2 基准数据集

对闭环检测算法的优化往往着眼于解决某个特定问题。研究人员广泛研究和解决的挑战主要来自于以下因素：天气变化（晴天、阴天、雨天）、季节变化（春、夏、秋、冬）、光照变化（清晨到昼夜）、视点变化和动态物体。近年来对语义层级和大规模场景的研究也成为热点。为了方便开展研究，本节围绕数据集所属场景和各类挑战性因素，总结了移动机器人闭环检测领域中常用的12种基准数据集（见表 3），下面简单介绍。

表 3 闭环检测常用的数据集 Tab. 3 Common datasets in loop closure detection

数据集	数据场景	数据特性						其他传感器数据	规模/km
数据集	数据场景	天气变化	季节变化	光照变化	视点变化	动态物体	语义信息	其他传感器数据	规模/km
¹Cityscapes^[94]	城市		√ √	√		√ √ √	√ √ √	GPS	–
²CMU^[137]	城市，郊区	√	√ √ √	√	√	√ √ √		GPS	128
³Gardens Point^[138]	校园			√ √ √	√ √ √	√		–	12
⁴KITTI Odometry^[140]	城市	√		√ √	√	√ √ √		GPS，IMU，LiDAR	39.2
⁵KITTI Semantic^[136]	城市			√		√ √	√ √ √	GPS，IMU，LiDAR	–
⁶Mapillary SLS^[141]	城市，郊区	√ √ √	√ √ √	√ √ √	√ √ √	√ √ √		GPS	11 560
⁷NCLT^[142]	校园	√	√ √	√ √ √	√	√ √ √		GPS，LiDAR	148.5
⁸{New College and City Centre^[6]	城市，校园			√ √ √	√ √			GPS	2
⁹Nordland^[143]	自然，城市	√	√ √ √	√	√			GPS	728
¹⁰SPED^[95]	自然，城市	√ √ √	√ √ √	√ √ √		√ √		–	–
¹¹St. Lucia^[139]	郊区			√ √ √	√ √	√		GPS	47.5
¹²TUM RGB-D^[34]	室内				√ √ √	√ √ √		IMU	–
注："√"数量越多，则程度/属性越强烈。

表 3 闭环检测常用的数据集 Tab. 3 Common datasets in loop closure detection

¹ https://www.cityscapes-dataset.com/dataset-overview/

² http://3dvis.ri.cmu.edu/data-sets/localization/

³ https://zenodo.org/record/4561862

⁴ http://www.cvlibs.net/datasets/kitti/evalodometry.php

⁵ http://www.cvlibs.net/datasets/kitti/evalsemantics.php

⁶ https://www.mapillary.com/dataset/places

⁷ http://robots.engin.umich.edu/nclt/

⁸ http://www.robots.ox.ac.uk/~mobile/IJRR2008Dataset/data.html

⁹ https://nrkbeta.no/2013/01/15/

¹⁰ https://goo.gl/OXeL2X

¹¹ https://wiki.qut.edu.au/display/cyphy/St+Lucia+Multiple+Times+of+Day

¹² https://vision.in.tum.de/data/datasets/rgbd-dataset

Cityscapes数据集^[94]：主要面向大规模城市场景的语义分割研究，收集了50个城市的街道场景数据，并提供了包含30种物体的语义级标注。其中像素级标注5 000张，粗略标注20 000张以支持弱标注学习。该数据集主要收集于天气状态良好的白天，时间跨越春、夏、秋3个季节，含有大量动态物体。同样具有语义信息的还有KITTI Semantic数据集^[136]，即城市道路的像素级语义分割和实例分割数据集，分别包含200幅训练图像和200幅测试图像。

CMU数据集^[137]：主要面向室外环境下基于视觉的大规模长期定位问题，总里程128 km。数据来源于沿城市及郊区道路的同一路线不断采集的图像，反映了强烈的季节变化和动态物体干扰。

Gardens Point数据集^[138]：数据集中的数据是由昆士兰科技大学机器人实验室人员手持iPhone手机拍摄的，路线覆盖办公室和室外人行道环境。采集策略为沿着同一路线行走3次，但每次都特意选择不同的行进轨迹和时间点，使其具有显著的光照和视点变化。该实验室构建的数据集还有St. Lucia^[139]，其规模比Gardens Point数据集更大，捕获了从清晨到傍晚之间的外观变化情况，具有显著的光照变化。

KITTI Odometry数据集^[140]：是SLAM领域内最著名的数据集之一，收集于城市道路环境。该数据集由22个图像序列组成，其中12个包含闭环，捕捉了大量行人、车辆等动态物体，以及轻微的天气变化和视角偏移。

Mapillary SLS数据集^[141]：近年来规模最大、覆盖场景最全的超大型城市与郊区场景数据集，在6个大洲30个主要城市中收集了超过160万幅图像。得益于长达7年的时间跨度，该数据集记录了因季节、天气、光照、视角偏移、动态物体和建筑物改造等多种因素改变而带来的巨大感知变化，有利于测试算法在实际应用中的性能。

NCLT数据集^[142]：收集了不同季节、不同时间下密西根大学校园环境中的室内、室外环境数据，时间跨度为15个月，总里程约148.5 km。NCLT数据集中的挑战性元素包括季节变化、强烈的光照变化、大量移动障碍物（如行人、汽车、自行车）、视角偏移和轻微的天气变化。

New College and City Centre数据集^[6]：由Cummins团队提出，最初用于评估FAB-MAP算法的性能，逐渐发展为闭环检测领域最常用的基准数据集之一。数据中的图像具有视点变化和光照变化。

Nordland数据集^[143]：基于搭载在列车顶部的摄像机，录制了春、夏、秋、冬4个序列的自然与城市景观，总里程728 km。该数据集捕获了强烈的季节变化，以及轻微的天气、视点和光照变化。

SPED数据集^[95]：解决了基于有监督学习的闭环检测方法缺乏训练数据集的问题。该数据集在1000多处特定场景中收集了250万张静态图像，挑战性因素包括天气变化、季节变化、光照变化。基于该数据集，可训练出对外观变化更加鲁棒的特征描述模型或视觉词典。但由于是静态拍摄，所以没有视角上的变化。

TUM RGB-D数据集^[34]：其数据形式丰富且带有深度信息，主要面向室内场景，如办公室、大厅等。该数据集包含了许多面向特定任务的带有闭环的图像序列。例如部分序列是手持Kinect相机拍摄的，因此具有强烈的视点变化。部分序列专门针对高动态环境问题，引入了大量动态目标干扰。

6 讨论与展望（Discussion and propect）

近年来诸多研究人员围绕实用化的闭环检测方法开展了诸多探索。虽然取得了丰硕的创新性成果，但仍存在一些尚未解决的问题，比如：(1) 场景外观描述符方法的辨识力和泛化能力不足，导致机器人更换作业场景后的性能大打折扣。训练神经网络所使用数据集的场景相似性或丰富度影响了模型的泛化能力，而数据标注成本较高，每更换一处场景就重新采集、标注和训练很不现实。(2) 表征性能和计算效率之间难以统筹兼顾。更优异的外观描述算法往往会增大计算的负担，这与有限的车载计算资源、较高的实时性要求均有矛盾。下面讨论有助于解决上述问题的方法。

6.1 无监督学习

制约深度学习技术在闭环检测中推广应用的主要因素是极高的训练数据集标注成本。尽管计算机视觉领域开源了ImageNet^[68]、COCO^[144]等通用型数据集，也出现了SPED^[95]、Tokyo 24/7^[145]等专为闭环检测设计的数据集，但跨场景时模型的泛化能力仍差强人意。因此，无需标注数据的无监督学习更适合SLAM场景。作为无监督学习的基本范式之一，自动编码器（AE）^[146]使用编码器压缩输入图像，然后利用解码器重构压缩后的数据使其尽可能接近输入。在此过程中，经反向传播更新参数的编码器获取了表征图像的能力。已有许多学者将AE及其变体应用至闭环检测中。比如前文中提到的SDA^[33]和CALC^[41]均为基于AE的无监督表征学习算法，训练后的编码器可作为特征提取器使用。

由于无监督学习算法的训练不需要人工贴标，因此部署成本和周期大大降低，这也符合移动机器人对部署效率和适应性的需求趋势。

6.2 语义上下文信息

图像中的像素点并非孤立的，相邻域内的像素点之间相互关联组成图像信息的表达。同样，图像中的语义信息也密切相关，上下文信息包含了更丰富的知识。当场景外观的可表达性不足时，语义上下文信息就显得至关重要。例如前文提到的基于语义信息和人类先验知识的描述方法能够有效筛除场景中的动态物体，如行人和车辆。但在有些场景下，例如停车场中，绝大多数元素为处于静态的车辆，是无需筛除的。相反，去除占据大量篇幅的车辆将降低特征描述符的表达性。这一结论来源于“停车”与“车辆”的语义上下文信息。类似的上下文信息也有提高位置识别性能的潜力，例如依据时间、天气和季节调整闭环检测对输入图像数据的表征方式^[11]。不过，建立以语义上下文信息为依据的图像表达模型极具挑战。

6.3 模型轻量化

基于实时性考量，部署在移动机器人中的算法必须具备较低的计算复杂度。尽管计算设备的计算能力逐年提升，并推出了Jetson TX2等小型化运算GPU，但对深度学习网络结构的轻量化和模型压缩依旧意义重大。轻量化模型对运算平台性能要求较低，功耗小，内存和空间占用少，有望实现高精度和实时性的双优化。

受益于计算机视觉领域的飞速进展，提出了许多轻量化网络结构设计方法。比如以卷积层代替全连接层^[147]，使用1$ \times $1卷积进行通道降维^[148]，使用深度可分离卷积^[54]等。Merrill等^[41]设计了轻量化网络结构，通过降低模型复杂度和减少参数量，特征描述的效率已不弱于传统算法，但精度明显更优^{[41, 50]}。An等^[56]将基于倒置残差和线性瓶颈的轻量级网络MobileNetV2^[149]应用至闭环检测，提取一帧图像的特征仅需8.72 ms。更进一步，还可以通过去除冗余的模型参数（剪枝）、降低参数精度（量化）等方式压缩模型。

7 结语（Conclusion）

随着机器人及人工智能技术的迅猛发展，移动机器人应用环境由结构化的已知环境逐步拓展至非结构化的未知环境，这对机器人的自主性和感知能力有了更高的要求，也推动闭环检测技术取得了多项重要成果。

本文总结了近年来非结构化环境下基于外观的闭环检测研究进展和仍未解决的问题。总体而言，对闭环检测方法的优化主要围绕提升鲁棒性、精度、泛化能力和实时性等方面展开。得益于计算机视觉、模式识别等领域的长足进步，许多现有的深度神经网络模型或专门设计的深度神经网络模型已被引入到闭环检测领域。可以看出，基于深度学习（特别是结合语义信息）的闭环检测方法已被证实在应对非结构化因素时表现出更优异的性能，但还存在易受干扰、泛化能力不强、实时性不够等影响实际应用效果的问题。要解决这些问题，仍需要在无监督学习、融合语义信息或模型轻量化等方面进一步探索，从而提升机器人在真实场景下的长期自主作业能力。

参考文献（References）

[1]	Durrant-Whyte H, Bailey T. Simultaneous localization and mapping: Part I[J]. IEEE Robotics & Automation Magazine, 2006, 13(2): 99-110.
[2]	Galvez-López D, Tardos J D. Bags of binary words for fast place recognition in image sequences[J]. IEEE Transactions on Robotics, 2012, 28(5): 1188-1197. DOI:10.1109/TRO.2012.2197158
[3]	Mur-Artal R, Tardós J D. Fast relocalisation and loop closing in keyframe-based SLAM[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2014: 846-853.
[4]	Ho K L, Newman P. Detecting loop closure with scene sequences[J]. International Journal of Computer Vision, 2007, 74: 261-286. DOI:10.1007/s11263-006-0020-1
[5]	Williams B, Cummins M, Neira J, et al. A comparison of loop closing techniques in monocular SLAM[J]. Robotics and Autonomous Systems, 2009, 57(12): 1188-1197. DOI:10.1016/j.robot.2009.06.010
[6]	Cummins M, Newman P. FAB-MAP: Probabilistic localization and mapping in the space of appearance[J]. International Journal of Robotics Research, 2008, 27(6): 647-665. DOI:10.1177/0278364908090961
[7]	Cummins M, Newman P. Appearance-only SLAM at large scale with FAB-MAP 2.0[J]. International Journal of Robotics Research, 2011, 30(9): 1100-1123. DOI:10.1177/0278364910385483
[8]	Milford M J, Wyeth G F. SeqSLAM: Visual route-based navigation for sunny summer days and stormy winter nights[C]// IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2012: 1643-1649.
[9]	Siam S M, Zhang H. Fast-SeqSLAM: A fast appearance based place recognition algorithm[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2017: 5702-5708.
[10]	Garcia-Fidalgo E, Ortiz A. IBoW-LCD: An appearance-based loop-closure detection approach using incremental bags of binary words[J]. IEEE Robotics and Automation Letters, 2018, 3(4): 3051-3057. DOI:10.1109/LRA.2018.2849609
[11]	Lowry S, Sünderhauf N, Newman P, et al. Visual place recognition: A survey[J]. IEEE Transactions on Robotics, 2016, 32(1): 1-19. DOI:10.1109/TRO.2015.2496823
[12]	Nicosevici T, Garcia R. Automatic visual bag-of-words for online robot navigation and mapping[J]. IEEE Transactions on Robotics, 2012, 28(4): 886-898. DOI:10.1109/TRO.2012.2192013
[13]	Angeli A, Filliat D, Doncieux S, et al. Fast and incremental method for loop-closure detection using bags of visual words[J]. IEEE Transactions on Robotics, 2008, 24(5): 1027-1037. DOI:10.1109/TRO.2008.2004514
[14]	Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2016: 5297-5307.
[15]	Aslan S, Akgül C B, Sankur B, et al. Exploring visual dictionaries: A model driven perspective[J]. Journal of Visual Communication and Image Representation, 2017, 49: 315-331. DOI:10.1016/j.jvcir.2017.09.009
[16]	Bai D D, Wang C Q, Zhang B, et al. Sequence searching with CNN features for robust and fast visual place recognition[J]. Computers & Graphics, 2018, 70: 270-280.
[17]	Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647
[18]	LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551. DOI:10.1162/neco.1989.1.4.541
[19]	Payá L, Reinoso O, Berenguer Y, et al. Using omnidirectional vision to create a model of the environment: A comparative evaluation of global-appearance descriptors[J]. Journal of Sensors, 2016. DOI:10.1155/2016/1209507
[20]	Tsai C F, Lin W C. A comparative study of global and local feature representations in image database categorization[C]// 15th International Joint Conference on INC, IMS and IDC. Piscataway, USA: IEEE, 2009: 1563-1566.
[21]	Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60: 91-110. DOI:10.1023/B:VISI.0000029664.99615.94
[22]	Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359. DOI:10.1016/j.cviu.2007.09.014
[23]	Luo J, Oubong G. A comparison of SIFT, PCA-SIFT and SURF[J]. International Journal of Image Processing, 2009, 3(4): 143-152.
[24]	Valenzuela R E G, Schwartz W R, Pedrini H. Dimensionality reduction through PCA over SIFT and SURF descriptors[C]//IEEE 11th International Conference on Cybernetic Intelligent Systems. Piscataway, USA: IEEE, 2012: 58-63.
[25]	Calonder M, Lepetit V, Strecha C, et al. BRIEF: Binary robust independent elementary features[M]//Lecture Notes in Computer Science, Vol. 6314. Berlin, Germany: Springer, 2010: 778-792.
[26]	Rosten E, Drummond T. Machine learning for high-speed corner detection[M]//Lecture Notes in Computer Science, Vol. 3951. Berlin, Germany: Springer, 2006: 430-443.
[27]	Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]//International Conference on Computer Vision. Piscataway, USA: IEEE, 2011: 2564-2571.
[28]	Leutenegger S, Chli M, Siegwart R Y. BRISK: Binary robust invariant scalable keypoints[C]//International Conference on Computer Vision. Piscataway, USA: IEEE, 2011: 2548-2555.
[29]	Alahi A, Ortiz R, Vandergheynst P. FREAK: Fast retina keypoint[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2012: 510-517.
[30]	Hartmann J, Klüssendorff J H, Maehle E. A comparison of feature descriptors for visual SLAM[C]//European Conference on Mobile Robots. Piscataway, USA: IEEE, 2013: 56-61.
[31]	Mur-Artal R, Montiel J M M, Tardós J D. ORB-SLAM: A versatile and accurate monocular SLAM system[J]. IEEE Transactions on Robotics, 2015, 31(5): 1147-1163. DOI:10.1109/TRO.2015.2463671
[32]	Mur-Artal R, Tardós J D. ORB-SLAM2: An open-source SLAM system for monocular, stereo, and RGB-D cameras[J]. IEEE Transactions on Robotics, 2017, 33(5): 1255-1262. DOI:10.1109/TRO.2017.2705103
[33]	Gao X, Zhang T. Unsupervised learning to detect loops using deep neural networks for visual SLAM system[J]. Autonomous Robots, 2017, 41: 1-18. DOI:10.1007/s10514-015-9516-2
[34]	Sturm J, Engelhard N, Endres F, et al. A benchmark for the evaluation of RGB-D SLAM systems[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2012: 573-580.
[35]	Yi K M, Trulls E, Lepetit V, et al. LIFT: Learned invariant feature transform[C]//Lecture Notes in Computer Science, Vol. 9910. Berlin, Germany: Springer, 2016: 467-483.
[36]	DeTone D, Malisiewicz T, Rabinovich A. SuperPoint: Self-supervised interest point detection and description[C]//IEEE/ CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, USA: IEEE, 2018. DOI: 10.1109/CVPRW.2018.00060.
[37]	Ono Y, Trulls E, Fua P, et al. LF-Net: Learning local features from images[C]//32nd International Conference on Neural Information Processing Systems. New York, USA: ACM, 2018: 6237-6247.
[38]	Shen X L, Wang C, Li X, et al. RF-Net: An end-to-end image matching network based on receptive field[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2019: 8124-8132.
[39]	Balntas V, Lenc K, Vedaldi A, et al. HPatches: A benchmark and evaluation of handcrafted and learned local descriptors[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2017: 3852-3861.
[40]	Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2005: 886-893.
[41]	Merrill N, Huang G Q. Lightweight unsupervised deep loop closure[DB/OL]. (2018-05-24)[2021-11-29]. https://arxiv.org/abs/1805.07703.
[42]	Oliva A, Torralba A. Building the gist of a scene: The role of global image features in recognition[J]. Progress in Brain Research, 2006, 155(Part B): 23-36.
[43]	Singh G, Kosecka J. Visual loop closing using gist descriptors in Manhattan world[C]//ICRA Omnidirectional Vision Workshop. Piscataway, USA: IEEE, 2010: 4042-4047.
[44]	Sünderhauf N, Protzel P. BRIEF-Gist-closing the loop by simple means[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2011: 1234-1241.
[45]	Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25: 1097-1105.
[46]	Sünderhauf N, Shirazi S, Dayoub F, et al. On the performance of ConvNet features for place recognition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2015: 4297-4304.
[47]	侯毅. 基于深度卷积神经网络的移动机器人视觉地点识别[D]. 长沙: 国防科技大学, 2017. Hou Y. Visual place recognition with deep convolutional neural networks for mobile robots[D]. Changsha: National University of Defense Technology, 2017.
[48]	Chen B F, Yuan D, Liu C F, et al. Loop closure detection based on multi-scale deep feature fusion[J]. Applied Sciences, 2019, 9(6). DOI:10.3390/app9061120
[49]	He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824
[50]	Zaffar M, Khaliq A, Ehsan S, et al. Levelling the playing field: A comprehensive comparison of visual place recognition approaches under changing conditions[DB/OL]. (2019-03-29)[2021-11-29]. https://doi.org/10.48550/arXiv.1903.09107.
[51]	Wang S, Lv X D, Liu X M, et al. Compressed holistic Conv-Net representations for detecting loop closures in dynamic environments[J]. IEEE Access, 2020, 8: 60552-60574. DOI:10.1109/ACCESS.2020.2982228
[52]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2016: 770-778.
[53]	Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2017: 2261-2269.
[54]	Howard A G, Zhu M L, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[DB/OL]. (2017-04-17)[2021-11-29]. https://doi.org/10.48550/arXiv.1704.04861.
[55]	Yu C, Liu Z X, Liu X J, et al. A DenseNet feature-based loop closure method for visual SLAM system[C]//IEEE International Conference on Robotics and Biomimetics. Piscataway, USA: IEEE, 2019: 258-265.
[56]	An S, Che G F, Zhou F R, et al. Fast and incremental loop closure detection using proximity graphs[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2019: 378-385.
[57]	Chen Z T, Maffra F, Sa I, et al. Only look once, mining distinctive landmarks from ConvNet for visual place recognition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2017: 9-16.
[58]	Hausler S, Garg S, Xu M, et al. Patch-NetVLAD: Multi-scale fusion of locally-global descriptors for place recognition[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2021: 14136-14147.
[59]	Ren X, Malik J. Learning a classification model for segmentation[C]//9th IEEE International Conference on Computer Vision. Piscataway, USA: IEEE, 2003: 10-17.
[60]	Cheng C, Page D L, Abidi M A. Object-based place recognition and loop closing with jigsaw puzzle image segmentation algorithm[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2008: 557-562.
[61]	Neubert P, Protzel P. Beyond holistic descriptors, keypoints, and fixed patches: Multiscale superpixel grids for place recognition in changing environments[J]. IEEE Robotics and Automation Letters, 2016, 1(1): 484-491. DOI:10.1109/LRA.2016.2517824
[62]	Xin Z, Cui X G, Zhang J X, et al. Real-time visual place recognition based on analyzing distribution of multi-scale CNN landmarks[J]. Journal of Intelligent & Robotic Systems, 2019, 94: 777-792.
[63]	Sünderhauf N, Shirazi S, Jacobson A, et al. Place recognition with ConvNet landmarks: Viewpoint-robust, condition-robust, training-free[C]//Robotics: Science and Systems XI. 2015. DOI: 10.15607/RSS.2015.XI.022.
[64]	Panphattarasap P, Calway A. Visual place recognition using landmark distribution descriptors[M]//Lecture Notes in Computer Science, Vol. 10114. Berlin, Germany: Springer, 2016: 487-502.
[65]	Zitnick C L, Dollár P. Edge boxes: Locating object proposals from edges[M]//Lecture Notes in Computer Science, Vol. 8693. Berlin, Germany: Springer, 2014: 391-405.
[66]	Cheng M M, Zhang Z M, Lin W Y, et al. BING: Binarized normed gradients for objectness estimation at 300fps[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2014: 3286-3293.
[67]	Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//28th International Conference on Neural Information Processing Systems. New York, USA: ACM, 2015: 91-99.
[68]	Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2009: 248-255.
[69]	Hou Y, Zhang H, Zhou S L. Evaluation of object proposals and ConvNet features for landmark-based visual place recognition[J]. Journal of Intelligent & Robotic Systems, 2018, 92: 505-520.
[70]	刘强, 段富海, 桑勇, 等. 复杂环境下视觉SLAM闭环检测方法综述[J]. 机器人, 2019, 41(1): 112-123, 136. Liu Q, Duan F H, Sang Y, et al. A survey of loop-closure detection method of visual SLAM in complex environments[J]. Robot, 2019, 41(1): 112-123, 136. DOI:10.3969/j.issn.2096-0182.2019.01.016
[71]	Zhang X W, Wang L, Su Y. Visual place recognition: A survey from deep learning perspective[J]. Pattern Recognition, 2021, 113. DOI:10.1016/j.patcog.2020.107760
[72]	Costante G, Ciarfuglia T A, Valigi P, et al. A transfer learning approach for multi-cue semantic place recognition[C]// IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2013: 2122-2129.
[73]	Arshad S, Kim G W. Role of deep learning in loop closure detection for visual and lidar SLAM: A survey[J]. Sensors, 2021, 21(4). DOI:10.3390/s21041243
[74]	Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2016: 779-788.
[75]	Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495. DOI:10.1109/TPAMI.2016.2644615
[76]	Lin G S, Milan A, Shen C H, et al. RefineNet: Multi-path refinement networks for high-resolution semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2017: 5168-5177.
[77]	He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//IEEE International Conference on Computer Vision. Piscataway, USA: IEEE, 2017: 2980-2988.
[78]	Hu M Y, Li S, Wu J Y, et al. Loop closure detection for visual SLAM fusing semantic information[C]//Chinese Control Conference. Piscataway, USA: IEEE, 2019: 4136-4141.
[79]	Wang Y, Zell A. Improving feature-based visual SLAM by semantics[C]//IEEE International Conference on Image Processing, Applications and Systems. Piscataway, USA: IEEE, 2018: 7-12.
[80]	Wang Y W, Qiu Y Y, Cheng P T, et al. Robust loop closure detection integrating visual-spatial-semantic information via topological graphs and CNN features[J]. Remote Sensing, 2020, 12(23). DOI:10.3390/rs12233890
[81]	Garg S, Sünderhauf N, Milford M. Lost? appearance-invariant place recognition for opposite viewpoints using visual semantics[DB/OL]. (2018-05-26)[2021-11-29]. https://doi.org/10.48550/arXiv.1804.05526.
[82]	Chen L C, Zhu Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Lecture Notes in Computer Science, Vol. 11211. Berlin, Germany: Springer, 2018: 833-851.
[83]	Yu C, Liu Z X, Liu X J, et al. DS-SLAM: A semantic visual SLAM towards dynamic environments[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2018: 1168-1174.
[84]	Zhang Z Q, Zhang J T, Tang Q R. Mask R-CNN based semantic RGB-D SLAM for dynamic scenes[C]//IEEE/ASME International Conference on Advanced Intelligent Mechatronics. Piscataway, USA: IEEE, 2019: 1151-1156.
[85]	Xiao L H, Wang J G, Qiu X S, et al. Dynamic-SLAM: Semantic monocular visual localization and mapping based on deep learning in dynamic environment[J]. Robotics and Autonomous Systems, 2019, 117: 1-16. DOI:10.1016/j.robot.2019.03.012
[86]	Munoz J P, Dexter S. Improving place recognition using dynamic object detection[DB/OL]. (2020-06-12)[2021-11-29]. https://doi.org/10.48550/arXiv.2002.04698.
[87]	Henein M, Zhang J, Mahony R, et al. Dynamic SLAM: The need for speed[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2020: 2123-2129.
[88]	Schönberger J L, Pollefeys M, Geiger A, et al. Semantic visual localization[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2018: 6896-6906.
[89]	Yuan Z A, Xu K, Zhou X Y, et al. SVG-Loop: Semantic-visual-geometric information-based loop closure detection[J]. Remote Sensing, 2021, 13(17). DOI:10.3390/rs13173520
[90]	Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: The KITTI dataset[J]. International Journal of Robotics Research, 2013, 32(11): 1231-1237. DOI:10.1177/0278364913491297
[91]	Larsson M M, Stenborg E, Hammarstrand L, et al. A cross-season correspondence dataset for robust semantic segmentation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2019: 9524-9534.
[92]	Stenborg E, Toft C, Hammarstrand L. Long-term visual localization using semantically segmented images[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2018: 6484-6490.
[93]	Wu P, Wang J, Wang C, et al. A novel fusing semantic-and appearance-based descriptors for visual loop closure detection[J]. Optik, 2021, 243. DOI:10.1016/j.ijleo.2021.167230
[94]	Cordts M, Omran M, Ramos S, et al. The Cityscapes dataset for semantic urban scene understanding[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2016: 3213-3223.
[95]	Chen Z T, Jacobson A, Sünderhauf N, et al. Deep learning features at scale for visual place recognition[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2017: 3223-3230.
[96]	Siagian C, Itti L. Biologically inspired mobile robot vision localization[J]. IEEE Transactions on Robotics, 2009, 25(4): 861-873. DOI:10.1109/TRO.2009.2022424
[97]	Maddern W, Milford M, Wyeth G. CAT-SLAM: Probabilistic localisation and mapping using a continuous appearance-based trajectory[J]. International Journal of Robotics Research, 2012, 31(4): 429-451. DOI:10.1177/0278364912438273
[98]	Doucet A, de Freitas N, Murphy K, et al. Rao-Blackwellised particle filtering for dynamic Bayesian networks[DB/OL]. (2013-03-16)[2021-11-29]. https://arxiv.org/abs/1301.3853v1.
[99]	Liu Y, Zhang H. Visual loop closure detection with a compact image descriptor[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2012: 1051-1056.
[100]	Xu H, Zhang H X, Yao E L, et al. A loop closure detection algorithm in dynamic scene[J]. DEStech Transactions on Computer Science and Engineering, 2018. DOI:10.12783/dtcse/CCNT2018/24714
[101]	Roman-Rangel E, Marchand-Maillet S. Stopwords detection in bag-of-visual-words: The case of retrieving maya hieroglyphs [M]//Lecture Notes in Computer Science, Vol. 8158. Berlin, Germany: Springer, 2013: 159-168.
[102]	Chow C, Liu C. Approximating discrete probability distributions with dependence trees[J]. IEEE Transactions on Information Theory, 1968, 14(3): 462-467. DOI:10.1109/TIT.1968.1054142
[103]	Nister D, Stewenius H. Scalable recognition with a vocabulary tree[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2006: 2161-2168.
[104]	Schindler G, Brown M, Szeliski R. City-scale location recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2007. DOI: 10.1109/CVPR.2007.383150.
[105]	Arthur D, Vassilvitskii S. K-means++: The advantages of careful seeding[R]. Stanford, USA: Stanford University, 2006.
[106]	Campos C, Elvira R, Rodríguez J J G, et al. ORB-SLAM3: An accurate open-source library for visual, visual--inertial, and multimap SLAM[J]. IEEE Transactions on Robotics, 2021, 37(6): 1874-1890. DOI:10.1109/TRO.2021.3075644
[107]	Qin T, Li P L, Shen S J. VINS-Mono: A robust and versatile monocular visual-inertial state estimator[J]. IEEE Transac- tions on Robotics, 2018, 34(4): 1004-1020. DOI:10.1109/TRO.2018.2853729
[108]	Zhang G, Yan X Q, Ye Y D. Loop closure detection via maximization of mutual information[J]. IEEE Access, 2019, 7: 124217-124232. DOI:10.1109/ACCESS.2019.2937967
[109]	Nicosevici T, Garcia R. On-line visual vocabularies for robot navigation and mapping[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2009: 205-212.
[110]	Nicosevici T, Garcia R. Online robust 3D mapping using structure from motion cues[C]//OCEANS. Piscataway, USA: IEEE, 2008. DOI: 10.1109/OCEANSKOBE.2008.4531022.
[111]	Fisher R A. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics, 1936, 7(2): 179-188. DOI:10.1111/j.1469-1809.1936.tb02137.x
[112]	Khan S, Wollherr D. IBuILD: Incremental bag of binary words for appearance based loop closure detection[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2015: 5441-5447.
[113]	Muja M, Lowe D G. Fast matching of binary features[C]//9th Conference on Computer and Robot Vision. Piscataway, USA: IEEE, 2012: 404-410.
[114]	Wan J, Yilmaz A, Yan L. DCF-BoW: Build match graph using bag of deep convolutional features for structure from motion[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(12): 1847-1851. DOI:10.1109/LGRS.2018.2864116
[115]	Newman P, Cole D, Ho K. Outdoor SLAM using visual appearance and laser ranging[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2006: 1180-1187.
[116]	Bampis L, Amanatiadis A, Gasteratos A. Fast loop-closure detection using visual-word-vectors from image sequences[J]. International Journal of Robotics Research, 2018, 37(1): 62-82. DOI:10.1177/0278364917740639
[117]	Liu Z, Suo C Z, Zhou S B, et al. SeqLPD: Sequence matching enhanced loop-closure detection based on large-scale point cloud description for self-driving vehicles[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2019: 1218-1223.
[118]	Lopez-Antequera M, Gomez-Ojeda R, Petkov N, et al. Appearance-invariant place recognition by discriminatively training a convolutional neural network[J]. Pattern Recognition Letters, 2017, 92: 89-95. DOI:10.1016/j.patrec.2017.04.017
[119]	张括嘉, 张云洲, 吕光浩, 等. 基于局部语义拓扑图的视觉SLAM闭环检测[J]. 机器人, 2019, 41(5): 649-659. Zhang K J, Zhang Y Z, Lü G H, et al. Loop closure detection based on local semantic topology for visual SLAM system[J]. Robot, 2019, 41(5): 649-659.
[120]	Cummins M, Newman P. Probabilistic appearance based navigation and loop closing[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2007: 2042-2048.
[121]	Kejriwal N, Kumar S, Shibata T. High performance loop closure detection using bag of word pairs[J]. Robotics and Autonomous Systems, 2016, 77: 55-65. DOI:10.1016/j.robot.2015.12.003
[122]	Tsintotas K A, Bampis L, Gasteratos A. Assigning visual words to places for loop closure detection[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2018: 5979-5985.
[123]	Johns E, Yang G Z. Feature co-occurrence maps: Appearance-based localisation throughout the day[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2013: 3212-3218.
[124]	Milford M, Scheirer W, Vig E, et al. Condition-invariant, top-down visual place recognition[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2014: 5571-5577.
[125]	Fischler M A, Bolles R C. Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381-395. DOI:10.1145/358669.358692
[126]	Markov A A. The theory of algorithms[J]. The Journal of Symbolic Logic, 1953, 18(4): 176-189.
[127]	Kümmerle R, Grisetti G, Strasdat H, et al. G²o: A general framework for graph optimization[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2011: 3607-3613.
[128]	Engel J, Koltun V, Cremers D. Direct sparse odometry[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(3): 611-625. DOI:10.1109/TPAMI.2017.2658577
[129]	Gao X, Wang R, Demmel N, et al. LDSO: Direct sparse odometry with loop closure[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2018: 2198-2204.
[130]	Newcombe R A, Izadi S, Hilliges O, et al. KinectFusion: Real-time dense surface mapping and tracking[C]//10th IEEE International Symposium on Mixed and Augmented Reality. Piscataway, USA: IEEE, 2011: 127-136.
[131]	Kerl C, Sturm J, Cremers D. Dense visual SLAM for RGB-D cameras[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2013: 2100-2106.
[132]	Naseer T, Ruhnke M, Stachniss C, et al. Robust visual SLAM across seasons[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2015: 2529-2535.
[133]	Bai D D, Wang C Q, Zhang B, et al. CNN feature boosted SeqSLAM for real-time loop closure detection[J]. Chinese Journal of Electronics, 2018, 27(3): 488-499. DOI:10.1049/cje.2018.03.010
[134]	Memon A R, Wang H S, Hussain A. Loop closure detection using supervised and unsupervised deep neural networks for monocular SLAM systems[J]. Robotics and Autonomous Systems, 2020, 126. DOI:10.1016/j.robot.2020.103470
[135]	Sünderhauf N, Protzel P. Switchable constraints for robust pose graph SLAM[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2012: 1879-1884.
[136]	Behley J, Garbade M, Milioto A, et al. SemanticKITTI: A dataset for semantic scene understanding of lidar sequences[C]//IEEE/CVF International Conference on Computer Vision. Piscataway, USA: IEEE, 2019: 9296-9306.
[137]	Badino H, Huber D, Kanade T. Visual topometric localization[C]//IEEE Intelligent Vehicles Symposium. Piscataway, USA: IEEE, 2011: 794-799.
[138]	Glover A. Day and night with lateral pose change datasets[DB/OL]. (2014-12-31)[2021-11-29]. https://doi.org/10.5281/zenodo.4745641.
[139]	Glover A J, Maddern W P, Milford M J, et al. FAB-MAP+ RatSLAM: Appearance-based SLAM for multiple times of day[C]//IEEE International Conference on Robotics and Automation. Piscataway, USA: IEEE, 2010: 3507-3512.
[140]	Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? the KITTI vision benchmark suite[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2012: 3354-3361.
[141]	Warburg F, Hauberg S, López-Antequera M, et al. Mapillary street-level sequences: A dataset for lifelong place recognition[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2020: 2623-2632.
[142]	Carlevaris-Bianco N, Ushani A K, Eustice R M. University of Michigan North Campus long-term vision and lidar dataset[J]. International Journal of Robotics Research, 2016, 35(9): 1023-1035. DOI:10.1177/0278364915614638
[143]	Sünderhauf N, Neubert P, Protzel P. Are we there yet? Challenging SeqSLAM on a 3000 km journey across all four seasons[C]//Proceedings of Workshop on Long-Term Autonomy, IEEE International Conference on Robotics and Automation. 2013.
[144]	Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common objects in context[M]//Lecture Notes in Computer Science, Vol. 8693. Berlin, Germany: Springer, 2014: 740-755.
[145]	Torii A, Arandjelovic R, Sivic J, et al. 24/7 place recognition by view synthesis[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2015: 1808-1817.
[146]	Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[J]. Readings in Cognitive Science, 1988, 399-421.
[147]	Lin M, Chen Q, Yan S C. Network in network[DB/OL]. (2014-03-04)[ 2021-11-29]. https://arxiv.org/abs/1312.4400.
[148]	Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2015. DOI: 10.1109/CVPR.2015.7298594.
[149]	Sandler M, Howard A, Zhu M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, USA: IEEE, 2018: 4510-4520.