邸凯昌1 , 万文辉1 , 赵红颖2 , 刘召芹1 , 王润之1 , 张飞舟2     
1. 中国科学院遥感与数字地球研究所遥感科学国家重点实验室, 北京 100101;
2. 北京大学遥感与地理信息系统研究所, 北京 100871
关键词:视觉SLAM    特征提取    卡尔曼滤波    图优化    闭环检测    
Progress and Applications of Visual SLAM
DI Kaichang1 , WAN Wenhui1 , ZHAO Hongying2 , LIU Zhaoqin1 , WANG Runzhi1 , ZHANG Feizhou2     
1. State Key Laboratory of Remote Sensing Science, Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China;
2. Institute of Remote Sensing and Geographic Information System, Peking University, Beijing 100871, China
Abstract: Visual SLAM provides mapping and self-localization results of a robot in an unknown environment based on visual sensor, which has the advantages of small volume, low power consumption, and richness of information acquisition.Visual SLAM is critical and significant in supporting of robots' automated and intelligent applications.This paper presents the key techniques of visual SLAM, summarizes the current status of visual SLAM research, and analyzes the new trends of visual SLAM research and development.Finally, status and prospect of visual SLAM application in restricted environments, such as deep space, indoor scene and so on, are discussed.
Key words: visual SLAM     feature extraction     Kalman filter     graph based optimization     loop closure detection    

同时定位与制图(simultaneous localization and mapping,SLAM)是机器人在未知环境下自主作业的核心关键技术,是机器人自动化领域的研究重点[1]。未知环境下,基于机器人外部传感器获取的环境感知数据,SLAM为机器人构建周围环境图,同时提供机器人在环境图中的位置,并随着机器人的移动而进行环境图的增量式构建与机器人的连续定位,是实现机器人环境感知与自动化作业的基础。SLAM中一般采用距离传感器作为环境感知的数据源[2]。相比雷达、声呐等测距仪器,视觉传感器具有体积小、功耗低、信息获取丰富等特点,可为各型机器人提供丰富的外部环境纹理信息,因而基于视觉的SLAM成为当前研究的热点[3]。由于相机获取的视觉信息容易受到环境干扰,存在较大噪声,视觉SLAM处理难度大、复杂度高。当前,获取随着计算机视觉技术的不断发展,视觉SLAM的技术水平也随之提高,并在室内自主导航、VR/AR等领域得到初步的应用[4-7]

1 视觉SLAM关键技术

视觉SLAM以相机获取的序列图像数据为基础,依据图像信息结合成像模型恢复环境与相机间的关系,随着相机运动递增式地确定周围环境图,并输出相机在环境图中的位置。依照视觉SLAM的一般处理流程,可分为前端处理、后端处理及闭环检测[8-9],如图 1。前端处理负责序列图像数据同环境地标物的数据关联与参数的初始化,目前主流的方式是通过序列图像的特征提取与匹配,实现序列图像上的同名特征点追踪,进而将序列图像上的同名观测与环境地标点进行关联,并初始化系统的状态参数,是地图递增式构建与自主连续定位的必要前提。前端处理算法的适应性直接决定了视觉SLAM方法的稳健性[10]。后端处理负责对观测数据进行环境图结果与定位参数的最优估计,以获取高精度的定位与制图结果[11-12]。闭环检测是SLAM系统中判别当前观测到的环境地标是否已被观测过的处理,是为消除长距离运动后的误差累计而构建闭环约束的基础[13-14]。以上三部分处理依次完成了视觉SLAM中的数据关联、环境图与定位参数估计及闭环优化。下面就此展开论述。

图 1 视觉SLAM方法基本流程 Fig. 1 The flowchart of general visual SLAM

1.1 特征点提取与追踪


1.2 环境图与定位参数估计

环境感知数据中存在一定的噪声与误差。为获得高精度的结果,需要从带有噪声的数据中估计整个系统状态及其不确定性。研究者们将概率论原理引入研究中,分析机器人所处环境与自身位置信息中的不确定性分布,以贝叶斯规则为基础,构建系统状态概率模型,结合机器人运动信息与环境观测数据,实现环境信息与位姿参数的最优估计[36-39]。卡尔曼滤波(KF)作为一种以最小均方根误差为准则实现线性系统最优估计的方法[40],被最早引入SLAM当中用于系统状态的最优估计[41-42]。由于SLAM系统的非线性特点,需要基于Extend KF(EKF)方法用泰勒级数展开方式实现系统的线性化近似[43]。早期的SLAM研究中,基于EKF的参数估计方法占据了主流[43-44]。然而,如果系统的非线性较强,可能造成线性化近似的误差较大,导致EKF滤波性能的急剧降低。随后,提出了一些改进的滤波方法如Unscented KF[46]、Cubature KF[47]、Central Difference KF[48]等,这些滤波方法可以获得比EKF更好的逼近精度,但仍需进行线性化计算。粒子滤波基于蒙特卡洛方法,通过状态空间传播的随机样本用以近似表示概率密度函数[49],突破了高斯分布假设限制,在视觉SLAM中得到了成功的应用[50-51]。然而这类基于滤波的参数估计方法都是基于系统的马尔可夫性假设,未能更好地利用全体观测数据。近年来,图优化方法在SLAM研究中得到了广泛的关注。图优化方法针对全体观测数据进行估计,并在系统估计改变时重新进行线性化近似,减小了线性化误差,可适应更多的非线性系统,因而成为当前主流的环境图与定位参数估计方法[92-93]。由于图优化方法每次优化均对所有状态量重新进行估计,在大场景环境下过多的待估参数导致计算量过大。现有研究中主要通过尽量减少优化迭代的次数[54-56]以及分析状态矩阵的稀疏性[57-59]来降低相应的计算量。

1.3 闭环检测

视觉SLAM系统在缺少外部控制信息的约束时,系统不确定性逐渐增大,长时间运动后定位误差累计较大。实际应用中,相机可能运动至之前经过的地方从而形成闭环约束,将该约束引入图优化中可获得全局一致的定位结果,有效降低定位误差[60]。因而,闭环检测对于长时间远距离运动的视觉SLAM有着重要意义。闭环检测的实质是判断当前图像内容同较早的历史图像内容的对应关系。早期的闭环检测主要是通过随机抽取历史图像数据同当前图像进行特征匹配,依据特征的正确匹配数量确定是否存在关联。这类方法认为所有历史数据均可能同当前图像存在关联,因而随着历史数据的增多,计算量显著增大,检测效率较低[61]。后续的研究通过对历史数据存在关联的可能性做初步的判断进而提高检测效率。其中,一类方法是依靠定位结果来判断相机是否回到之前的位置,据此确定可能存在的闭环情况[62]。由于长时间下的定位结果误差累计较大,该类方法实际效果不佳。另一类方法是基于图像内容构建图像描述词袋模型(Bag of Words),通过图像上出现的“单词”组合形成描述整幅图像的单词向量,进而通过判断图像相似程度而确定可能的关联关系[62-63]。由于此类方法判别准则是图像中是否出现了的相应的特征,并不考虑特征的位置与顺序,具备更强的环境适应性。

2 视觉SLAM研究新趋势


2.1 视觉多类别特征提取与追踪


2.2 直接法SLAM


2.3 多传感器融合的SLAM


2.4 基于深度学习的视觉SLAM


3 视觉SLAM典型应用


3.1 深空探测

20世纪50年代末,随着以美国和前苏联为代表的航天大国开启了与深空探测的征程,先后发射了大量的探测器用于对各类天体的探测。到目前为止,人类已向月球与火星发射了月球车与火星车用于着陆巡视探测。由于行星表明环境复杂,与地球迥然不同,这些探测车需要一定程度的自动化与智能化,以面对恶劣作业环境的挑战。早期的探测车技术尚不成熟,只能小范围内执行简单的观测任务。随着探测范围的扩大与任务复杂度的提升,要求探测车具备较强的自主定位与环境感知能力,以满足安全避障、任务规划的需要。2003年发射的美国“机遇号”与“勇气号”火星探测车,以及2011年发射的“好奇号”火星车均配备了双目立体导航相机,通过序列图像视觉测程方法修正了航迹推算方法的定位误差,并为探测车提供了安全避障与路径规划所需的基础地图结果,在探测车穿越崎岖困难区域时提供了高精度定位与制图结果,为火星车探测任务的执行提供了不可替代的重要作用[99-102]。我国于2013年发射的“嫦娥三号”着陆器携带“月兔号”月球车实现了在月面的着陆巡视探测。着陆过程中着陆器上降落相机获取的序列图像被用于着陆点位置评估[103]及着陆轨迹的恢复[104],所生成着陆区的高精度地图[105],成为嫦娥三号任务规划的重要基础数据。“月兔号”同样配置了一对用于环境感知的立体导航相机,通过站点间立体图像的匹配实现了月球车在探测站点上的高精度视觉定位(如图 2),修正了GNC系统航迹推算定位结果误差,将定位精度由7%提升至4%[105-106],如图 3。由于深空探测任务寿命有限,探测车几乎不会回到已行驶的路线上,因而难以构成闭环约束修正累计误差,未来随着探测任务要求的不断提高,须融入其他观测信息,提升定位制图处理的稳健性与精度,以满足新一代自动化与智能化探测的需要。

图 2 玉兔号导航相机站间图像匹配 Fig. 2 Matching results in cross-site navcam images of Yutu Rover

图 3 玉兔号月球车视觉定位轨迹 Fig. 3 Traverse of Yutu Rover based on visual localization

3.2 室内定位导航


3.3 大场景下的自主导航


4 结论


