基于深度学习的移动机器人语义SLAM方法研究

王立鹏 张佳鹏 张智 王学武 齐尧

王立鹏, 张佳鹏, 张智, 等. 基于深度学习的移动机器人语义SLAM方法研究 [J]. 哈尔滨工程大学学报, 2024, 45(2): 306-313. doi: 10.11990/jheu.202205031
引用本文: 王立鹏, 张佳鹏, 张智, 等. 基于深度学习的移动机器人语义SLAM方法研究 [J]. 哈尔滨工程大学学报, 2024, 45(2): 306-313. doi: 10.11990/jheu.202205031
WANG Lipeng, ZHANG Jiapeng, ZHANG Zhi, et al. Research on a semantic SLAM method of a mobile robot based on deep learning [J]. Journal of Harbin Engineering University, 2024, 45(2): 306-313. doi: 10.11990/jheu.202205031
Citation: WANG Lipeng, ZHANG Jiapeng, ZHANG Zhi, et al. Research on a semantic SLAM method of a mobile robot based on deep learning [J]. Journal of Harbin Engineering University, 2024, 45(2): 306-313. doi: 10.11990/jheu.202205031

基于深度学习的移动机器人语义SLAM方法研究

doi: 10.11990/jheu.202205031
基金项目: 

国家自然科学基金项目 62173103;

黑龙江省教育科学规划2023年度重点课题 GJB1423059;

中央高校基本科研业务费专项资金项目 3072022JC0402.

详细信息
    作者简介:

    王立鹏, 男, 副教授, 硕士生导师;

    张佳鹏, 男, 硕士研究生.

    通讯作者:

    张佳鹏, E-mail: wlp_heu@163.com.

  • 中图分类号: TP242.6

Research on a semantic SLAM method of a mobile robot based on deep learning

  • 摘要: 为了给移动机器人提供细节丰富的三维语义地图,支撑机器人的精准定位,本文提出一种结合RGB-D信息与深度学习结果的机器人语义同步定位与建图方法。改进了ORB-SLAM2算法的框架,提出一种可以构建稠密点云地图的视觉同步定位与建图系统;将深度学习的目标检测算法YOLO v5与视觉同步定位与建图系统融合,反映射为三维点云语义标签,结合点云分割完成数据关联和物体模型更新,并用八叉树的地图形式存储地图信息;基于移动机器人平台,在实验室环境下开展移动机器人三维语义同步定位与建图实验,实验结果验证了本文语义同步定位与建图算法的语义信息映射、点云分割与语义信息匹配以及三维语义地图构建的有效性。

     

    Abstract: In this study, to provide a detailed three-dimensional (3D) semantic map for mobile robots and support precise positioning, a semantic simultaneous localization and mapping (SLAM) method of a robot is put forward based on RGB-Depth (RGB-D) information and deep learning results. First, the ORB-SLAM2 algorithm framework is improved, and a visual SLAM system is presented to build the dense point cloud map. Afterward, the deep learning target detection algorithm YOLO v5 is merged with a visual SLAM system, which inversely maps 3D point cloud semantic labels. The data association and object model update are completed in combination with point cloud segmentation. The map information is stored in the form of an octree map. A 3D semantic SLAM experiment is conducted based on the mobile robot platform in the lab environment. The experimental results confirm the effectiveness of semantic information mapping, point cloud segmentation with semantic matching, and 3D semantic map construction of the proposed semantic SLAM algorithm.

     

  • 移动机器人已深入到生活的各个场景,同步定位与建图(simultaneous localization and mapping, SLAM)是移动机器人最基本的功能,使其在更多样化的环境中具有高效鲁棒的使用效率。但目前传统的SLAM方法仍然存在一些问题,尤其是机器人不能很好地理解周围环境,始终是难以攻克的难题。因此需要移动机器人完成简单的建图与导航任务,同时可将语义这类容易理解的信息与SLAM相结合,即语义SLAM,为机器人提升环境理解能力和智能化提供可行性方案。语义SLAM可将深度学习与视觉SLAM的优势结合起来,从而使移动机器人更加智能化,完成更加复杂的任务。

    语义SLAM作为移动机器人研究的核心领域之一,许多研究人员都将重点放在了构建语义地图的能力上,同时还能够跟踪地图中的对象[1],例如Dame等[2]在SLAM系统中使用特定对象的知识来获取精确地图。Hoang等[3]提出了将深度学习的实例分割集成到RGB-D SLAM系统中,以ElasticFusion为基础[4],对配准目标函数进行修改,构建室内环境的精确语义地图,而McCormac等[5]在ElasticFusion的基础上添加了卷积神经网络,使得该系统能建立一段时间内视频帧之间的对应关系,将多视点的语义预测融合到地图中。Salas-Moreno等[6]提出了SLAM++,对三维物体进行识别和跟踪,生成一个显式的物体图,将其用于实例级面向对象的3D-SLAM姿态图优化框架。董京明等[7]开发了基于SLAM过程提供的稀疏点云的环境语义表示,以及语义对象检测,分别使用视觉和惯性传感器来获取语义和句法属性。

    对于动态环境中的SLAM问题,许多学者结合语义信息来删除环境中的动态目标,以此提高SLAM在动态环境下的定位精度。例如,YU等[8]提出了DS-SLAM,结合语义分割网络SegNet与运动特征点检测来滤除每一帧中的动态物体。Kaneko[9]提出的Mask-SLAM将视觉SLAM系统与语义分割网络算法结合,通过语义分割的结果识别动态特征点的属性标签,然后直接排除某些区域的特征点,再进行位姿估计。针对如何判断物体是否正在运动问题,Wang等[10]利用语义分割将一些类别区域定义为背景,其他类别区域则为可移动物体,该框架较为新颖。Bescos等[11]提出的DynaSLAM,对RGB-D输入图像的动态点做了细致的处理,可去除动态物体并恢复对动态物体遮挡的背景,后来提出DynaSLAM II[12],提升多对象跟踪能力。Li等[13]提出的DP-SLAM,结合了几何约束和语义分割跟踪贝叶斯概率估计框架中的动态特征点,可恢复动态物体遮挡的背景。

    有些学者致力于研究如何提高语义SLAM实时性,例如KSF-SLAM[14],通过一种关键分割帧的选择策略,提升了SLAM系统的实时性。Hu等[15]提出的DeepLabv3 SLAM,通过改进的DeepLabv3(+)语义分割网络结合上下文信息分割潜在的先验动态对象,减少动态目标的检测时间。Sun等[16]利用超像素改进的SEC方法分割场景中的动态目标,提高了视觉SLAM在动态场景下的稳定性。McCormac等[17]提出了Fusion++,具有任意重构对象的3D图,其中的对象通过深度融合渐进地细化,使用Mask-RCNN[18]进行分割,初始化每个对象的TSDF重建。还有些学者研究提高绝对效率和更大环境的可伸缩性,如Nakajima等[19]通过使用快速和可扩展的对象检测进行语义和几何增量分割,实现了高精度的面向对象的场景实时重建,该算法减少了计算成本和内存占用。Pham等[20]使用高效的超体素聚类与基于结构和物体线索的高阶约束的CRF对三维室内场景进行实时密集重建和语义分割。

    在语义SLAM与深度学习结合方向,Tateno等[21]提出的CNN-SLAM,使用卷积神经网络CNN进行深度预测,解决了单目SLAM在位姿估计和环境重建中缺少绝对尺度的问题。而Clark[22]提出的VINet是利用CNN和RNN构建了一个VIO,即输入图像和IMU信息,直接输出估计的位姿结果。DeTone等[23]提出Deep SLAM,利用CNN端对端的学习位姿然后完成SLAM中特征点的提取与匹配,后来提出Superpoint[24-25],通过直接学习特征点与描述子来实现特征提取与匹配。语义SLAM中闭环检测也是一个较大问题,Song等[26]利用语义信息进行SLAM数据关联与闭环检测的表检索方法。Qian等[27]提出SmSLAM+LCD方法,将高级3D语义信息和低级特征信息结合起来,进行准确的闭环检测和有效的漂移抑制。

    即使视觉SLAM和语义SLAM研究成果较多,但目前仍存在一些问题:首先,视觉SLAM在运行过程中,遇到特征稀缺、图片模糊等外部因素会导致特征点稀少或者无法提取准确的特征点,致使位姿估计误差过大;其次,语义SLAM在引入Mask-RCNN等实例分割算法提取语义信息的过程中往往会牺牲SLAM的实时性,才能够构建出精准的语义地图。为解决以上问题,本文提出一种基于深度学习和稠密点云处理的语义SLAM方法,在ORB-SLAM2算法的基础上利用点云拼接构建稠密点云地图,基于YOLO v5网络获取目标信息,将点云分割结果与语义信息融合,构建三维语义地图。

    本文设计的移动机器人语义SLAM方法基本原理如图 1所示。本文改进ORB-SLAM2算法,添加稠密建图线程并通过点云拼接实现稠密点云地图的构建,利用深度学习YOLO v5目标检测网络实时获取关键帧中物体的类别及其位置,采用点云分割的方法对稠密点云地图进行分割,然后融合语义信息与分割后的点云地图,完成三维语义地图构建,再通过点云到八叉树转换,以八叉树地图形式进行存储地图信息,进一步实现移动机器人的语义SLAM系统构建。由于原始的ORB-SLAM2算法构建的事稀疏地图,无法体现完整真实的物理环境,本文改进ORB-SLAM2算法开展稠密点云地图的构建工作,稠密点云构建流程如图 2所示。

    图  1  本文语义SLAM原理图
    Fig.  1  Principle figure of the proposed sementic SLAM
    下载: 全尺寸图片
    图  2  稠密点云构建方法
    Fig.  2  The flow chart of constructing dense CPs
    下载: 全尺寸图片

    利用Kinect相机采集图像,利用ORB-SLAM2算法提取图像特征点,求解相机位姿,根据当前帧与前一帧可匹配特征点数量,判断当前帧中新增的环境信息是否充足,进而确定当前帧是否实例化为关键帧,根据关键帧中图像的RGB值和深度值信息,将像素点得到的深度信息通过相机成像原理映射到三维空间,设深度为d、像素坐标为(u, v)的点,其在三维空间中的坐标(x, y, z)为:

    $$ \left\{\begin{array}{l} x=\left(u-c_x\right) / f_x \\ y=\left(v-c_y\right) / f_y \\ z=d \end{array}\right. $$ (1)

    式中:fxfycxcy均为相机的内参,可通过相机标定获得,原理此处不做赘述。

    在获得原始点云数据后,对点云数据进行去离群点滤波与体素网格降采样滤波,针对每一个点计算与其他所有临近点的平均距离,平均距离在标准范围之外的点作为离群点加以剔除,在此基础上对以上点云数据创建三维体素栅格,用体素中所有点的重心来近似显示体素中其他点,进一步剔除外点和异常点。

    利用ORB-SLAM2算法计算相机实时位姿估计结果,将点云数据转换到世界坐标系中进行点云拼接与全局地图融合,形成原始稠密点云地图。

    假设第i个和第j个关键帧生成的点云分别为Cloudi和Cloudj,对应的相机位姿分别为TiTj,将2帧关键帧生成的点转换至世界坐标系中:

    $$ \text { Cloud }_i^{\prime}=T_i^{-1} \text { Cloud }_i $$ (2)
    $$ \text { Cloud }_j^{\prime}=T_j^{-1} \text { Cloud}_j $$ (3)

    将变换后的点云拼接得到新点云:

    $$ \text { Cloud }^*=\text { Cloud }_i^{\prime}+\text { Cloud }_j^{\prime} $$ (4)

    将各个关键帧生成的点云数据依次拼接,获得了稠密点云地图。闭环检测后会对相机的位姿估计进行优化,并将稠密点云地图中该位姿所对应的点云根据优化后的位姿进行更新,同时删除优化前的点云数据,以防止点云之间有重合,地图上出现重影,再通过体素滤波降采样,最终得到滤波后的点云,校正更新稠密点云地图。

    对于移动机器人运动过程中的建图,传统人为标注构建地图方式不具备实时性,本文采用视觉SLAM与YOLO v5目标识别算法相结合的方式,开展语义信息实时提取工作。

    视觉传感器获取每一帧的RGB-D图像信息,将该帧图像中物体在图像坐标点添加到构建的地图中。物体在多个图像中会有不同的坐标位置,计算这些坐标点的平均值作为该物体在地图中的位置。并且对所检测到物体的标号和其置信度持续的更新,进一步增加特征匹配的正确率。

    $$ \left(p_x, p_y\right)=\frac{1}{N} \sum\limits_{i=1}^N\left(p_x(i), p_y(i)\right) $$ (5)
    $$ P_{\text {class }}=\max _{i=1}^N\left(P_{\text {class }}(i)\right) $$ (6)

    式中:pxpy为当前识别物体在图像中的位置,px(i)和py(i)为当前识别物体在若干帧中物体在图像中的位置;Pclass为当前识别物体的识别正确率。在匹配查找物体的位置时,如果发现当前帧图像中的物体位置和参考的关键帧中相同位置的物体是同一类别,计算这个地图点的空间位置。在当前帧的图像中出现新物体,将新出现的物体的标号、类别和置信度增加到之前的向量和原有地图中,减少跟踪的误差,提高定位精度。

    利用视觉传感器获取包含RGB信息的图像,通过YOLO v5s网络模型获得被检测物体的边界框在图像中左上和右下2个坐标值,再将该二维像素坐标映射到三维空间坐标的过程中,将边界框内部的像素点颜色信息修改为对应的颜色。将通过本文的SLAM算法获得的稠密点云与通过目标检测获取的物体的坐标信息进行对应,获得目标物体三维点云簇。通过对获得的点云地图中添加颜色信息完成标签的保存工作,上述原理此处不做赘述,将采集到的彩色图像作为输入,输出带有2D边界框和置信度的RGB图像如图 3所示,再通过映射得到对应的3D标签,如图 4所示不同颜色的点云代表不同类别的物体,效果较好。

    图  3  RGB图像目标识别框
    Fig.  3  Target recognition box in RGB image
    下载: 全尺寸图片
    图  4  点云与语义信息的对应图
    Fig.  4  The mapping of points cloud and semantic information
    下载: 全尺寸图片

    本文采用点云分割方式处理稠密点云,开展精准对象分割,利用数据关联技术以融合和更新物体模型,完成实例分割,将语义地图以八叉树地图形式存储以此构建三维语义地图。

    本文采用基于颜色与法线属性的超体素聚类方法,使用邻接图来确定包含在正常计算中点,并且使用Boulch和Marlet相结合的概率正态方法,提升法线的清晰程度,产生较多符合锐边的超体素,使用k-均值聚类的区域增长。种子点的扩展由特征距离决定,特征距离考虑了空间、颜色和法向量的特征空间计算,超体素聚类分割中所用的距离为:

    $$ D=\sqrt{w_c D_c^2+\frac{w_s D_s^2}{3 R_{\text {seed }}^2}+w_n D_n^2} $$ (7)

    式中:Dc代表颜色的差异程度;Dn代表法线方向的差异程度;Ds表示点云在距离上的差异程度;wcwswn分别表示各个变量的权重。本文为了提高效率,只考虑以种子为中心且一定半径以内的点。选择Kinect V2相机作为传感器,设置空间八叉树的分辨率Rv=0.008,种子分辨率Rs=0.5。根据实验环境调整颜色、空间距离和法向量所占权重,获得的超体素聚类分割与邻接图结果如图 5所示。

    图  5  超体素聚类分割结果
    Fig.  5  Hypervoxel clustering segmentation results
    下载: 全尺寸图片

    利用两超体素之间的凹凸性,分割超体素邻接图,考虑到噪声干扰,在图像中引入阈值实现滤波,如小块在有限领域内与周围小块相交,则判定此小块凹凸性与周围相同,利用CC判据判定凹凸性:

    $$ \begin{gathered} \mathrm{CC}_e\left(\boldsymbol{p}_i, \boldsymbol{p}_j\right)=\mathrm{CC}_b\left(\boldsymbol{p}_i, \boldsymbol{p}_j\right) \wedge \mathrm{CC}_b\left(\boldsymbol{p}_i, \boldsymbol{p}_c\right) \wedge \\ \mathrm{CC}_b\left(\boldsymbol{p}_j, \boldsymbol{p}_c\right) \end{gathered} $$ (8)

    为解决CC判据中相邻面出现公共平面而无法获取空间与法线信息问题,进一步利用SC判据加以解决,采用区域生长方式再聚类,生长规则为只允许凸区域进行增长,即可将小区域增长为较大区域。按照以上方法,开展点云分割实验,分割结果如图 6所示,从实验结果可以看出电脑,水杯等物品能够被较好的分割。

    图  6  点云分割结果
    Fig.  6  Points cloud segmentation result
    下载: 全尺寸图片

    在目标检测和点云地图分割后,计算每个点云簇质心的欧氏距离,以此为依据选择一组候选对象的边界标志,对当前地图中已经存在的边界标志以及待检测目标对象的三维点通过最近点搜索,同时对相匹配的点对的欧氏距离进行计算,计算2个点的2-范数。

    当待检测对象的所有三维点中有超过半数的点都和已存在地图中的对象的欧氏距离小于所设定值的时候,即可判定待检测的对象与地图中已存在的对象是同一物体模型。将最新获取的对象信息和已存于地图中的对象进行关联,从而达到维护目标模型的目的。经过上述的过程,当前地图中的每一个目标模型都会有3种信息:

    1) 利用数据关联的方式获得的物体模型;

    2) 检测到的目标在关键帧中位置和姿态;

    3) 目标对象经过目标检测后的类别概率。

    对于经过目标检测后得到的概率值,可以通过已有地图中对应的物体模型概率进行更新,设现在已经检测出的物体类别数量为C,某个对象的每个类别的概率所组成的向量用SC表示,定义检测过程中捕捉到该对象的关键帧的数量为n,由此可以完成对物体模型检测概率更新,物体的置信度ρ表示为:

    $$ \rho=\max \left\{\sum\limits_{i=1}^n S_i\right\} / n $$ (9)

    以此为所构建的语义地图中对象的类别和概率的标注提供信息。

    采用八叉树地图形式存储语义地图信息,为后续地图使用提供语义地图信息。

    为验证本文算法对语义SLAM地图构建任务的性能,本节将分类开展对比仿真试验和实际场景机器人试验。

    为了验证本文算法的有效性,本文选择基于随机决策森林的语义地图构建算法作为对比方法[28]图 7为TUM数据集的实验场景,本节将采用本文方法和对比方法构建该场景的语义地图。

    图  7  对比实验场景
    Fig.  7  Compared experimental scene
    下载: 全尺寸图片

    2种方法语义提取时间、构建3D语义地图的时间如表 1所示。

    表  1  对比方法实验数据
    Table  1  Experimental data of the compared methods
    方法 语义提取时间/ms 构建地图总时间/s
    RDF+SLAM 231 369.4
    本文算法 25 168.6

    结合关键帧的检测结果与稠密点云地图的分割结果构建的语义地图如图 89所示。

    图  8  本文语义地图
    Fig.  8  The semantic map in this paper
    下载: 全尺寸图片
    图  9  基于RDF的语义地图
    Fig.  9  Semantic map based on RDF
    下载: 全尺寸图片

    2种方法均能完整的为显示器、鼠标、键盘等物体点云添加正确的语义信息,不过采用RDF提取语义信息的过程中,部分关键帧中物体仅出现了一小部分未能完成语义分割,导致桌面、杯子等物体的点云未能完整的分割出来。综合来看,本文构建的语义地图语义分割的效果更好、耗时更短。

    本节采用阿克曼转向模型四轮移动机器人作为实验平台,其上安装采集RGB-D信息的视觉传感器Kinect V2深度相机,利用安装在高度的监控相机记录实验空间数据,如图 10所示。

    图  10  移动机器人及kinect相机
    Fig.  10  Mobile robots and kinect camera
    下载: 全尺寸图片

    将本文语义SLAM系统部署在移动机器人上,实现基于移动机器人的室内场景下的语义地图构建。用键盘控制移动机器人的运动,移动机器人运动过程及对桌面上特征点提取过程如图 11所示。

    图  11  移动机器人运动场景
    Fig.  11  Mobile robot movement scene
    下载: 全尺寸图片

    实验过程中选择关键帧开展特征提取,典型关键帧特征如图 12所示。通过点云拼接构建出实验室的稠密点云地图,如图 13所示。

    图  12  关键帧特征信息提取
    Fig.  12  Feature extraction for key frame
    下载: 全尺寸图片
    图  13  稠密点云地图
    Fig.  13  Dense points cloud map
    下载: 全尺寸图片

    对比图 13(稠密点云)和图 11(彩色图像),稠密点云地图存在一些噪声点,较小物体边缘发生撕裂概率稍大,这是由于彩色图像分辨率(960×540)与深度图像分辨率(512×424)在物理上不对齐所致,使用彩色-深度映射方法只是为某些彩色图像像素估计了深度值,并不是真实测量到的数据。因此,稠密点云地图可以有效地还原场景状况与物体边界,并且经过滤波后,重投影过程导致的无效点云明显减小,场景及物体表面特征仍然可以分辨,局部纹理保留较好。

    实验过程共生成92个关键帧,耗时8.690 29 ms,可见本文算法速度很快,可实现实时建图与语义映射。将映射到三维空间中的3D语义标签和经过分割后的稠密点云地图进行融合,从而生成带有语义信息的稠密点云地图,即语义地图,全局效果及局部效果如图 1415所示。

    图  14  实验室的三维语义地图
    Fig.  14  3D semantic map of the lab
    下载: 全尺寸图片
    图  15  三维语义地图局部可视化
    Fig.  15  Local visual 3D semantic map
    下载: 全尺寸图片

    实验室环境较复杂,为了便于观察修改了部分语义信息对应的颜色。图 14中包含语义关系,其物体与颜色对应关系如右下角图例所示,其中,显示器为墨绿色,键盘为淡紫色,鼠标为深紫色,茶杯为绿色,瓶子为浅粉色。考虑到后续移动机器人可能会执行路径规划和导航等任务,也为了移动机器人的嵌入式系统存储和读取地图方便,将上述三维语义地图转换为八叉树地图,如图 16所示。

    图  16  实验场景八叉树地图
    Fig.  16  Octree map of the lab scene
    下载: 全尺寸图片

    由于移动机器人在运动过程中,深度相机的有效距离较短,在1.2~3.5 m内深度测量值较为准确,导致大场景下点云拼接的部分墙面不在同一平面,因此语义地图会出现部分杂乱的小色块,但总体上验证了本文设计的语义SLAM系统的有效性和准确性。

    1) 设计了改进型ORB-SLAM2算法,实现稠密地图构建,与原始算法相比能够提供细节更为丰富的点云数据。

    2) 利用YOLO v5获取本课题中语义信息,并生成点云标签,再通过点云分割的方式将物体从三维空间中加以分割,并通过数据关联将获取的信息进行融合和更新,获得三维语义地图。

    3) 在移动机器人平台验证了移动机器人在对自身位置和姿态估计的同时,对周围环境进行语义感知,构建出可读且准确的三维语义地图,验证了本文提出的语义SLAM系统的有效性。

    本文提出的语义SLAM算法未考虑动态障碍物对相机位姿估计及语义地图精度的影响,为此本文后续将专门研究动态障碍物的去除方法,以提高语义SLAM算法的鲁棒性与准确度。

  • 图  1   本文语义SLAM原理图

    Fig.  1   Principle figure of the proposed sementic SLAM

    下载: 全尺寸图片

    图  2   稠密点云构建方法

    Fig.  2   The flow chart of constructing dense CPs

    下载: 全尺寸图片

    图  3   RGB图像目标识别框

    Fig.  3   Target recognition box in RGB image

    下载: 全尺寸图片

    图  4   点云与语义信息的对应图

    Fig.  4   The mapping of points cloud and semantic information

    下载: 全尺寸图片

    图  5   超体素聚类分割结果

    Fig.  5   Hypervoxel clustering segmentation results

    下载: 全尺寸图片

    图  6   点云分割结果

    Fig.  6   Points cloud segmentation result

    下载: 全尺寸图片

    图  7   对比实验场景

    Fig.  7   Compared experimental scene

    下载: 全尺寸图片

    图  8   本文语义地图

    Fig.  8   The semantic map in this paper

    下载: 全尺寸图片

    图  9   基于RDF的语义地图

    Fig.  9   Semantic map based on RDF

    下载: 全尺寸图片

    图  10   移动机器人及kinect相机

    Fig.  10   Mobile robots and kinect camera

    下载: 全尺寸图片

    图  11   移动机器人运动场景

    Fig.  11   Mobile robot movement scene

    下载: 全尺寸图片

    图  12   关键帧特征信息提取

    Fig.  12   Feature extraction for key frame

    下载: 全尺寸图片

    图  13   稠密点云地图

    Fig.  13   Dense points cloud map

    下载: 全尺寸图片

    图  14   实验室的三维语义地图

    Fig.  14   3D semantic map of the lab

    下载: 全尺寸图片

    图  15   三维语义地图局部可视化

    Fig.  15   Local visual 3D semantic map

    下载: 全尺寸图片

    图  16   实验场景八叉树地图

    Fig.  16   Octree map of the lab scene

    下载: 全尺寸图片

    表  1   对比方法实验数据

    Table  1   Experimental data of the compared methods

    方法 语义提取时间/ms 构建地图总时间/s
    RDF+SLAM 231 369.4
    本文算法 25 168.6
  • [1] SVNDERHAUF N, PHAM T T, LATIF Y, et al. Meaningful maps with object-oriented semantic mapping[C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Piscataway, NJ: IEEE, 2017: 5079-5085.
    [2] DAME A, PRISACARIU V A, REN C Y, et al. Dense reconstruction using 3D object shape priors[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 1288-1295.
    [3] HOANG D C, STOYANOV T, LILIENTHAL A J. High-quality instance-aware semantic 3D map using RGB-D camera[EB/OL]. 2019: arXiv: 1903.10782. https://arxiv.org/abs/1903.10782.pdf.
    [4] WHELAN T, SALAS-MORENO R F, GLOCKER B, et al. ElasticFusion: real-time dense SLAM and light source estimation[J]. The international journal of robotics research, 2016, 35(14): 1697-1716. doi: 10.1177/0278364916669237
    [5] MCCORMAC J, HANDA A, DAVISON A, et al. SemanticFusion: dense 3D semantic mapping with convolutional neural networks[C]//2017 IEEE International Conference on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2017: 4628-4635.
    [6] SALAS-MORENO R F, NEWCOMBE R A, STRASDAT H, et al. SLAM: simultaneous localisation and mapping at the level of objects[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2013: 1352-1359.
    [7] DONG Jingming, FEI Xiaohan, SOATTO S. Visual-inertial-semantic scene representation for 3D object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 3567-3577.
    [8] YU Chao, LIU Zuxin, LIU Xinjun, et al. DS-SLAM: a semantic visual SLAM towards dynamic environments[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Piscataway, NJ: IEEE, 2019: 1168-1174.
    [9] KANEKO M, IWAMI K, OGAWA T, et al. Mask-SLAM: robust feature-based monocular SLAM by masking using semantic segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, NJ: IEEE, 2018: 371-3718.
    [10] WANG Kai, LIN Yimin, WANG Luowei, et al. A unified framework for mutual improvement of SLAM and semantic segmentation[C]//2019 International Conference on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2019: 5224-5230.
    [11] BESCOS B, FÁCIL J M, CIVERA J, et al. DynaSLAM: tracking, mapping, and inpainting in dynamic scenes[J]. IEEE robotics and automation letters, 2018, 3(4): 4076-4083. doi: 10.1109/LRA.2018.2860039
    [12] BESCOS B, CAMPOS C, TARDÓS J D, et al. DynaSLAM Ⅱ: tightly-coupled multi-object tracking and SLAM[J]. IEEE robotics and automation letters, 2021, 6(3): 5191-5198. doi: 10.1109/LRA.2021.3068640
    [13] LI Ao, WANG Jikai, XU Meng, et al. DP-SLAM: a visual SLAM with moving probability towards dynamic environments[J]. Information sciences, 2021, 556: 128-142. doi: 10.1016/j.ins.2020.12.019
    [14] ZHAO Yao, XIONG Zhi, ZHOU Shuailin, et al. KSF-SLAM: a key segmentation frame based semantic SLAM in dynamic environments[J]. Journal of intelligent & robotic systems, 2022, 105(1): 3.
    [15] HU Zhangfang, ZHAO Jiang, LUO Yuan, et al. Semantic SLAM based on improved DeepLabv3+ in dynamic scenarios[J]. IEEE access, 2022, 10: 21160-21168. doi: 10.1109/ACCESS.2022.3154086
    [16] SUN Ting, SUN Yuxiang, LIU Ming, et al. Movable-object-aware visual SLAM via weakly supervised semantic segmentation[J]. arXiv: 1906.03629, 2019.
    [17] MCCORMAC J, CLARK R, BLOESCH M, et al. Fusion: volumetric object-level SLAM[C]//2018 International Conference on 3D Vision (3DV). Piscataway, NJ: IEEE, 2018: 32-41.
    [18] HE Kaiming, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[EB/OL]. 2017: arXiv: 1703.06870. https://arxiv.org/abs/1703.06870.pdf.
    [19] NAKAJIMA Y, SAITO H. Efficient object-oriented semantic mapping with object detector[J]. IEEE access, 2018, 7: 3206-3213.
    [20] PHAM Q H, HUA B S, NGUYEN T, et al. Real-time progressive 3D semantic segmentation for indoor scenes[C]//2019 IEEE Winter Conference on Applications of Computer Vision (WACV). Piscataway, NJ: IEEE, 2019: 1089-1098.
    [21] TATENO K, TOMBARI F, LAINA I, et al. CNN-SLAM: real-time dense monocular SLAM with learned depth prediction[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2017: 6565-6574.
    [22] CLARK R, WANG Sen, WEN Hongkai, et al. VINet: visual-inertial odometry as a sequence-to-sequence learning problem[J]. Proceedings of the AAAI conference on artificial intelligence, 2017, 31(1): 3395-4001.
    [23] DETONE D, MALISIEWICZ T, RABINOVICH A. Toward geometric deep SLAM[EB/OL]. 2017: arXiv: 1707.07410. https://arxiv.org/abs/1707.07410.pdf.
    [24] DETONE D, MALISIEWICZ T, RABINOVICH A. Deep image homography estimation[EB/OL]. 2016: arXiv: 1606.03798. https://arxiv.org/abs/1606.03798.pdf.
    [25] DETONE D, MALISIEWICZ T, RABINOVICH A. SuperPoint: self-supervised interest point detection and description[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, NJ: IEEE, 2018: 337-33712.
    [26] SONG Chengqun, ZENG Bo, SU Tong, et al. Data association and loop closure in semantic dynamic SLAM using the table retrieval method[J]. Applied intelligence, 2022, 52(10): 11472-11488. doi: 10.1007/s10489-021-03091-x
    [27] QIAN Zhentian, FU Jie, XIAO Jing. Towards accurate loop closure detection in semantic SLAM with 3D semantic covisibility graphs[J]. IEEE robotics and automation letters, 2022, 7(2): 2455-2462. doi: 10.1109/LRA.2022.3145066
    [28] HERMANS A, FLOROS G, LEIBE B. Dense 3D semantic mapping of indoor scenes from RGB-D images[C]//2014 IEEE International Conference on Robotics and Automation (ICRA). Piscataway, NJ: IEEE, 2014: 2631-2638.
WeChat 点击查看大图
图(16)  /  表(1)
出版历程
  • 收稿日期:  2022-05-10
  • 网络出版日期:  2023-10-09

目录

    /

    返回文章
    返回