深海工作站高度融合大型载人与智能无人装备技术,是未来深海进入、深海探测、深海开发不可或缺的重要装备,其作业模式的典型特征是通过水下布放、回收和操控各类作业潜器实现探测作业。采取合理的导引定位方法,获取深海工作站与作业潜器的相对位置和姿态是实现自主对接回收的关键,尤其是在对接近场,如何克服复杂而时变的声光环境干扰,快速、准确和稳定地获取动态/静态目标的位姿是实现安全、可靠对接的基本前提。
由于水质浊度、光照变化和特征稀疏性,在水下环境导引定位中具有较高的挑战性。Yang等[1]利用一组水下相机和光源构成UUV终端对接导引系统,提出基于图像检测对接中心位置的控制方法并完成了水池对接试验。Yahya等[2]提出一种利用单运动相机获取颜色信息来跟踪光源的方法,实现了实时视觉图像处理、目标检测和识别,但是随着相机抵近目标速度增加,识别成功率降低。Jiang等[3]引入了一个深度学习模型来优化检测性能,使用深度学习网络对空气中的标记图像进行预训练,使用水下标记图像进行微调,采用特定的图像分析方法来识别标记。Trslic等[4]采用1个摄像头和1组安装在框架上的4个灯标组成,根据4个光信标中心之间的已知距离和已知相机参数,计算ROV和对接坞站之间的变换矩阵,提供六自由度位置信息。Wang等[5]采用2个摄像头安装在AUVs首部,4个绿色LED灯固定在对接站,根据2个相机中的图像数量在单目和双目定位方法之间切换。Su等[6]设计了一种安装了6盏灯的对接装置,基于ePnP方法根据每帧中6个光源的像素位置计算ROV和对接装置之间的相对位置和位姿信息,但是ROV无法在近距离捕捉到所有6盏灯,导致近距离无法定位。Liu等[7]提出一种T2FGAN网络,利用T2FGAN的学习模型,根据不同的水质、光照、姿态和标记配置(WIPCs)生成人工标记图像,以提高检测精度,但在水中作用距离比光源短。He等[8]提出了一种利用单目相机的定位系统,以获得水下轨迹跟踪所需的QUUV(Quadrotor-like Underwater Vehicle)的运动变量。Myint等[9 − 10]利用遗传算法通过3D标记实时识别ROV和已知大小、形状、颜色目标物之间的相对位置和姿态,在视觉伺服精度上达到了毫米级。Yan等[11]提出了4个水下灯组成的L型光阵的四自由度定位算法和目标光源识别算法,解决了部分目标光源丢失情况下的定位问题。Jung等[12]提出一种利用前视和俯视相机对人工水下标记进行同步定位和映射SLAM方法。Zhang等[13]设计了1台CCD相机和1盏LED灯的视觉导引系统,给出了一种无需距离信息就能控制欠驱动AUV跟踪对接装置的控制算法。Joshi等[14]使用改进YOLOv3 方法来检测对象边界框,基于RANSAC的PnP获取相机坐标系中的6D姿态。
针对水下对接近场导引定位的检测精度、实时性和稳定性等方面性能要求,本文提出了一种级联式视觉位姿检测方法,介绍了对接系统与级联式导引定位方法和多目标视觉识别定位方法,并对所提出的方法进行了水池试验验证。
1 级联式导引定位策略深海工作站在坐底或水下悬停状态下,通过坞站(Docking Station)进行缆控型潜器(ROV)布放、对接回收。综合考虑潜器搭载对接模式和定位传感器等因素,合理制定出水下导引定位策略,获取ROV相对于坞站的四自由度位姿信息
如图1所示,按照ROV距离坞站距离
1)归航阶段
2)对接准备阶段
3)对接入坞阶段
本文提出采用主/被动2种视觉标志的级联融合视觉定位方法。第I级以导引光源作为视觉标志,可视距离远;但是由于光散射作用,在距离较近时对导引光源的光心估计存在一定误差,适合于对接准备阶段的位姿粗调。在对接末程,由于难以保证所有的导引光源都在相机的视角范围,所以往往失效。第II级以特定图形作为识别标志,通过识别特征点进行位姿估计,优点是定位精度高;但是水下作用距离受到水质、浊度和光照度等影响,一般可视距离较近,适合对接入坞阶段的精调。
本文将主被动标记的优势结合起来,提出了级联式导引定位算法流程,如图2所示。当水质较为理想情况,可能存在视觉定位重叠区间,可同时进行主动、被动标志物的定位,采用扩展卡尔曼滤波器等方法进行信息融合,增强算法稳定性和定位精度。无论是第I级还是第II级,在测量中都可能由于各种干扰出现野值,因而必须对检测结果进行滤波处理。随着距离的变化,两级视觉定位的可信度和精度随之改变,因而二者在输出结果中的权重系数需要灵活调整,从而实现定位信息的融合。当水质较差情况,可能存在视觉定位盲区或遮挡干扰物,无法同时对主动、被动标志物进行检测,此时只要其中任一级有效就可以实现定位。
图2中存在无法检测到任何有效标记情况,此时无法进行下一步视觉定位,可采用上一步已知位姿用于对接控制,以期通过增加ROV与坞站的接近程度,将ROV引导至坞站的入口附近,在下一次迭代中增加获取有效标记图像的概率。如果迭代次数超过安全阈值后无法估计姿态,将中止ROV对接控制。
2 多目标视觉识别定位 2.1 成像模型相机的成像模型包含4个坐标系变换,如图3所示,包括世界坐标系
世界坐标系中的点
$ z_c\left[ \begin{array}{*{20}{c}}u \\ v \\ 1\end{array} \right] = \left[ \begin{array}{*{20}{c}}f_x & 0 & c_x & 0 \\ 0 & f_y & c_y & 0 \\ 0 & 0 & 1 & 0\end{array} \right]\left[ \begin{array}{*{20}{c}}{\boldsymbol R} & t \\ \mathbf{0}^{\text{T}} & 1\end{array} \right] \left[ \begin{array}{*{20}{c}}x_w \\ y_w \\ z_w \\ 1\end{array} \right] = {\boldsymbol M}_1{\boldsymbol M}_2x_w = {\boldsymbol M}x_w。$ | (1) |
式中:R为3×3的旋转矩阵;t为3×1的平移矩阵;M1为相机内参数矩阵;M2为外部参数矩阵;
为了提高相机的检测精度,一般需要考虑非线性特性,即相机畸变模型:
$\left\{ \begin{array}{l} {{D_u} = {{\bar u}_d}\left( {{k_1}r_d^2 + {k_2}r_d^4 + {k_3}r_d^6} \right) + 2{p_1}{{\bar u}_d}{{\bar v}_d} + {p_2}\left( {r_d^2 + 2\bar u_d^2} \right)},\\ {{D_v} = {{\bar v}_d}\left( {{k_1}r_d^2 + {k_2}r_d^4 + {k_3}r_d^6} \right) + {p_1}\left( {r_d^2 + 2\bar v_d^2} \right) + 2{p_2}{{\bar u}_d}{{\bar v}_d}} 。\end{array} \right.$ | (2) |
式中:
针对水下成像的前向散射、后向散射以及大团悬浮物质等不同类型噪声叠加的问题,需采取一定图像降噪方法有效地降低叠加噪声的同时保持图像的清晰度。根据水下图像噪声的成因和特点,分别采用高斯滤波器中值滤波器进行滤波,计算式为:
$ {W_{ij}} = \frac{{\exp \left( { -\displaystyle \frac{{{{\left| {{x_j} - {x_i}} \right|}^2}}}{{{\sigma ^2}}}} \right)}}{{{K_i}}}。$ | (3) |
利用传统Otsu法进行水下图像分割时,受到水下光照不均匀、光散射效应以及帐幔效应等因素影响,对目标对象所在区域的图像分割效果往往不够理想。
由于图像中目标较多,本文采用改进的k-means聚类算法进行图像分割,提取图像中目标对象区域。k-means聚类算法是最小化类内方差和的无监督学习算法,该方法简单、有效、可解释。但是传统的k-means均值算法对初始中心和噪声敏感[15]。为了降低k-means算法对初始中心的敏感性,采用等距离策略对直方图的累积和进行分段来初始化中心[16 − 17]。
假设
步骤1 选择聚类数k,计算初始质心
首先计算图4(a)的直方图
$ v_j^0 = \frac{1}{{\left| {{C_j}} \right|}}\sum\limits_{x \in {C_j}} x 。$ | (4) |
步骤2 计算每个点到每个中心的欧式距离,将每个点
$ {\xi _{ij}} = {\left\| {{x_j} - {v_i}} \right\|^2} 。$ | (5) |
令
$ J(\mu ,v) = \sum\limits_{i = 1}^n {\sum\limits_{j = 1}^k {{\mu _{ij}}} } {\left\| {{x_i} - {v_j}} \right\|^2}。$ | (6) |
式中:
步骤3 分配所有像素并重新计算质心。
步骤4 重复上述步骤2和步骤3,直到质心不再移动为止。
将图4(a)分割成3类,传统k-means法图像分割结果如图4(c)所示,按照本文方法的分割结果如图4(d)所示。通过比较分析表明,所提出的改进k-means算法具有良好的检测效果和抗干扰性。
2.3 目标标志特征识别水下图像不仅含有噪声,还可能含有气泡和反射物质,将对导引光源和AprilTags目标识别造成干扰。尽管图像预处理消除了绝大多数噪声,但气泡、生物和设备等反射物质形成的假光源仍然存在。采用Blob分析方法来分别提取目标物的形态特征,选取面积、圆度、紧度、凸度、孔数等特征,分别生成相应目标区域的筛选约束,通过筛选获取两类目标物所在的图像区域ROI。
Wang等[18]对比分析了Sobel、Prewitt、Roberts等一阶导数边缘检测算法,以及Canny、Laplacian等二阶导数边缘检测算法。亚像素边缘检测算法Canny检测精度高、抗干扰性强,故本文采用该算法进行目标物的轮廓提取。
对于规则圆形的导引光源标记,目标图像轮廓是不规则的椭圆形,可采用椭圆拟合导引光源的轮廓,计算出椭圆轮廓的中心坐标,作为导引光源的像素坐标值。导引光源和AprilTags的特征识别如图5所示。对于AprilTags的标记,其目标图像轮廓是不规则的四边形,分别采用4段直线拟合轮廓边框,通过计算4条直线的两两交点获取AprilTags的4个角点的像素坐标。
从世界坐标系下的n个三维点以及这n个点在图像坐标系下二维投影,计算相机的位置R和姿态t,需要求解PnP(The perspective n-point problem)问题[19]。Lepetit等[20]引入了4个虚拟控制点来表征三维参考点,提出一种非迭代计算方法ePnP,计算效率更高,但是对于
考虑到标记点的数量、计算准确度和复杂度等,采用RPnP算法估计ROV和坞站之间的姿态。将世界坐标系中投影最长的一条边
$ \left\{ \begin{gathered} {f_1}(x) = {a_1}{x^4} + {b_1}{x^3} + {c_1}{x^2} + {d_1}x + {e_1} = 0 ,\\ {f_2}(x) = {a_2}{x^4} + {b_2}{x^3} + {c_2}{x^2} + {d_2}x + {e_2} = 0 ,\\ \vdots \qquad \qquad \qquad\\ {f_{n - 2}}(x) = {a_{n - 2}}{x^4} + {b_{n - 2}}{x^3} + {c_{n - 2}}{x^2} + {d_{n - 2}}x + {e_{n - 2}} = 0。\\ \end{gathered} \right. $ | (7) |
根据最小二乘残差求解方程组的局部最小值,定义损失函数为:
$ F = \sum\limits_{i = 1}^{n - 2} {f_i^2} (x) 。$ | (8) |
F的极小值可以通过求导的根来确定:
$ F' = \sum\limits_{i = 1}^{n - 2} {{f_i}} (x){f_i}^\prime (x) = 0。$ | (9) |
式中,
当旋转轴确定时,只需用式(10)求解剩余的旋转角和平移矢量:
$ \left[ {\begin{array}{*{20}{l}} {{A_{2n \times 1}}}&{{B_{2n \times 1}}}&{{C_{2n \times 4}}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} c \\ s \\ {{t_x}} \\ {{t_y}} \\ {{t_z}} \\ 1 \end{array}} \right] = 0 。$ | (10) |
其中
$ \begin{aligned} & {A_{2n \times 1}} = \left[ {\begin{array}{*{20}{c}} {{u_1}{X_1}{r_3} - {Y_1}{r_4} - {X_1}{r_1} + {u_1}{Y_1}{r_6}} \\ {{v_1}{X_1}{r_3} - {Y_1}{r_5} - {X_1}{r_2} + {v_1}{Y_1}{r_6}} \\ \cdots \\ \cdots \\ {{u_n}{X_n}{r_3} - {Y_n}{r_4} - {X_n}{r_1} + {u_n}{Y_n}{r_6}} \\ {{v_n}{X_n}{r_3} - {Y_n}{r_5} - {X_n}{r_2} + {v_n}{Y_n}{r_6}} \end{array}} \right]\text{,}\\ & {B_{2n \times 1}} = \left[ {\begin{array}{*{20}{c}} {{Y_1}{r_1} + {u_1}{X_1}{r_6} - {u_1}{Y_1}{r_3} - {X_1}{r_4}} \\ {{Y_1}{r_2} + {v_1}{X_1}{r_6} - {v_1}{Y_1}{r_3} - {X_1}{r_5}} \\ \cdots \\ \cdots \\ {{Y_n}{r_1} + {u_n}{X_n}{r_6} - {u_n}{Y_n}{r_3} - {X_n}{r_4}} \\ {{Y_n}{r_2} + {v_n}{X_n}{r_6} - {v_n}{Y_n}{r_3} - {X_n}{r_5}} \end{array}} \right]\text{,}\\ & {C_{2n \times 4}} = \left[ {\begin{array}{*{20}{c}} { - 1}&0&{{u_1}}&{{u_1}{r_9}{Z_1} - {r_7}{Z_1}} \\ 0&{ - 1}&{{v_1}}&{{v_1}{r_9}{Z_1} - {r_8}{Z_1}} \\ \cdots & \cdots & \cdots & \cdots \\ \cdots & \cdots & \cdots & \cdots \\ { - 1}&0&{{u_n}}&{{u_n}{r_9}{Z_n} - {r_7}{Z_n}} \\ 0&{ - 1}&{{v_n}}&{{v_n}{r_9}{Z_n} - {r_8}{Z_n}} \end{array}} \right]。\end{aligned}$ |
式中,未知变量c、s、tx、ty、tz 可以通过使用奇异值分解(SVD)求解该线性方程组来求解。
3 水池试验 3.1 试验ROV系统对接试验ROV最大工作深度100 m,矢量布置了6台推力器,抗流能力纵向3 kn、横向1 kn和垂向1 kn,空气中重量30 kg、水中零浮力。图像处理运行硬件为PC,Intel Core i7-13700H处理器和32 GB内存、64位操作系统。
水下相机采用大恒图像的MER2-302-37GM相机进行自行水密和耐压封装,分辨率2048×1536,像素尺寸3.45 μm×3.45 μm,最大帧率 37.4 fps,数据接口采用千兆以太网(1000 Mbit/s)。通过水下标定试验,测取相机的焦距为10.997 mm,中心像素坐标为
对接试验所用ROV对接坞站的主尺度为1040 mm×720 mm×1125 mm。对接坞站的对接入口设计成“漏斗”形状以实现机械导向,漏斗口的锥角为45°,最大尺寸为1040 mm×920 mm。ROV对接回收后单边间隙约40 mm。
对接坞站的入口设置了5组导引光源,导引光源的中心世界坐标详见表1。
对接坞站中设置了AprilTags标志,AprilTags的4个角点的世界坐标详见表2。
为了测试本文方法的稳定性,在无自然光照的水池环境中,水中存在大量悬浮颗粒物和光照不均匀等干扰条件下,在对接过程中采用本文方法的图像处理程序对于坞站的导引光源、AprilTags两类标志物的水下识别与定位结果,如图6所示,可在不同的距离,分别实现可靠识别定位。
在有自然光照的水池试验中,基于光视觉导引定位ROV自主对接的试验过程,如图7所示,ROV自主地逐渐运动进入对接装置。通过对试验结果进行分析,连续进行了10次对接试验,成功率达到90%,试验结果达到比较理想的效果。
图8、图9分别为通过视觉定位测量得到的ROV相对于坞站的纵向、横向、垂向和首向角度等物理量变化曲线。
水池对接试验过程如下:
本文设计了基于单目视觉的水下自主对接导引定位系统,提出一种基于多类型标志物的级联式导引定位策略,以提高稳定性和定位精度。采用改进k-means聚类算法进行多阈值自适应图像分割,实现了对坞站的一组导引光源和一组AprilTags的综合识别定位。分别在有、无自然光照条件下,开展了水下导引定位与对接的水池试验,在水下存在大量悬浮颗粒和光照不均匀等条件下仍然取得较好的导引定位效果,验证了本文所提出方法的可行性和稳定性。在未来工作中,期望基于深度学习方法进一步提高目标分类识别的准确性和稳定性。
[1] |
YANG Canjun. Terminal underwater docking of an autonomous underwater vehicle using one camera and one light[J]. Marine Technology Society Journal, 2016(6): 58-68. |
[2] |
YAHYA M F, ARSHAD M R. Tracking of multiple light sources using computer vision for underwater docking[J]. Procedia Computer Science, 2015, 76: 192−197.
|
[3] |
JIANG N, WANG J, KONG L, et al. Optimization of underwater marker detection based on yolov3−sciencedirect[J]. Procedia Computer Science, 2021,187: 52−59.
|
[4] |
TRSLIC P, ROSSI M, ROBINSON L, et al. Vision based autonomous docking for work class ROVs[J]. Ocean Engineering, 2020, 196, 106840.
|
[5] |
LI Y, JIANG Y, CAO J, et al. AUV docking experiments based on vision positioning using two cameras[J]. Ocean Engineering, 2015, 110: 163−173.
|
[6] |
SU X, XIANG X, DONG D, et al. Visual LOS Guided Docking of Over−actuated Underwater Vehicle[C]//Global Oceans 2020: Singapore−U. s. Gulf Coast, 2020.
|
[7] |
LIU S, OZAY M, XU H, et al. A generative model of underwater images for active landmark detection and docking[C]//2019 IEEE/rsj International Conference on Intelligent Robots and Systems (IROS), 2019.
|
[8] |
HE S, LIU Y, XIANG J. A low cost visual positioning system for small scale tracking experiments on underwater vehicles[C]//2020 IEEE 29th International Symposium on Industrial Electronics (ISIE), 2020.
|
[9] |
MYINT M, YONEMORI K, YANOU A, et al. Visual-servo-based autonomous docking system for underwater vehicle using dual-eyes camera 3D−pose tracking[C]//2015 IEEE/sice International Symposium on System Integration, 2015.
|
[10] |
LWIN K N, YONEMORI K, MYINT M, et al. Autonomous docking experiment in the sea for visual-servo type undewater vehicle using three-dimensional marker and dual-eyes cameras[C]//2016 55th Annual Conference of the Society of Instrument and Control Engineers of Japan (SICE), 2016.
|
[11] |
YAN Zheping, GONG Peng, ZHANG Wei, et al. Autonomous underwater vehicle vision guided docking experiments based on l-shaped light array[J]. IEEE Access, 2019, 7: 72567-72576. DOI:10.1109/ACCESS.2019.2917791 |
[12] |
JUNG J, LEE Y, KIM D, et al. AUV SLAM using forward/downward looking cameras and artificial landmarks[C]//Underwater Technology, 2017.
|
[13] |
ZHANG Tao, LI Dejun, LIN Mingwei, et al. AUV terminal docking experiments based on vision guidance[C]//Oceans 2016 Mts/ieee Monterey, 2016: 1−5.
|
[14] |
JOSHI B, MODASSHIR M, MANDERSON T, et al. DeepURL: deep pose estimation framework for underwater relative localization[C]// IEEE/RSJ International Conference on Intelligent Robots and Systems, 2020.
|
[15] |
ARVIND K, SARTAJ S S. Comparative analysis of fuzzy c− means and k-means clustering in the case of image segmentation[C]//International Conference on Computing for Sustainable Global Development, 2021.
|
[16] |
HU Meng, ERIC C C T, GUO Yanting, et al. An improved k-Means algorithm with spatial constraints for image segmentation[C]//2021 International Conference on Machine Learning and Cybernetics (ICMLC), 2021: 1−7.
|
[17] |
THAQIFAH A A, AIMI SALIHAH A N, ZEEHAIDA M. A robust segmentation of malaria parasites detection using fast k-means and enhanced k-means clustering algorithms[C]//2021 IEEE International Conference on Signal and Image Processing Applications (ICSIPA), 2021: 128−133.
|
[18] |
WANG Guanyu, HAN Jun, WANG Xiaoding, et al. Improvement on vision guidance in AUV docking[C]//Oceans, 2016.
|
[19] |
A simple, robust and fast method for the perspective-n-point Problem[Z]. 2018: 31−37.
|
[20] |
VINCENT L, FRANCESC M-N, PASCAL F. EPnP: an accurate O(n) solution to the PnP problem[J]. International Journal of Computer Vision, 2009, 81(2): 155-166. DOI:10.1007/s11263-008-0152-6 |
[21] |
LI Shiqi, XU Chi, XIE Ming. A Robust O(n) solution to the perspective-n-point problem[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1444-1450. DOI:10.1109/TPAMI.2012.41 |