基于单目视觉的无人艇海面目标实时测距方法

引用本文

张发枝, 何佳洲, 胡剑秋, 李二磊, 王景石. 基于单目视觉的无人艇海面目标实时测距方法. 舰船科学技术, 2024, 46(13): 126-131 复制到剪切板

ZHANG Fazhi, HE Jiazhou, HU Jianqiu, LI Erlei, WANG Jingshi. A real-time ranging method for USV sea surface targets based on monocular vision. Ship Science and Technology, 2024, 46(13): 126-131 复制到剪切板

基于单目视觉的无人艇海面目标实时测距方法

张发枝, 何佳洲, 胡剑秋, 李二磊, 王景石

江苏自动化研究所，江苏连云港 222061

收稿日期: 2023-09-05.

基金项目: 预研项目（JCKY2021206B015）

作者简介: 张发枝（1998 – ），男，硕士研究生，研究方向为模式识别与图像处理、视觉测距

摘要: 针对无人艇海面航行场景中单目图像测距难的问题，本文采用Yolov8模型检测海面目标，设计基于类别先验划分的双模型测距算法。针对中小型海面目标测距引入目标画面偏航角修正和海天线修正，针对货船目标测距引入基于检测框高的回归策略；构建多场景海面目标测距数据集，对测距算法进行定量评估。实验结果表明，中小型船舶测距中，引入画面偏航角修正测距的相对误差均值减小3.53%，引入海天线优化测距的相对误差均值减小30.89%；货船目标测距中，拟合法测距误差收敛，在实船测试中基本满足无人艇多传感器感知融合的要求。

关键词: 无人艇单目测距海天线海上测距

A real-time ranging method for USV sea surface targets based on monocular vision

ZHANG Fazhi, HE Jiazhou, HU Jianqiu, LI Erlei, WANG Jingshi

Jiangsu Automation Research Institute, Lianyungang 222061, China

Abstract: Aiming at the problem of difficult ranging of monocular image in the navigation scene of unmanned ship on the sea surface, this paper adopts the Yolov8 model to detect the sea surface target, and designs the dual-model ranging algorithm based on the category a priori division. The target screen yaw angle correction and sea antenna correction are introduced for small and medium-sized surface target ranging, and the regression strategy based on the detection frame height is introduced for cargo ship target ranging. A multi-scene surface target ranging dataset is constructed to quantitatively evaluate the ranging algorithm. The experimental results show that, in the ranging of small and medium-sized ships, the mean relative error of ranging with the introduction of screen yaw angle correction is reduced by 3.53%, and the mean relative error of ranging with the introduction of sea antenna optimization is reduced by 30.89%. In the ranging of cargo ship targets, the proposed law ranging error converges, and it basically meets the requirements of multi-sensor perception fusion of unmanned ships in the real-vessel test.

Key words: unmanned surface vessel monocular ranging sea-sky line maritime ranging

0 引　言

无人艇因体积小、速度快、智能化程度高、雷达反射面积小等优势，受到了各国广泛重视^[1]。无人艇依赖摄像头、导航雷达、激光雷达和AIS等传感器进行自主航行。在不同的任务场景中融合中心需要对多传感器的感知信息进行融合，单独靠一类感知传感器难以实现无人艇态势感知与自主航行^[2]。视觉传感器可提供必要的目标类别及丰富纹理信息，但与其他传感器融合时缺乏目标位置信息，因此本文基于单目视觉对海面目标的实时测距方法进行研究，助力无人艇多传感器目标感知融合。

国内外实时海面场景视觉测距方法普遍先利用实时目标检测方法获取测距参考点，后利用实时测距方法对目标测距参考点进行测距，苏萍等^[3]提出使用船舶移动距离及目标真实宽度测距方法，对已知宽度的障碍物测量距离；李文强^[4]提出了基于固定相机和空间几何约束测距的方法，对100 m范围内的海面目标测距；张鹏等^[5]推导基于海天线标定的海上实时单目测距方法，并利用蒙特卡罗法对测距模型进行了仿真实验；赵明绘等^[6]提出一种相机高度和俯仰角联合标定的方法，对水面目标做单目测距并分析了测距误差影响因素。以上的测距方法大都基于相机稳定的场景、研究目标种类少、距离近且大部分是仿真实验，缺乏实船数据验证。基于深度学习的单目测距方面，Eigen等^[7]首次使用CNN 学习图像到它的深度图像信息的映射，将深度学习引入单目测距。Ranftl等^[8]首次尝试使用transformer替换卷积神经网络，提高网络的特征提取能力；无监督单目测距中，Zhou等^[9]尝试用视频序列进行深度和相机姿态的估计。在实际应用中，基于深度学习的单目测距方法主要应用在无人车等近距离场景。基于上述研究，本文将Ki-Yeong等^[10]提出的测距模型迁移到无人艇上并进行优化，探究不同海面场景、不同距离范围、不同种类的海面目标测距方法。

本文测距策略首先使用Yolov8检测海面目标，获取高精度的测距参考点，接着根据类别先验使用双模型测距方法，针对渔船、客船、快艇类别，利用目标偏航角和海天线优化测距模型；针对货船类别，基于矩形框框高设计回归函数，构建货船测距模型。最后将测距方法部署到无人艇上，分析航行过程中的测距误差。

1 相关原理 1.1 无人艇多传感器联合感知过程

无人艇载多传感器硬件分布如图1所示，近距离目标感知可融合摄像头与激光雷达的感知信息，远距离目标感知可融合摄像头与导航雷达的感知信息。不同传感器的信息在以惯导为中心的船舶极坐标系下进行融合，船舶极坐标系以正北为0°，顺时针方向为正。

图 1 无人艇多传感器硬件分布示意图 Fig. 1 Schematic diagram of multi-sensor hardware distribution of USV

雷达与视觉融合过程中，视觉传感器提供目标的识别信息的同时，还需要提供目标的方位和距离信息，其中距离信息可通过本文的实时单目测距方法获取。

1.2 相机结构与标定

艇载摄像头为定焦相机，装配二轴稳像云台，云台基座固连在船外壳，云台通过俯仰和滚转2个维度的调整保证船载摄像头画面稳定。

为了消除相机畸变和获取相机参数，本文采集不同角度的棋盘格照片，并使用张正友标定法^[11]进行标定，得到相机畸变参数和内参矩阵$ \boldsymbol K $。

1.3 目标检测

本文测距模型将目标吃水线中点作为测距参考点，用目标检测框底边中点近似表征。海面目标测距需要获取目标准确的测距参考点，因此选取目前先进的检测模型Yolov8m^[12]实现海面目标检测识别，模型结构示意图如图2所示。

图 2 Yolov8m模型网络结构图 Fig. 2 The Yolov8m framework

可知，Yolov8m模型可划分为特征提取Backbone网络、特征融合Neck网络、特征预测Head网络，其中Backbone网络包括CBS模块、CSP2-n残差模组等^[13]，n代表残差模组中残差块Bottleneck的个数，与前代模组C3相比增加了跳层连接和Split 操作，可获取更丰富的梯度流；Neck网络使用空间金字塔池化SPP模块和PAN路径聚合网络，融合不同尺度的特征；Head网络采用解耦结构，将类别分类任务和检测框回归任务分离，使用 Anchor-Free的形式直接在不同尺度的特征图上对目标中心点和宽高进行回归。

1.4 目标测距

相机模组装配稳像云台，可使光轴尽可能与水平面平齐，所以本文假设相机的光轴在无人艇平稳航行过程中与海面平行。基于上述假设，本文不考虑相机相对海平面的俯仰角带来的测距误差影响，选用Ki-Yeong等^[10]提出的无人车测距模型作为原始模型，其示意图如图3（a）所示，将目标检测框底边中点作为测距参考点如图3（b），测距公式为：

图 3 原始测距模型及测距参考点示意图 Fig. 3 Schematic diagram of small-hole imaging distance measurement model

$ S = \frac{{H\cdot f}}{{{y_1} - {v_0}}}。$

(1)

式中：${{{y}}_{\text{1}}}$为像素坐标系下目标底边中点的纵坐标；${{{v}}_{\text{0}}}$为相机光心的纵坐标，也是画面中距离评估时的无穷远点；${{{y}}_{\text{1}}} - {v_0}$为检测框底线中点到相机光心的距离，即目标到无穷远点的纵坐标像素距离差；$f$为相机焦距；$H$为相机安装高度，即相机光心到吃水线的距离；$S$为相机到测距目标的距离。取目标检测输出的检测框底边中点作为成像模型中目标的参考点坐标。

2 目标测距优化策略

本文目标测距方法根据无人艇航行时的典型场景典型目标进行设计，在检测过程中，因为船舶大小不同，目标极限观测距离不同，快艇、渔船和客船等中小型船舶的极限观测距离约400 m，货船等的极限观测距离约3000 m。

2.1 引入偏航角的测距优化

无人艇中低速航行过程中，相机自带的减摇装置可抵消船体姿态的大部分变化，相机光轴基本与海面平行。有别于道路场景的单目测距，海面场景目标船舶基本都不出现在相机画面中心，如图4（a）所示，${A_1}$和${A_2}$两个目标在像素坐标系下的方位不同但纵坐标值相等，即${y_1} = {y_2}$，则会有原始测距模型测距值相同而目标的距离真值不同的情况，所以文中考虑引入目标在图像中的偏航角，减小上述情况带来的误差。

图 4 偏航角优化示意图 Fig. 4 Schematic of yaw angle optimization

其中，假设海面目标${A_1}$出现在相机正前方，在图像中成像在$A$点；海面目标${A_2}$成像在$B$点，相对于相机光轴有一个偏航的角度，即目标${A_2}$的画面偏航角定义为$\angle O{A_0}{O^{'}}$。目标偏航角解算图如图4（b）所示，图中相机视场角为$c$，画面像素宽度为$W$，则目标${A_2}$的偏航角计算公式如下：

$ \angle O{A_0}{O^{'}} = \arctan (\frac{{({u_0} - {x_2})\cdot\tan (c/2)}}{{W/2}})。$

(2)

根据几何相似原理，有$\Delta {A_0}O{O^{'}}$与$\Delta {A_1}{A_2}{A_3}$相似，则$ \angle O{A_0}{O^{'}} = b $，则

$ S = \frac{{H\cdot f}}{{({y_1} - {v_0})\cdot \cos (b)}} 。$

(3)

即图4（a）中，引入画面偏航角优化后的测距公式如下：

$ {{S}} = \frac{{H\cdot f}}{{({y_1} - {v_0})\cdot\cos ({\text{arctan}}(2\cdot({x_2} - {u_0})\cdot \tan (c/2)/W))}}。$

(4)

2.2 基于海天线的测距优化

海天线是海面场景中的关键基准，代表距离无穷远处，且不受无人艇硬件等因素的影响。在无人艇低速航行过程中，云台基本保证稳像，根据硬件装配和标定测试情况可以确定虚拟海天线的位置。在无人艇高速或高海况航行过程中，云台无法保证稳像，相机姿态变化剧烈，海天线上下起伏。基于此，测距模型考虑引入海天线减小船舶高速航行时的测距误差。

无人艇使用Otsu算法以及Hough变换^[14]进行海天线检测，获得海天线在像素坐标系下的斜率与截距，不同海面场景的检测效果如图5所示。正常光照情况如图5（a）～图5（b）检测效果较好，复杂光照和雾天情况如图5（c）～图5（d）检测效果稍差，因此在测距模型中不使用异常斜率的海天线测量值。

图 5 海天线检测示意图 Fig. 5 Schematic diagram of sea antenna detection

如图6所示，假设相机姿态稳定时的海天线位于${L_2}$处（虚拟海天线位置），无人艇高速航行过程中，海天线会发生上下波动，海天线从${L_2}$偏离到${L_1}$。利用海天线在图像中的波动幅度修正测距模型中测距参考点坐标。

图 6 海天线波动示意图 Fig. 6 Schematic diagram of the fluctuations of the antennae of the sea

测距参考点Y轴坐标修正值$ {\sigma _1} = {a_1}{x_2} + {b_1} - {L_2}({x_2}) $。将坐标修正值代入式（4）中，得到最终测距模型公式为：

$ S = \frac{{H\cdot f}}{{({y_1} - {v_0} - {\sigma _1})\cdot \cos ( {\text{arctan}}( 2 \cdot ( {x_2} - {u_0} ) \cdot \tan (c/2)/W) )}}。$

(5)

2.3 货船测距模型

不同于中小船舶，货船类别的观测距离最远可以达到3 km，在实船测试中发现基于小孔成像的测距模型对于远距离目标的测距无法收敛。

基于此，在无人艇多传感器感知融合场景中，通过对货船的距离的粗略估计完成视觉感知目标与导航雷达观测目标的融合。因此本文根据目标近大远小的机理，使用检测框高度和船舶的真实距离进行拟合，设计的拟合函数如下：

$ S = \alpha \cdot{h^\beta }。$

(6)

式中：$ \alpha 、\beta $为拟合参数；$h$为图像中目标检测框像素高度。

3 实验设计 3.1 测距数据集构建

针对目前国内海面目标测距测试数据稀缺的情况，本文构建黄海海域的海面目标单目测距（Surface Object Monocular Distance Measurement，SOMDM）数据集，数据集由内港和外海等不同场景数据组成，海面测距场景示意如图7所示，样本总数为5211，每条样本由图片以及目标测距标签组成，具有测距数据规模大、海面场景充足、目标类别丰富等特点。数据集中测距标签格式如下：<时间戳> <目标类别> <目标框中心横坐标x> <目标框中心点纵坐标y> <目标框宽width> <目标框高height> <目标画面偏航角> <目标测距参考点纵坐标y> <目标测距参考点海天线修正值$ {\sigma _1} $> <距离真值>。

图 7 海面测距场景示意图 Fig. 7 Sea surface ranging scene schematic

目标距离真值来源包括GPS解算值、激光雷达目标测距值、导航雷达目标测距值。若目标可通过GPS解算距离，则真值优先使用GPS解算的距离值，否则优先使用激光雷达测量值作为距离真值。若无GPS解算距离值和激光雷达目标测距值，则真值使用导航雷达目标距离值。在数据集真值统计过程中，图片对应的时间戳应为图片采集时刻，同理其他传感器获得观测目标信息的时间戳也应为采集时刻，若两时间存在差别，需进行插值对齐。

与目前国内已知的海面目标单目测距数据集相比，本文构建的海面目标单目测距数据集SOMDM，样本数量最多、场景最丰富、目标类别最全面。

3.2 实验计算平台与关键参数

实验中使用的硬件计算平台的CPU为Intel Xeon(R) Platinum 8255C，GPU为Nvidia RTX 3080。目标检测实验中采用的软件框架是 Pytorch1.7.0，使用 SGD 方法作为优化器，初始学习率设置为 0.01，学习率调整使用余弦退火方法。在图像预处理阶段使用随机左右翻转、随机颜色抖动、旋转增强和 Mosaic 操作等进行数据增强，训练和测试的图像大小为640×640。

3.3 实验评价指标

在目标测距任务中，用测距绝对误差均值和相对误差均值评价测距精度，并分析绝对误差和相对误差的标准差、最小值、中位数和最大值，通过对比这些统计量的变化情况分析测距的误差波动情况。

4 结果分析

目标检测任务中，使用mAP@0.5:0.95指标评价检测框的贴合程度。在检测速度满足要求的条件下，目标框贴合目标越准对距离估计的参考点选取越有利。Yolov8m检测的mAP@0.5:0.95指标值为0.752，耗时为4.2 ms，满足实船单目测距的实时性要求。实船目标测距效果如图8所示。

图 8 实船测距效果图 Fig. 8 Ranging result of the vessel

4.1 中小型船舶测距结果分析

对港池内中小型船舶进行测距，中小型船舶包含快艇、渔船和客船等类别，测距分析结果如图9所示。

图 9 中小型船舶测距结果图 Fig. 9 Ranging results for small and medium-sized vessels

中小型船舶测距结果汇总如图9（a）所示，由于测距数据中包含较多偏航角较小的数据，为了对比偏航角对测距结果的影响，针对偏航角比较大的数据点进行优化前后对比分析。引入目标偏航角优化前后的测距对比如图9（b）～图9（c）所示，分别为原始测距模型结果和引入目标偏航角的测距结果。偏航角优化前后误差统计表如表1和表2所示，优化后的测距绝对误差均值减小了5.57 m，相对误差减小了3.53%。

表 1 中小型船舶测距绝对误差统计 Tab.1 Absolute range error statistics for small and medium-sized ships

表 2 中小型船舶测距相对误差统计 Tab.2 Statistics on relative errors in ranging for small and medium-sized ships

使用海天线修正前后的测距值和GPS真值距离对比图如图9（d）和图9（e）所示，可明显看到使用海天线修正的测距值更加贴合距离真值。由表1和表2可知，对于370 m以内的目标，测距绝对误差均值为23.5 m，误差最大值为74 m；与原始测距模型结果相比，距离绝对误差均值减小了79.92 m，距离的相对误差均值减小了30.89%。

4.2 货船类船舶测距结果分析

货船主要包括散货船、集装箱船、滚装船、驳船运输船、冷藏货船及液货船等类。使用中小型船舶测距模型对远距离货船测距的结果如图10所示，可以看出该方法无法有效地对远距离货船进行距离估计。

图 10 货船测距结果图 Fig. 10 Ranging results for cargo ships

为了更好地解决货船测距的问题，通过回归货船目标检测框高度和距离真值，拟合函数为：

$ S = 22\ 642.264\ 101 \times {h^{ - 0.872\ 444}}。$

(7)

式中：$h$为检测框高度，$S$为测距值。

拟合结果如图10（a）所示，其中，三角形点是真实采样点数据，圆形点为拟合函数数据点。在外海场景利用该拟合函数计算数据集中货船，测距结果如图10（c）所示。

由表3可知，测距绝对误差比中小型船舶测距模型更小。由图10（b）和图10（c）全新货船目标结果图可知，使用函数拟合法对货船测距比中小型船舶测距模型更加贴合距离真值，误差收敛较好。当目标距离超过1000 m，测距值逐渐呈现阶梯状点迹，分析原因是距离过远时目标检测框的变化对测距值影响很大，检测框一个像素的变化就会引起较大的测距值波动。为了验证此分析结果，测试1500～3500 m的全新货船目标，测距结果如图10（d）所示。可知，大型船舶测距方法计算值趋势与真值保持一致趋势，呈现阶梯状测量点迹，受限于目标检测算法的性能，检测框高度每次波动至少改变3个像素，因此测距值会出现如图10（d）中每一级阶梯状的跳跃。

表 3 货船测距统计结果对比表 Tab.3 Comparison table of ranging statistics for cargo ships

5 结　语

本文构建无人艇海面单目测距数据集，基于优秀的实时目标检测模型Yolov8m获取准确的测距参考点；提出基于类别划分的双模型测距方法，通过引入偏航角和海天线对中小型船舶测距，使用检测框框高回归策略优化远距离货船类目标测距，为海上平台的航行避障与多传感器信息融合提供必要的视觉感知信息，后续将考虑无人艇快速机动航行场景下的测距研究。

参考文献

[1]	孔维玮, 冯伟强, 诸葛文章, 等. 美军大中型水面无人艇发展现状及启示[J]. 指挥控制与仿真, 2022, 44(5): 14-18. DOI:10.3969/j.issn.1673-3819.2022.05.003
[2]	刘艳宾, 陈光伟. 多传感器信息融合的船舶机械设备状态智能检测研究[J]. 舰船科学技术, 2022, 44(23): 173-176. LIU Yanbin, CHEN Guangwei. Research on intelligent detection of ship mechanical equipment state based on multi-sensor information fusion[J]. Ship Science and Technology, 2022, 44(23): 173-176. DOI:10.3404/j.issn.1672-7649.2022.23.036
[3]	苏萍, 朱晓辉. 基于单目视觉的水面目标识别与测距方法研究[J]. 计算机技术与发展, 2021, 31(2): 80-84.
[4]	李文强. 海面无人艇视觉环境感知系统研究[D]. 哈尔滨: 哈尔滨工程大学, 2019.
[5]	张鹏, 黄亮, 杨露菁, 等. 基于海天线标定的海上单目测距方法[J/OL]. 电光与控制: 1−9.
[6]	赵明绘, 王建华, 郑翔, 等. 基于单目视觉的无人水面艇水面目标测距方法[J]. 传感器与微系统, 2021, 40(2): 47-50+54.
[7]	EIGEN D , PUHRSCH C , FERGUS R . Depth map prediction from a single image using a multi-scale deep network[J]. MIT Press, 2014.
[8]	RANFTL R, BOCHKOVSKIY A, KOLTUN V. Vision transformers for dense prediction[J]. arXiv Preprint, 2103.13413, 2021.
[9]	ZHOU T , BROWN M , SNAVELY N , et al. Unsupervised learning of depth and ego-motion from video[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, 2017.
[10]	KI-YEONG P, SUN-YOUNG H. Robust range estimation with a monocular camera for vision-based forward collision warning system[J]. The Scientific World Journal, 2014, (2014−12−9), 2014, 923632.
[11]	ZHANG Z. A flexible new technique for camera calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1330-1334. DOI:10.1109/34.888718
[12]	KIM J H, KIM N, WON C S. High-speed drone detection based on Yolo-V8[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2023: 1−2.
[13]	ELFWING S, UCHIBE E, DOYA K. Sigmoid-weighted linear units for neural network function approximation in reinforcement learning[J]. Neural Networks, 2018, 107: 3-11. DOI:10.1016/j.neunet.2017.12.012
[14]	戴永寿, 刘博文, 李立刚, 等. 基于局部Otsu分割与Hough变换的海天线检测[J]. 光电工程, 2018, 45(7): 57-65. DAI Yongshou, LIU Bowen, LI Ligang, et al. Sea antenna detection based on local Otsu segmentation with Hough transform[J]. Opto-Electronic Engineering, 2018, 45(7): 57-65.


舰船科学技术 2024, Vol. 46 Issue (13): 126-131 DOI: 10.3404/j.issn.1672-7649.2024.13.022	PDF