2. 同济大学 体育教学部,上海 200092
2. Department of Physical Education, Tongji University, Shanghai 200092, China
水下目标的精确检测与跟踪是海洋资源开发的重要前提,在海床建模、海底勘探、水下航行等领域应用广泛[1]。声呐成像基于水声信息,具有穿透性与实时性,相比于光学成像更适用于水下多目标跟踪任务。然而,由于水下环境复杂、通信效果差,声呐成像存在分辨率较低、清晰度差、噪声过大等问题,从而降低了水下多目标跟踪的精度[2]。本文针对声呐图像背景噪声大、跟踪模型处理速度慢等问题,提出低检测置信度下的轻量水下多目标跟踪算法。
随着深度学习技术的发展,基于特征检测的跟踪方法逐渐成为主流的水下多目标跟踪方法。该方法对于水下杂波与虚警也存在较好的抵抗性,且能够通过深层次、多维度的特征提取与融合弥补声呐图像的缺陷。黄松威等[3]基于粒子滤波算法提出水下声呐目标跟踪方法。该方法通过对图像噪声的降低与图像边缘的改善增强声呐图像质量,在此基础上得到了更准确的目标跟踪结果。针对水下鱼类的实时跟踪,Zhai等[4]构建目标跟踪模型强化在线目标跟踪(Strong Simple Online Realtime Tracking,StrongSORT),该模型对目标检测网络进行轻量化改进,同时利用广义交并比匹配改进目标跟踪算法,提高了多目标跟踪的准确性与稳定性。Zhao等[5]基于YOLOv5构建深度在线实时跟踪(Deep Simple Online Realtime Tracking,Deep SORT)目标跟踪算法,对潜水员单一类别完成水下跟踪,但Deep SORT算法的目标检测模块与特征重识别模块相互独立,这不仅带来了运行速度降低的问题,也一定程度上影响了跟踪精度。
水下声呐视频图像存在噪声严重、清晰度低等缺陷,跟踪模型难以在低检测置信度条件下准确定位目标。此外,水下设备存在运算性能限制,跟踪模型的部署需要进行轻量化处理。针对以上问题,本文提出一种水下多目标跟踪算法YOLO-Fair MOT,其主体结构如图1所示。轻量化YOLOv5利用通道-空间混合注意力降低背景噪声干扰,生成目标检测结果,同时结合深度可分离卷积降低模型尺寸。低检测置信度跟踪模型基于卡尔曼滤波器对目标状态进行预测,并引入Byte数据匹配与广义交并比匹配算法,进行实时轨迹匹配与更新,同时提升对低置信度目标的跟踪准确率。
![]() |
图 1 YOLO-Fair MOT水下目标跟踪算法流程 Fig. 1 The process flow of YOLO-Fair MOT underwater tracking algorithm |
声呐图像存在特征模糊、噪声大等缺点,造成检测精度不足、背景混淆等问题,不利于后续的目标跟踪。本文结合深度通道-空间混合注意力模块与深度可分离卷积构建轻量化YOLOv5水下多目标检测模型,实现低成像条件下水下目标的快速、准确识别,模型结构如图2所示。
![]() |
图 2 轻量YOLOv5网络结构 Fig. 2 The structure of light YOLOv5 network |
主干网络对检测图像进行特征提取。图像经切片模块进行特征图像的快速分割,随后通过4层不同深度的特征提取卷积网络提取目标特征。卷积网络基于深度可分离卷积进行构建,达到控制参数量、加速特征提取过程的效果。主干网络引入通道-空间混合注意力模块,赋予检测目标区域以更高的权重,有利于模型对关键信息的提取。最终经过串联池化层,输出3种尺度不同的特征层。
颈部网络承接主干网络,通过路径聚合网络进行进一步特征融合。颈部网络在正向特征金字塔结构的基础上结合倒置特征金字塔,通过上下采样与特征拼接,融合3个特征层的多维特征,以丰富特征表达。
头部网络结合热力图分支、宽高分支以及偏移分支构对特征图进行分类与回归,获取最终的目标检测结果。通过回归参数的计算,3种分支获取检测框的分类信息、检测框宽高以及中心点坐标。此时分支损失函数
Lheat=−1N∑xy{(1−ˉMxy)αln(ˉMxy),Mxy=1,(1−ˉMxy)β(Mxy)αln(1−ˉMxy),Mxy≠1, | (1) |
Lsize=1NN∑k=1|ˉspk−sk|, | (2) |
Loffset=1N∑p|˜O˜p−(pR−˜p)|。 | (3) |
式中:
检测网络训练一般采用预生成锚框模板,再通过回归参数生成的方式获取目标检测框。然而锚框机制会在跟踪中带来身份信息的错误分配,产生网络混乱现象。检测模型生成一系列位置锚框对同一目标进行重复识别,并分配不同的身份信息。此时相同的检测框会持有不同的身份信息,进而使跟踪轨迹出现歧义,降低跟踪的成功率[6]。为了保证准确识别的同时降低锚框机制带来的网络歧义,本文通过无锚框的检测分支构建头部网络,通过检测框参数的回归跳过锚框的生成过程,克服过量锚框生成导致的网络歧义增加、跟踪成功率降低的问题。
1.1 通道-空间随机混合注意力模块本文引入注意力机制增强轻量化YOLOv5模型特征提取能力,其结构如图3所示。原始特征图
![]() |
图 3 通道-空间混合注意力模块结构 Fig. 3 The structure of channel-space shuffle attention module |
通道注意力分支通过并行最大池化层
MC(F)=sigmoid(fc(Relu(fc(MaxPool(F))))+fc(Relu(fc(AvgPool(F)))))。 | (4) |
式中:
类似地,空间注意力机制通过并行最大池化层
MS(F)=σ(f7×7([MaxPool(F);AvgPool(F)]))。 | (5) |
式中:
同时为了确保运算速度与信息流通,混合注意力模块使用分组与重排机制,在通道重洗模块
F′=Shuffle([MC(F);MS(F)])。 | (6) |
声呐图像缺乏颜色特征,存在噪声干扰,导致目标与背景边界模糊。原始检测模型缺乏背景与目标间的区分手段,导致检测精确度降低。注意力机制通过池化操作整合特征图的特征信息,并计算通道权重与空间权重,使模型在目标位置与通道处有更高响应,而削弱背景处响应。此时轻量化YOLOv5模型能够克服背景噪声影响,在低成像条件下精确定位目标位置。
1.2 深度可分离卷积深度可分离卷积结构如图4所示。该卷积结构分为深度卷积与逐点卷积。深度卷积核为分组的单通道换卷积核。通过分组卷积的形式,减少了卷积核通道数,降低了模型参数,提升了计算效率。而由于深度卷积的单通道特性,输出特征图仅具备单通道特征,且不同通道之间无关联。逐点卷积核为多通道1×1的标准卷积核,其作用为改变输出特征图通道数,同时生成新特征。逐点卷积在保持原有征图尺寸的同时,对特征图卷积运算结果进行多通道累加,产生新的融合特征。
![]() |
图 4 深度可分离卷积结构 Fig. 4 The structure of depthwise convolution |
设输入标准卷积的特征图尺寸为
fstandard=k×k×C1×C2×L×L。 | (7) |
在与标准卷积等效的条件下,深度卷积核尺寸为
fdepthwise=k×k×C1×L×L+1×1×C1×C2×L×L。 | (8) |
相对于标准卷积,深度可分离卷积的计算代价之比为:
fdepthwisefstandard=k×k×C1×L×L+1×1×C1×C2×L×Lk×k×C1×C2×L×L≈1C2+1k2。 | (9) |
本文采用深度可分离卷积代替标准卷积,以控制模型大小、提升检测速度[7]。相比于标准卷积,深度可分离卷积对卷积过程进行分解,将卷积层分解为独立的深度卷积与逐点卷积,大幅减小模型冗余参数与计算量。当卷积核大小
Fair MOT跟踪算法是一种视觉领域通用的多目标跟踪算法,通过合并检测模型与重识别模型,有效提高模型跟踪速度。本文利用轻量化YOLOv5代替Fair MOT原始检测模型,构建水下多目标跟踪算法YOLO-Fair MOT。同时针对原始跟踪算法难以保证轨迹完整与连续的问题,本文从水下低检测置信度的前提出发,结合广义交并比匹配算法与Byte数据匹配算法,对低置信度目标进行额外匹配运算,保证跟踪过程中轨迹的完整性。低检测置信度水下多目标跟踪算法YOLO-Fair MOT流程如图5所示。
![]() |
图 5 低检测置信度水下目标多跟踪算法流程 Fig. 5 The process flow of underwater multi-object tracking algorithm with low detection confidence |
YOLO-Fair MOT模型结合卡尔曼滤波器的预测结果与目标检测网络的检测结果,推理出目标在连续图像中的最优位置。设存在跟踪目标
\boldsymbol{x}_k=(x,y,a,h,\dot{x},\dot{y},\dot{a},\dot{h})^{\mathrm{T}}。 | (10) |
式中:
假设
{{\boldsymbol{x}}_{k + 1}} = {{\boldsymbol{F}}_{k + {1}}}{{\boldsymbol{x}}_k} + {{\boldsymbol{w}}_{k + {1}}} , | (11) |
\boldsymbol{z}_{k+1}=\boldsymbol{H}_{k+1}\boldsymbol{x}_{k+1}+\boldsymbol{v}_{k+1}。 | (12) |
式中:
在实际跟踪过程中实际的轨迹运动状态
{{\boldsymbol{\tilde z}}_{k + 1}} = {{\boldsymbol{z}}_{k + 1}} - {{\boldsymbol{\bar z}}_{k + 1}} = {{\boldsymbol{z}}_{k + 1}} - {{\boldsymbol{H}}_{k + {1}}}{{\boldsymbol{\bar x}}_{\bar k + 1}} , | (13) |
\boldsymbol{w}_{k+1}=\boldsymbol{K}_{k+1}\boldsymbol{\tilde{z}}_{k+1}。 | (14) |
式中:
此时根据卡尔曼增益将噪声量引入预测环节,卡尔曼增益应使最优推理状态的协方差矩阵最小,根据协方差矩阵的定义得:
\begin{split} {{\boldsymbol{P}}_{k + 1}} = & {{\boldsymbol{P}}_{\bar k + 1}} - {{\boldsymbol{K}}_{k + 1}}{{\boldsymbol{H}}_{k + 1}}{{\boldsymbol{P}}_{\bar k + 1}} - {{\boldsymbol{P}}_{\bar k + 1}}{\boldsymbol{K}}_{k + 1}^{\mathrm{T}}{\boldsymbol{H}}_{k + 1}^{\mathrm{T}} +\\ & {{\boldsymbol{K}}_{k + 1}}({{\boldsymbol{H}}_{k + 1}}{{\boldsymbol{P}}_{\bar k + 1}}{\boldsymbol{H}}_{k + {1}}^{\mathrm{T}} + {{\boldsymbol{R}}_{k + 1}}){\boldsymbol{K}}_{k + {1}}^{\mathrm{T}}。\end{split} | (15) |
式中:
对
{{\boldsymbol{K}}_{k + 1}} = {{\boldsymbol{P}}_{\bar k + 1}}{\boldsymbol{H}}_{k + 1}^{\mathrm{T}}{({{\boldsymbol{H}}_{k + 1}}{{\boldsymbol{P}}_{\bar k + 1}}{\boldsymbol{H}}_{k + 1}^{\mathrm{T}} + {{\boldsymbol{R}}_{k + 1}})^{ - 1}}。 | (16) |
基于卡尔曼增益可以根据预测量与观测量推理出第
{{\boldsymbol{\bar x}}_{\bar k + 1}} = {{\boldsymbol{x}}_{\bar k + 1}} + {{\boldsymbol{K}}_{k + 1}}({{\boldsymbol{\bar z}}_{k + 1}} - {{\boldsymbol{H}}_{k + 1}}{{\boldsymbol{\bar x}}_{\bar k + 1}}) , | (17) |
\boldsymbol{P}_{k+1}=(\boldsymbol{E}-\boldsymbol{K}_{k+1}\boldsymbol{H}_{k+1})\boldsymbol{P}_{\overline{k}+1}。 | (18) |
式中:
在低检测置信度条件下,水下跟踪目标存在外形模糊与位置突变的问题,导致检测结果与跟踪结果交并比低于阈值。但两者实际距离较小,跟踪结果仍可视为正确轨迹单元,将其舍弃不合理。对此,本文采用广义交并比计算非重叠区域中心距离,避免了原匹配策略对正确跟踪轨迹的排除。广义交并比
GIOU=IOU+\frac{A\cup B}{C}-1。 | (19) |
式中:
YOLO-Fair MOT的匹配策略如图6所示。跟踪模型基于卡尔曼滤波器生成跟踪轨迹,随后通过级联匹配与2次Byte匹配筛选正确的跟踪结果[8]。级联匹配比较目标与检测结果形状特征的相似度,而Byte匹配以广义交并比为匹配阈值,对两者的位置重合程度进行度量。由于原始匹配策略仅涉及高置信度目标,在检测置信度较低的水下环境中,这种不完全匹配策略使得部分正确但检测低置信度较低的目标无法参与匹配,带来轨迹中断、身份信息频繁切换等问题。Byte数据匹配算法通过2次级联的广义交并比匹配,先后评估高置信度与低置信度检测结果的轨迹匹配性,保证低置信度目标参与匹配过程。同时由于低置信度目标仅参与第2次Byte匹配,降低了错误的低置信度目标影响,保证了匹配过程的准确性。
![]() |
图 6 低检测置信度下的匹配算法流程图 Fig. 6 The process flow of association algorithm with low detection confidence |
综上所述,针对低检测置信度条件下,跟踪算法难以充分利用低检测置信度目标的问题,本文基于广义交并比与Byte数据匹配算法优化匹配策略,减少正确水下跟踪目标的错误筛除,以此提高跟踪过程的准确性。
3 实验结果及分析为验证YOLO-Fair MOT算法的性能,以水下声呐视频为研究对象,构建包含水下多目标跟踪数据集进行实验验证。数据集包含6条持续时间为10~65 s不等的水下声呐视频作为原始数据[9],共计
跟踪对比实验结果如图7所示。本文比较了Deep SORT、DLA34-Fair MOT以及YOLO-Fair MOT这3种目标跟踪算法的实际跟踪结果。根据第10帧的跟踪结果,3种算法均成功跟踪当前场景下的目标,但YOLO-Fair MOT算法的跟踪置信度更高,且未产生身份切换的问题。根据第144帧的跟踪结果,由于场景中存在的水下目标较多,Deep SORT算法出现了错误跟踪,Fair MOT算法对同一水下框体与轮胎分配了新ID,而本文算法则保证了复杂水下场景跟踪的正确性与连续性。根据第356帧的跟踪结果,场景内出现与背景相混淆的水下目标,这些目标的检测置信度较低。相比之下,YOLO-Fair MOT算法成功地跟踪全部水下目标,且身份切换的次数更少。
![]() |
图 7 各水下多目标跟踪算法结果 Fig. 7 The results of each underwater multi-object tracking algorithms |
同时为了定量分析YOLO-Fair MOT水下多目标跟踪算法的性能提升,本文采用跟踪准确度MOTA、跟踪精确度MOTP、IDF1分数与模型速度FPS分析跟踪模型效果。根据实验结果(见表1),本文YOLO-Fair MOT跟踪算法在跟踪准确度、跟踪精确度与持续跟踪能力上均得到了提升。同时由于目标检测模型的轻量化处理,模型的处理速度也有所提高。
![]() |
表 1 YOLO-Fair MOT算法性能对比实验 Tab.1 Performance comparison experiment of YOLO-Fair MOT algorithm |
本文针对水下成像条件与设备性能限制,设计低检测置信度的轻量化水下多目标跟踪算法YOLO-Fair MOT。通道-空间混合注意力机制赋予噪声背景与检测目标不同的权重,达到了抑制噪声影响的效果。深度可分离卷积将特征提取过程的卷积运算分解重构,减少了冗余参数,保证了跟踪模型的轻量性。跟踪算法采用广义交并比进行轨迹筛选,提升了轨迹筛选精度,同时添加Byte数据匹配算法,通过额外轨迹匹配防止正确轨迹单元因置信度低被筛除。最终在自建水下多目标跟踪数据集中进行了实验验证,结果证明YOLO-Fair MOT跟踪算法能够在检测置信度较低的条件下,准确获取目标区域位置以及运动轨迹。
[1] |
郭戈, 王兴凯, 徐慧朴. 基于声呐图像的水下目标检测、识别与跟踪研究综述[J]. 控制与决策, 2018, 33(5): 906-922. GUO G, WANG X K, XU H P. Review on underwater target detection, recognition and tracking based on sonar image[J]. Control and Decision, 2018, 33(5): 906-922. |
[2] |
KIM B, YU S. Imaging sonar based real-time underwater object detection utilizing AdaBoost method[C]// 2017 IEEE Underwater Technology(UT), Busan, Korea, 2017.
|
[3] |
黄松威, 朱兆彤, 胡友峰. 基于粒子滤波的声呐图像目标跟踪算法研究[J]. 舰船科学技术, 2019, 41(3): 135-139. HUANG S W, ZHU Z T, HU Y F. A sonar image target tracking algorithm based on particle filter[J]. Ship science and technology, 2019, 41(3): 135-139. DOI:10.3404/j.issn.1672-7649.2019.02.027 |
[4] |
ZHAI X Y, WEI H L, WU H D, et al. Multi-target tracking algorithm in aquaculture monitoring based on deep learning[J]. Ocean Engineering, 2023, 289(1): 116005. |
[5] |
ZHAO X H, HUANG Z and LV Y J. Research on real-time diver detection and tracking method based on YOLOv5 and DeepSORT[C]// 2022 IEEE International Conference on Mechatronics and Automation(ICMA), China, 2022.
|
[6] |
ZHANG Y F, WANG C Y, WANG X G, et al. FairMOT: on the fairness of detection and re-identification in multiple object tracking[J]. International Journal of Computer Vision, 2021, 129(11): 3069-3087. DOI:10.1007/s11263-021-01513-4 |
[7] |
ANDREW H, ZHU M, CHEN B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J/OL]. 2017, 17(4): 48−61.
|
[8] |
ZHANG Y F, SUN P Z, JIANG Y. ByteTrack: Multi-object tracking by associating every detection box[C]// Computer Vision–ECCV 2022. Cham, Springer, 2022.
|
[9] |
Blueprint subsea. Oculus[DB/OL]. 2018, (2018-08-01)[2023-08-25]. https://www.blueprintsubsea.com/oculus/.
|