随着全球海洋权益争夺加剧和“智慧海洋”战略的持续推进,海上目标智能识别技术已成为保障国家安全和推动海洋经济发展的关键[1]。通过提取图像目标的形状、纹理、空间关系等特征,基于智能识别技术实现对目标对象的精准识别,为海上动态的实时感知、大数据处理、多元信息融合提供高质量支持。
近年来,深度学习技术的快速发展推动了计算机视觉领域的革命性进步,在目标智能识别任务中取得了显著成果。从早期的卷积神经网络如LeNet[2]、AlexNet[3],到更复杂的结构如VGGNet[4]、ResNett[5]、ConvNeXt[6],深度学习模型在ImageNet等大模型数据集上的表现不断突破,为视觉识别任务奠定了坚实基础。在目标检测领域,以FasterR-CNN[7]、YOLO[8]、SSD[9]为代表的算法在精度和效率上不断优化。文莉莉等[10]基于FasterR-CNN算法构建海洋目标及用海行为的自动识别模型,并且在特征提取中使用RestNet101和VGG16这2种网络模型进行对比测试,实证表明前者具有更强的复杂特征提取能力。张晓鹏等[11]提出了一种基于改进YOLOv5的深度学习算法,通过引入多尺度特征融合模块和自适应注意力机制,显著提升了海上船舶检测的精度与实时性。张建东等[12]针对海上目标姿态复杂且尺度多变的问题,提出一种改进的YOLOv8海上目标识别算法,引入了融合深度监督机制与多尺度特征提取策略,改进后的算法mAP50达到93.69%,相较原模型提升了7.38%。
上述方法在海上智能识别领域提供创新思路,然而,在海上特殊应用场景下,现有深度学习模型仍存在一定不足。首先,速度与精度的平衡问题,高精度模型如FasterR-CNN等二阶段算法,计算复杂度高,难以满足实时性需求;而轻量级模型YOLO系列,虽推理速度快,但在复杂背景下识别精度不足[13]。其次,单层模型的细粒度分类能力不足,由于海上的天气和环境较为复杂,存在动态多变的海面环境和光照变化,现有单层模型对海上目标进行细粒度分类时表现欠佳,难以准确区分舰船的具体类型[14]。这一问题在复杂海况下如高海浪、雨雾天气尤为突出,导致分类性能显著下降。
针对以上问题,本文提出一种基于分层推理和特征递进的图像智能识别方法。该方法旨在YOLOv8算法的基础上引入额外的ResNet50分类推理模块,通过合理的逻辑递近方式,构建一个粗细分层推理模型,实现海上目标在不同颗粒度分类标准下的类别识别,同时可有效提高识别精度与效率。
1 理论基础 1.1 YOLOv8网络针对海上目标环境状况复杂且姿态多变的特点以及实时性检测要求,YOLO网络模型凭借其较高的鲁棒性和出色的大规模数据处理能力,被广泛应用于海上目标检测模型中。尽管目前YOLO模型已更新至v12版本,但v8由于其稳定性优势,仍然是目前最为常用的算法之一。YOLOv8模型由主干网络、特征融合、检测头组成,网络结构示意见图1。其中主干网络采用C2f模块,增强梯度流动并提升特征提取能力。特征融合使用PANet改进版,通过自上而下和自下而上的特征采样层优化多尺度特征融合,提高小目标的检测能力和大目标的定位能力。检测头采用Anchor-Free设计,直接预测目标中心点,减少设计量,并引入解耦头,分离分类和回归任务,提高精度。
|
图 1 YOLOv8网络结构 Fig. 1 YOLOv8 network architecture |
ResNet模块是由He等[5]在2016年提出,通过使用残差连接来解决模型退化问题,被广泛应用于分类模型中,ResNet50网络结构示意见图2,其中包含49个卷积层和最后的全连接层,其中每个残差块都有3层卷积层。残差的连接形式主要有2种形式,见图3。以残差连接的方式高效地将网络的梯度信息进行回传,使得模型在训练和推理时能够搭建较深的网络层级,避免了梯度爆炸和梯度消失情况的出现。ResNet能够有效提取舰船等海上目标特征,可以更好识别从大型舰船到小型渔船等不同尺寸的目标,即使在复杂的海上环境中也能保持较高的识别精度。
|
图 2 ResNet50网络结构 Fig. 2 ResNet50 network architecture |
|
图 3 ResNet模型中的残差结构 Fig. 3 Residual structure in ResNet model |
海上目标众多,不同类船舶间的特征存的差异性较大,而同类船舶间的特征差异就相对细微,这就使得基于特征提取的单层检测模型进行细分类的效果不好[15]。本文提出的基于分层推理的海上目标图像智能识别方法,旨在通过构建层次化模型架构,实现对目标对象从粗粒度到细粒度的逐步识别,分层推理模型框架详见图4。主要包含3个部分:1)将预处理后的图像输入粗分类网络进行推理,获取图像目标框位置、粗类别标签及其预测置信度;2)将各目标的置信度与预设阈值进行比对,对大于阈值的目标进行裁切、整合,存入对应容器;3)将目标容器输入细分类模型进行预测。粗分类将筛选出的可能包含舰船等目标的图像区域与粗分类标签传递给细分类模型,为后续细分类缩小定位范围,从而可以在确保精度的基础上再提升整体识别效率。
|
图 4 分层推理模型框架 Fig. 4 Hierarchical reasoning model framework |
海上目标智能识别方法中粗分类模型使用了YOLOv8算法,此算法的特点是速度快、实时性强;细分类模型则采用了具有高精度的ResNet50网络,将YOLOv8与ResNet结合使用,可以充分发挥两者的优点,通过特征递进与分层推理,来实现海上细分类别目标识别实时性与准确性的平衡。分层推理模型在图像预处理、细分类模型的输入层方面进行了改进。
2.1 图像预处理改进由于目标图像数据获取方式有限,通过各种渠道搜集到的海上舰船等目标图像的原始尺寸可能各不相同,需要通过预处理将其调整到满足模型输入要求的尺寸。在使用卷积神经网络对船舶等海上目标图像进行识别检测前需要进行图像缩放、归一化等操作。传统的图像缩放方法使用Letterbox方法在图像两边添加黑边再进行缩放,执行速度慢。本文使用快速仿射变换矩阵方法可以加速图像缩放流程,提升图像缩放的速度。快速仿射变换矩阵M由缩放矩阵S、平移矩阵O和平移矩阵T合并而成,通过定义的2×3变换矩阵,可以得到源图像任意像素值的坐标对应在目标图像上的位置。缩放矩阵定义为:
| $ \boldsymbol{S}=\left[\begin{array}{cc}\mathrm{scale} & 0 \\ 0 & \mathrm{scale}\end{array}\right]。$ | (1) |
式中:
将图像中心平移到左上角坐标原点可通过平移矩阵O实现,定义为:
| $ \boldsymbol{O}=\left[\begin{array}{c}-\dfrac{\mathrm{scale}\times\mathrm{Origin.width}}{2} \\ -\dfrac{\mathrm{scale}\times\mathrm{Origin.height}}{2}\end{array}\right]。$ | (2) |
将图片平移到目标位置的中心可通过矩阵T,定义为:
| $ \boldsymbol{T}=\left[\begin{array}{c}\dfrac{\mathrm{Dst.width}}{2} \\ \dfrac{\mathrm{Dst.height}}{2}\end{array}\right]。$ | (3) |
将3个矩阵合并得到快速仿射变换矩阵M:
| $ {\boldsymbol{M}=\left[\begin{array}{ccc}\mathrm{scale}& 0 &-\dfrac{\mathrm{scale}\times {\mathrm{Origin.width}}}{2}+\dfrac{\mathrm{Dst.width}}{2}\\ 0& \mathrm{scale} & -\dfrac{\mathrm{scale}\times \mathrm{Origin.height}}{2}+\dfrac{\mathrm{Dst.height}}{2} \end{array}\right] ,}$ | (4) |
| $ {\left[\begin{array}{c} {x}^{{{'}}} \\ {y}^{{{'}}} \end{array}\right]= \left[\begin{array}{ccc} \mathrm{scale}& 0& -\dfrac{\mathrm{scale}\times \mathrm{Origin.width}}{2}+\dfrac{\mathrm{Dst.width}}{2} \\ 0& \mathrm{scale} &-\dfrac{\mathrm{scale}\times \mathrm{Origin.width}}{2}+\dfrac{\mathrm{Dst.width}}{2} \end{array}\right]\left[\begin{array}{c} x\\ y\\ 1 \end{array}\right]。} $ | (5) |
细分类模型的输入会继承上层检测模型的识别结果,待检测图像通过YOLOv8检测模型后会输出图像中目标检测框、粗类别标签以及目标置信度,将目标检测框中的目标裁切后连同粗类别标签传递给ResNet50细分类模型。目标裁剪可尽量避免海上复杂天气和光照等环境背景被带入细分类模型。另外,粗类别标签天然包含了关于对应细类别的先验知识,例如阿利伯克级的细分类标签本身就隐含驱护舰的粗分类标签,本文创新性地提出了分类推理模型输入层的改进,见图5。将粗分类文本标签通过神经网络映射成一个与输入图像尺寸一致的单通道特征图,然后与输入图像进行通道维度的拼接,一并传入细分类模型进行训练和推理。以分层递进的方式将复杂的海上目标识别任务进行有效分解,将上层模型的先验知识引入后一层分类模型,极大提高了细分类标签的生成准确性。
|
图 5 输入层改进前后模型结构对比 Fig. 5 Comparison of model structure before and after input layer improvement |
本文基于各种公开渠道获取的海上舰船目标图像建立舰船数据集,通过粗分类模型分为军舰、补给船、工程船、医疗船、科考船等16类,再通过细分类模型确定具体舰船级。将数据集进行标注后,按照8∶1∶1划分为训练集、验证集和测试集。
本文的实验环境如下:CPU为Intel(R) Xeon(R) 6126T,GPU为Nvidia Quadro P4000,Windows10专业版系统,Pytorch为1.10.0框架及python3.8,优化器为Adam,批量大小设置为8,共训练200个epoch,实验结果取最好值。
3.2 评价指标本文实验采用平均精度(mAP)和每秒帧数(FPS)这2个关键指标进行模型评价。具体公式为:
| $ {m}{A}{P}={\int }_{0}^{1}{P}\left({R}\right)\mathrm{d}{R},$ | (6) |
| $ {F}{P}{S}={N}/{T}。$ | (7) |
式中:mAP为所有类别预测精度的平均数(本文mAP为mAP50);P为准确率;R为召回率;FPS为模型预测效率;N为所有经过模型预测的样本量;T为模型预测所耗费的总时长。
3.3 实际识别结果使用本文模型进行海上目标的分类识别,如图6所示,模型粗分类结果为“科考船”,细分类结果为“雪龙号”,可见该分层推理模型能够正确识别出舰船类别及具体舰船级。
|
图 6 部分识别结果 Fig. 6 Partial recognition results |
为验证本文提出的快速仿射变换矩阵方法对目标识别结果的提升作用,分别用传统的预处理方式和改进后的方式对收集的海上舰船目标数据集进行图像预处理,对比结果见表1。试验结果表明,mAP从88.7%提升至90.2%,FPS从69.6帧/秒提升至73.0帧/秒,本文提出的图像预处理改进方法在识别精度和效率上均有提升。
|
|
表 1 图像预处理方式改进前后实验结果 Tab.1 Experimental results of image preprocessing methods before and after improvement |
为验证细分类模型输入层改进对目标识别结果的提升作用,分别用输入层改进前后模型进行实验,对比结果见表2,试验结果表明,mAP从85.5%提升至90.2%,FPS从57.5帧/秒提升至73.0帧/秒,细分类模型输入层改进后在识别精度和效率上均提升明显,原因是改进后输入层包含了粗分类标签,分类定位更精准,计算量大幅减少。
|
|
表 2 细分类模型输入层改进前后实验结果 Tab.2 Experimental results of fine - grained classification model input layer before and after improvement |
为进一步验证本文分层推理方法在分类识别中的提升效果,基于海上目标数据集进行对比实验,模型选取较为经典的单层模型Faster R-CNN、SSD、YOLOv8、ResNet50和ConvNeXt,实验结果见表3。可知,本文提出的分层推理模型精度最高,其次为Faster R-CNN,然而Faster R-CNN模型复杂度高、计算量大,从而导致运行速率低。原因为单层模型直接对舰船目标进行精细识别,目标分类细,涉及的舰船级类别多,且同粗类别不同细分类的舰船目标存在较多相近特征不易区分,会降低精细识别的精度。而本文模型对同粗类别不同细分类的舰船数据有更强的类内相似度判断和类间区分度判别,能够实现图像目标粗细类别的准确高效划分。
|
|
表 3 不同网络模型性能对比实验结果 Tab.3 Performance comparison experimental results of different network models |
在识别速度上,本文提出的分层推理模型运行速率最高,其次为一阶段模型YOLOv8,然而YOLOv8没有进行二次特征提取,模型精度低。海域中舰船、飞机等所处海面包含大量海上的背景信息,再加上海上光照环境复杂,都会严重影响模型对特征的有效提取,直接将经过数据预处理后的图像输入单层检测/分类模型中进行细分类识别,会导致产生大量误识别标签。而先经过粗类别模型筛选,将其隐含的先验信息传递给ResNet50后,降低了无效背景信息传递给模型的风险,同时减少了模型计算量。总结得出,本文提出的分层推理模型能够较好提升海上目标图像识别的精度和效率。
4 结 语本文提出了一种基于分层推理的图像智能识别方法,以YOLOv8算法和ResNet模块为基础构建了一个粗细分类、逻辑递近的分层模型,其中对图像预处理以及细分类模型的输入层进行了改进。最后通过公开采集、整理的海上目标数据集进行实验,通过第一层粗分类模型确定舰船目标基本类型,再通过第二层细分类模型确定目标具体舰船级,结果表明本模型改进后较单层模型效果提升明显,为海上目标智能识别提供新思路。
| [1] |
马啸, 邵利民, 金鑫, 等. 改进的YOLO模型及其在舰船目标识别中的应用[J]. 电讯技术, 2019, 59(8): 869-874. DOI:10.3969/j.issn.1001-893x.2019.08.001 |
| [2] |
LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791 |
| [3] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems, 2012.
|
| [4] |
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014: 1409−1556.
|
| [5] |
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[J]. IEEE, 2016.
|
| [6] |
LIU Z, MAO H, WU C Y, et al. A ConvNet for the 2020s[J]. Arxiv E-prints, 2022.
|
| [7] |
REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149. |
| [8] |
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016.
|
| [9] |
WEI L, DRAGOMIR A, DUMITRU E, et al. SSD: Single shot multibox detector[J]. Springer, Cham, 2016.
|
| [10] |
文莉莉, 孙苗, 邬满. 基于Faster R-CNN的海域监管预警方法[J]. 吉林大学学报(信息科学版), 2021, 39(4): 421-429. |
| [11] |
张晓鹏, 许志远, 曲胜, 等. 基于改进YOLOv5深度学习的海上船舶识别算法[J]. 大连海洋大学学报, 2022, 37(5): 866-872. |
| [12] |
张建东. 融合深度监督与改进YOLOv8的海上目标检测[J]. 南京信息工程大学学报, 2024, 16(4): 482-489. |
| [13] |
EZZEDDINI L, KTARI J, FRIKHA T, et al. Analysis of the performance of Faster R-CNN and YOLOv8 in detecting fishing vessels and fishes in real time [J]. Computer Science, 2019: 9246−9255.
|
| [14] |
苏睿涵, 胡剑秋, 蔡庆, 等. 面向气象无人艇的实时海面场景分类方法[J]. 舰船科学技术, 2025, 47(6): 88-93. SU R H, HU J Q, CAI Q, et al. Real-time sea surface scene classification method for meteorological unmanned surface vehicles[J]. Ship Science and Technology, 2025, 47(6): 88-93. |
| [15] |
赵圆圆, 李月军, 李昌庆, 等. 基于深度神经网络的船舶图像识别检索研究[J]. 舰船科学技术, 2024, 46(3): 174-177. ZHAO Y Y, LI Y J, LI C Q, et al. Research on ship image recognition and retrieval based on deep neural network[J]. Ship Science and Technology, 2024, 46(3): 174-177. |
2025, Vol. 47
