2. 大连市自主航运安全技术重点实验室,辽宁 大连 116026;
3. 中远海运特种运输股份有限公司,广东 广州 510700;
4. 中交疏浚技术装备国家工程研究中心有限公司,上海 201314
2. Dalian Key Laboratory of Safety & Security Technology for Autonomous Shipping, Dalian 116026, China;
3. COSCO SHIPPING Specialized Carriers Co., Ltd, Guangzhou 510700, China;
4. China Communications Construction Company Research Center, Shanghai 201314, China
近年来,全球气候变暖导致北极海冰迅速消融,海冰密集度和海冰厚度均呈下降趋势,不仅促进了北极航道的开放,为探索北极资源提供便利,也对全球航运和贸易格局产生影响。然而,气候变暖同时增加了北极航行的风险,如不稳定的冰情和极端天气事件[1]。极地航行中,影响船舶安全的主要环境因素是复杂多变的海冰,大部分海域还伴有冰山,在洋流的作用下,海冰和冰山会发生漂移,对过往船舶造成损害[2]。北冰洋冰山受到风、浪和洋流的影响极易南下进入北极航道,增加了船冰碰撞风险。2019年1月19日,中国“雪龙”号科考船在阿蒙森海航行期间,由于能见度不良与冰山碰撞,造成了船首桅杆和部分舷墙受损。“Norwegian Sun”号邮轮在2022年6月25日开往阿拉斯加哈伯德冰川的航行中,因能见度不良未能及时发现冰山,撞击冰山导致船身受损。以上事件均体现了开展冰山检测研究以避免船冰碰撞具有重要现实意义。
现有的冰山检测方法,如卫星遥感[3],虽然拥有大范围、高空间时间分辨率的数据,但存在散射计空间分辨率较低、雷达高度计不能识别较大形变的冰山以及光学传感器准确性受环境影响大等问题,面临极区环境、重访周期和影像分辨率等因素的制约[4]。普通船用雷达很难检测冰山图像,人工瞭望也存在着可视距离有限以及受疲劳影响的缺点。深度学习技术的快速发展使解决以上问题成为可能[5]。国外学者已开始采用深度学习技术对海冰与冰山进行检测,如Weissling等[6]开发了EISCAM(Electronic Imaging System for Characterizing Arctic Marine)系统,该系统从船舶上获取和处理数字图像分析海冰参数。Barbat等[7]基于SAR图像开发了一种用于冰山检测的自适应机器学习方法。Ramasubiramanian等[8]运用综合通道特征和Fast R-CNN方法对船舶和冰山进行分类。Panchi等[9]介绍了一个基于深度学习的图像分割系统,旨在自动检测和定位近距离光学图像中的海冰形态。此外,Dowden等[10]学者也使用语义分割技术来自动检测和分类海冰类型,并通过破冰船上的光景图像验证深度学习方法在海冰检测方面的适用性。国内方面,肖湘文等[11]基于Sentinel-1A数据,比较了多种机器学习算法在冰山检测中的效果。舒苏等[12]开发基于“双冒泡法”的SAR影像冰山检测方法,对冰山边界具有较好的分离效果。胡冰等[13]基于实船观测图像,对北极东北航线窗口期的海冰情况进行研究,进一步验证了基于深度学习的视觉检测方法的优势。随着深度学习技术的进步,冰山的自动检测和处理能力已得到显著提高。其中,基于深度学习的YOLO系列算法在多个领域展示了其快速的检测速度、高精度和强泛化能力的特点。但YOLO算法对小目标和密集场景的检测效果较差[14],需要进一步改进以适应复杂的冰山场景。在目标检测任务中,引入注意力机制已被证明可以显著提高算法性能。
鉴于此,本文以YOLO v7算法为基础,通过使用k-means++算法对聚类中心选取算法进行优化,获得更匹配的锚框(anchor boxes)尺寸,并引入CA(Coordinate Attention)注意力机制,对YOLO v7算法进行改进,以提高算法特征提取能力,提升检测准确性和效率,进而适应复杂多变的北极冰山检测需求,并为防止船冰碰撞提供技术支持。
1 YOLO系列目标检测算法YOLO算法由充当主要特征提取网络的骨干网络(Backbone)、融合提取特征层连接到骨干网络进行进一步加工的颈部(Neck)和用于对目标分类和预测的头部(Head)组成[15],涵盖从特征提取到最终目标检测的全流程。YOLO系列的每一代算法都是在前一代算法的基础上改进而产生的,迭代时间顺序如图1所示。因此,通过分析算法迭代上的不同,可以在一定程度上实现算法性能方面的对比。
![]() |
图 1 YOLO 算法迭代时间顺序 Fig. 1 YOLO algorithm iteration timeline |
YOLO v1算法将整个图像分割成网格,每个网格单元负责预测2个边界框,提供相应的置信度和类别概率。这种方法提高了检测速度并实现了实时检测,但算法结构相对简单,与R-CNN(Regions with Convolutional Neural Network features)等算法相比,其在检测小物体时表现不佳,精度较低。YOLO v2算法针对v1版本存在的问题做出以下改进,使用Darknet-19作为基础网络,提高特征提取能力;引入批归一化层加速收敛,提高模型性能;加入锚框机制改善小物体检测精度。使得YOLO v2算法在在
YOLO v4算法引入了CSPDarknet53作为骨干网络,提高了计算效率和检测性能。采用了新的数据增强技术(如Mosaic),并综合使用了CIoU(Complete Intersection over Union)、DropBlock正则化等改进训练,使得YOLO v4在保持高速度的同时保持高检测精度。但也存在模型大导致的计算复杂,锚框较大导致对边界目标以及小目标检测效果差的问题。YOLO v5首次使用Pytorch框架实现,简化了模型的训练和部署过程,与v4算法相比,YOLO v5计算量更小。但v5算法在大物体检测方面效果不好,对轻量化的追求导致其精度有所损失。
YOLO X引入了无锚机制(anchor-free),简化了模型的设计,减少了锚点设置的复杂性和计算开销。无锚机制使得模型能够直接预测目标的中心点和边界框的偏移量,提升了检测的灵活性和精度。YOLO X在小目标检测和多目标检测效果较好,但存在着检测速度的局限性。YOLO v6算法通过对网络结构进行优化,使用新的Rep-PAN(Representation-Path Aggregation Network)网络结构、轻量化设计与优化损失函数,使得YOLO v6在保持高精度的同时,具备了更快的收敛速度和更强的泛化能力。
YOLO v7算法主要关注算法结构优化和训练过程的优化[14],改进了特征金字塔网络(Feature Pyramid Network,FPN)和路径聚合网络(PAN)、设计了一种新的扩展高效层聚合网络(Extended-Efficient Layer Aggregation Network,E-ELAN),并在训练过程中使用辅助头,使其能够在移动或者远程图像处理设备等低端设备上运行。YOLO v7提出基于级联的模型缩放策略,从而生成不同尺寸的模型,减少了参数量和计算量,使得模型更加轻量化。通过这种方式,YOLO v7可以在进行实时目标检测的同时,保证在大数据集上训练时具有较高的精度和整体检测性能的提升。但同时也存在着需大量计算资源和对小目标检测效果较差的问题。YOLO v8改进骨干网络和Neck结构、解耦头结构以及优化的损失函数设计,使得YOLO v8在保持高精度的同时,具备了更强的灵活性和泛化能力。但由于模型复杂,YOLO v8在进行检测时需较大的计算资源和时间。
通过上述对于YOLO系列算法的对比分析可以看出,YOLO v7算法具有较高的检测精度和检测速度,同时模型更加轻量化,能够在移动或者远程图像处理设备等低端设备上运行,更加适用于冰山检测任务。
2 基于冰山图像的数据集构建与标注 2.1 冰山的定义本文使用的冰山定义基于中国船级社编写的《极地水域操作手册编写指南2017》,其中,冰川冰指在陆上冰川分离或崩裂漂浮在海面上的冰,包括冰山、小冰山和碎冰山[16]。
冰山是指从极地冰盖或冰川的临海一端碎裂落入海中,漂浮的大块淡水冰。小冰山系指大块漂浮的冰川冰,海面上高度小于5 m,长度小于等于20 m;碎冰山是比小冰山小的冰川冰块,一般呈白色,但有时呈透明或蓝绿或接近黑色,通常占据约20 m2。当碎冰山处于海冰以及汹涌浪中因常常被浪潮冲打,难以辨别[16]。
2.2 数据集制作相比于已经达到成熟状态的自动驾驶、行人跟踪和物体检测等领域,冰山检测领域缺乏公开数据集[17]。因此,本文构建自定义数据集以满足对冰山检测的需求。实验所用数据集由2个部分图像构成:一部分源自“Nathaniel B. Palmer”号破冰船在南极罗斯海2个月航行期间,使用GoPro相机从固定位置拍摄的视频帧;另一部分图像通过网络搜索获得,包括冰山和船舶图片,以辅助模型训练。为扩充数据集并提高模型泛化能力,采用几何变换、水平翻转、颜色空间调整、对比度增强和随机剪裁等预处理技术,最终形成了包含946张图片的数据集。
图2展示了数据集中部分图片样例。为准备训练数据,使用GitHub中的开源脚本LabelImg软件手动对数据集中图像进行标注,为图中每个目标物体绘制边界框并分配类别标签(例如“船”、“冰山”等)。标注完成后,进行数据清洗和筛选,去除质量低下图像、修正标注错误,并确保每个标注物体都具有精确类别标签和边界框,保障数据集的质量。数据集按照9∶1比例随机划分出训练集和测试集,用以训练模型。
![]() |
图 2 数据集图片 Fig. 2 Dataset images |
YOLO v7的深层网络结构能提取丰富的特征信息,但对于一些细微差别和特定场景下的特征提取,仍有提升空间。通过k-means++算法对anchor重新聚类和引入注意力机制,可以优化模型特征提取过程,使模型更好地捕捉到对检测任务重要的特征。
3.1 锚框的选取在YOLO v7模型中,锚框的选取是一个关键步骤,用于改善模型在检测不同尺寸和比例的物体上的效果。边界框(bounding box)的预测以锚框为基础,合适的锚框可以帮助模型更准确地预测边界框,减少预测误差,从而提高模型的准确率和召回率。
YOLO v7模型中anchor boxes的选取是使用k-means聚类直接从数据中学习锚框的尺寸和比例,将一组数据分成
步骤1 随机选择一个样本作为第一个聚类中心
步骤2 计算每个样本点
步骤3 重复步骤2,直到选出
经过对聚类方法的改进,在本文数据集上对2种聚类方法进行了对比,结果如图3所示。从对比结果可以看出,k-means聚类对聚类中心的选取收敛到局部最优解非全局最优,而本文选取的聚类方法在选择上更加平均,得到了较好的聚类中心。
![]() |
图 3 聚类中心选取方法比较 Fig. 3 Comparison of methods for selecting cluster centers |
注意力机制是一种模拟人脑注意力的模型,可以看作一个组合函数,通过计算注意力的概率分布来突出特定输入对输出的影响[18]。在深度学习领域,注意力机制已被广泛认为是提升模型性能的有效手段,特别是在目标检测任务中,能够精确地聚焦于图像关键部分。在传统神经网络结构中,如RNN(Recurrent Neural Network),在处理长序列时面临长程依赖问题。而在长程依赖问题中,注意力机制能够有效地捕获序列中长程依赖关系。注意力机制允许模型在处理信息时重点关注某些部分,忽略其他部分,模拟人在处理信息时选择性关注能力[19]。注意力机制作为额外模块,可以方便集成到现有网络结构中,增强模型表示能力,同时不明显增加计算复杂度。
CA(Coordinate Attention)注意力机制[20]作为目前应用广泛的注意力模型之一,具有模型设计简单、计算效率高、泛化能力强大和适配多种网络结构等优点。其结构如图4所示。图中,
![]() |
图 4 CA模块结构[20] Fig. 4 CA module structure |
CA注意力机制通过沿宽度和高度方向对输入特征图进行聚合和转换,生成方向性特征向量,从而优化原始特征图以强化对关键空间区域的关注。相较于传统注意力机制(如SE(Squeeze-and-Excitation)注意力机制),CA注意力机制对空间维度的分析与关注方面表现更好,能够在复杂背景或目标尺寸变化较大情况下有效提高模型检测能力。
3.3 改进后的网络结构在极地冰山检测任务中,光照、降雪等环境因素显著增加了冰山与结冰海面之间视觉相似度,进而加大检测难度。面对这一挑战,本文对YOLO v7模型结构进行改进,在加强特征提取网络部分中的P5特征层引入CA注意力机制,通过对特征重新加权,提升模型对冰山关键特征检测能力。CA机制的引入不仅增强了模型对于冰山特征的敏感度,而且通过降低不相关或干扰性信息影响,进一步优化检测过程。通过这种方式,改进后的网络能够在极端环境条件下,如强烈光照反射或降雪时,有效区分冰山与海面,提高冰山检测准确性。
4 冰山检测实验 4.1 训练过程本文搭建的实验运行环境为Win11操作系统,GPU模型为基于pytorch深度学习框架实现的NVDIA geforce RTX 3070。输入网络的图像尺寸为(640,640,3),共训练200个epoch,batch size设置为5,使用随机梯度下降算法SGD(Stochastic Gradient Descent)对参数优化,权重衰减系数设置为
为深入研究本文所提方法在冰山检测上的有效性,基于同一数据集,本文对比了DeeplabV3+模型,YOLO v7模型与改进后YOLO v7模型。图5为改进YOLO v7模型对不同冰山场景的检测结果,从检测结果可以看出,本文所提方法对大部分冰山检测有效,检测结果准确度较高。
![]() |
图 5 改进YOLO v7模型对不同冰山的检测结果 Fig. 5 Improving the YOLO v7 model's detection results for different icebergs |
1)复杂多变环境下的检测结果对比
图6为3种模型在多障碍物遮挡条件下检测冰山效果对比。从检测结果可以看出,DeeplabV3+模型和改进后的YOLO v7模型在多障碍物遮挡情况下都可对冰山和船舶实现准确检测,YOLO v7原模型没有正确检测出遮挡部分的冰山。
![]() |
图 6 3种模型在多障碍物遮挡条件下检测冰山效果图 Fig. 6 Comparative illustration of three models detecting icebergs under conditions with multiple obstacles |
图7为在能见度不良情况下对冰山检测结果对比。实验结果显示,针对不清晰的远处冰山,相较于其他2种模型,改进后的YOLO v7模型,具有更高的检测准确性,能够适应更复杂的环境。
![]() |
图 7 3种模型在能见度不良的情况下的检测结果对比 Fig. 7 Comparison of detection results of three models under poor visibility conditions |
以上实验结果表明,CA注意力机制的引入,增强了模型对于冰山特征的敏感度,同时抑制了复杂多变环境下不相关或干扰性信息的影响,相较于基础的YOLO v7模型和DeeplabV3+模型,本文所提方法具有一定的优越性。
2)损失函数对比
使用上述模型迭代200次后,所得到损失函数如图8所示。
![]() |
图 8 3种模型的损失函数曲线 Fig. 8 Loss function curves of three models |
可以看出,YOLO v7模型与改进后YOLO v7模型的损失函数都可以快速收敛,而DeeplabV3+模型收敛速度则较慢。相比于其他2种模型,随着迭代次数不断增加,由于注意力机制的引入,改进后的YOLO v7模型损失函数收敛于更低水平。
3)对比分析
为评估模型性能,本文选取平均精度均值(mean Average Precision,mAP)、参数量(Parameters)、浮点运算次数(Giga Floating-point Operations)、精确度(Precision)和召回率(Recall)作为评价指标。mAP为评估检测模型的直观标准,表示平均精度(Average Precision,AP)的平均值,反映了模型在所有类别上的综合性能。精确度指的是在所有检测为正样本的中正确检测的比例[14]。召回率则指在所有实际为正样本的实例中,被正确预测出的比例[14]。
由表1可以看出,改进后的YOLO v7模型在参数量和计算量几乎保持不变的情况下,显示出优越的性能表现。本文方法与YOLO v7原模型对比,mAP、精度与召回率均更高,且mAP提升了5.41%,召回率提升了7.29%,表明改进后的YOLO v7模型在不增加计算复杂度的同时具有更高检测精度。
![]() |
表 1 对比试验结果 Tab.1 Performance comparison between different detection methods |
1)本文在YOLO系列目标检测算法进行归纳总结的基础上,根据冰山检测需求,提出一种基于改进YOLO v7模型的冰山检测方法,并结合实船图像与网络图像构建自定义标注数据集。通过改进聚类中心选取算法,获取了更适合冰山特征的锚框尺寸,同时引入了CA注意力机制,使改进后的YOLO v7模型聚焦于冰山关键特征,提升了算法在障碍物遮挡和能见度不良情况下检测冰山能力。
2)相较于DeeplabV3+模型和YOLO v7模型,本文提出的改进模型在冰山检测上准确率更高,损失函数收敛更快。改进模型在维持原模型计算量的情况下,mAP与原模型相比提升了5.41%,可为极地航行避免船冰碰撞提供参考。
3)尽管本模型具有较好的收敛性和精度,但受限于数据集样本数量与多样性,检测能力仍有待于进一步提升。后续研究将着重扩展数据集和改善算法,增加不同季节、光照与天气条件下的冰山图像,提升数据集的覆盖范围和质量,增强模型对冰山特征检测的准确性。
[1] |
MUDRYK L R, DAWSON J, HOWELL S E L, et al. Impact of 1, 2 and 4 C of global warming on ship navigation in the Canadian Arctic[J]. Nature Climate Change, 2021, 11(8): 673-679. DOI:10.1038/s41558-021-01087-6 |
[2] |
孙鹤泉, 李春花, 张志刚. 基于遥感图像分析的极区海冰漂移研究[J]. 海洋技术学报, 2015, 34(1): 10-14. |
[3] |
倪汉健, 吴建华. 极地航行中海冰目标的雷达图像识别方法研究[J]. 武汉理工大学学报(交通科学与工程版), 2015, 39(4): 793-796. |
[4] |
屈猛, 赵羲, 庞小平, 等. 北极冰间水道区域的物理过程和遥感观测研究进展[J]. 地球科学进展, 2022, 37(4): 382-391. DOI:10.11867/j.issn.1001-8166.2021.102 |
[5] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. DOI:10.1145/3065386 |
[6] |
WEISSLING B, ACKLEY S, WAGNER P, et al. EISCAM—Digital image acquisition and processing for sea ice parameters from ships[J]. Cold Regions Science and Technology, 2009, 57(1): 49-60. DOI:10.1016/j.coldregions.2009.01.001 |
[7] |
BARBAT M M, WESCHE C, WERHLI A V, et al. An adaptive machine learning approach to improve automatic iceberg detection from SAR images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 156(62): 247-259. DOI:10.1016/j.isprsjprs.2019.08.015 |
[8] |
RAMASUBIRAMANIAN S S, SIVASUBRAMANIYAN S, MOHAMED M F P. Aggregate channel features and fast regions CNN approach for classification of ship and iceberg[J]. Applied Sciences-Basel, 2023, 13(12): 72−92. DOI:10.3390/app13127292 |
[9] |
PANCHI N, KIM E, BHATTACHARYYA A. Supplementing remote sensing of ice: Deep learning-based image segmentation system for automatic detection and localization of sea-ice formations from close-range optical images[J]. IEEE Sensors Journal, 2021, 21(16): 18004-18019. DOI:10.1109/JSEN.2021.3084556 |
[10] |
DOWDEN B, DE SILVA O, HUANG W, et al. Sea ice classification via deep neural network semantic segmentation[J]. IEEE Sensors Journal, 2020, 21(10): 11879-11888. |
[11] |
肖湘文, 沈校熠, 柯长青, 等. 基于Sentinel-1A数据的多种机器学习算法识别冰山的比较[J]. 测绘学报, 2020, 49(4): 509-521. DOI:10.11947/j.AGCS.2020.20190174 |
[12] |
舒苏, 柯长青, 周兴华, 等. 基于“双冒泡法”的SAR影像冰山识别[J]. 海洋科学进展, 2019, 37(1): 92−101.
|
[13] |
胡冰, 于淼, 李志远, 等. 基于实船观测的北极东北航线窗口期海冰冰情研究[J]. 船舶力学, 2021, 25(8): 1002−1009.
|
[14] |
邓亚平, 李迎江. YOLO算法及其在自动驾驶场景中目标检测研究综述[J]. 计算机应用, 2024, 44(6): 1949−1958.
|
[15] |
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]// Computer Vision and Pattern Recognition. IEEE, 2016.
|
[16] |
中国船级社. 极地水域操作手册编写指南2017[M]. 北京: 中国船级社, 2016.
|
[17] |
张雪薇, 韩震, 郭鑫. 深度学习在海洋信息探测中的应用: 现状与展望[J]. 海洋科学, 2022, 46(2): 145-155. |
[18] |
朱张莉, 饶元, 吴渊, 等. 注意力机制在深度学习中的研究进展[J]. 中文信息学报, 2019, 33(6): 1-11. DOI:10.3969/j.issn.1003-0077.2019.06.001 |
[19] |
任欢, 王旭光. 注意力机制综述[J]. 计算机应用, 2021, 41(S1): 1-6. DOI:10.11772/j.issn.1001-9081.2020101634 |
[20] |
HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA. IEEE, 2021.
|