2. 中国人民解放军 92020部队,山东 青岛 266000
2. No.92020 Unit of PLA, Qingdao 266000,China
当前,水下无人潜航器发展迅猛,基于水下无人平台的声呐搜探需求越来越大,无论侧扫声呐、前视声呐还是合成孔径声呐,其声呐在获取目标图像后都需进行自动检测,否则无法在无人状态下开展进一步工作[1]。深度学习作为人工智能的一种方法,由于不需要人工选定特征且特征提取效果好,被广泛用于图像分类、图像识别、图像分割等领域[2 − 5]。但深度学习要想发挥出检测优势,需要大量的图像样本作为支撑。由于海洋环境复杂、扫测成本较高等因素,获取水下目标的侧扫声呐图像难度较大,尤其是获得复杂海底环境条件下的小目标声呐图像难度更大。为解决深度学习中样本不足的问题,很多学者通过迁移网络上大型公开数据集或收集本领域的相似数据集来提升检测性能,很少针对水下小目标侧扫声呐图像自动检测开展专项试验。
1 相关研究 1.1 图像自动检测相关研究图像自动检测方法大体上分为两类,一类是基于传统算法,一类是基于深度学习。在水下目标声呐图像检测领域,陈强等[6]利用均值、标准差等统计特性和对比度、熵值等纹理特性联合构造特征向量,可以区分河床地貌。王涛等[7]构建了由对比度、逆差矩、灰度平均值等6个灰度共生矩阵特征值组成的纹理特征,开展海底底质分类研究。董凌宇等[8]设计了盒计数、双毯覆盖模型与多重分形谱分形算法,对沉船声图进行了检测。罗进华等[9]采用形态学方法,对分布有沉没渔船和珊瑚礁的海底地貌声图进行了处理。随着CPU和GPU等计算机硬件的快速发展,基于深度学习的目标检测方法逐渐成为主流,在复杂场景中检测性能表现较好[10]。其主要分为两类,一类是基于区域的两阶段目标检测方法,经典模型有Girshick等[11 − 12]提出的R-CNN和Fast R-CNN模型,何凯明等[13]提出的SPPNet模型,Ren等[14]提出的Faster R-CNN模型。另一类检测方法是单阶段目标检测,经典模型有Redmon等[15]提出的仅通过一次前向传导的YOLO模型,Liu等[16]提出的SSD模型,Lin等[17]提出的FPN模型。
1.2 迁移学习相关研究迁移学习[18]是一种将已知领域的知识应用在目标领域的方法,对于深度学习来说,是将已训练好的模型作为初始化模型,在此基础上对目标数据集进行训练。针对深海探测中检测样本不足的问题,李庆忠等[19]基于YOLO模型,提出了结合限制对比度自适应直方图均衡化的迁移学习训练方法,使小样本训练集发挥出较好的效果。范博等[20]开展了基于Faster R-CNN、SSD、YOLOv3、YOLOv3-SPP网络结构与结合迁移学习的目标检测算法的研究,实验结果表明,迁移学习可以有效改善检测性能。陈佳辉等[21]将迁移学习方法应用到了AlexNet、VGG16、VGG19、InceptionV3、ResNet50检测模型,实验表明迁移学习比传统方法具有更高准确率。武铄等[22]提出一种联合迁移学习和深度学习的沉船侧扫声呐图像识别方法,实验结果显示,迁移学习算法有利于提高小样本情况下卷积神经网络的正确率,并且源域与目标域的相关性对于检测效果的提升有一定影响。
2 预先准备 2.1 模型选择由于YOLO模型算法简洁,泛化能力较强,做迁移时鲁棒性高,因此发展最快,工程化程度最高。自第一版YOLO推出后,各公司团队陆续跟进,从2015年的YOLOv1,2016年的YOLOv2,2018年的YOLOv3,到2020年的YOLOv4、YOLOv5,以及2022年的YOLOv6和YOLOv7。YOLO将目标检测问题转化为一个回归问题,仅使用一个深度卷积神经网络模型进行目标检测,能以较高的准确率实现快速目标检测与识别。尤其是YOLOv7将其检测模型中的“卷积+BN”结构统一由卷积替换,在保证检测精度的情况下,提升了检测速度。从实验结果上来看,YOLOv7已获得最先进结果,是目前最稳定、最高效的目标检测器,因此选用YOLOv7作为检测模型,其网络结构如图1所示[23]。
|
图 1 YOLOv7网络结构图 Fig. 1 YOLOv7 network structure |
精确率是指在预测为正的所有样本中,实际为正样本的概率。
| $ {P} = \frac{{TP}}{{TP + FP}}。$ | (1) |
式中:TP(True Positive)为将正类预测为正类的数量;FP(False Positive)为将负类预测为正类的数量。
2.2.2 召回率(R)召回率是指在真实值为正的所有样本中,实际为正样本的概率。
| $ {{R}} = \frac{{TP}}{{TP + FN}}。$ | (2) |
式中:TP(True Positive)为将正类预测为正类的数量;FN(False Negative)为将正类预测为负类的数量。
2.2.3 F1值精确率和召回率是一对矛盾体,两者此消彼长,想要更高精确率,召回率就会降低,反之,想要更高召回率,精确率就会降低。为综合评估模型检测性能,找到精确率和召回率之间的平衡点,引入一个新的指标F1值。
| $ {{F}}_1 = \frac{{2P{{R}}}}{{P + {{R}}}} ,$ | (3) |
| $ {{F}}_1 = \frac{{2{{TP}}}}{{2TP + FN + FP}}。$ | (4) |
mAP是用精确率和召回率作为坐标轴作图后围成的面积,m表示平均,@后面的数表示判定为正负样本的阈值,mAP@0.5表示检测准确度(IoU)大于0.5的平均mAP,mAP@0.5-0.95表示在不同IoU阈值(0.5~0.95,步长0.05)上的平均mAP。
| $ AP = \int_0^1 {P(R)} {\rm d}R 。$ | (5) |
迁移学习是一种通过从已学习的相关任务中转移参数来帮助完成新任务的方法,其核心思想是模型的复用,把任务A训练的模型参数作为初始点,重新使用在任务B中。深度学习需要训练大量数据,对于一些数据较少的样本往往训练效果不佳。迁移学习将已训练好的模型作为初始化模型,在此基础上对目标数据集进行训练,这样能有效解决小样本数据的学习问题,避免因数据集过小而出现过拟合的现象,提高模型的训练速度和检测性能。
3.2 具体设计在模型训练过程中,首先采用源域训练初始的YOLOv7模型,得到训练权重,然后通过加载该权重来初始化主干特征提取网络的权值,再利用目标域对YOLOv7算法中的网络模型进行微调和训练,进而训练出特征提取效果优秀的目标检测模型,具体实现过程如下:
步骤1 收集COCO图像集;
步骤2 建立标准化全屏初始声图集(声图集1)、全屏高低频同标声图集(声图集2)、局部低频声图集(声图集3)、局部高频声图集(声图集4)、局部高低频融合声图集(声图集5);
步骤3 以COCO数据集为源域,以声图集1~图集5为目标域,分别进行迁移训练和检测,研究跨类别迁移学习效果;
步骤4 以局部低频声图集为源域,以局部高频声图集为目标域,进行迁移训练和检测,再以局部高频声图集为源域,以局部低频声图集为目标域,进行迁移训练和检测,研究跨频率迁移学习效果;
步骤5 分别以局部低频声图集和局部高频声图集为源域,全屏初始声图集为目标域,进行迁移训练和检测;以全屏初始声图集为源域,分别以局部低频声图集和局部高频声图集为目标域,进行迁移训练和检测,研究垮尺寸迁移学习效果;
步骤6 以COCO数据集为源域,数据集2~数据集5为目标域,进行迁移训练,得到训练权重,再以全屏初始声图集为目标域,进行迁移训练和检测,比较在同一基线条件下新扩增的4个声图集对初始声图集的迁移学习效果。
4 实 验 4.1 数据集 4.1.1 COCO数据集COCO(Microsoft Common Objects in Context)起源于微软2014年出资标注的Microsoft COCO数据集,以此为检测对象而开展的比赛被视为是计算机视觉领域最受关注和最权威的比赛之一。COCO数据集是一个大型的、丰富的物体检测数据集,有超过33万张图片,通过使用亚马逊的Mechanical Turk(AMT)收集图像,包含自然和生活中常见的光学目标图片,背景较复杂,目标数量众多,与另一个著名的网络公开数据集ImageNet相比,目标尺寸更小,更接近水下小目标的声呐图像。
4.1.2 全屏初始声图集(声图集1)使用冲锋舟搭载侧扫声呐开展小目标扫测,侧扫声呐采用高低频同步工作模式,为同步显示高低频图像,提升扫测效率,增大检测视野,截取瀑布图全屏图像。对其做标准化处理,得到目标声图313张,构造声图集1。在目标标定时,考虑装备实际应用,坚持“眼见为实”原则,只对声图集1中人眼可辨的目标进行标定,声图示例见图2。
|
图 2 全屏初始声图集示例 Fig. 2 Example of full screen initial acoustic atlas |
根据声呐工作原理,在高低频声呐同时工作的情况下,假若声呐高(低)频探测到目标,理论上低(高)频也应当探测到目标,但由于不同材质的目标对不同频率声波反射和吸收能力不同,导致目标仅在图像的高频或低频界面显示目标,在另一频率区域没有显示。根据这一原理,对声图集1中的图像进行高低频协同标定,即声图中任一频率界面检测到目标,则在另一频率界面对应位置采用同样尺寸的标注框进行标定,构成声图集2,声图示例见图3。
|
图 3 全屏高低频同标声图集示例 Fig. 3 Example of full-screen high and low frequency symphonics atlas |
为研究侧扫声呐不同频率情况下生成的声图以及图像尺寸、样本数量对模型检测性能的影响,对全屏声图中包含目标部分进行裁剪处理,将低频区域构造为声图集3,声图示例见图4。
|
图 4 局部低频声图集示例 Fig. 4 Example of local low frequency acoustic atlas |
同声图集3,对声图集1进行局部处理后,将高频区域构造为声图集4,声图示例见图5。
|
图 5 局部高频声图集示例 Fig. 5 Example of local high frequency sound atlas |
为研究样本数量和图像类别对模型检测效果的影响,将局部高频声图集和局部低频声图集进行融合,构造声图集5。
各声图集具体设置情况见表1。
|
|
表 1 声图集设置情况表 Tab.1 Sound atlas settings table |
海试选用中海达
|
|
表 2 海试用侧扫声呐参数 Tab.2 Sea trial side scan sonar parameters |
|
|
表 3 模型实验环境参数 Tab.3 Model experimental environment parameters |
1)实验过程
将模型初始权重设为0,训练次数(Epoch)设为100,在声图集1~声图集5的训练集上分别进行训练,依次得到权重文件YOLOv7-1、YOLOv7-2、YOLOv7-3、YOLOv7-4、YOLOv7-5,并在各自对应的测试集上进行测试,流程见图6。
|
图 6 实验1流程图a Fig. 6 Experiment 1 flow chart a |
将模型初始权重设为0,Epoch设为100,在COCO数据集上进行训练,得到权重文件YOLOv7-COCO;再将模型初始权重设为YOLOv7-COCO,Epoch设为100,在声图集1~图集5的训练集上分别进行训练,依次得到权重文件YOLOv7-COCO-1、YOLOv7-COCO-2、YOLOv7-COCO-3、YOLOv7-COCO-4、YOLOv7-COCO-5,并在相应测试集上进行测试,流程见图7。
|
图 7 实验1流程图b Fig. 7 Experiment 1 flow chart b |
2)实验结果
实验结果罗列了检测模型检能评价常用的5个评价指标,其中精确率P和召回率R表征检测性能的不同方面,二者不可兼顾,为全面表征模型检测性能,重点考虑F1进行模型总体性能评价,检测数据见表4。
|
|
表 4 实验1检测数据 Tab.4 Experiment 1 detected data |
3)实验结论
在未使用COCO数据集迁移学习的情况下(初始权重为0),模型在各声图集的综合检测能力性能(F1值)由优到劣排序是:声图集5>声图集3>声图集1>声图集4>声图集2。声图集5性能最优,即局部高低频融合声图集性能最优,表明样本数量对检测性能影响最大,样本越多,检测性能越优;声图集3的检测性能优于声图集4,即局部低频声图集检测性能优于局部高频声图集,表明侧扫声呐低频成像目标更容易被发现,与传统人眼识别中认为的低频比高频成像模糊的感官不同,在深度学习自动检测中可以发挥低频声呐探测距离远的优势。
在使用COCO数据集迁移学习的情况下(初始权重为YOLOv7-COCO),模型在各声图集的检测性能:YOLOv7-COCO-1>YOLOv7-0-1、YOLOv7-COCO-2>YOLOv7-0-2、YOLOv7-COCO-4>YOLOv7-0-4、YOLOv7-COCO-5>YOLOv7-0-5,表明经过使用COCO数据集的迁移学习,对于大多数声图集来说,检测性能得到了提升,但YOLOv7-COCO-3<YOLOv7-0-3,说明局部低频声图是个特例,原因可能是深度学习检测到的低频声图特征与以光学图像为主的COCO数据集特征差异较大。
4.3.2 跨频率迁移1)实验过程
将模型初始权重设为YOLOv7-COCO-4,Epoch设为100,在声图集3中进行训练,得到权重文件YOLOv7-COCO-4-3,然后在其测试集上进行测试。
将模型初始权重设定为YOLOv7-0-3(选用性能优者进行迁移),Epoch设为100,在声图集4中进行训练,得到权重文件YOLOv7-0-3-4,并在其测试集上进行测试。流程见图8。
|
图 8 实验2流程图 Fig. 8 Experiment 2 flow chart |
2)实验数据
在相应的测试集上进行测试,检测数据见表5。
|
|
表 5 实验2检测数据 Tab.5 Experiment 2 detected data |
3)实验结论
可知,YOLOv7-COCO-4-3检测性能优于YOLOv7-0-3检测性能,表明模型经过局部高频声图集迁移训练后,局部低频声图集的检测性能得到了提升。YOLOv7-0-3-4检测性能优于YOLOv7-0-4检测性能,表明模型经过局部低频声图集迁移训练后,局部高频声图集的检测性能也得到了提升,且提升幅度较大。
将局部高频声图集训练权重迁移至局部低频声图集,训练性能提升0.016,而将局部低频数据集迁移至局部高频声图集,检测性能提升0.266,再次表明低频声图包含的适用于深度学习检测模型的目标特征更优于高频声图集,与4.3.1中的结论1一致。
4.3.3 垮尺寸迁移1)实验内容
将模型初始权重设为YOLOv7-0-3,Epoch设为100,在声图集1中进行训练,得到权重文件YOLOv7-0-3-1,并在其测试集上进行测试,得到检测数据。
将模型初始权重设定为YOLOv7-0-1,Epoch设为100,在声图集3中进行训练,得到权重文件YOLOv7-0-1-3,并在其测试集上进行测试,得到检测数据。
将模型初始权重设定为YOLOv7-COCO-4,Epoch设为100,在声图集1中进行训练,得到权重文件YOLOv7-COCO-4-1,并在其测试集上进行测试,得到检测数据。
将模型初始权重设定为YOLOv7-0-1,Epoch设为100,在声图集4中进行训练,得到权重文件YOLOv7-0-1-4,并在其测试集上进行测试,得到检测数据。流程见图9。
|
图 9 实验3流程图 Fig. 9 Experiment 3 flow chart |
2)实验数据
在相应的测试集上进行测试,检测数据见表6。
|
|
表 6 实验3检测数据 Tab.6 Experiment 3 detected data |
3)实验结论
可知,YOLOv7-0-3-1与YOLOv7-COCO-4-1检测性能均优于YOLOv7-0-1,表明模型经过局部高频声图集和局部低频声图集的迁移训练后,使全屏初始声图集的检测性能得到了提升。
YOLOv7-0-1-3检测性能优于YOLOv7-0-3,YOLOv7-COCO-1-4检测性能优于YOLOv7-COCO-4,表明模型经过全屏初始声图集迁移训练后,使局部低频声图集和局部高频声图集的检测性能也都得到了提升。
可知,对于同一类别图像,通过图像尺寸的迁移学习可以有效提升检测性能,为后续基于更小尺寸构建更多样本提供思路。
4.3.4 性能比对迁移为进一步比较4类图像扩增方法所构造的数据集对初始数据集检测性能的影响,将模型直接对全屏初始声图集进行检测得到的数据设为基线(基准值),使用声图集2~图集5分别对其进行迁移学习,最后对检测结果进行比较。
1)实验内容
将模型初始权重分别设为YOLOv7-COCO-2、YOLOv7-0-3、YOLOv7-COCO-4、YOLOv7-COCO-5,Epoch设为100,在声图集1中进行训练,得到对应的权重文件,并在其测试集上进行测试,得到各自的检测数据。流程见图10。
|
图 10 实验4流程图 Fig. 10 Experiment 4 flow chart |
2)实验数据
在相应的测试集上进行测试,检测数据见表7。
|
|
表 7 实验4检测数据 Tab.7 Experiment 4 detected data |
3)实验结论
可知,直接对全屏初始声图集进行训练和检测,F1值为0.617;经过全屏高低频同标声图集迁移训练后,F1值为0.884,提升0.267;经过局部低频声图集迁移训练后,F1值为0.775,提升0.158;经过局部高频声图集迁移训练后,F1值为0.783,提升0.166;经过局部高低频融合声图集迁移训练后,F1值为0.923,提升0.306。结论表明,模型在经过4种新扩增声图集的迁移训练后,使全屏初始声图集的检测性能均得到了提升。
结果显示,在经过局部高低频融合声图集迁移学习后,检测性能提升幅度最大,表明样本数量是影响检测性能的第一要素。通过全屏高低频同标声图集的迁移学习后,检测性能提升幅度次之,表明样本相似程度是影响检测性能的第二要素。
5 结 语为解决水下小目标声呐图像自动检测中样本不足的问题,通过开展扫测试验、设计检测实验和分析数据结果,得出以下结论:
1)迁移学习是提升小样本水下目标声呐图像自动检测性能的有效手段之一,一方面可以通过迁移不同类别的网络公开数据集来提升检测性能,另一方面依托现有数据,构造新型数据集,提升模型检测性能。
2)增加标签、调整尺寸、区分频率、叠加数量4种声呐图像扩增方法,可以增加水下小目标声呐图像数量,丰富图像类型,有效缓解样本不足的问题,再结合迁移学习,可以有效提升模型检测性能。
3)样本数量和相似度是影响检测效果的重要因素,因此,依托现有数据,挖掘图像特征,扩增声图数量,开展迁移学习,是提升小样本侧扫声呐图像自动检测性能的有效手段。
今后,需重点开展以下工作:一是立足现有数据,采用数字图像处理技术,进一步挖掘图像扩增能力;二是继续对检测模型参数进行优化,根据数据类型和迭代次数适当冻结网络骨架,提升模型检测性能。
| [1] |
ZHAO H, HAN S P, XU J F, et al. A review of intelligent detection methods for underwater targets in sonar images[C]// 2023 IEEE 7th Information Technology and Mechatronics Engineering Conference, 2023. China: IEEE, 2023.
|
| [2] |
PENG S, JIANG W, PI H, et al. Deep snake for real time instance segmentation[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2020.
|
| [3] |
DING M, HUO Y, YI H, et al. Learning depth-guided convolutions for monocular 3D object detection[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2020.
|
| [4] |
SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2017(4): 640-651. |
| [5] |
TAIGMAN Y, YANG M, RANZATO M, et al. Deep face: closing the gap to human-level performance in face verification[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition, 2014.
|
| [6] |
CHEN Q, TIAN J, HUANG H N, et al. Study on SAS image segmentation using SVM based on statistical and texture features[J]. Chinese Journal of Scientific Instrument, 2013, 34(6): 214-221. |
| [7] |
WANG T, PAN G F, ZHANG J B. Research on submarine sediment classification based on texture features of side-scan sonar images [C]// Proceedings of the 2020 Western China Acoustics Academic Exchange Conference. Jiuquan : 2020 Western China Acoustics Academic Exchange Conference, 2020.
|
| [8] |
DONG L G, SHAN R, LIU H M, et al. Shipwreck identification with side scan sonar image based on fractal texture[J]. Marine Geology & Quaternary Geology, 2021, 41(4): 232-239. |
| [9] |
LUO J H, JIANG J P, ZHU P M. Automatic extraction of the side-scan sonar imagery outlines based on mathematical morphology[J]. Haiyang Xuebao, 2016, 38(5): 150-157. |
| [10] |
谭志. 基于深度学习的目标检测与识别技术[M]. 北京: 化学工业出版社, 2022.
|
| [11] |
GIRSHICK R, DONAHUE J, DARRELl T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.
|
| [12] |
GIRSHICK R. Fast R-CNN[C]// IEEE International Conference on Computer Vision (ICCV), 2015.
|
| [13] |
HE K, ZHANG X, REN X, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(9): 1904-1916. |
| [14] |
REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]// Annual Conference on Neural Information Processing Systems (NIPS), 2015.
|
| [15] |
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-timed object detection[C]// IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.
|
| [16] |
LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]// European Conference on Computer Vision (ECCV), 2016.
|
| [17] |
LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2017.
|
| [18] |
LI H, JIANG Q. A river ship target detection algorithm based on YOLOv3 and transfer learning [J]. Journal of Guangxi Academy of Sciences, 2023, 39(3) : 331−339.
|
| [19] |
LI Q Z, LI Y B, NIU J. Real-time detection of underwater fish based on improved YOLO and transfer learning[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(3) : 193−203.
|
| [20] |
FAN B, WU J, SUN L, et al. Lightweight mesh target detection based on improved YOLOv3 and transfer learning[J]. Journal of Yunnan University: Natural Sciences Edition. 2022, 44(3): 471−479.
|
| [21] |
陈佳辉, 陈岚萍, 夏小云, 等, 基于迁移学习的海底底质声呐图像分类[J]. 计算机仿真, 2022, 39(1): 229−233.
|
| [22] |
武铄, 王晓, 张丹阳, 等, 联合迁移学习和深度学习的侧扫声呐沉船识别方法[J]. 河南科技, 2021, 770(36): 36−40.
|
| [23] |
WANG C Y, BOCHKOVSKIY A, LIAO H Y, YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023.
|
2025, Vol. 47
