中国海洋大学学报自然科学版  2026, Vol. 56 Issue (5): 168-180  DOI: 10.16441/j.cnki.hdxb.20240188

引用本文  

麦仁贵, 刘雯景, 王骥, 等. 基于YOLOv8优化的海洋牧场海珍类生物目标检测模型[J]. 中国海洋大学学报(自然科学版), 2026, 56(5): 168-180.
Mai Rengui, Liu Wenjing, Wang Ji, et al. Optimization Based on YOLOv8 for Marine Ranch Valuable Marine Organisms Target Detection Model[J]. Periodical of Ocean University of China, 2026, 56(5): 168-180.

基金项目

广东省普通高校重点领域新一代信息技术专项项目(2020ZDZX3008);广东省人工智能领域重点专项项目(2019KZDZX1046)资助
Supported by the New Generation Information Technology Special Project in Key Fields of General Universities in Guangdong Province(2020ZDZX3008);the Key Special Projects in the Field of Artificial Intelligence in Guangdong Province(2019KZDZX1046)

通讯作者

王骥,男,教授。E-mail: 13902576499@163.com

作者简介

麦仁贵(1995—),男,硕士生,研究方向为计算机视觉。E-mail: renguim@163.com

文章历史

收稿日期:2024-04-29
修订日期:2024-09-10
基于YOLOv8优化的海洋牧场海珍类生物目标检测模型
麦仁贵1,2 , 刘雯景2,3 , 王骥2,3 , 周涛2,3 , 刘侦龙1,2     
1. 广东海洋大学 数学与计算机学院, 广东 湛江 524088;
2. 广东省智慧海洋传感网及其装备工程技术研究中心, 广东 湛江 524088;
3. 广东海洋大学 电子与信息工程学院, 广东 湛江 524088
摘要:针对目前海洋牧场区域水下海珍类生物目标检测存在检测精度不高、漏检和误检的问题,本文提出了基于YOLOv8(You only look once v8)模型改进的水下海珍类生物目标检测方法。本文设计了一种新的残差注意力机制,并将其嵌入到YOLOv8模型的主干网络中,增强特征提取过程中对水下目标细节特征的注意力;在颈部网络中引入具有自适应特征融合的双向特征金字塔,更好地融合了深层特征图的强语义信息和浅层特征图的定位信息,突出了目标和环境的差异性。实验表明,改进后的YOLOv8模型的平均精度均值(mAP@0.5)为92.98%,比原YOLOv8模型提高了1.36个百分点,平均精度均值(mAP@0.5∶0.95)为76.71%,比原YOLOv8模型提高了3.7个百分点;与主流的目标检测模型Faster R-CNN、SSD、RetinaNet、YOLOv6和YOLOv7相比,mAP@0.5分别提高了1.57个百分点、1.74个百分点、3.17个百分点、4.68个百分点和1.47个百分点。本文提出的模型在复杂海底环境中检测精度高、稳定性好,可为海洋牧场水下资源的科学管理提供技术支持。
关键词海珍类生物    目标检测    YOLOv8    残差注意力机制    双向特征金字塔    

“海洋牧场”是指利用自然的海洋生态环境,将经济养殖海洋生物如鱼、虾、贝、藻等进行有计划的放养,可以为人类提供大量优质蛋白质来源,并能确保海洋资源的可持续利用,促进海洋生态平衡。而目标检测算法在揭示水下资源分布情况方面展现出独特优势,能够帮助人们实时监测海洋牧场内的生物种类和数量,对了解生态平衡、生物多样性和资源管理至关重要,因而日益受到研究者的广泛关注[1]

在海洋牧场环境中使用目标检测算法面临着一系列独特的困难和挑战。一方面海水吸收和散射光线,导致能见度低。光线随深度增加而减弱,且不同波长的光衰减程度不同,影响图像质量。另外,传统的目标检测算法通常优先选出候选区域,再使用SIFT[2]、HOG[3]等在不同的尺度空间上查找关键点,通过计算关键点周围的局部图像块的梯度直方图来描述特征,候选区域少时该方法检测效果较好。但当候选区域较多时,计算量大导致时间复杂度高,减弱了网络的特征提取能力,检测精度不佳,因此无法将其运用在对实时性和精度要求高的海洋牧场水下目标检测场景中。

近年来,基于深度学习理论的卷积神经网络(Convolutional neural networks, CNN)目标检测算法[4]在复杂环境下的目标检测领域取得了很好的效果,在渔业养殖生物识别等领域得到了广泛应用[5]。目标检测算法分为单阶段算法和双阶段算法。双阶段算法会先生成候选目标区域,再对生成的候选区域执行分类和位置回归操作,得到最终的检测结果,其特点是检测精度高,但检测速度较慢,以Faster R-CNN[6]为代表。单阶段算法通过在图像中的各个位置和尺度上直接预测目标的位置和类别,实现端到端的目标检测,以SSD(Single shot multibox detector)[7]、YOLO(You only look once)[8-9]系列和RetinaNet[10]为代表。由于单阶段算法不需要先生成候选区域再执行目标分类和位置修正操作,模型的计算消耗比双阶段算法低得多,具有更优的实时性能,可以满足水下目标检测场景的需求,因此更多的研究者对单阶段算法的水下应用进行了研究。Yu等[11]通过建立了一个结合交叉转换和高效挤压激励模块的网络对YOLOv7进行改进,在特征融合之前使用轻量级的CARAFE算子获取了更多的水下图像语义信息,引入了三维注意力机制提高模型水下识别的抗干扰能力,模型最终检测精度为84.4%;Wang等[12]在YOLOv5网络框架中嵌入了一种将通道注意力和空间注意力融合的注意力机制,使网络既关注被检测对象的突出特征,又关注被检测对象的空间信息,模型检测精度提高到了85%;Zhao等[13]在YOLOv4-tiny的结构基础上融合对称特征金字塔注意力模块,有效地融合主干网络提取的特征,在Brackish数据集的检测精度达到了87.88%。当前研究普遍关注的是基于传统YOLO模型系列的背景简单水下目标检测方法,而针对复杂多变的水下环境,模型的泛化能力不足,且检测精度仍有很大提升空间。由于水下光学特性和物理特性的影响,水下采集的图像存在色偏、对比度低、模糊等质量问题,导致图像中缺少清晰的轮廓特征和部分纹理信息,降低了模型的检测准确性[14-16]。另外,海珍类生物移动速度慢,且其自身保护色与周围环境具有相似性,检测难度大,特别是海洋牧场复杂海底的多目标相互遮挡堆叠现象使模型漏检误检的问题更加严重。因此,面向海洋牧场海珍类目标检测任务,构建低质量图像的高精度水下目标检测模型是业界难题。

为了缓解海洋牧场水下小目标检测难题,本文使用图像增强方法对水下图像存在的色偏、对比度低、模糊等质量问题进行校正,并针对目标检测算法存在的漏检误检问题提出新的通道与空间注意力相结合的残差注意力机制,以降低漏检误检率,改善目标检测算法检测精度低的问题。

因此,本文基于最新的YOLOv8模型,提出一种融合残差注意力机制和双向特征金字塔的改进水下海珍类生物目标检测方法。本文的工作主要包括以下方面:

(1) 构建了图像增强处理的高质量水下海珍类生物图像数据集。

(2) 针对水下海珍类小目标检测难题提出了一个新的残差注意力机制模块。

(3) 使用残差注意力机制、双向特征金字塔和Focal Loss函数对YOLOv8模型进行优化。

(4) 对改进后的模型进行训练、测试与参数调整,验证其优越性。

1 数据集处理 1.1 图像数据的来源

本文实验使用的海珍类生物图像来自于中国水下机器人大赛数据集(China underwater robot professional contest)。为研究方便,在海胆、海参、扇贝和海星四个类别海珍类生物中选取7 600张图片进行实验。数据集样例图片如图 1所示。

图 1 数据集样例图片 Fig. 1 Example images from the dataset
1.2 图像处理和数据集生成

图 1可以看出,样例图片存在明显的色偏、对比度低等水下成像问题,为了提高数据集图片的视觉效果和质量,使用动态直方图均衡化方法对存在色偏、对比度低问题的图片进行增强处理,计算公式如公式(1)和(2)所示。

$ P D F(i)=\frac{n_i}{N}, $ (1)
$ C D F(i)=\sum\limits_{m=X_0}^i P D F(m) 。$ (2)

式中:PDF为直方图的概率密度函数;CDF为累积分布函数;i为区间[X0XL-1]的某个子直方图的灰度级;nii灰度级的像素数量即出现的频率;N为该区间的总像素数量。由公式(2)得出均衡化计算公式:

$ G(i)=X_0^{\prime}+\left(X_{L-1}^{\prime}-X_0^{\prime}\right) \times C D F(i), $ (3)

式中XL-1-X0为新的映射区间。

经过增强处理后的图片效果如图 2(b)所示,原图如图 2(a)所示。增强后的图片消除了色偏、对比度低的问题,具有良好的视觉增强效果和丰富的细节信息,有利于目标检测模型的训练。

图 2 增强效果对比 Fig. 2 Enhancement effect comparison

本文将图像增强处理后的水下生物图像数据集命名为EUBID(Enhanced underwater biological images dataset),原数据集命名为OUBID(Original underwater biological images dataset)。实验按7∶2∶1的比例将数据集划分为训练集(5 320张)、验证集(1 520张)和测试集(760张)。

1.3 数据集分析

对EUBID数据集进行统计分析,结果如图 3所示。其中海参的标注实例个数为6 839个,海胆为26 221个,海星为10 547个,扇贝为10 631个,共计54 238个标注实例。从图 3(a)可以看出,数据集存在类别不平衡问题:海胆的标注实例数量远多于其他三类,对模型的训练会产生负面影响,因此,本文在模型改进中将着重缓解类别不平衡带来的影响。此外,从图 3(b)(c)可以看出数据集中小目标实例较多,这也增大了模型的检测难度。

图 3 数据集统计分析 Fig. 3 Dataset statistical analysis
2 方法 2.1 相关工作 2.1.1 YOLOv8模型

YOLOv8模型比之前的YOLO模型更具轻量化、准确率高和速度快的特点。YOLOv8模型结构主要有四个部分:输入端(Input)、主干网络(Backbone)、颈部网络(Neck)和预测网络(Prediction)。该模型在输入端使用Mosaic数据增强方法[17]对输入图像做四合一拼接操作,并增加了自适应图像缩放方法,增加图像背景的复杂度,可以防止模型过拟合;为了增强模型的特征提取能力,在主干网络中将YOLOv5模型使用的C3模块替换为借鉴CSPNet思想[18]的C2f模块,降低了网络计算复杂度并提升了运算速度;另外,在YOLOv8模型的颈部网络中,取消了YOLOv5模型PANet结构中上采样阶段使用的卷积操作,使模型更轻量化。

2.1.2 残差网络

注意力机制使模型对图像的有效信息区域给予更多的关注来提高模型的性能,得到了广泛应用[19]。2015年,何恺明等[20]提出了残差网络,其中残差网络的基本残差块结构如图 4所示。

图 4 基本残差块结构 Fig. 4 Basic residual block structure

基本残差块的定义如公式(4)所示:

$ y=\theta(F(x, W)+x) 。$ (4)

式中:xy分别为残差块的输入和输出;F为残差函数;θ为激活函数;W为残差块内的权重。

2.1.3 ECANet

高效通道注意力机制ECANet结构[21]图 5所示,该模块通过全局平均池化得到每个通道的全局平均值,然后通过一组全连接层来生成通道注意力权重,这些权重被应用于输入特征图的每个通道,从而实现特征图中不同通道的加权组合,避免了降维,并使用一维卷积有效地实现了局部跨通道交互,同时提取了通道之间的依赖关系。

图 5 ECANet结构 Fig. 5 ECANet structure

图 5中,WHC分别是输入特征图F的宽度、高度、通道数,GAP(Global average pooling)为全局平均池化,k表示卷积核的大小。σ为Sigmoid非线性激活函数,其函数f(z)表达式见公式(5):

$ \sigma=f(z)=\frac{1}{1+\mathrm{e}^{-z}} 。$ (5)

式中z为神经网络上一层节点的输出。k的函数ψ(C)表达式见公式(6):

$ k=\psi(C)=\left|\frac{\log _2 C}{\gamma}+\frac{b}{\gamma}\right|_{\text {odd }} 。$ (6)

式中:缩放因子γ取2;偏置项b取1;C为输入特征图的通道数;|d|odd为距离d最近的奇数。

2.1.4 SAM

空间注意力机制SAM结构[22]图 6所示。空间注意力机制能够对特征图中的感兴趣区域进行更准确的定位和加权。这样就可以提取到更具有区分度的特征,从而提高模型的准确度和鲁棒性。

图 6 SAM结构 Fig. 6 SAM structure

输入特征图F分别进行最大池化(MaxPool)和均值池化(AvgPool)得到F1F2两组特征图,对两组特征图进行Concat操作后再进行卷积操作,再使用Sigmoid函数对卷积操作,得到的特征图进行归一化操作得到空间注意力权重F3,然后与输入特征图F进行逐元素相乘得到输出特征图$ \tilde{F}$。计算过程如公式(7)—(10)所示。

$ F_1=\max\limits_{H, W}(F), $ (7)
$ F_2=\frac{1}{H \times W} \sum\limits_{i=1}^H \sum\limits_{j=1}^W F_{i, j}, $ (8)
$ F_3=\sigma\left(\operatorname{Conv}\left(\left[F_1, F_2\right]\right)\right), $ (9)
$ \tilde{F}=F \otimes F_3 。$ (10)

式中:Conv( )为二维卷积操作;[, ]为Concat操作;⊗为逐元素相乘。

2.2 残差注意力机制

由于水下环境会吸收散射光线,使得水下拍摄的图像数据清晰度和对比度较低,目标物的轮廓纹理细节不明显,目标检测算法不能很好地提取到目标物的关键特征和定位目标物,容易造成误检漏检的问题。因此,本文受基本残差块的启发,结合高效通道注意力机制ECANet和空间注意力机制SAM的优点,提出了一种新的残差注意力机制块(Residual attention mecha-nism,ResAM),其结构如图 7所示。ResAM模块同时结合了通道和空间两个维度的注意力,形成了一种从通道到空间的顺序结构。一方面通过为特征图每个通道分配不同的权重,从而提升重要特征的表示能力。另一方面,空间注意力机制可以帮助模型更好地捕捉图像中的重要区域,有助于模型更准确地识别和理解图像中的关键信息。

图 7 ResAM结构图 Fig. 7 ResAM structure
2.3 双向特征金字塔

YOLOv8模型对主干网络中提取到的不同特征通过上采样和拼接操作得到融合输出的特征,但忽略了各个层次的特征对于融合输出的特征的贡献往往是非均匀的。为解决此问题,在YOLOv8模型的PANet结构(见图 8(a))中引入双向特征金字塔网络BiFPN[23](见图 8(b))。该网络引入可调整的权值来学习不同输入特征的重要性,通过反复应用自顶向下和自底向上的跨尺度连接,实现多尺度特征融合,提升融合质量;并使用横向跳跃连接的方式连接同一特征的原始输入节点和输出节点,实现特征在不同层次间的直接传递,既保留了深层与浅层的语义信息,又在不增加成本的前提下实现了多尺度特征的有效融合。另外,BiFPN结构组合多次可以实现更深层的特征融合。改进前后的YOLOv8模型颈部网络结构对比如图 9所示,原YOLOv8模型的颈部网络使用的是PANet结构,改进后的YOLOv8模型的颈部网络引入了BiFPN结构。

图 8 PANet结构和BiFPN结构 Fig. 8 PANet and BiFPN structure
图 9 改进前后YOLOv8模型的颈部网络结构 Fig. 9 The neck structure of YOLOv8 model before and after enhancement
2.4 Focal Loss损失函数

损失函数的选择对模型训练效果至关重要。原YOLOv8模型使用交叉熵损失函数如公式(11)所示。

$ { Loss }=\left\{\begin{array}{c} -\ln p, p \geqslant 0 \\ -\ln (1-p), p<0 \end{array}, \right. $ (11)

其中p表示预测类别的概率。

由公式(11)可得出: 对于正样本而言,p值越大,越容易对其进行分类,损失值也越小;对于负样本而言,p值越小,越容易对其进行分类,损失值也越小。但在大量易分类样本的迭代过程中损失函数变化缓慢,很难达到最优;另外,样本平衡性对模型的训练结果有巨大影响,当样本不平衡时,损失函数会倾向于样本量多的类别,使模型对样本量少的类别的关注度不足,导致模型整体识别效果变差。因此,本文使用Focal Loss函数[10]代替交叉熵损失函数以降低样本不平衡对模型识别效果的影响,其表达式见公式(12)和(13)。

$ p_t=\left\{\begin{array}{c} p, p \geqslant 0 \\ 1-p, p<0 \end{array} ;\right. $ (12)
$ Focal \;Loss =-\alpha_t\left(1-p_t\right)^\gamma \ln p_t 。$ (13)

式中:αt为加权因子,用于平衡正负样本;γ为调焦参数,可调节调制因子(1-pt)γ的变化程度。当样本的pt很小时,很难分类,调制因子接近于1,样本在损失函数中的权重不受影响。当pt非常大时,易于分类,调制因子趋近于0,降低损失函数中的样本权值,以增强对难分类样本的训练。

2.5 优化后的YOLOv8模型

本文提出的检测方法流程如图 10所示。首先对原始水下图像进行增强处理,获得高质量图像后进行标注;然后将数据集随机划分为训练集、验证集和测试集;最后对改进模型进行训练和参数调优,得到最终模型。

图 10 水下生物目标检测过程 Fig. 10 Detection process of underwater biological

优化后的YOLOv8模型的整体结构如图 11所示,在主干网络中嵌入了ResAM模块,使网络更加关注通道和空间的特征信息,以提取到更全面、更重要的目标信息,过滤其他冗余信息,增强主干网络的特征提取能力;在颈部网络中引入BiFPN网络实现多尺度特征融合,增强多尺度特征图的语义表达和定位能力。

图 11 优化后的YOLOv8结构 Fig. 11 Optimized YOLOv8 structure
2.6 模型评价指标

本文主要采用精确度(Precision,P)、召回率(Recall,R)、平均精度均值(Mean average precision,mAP)和F1得分作为模型的评价指标,用公式(14)、(15)和(16)进行计算。

$ P =\frac{T P}{T P+F P}, $ (14)
$ R =\frac{T P}{T P+F N}, $ (15)
$ F_1 =\frac{2 \times P \times R}{P+R} 。$ (16)

式中:TP为模型将正类别样本预测为正类别的数量;FN为模型将正类别样本预测为负类别的数量;FP为模型将负类别样本预测为正类别的数量。

平均精度AP的计算见公式(17)。平均精度均值mAP是所有类别的平均精度AP求和后再取均值,见公式(18)。

$ X_{A P}=\int_0^1 P \mathrm{~d} R, $ (17)
$ m A P=\frac{\sum\limits_{i=1}^C X_{A P_i}}{C} 。$ (18)

式中:XAP为平均精度;XAPi为第i类目标的平均精度;C为类别数。

2.7 实验环境配置

本文的实验环境使用AutoDL云服务器上的设备,参数配置如表 1所示。训练参数设置如下:训练轮数为200 epoch(epoch为深度学习中用于衡量训练进度的单位,其表示的含义为训练轮数),批次大小为16,初始学习率为0.001,使用余弦退火策略动态调整学习率,采用SGD随机梯度下降法进行训练。

表 1 实验设备配置参数 Table 1 Experimentalequipment configuration parameters
3 分析与讨论 3.1 消融实验

为了验证本文改进的每一部分对提升模型性能的贡献,将原YOLOv8模型作为基准模型(Baseline)进行消融实验,并使用mAP@0.5、mAP@0.5∶0.95、PRF1得分作为模型性能的评价指标。消融实验结果如表 2所示,表中A表示Baseline模型,B表示ResAM模块,C表示BiFPN网络,D表示Focal Loss函数。

表 2 消融实验 Table 2 Ablation experiment

表 2可知,与Baseline模型相比,优化后的YOLOv8模型mAP@0.5值由91.62%增加至92.98%,提高了1.36个百分点;mAP@0.5∶0.95值由73.01%增加至76.71%,提高了3.7个百分点;P值提高了3.21个百分点;R值提高了0.4个百分点;F1得分提高了1.76个百分点。尽管完整模型的召回率(R)略低于部分组合,但其在综合精度(mAP)和精确度(P)上达到了最优平衡。优化后的YOLOv8模型在数据集上进行训练的可视化过程如图 12所示。从图 12可以看出,精确度(Metrics/precision)、召回率(Metrics/recall)曲线在训练约100 epoch后逐渐平缓,达到稳定状态;训练集和验证集的损失曲线都能快速收敛且没有较大的波动,表明优化后的模型在训练过程中没有出现过拟合以及欠拟合的情况;metrics/mAP_0.5和metrics/mAP_0.5∶0.95的数值快速上升至平稳状态,没有较大的波动状况,在训练100 epoch后基本进入稳定状态,说明优化后的模型具有很好的鲁棒性和学习能力。

( 图中横坐标的标值为训练的次数,纵坐标的标值为不同指标的损失值或精度。The abscissa in the figure represents the number of training iterations, while the ordinate represents the loss values or accuracy of different indicators. ) 图 12 优化后的模型训练过程可视化 Fig. 12 Visualization of the training process of the optimized model
3.2 图像增强对模型性能的影响

为了验证数据集进行图像增强处理对模型性能的影响,本文对图像增强处理前后的数据集进行了对比实验。从表 3可以看出,优化前后的YOLOv8模型在EUBID数据集上的性能表现优于OUBID数据集,原YOLOv8模型的mAP@0.5提高了1.66%,优化后的模型提高了1.16%,说明EUBID数据集更有利于模型的训练和学习。这表明,对数据集进行图像增强处理可提高图像质量,进而提升模型性能。

表 3 图像增强处理对模型性能的影响 Table 3 Performance comparison of image enhancement
3.3 不同注意力机制的效果

为了减轻水下复杂环境对模型检测性能的影响,在YOLOv8模型的主干网络加入不同的注意力机制进行对比实验。表 4显示了分别加入ECANet、SAM和ResAM三种注意力机制模块后的模型表现。结果表明,ResAM模块对模型性能的改善最大,mAP@0.5提高了0.4个百分点,mAP@0.5∶0.95提高了1.81个百分点,P值提高了0.44个百分点,F1得分提高了0.14个百分点。另外,从表 2可以看出,在由BiFPN网络和Focal Loss函数优化的YOLOv8模型中进一步加入ResAM模块后,mAP@0.5提高了0.37个百分点,mAP@0.5∶0.95提高了1.24个百分点。通过对比结果,证明了本文提出的ResAM模块对提升模型检测性能的有效性。

表 4 不同注意力机制对模型性能的影响 Table 4 The impact of attention mechanism module on model performance
3.4 模型优化前后的检测效果对比

模型的实际检测效果对比如图 13所示,图 13(a)代表输入图像,图 13(b)代表真实标注数据,图 13(c)代表原YOLOv8模型检测结果,图 13(d)代表优化后的YOLOv8模型检测结果。从图 13(b)可以看出,因拍摄距离和角度问题,1号和2号目标尺寸较小且轮廓模糊,这增加了检测难度,但优化后的YOLOv8模型比原模型提高了对1号和2号目标的检测准确度;3号和4号目标存在部分重叠现象且与所处的环境背景具有相似性,导致原YOLOv8模型出现漏检现象(见图 13(c)),而优化后的模型成功检测出了3号和4号目标(见图 13(d)),这说明优化后的模型区分目标物体与所处环境背景的能力要优于原模型。此外,图 13(c)显示,原YOLOv8模型误检了8号和9号目标,这说明原模型对目标物体的关键特征提取不足,导致把黑色块误检测为海胆、把有轮廓边缘的白色块误检测为海星,而优化后的模型则避免了该情况。从图 13(d)检测结果中可以看出优化后的YOLOv8模型未出现漏检和误检,整体检测准确度优于原模型,证明了模型优化方法的有效性。

图 13 优化前后模型检测效果对比 Fig. 13 Comparison of detection performance before and after model optimization

为了更具体地表现优化后的模型对目标物体定位的准确性和进行特征提取时的关注度,将模型提取的特征进行可视化处理,优化前模型和优化后模型提取的特征可视化如图 14所示,图 14(a)代表输入图像,图 14(b)代表真实标注数据,图 14(c)代表原YOLOv8模型特征映射效果,图 14(d)代表优化后的YOLOv8模型特征映射效果。从图 14(b)的1号、3号和4号目标来看,虽然原YOLOv8模型提取到了这三个目标如图 14(c)所示的特征,但图 14(d)所示的优化后的模型对这三个目标提取的特征效果更好、定位更集中。从图 14(b)的2号、5号、6号和7号海星目标可以看出,原YOLOv8模型进行特征提取时对这几个目标的关注度明显不足,从特征映射图 14(c)中可以看出,原YOLOv8模型只提取到了少量的特征,更多地关注1号、3号、4号和8号海胆这一标注实例数量更多的目标,这是由类别不平衡导致的——模型倾向于关注样本量更多的类别。但优化后的模型提高了对2号、5号、6号和7号海星目标的关注度,提取的特征效果明显优于原模型,如图 14(d)所示,说明Focal Loss函数可以很好地消除类别不平衡带来的影响。另外,从图 14(c)中可以看出,原YOLOv8模型在提取特征时容易受到环境背景的影响,减弱了模型对目标物体的注意力,而优化后的模型不易受环境背景的影响,对目标物体的关注更集中和纯粹,如图 14(d)所示。

图 14 优化前后模型的特征映射对比 Fig. 14 Comparison of heat maps in the model before and after optimization
3.5 不同模型对比实验

为了验证本文优化后的YOLOv8模型的性能,将优化后的YOLOv8模型与主流的目标检测模型Faster R-CNN、SSD、RetinaNet、YOLOv6和YOLOv7在同一设备以及相同数据集EUBID上进行对比实验,实验结果如表 5所示。改进后的YOLOv8模型的平均精度均值(mAP@0.5)为92.98%,比原YOLOv8模型提高了1.36个百分点,平均精度均值(mAP@0.5∶0.95)为76.71%,比原YOLOv8模型提高了3.7个百分点;与主流的目标检测模型Faster R-CNN、SSD、RetinaNet、YOLOv6和YOLOv7相比,mAP@0.5分别提高了1.57个百分点、1.74个百分点、3.17个百分点、4.68个百分点和1.47个百分点。

表 5 不同模型的实验结果 Table 5 Comparison of detection performance of different models

不同模型在训练过程中的mAP曲线和Loss曲线如图 15所示。

图 15 不同模型的mAP曲线和Loss曲线 Fig. 15 The mAP curve and Loss curve of different models

通过表 5图 15可以看出,优化后的YOLOv8模型在检测精度和收敛速度方面均优于其他主流目标检测模型,证明了优化后的模型的先进性与鲁棒性。

3.6 讨论

本文采用ResAM模块、BiFPN网络和Focal Loss函数对YOLOv8模型进行改进,改进后的模型在水下海珍类生物目标检测中取得了不错的检测效果。

在YOLOv8模型中嵌入ResAM模块,一方面通过一维卷积实现高效的局部通信,避免了数据降维,可以更有效地捕获水下生物图像特征的跨通道交互信息;另一方面可以更加准确地定位特征图中的感兴趣区域并进行加权,以提取到更具有区分度的特征,有助于模型提取复杂环境背景下的目标特征。在YOLOv8模型的颈部网络引入BiFPN网络对不同层次的特征信息进行加权融合,突出了目标的关键特征,提高了模型的定位能力。此外,原YOLOv8模型倾向于关注标注实例更多的类别而减弱了对其他类别的关注度,但改进后的YOLOv8模型对数据集所有类别目标的关注度更均匀,证明Focal Loss函数对类别不平衡问题起到了很好的缓解作用,提高了模型的检测精度。

本文使用传统的图像处理方法对数据集进行图像增强处理,该方法虽简单快速,但图像质量提升有限,下一步将使用对抗生成网络等深度学习的方法对数据集作图像增强处理以获得质量更佳的图像数据。另外,优化后的模型在检测性能上得到了提升,但模型在融合各个模块的同时提高了模型的参数量和复杂度,不利于部署到水下机器人等小型终端设备,因此团队未来的工作将研究如何对模型进行剪枝蒸馏等轻量化处理,并增加多目标类别和不同场景的水下图像数据,提高模型在海洋牧场复杂工程领域的实用性与鲁棒性。

4 结语

为了提高水下海珍类生物目标检测的精度,减少误检和漏检的现象,本文提出了一种基于改进YOLOv8的海底弱光环境生物目标检测模型。通过在YOLOv8模型中嵌入ResAM模块,增强特征提取过程中对目标关键特征的关注,引入BiFPN网络对提取到的特征进行合理的融合,并使用Focal Loss函数缓解数据集类别不平衡造成的负面影响,提高了YOLOv8模型在复杂环境下的检测能力。研究结果证明了本文优化后的YOLOv8模型有效避免了漏检和误检的问题,提高了对水下目标的检测精度,能够满足海洋牧场水下生物识别的技术需求,为智慧海洋牧场的精细化目标感知提供了理论参考。

参考文献
[1]
Min-Fan Ricky L, Ying-Chu C. Artificial intelligence based object detection and tracking for a small underwater robot[J]. Processes, 2023, 11: 312. DOI:10.3390/pr11020312 (0)
[2]
David G L. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60: 91-110. DOI:10.1023/B:VISI.0000029664.99615.94 (0)
[3]
Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. San Diego, CA, USA: IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005: 886-893. (0)
[4]
Liu H C, Ma X, Yu Y N, et al. Application of deep learning-based object detection techniques in fish aquaculture: A review[J]. Journal of Marine Science and Engineering, 2023, 11: 867. DOI:10.3390/jmse11040867 (0)
[5]
Wang N, Chen T K, Liu S M, et al. Deep learning-based visual detection of marine organisms: A survey[J]. Neurocomputing, 2023, 532: 1-32. (0)
[6]
Shao-Qing R, Kai-Ming H, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031 (0)
[7]
Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot Multibox Detector[C]. Cham: European Conference on Computer Vision, 2016: 21-37. (0)
[8]
Li C Y, Li L L, Jiang H L, et al. YOLOv6: A single-stage object detection framework for industrial applications[J/OL]. Arxiv, (2022-09-07)[2024-04-27]. https://arxiv.org/abs/2209.02976. (0)
[9]
Chien-Yao W, Bochkovskiy A, Hong-Yuan Mark L. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors[C]. Vancouver, BC, Canada: IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 7464-7475. (0)
[10]
Tsung-Yi L, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42: 318-327. DOI:10.1109/TPAMI.2018.2858826 (0)
[11]
Yu G, Cai R, Su J, et al. U-YOLOv7: A network for underwater organism detection[J]. Ecological Informatics, 2023, 75: 102108. DOI:10.1016/j.ecoinf.2023.102108 (0)
[12]
Wang X Y, Xue G, Huang S T, et al. Underwater object detection algorithm based on adding channel and spatial fusion attention mechanism[J]. Journal of Marine Science and Engineering, 2023, 11(6): 1116. DOI:10.3390/jmse11061116 (0)
[13]
Zhao S, Zheng J, Sun S, et al. An improved YOLO algorithm for fast and accurate underwater object detection[J]. Symmetry, 2022, 14(8): 1669. DOI:10.3390/sym14081669 (0)
[14]
Zhang Y, Jiang Q, Liu P, et al. Underwater image enhancement using deep transfer learning based on a color restoration model[J]. IEEE Journal of Oceanic Engineering, 2023, 48: 489-514. DOI:10.1109/JOE.2022.3227393 (0)
[15]
Chang S, Gao F, Zhang Q. Underwater image enhancement method based on improved GAN and physical model[J]. Electronics, 2023, 12: 2882. DOI:10.3390/electronics12132882 (0)
[16]
Zhang Y, Chen D, Zhang Y, et al. A two-stage network based on transformer and physical model for single underwater image enhancement[J]. Journal of Marine Science and Engineering, 2023, 11: 787. DOI:10.3390/jmse11040787 (0)
[17]
Jongchan P, Woo S, Lee J Y, et al. BAM: Bottleneck attention module[J/OL]. Arxiv, (2018-07-18)[2024-04-27]. https://arxiv.org/abs/1807.06514. (0)
[18]
Chien-Yao W, Hong-Yuan Mark L, I-Hau Y, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]. Seattle, Washington: 2020 IEEE/CVF Corlfbrence on Computer Vision and Pattem Recognition Workshops, 2020: 390-391. (0)
[19]
Brauwers G, Frasincar F. A general survey on attention mechanisms in deep learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 35(4): 3279-3298. (0)
[20]
Wang R, An S, Liu W, et al. Invertible residual blocks in deep learning networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 35(7): 10167-10173. (0)
[21]
Mishra S K, Rai G, Saha S, et al. Efficient channel attention based encoder-decoder approach for image captioning in hindi[J]. Transactions on Asian and Low-Resource Language Information Processing, 2021, 21(3): 1-17. (0)
[22]
Yujin C, Anneng L, Mengmeng C, et al. Classification and recycling of recyclable garbage based on deep learning[J]. Journal of Cleaner Production, 2023, 414: 137558. DOI:10.1016/j.jclepro.2023.137558 (0)
[23]
Tan M, Pang R, Le Q V. Efficientdet: Scalable and efficient object detection[C]. Seattle, Washington: IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 10781-10790. (0)
Optimization Based on YOLOv8 for Marine Ranch Valuable Marine Organisms Target Detection Model
Mai Rengui1,2 , Liu Wenjing2,3 , Wang Ji2,3 , Zhou Tao2,3 , Liu Zhenlong1,2     
1. College of Mathematics and Computer Science, Guangdong Ocean University, Zhanjiang 524088, China;
2. Guangdong Provincial Smart Ocean Sensing Network and Equipment Engineering Technology Research Center, Zhanjiang 524088, China;
3. College of Electronic and Information Engineering, Guangdong Ocean University, Zhanjiang 524088, China
Abstract: In response to the challenges of low detection accuracy, missed detections, and false detections in identifying valuable marine organisms in marine ranch areas, this study introduces an enhanced algorithm for detecting rare underwater marine species using the YOLOv8 model. Firstly, a new residual attention mechanism was designed and integrated into the backbone network of the YOLOv8 model to improve focus on the detailed features of underwater targets during feature extraction. Next, a bidirectional feature pyramid with adaptive feature fusion and feature selection characteristics is incorporated into the neck network to effectively combine the strong semantic information of deep feature maps with the localization information of shallow feature maps. This emphasizes the distinctions between the target and the surroundings. The experiment showed that the mean Average Precision (mAP@0.5) of the enhanced YOLOv8 model was 92.98%, which is 1.36 percentage point higher than the original YOLOv8 model. Additionally, the mean Average Precision (mAP@0.5∶0.95) was 76.71%, indicating a 3.7 percentage point improvement over the original YOLOv8 model. Compared with mainstream object detection models such as Faster RCNN, SSD, RetinaNet, YOLOv6, and YOLOv7, the improved model has shown an increase of 1.57 percentage point, 1.74 percentage point, 3.17 percentage point, 4.68 percentage point, and 1.47 percentage point respectively in mAP@0.5. The model proposed in this paper demonstrates high detection accuracy and robust stability in complex seabed environments. It can provide technical support for the scientific management of underwater resources in marine ranches.
Key words: valuable marine organisms    object detection    YOLOv8    residual attention mechanism    bidirectional feature pyramid