基于改进Yolov8n的珊瑚白化图像目标检测

韩云涛 刘宇鹏 胡跃明 孙宝鹏 杨佳琪

韩云涛, 刘宇鹏, 胡跃明, 等. 基于改进Yolov8n的珊瑚白化图像目标检测 [J]. 智能系统学报, 2025, 20(5): 1148-1157. doi: 10.11992/tis.202412019
引用本文: 韩云涛, 刘宇鹏, 胡跃明, 等. 基于改进Yolov8n的珊瑚白化图像目标检测 [J]. 智能系统学报, 2025, 20(5): 1148-1157. doi: 10.11992/tis.202412019
HAN Yuntao, LIU Yupeng, HU Yueming, et al. Target detection of coral bleaching images based on improved Yolov8n [J]. CAAI Transactions on Intelligent Systems, 2025, 20(5): 1148-1157. doi: 10.11992/tis.202412019
Citation: HAN Yuntao, LIU Yupeng, HU Yueming, et al. Target detection of coral bleaching images based on improved Yolov8n [J]. CAAI Transactions on Intelligent Systems, 2025, 20(5): 1148-1157. doi: 10.11992/tis.202412019

基于改进Yolov8n的珊瑚白化图像目标检测

doi: 10.11992/tis.202412019
基金项目: 海南省自然科学基金项目(622MS163): 海南省科技计划三亚崖州湾科技城联合项目(2021CXLH0001).
详细信息
    作者简介:

    韩云涛,副教授,博士,主要研究方向为目标识别与智能控制。获黑龙江省科技进步二等奖1 项,获发明专利授权7项。发表学术论文 50 余篇。E-mail:hanyuntao@hrbeu.edu.cn;

    刘宇鹏,硕士研究生,主要研究方向为海洋目标检测。E-mail:1648554248@qq.com;

    胡跃明,高级工程师,硕士,主要研究方向为动力工程。E-mail:82611934@qq.com.

    通讯作者:

    韩云涛. E-mail:hanyuntao@hrbeu.edu.cn.

  • 中图分类号: TP391.4

Target detection of coral bleaching images based on improved Yolov8n

  • 摘要: 针对海洋环境中珊瑚白化图像特征模糊、背景复杂多变导致的检测精度不足问题,在Yolov8n的基础上,提出了一种基于改进Yolov8n的针对珊瑚白化图像目标检测的Yolov8_CSHC算法。首先,利用防冗余结构紧凑倒置块(compact inverted block, CIB)改进C2f(concatenated feature fusion)模块,减少模型参数量以提高检测速度。其次,在特征融合网络中引入了基于局部注意力增强空间尺度聚合特征的空间金字塔池化网络,可以增强模型对局部细节的感知能力。最后,在特征融合过程中引入级联分组注意力机制,通过将输入特征分割处理,级联输出的方式提高了注意力的多样性和计算效率,使模型可以快速聚焦特征区域。后续引入混合注意力变换器,主要用于单图像超分辨率重建,进一步增强小目标的语义信息和全局感知能力。实验结果表明,在Marjan balance Dataset上,Yolov8_CSHC相较于Yolov8n算法,GFLOPS降低了12%,mAP@0.5-0.95提高了3.6百分点。该算法可以有效地完成海洋珊瑚白化状况的目标检测任务。

     

    Abstract: To address low detection accuracy in coral bleaching images caused by blurred features and complex backgrounds, we propose an improved Yolov8n-based target detection algorithm for coral bleaching, named Yolov8_CSHC. The C2f(concatenated feature fusion) module improved by using compact inverted block (CIB) optimizes model parameters, enabling faster detection. A spatial pyramid pooling network enhanced with local attention mechanisms is introduced to improve detailed feature perception. During feature fusion, a cascaded group attention mechanism increases attention diversity and computational efficiency, allowing the model to rapidly focus on relevant feature areas. Additionally, a hybrid attention transformer module is applied for single-image super-resolution, enhancing semantic information and global perception of small targets. Experimental results demonstrate that, on Marjan balance Dataset, Yolov8_CSHC reduces GFLOPS by 12% and improves mAP@0.5-0.95 by 3.6 percentage points compared with Yolov8n, effectively detecting coral bleaching in complex marine environments.

     

  • 珊瑚礁是地球上生物多样性极为丰富的生态系统之一,虽占全球海洋面积不足0.1%,却对全球生物循环至关重要,为超过25%的海洋生物提供栖息地,对维护海洋生态平衡及人类福祉价值巨大。然而,珊瑚礁正面临气候变化、环境污染等多重威胁,其中珊瑚白化作为严重疾病之一,正加速其退化。据报告,受海洋升温和人类活动影响,已有50%的珊瑚礁消失[1],多地浅水区造礁石珊瑚死亡率高达90%[2]

    珊瑚白化是复杂生态过程,涉及海水环境变化导致珊瑚虫失去共生藻[3],失去营养来源而面临生存挑战。但白化不等于死亡[4],若环境条件迅速恢复,珊瑚有可能存活。若环境持续恶化,白化珊瑚无法及时恢复则最终死亡,失去生态功能,对海洋生态和人类社会造成严重影响[5]。因此,科学家和环保人士正通过人工干预方式[6],移植恢复重点海域的珊瑚礁。

    传统的珊瑚疾病监测方法主要依赖人工潜水调查,这种方法不仅耗时耗力,而且受限于人力和物力资源,难以实现大范围的实时监测。因此Yamano等[7]将大气条件、入射光、水深和传感器对接收到的辐射的反应进行归一化处理,然后通过检查石垣岛的多时相陆地卫星主题绘图仪(thematic mapper, TM)的图像,比较浅沙和珊瑚的反射率差异,利用卫星检测珊瑚的白化情况。Ma等[8]利用光谱遥感影像检测珊瑚的白化情况。董娟等[9]基于高分辨率遥感结合支持向量机(support vector machine, SVM)和随机森林(random forest, RF)分类方法进行珊瑚礁地貌单元的信息提取,提高了检测分辨率。珊瑚和周围环境或其他生物的光谱特征可能重叠,导致白化珊瑚与健康珊瑚区分困难,且光谱遥感的空间分辨率可能不足以清楚识别小规模或细微的珊瑚白化现象。

    在珊瑚白化信息提取过程中,除了光谱遥感和卫星技术外,计算机视觉领域的目标检测算法也逐渐被引入,主流的目标检测算法分为两大类:两阶段目标检测算法和单阶段目标检测算法。两阶段目标检测算法主要代表有基于区域的卷积神经网络(region-based convolutional neural network, R-CNN) [10]、Fast R-CNN[11]和Faster R-CNN[12]等,此类算法检测精度较高,检测速度较慢。单阶段目标检测算法主要代表有YOLO(you only look once)[13]、SSD (single shot multibox detector)[14]和Anchor-Free[15]等,此类算法直接对目标进行分类和回归操作,从而提高了目标检测算法的实时检测速度。在珊瑚白化检测领域,除了上述主流的目标检测算法外,研究者们还在此基础上探索了其他深度学习技术。Jamil等[16]采用了包含AlexNet、GoogLeNet等一系列网络在内的深度学习框架特征包(bag of features, Bof)来检测珊瑚白化情况。Corruz等[17]使用卷积神经网络对珊瑚的白化严重程度进行分类,其准确率在其特定设备的特定参数下可达到90%。Bautista-hernández等[18]通过计算机视觉算法识别珊瑚礁疾病和白化,准确率可以达到71.35%。Mittal等[19]通过 ResNet50预训练的卷积神经网络(convolutional neural network, CNN)来对珊瑚的白化情况进行检测,进一步提高了检测精度。此后,他们又尝试了VGG16预训练的CNN[20],与Bhuria等[21]采用VGG19预训练的CNN得到的准确率相同,均为74%。以上方法大多采用两阶段目标检测算法,模型较大,检测速度较慢。由于水下环境恶劣,水下镜头采光较差,水波干扰造成镜头晃动等问题,机器人抓拍的图片质量不高,往往存在光照不均、色彩失真等问题,对目标检测算法的性能提出了挑战。因此在计算机视觉珊瑚白化检测领域,特别是目标检测算法,仍有待深入开发。开发基于目标检测算法的自动化珊瑚疾病监测系统,能显著提升监测效率和准确性,为珊瑚保护和管理提供科学依据。实时、准确的疾病监测有助于及时发现并控制疾病传播,降低珊瑚损失,促进珊瑚生态系统的恢复和可持续发展。

    综上,本研究基于 Yolov8n 目标检测算法[22]进行改进,主要聚焦两大关键方向:其一,将 Yolov8n 创新性地应用于珊瑚白化检测这一水下探测场景。鉴于海洋环境复杂多变,改进算法着力克服环境干扰因素,显著提升了检测精度。其二,在保证检测精度达标的前提下,通过一系列优化策略,有效降低模型复杂度,使其能够更便捷、高效地部署于嵌入式海洋探测设备,为海洋监测工作提供有力支持。

    针对水下环境珊瑚白化图片光照不均、色彩失真等问题,本文基于Yolov8n网络,提出了针对海洋珊瑚白化目标检测的Yolov8_CSHC算法,网络结构如图1所示,由4部分组成:

    图  1  Yolov8_CSHC结构
    Fig.  1  Yolov8_CSHC structure
    下载: 全尺寸图片

    1)输入端使用了Mosaic增强操作[23]对图片进行预处理,提高了模型的泛化能力。

    2)主干网络主要采用Conv(convolutions)和C2f(concatenated feature fusion)等一列卷积和反卷积层来提取不同层次的特征。在此部分中提出了新的CIB_C2f模块,利用其中的防冗余结构紧凑倒置块(compact inverted block, CIB)极大地减少了模型的运算量。同时,引入了性能更好的空间金字塔池化结构(spatial pyramid pooling ensemble with lightweight networks, SPPELAN),以增强模型对局部细节的感知能力。

    3)颈部网络采用了包括上采样(UpSample)和拼接(Concat)等一系列模块在内的具有特征金字塔网络的路径聚合网络(path aggregation network with feature pyramid network, PAN-FPN),使用多尺度特征融合技术,以增强特征表示能力。在此部分中引入级联分组注意力(cascaded group attention, CGA),更快速和更全面地聚焦特征区域,提高模型的检测精度和速度;引入混合注意力变换器(hybrid attention Transformer, HAT),主要用于单图像超分辨率重建,增强了对水下小目标的识别性能。

    4)预测部分包含检测头和损失函数。共有3个检测头,每个检测头使用2个3×3和1个1×1卷积块来提取信息。使用分布焦点损失(distribution focal loss, DFL loss)和完全交并比损失(complete intersection over union loss, CIOU Loss)作为回归损失,相较于传统的损失函数在提高目标检测性能方面有一定优势。

    YOLO系列模型通常在特征采集的各个阶段使用统一的基本构建块,但这种同质设计易导致冗余。紧凑倒置块(CIB)[24]旨在通过精简架构设计减少冗余阶段的复杂性,它利用低成本深度卷积来融合空间特征,并以高效点卷积来混合通道特征。可以将CIB作为高效的基本构建块引入Yolov8n的C2f模块中,通过替换C2f的Bottleneck结构,本文提出了一种新的CIB_C2F模块,其结构如图2所示。得益于这种减小冗余的机制,模型在保证精度的同时,符合轻量化的需求。

    图  2  CIB_C2f模块结构
    Fig.  2  CIB_C2f module structure
    下载: 全尺寸图片

    传统的空间金字塔池化(spatial pyramid pooling, SPP)[25]架构通过跨不同空间尺度聚合特征,显著增强了模型识别不同大小目标的能力,但SPP较高的计算复杂度可能会对模型的实时响应速度有较大的影响。

    相比之下,ELAN(ensemble with lightweight networks)[26]作为一种局部注意力网络,通过集成注意力机制,让模型能更有效地聚焦于关键区域。此外,ELAN采用独特的堆叠卷积层设计,其中每一层的输出都会与紧接着的下一层的输入进行深度融合,并再次经过精细的卷积运算。这种逐层递进、深度融合的策略,增强了特征信息的传递与利用,进一步提升了模型的检测精度,使其在复杂多变的场景中也能体现出较强的优势。

    SPPELAN[27]将SPP与ELAN相结合,如图3所示,SPPELAN整体沿用了ELAN的结构,在其内部则是使用了SPP的Maxpool2d池化层模块[28],是一种用于下采样(subsampling)的操作模块。SPPELAN不仅能够利用SPP的多尺度特性,还能够通过ELAN的注意力机制,增强模型对局部细节的感知能力。

    图  3  SPPELAN结构
    Fig.  3  Structure of SPPELAN
    下载: 全尺寸图片

    水下环境复杂,摄像头采集的图像通常含有较多冗余区域,可以通过引入级联分组注意力[29]机制来忽略其他干扰因素,使得检测算法可以在巨大的信息流中快速找到关键的信息片段,从而提高处理效率和效果。CGA核心思想是增强输入到注意力头的特征的多样性,与以往的自注意力不同,它为每个头提供不同的输入分割,并跨头级联输出特征。这种方法不仅减少了多头注意力中的计算冗余,而且通过增加网络深度提升了模型容量。

    图4为CGA模块的结构,具体来说,CGA 将输入特征分成不同的部分,每部分输入到一个注意力头。每个头独立计算其自注意力映射,各自得到一个输出,然后将所有头的输出级联起来,并通过一个线性层将它们投影回输入的维度。其主要计算公式为

    图  4  CGA模块结构
    Fig.  4  CGA module structure
    下载: 全尺寸图片
    $$ {\widetilde {\boldsymbol{X}}_{ij}} = {{\mathrm{Attn}}} ({{\boldsymbol{X}}_{ij}}{\boldsymbol{W}}_{ij}^{\boldsymbol{Q}},{{\boldsymbol{X}}_{ij}}{\boldsymbol{W}}_{ij}^{\boldsymbol{K}},{{\boldsymbol{X}}_{ij}}{\boldsymbol{W}}_{ij}^{\boldsymbol{V}}) $$
    $$ {\widetilde {\boldsymbol{X}}_{i+1}} = {{\mathrm{Concat}}} {[ {{\widetilde{\boldsymbol{X}}_{ij}}}]_j} = 1:{h^{{\boldsymbol{W}}_i^P}} $$
    $$ \boldsymbol{X}_{i j}^{\prime}=\boldsymbol{X}_{i j}+\boldsymbol{X}_{i(j-1)}, \quad 1 < j \leqslant h $$

    式中:$ {{\boldsymbol{X}}_{ij}} $表示输入特征$ {{\boldsymbol{X}}_i} $的第j(1≤jh)个注意力头总数,其中h是分割的注意力头总数;$ {\boldsymbol{W}}_{ij}^{\boldsymbol{Q}}, {\boldsymbol{W}}_{ij}^{\boldsymbol{K}},{\boldsymbol{W}}_{ij}^{\boldsymbol{V}} $是投影映射输入特征拆分为不同的子空间,然后将每个注意力头的输出添加到后续的注意力头中以逐步精化特征表示,最后再把所有头的注意力合并起来,来获取一个全面的特征$ {\boldsymbol{X}}_{ij}' $表示;$ {\boldsymbol{W}}_i^P $为投影串联输出的线性图层返回到与输入一致的维度数。

    这种设计策略不仅显著减少了计算的冗余性,还极大地丰富了注意力的多样性,这是由于不同的注意力头能够聚焦于输入特征的不同方面或层次。这种机制赋予了模型在多个层次上捕捉和整合特征的能力,通过级联操作进一步增强了特征之间的交互与融合。尤为重要的是,CGA模块在无需引入额外参数的前提下,有效地提升了模型的计算效率,从而在保持模型轻量化的同时,实现了性能上的优化与提升。

    图5热力图可视化对比中可以看出,在添加了CGA模块后,通过动态调整模型对不同部分的关注程度,相较于原算法,本文算法能更多地关注到目标区域。

    图  5  热力图可视化对比
    Fig.  5  Comparison of heat map visualizations
    下载: 全尺寸图片

    海洋环境错综复杂,为了解决小目标不容易识别的难题,引入一种新的混合注意力变换器[30],它结合了通道注意力和自注意力机制,涵盖3个核心阶段:初级特征抽取、深度特征提取以及图像复原。整体架构及其关键组成部分的结构如图6所示。

    图  6  HAT的整体架构及其关键组成部分
    Fig.  6  Overall architecture of the HAT and its key components
    下载: 全尺寸图片

    在深度特征提取阶段,它采用了多个残差混合注意力群组(residual hybrid attention group, RHAG),每个群组由多个混合注意力块(hybrid attention block, HAB)及一个重叠交叉注意力块(overlapped cross-attention block, OCAB)构成。

    HAB结合了通道注意力块(channel attention block, CAB)与窗口化多头自注意力(window-based multi-head self attention, W-MSA),在特征提取过程中同时考虑了通道间与空间位置间的关联性。HAB的计算过程为

    $$ {{\boldsymbol{X}}_N} = {\text{LN}}({\boldsymbol{X}}) $$
    $$ {{\boldsymbol{X}}_M} = {\text{W-MSA}}({{\boldsymbol{X}}_N}) + {\text{αCAB}}({{\boldsymbol{X}}_N}) + {\boldsymbol{X}} $$
    $$ {\boldsymbol{Y}} = {\text{MLP}}({\text{LN}}({{\boldsymbol{X}}_M})) + {{\boldsymbol{X}}_M} $$

    式中:$ {{\boldsymbol{X}}_N} $$ {{\boldsymbol{X}}_M} $表示中间特征,$ {\boldsymbol{Y}} $是HAB的输出。对于给定的输入特征$ {\boldsymbol{X}} $,先经过第一层范数(layer normalization, LN)处理后得到特征$ {{\boldsymbol{X}}_N} $。再通过一个CAB和W-MSA并联的操作,为了避免CAB和W-MSA在优化和视觉表征可能发生的冲突,给CAB乘一个常数α,最终与前馈通道得到的特征$ {\boldsymbol{X}} $求和得到$ {{\boldsymbol{X}}_M} $。接着$ {{\boldsymbol{X}}_M} $经过第二层范数处理后,进行一个多层感知(multilayer perceptron, MLP)操作,最后再与前馈通道得到的特征$ {{\boldsymbol{X}}_M} $求和得到$ {\boldsymbol{Y}} $

    OCAB进一步地促进了不同窗口之间特征的深入交流与融合。其核心构成包括OCA层和MLP层。具体而言,OCA层通过采用多样化的窗口大小对投影特征进行划分,来实现对特征信息的精细捕捉与区分。RHAG则由多个HAB和一个OCAB共同组成。在这一架构中,特征数据会依次经过多个HAB的层级处理,以及OCAB的进一步深度挖掘,从而实现特征的全面优化与增强。最终,在图像复原阶段,经过RHAG深度处理后的特征会被精准地转化回高分辨率的图像。

    为了对本文提出的Yolov8_CSHC目标检测算法的性能进行定量及综合的评价,本文使用公开数据集网站Robotflow上的Marjan balance Dataset对该算法进行检验。该数据集中共计6 952张图片,其中训练集6 414张,验证集262张,测试集276张。数据集包含3类识别目标:正常、白化、死亡的珊瑚。数据集包含3类识别目标的多种海洋场景,即光线良好的近海、光线较差的深海、平坦的海域、岩石崎岖的海域,以及有水草和其他海洋生物干扰的场景。该数据集能够满足实验训练的需求,也能满足目标检测设备对深海复杂环境中珊瑚白化检测效果验证的需要,本实验所有算法均在此数据集上进行训练与验证评估。

    实验平台的硬件环境为CPU:Intel(R) Xeon(R)Platinum,GPU:RTX 3090(内存24 GB),软件环境为Ubuntu20.04+CUDA11.3+cuDNN11.3+ PyTorch1.11.0。

    本实验采用每秒千兆浮点运算量(giga floating-point operations per second, GFLOPS)、平均精度均值(mAP@0.5和mAP@0.5-0.95)和每秒帧数(frames per second, FPS)3项性能指标评判模型性能。

    mAP反映目标检测精度,其中mAP@0.5表示在IoU阈值设为0.5时的平均检测精度,mAP@0.5-0.95表示将IoU阈值从0.5到0.95范围内的mAP值取平均。FPS表示在1 s内处理的图像帧数,是反映模型推断速度的指标。检测结果可分为4种:真正例$ {N_{{\text{TP}}}} $、假正例$ {N_{{\text{FP}}}} $、真负例$ {N_{{\text{TN}}}} $和假负例$ {N_{{\text{FN}}}} $

    上述各指标的计算公式为

    $$ V = \frac{1}{T} $$
    $$ P = \frac{{{N_{{\text{TP}}}}}}{{{N_{{\text{TP}}}} + {N_{{\text{FP}}}}}} $$
    $$ R{\text{ = }}\frac{{{N_{{\text{TP}}}}}}{{{N_{{\text{TP}}}}{\text{ + }}{N_{{\text{FN}}}}}} $$
    $$ {P_{A} } = \int_0^1 {P(R){\text{d}}R} $$
    $$ {P_{{\text{mA}}}} = \frac{{\displaystyle\sum\limits_{j = 0}^n {{P_{{\text{A}}(j)}}} }}{n} $$

    式中:V代表每秒帧数,T代表一张图片处理所需要的时间;精确率P是检测出的正类中真正正确的比例,召回率R是数据集中正类被成功检测的比例;$ {P_{A} } $是检测的平均精度,$ {P_{{\text{mA}}}} $是平均精度均值,n为数据集包含的类别总数,$ {P_{{\text{A(}}j{\text{)}}}} $为第j个类别检测的平均准确率。

    在Marjan balance Dataset上测试了改进后Yolov8n算法的性能,并将结果与其他一系列具有代表性的算法进行了对比(如表1所示),证明本算法在海洋珊瑚健康状况探测的有效性,这些对比实验结果表明,该算法不论是在运算量还是识别精度上都具有一定的优势。

    表  1  不同算法模型下不同目标的性能指标对比
    Table  1  Comparison of performance indicators of different targets under different algorithm models
    模型 不同目标的AP@0.5/% GFLOPS FPS mAP@0.5/%
    Healthy coral Bleached coral Dead coral
    Yolov6n 66.7 82.6 77.1 11.34 86.4 75.5
    Yolov7 64.9 78.5 78.9 103.00 71.5 74.1
    Yolov8n 65.1 78.9 79.5 8.20 89.8 74.0
    Faster-RCNN 64.8 53.2 78.6 11.2 65.5
    SSD 65.3 71.7 77.8 24.7 71.6
    Yolov8_CSHC 72.1 81.3 77.2 7.20 84.0 76.9

    本实验各个目标检测算法均使用预训练权重,SSD算法使用的是基于VGG16的 “vgg_ssd300_voc0712”预训练权重,Faster-RCNN使用的是基于ResNet的“resnet50”预训练权重。在计算FPS时,batchsize均设置为1。

    表1中可以看出, 与Yolov8n算法相比,本文算法中Healthy coral的AP提升了7百分点,Bleached coral的AP提升了2.4百分点,mAP@0.5提升了2.9百分点,FPS只是略有差距,而GFLOPS则下降了12%。由此可以得出结论,在海洋珊瑚白化患病检测这一领域,Yolov8_CSHC算法的性能要比Yolov8n更为优秀。

    观察其他算法,在检测精度和FPS方面,Faster-RCNN最差,其次是SSD算法。在Yolo系列算法中,除Yolov8_CSHC算法外,Yolov6n的检测精度最好;Yolov7的GFLOPS最高,达到了103,FPS最低,只有71.5。本算法mAP@0.5最高,而GFLOPS最低,FPS优于Faster-RCNN、SSD和Yolov7等一系列算法。由此可以得出结论,在海洋珊瑚白化患病检测这一领域,Yolov8_CSHC算法的性能要比其他目标检测算法更为优秀。

    为了直观展示本算法的先进性,将Yolov8_CSHC与Yolov8n目标检测算法进行可视化对比,实验选取了5种不同的海洋场景对模型进行验证,其可视化分析结果如图7所示。

    图  7  可视化分析结果
    Fig.  7  Visualize analysis results
    下载: 全尺寸图片

    第1组实验:在昏暗的环境下Yolov8n有漏检现象。第2组实验:在光线良好的且有其他生物干扰的环境下,Yolov8n漏检严重且存在误检。第3组实验:选择与海床颜色接近且含有多类别珊瑚的海床环境,Yolov8n和Yolov8_CSHC算法都可以完成检测任务,但Yolov8_CSHC的检测精度要优于Yolov8n。第4组实验:选择小目标错综复杂的崎岖海床环境,Yolov8n存在漏检现象。第5组实验:在其他数据集中选取了小目标众多且环境更加复杂的试验场景,可以看出相对于Yolov8n,引入HAT的Yolov8_CSHC可以检测出更多的小目标。

    综上所述,相较于Yolov8n算法,本文提出的Yolov8_CSHC算法目标检测漏检率及误检率低,识别精度更高,在实际应用中有一定的优势。

    为了验证这几种改进方法的有效性,本文在此数据集上又进行了消融实验。如表2图8所示,Model1为在Yolov8n中增加CGA模块。Model2为在Model1的基础上增加SPPELAN模块,Model3为在Model2的基础上加入HAT模块。Model4为在Model3的基础上加入CIB_C2F模块。

    表  2  消融实验对照
    Table  2  Ablation experimental controls
    模型 CGA SPPELAN HAT CIB_C2F GFLOPS mAP@0.5/% mAP@0.5-0.95/%
    Yolov8n 8.2 74.0 43.6
    Model1 8.2 75.0 46.8
    Model2 8.4 75.5 46.9
    Model3 8.4 76.2 46.7
    Model4 7.2 76.9 47.2
    图  8  5个模型的训练结果对比
    Fig.  8  Comparision of the training results of 5 models
    下载: 全尺寸图片

    图8(a)、(b)所示,几个模型在训练过程中,mAP均呈现上升趋势。在训练到50轮之前数值变动幅度较大,当训练到100轮后变动放缓,在训练到150轮时已经趋于平稳且无明显的上升趋势,表示网络模型基本已经达到收敛状态。观察图8(c)、(d)、(e)中几个训练损失函数图像,可以看出,随着训练轮数的增加,各个模型的损失值越来越小,逐渐趋于收敛,并无上升趋势,表明网络模型没有发生过拟合的情况。各个损失曲线没有大的波动,说明本文使用的数据集质量稳定。

    通过比较表2中Yolov8n和Model1的各项指标可以发现,在加入CGA后,GFLOPS未增加,但mAP@0.5上涨了1百分点,mAP@0.5-0.95则上涨了3.2百分点,这表明该机制可以有效提高模型对特征区域的感知能力,保留了更丰富的小目标特征信息,提高了检测精度。对比表中Model1和Model2的各项指标可以发现,在引入SPPELAN结构后,GFLOPS上涨了0.2,mAP@0.5上涨了0.5百分点,mAP@0.5-0.95则上涨了0.2百分点,这表明,说明该结构虽需额外计算资源,但能提高特征提取能力,从而提升检测精度。对比Model2和Model3可以发现,在引入HAT后,GFLOPS没有上升,mAP@0.5上涨了0.7百分点,而mAP@0.5-0.95反而下降了0.2百分点,这表明在更高的IoU阈值下(即更严格、更难以识别的情况下),模型的性能有所下降。对比Model3和Model4可以观察到,GFLOPS下降了1.2,mAP@0.5上涨了0.7百分点,mAP@0.5-0.95上升了0.5百分点,这表明引入新的CIB_C2f模块可以在避免模型过于复杂化而造成检测精度性能损失的同时,使得检测精度又有一定程度的提升。

    针对海洋环境中珊瑚白化图像特征模糊、背景复杂多变导致的检测精度不足问题,本文提出Yolov8_CSHC目标检测算法。该算法通过改进C2f模块为新的CIB_C2f模块,显著降低了模型参数量和计算量。同时,引入SPPELAN实现多尺度特征融合,提升特征提取性能。此外,嵌入CGA聚焦特征区域,能够提高复杂背景下的特征显著性,从而提升检测精度和速度。HAT的加入则有效提高了小目标识别率。实验表明,Yolov8_CSHC在Marjan balance Dataset上表现优异,mAP@0.5指标超越Yolov8n及其他目标检测模型,验证了其有效性和优越性。

    后续将对Yolov8_CSHC算法的卷积部分进行通道剪枝,减少网络参数并提升计算速度,同时采用知识蒸馏技术弥补剪枝后的精度损失。这种轻量级设计旨在实现计算速度与精度的平衡,满足水下机器人等嵌入式设备的部署需求。该算法在海洋珊瑚分布与健康状况检测等领域具有实用价值,可以为环保部门和相关科研人员提供便捷有效的解决方案。

  • 图  1   Yolov8_CSHC结构

    Fig.  1   Yolov8_CSHC structure

    下载: 全尺寸图片

    图  2   CIB_C2f模块结构

    Fig.  2   CIB_C2f module structure

    下载: 全尺寸图片

    图  3   SPPELAN结构

    Fig.  3   Structure of SPPELAN

    下载: 全尺寸图片

    图  4   CGA模块结构

    Fig.  4   CGA module structure

    下载: 全尺寸图片

    图  5   热力图可视化对比

    Fig.  5   Comparison of heat map visualizations

    下载: 全尺寸图片

    图  6   HAT的整体架构及其关键组成部分

    Fig.  6   Overall architecture of the HAT and its key components

    下载: 全尺寸图片

    图  7   可视化分析结果

    Fig.  7   Visualize analysis results

    下载: 全尺寸图片

    图  8   5个模型的训练结果对比

    Fig.  8   Comparision of the training results of 5 models

    下载: 全尺寸图片

    表  1   不同算法模型下不同目标的性能指标对比

    Table  1   Comparison of performance indicators of different targets under different algorithm models

    模型 不同目标的AP@0.5/% GFLOPS FPS mAP@0.5/%
    Healthy coral Bleached coral Dead coral
    Yolov6n 66.7 82.6 77.1 11.34 86.4 75.5
    Yolov7 64.9 78.5 78.9 103.00 71.5 74.1
    Yolov8n 65.1 78.9 79.5 8.20 89.8 74.0
    Faster-RCNN 64.8 53.2 78.6 11.2 65.5
    SSD 65.3 71.7 77.8 24.7 71.6
    Yolov8_CSHC 72.1 81.3 77.2 7.20 84.0 76.9

    表  2   消融实验对照

    Table  2   Ablation experimental controls

    模型 CGA SPPELAN HAT CIB_C2F GFLOPS mAP@0.5/% mAP@0.5-0.95/%
    Yolov8n 8.2 74.0 43.6
    Model1 8.2 75.0 46.8
    Model2 8.4 75.5 46.9
    Model3 8.4 76.2 46.7
    Model4 7.2 76.9 47.2
  • [1] HUGHES T P, ANDERSON K D, CONNOLLY S R, et al. Spatial and temporal patterns of mass bleaching of corals in the Anthropocene[J]. Science, 2018, 359(6371): 80−83. doi: 10.1126/science.aan8048
    [2] 李凯, 高璐, 董旭, 等. 2014年与2015年夏季琼东上升流的年际变化及其成因分析[J]. 海洋学报, 2019, 41(1): 1−10. doi: 10.3969/j.issn.0253-4193.2019.01.001

    LI Kai, GAO Lu, DONG Xu, et al. The interannual variation and preliminary analysis of upwelling in eastern Hainan Island in summer of 2014 and 2015[J]. Haiyang Xuebao, 2019, 41(1): 1−10. doi: 10.3969/j.issn.0253-4193.2019.01.001
    [3] 方雪原, 娄安刚, 贺成奇. 北部湾冬季风生环流的数值模拟及其对海洋环境的影响分析[J]. 海洋湖沼通报, 2015, 37(1): 129−133.

    FANG Xueyuan, LOU Angang, HE Chengqi. Numerical simulation of wind-driven circulation and its impact on marine environment in winter of theBeibu gulf[J]. Transactions of oceanology and limnology, 2015, 37(1): 129−133.
    [4] 陈波, 侍茂崇. 北部湾海洋环流研究进展[J]. 广西科学, 2019, 26(6): 595−603.

    CHEN Bo, SHI Maosui. Advances in study of Beibu Gulf circulation[J]. Guangxi sciences, 2019, 26(6): 595−603.
    [5] 龙丽娟, 杨芳芳, 韦章良. 珊瑚礁生态系统修复研究进展[J]. 热带海洋学报, 2019, 38(6): 1−8.

    LONG Lijuan, YANG Fangfang, WEI Zhangliang. A review on ecological restoration techniques of coral reefs[J]. Journal of tropical oceanography, 2019, 38(6): 1−8.
    [6] 胡文佳, 张典, 廖宝林, 等. 中国大陆沿岸造礁石珊瑚适生区及保护空缺分析[J]. 中国环境科学, 2021, 41(1): 401−411. doi: 10.3969/j.issn.1000-6923.2021.01.046

    HU Wenjia, ZHANG Dian, LIAO Baolin, et al. Potential suitable habitat and conservation gaps of scleractinia corals along China’s mainland’s coast[J]. China environmental science, 2021, 41(1): 401−411. doi: 10.3969/j.issn.1000-6923.2021.01.046
    [7] YAMANO H, TAMURA M. Detection limits of coral reef bleaching by satellite remote sensing: simulation and data analysis[J]. Remote sensing of environment, 2004, 90(1): 86−103. doi: 10.1016/j.rse.2003.12.005
    [8] MA Yunhan, ZHANG Huaguo, CAO Wenting, et al. Detection of coral bleaching in oceanic islands using normalized bottom reflectance change index from multispectral satellite imagery[J]. IEEE geoscience and remote sensing letters, 2019, 20: 1502105.
    [9] 董娟, 任广波, 胡亚斌, 等. 基于高分辨率遥感的珊瑚礁地貌单元体系构建和分类方法: 以8波段Worldview-2影像为例[J]. 热带海洋学报, 2020, 39(4): 116−129.

    DONG Juan, REN Guangbo, HU Yabin, et al. Construction and classification of coral reef geomorphic unit system based on high-resolution remote sensing: using 8-band Worldview-2 Image as an example[J]. Journal of tropical oceanography, 2020, 39(4): 116−129.
    [10] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580−587.
    [11] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440−1448.
    [12] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137−1149. doi: 10.1109/TPAMI.2016.2577031
    [13] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779−788.
    [14] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 21−37.
    [15] QU Haicheng, LI Ruike, SHAN Yimeng, et al. SW-Net: anchor-free ship detection based on spatial feature enhancement and weight-guided fusion[J]. Signal, image and video processing, 2024, 18(2): 1763−1777. doi: 10.1007/s11760-023-02885-5
    [16] JAMIL S, RAHMAN M, HAIDER A. Bag of features (BoF) based deep learning framework for bleached corals detection[J]. Big data and cognitive computing, 2021, 5(4): 53. doi: 10.3390/bdcc5040053
    [17] CORRUZ M G, FILIPINA E, SANTIAGO M J, et al. BahurApp: development and implementation of coral bleaching monitoring application using convolutional neural network[C]//2021 IEEE 13th International Conference on Humanoid, Nanotechnology, Information Technology, Communication and Control, Environment, and Management. Manila: IEEE, 2021: 1−6.
    [18] BAUTISTA-HERNÁNDEZ G A, JIMENEZ-NIXON D A, REYES-DUKE A M. Coral reef disease and bleaching indentification through computational vision algorithm[C]//2022 IEEE Central America and Panama Student Conference. San Salvador: IEEE, 2022: 1−6.
    [19] MITTAL K, GILL K S, RAJPUT K, et al. Deep dive: enhancing coral reef conservation through ResNet50 pre-trained enabled CNN monitoring[C]//2024 International Conference on Communication, Computing and Internet of Things (IC3IoT). Chennai: IEEE, 2024: 1−5.
    [20] MITTAL K, GILL K S, CHATTOPADHYAY S, et al. Enhancing coral health evaluation with VGG16: CNN-powered approach for streamlined reef surveillance and preservation[C]//2024 International Conference on Intelligent Systems for Cybersecurity. Gurugram: IEEE, 2024: 1−5.
    [21] BHURIA R, GILL K S, THAPLIYAL N, et al. Towards sustainable seas utilizing VGG19 empowered coral health evaluation[C]//2024 7th International Conference on Circuit Power and Computing Technologies. Kollam: IEEE, 2024: 835−839.
    [22] VARGHESE R, M S. YOLOv8: a novel object detection algorithm with enhanced performance and robustness[C]//2024 International Conference on Advances in Data Engineering and Intelligent Computing Systems. Chennai: IEEE, 2024: 1−6.
    [23] WANG Hao, SONG Zhili. Improved mosaic: algorithms for more complex images[J]. Journal of physics: conference series, 2020, 1684(1): 012094. doi: 10.1088/1742-6596/1684/1/012094
    [24] WANG Ao, CHEN Hui, LIU Lihao, et al. Yolov10: real-time end-to-end object detection[EB/OL]. (2024−05−23) [2024−12−25]. https://arxiv.org/abs/2405.14458v2.
    [25] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904−1916. doi: 10.1109/TPAMI.2015.2389824
    [26] AGUERA P E, JERBI K, CACLIN A, et al. ELAN: a software package for analysis and visualization of MEG, EEG, and LFP signals[J]. Computational intelligence and neuroscience, 2011, 2011: 158970.
    [27] WANG C Y, YEH I H, LIAO H Y M. Yolov9: learning what you want to learn using programmable gradient information[EB/OL]. (2024−02−21) [2024−10−25]. https://arxiv.org/abs/2402.13616v2.
    [28] KUMAR REDDY R V, SRINIVASA RAO B, RAJU K P. Handwritten Hindi digits recognition using convolutional neural network with RMSprop optimization[C]//2018 Second International Conference on Intelligent Computing and Control Systems. Madurai: IEEE, 2018: 45−51.
    [29] LIU Xinyu, PENG Houwen, ZHENG Ningxin, et al. EfficientViT: memory efficient vision transformer with cascaded group attention[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 14420−14430.
    [30] CHEN Xiangyu, WANG Xintao, ZHOU Jiantao, et al. Activating more pixels in image super-resolution transformer[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 22367−22377.
WeChat 点击查看大图
图(8)  /  表(2)
出版历程
  • 收稿日期:  2024-12-30
  • 网络出版日期:  2025-08-07

目录

    /

    返回文章
    返回