改进YOLOv8的轻量化钢材表面缺陷检测

张冀; 王定邦; 曹锦纲; 杨立然

doi:10.11992/tis.202504018

改进YOLOv8的轻量化钢材表面缺陷检测

doi: 10.11992/tis.202504018

张冀^{1, 2,},
王定邦^1,,
曹锦纲^{1, 2, ,},
杨立然^{1, 2}

1.
华北电力大学计算机系, 河北保定 071003;
2.
华北电力大学复杂能源系统智能计算教育部工程研究中心, 河北保定 071003

基金项目: 河北省自然科学基金青年科学基金项目(A类)(F2024502002)；中央高校基本科研业务费专项资金面上项目(2024MS127).

详细信息

作者简介:
张冀，副教授，博士，主要研究方向为计算机测控、故障诊断、信息融合、图像处理和深度学习。发表学术论文20余篇，出版规划教材2部。E-mail：72zhangji@163.com;

王定邦，硕士研究生，主要研究方向为计算机视觉。E-mail：wangdb951@163.com;

曹锦纲，讲师，博士，主要研究方向为图像处理和模式识别，发表学术论文10余篇。E-mail：caojg168@126.com.

通讯作者:
曹锦纲. E-mail：caojg168@126.com.

中图分类号: TP391.4；TG115
出版历程
- 收稿日期: 2025-04-23
- 网络出版日期: 2025-09-24

Improvement of YOLOv8 for lightweight steel surface defect detection

ZHANG Ji^{1, 2,},
WANG Dingbang^1,,
CAO Jingang^{1, 2, ,},
YANG Liran^{1, 2}

1.
Department of Computer Science, North China Electric Power University, Baoding 071003, China;
2.
Engineering Research Center of intelligent Computing for Complex Energy Systems Ministry of Education, North China Electric Power University, Baoding 071003, China

摘要

摘要:
针对钢板表面缺陷检测目前存在的严重漏检误检以及边缘设备难部署问题，提出了一种基于YOLOv8的轻量化的钢材表面缺陷检测算法。1)设计了部分卷积门控线性单元(partial convolutional gated linear unit, PGBN)模块来替换BottleNeck模块，只对部分通道进行卷积操作以减少模型的参数；2)使用不同膨胀率的卷积改进空间金字塔池化模块，加强对细粒度特征的提取，并结合全局到局部空间聚合(global-to-local spatial aggregation, GLSA)模块改进BiFPN(bidirectional feature pyramid network)结构，提出了多尺度特征融合网络GLFPN(global-to-local spatial aggregation bidirectional feature pyramid network)，以保留小目标特征，提升模型精度；3)设计了轻量化的检测头，使用共享权重的卷积进一步减少模型的参数量和计算量；4)用WIoU(weighted intersection over union)损失函数来替代原有的损失函数。实验结果表明，改进模型在NEU-DET数据集上mAP50达到了 79.6%，相比YOLOv8n 提升了4.2百分点，而模型的参数量和计算量仅有1.43×10⁶ 和4.7×10⁹，较YOLOv8n分别下降了53.3%和41.9%，在提升准确率的同时更加适合在边缘设备部署。
- 轻量级网络 /
- 缺陷检测 /
- YOLOv8n /
- 多尺度特征融合 /
- 特征提取 /
- 空间金字塔 /
- 目标检测 /
- WIoU
Abstract:
Surface defects of steel plates still face significant issues of missed and false detections, as well as difficulties in deployment on edge devices. To address these problems, a lightweight steel surface defect detection algorithm based on YOLOv8 is proposed. First, a Partial Convolution Gated Linear Unit (PGBN) module is designed to replace the BottleNeck module, performing convolution operations only on part of the channels to reduce the model’s parameters. Next, the Spatial Pyramid Pooling module is improved by using convolutions with different dilation rates to enhance the extraction of fine-grained features. Then, GLFPN is proposed by combining the Global-to-Local Spatial Aggregation (GLSA) module with the improved BiFPN structure. Its weighted fusion can more effectively retain small sample features, thereby improving the model’s accuracy. After that, a more lightweight detection head is designed to further reduce the model’s parameters and computational load. Finally, the WIoU loss function is used to replace the original CIoU. Experimental results show that the improved model achieves an mAP50 of 79.6% on the NEU-DET dataset, a 4.2 percent improvement over YOLOv8n, while the model parameters and computational load are only 1.43×10⁶ and 4.7×10⁹, respectively, representing a 53.3% and 41.9% reduction compared to YOLOv8n. This makes the model more accurate while being more suitable for deployment on edge devices.
- lightweight network /
- defect detection /
- YOLOv8n /
- multiscale feature fusion /
- feature extraction /
- spatial pyramid /
- object detection /
- WIoU

HTML全文

钢材作为工业生产的重要基础材料，表面质量直接影响到最终产品的性能和使用寿命。由于钢材产品广泛应用于建筑、汽车和航空航天等领域，表面缺陷(如划痕、裂纹和夹杂物等)检测对于保证产品质量至关重要。因此，钢材表面缺陷检测技术的研究与应用具有重要的现实意义。

传统的钢材表面缺陷检测方法主要依赖于人工检测、红外检测法和漏磁检测法^[1]等，这些方法不仅效率低下，而且检测精度有限，还存在主观性强以及对复杂表面模式适应性差等问题，难以满足现代工业生产对高质量、高效率和高稳定性的要求。因此，如何在保证高检测精度的同时，实现模型的轻量化，仍然是一个亟待解决的问题。深度学习强大的特征提取和模式识别能力，在视觉检测任务中表现出了卓越的性能。现阶段的目标检测算法主要分为两类。

一种是以R-CNN(region-based convolutional neural networks)^[2]、Fast-RCNN^[3]和Faster-RCNN^[4]为代表的二阶段目标检测算法，该类算法先利用候选区域生成提取可能存在目标的区域，然后在这些候选区域上进行特征提取和分类，然而，该类方法计算复杂度较高，难以满足实时检测的需求，因此在工业生产线上的应用受到限制。近年来，为了提升两阶段检测算法的效率，研究人员提出了多种改进方案。例如，Cascade R-CNN^[5] 通过多级级联网络提高了目标检测的精度，Libra R-CNN^[6] 通过平衡正负样本的损失函数优化目标检测效果，但这类方法仍然存在计算复杂度高、推理速度慢的问题，不适用于实时性要求较高的工业场景。陈露远等^[7]提出一种基于融合Transformer和Faster-RCNN的多模态特征提取与融合模型更好地进行两种模态特征的提取。Sparse R-CNN^[8]稀疏化候选区域生成过程，采用了一种动态实例交互头，与传统的固定参数头部相比，它以独特的提案特征为条件，更加灵活，并在准确性方面具有显著领先优势。邓慧等^[9]利用精准的感兴趣区域池化和均值偏移聚类算法获得更佳的锚框尺寸，能很好地满足工业检测的需求。

另一种是以SSD(single shot multibox detector)^[10]、YOLO(you only look once)^[11-13]为代表的直接进行位置回归的单阶段检测方法。SSD 通过不同尺度的特征图进行多尺度目标检测，提高了检测精度，但对小目标的检测效果有限。YOLO 系列自提出以来，不断优化网络结构和检测机制，检测精度和速度均得到了显著提升。YOLOv5 采用 C3(cross stage partial network with 3 convolutions) 结构优化了特征提取能力，YOLOv7 通过 E-ELAN(extended efficient layer aggregation networks)结构增强了计算效率，而 YOLOv8 优化动态标签分配策略，采用无锚框(anchor-free)在训练上更加高效，使得检测性能得到进一步提升。李刚等^[14]提出了一种轻量级的缺陷检测网络，主干网络中嵌入了通道注意力层和坐标注意力层，用于获取丰富的表面缺陷特征信息，此外，多尺度特征聚合网络融合了深层语义和浅层语义特征信息，进一步提升了模型对复杂缺陷的检测能力。GS-YOLO(gather-and-distribute-squeeze-YOLO)^[15] 通过引入动态卷积模块，显著扩大了网络的感受野，提升了对多尺度缺陷特征的提取能力，同时改进损失函数更有效地优化检测框的定位精度，有效地提升了缺陷检测的准确性和效率。敖思铭等^[16] 通过K-means选取更合适的预设锚框，提高预测框与真实目标的匹配度，提高模型检测精度的同时加速了模型的收敛。侯玥等^[17]设计了一种由Swin Transformer模块和PANet(path aggregation network)模块组成的学习器，对小样本检测任务有了显著的提高。张上等^[18]设计了基于YOLOv8的轻量级锻件缺陷检测算法，提出轻量化卷积模块，以增强特征交互并降低计算量，利用LAMP(layer-adaptive magnitude-based pruning)剪枝策略去除不重要的权重参数，减少模型体积并提高检测速度。然而，钢材表面缺陷检测由于缺陷尺寸较小、形状不规则和对比度低等特点，仍然面临诸多挑战，且在计算资源受限的工业应用场景中，轻量化模型更具实际价值。为了解决这些挑战，本文提出了一种改进轻量化钢材表面缺陷检测方法PFGD-YOLOv8(PGC2f+FPSC+GLFPN+ DSHead)，旨在在降低模型尺寸的同时，实现高检测精度，便于实际工业应用。本文主要创新如下：

1)在主干网络部分，设计了部分卷积门控线性单元(partial convolutional gated linear unit, PGC2f)模块，使用部分卷积捕捉局部特征，并通过门控机制加权这些特征，在降低模型参数量的同时，提升模型的检测精度。

2)对空间金字塔池化快速(spatial pyramid pooling fast, SPPF)模块进行改进提出一种新的特征金字塔共享卷积FPSC(feature pyramid shared convolution)模块来增强模型对细小缺陷的特征提取能力，通过采用不同膨胀率的卷积操作，在不增加参数量的情况下，捕捉更大范围的上下文信息，有效提取不同尺度的特征。

3)在颈部网络部分，用全局到局部空间聚合(global-to-local spatial aggregation, GLSA)模块取代传统卷积，并结合BiFPN(bidirectional feature pyramid network)设计了一种全局到局部空间聚合双向特征金字塔网络(GLSA-BiFPN, GLFPN)，通过通道分割，分别提取全局和局部信息，再进行融合，能够更好地保留小目标特征，提升了模型对复杂缺陷的检测能力。

4)在头部网络部分，设计了一个轻量化细节增强共享检测头(detail-enhanced shared convolution detection head, DSHead)，使用卷积共享权重策略，并结合归一化策略和细节增强卷积以防止精度下降，有效地降低了模型的参数量，最后，用WIoU(weighted intersection over union)损失函数替换原有的损失函数进一步提升模型性能。

1. PFGD-YOLOv8

1.1 YOLOv8

YOLOv8作为近些年被广泛使用的单阶段目标检测算法，在检测、分割和分类等任务中都表现出优异的速度和准确率，其网络结构主要有输入、主干网络、特征融合网络、检测头以及输出端5部分构成。主干网络负责从输入图像中提取特征信息，通常基于 CSPDarknet(cross stage partial darknet)，通过跨阶段部分连接(cross stage partial connections, CSP)来减少计算量并提升特征提取能力。YOLOv8的特征融合网络通常采用 PANet模块，PANet 通过自底向上和自顶向下的路径聚合，将不同层次的特征进行融合，从而增强模型对不同尺度目标的检测能力。为提升模型的检测能力，YOLOv8默认使用无锚框检测方式，相比传统的基于锚框的方法，减少了超参数的调整，提高了检测速度和精度。

1.2 PFGD-YOLOv8

钢材表面缺陷检测任务具有其特殊性：缺陷种类多样，形态复杂尺度变化大，且工业场景中计算资源有限，这对算法的轻量化和鲁棒性提出了更高的要求，因此提出轻量化缺陷检测模型PFGD-YOLOv8，模型结构如图1所示，主要包括主干(Backbone)、颈部(Neck)和头部(Head)3部分。

图 1 PFGD-YOLOv8模型结构

Fig. 1 Structure of PFGD-YOLOv8 model

下载: 全尺寸图片

主干网络包含普通卷积(Conv)、PGC2f和FPSC模块。Conv调整通道数与分辨率提取低层边缘、纹理等特征；PGC2f结合部分卷积，提高模型对细节的捕捉能力的同时降低模块复杂度；FPSC模块通过引入多尺度卷积和残差连接进一步特征选择和融合，提高模型的检测精度。颈部网络包含GLSA、PGC2f和Bi-Concat模块，GLSA模块结合全局与局部注意力的结果，调整通道数的同时进一步突出关键区域；抑制背景噪声；Bi_Concat模块通过加权融合增强细小特征的权重，进一步增强 PFGD-YOLOv8 模型的小目标特征捕捉。在头部使用轻量级细节增强共享卷积检测头(DSHead)。最后，使用WIoU替换原本的CIoU(complete intersection over union)作为损失函数。

1.2.1 PGC2f特征提取模块

在YOLOv8特征提取网络中，C2f模块由Conv和多个Bottleneck组成，其在特定数据集(NEU-DET)特征提取能力效果欠佳，模型训练效果出色，但是测试效果不理想。模块中的标准卷积操作计算复杂度较高，且需要频繁进行内存访问，为了满足模型轻量化的同时提高特征提取能力，受PConv启发设计了PGBN模块，如图2所示。PGBN的公式为

图 2 PGBN 结构

Fig. 2 Structure of PGBN

下载: 全尺寸图片

$$ {{\mathrm{PGBN}}} ({\boldsymbol{x}}) = {\boldsymbol{x}} + {{\mathrm{Drop}}} ({\mathrm{CGLU}}({\mathrm{PConv}}({\boldsymbol{x}}))) $$

式中：${\boldsymbol{x}}$表示输入特征，$ {{\mathrm{Drop}}} ( \cdot ) $表示DropPath操作，$ {{\mathrm{CGLU}}} ( \cdot ) $和${{\mathrm{PConv}}} ( \cdot )$分别表示经CGLU(convolutional gated linear units)模块和PConv模块处理。

PGBN由3部分构成，第1部分为PConv^[19]特征提取模块，只对部分输入通道进行空间特征提取，其余通道数保持不变，当Pconv仅使用1/4的通道数时，局部卷积的计算量仅为标准卷积的1/16，能够显著地减少模型的计算复杂度。

PGBN的第2部分为通道混合器CGLU^[20]，通过门控机制动态地控制信息流，使得网络能够自适应地强调重要特征并抑制不重要的特征，增强了局部建模能力和模型的鲁棒性，CGLU结构如图3所示。

图 3 CGLU结构

Fig. 3 Structure of CGLU

下载: 全尺寸图片

CGLU在传统的GLU(gated linear unit)门控分支^[21]的激活函数前融入一个简化的3×3深度卷积，用来捕捉局部特征并提供位置信息，使其结构符合门控通道注意的设计理念，每个通道的门控信号能够根据其邻域特征进行调整，增强了模型对局部模式的敏感性，经过激活函数后与其他分支的输出进行逐位相乘，得到最终结果。CGLU操作表示为

$$ {{\mathrm{CGLU}}} ({\boldsymbol{x}}) = {\boldsymbol{x}} + {{\mathrm{Lin}}} ({{\mathrm{Lin}}} ({\boldsymbol{x}}) \odot \sigma ({{\mathrm{Lin}}} ({{\mathrm{DWConv}}} ({\boldsymbol{x}})))) $$

式中：${{\mathrm{Lin}}} ( \cdot )$表示线性变换操作，$ \sigma ( \cdot ) $表示GELU(Gaussian error linear units)激活函数，${{\mathrm{DWConv}}} ( \cdot )$表示经过深度可分离卷积(depthwise convolution, DWConv)模块处理。

第3部分Droppath模块在训练过程中随机丢弃整个网络层的输出防止模型过拟合，提高模型的泛化能力。

由PGBN模块替换C2f中的Bottleneck构建成了PGC2f模块，如图4所示，C表示拼接操作Concat。

图 4 PGC2f结构

Fig. 4 Structure of PGC2f

下载: 全尺寸图片

用PGC2f替换原本YOLOv8的C2f模块，通过在前向传播过程中添加CGLU模块，结合局部卷积实现更轻的网络架构和更强的特征提取能力。

1.2.2 FPSC

YOLOv8中的SPPF采用多个固定尺度的池化操作(如 5×5、9×9、13×13)来提取多尺度特征，虽然可以很好地提取输入特征，但小目标的特征可能在较大的池化窗口下被平均化，导致信息损失，对小目标检测效果较差，影响检测精度。在钢材表面缺陷检测任务中，SPPF对细粒度缺陷检测(如划痕、裂纹等)的目标边界的描述不够精确，影响目标框的回归效果。因此，设计了一种更加细粒度的特征提取模块FPSC，网络结构如图5所示。

图 5 FPSC结构

Fig. 5 Structure of FPSC

下载: 全尺寸图片

FPSC先通过1×1的卷积调整通道数，为了防止参数量过大，使用共享卷积层SharedConv提取不同尺度特征，其中权重是共享的，不同尺度的特征提取使用相同的卷积核，通过调整膨胀因子d来改变感受野，从而捕获更大范围的上下文信息，最后将所有卷积层的输出在通道维度上进行拼接，形成一个包含多尺度信息的特征图，通过共享卷积权重，该模块在增加感受野的同时保持了计算效率。FPSC的操作可表示为

$$ \begin{gathered} {\boldsymbol{x}}_0 = {{\mathrm{SharedConv}}}_d = {}_1({\mathrm{Conv}}({\boldsymbol{x}})) \\ {\boldsymbol{x}}_1 = {{\mathrm{SharedConv}}}_d = {}_3({\boldsymbol{x}}_0) \\ {\boldsymbol{x}}_2 = {{\mathrm{SharedConv}}}_d = {}_5({\boldsymbol{x}}_1) \\ \end{gathered} $$

$$ {{\mathrm{FPSC}}} ({\boldsymbol{x}}) = ({{\mathrm{Conv}}} ({{\mathrm{Concat}}} ({{\mathrm{Conv}}} ({\boldsymbol{x}}),{\boldsymbol{x}}_0,{\boldsymbol{x}}_1,{\boldsymbol{x}}_2))) $$

式中：$ {\boldsymbol{x}} $为输入特征图； ${{\mathrm{SharedConv}}}_{d = i}$，i={1,3,5}分别表示膨胀因子为1、3和5的共享卷积；而${\boldsymbol{x}}_0$、${\boldsymbol{x}}_1$和${\boldsymbol{x}}_2$为对应共享卷积的输出。

1.2.3 GLFPN

在钢板缺陷中，小目标缺陷较为常见，可能会导致模型出现误检和漏检现象，而小目标特征在低层特征图中通常更加明显。YOLOv8中的特征融合网络通过自上而下的 FPN(feature pyramid network)块和自下而上的 PANet 块实现了双向特征融合，增强了底层特征的语义信息，但其简单的逐元素相加或拼接的特征融合方式可能导致底层细节信息的丢失。

BiFPN^[22]通过可学习的权重动态调整不同层级特征的贡献，底层特征在融合过程中不会被简单覆盖，而是通过权重分配得到增强，能够更好地保留小目标特征。传统的 FPN 和 PANet 中存在一些冗余节点(例如只有单一输入边的节点)，这些节点对特征融合的贡献有限，但增加了计算复杂度。BiFPN 删除了这些冗余节点，简化了网络结构，同时提高了计算效率。BiFPN 允许堆叠多个模块，通过重复使用双向路径和加权融合机制，逐步优化特征表示，从而提升模型性能。其特征融合公式为

$$ {\boldsymbol{O}} = \sum\limits_i {\frac{{W_i}}{{\varepsilon + \displaystyle\sum\limits_j {W_j} }}} \cdot {\boldsymbol{F}}_i $$

式中：${\boldsymbol{O}}$是融合后的输出特征图，${\boldsymbol{F}}_i$是第i个输入特征图，$W_i$是对应于第i个输入特征图的可学习权重，$ \varepsilon $=10⁻⁴用于避免数值不稳定。以P4层为例，其特征融合表达式为

$$ {\boldsymbol p}_{4}^{\text{out}}=\mathrm{Conv}\left(\frac{{\boldsymbol{\omega}} _{1}'{\boldsymbol p}_{4}^{\text{in}}+{\boldsymbol{\omega}} _{2}'{\boldsymbol p}_{4}^{\text{td}}+{\boldsymbol{\omega}} _{3}' \cdot \mathrm{Resize}({\boldsymbol p}_{3}^{\text{out}})}{{\boldsymbol{\omega}} _{1}'+{\boldsymbol{\omega}} _{2}'+{\boldsymbol{\omega}} _{3}'+{\boldsymbol{\epsilon}} }\right) $$

式中：$ {\boldsymbol{p}}_4^{{\text{out}}} $为自下而上第4层的输出结果，$ {\boldsymbol{p}}_4^{{\mathrm{td}}} $为中间结果，${{\mathrm{Resize}}} ( \cdot )$为上采样或下采样操作，${{\mathrm{Conv}}} ( \cdot )$为普通卷积，$ {\boldsymbol{\omega}} _1' - {\boldsymbol{\omega}} _3' $为学习到的特征权重。

BiFPN依赖于多层次的双向特征融合机制，其中包含多次特征的跨层融合和更新，导致了较高的计算开销。尤其在高分辨率图像处理时，计算复杂度会显著增加，针对该问题本文提出了一种改进的全局到局部空间聚合双向特征金字塔网络GLFPN，PANet、BiFPN和GLFPN的网络结构如图6所示。

图 6 PANet、BiFPN和GLFPN结构

Fig. 6 Structure of PANet，BiFPN and GLFPN

下载: 全尺寸图片

GLFPN在保留跨尺度双向特征交互机制的前提下，对原网络进行层级精简优化，仅使用P3、P4、P5通道进行特征图输出，降低计算负担的同时避免最高层级(如P7)带来的噪声干扰。

在颈部部分引入GLSA(global-to-local spatial aggregation)模块^[23]，GLSA网络结构如图7所示，输入特征图F通过分离通道映射为两组特征图F¹和F²，分别输入到全局空间注意力(global spatial attention, GSA)模块和局部空间注意力(local spatial attention, LSA)模块中。GSA强调每个像素在空间中的长距离关系，补充局部空间注意力，先通过1×1卷积层和转置操作，生成全局空间注意力图，然后用Softmax函数对注意力图进行归一化，得到的结果与原始输入特征图进行矩阵乘法，增强全局特征。通过多层感知机(multilayer perceptron, MLP)第一层将输入映射到扩展比为2的高维空间，经过ReLU(rectified linear units)和归一化层处理，第二层恢复到和输入相同的维度。GSA公式为

图 7 GLSA结构

Fig. 7 Structure of GLSA

下载: 全尺寸图片

$$ {{\mathrm{AttG}}} ({\boldsymbol{F}}_{}^1) = {{\mathrm{Softmax}}} ({\text{Transpose}}({{\mathrm{Conv}}} ({\boldsymbol{F}}_{}^1))) $$

$$ {{\mathrm{MLP}}} ({\boldsymbol{x}}) = ({{\mathrm{Conv}}} ({{\mathrm{LR}}} ({{\mathrm{Conv}}} ({\boldsymbol{x}})))) $$

$$ {{\mathrm{GSA}}} ({\boldsymbol{F}}^1) = {{\mathrm{MLP}}} ({{\mathrm{AttG}}} ({\boldsymbol{F}}^1) \otimes {\boldsymbol{F}}^1) + {\boldsymbol{F}}^1 $$

式中：$ {{\mathrm{AttG}}} ( \cdot ) $表示全局注意力操作，${{\mathrm{Transpose}}} ( \cdot )$和${{\mathrm{Softmax}}} ( \cdot )$分别表示转置操作和Softmax函数，${{\mathrm{LR}}} ( \cdot )$表示经过层归一化和ReLU非线性激活函数处理，${{\mathrm{MLP}}} ( \cdot )$表示经过MLP模块处理，${{\mathrm{Conv}}} ( \cdot )$表示1×1卷积，$ \otimes $表示矩阵乘法，+表示残差链接操作，${{\mathrm{GSA}}} ( \cdot )$表示经过GSA模块处理。

LSA通过深度可分离卷积和卷积层提取局部特征，使用Sigmoid函数生成局部空间注意力图，得到的结果与原始输入特征图先进行逐元素相乘再相加，公式为

$$ {{\mathrm{F}}_{\mathrm{c}}} (x) = ({{\mathrm{Conv}}} ({{\mathrm{DWConv}}} ({\boldsymbol{x}})) + {\boldsymbol{x}}) $$

$$ {{\mathrm{AttL}}} ({\boldsymbol{F}}^2) = \sigma {({{{\mathrm{Conv}}} }({{\mathrm{F}}_{{\mathrm{c}}{{ \times }}3}} ({\boldsymbol{F}}^2)) + {\boldsymbol{F}}^2)} $$

$$ {{\mathrm{LSA}}} ({\boldsymbol{F}}^2) = {{\mathrm{AttL}}} ({\boldsymbol{F}}^2) \odot {\boldsymbol{F}}^2 + {\boldsymbol{F}}^2 $$

式中：${{\mathrm{AttL}}} ( \cdot )$表示局部注意力操作，$ \sigma ( \cdot ) $表示Sigmoid函数，${{\mathrm{F}}}_{{\mathrm{c}}{{ \times }}3}( \cdot )$表示级联的3个$ {{\mathrm{F}}_{\mathrm{c}}} $模块，$ \odot $表示逐点乘法，$ {{\mathrm{LSA}}} ( \cdot ) $表示经过LSA模块处理，$ {{\mathrm{DWConv}}} ( \cdot ) $表示经过DWConv模块处理，这种结构设计可以用更少的参数高效地聚合局部空间信息。

1.2.4 轻量化解耦头

随着深度卷积神经网络深度的增加，模型在检测时不可避免地会产生占用大量内存和运行速度过慢的问题，因此设计了一种新的轻量化的细节增强共享检测头DSHead，其结构如图8所示。

图 8 DSHead结构

Fig. 8 Structure of DSHead

下载: 全尺寸图片

首先通过基于组归一化的卷积来调整通道数。然后，使用两组共享参数的基于组归一化的细节增强卷积(DEConv_GN)对跨层空间和语义信息进行聚合。最后，将提取的信息输入到分类和回归头中。使用了一个包含可学习缩放因子的缩放层(Scale)处理检测头之间目标大小不一致问题并防止小目标特征信息的丢失，对回归头中的特征进行调整。用GN(group normalization)层替换Conv中的BN(batch normalization)层。BN 层一般用于加速训练并提高模型性能，然而，BN 层的归一化计算依赖于批次大小，当批次较小时，统计均值和方差的不稳定性会导致模型性能下降。GN 层通过将特征通道分组，并在每个组内独立计算均值和方差来进行归一化操作。这种设计使得 GN 层的计算与批次大小无关，从而在不同批次大小下都能保持稳定的精度，尤其在小批次训练中表现优异^[24]。

DEConv包括原始卷积(vanilla convolution, VC)和差分卷积(difference convolutions)。差分卷积包括4种不同类型的卷积操作：中心差分卷积(central difference convolution, CDC)、自适应差分卷积(adaptive difference convolution, ADC)、垂直差分卷积(vertical difference convolution, VDC)和水平差分卷积(horizontal difference convolution, HDC)，能够从不同方向和角度捕获图像的细微特征。这种多维度的特征提取能力帮助模型能够更全面地理解图像内容，尤其是边缘、纹理等细节信息。此外在DEConv上，当几个具有相同大小的卷积核输入相同的步幅和填充操作时，对它们的输出求和产生的结果与对相应位置的核求和产生的最终输出相同，不会增加额外的计算和参数，使DEConv更加适用于轻量级的模型。DEConv可以利用重参数化技术与普通卷积以相同的计算成本产生F_out，公式为

$$ \begin{gathered} {{\boldsymbol F}_{{{\mathrm{out}}} }} = {\text{DEConv}}({{\boldsymbol F}_{{{\mathrm{in}}} }}) = \sum\limits_{i = 1}^5 {{{\boldsymbol F}_{{\mathrm{in}}}}} *{K_i}= \\ {{\boldsymbol F}_{{\mathrm{in}}}}*\left( {\sum\limits_{i = 1}^5 {{K_i}} } \right) = {{\boldsymbol F}_{{\mathrm{in}}}}*{K_{{\mathrm{cvt}}}} \end{gathered} $$

式中：$K_i$表示VC、CDC、ADC、VDC和HDC的核， i∈{1，2，3，4，5}；$ * $表示卷积操作；$ K_{{\mathrm{cvt}}} $表示合并并行卷积得到的转换核。

1.2.5 WIou损失函数

损失函数是影响模型检测性能的重要原因之一，YOLOv8在边界框预测中采用了 CIoU损失函数，以增强边界框的拟合能力和训练效果。CIoU结合重叠面积、中心点距离和宽高比，提供更全面的边界框匹配评估，但在目标重叠面积小或目标边界模糊时，梯度趋近于零，导致训练过程中梯度消失，影响模型对细节的拟合能力。为解决此问题，本文将YOLOv8的损失函数替换为WIoU。WIoU通过非单调聚焦系数和梯度增益分配，实现了动态聚焦的边界框回归损失，对离群度大的锚框分配较小的梯度增益来确保锚框质量和减少有害梯度。WIoU计算公式为

$$ \beta = \frac{\;{L_{{{\mathrm{IoU}}} }^ \star \;}}{{\overline{L_{{{\mathrm{IoU}}} }}}} \in \left[ {0,\; + \infty } \right) $$

$$ {L_{{{\mathrm{WIoU}}} }} = \frac{{\beta {L_{{{\mathrm{IoU}}} }}}}{{\delta {\alpha ^{\beta - \delta }}}}\exp \left( {\frac{{{{({x_{}} - {x_{{{\mathrm{gt}}} }})}^2} + {{({y_{}} - {y_{{{\mathrm{gt}}} }})}^2}}}{{W_{{\mathrm{g}}} ^2 + H_{{\mathrm{g}}} ^2}}} \right) $$

式中：$ \beta $是离群度，用来评价锚框质量；$ L_{{{\mathrm{IoU}}} }^ \star $表示单调聚焦系数；$ \overline {{L_{{\mathrm{IoU}}}}} $表示动量m的滑动平均值；$ \alpha $和$ \delta $均为超参数，随着IoU的变化而动态变化；$ {L_{{{\mathrm{IoU}}} }} $表示IoU损失函数的值；$ (x,y) $表示预测框的中心坐标；$ ({x_{{\mathrm{gt}}}},{y_{{\mathrm{gt}}}}) $表示真实框的中心坐标；$ W_{\text{g}} $和$ H_{\text{g}} $分别表示预测框和真实框最小外接矩形的长和宽。

2. 实验结果分析

2.1 实验环境和数据集

本实验使用的操作系统是Linux，搭载PyTorch深度学习框架，CUDA版本为12.6，GPU型号为V100-PCIE-32GB，编译器版本为3.10，模型参数设置见表1。使用东北大学发布的钢材表面缺陷样本数据集NEU-DET^[25]和GC10-DET^[26]数据集进行实验验证。NEU-DET包含1 800张图片和6种常见的缺陷类别，分别为：裂纹(crazing, Cr)、夹杂(inclusion, In)、斑块 (patches, Pa)、划痕(scratches, Sc)、氧化轧皮(rolled in scale, Rs)和点蚀面(pitted surface, Ps)，每个类别各300张，分辨率为200×200。将原始数据集按照8∶1∶1 的比例分为训练集(1 440张)、验证集(180张)和测试集(180张)。GC10-DET数据集包括10种缺陷，分别为穿孔(pu)、熔接痕(wl)、月牙间隙(cg)、水斑(ws)、油斑(os)、丝斑(ss)、夹杂物(in)、轧坑(rp)、折痕(cr)和腰部折叠(wf)，共2 294张图片，按照8∶1∶1将原始数据集分为训练(1 835张)验证(229张)和测试集(230张)。

表 1 模型参数设置

Table 1 Model parameter configuration

参数	取值
训练轮次	300
图片尺寸	640×640
批次大小	32
学习率	0.01
优化器	SGD

2.2 评估指标

本实验模型除了要拥有较低的参数量和计算量，还要兼顾精度要求。因此，实验结果采用6个评估指标，准确率(precision, P)、召回率(recall, R)、平均精度均值(mean average precision, mAP)、参数量(parameters, Pa)、浮点操作次数(floating-point operations, FLOPs)和每秒传输帧数(frames per second, FPS)，计算公式分别为

$$ P = \frac{{N_{\text{TP}}}}{{N_{\text{TP}} + N_{\text{FP}}}} $$

$$ R = \frac{{N_{\text{TP}}}}{{N_{\text{TP}} + N_{\text{FN}}}} $$

$$ I_{\text{AP}} = \int_0^1 P (R){\mkern 1mu} {{\mathrm{d}}} R $$

$$ m_{\text{AP}} = \frac{1}{N}\sum\limits_{i = 1}^N {I_{{\mathrm{AP}}}^i} $$

式中：$ P $表示准确率，$ R $表示召回率，$ I_{\text{AP}} $表示平均精度，$ m_{\text{AP}} $表示平均精度均值；$ N_{\text{TP}} $表示预测为正类且实际为正类的样本数量，$ N_{\text{FP}} $表示预测为正类但实际为负类的样本数量，$ N_{\text{FN}} $表示预测为负类但实际为正类的样本数量；$N$表示检测类别的总数；$ P(R) $是在召回率为 R 时的精度。mAP50表示AP计算时所采用的IOU(intersection over union)阈值为50%的平均精度，mAP50-95表示在IOU阈值范围在50%~95%以5%为步长，所有步长下平均精度的均值。

2.3 对比试验

为验证本文改进模型的有效性，在相同硬件资源和相同数据集划分的情况下，与一阶段检测网络SSD、YOLO系列模型，两阶段网络Faster-RCNN、Cascade-RCNN，以及近期其他先进算法^[27-29]进行了详细对比，结果如表2所示。

表 2 NEU-DET数据集模型对比实验

Table 2 Model comparison experiment on NEU-DET dataset

模型	P/%	R/%	mAP50/%	mAP50-95/%	Pa/10⁶	FLOPs/10⁹	FPS
Fsater-CNN	69.5	76.8	76.9	38.9	56.0	124.2	43
SSD	72.3	70.5	73.2	35.8	26.3	62.7	46
Cascade-RCNN	75.0	72.1	77.4	43.2	75.3	197.5	139
YOLOv8n	73.6	70.2	75.4	42.6	3.0	8.1	147
YOLOv9-t	70.5	71.2	77.6	43.4	2.6	10.7	132
YOLOv10n	70.5	68.2	76.7	41.8	2.2	6.5	140
YOLOv11n	69.1	73.8	70.0	33.7	2.6	6.4	149
YOLOv12n	70.1	70.3	77.5	43.4	2.5	6.3	152
文献[27]	—	—	76.7	—	2.5	6.6	154
文献[28]	68.9	69.8	76.9	—	3.3	7.8	277
文献[29]	—	—	78.1	—	3.4	11.4	173
本文模型	75.6	71.9	79.6	45.8	1.4	4.7	125
注：加粗表示最优，“—”表示文献中没有给出该数据。

从实验结果可以看出，改进模型在mAP50和mAP50-95上表现均为最佳，分别达到了79.6%和45.8%，相较于YOLOv8n分别提升了4.2百分点和3.2百分点。相比之下，YOLO系列的其他版本(YOLOv9t、YOLOv10n、YOLOv11n和YOLOv12n)的mAP50依次为77.6%、76.7%、70.0%和77.5%，虽然有所提高，但仍不及本文改进模型。经典的Faster-CNN和Cascade-RCNN模型的mAP50分别达到了76.9%和77.4%，虽然精度略高于YOLOv8n，但参数量和计算量较大，限制了其在实际应用中的效率。这表明，改进模型对于目标检测的精度提升具有显著的效果。在模型的轻量化方面，改进模型在参数量和计算量上具有显著优势。改进模型的参数量为1.4×10⁶，计算量为4.7×10⁹，与YOLOv8n相比，分别降低了54%和42%，这表明改进模型的轻量化设计有效减少了计算资源的需求。传统的Faster-CNN和Cascade-RCNN在参数量和计算量上远高于YOLO系列。文献[27-29]的检测速度分别达到了154、277和173，实时性较高，但是检测精度较低，参数量和计算量也较高。综上所述，本文算法在参数量计算量以及检测精度方面均有出色表现，符合轻量化应用的需求，使其在实际应用中具有更好的适用性，特别是对于资源有限的嵌入式和移动设备部署场景。

为了验证提出的改进模型在不同数据集上的泛化能力，在GC10-DET数据集上进行了泛化实验，实验结果如表3所示。改进模型在mAP50的指标上，相比于YOLOv8n的63.7%提升了3百分点，达到66.7%。文献[28]检测精度较低，文献[29]虽然检测精度较高但是参数量和计算量也较高。对比实验证明了改进模型在GC10-DET数据集上的目标检测精度有明显提高，验证了改进模型在不同数据集上具有良好泛化能力，不仅提高了目标检测精度，而且在轻量化设计方面也表现突出，具备了更强的实用性和推广性。

表 3 在GC10-DET上对比实验

Table 3 Experimental comparison on GC10-DET

模型	P/%	R/%	mAP50/%	Pa/10⁶	FLOPs/10⁹
YOLOv9	61.1	65.1	65.5	2.6	10.7
YOLOv10	51.7	63.9	60.1	2.2	6.5
YOLOv8	72.5	57.4	63.7	3.0	8.1
文献[28]	70.4	50.9	58.2	3.3	7.8
文献[29]	—	—	66.3	3.1	11.4
本文模型	64.6	64.8	66.7	1.4	4.7
注：加粗表示最优，“—”表示文献中没有给出该数据。

2.4 消融实验

2.4.1 各改进模块性能分析

为验证各改进模块的有效性，以YOLOv8n为基准模型，在NEU-DET数据集上进行了11组消融实验，每组消融实验的环境配置和参数设置均保持一致，结果如表4所示。

表 4 模型消融实验

Table 4 Ablation experiment of model

模型	PGC2f	FPSC	GLFPN	DSHead	mAP50/%	mAP50-95/%	Pa/10⁶	FLOPs/10⁹	FPS
M1					75.4	42.6	3.0	8.1	147
M2	√				77.5	44.4	2.3	6.2	151
M3		√			76.0	42.8	3.1	8.1	161
M4			√		77.0	43.7	2.1	7.6	133
M5				√	77.2	44.2	2.3	6.5	167
M6	√	√			78.6	45.2	2.3	6.1	164
M7	√	√	√		78.9	45.3	2.3	5.9	157
M8	√			√	76.6	43.5	1.5	4.8	159
M9	√		√		77.2	44.0	1.6	5.9	131
M10			√	√	78.4	45.1	1.7	6.4	158
M11	√	√	√	√	79.6	45.8	1.4	4.7	125
注：加粗表示最优，“√”表示在基准模型中加入该模块。

M1为基线模型YOLOv8n的实验结果，mAP50为75.4%，参数量和计算量分别为3.0×10⁶和8.1×10⁹。M2、M3、M4、M5分别为在基线模型中加入PGC2f、FPSC、GLFPN和DSHead检测头，模型的平均检测精度mAP50较基线模型分别提升了2.1、0.6、1.6和1.8百分点，结果表明，PGC2f模块能有效提升目标检测精度；引入FPSC模块后较M1提升了0.6百分点，虽然提升幅度较小，但FPSC通过避免池化操作，成功避免了分辨率损失，能更好地保留细节信息，进而提高了模型的准确性；加入GLFPN模块后，mAP50达到了77.0%，较基线模型提升了1.6百分点，FPS降低至133；GLFPN的引入进一步提升了检测精度，证明了其在处理多尺度特征方面的有效性，但模型推理时间有所下降。M5中，加入DSHead模块后，在提升精度的同时，保持了较低的计算开销和参数量。在M6实验中，结合PGC2f和FPSC模块，mAP50提升了3.2百分点，而参数量和计算量分别下降了23.3%和24.6%。

该实验验证了FPSC能够在不增加计算复杂度的情况下有效提升模型准确性，FPSC通过不进行池化操作，能够避免分辨率的损失。尤其是在与PGC2f结合后，性能提升尤为明显，相较于PGC2f单独使用时(M2)，精度提升了1.1百分点。M7中，加入PGC2f、FPSC和GLFPN模块，mAP50提升至78.9%，进一步验证了这些模块组合在提升精度上的协同作用，相比于M1，精度提升了3.5百分点，证明了这3种模块的有效整合。在M8实验中，加入PGC2f和DSHead后，mAP50提升至76.6%，较基线模型提升了1.2百分点。与此同时，参数量和计算量分别下降了50%和43.2%，证明了DSHead的引入，不仅提升了精度，而且大幅减少了模型的复杂度。M9的实验结果显示，加入PGC2f和GLFPN后，mAP50提升至77.2%，较基线模型提升了1.8百分点，尽管精度提升较为有限，但参数量和计算量分别下降了46.6%和27.1%，表明这种组合有效地优化了模型的轻量化程度。在M10实验中，加入GLFPN和DSHead模块后，mAP50提升至78.4%，较基线模型提升了3百分点，同时，参数量和计算量分别下降了43.3%和20.9%，进一步验证了这两种模块在提升模型精度的同时能够有效减小模型的复杂度。M11的实验结果显示，所有改进模块组合后的模型达到了79.6%的mAP50，相较于基准模型M1提升了4.2百分点，mAP50-95较基准模型提升了2.8百分点，达到45.8%，与此同时，参数量下降了54%，计算量下降了42%。这一结果表明，虽然检测速度有所下降，但仍能满足边缘设备实时性的需求，改进模型在有效进行轻量化的同时，模型的综合性能得到了显著提升，达到了性能和效率的良好平衡。

通过逐一引入不同的改进模块，实验结果表明PGC2f和DSHead对模型精度的提升具有显著作用，而FPSC则通过优化特征提取过程，保持了较低的计算开销。最终，所有模块的组合(M11)使得模型的精度和效率均达到了最优，证明了在保证精度的同时，通过合理的轻量化设计可以有效减少计算开销和参数量，从而适应更为复杂和高效的目标检测任务。

2.4.2 CGLU性能分析

为了验证CGLU注意力机制在NEU-DET缺陷检测上的优越性，基于改进的YOLO算法，引入了多种注意力机制进行对比实验，采用了以下4种注意力机制：1)基于通道注意力的一维SE(squeeze-and-excitation)^[30]模块，2)结合通道与空间注意力的CBAM(convolutional block attention module)^[31]，3)将空间信息嵌入通道的CA(coordinate attention)^[32]模块，4) EMA(efficient multi-scale attention)^[33]模块，以增强模型对多尺度特征的捕捉能力。通过对比实验，系统地评估了这些注意力机制在目标检测任务中的表现。结果如表5所示，CGLU注意力机制的表现最好，mAP50最高，达到了77.5%，比基线模型提升了2.1百分点，同时，计算量和参数量较基准模型也有一定优化，这是因为通过门控线性动态调整特征响应，能够更好地建模非线性关系。

表 5 注意力消融实验

Table 5 Ablation experiment of attention

模型	P/%	R/%	mAP50/%	mAP50-95/%	Pa/10⁶	FLOPs/10⁹
YOLOv8n	73.6	70.2	75.4	42.6	3.00	8.1
Pconv+CBAM	71.2	72.8	75.5	42.6	2.12	7.4
Pconv+CA	67.2	72.6	74.8	41.2	2.86	7.1
Pconv+SE	70.6	72.2	75.8	43.1	2.99	7.4
Pconv+EMA	69.3	73.3	75.7	42.8	2.31	6.5
Pconv+CGLU	71.8	74.7	77.5	44.4	2.22	6.2
注：加粗表示最优。

2.4.3 PGC2f位置对检测性能影响分析

为研究PGC2f添加的位置对模型的影响，分别做了3组消融实验：+Backbone表示仅替换主干网络中的C2f模块， +Neck表示仅替换颈部网络中的C2f模块，+Both表示主干和颈部网络中的C2f全部替换为PGC2f，实验结果如表6所示。

表 6 PGC2f消融实验

Table 6 Ablation experiment of PGC2f

模型	mAP50/%	Pa/10⁶	FLOPs/10⁹
YOLOv8n	75.4	3.0	8.1
+Backbone	77.2	2.6	6.9
+Neck	77.7	2.6	7.3
+Both	77.5	2.3	6.1
注：加粗表示最优。

单独替换主干网络(+Backbone)，mAP50提升了1.8百分点，参数量和计算量均有所降低，这是因为通过Pconv只对局部进行卷积提局部特征，减少了冗余计算。单独替换颈部网络(+Neck)，mAP50提升了2.3百分点，参数量和计算量分别下降了13%和10%。同时替换主干和颈部网络(+Both)，mAP50提升了2.1百分点，参数量和计算量分别下降了23.3%和24.6%，精度相比单独替换颈部网络有所降低，下降了0.2百分点，这是因为主干和颈部均使用Pconv对部分通道进行卷积，未被处理的通道依赖后续操作间接交互，可能导致关键通道的信息未被充分激活，但模型的复杂度得到了进一步的优化，参数量和计算量对比单独替换颈部网络均有大幅下降，实现更低的资源消耗。尤其是对于边缘设备，PGC2f 的设计非常适合在保证高精度的同时，减少计算量和内存需求。

2.4.4 损失函数对比

为了验证WIoU损失函数的有效性，在改进模型的基础上，将WIoU损失函数与CIoU、EIoU、DIoU、GIoU和MPDIoU 损失函数进行了对比实验，实验结果如表7所示。

表 7 损失函数对比实验

Table 7 Comparison experiment of loss functions %

模型	P	R	mAP50
CIoU	74.9	72.8	79.3
EIoU	72.9	71.5	78.0
DIoU	83.7	67.2	78.5
GIoU	70.1	76.2	78.9
MPDIoU	73.7	72.7	78.6
WIoU	75.6	71.9	79.6
注：加粗表示最优。

实验结果表明，使用WIoU损失函数的模型性能最优。WIoU通过动态调整高质量和低质量锚框的权重，显著提升了模型对高质量锚框的关注度，同时有效降低了低质量锚框对训练过程的干扰。这种机制不仅加速了模型的收敛速度，还显著减少了回归定位损失，从而提高了检测精度。此外，WIoU能够更好地处理目标重叠、尺度变化以及边界模糊等问题，具有更强的鲁棒性和泛化能力，WIoU 具有更强的适应性，能够更精准地优化检测框的质量，使得模型在各种复杂情况下仍能保持较高的检测性能。

2.5 可视化结果对比

为进一步验证改进模型PFGD-YOLOv8的有效性，在测试集中与YOLOv8、YOLOv10、YOLOv11和YOLOv12进行了可视化对比，分析涵盖了6个不同的目标类别，展示了在不同条件下的检测能力，结果如图9所示。

图 9 检测结果对比

Fig. 9 Comparison of test results

下载: 全尺寸图片

在图9(a) Cr缺陷的检测中，YOLOv8存在漏检问题，检测置信度为0.33，YOLOv10和YOLOv11成功识别缺陷位置，但检测精度较低，而改进模型的置信度提高至0.75，成功地识别了缺陷并准确定位了目标位置，表明改进模型在细小缺陷的检测上具有更好的敏感性和准确性。在图9 (b) Pa和(c) Sc的缺陷检测中改进模型对缺陷识别更加准确，YOLOv11出现了漏检现象，表明改进模型具有更强的检测能力。在图9 (d)In缺陷的检测中，YOLOv8的置信度分别为0.31和0.64，YOLOv11和改进模型的置信度相对较高，分别为0.67、0.83和0.71、0.85。背景存在一定的纹理干扰，表明改进模型具有更强的抗干扰能力，能在复杂背景下更精准地识别缺陷。在图9 (e) Ps缺陷的检测中，YOLOv8的检测框定位存在偏差，而改进模型的定位更加准确，检测框的位置准确度有了明显改善，表明了改进模型在检测框定位方面的优势。此外，YOLOv8在缺陷与背景相似的情况下存在误检问题。在图9 (f) Rs缺陷的检测中，缺陷特征为表面存在与背景纹理相似的滚压痕迹，检测结果显示YOLOv8在此类目标的检测中出现误检，YOLOv10和YOLOv11检测精度较低。改进模型通过提高对背景与缺陷的区分能力，显著减少了误检，且提高了检测精度。综上所述，改进后的PFGD-YOLOv8模型在检测精度、定位精度和鲁棒性方面均优于YOLOv8，特别是在小尺度目标和复杂背景下。通过引入更加高效的特征提取和融合模块，改进模型能够更好地应对复杂环境中的目标检测任务。为更直观展示改进模型对目标特征的识别效果，通过对比YOLOv8、YOLOv10、YOLOv11和YOLOv12与本文方法的热力图分布，直观反映检测目标特征变化情况，实验结果如图10所示，其中位置亮度越高，表明模型更注意该位置。

图 10 不同模型热力图对比

Fig. 10 Comparison of heatmaps from different models

下载: 全尺寸图片

通过热力图可视化分析，本文方法在目标特征完整性、背景噪声抑制和多尺度适应性上优于 YOLOv8、YOLOv10、YOLOv11与 YOLOv12。改进模型的热力图对Cr、Pa和Ps缺陷类别给予更显著的关注；对In、Rs和Sc缺陷类别聚焦更加精准。YOLOv8在Sc缺陷检测时，对部分区域存在过度聚焦，可能引入背景干扰，说明改进模型在聚焦缺陷特征方面展现出更优的有效性，能够更精准、高效地捕捉缺陷特征。

3. 结束语

本文针对钢材表面缺陷检测任务中存在检测精度不足、模型计算量大和难以在资源受限的设备上部署等问题，提出了一种基于改进YOLOv8的轻量化检测算法PFGD-YOLOv8。本文设计的PGBN模块通过部分卷积操作显著降低了计算量和模型参数，同时提高了对局部特征的提取能力。改进的FPSC模块通过不同膨胀率的卷积操作扩大了感受野，有效提升了对小目标的检测精度。GLFPN模块通过全局与局部信息的加权融合，更好地保留了小目标特征。与现有基于YOLO系列的检测模型相比，PFGD-YOLOv8在保持高检测精度的同时，显著降低了模型的计算量和参数量，这主要得益于本文提出的轻量化网络结构和改进的特征提取机制。综上所述，PFGD-YOLOv8算法在钢材表面缺陷检测领域展示了显著的优势和潜力，为工业自动化检测提供了一种高效、准确的解决方案。未来的研究将在此基础上对模型结构进行优化，以实现更广泛的应用和更优的性能。

图 1 PFGD-YOLOv8模型结构

Fig. 1 Structure of PFGD-YOLOv8 model

下载: 全尺寸图片

图 2 PGBN 结构

Fig. 2 Structure of PGBN

下载: 全尺寸图片

图 3 CGLU结构

Fig. 3 Structure of CGLU

下载: 全尺寸图片

图 4 PGC2f结构

Fig. 4 Structure of PGC2f

下载: 全尺寸图片

图 5 FPSC结构

Fig. 5 Structure of FPSC

下载: 全尺寸图片

图 6 PANet、BiFPN和GLFPN结构

Fig. 6 Structure of PANet，BiFPN and GLFPN

下载: 全尺寸图片

图 7 GLSA结构

Fig. 7 Structure of GLSA

下载: 全尺寸图片

图 8 DSHead结构

Fig. 8 Structure of DSHead

下载: 全尺寸图片

图 9 检测结果对比

Fig. 9 Comparison of test results

下载: 全尺寸图片

图 10 不同模型热力图对比

Fig. 10 Comparison of heatmaps from different models

下载: 全尺寸图片

表 1 模型参数设置

Table 1 Model parameter configuration

参数	取值
训练轮次	300
图片尺寸	640×640
批次大小	32
学习率	0.01
优化器	SGD

表 2 NEU-DET数据集模型对比实验

Table 2 Model comparison experiment on NEU-DET dataset

模型	P/%	R/%	mAP50/%	mAP50-95/%	Pa/10⁶	FLOPs/10⁹	FPS
Fsater-CNN	69.5	76.8	76.9	38.9	56.0	124.2	43
SSD	72.3	70.5	73.2	35.8	26.3	62.7	46
Cascade-RCNN	75.0	72.1	77.4	43.2	75.3	197.5	139
YOLOv8n	73.6	70.2	75.4	42.6	3.0	8.1	147
YOLOv9-t	70.5	71.2	77.6	43.4	2.6	10.7	132
YOLOv10n	70.5	68.2	76.7	41.8	2.2	6.5	140
YOLOv11n	69.1	73.8	70.0	33.7	2.6	6.4	149
YOLOv12n	70.1	70.3	77.5	43.4	2.5	6.3	152
文献[27]	—	—	76.7	—	2.5	6.6	154
文献[28]	68.9	69.8	76.9	—	3.3	7.8	277
文献[29]	—	—	78.1	—	3.4	11.4	173
本文模型	75.6	71.9	79.6	45.8	1.4	4.7	125
注：加粗表示最优，“—”表示文献中没有给出该数据。

表 3 在GC10-DET上对比实验

Table 3 Experimental comparison on GC10-DET

模型	P/%	R/%	mAP50/%	Pa/10⁶	FLOPs/10⁹
YOLOv9	61.1	65.1	65.5	2.6	10.7
YOLOv10	51.7	63.9	60.1	2.2	6.5
YOLOv8	72.5	57.4	63.7	3.0	8.1
文献[28]	70.4	50.9	58.2	3.3	7.8
文献[29]	—	—	66.3	3.1	11.4
本文模型	64.6	64.8	66.7	1.4	4.7
注：加粗表示最优，“—”表示文献中没有给出该数据。

表 4 模型消融实验

Table 4 Ablation experiment of model

模型	PGC2f	FPSC	GLFPN	DSHead	mAP50/%	mAP50-95/%	Pa/10⁶	FLOPs/10⁹	FPS
M1					75.4	42.6	3.0	8.1	147
M2	√				77.5	44.4	2.3	6.2	151
M3		√			76.0	42.8	3.1	8.1	161
M4			√		77.0	43.7	2.1	7.6	133
M5				√	77.2	44.2	2.3	6.5	167
M6	√	√			78.6	45.2	2.3	6.1	164
M7	√	√	√		78.9	45.3	2.3	5.9	157
M8	√			√	76.6	43.5	1.5	4.8	159
M9	√		√		77.2	44.0	1.6	5.9	131
M10			√	√	78.4	45.1	1.7	6.4	158
M11	√	√	√	√	79.6	45.8	1.4	4.7	125
注：加粗表示最优，“√”表示在基准模型中加入该模块。

表 5 注意力消融实验

Table 5 Ablation experiment of attention

模型	P/%	R/%	mAP50/%	mAP50-95/%	Pa/10⁶	FLOPs/10⁹
YOLOv8n	73.6	70.2	75.4	42.6	3.00	8.1
Pconv+CBAM	71.2	72.8	75.5	42.6	2.12	7.4
Pconv+CA	67.2	72.6	74.8	41.2	2.86	7.1
Pconv+SE	70.6	72.2	75.8	43.1	2.99	7.4
Pconv+EMA	69.3	73.3	75.7	42.8	2.31	6.5
Pconv+CGLU	71.8	74.7	77.5	44.4	2.22	6.2
注：加粗表示最优。

表 6 PGC2f消融实验

Table 6 Ablation experiment of PGC2f

模型	mAP50/%	Pa/10⁶	FLOPs/10⁹
YOLOv8n	75.4	3.0	8.1
+Backbone	77.2	2.6	6.9
+Neck	77.7	2.6	7.3
+Both	77.5	2.3	6.1
注：加粗表示最优。

表 7 损失函数对比实验

Table 7 Comparison experiment of loss functions %

模型	P	R	mAP50
CIoU	74.9	72.8	79.3
EIoU	72.9	71.5	78.0
DIoU	83.7	67.2	78.5
GIoU	70.1	76.2	78.9
MPDIoU	73.7	72.7	78.6
WIoU	75.6	71.9	79.6
注：加粗表示最优。

参考文献(33)

[1]	WANG Ling, LIU Xinbo, MA Juntao, et al. Real-time steel surface defect detection with improved multi-scale YOLO-v5[J]. Processes, 2023, 11(5): 1357. doi: 10.3390/pr11051357
[2]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580−587.
[3]	GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440−1448.
[4]	REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. [S. l. ]: IEEE, 2017: 1137−1149.
[5]	CAI Zhaowei, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6154−6162.
[6]	PANG Jiangmiao, CHEN Kai, SHI Jianping, et al. Libra R-CNN: towards balanced learning for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 821−830.
[7]	陈远露, 王亮. 基于Transformer与FasterRCNN的多模态特征提取与融合[J]. 信息技术与信息化, 2024(5): 111−114. CHEN Yuanlu, WANG Liang. Multi-modal feature extraction and fusion based on Transformer and FasterRCNN[J]. Information technology and informatization, 2024(5): 111−114.
[8]	SUN Peize, ZHANG Rufeng, JIANG Yi, et al. Sparse R-CNN: end-to-end object detection with learnable proposals[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 14449−14458.
[9]	邓慧, 曾磊. 基于改进Faster R-CNN的热轧带钢表面缺陷检测[J]. 控制工程, 2024, 31(4): 752−759. DENG Hui, ZENG Lei. Surface defect detection of hot-rolled strip steel based on improved faster R-CNN[J]. Control engineering of China, 2024, 31(4): 752−759.
[10]	LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Computer Vision–ECCV 2016. Cham: Springer International Publishing, 2016: 21−37.
[11]	HUSSAIN M. YOLO-v1 to YOLO-v8, the rise of YOLO and its complementary nature toward digital manufacturing and industrial defect detection[J]. Machines, 2023, 11(7): 677. doi: 10.3390/machines11070677
[12]	WANG Ao, CHEN Hui, LIU Lihao, et al. Yolov10: real-time end-to-end object detection[J]. Advances in neural information processing systems, 2024, 37: 107984−108011.
[13]	KHANAM R, HUSSAIN M. YOLOv11: an overview of the key architectural enhancements[EB/OL]. (2024−10−23)[2025−04−23]. https://arxiv.org/abs/2410.17725.
[14]	李刚, 邵瑞, 周鸣乐, 等. 基于注意力的轻量级工业产品缺陷检测网络[J]. 计算机工程, 2023, 49(11): 275−283. LI Gang, SHAO Rui, ZHOU Mingle, et al. Lightweight industrial products defect detection network based on attention[J]. Computer engineering, 2023, 49(11): 275−283.
[15]	忻迪晔, 严怀成. 基于GS-YOLO模型的带钢表面缺陷检测[J]. 计算机应用, 2024, 44(S2): 302−308. XIN Diye, YAN Huaicheng. Surface defect detection of strip steel based on GS-YOLO model[J]. Journal of computer applications, 2024, 44(S2): 302−308.
[16]	敖思铭, 周诗洋, 杨智颖, 等. 基于KAS-YOLO的钢板表面缺陷检测[J]. 组合机床与自动化加工技术, 2024(8): 168−174. AO Siming, ZHOU Shiyang, YANG Zhiying, et al. Surface defect detection of steel plate based on KAS-YOLO[J]. Modular machine tool & automatic manufacturing technique, 2024(8): 168−174.
[17]	侯玥, 王开宇, 金顺福. 一种基于YOLOv5的小样本目标检测模型[J]. 燕山大学学报, 2023, 47(1): 64−72. HOU Yue, WANG Kaiyu, JIN Shunfu. A few-shot object detection model based on YOLOv5[J]. Journal of Yanshan University, 2023, 47(1): 64−72.
[18]	张上, 许欢, 张岳. 轻量级锻件表面裂纹检测算法[J]. 电子测量技术, 2024, 47(11): 123−130. ZHANG Shang, XU Huan, ZHANG Yue. Lightweight forged part surface crack detection algorithm[J]. Electronic measurement technology, 2024, 47(11): 123−130.
[19]	CHEN Jierun, KAO S H, HE Hao, et al. Run, don’t walk: chasing higher FLOPS for faster neural networks[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 12021−12031.
[20]	SHI Dai. TransNeXt: robust foveal visual perception for vision Transformers[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 17773−17783.
[21]	DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[C]//International Conference on Machine Learning. Sydney: PMLR, 2017: 933−941.
[22]	TAN Mingxing, PANG Ruoming, LE Q V. EfficientDet: scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 10778−10787.
[23]	TANG Feilong, XU Zhongxing, HUANG Qiming, et al. DuAT: dual-aggregation Transformer network for medical image segmentation[C]//Chinese Conference on Pattern Recognition and Computer Vision. Singapore: Springer Nature Singapore, 2023: 343−356.
[24]	TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: a simple and strong anchor-free object detector[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(4): 1922−1933.
[25]	YEUNG C C, LAM K M. Efficient fused-attention model for steel surface defect detection[J]. IEEE transactions on instrumentation and measurement, 2022, 71: 2510011.
[26]	WANG Xing, ZHUANG Kaiyu. An improved YOLOX method for surface defect detection of steel strips[C]//2023 IEEE 3rd International Conference on Power, Electronics and Computer Applications. Shenyang: IEEE, 2023: 152−157.
[27]	梁礼明, 陈康泉, 陈林俊, 等. 改进轻量化的FCM-YOLOv8n钢材表面缺陷检测[J]. 光电工程, 2025, 52(2): 117−129. LIANG Liming, CHEN Kangquan, CHEN Linjun, et al. Improving the lightweight FCM-YOLOv8n for steel surface defect detection[J]. Opto-electronic engineering, 2025, 52(2): 117−129.
[28]	李相垚, 侯红玲, 杨澳, 等. 面向钢材表面缺陷检测的DCS-YOLOv8算法研究[J/OL]. 机械科学与技术, 2024: 1−10. (2024−10−10). https://link.cnki.net/doi/10.13433/j.cnki.1003-8728.20240128. LI Xiangyao, HOU Hongling, YANG Ao, et al. Research on DCS-YOLOv8 algorithm for steel surface defect detection[J/OL]. Mechanical science and technology for aerospace engineering, 2024: 1−10. (2024−10−10). https://link.cnki.net/doi/10.13433/j.cnki.1003−8728.20240128.
[29]	赵曙光, 易文, 陆小辰. 基于YOLOv7-Tiny的轻量化钢材表面缺陷检测方法[J]. 东华大学学报(自然科学版), 2025, 51(4): 194−202. ZHAO Shuguang, YI Wen, LU Xiaochen. Lightweight steel surface defect detection method based on YOLOv7-Tiny[J]. Journal of Donghua University (natural science), 2025, 51(4): 194−202.
[30]	HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132−7141.
[31]	WOO S, PARk J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision. Munich: Springer, 2018: 3−19.
[32]	HOU Qibin, ZHOU Daquan, FENG Jiashi. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 13708−13717.
[33]	OUYANG Daliang, HE Su, ZHANG Guozhong, et al. Efficient multi-scale attention module with cross-spatial learning[C]//2023 IEEE International Conference on Acoustics, Speech and Signal Processing. Rhodes Island: IEEE, 2023: 1−5.

点击查看大图

图(10) / 表(7)

摘要

改进YOLOv8的轻量化钢材表面缺陷检测

doi: 10.11992/tis.202504018

通讯作者: 曹锦纲. E-mail：caojg168@126.com.

出版历程

Improvement of YOLOv8 for lightweight steel surface defect detection

1. PFGD-YOLOv8

1.1 YOLOv8

1.2 PFGD-YOLOv8

1.2.1 PGC2f特征提取模块

1.2.2 FPSC

1.2.3 GLFPN

1.2.4 轻量化解耦头

1.2.5 WIou损失函数

2. 实验结果分析

2.1 实验环境和数据集

2.2 评估指标

2.3 对比试验

2.4 消融实验

2.4.1 各改进模块性能分析

2.4.2 CGLU性能分析

2.4.3 PGC2f位置对检测性能影响分析

2.4.4 损失函数对比

2.5 可视化结果对比

3. 结束语

出版历程

目录

通讯作者:
曹锦纲. E-mail：caojg168@126.com.