Detection of external force damage of transmission lines based on stepwise feature fusion
-
摘要: 针对输电线路巡检中无人机拍摄角度下器械易形变及带臂机械不同工作状态下特征复杂难以捕获的问题,提出一种基于阶梯式特征融合的外力破坏检测方法。该方法首先通过融合可变形大卷积核注意力网络提取无人机拍摄图像的特征信息;其次,利用多尺度序列特征融合模块进行阶梯式特征融合;然后,对检测头进行轻量化操作以减少参数量;最后,提出渐变完全交并比抑制(gradual complete intersection over union non-maximum suppression, GCIoU NMS)损失函数优化模型。在自建数据集上的实验表明,该方法的mAP50%和mAP50%-95%分别提高10.5和10.2百分点,达到86.8%和58.4%;在VOC数据集上,mAP50%和mAP50%-95%分别提高7.3和8.1百分点,达到79.5%和58.8%。实验结果表明,该方法有效提升了目标检测性能,对复杂环境下输电线路外部破坏检测具有重要参考价值。Abstract: A detection method based on stepwise feature fusion is proposed to address the challenges posed by instrument deformation under unmanned aerial vehicle (UAV) shooting angles and complex features caused by different operating states of arm-bearing machinery during transmission line inspections. The method integrates deformable large kernel attention networks to extract features from UAV images, performs stepwise feature fusion using a multiscale sequence feature fusion module, and applies lightweight operations to the detection head to reduce the parameters. An gradual complete intersection over union non-max-imum suppression(GCIoU NMS) loss function further enhances the model. Experiments on a self-constructed dataset show mAP50% and mAP50%-95% improvements of 10.5 and 10.2 points, reaching 86.8% and 58.4%, respectively. On the VOC dataset, mAP50% and mAP50%-95% increased by 7.3 and 8.1 points to 79.5% and 58.8%, respectively. The results demonstrate the effectiveness of the method for external force damage detection of transmission lines in complex environments.
-
电力工业是国民经济与社会发展的重要支柱产业。输电线路是电网的基础,随着国家电网工程(电网)的迅速发展,架空输电线路大量增加[1]。截至2022年,全国电网220 kV及以上输电线路回路长度88×104 km;截至2023年,35 kV及以上输电线路长度达到226×104 km。其可靠性和稳定性对电网的安全和运行效率有着重要影响[2]。
然而,伴随经济社会的快速发展,市政、路桥等施工建设为输电线路的安全运行造成大量隐患,使得输电线路遭受外力破坏的风险随之增大,不规范施工造成的外力破坏故障已经成为输电线路停运的主要原因[2-4]。因此,输电线路巡检对于电网的安全运维与管理具有重要意义。进行线路巡检,识别出有危险的外力破坏隐患区域,可以有效预防人工活动的影响[5]。
随着智慧电网的搭建日渐成熟,较为安全可靠的无人机巡检和固定电子摄像头已经开始应用于线路巡检中。配合无人机和固定摄像头的基于深度学习输电线路外力破坏施工机械识别成为一种十分客观、稳定、高效的方法[6-7]。
近年来,基于深度学习的目标检测方法在计算机视觉领域取得了长足的发展,与传统的计算机视觉技术相比,这些模型表现出卓越的性能,展示了深度学习技术的潜力。在目标检测方法的发展过程中,文献[8-15]等方法陆续被提出,极大地提高了目标检测方法的检测速率与检测精度。
在输电线路安全巡检工作中,很多学者开始探寻基于深度学习技术的方法[16]。Zhao等[17]提出了基于自动视觉聚类对输电线路缺针检测的方法,郝帅等[18]提出了基于卷积块注意力机制的YOLOv3(you only look once)模型,提升了输电线路故障检测精度,邱志斌等[19]又提出了采用YOLOv4模型有效检测输电线路巡检图像中鸟类目标并且实现鸟种识别。后续研究中,文献[20-22]等陆续提出输电线路安全巡检方式。但是现有的研究中,输电线路背景环境复杂、无人机拍摄条件下施工机械图片异形、带臂机械不同工作状态下的形变、边缘计算平台部署要求以较少参数完成检测任务等原因导致当下的输电线路安全巡检中,对于施工机械造成的外力破坏检测精度不高。因此,本文在YOLOv8模型的基本框架上进行改进,提出一种基于阶梯式特征融合的输电线路外力破坏检测方法。
1. 相关工作
1.1 YOLOv8
Ultralytics公司在2023年1月10日开源YOLOv8代码,目前支持图像分类、物体检测和实例分割任务。它建立在以前YOLO版本的基础上,并引入新功能和改进,以进一步提升性能和灵活性。
YOLOv8的骨干网络借鉴了跨阶段部分融合网络(cross stage partial network, CSPDarkNet)进行特征融合,颈部模块使用了路径聚合网络−特征金字塔网络(path aggregation feature pyramid network, PaFPN)结构进行特征融合,检测头部分将分类任务和回归任务分离,同时采用了Anchor-Free模式。该模型将众多当前尖端技术(state of the art, SOTA)融合于一体,是一个SOTA模型。
1.2 可变形大卷积核注意力
可变形大卷积核注意力(deformable large kernel attention, DLKA) [23]采用大卷积核提取上下文关系,是一种简化注意力机制,通过可变形卷积使采样网格变形,使模型能够适应不同的数据模式。
无人机拍摄角度下器械容易产生形变。可变形卷积在标准卷积操作中在采样位置增加一个偏移量,对形变目标的特征信息抓取能力较强。使用深度卷积、深度扩张卷积和1×1卷积,可以用自注意力机制类似的感受野,增强局部特征表示。
DLKA模块对图像中不规则形状的提取能力较强,因此本文引用了DLKA模块来对输电线路图像进行特征提取,以提高检测准确率。
1.3 损失函数
在目标检测领域,定位和分类是2个核心任务,其中定位的准确性主要由回归损失函数主导。定位任务中,完全交并比损失(complete intersection over union loss, CIoU Loss)[24]作为表现较好的边界回归损失函数,考虑了3个重要的几何因素:重叠区域、中心点距离和纵横比。CIoU Loss用交并比(intersection over union, IoU)、欧氏距离、对应的长宽比和角度来测量目标和真实框的重叠区域。有效交并比损失(efficient intersection over union, EIoU Loss)[25]在CIoU Loss的基础上对纵横对比影响因子进行拆分,计算预测框和真实框的长宽,对于模型优化起到了进一步提升的作用。
2. 基于阶梯式特征融合的目标检测方法
本文提出一种基于阶梯式特征融合的目标检测方法(detection based on stepwise feature fusion, DBSWFF)。对骨干网络进行优化,并且在骨干网络中引入DLKA模块,加强对无人机拍摄角度下产生的形变器械特征提取能力。在特征融合部分,本文采用阶梯式特征融合的方式,将不同尺度的特征信息进行融合,以提高特征的语义表征能力,解决复杂背景下目标检测精度较低的问题。通过多尺度序列特征融合模块替换简单的尺度特征乘法,更全面地捕获输入数据的空间和语义信息,增强对不同工作状态下的机械信息捕捉能力。在检测头部分,本文在分类分支使用深度可分离卷积对特征进行整合,同时利用更少的卷积模块进行回归操作,降低了模型的参数量。本文结合CIoU Loss和EIoU Loss 2种损失函数,同时融合非极大值抑制[26] 函数,提出渐变完全交并比抑制(gradual complete intersection over union non-maximum suppression, GCIoU NMS)损失函数,为模型提供了更有效的优化策略。DBSWFF架构如图1所示。
2.1 融合DLKA网络
融合DLKA网络完成输电线路外力破坏图像特征提取。CBS-DLKA结构如图2所示,输入C3、C4的特征首先经过1×1的卷积层进行特征变换得到特征x,接下来使用通道混洗操作丰富特征信息,然后使用高斯误差线性单元对其进行激活操作,接下来的特征经过1个7×7可变形深度可分离卷积、1个5×5可变形深度可分离扩张卷积和1个1×1的普通卷积,完成特征提取得到特征x',对经过高斯误差线性单元操作的特征x与x'进行连接,得到输出特征x。
本文将DLKA模块融入到了特征提取网络中。由于输电线路外力破坏目标多属于大、中型目标,因此将CBS-DLKA模块应用于第4、5层的特征提取层,如图1的融合DLKA网络模块所示。
2.2 阶梯式特征融合模块
2.2.1 阶梯式特征融合
在目标检测任务中,融合不同尺度的特征是提高检测性能的一个重要手段。小尺度特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多。大尺度特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差。如何将两者高效融合,是改善目标检测模型的关键。
传统的单阶段目标检测方法中的特征融合部分多使用特征金字塔网络(feature pyramid network, FPN)及其改进结构,以增强对小目标的检测能力。输电线路背景环境复杂、且图像中需要检测的目标多为中型、大型目标,因此本文舍弃了传统的特征金字塔结构,采用阶梯式特征融合(stepwise feature fusion, SWFF)增强对中、大型目标的特征融合,以降低复杂背景的影响。其结构如图3所示。在特征融合过程中,通过多尺度序列特征融合(multi-scale sequence feature fusion, MSSF)模块,将由融合DLKA网络提取的5个尺度序列的特征图进行融合。C1~C5 5个尺度序列特征的尺寸从小到大,特征分辨率越来越小,包含的语义信息越来越多。
1) C3、C5均通过1个1×1卷积模块进行调整,得到小尺度特征和大尺度特征。将调整后的特征输入MSSF,与中尺度特征C4特征进行融合。3个尺度的特征在通道维度上拼接形成综合特征。该特征经过跨阶段局部瓶颈融合模块(cross stage partial bottleneck with 2 convolutions, C2F)模块进行特征提取和1个1×1的卷积模块进行调整后,构成新的大尺度特征。
2) 使用1个1×1卷积模块将C1特征进行调整得到小尺度特征。对第一步生成的大尺度特征使用C2F进行特征提取得到
${\boldsymbol{P}}_4' $ 。调整后产生的小尺度特征、大尺度特征${\boldsymbol{P}}_4' $ 以及中尺度特征C2输入MSSF进行融合。使用C2F模块调整产生的特征P3。3) P3进行一次3×3卷积操作后,和
${\boldsymbol{P}}_4' $ 特征进行融合。使用C2F模块对融合后特征进行调整得到P4。4) 使用1个3×3卷积模块对P4进行调整,调整后的特征信息和C5特征进行融合。融合后的特征信息通过C2F模块调整,最终得到P5。
经过SWFF模块,最终形成3个尺度的特征信息,传递至后续检测层,用于输电线路外力破坏检测方法的检测任务。
2.2.2 多尺度序列特征融合模块
本文在特征融合部分,提出使用MSSF模块进行特征融合。本文将通过特征提取网络获得的不同特征称为不同尺度序列特征,通过MSSF,将来自3个不同尺度序列的图像全局信息融合在一起,增强了模型对带臂机械不同工作状态下的形变特征的捕获能力。多尺度序列特征融合结构如图4所示。
本文将骨干网络提取到的特征按照尺度序列大小分为大、中、小3个尺度序列。通过自适应最大池化和平均池化操作对大尺度序列特征进行调整,使用双线性插值对小尺度序列特征进行调整。调整后的特征和中尺度序列特征的大小一致。
将调整后的大、中、小尺度序列特征在通道维度上进行拼接,形成融合特征。最终的融合特征被输入后续的网络层进行进一步的处理和分析。
通过这个流程,不同尺度序列的特征信息能够有效地融合在一起,为网络提供更全面和丰富的语义信息,从而增强模型在输电线路外力破坏检测方面的准确性和鲁棒性。
2.3 检测头轻量化模块
无人机巡检和固定摄像头完成的输电线路巡检设备的计算能力、内存和存储容量有限,在提升检测精度的同时降低参数量成为研究的关键问题之一。本文提出对检测头进行轻量化改进,减少模型的参数量,其结构如图5所示。
本文在检测头的回归任务中,使用1个3×3卷积对输入信息进行整合,然后借助通道混洗操作将特征图之间的通道信息进行融合,最后将融合后的通道信息经过1个3×3卷积整理,获得回归信息。深度可分离卷积可以有效减少参数量和计算量,在分类任务中使用深度可分离卷积可以减少检测头的参数量。在分类任务中,输入特征首先经过一个深度可分离卷积模块,然后经过2个3×3卷积模块进行整合获得分类信息。
2.4 GCIoU NMS
CIoU Loss反映的是高宽的差异,而不是高宽分别与其置信度的真实差异。无法有效测量目标框和锚点之间的差异,会导致边界框回归模型优化时存在定位不准确的问题。CIoU Loss公式为
$$ {I_{{\mathrm{CIoU}}}} = {I_{{\mathrm{oU}}}} - \alpha \nu - \frac{{{\rho ^2}(b,{b^{{{\mathrm{gt}}}}})}}{{{c^2}}} $$ 式中:
$ b\mathrm{和}{b}^{\mathrm{g}\mathrm{t}} $ 表示2个矩形框的中心点,$ \rho $ 表示2个矩形框之间的欧氏距离,$ c $ 表示2个矩形框的闭包区域的对角线的距离,$ \nu $ 用来衡量2个矩形框相对比例的一致性,$ \alpha $ 是权重系数。EIoU Loss在CIoU Loss的基础上将纵横比的影响因子拆开,分别计算目标框和预测框的长和宽,一定程度可解决上述问题,其计算公式为
$$ {I_{{\text{EIoU}}}} = 1 - {I_{{\text{oU}}}}+\frac{{{\rho ^2}(b,{b^{{\mathrm{gt}}}})}}{{{{({h^{\mathrm{c}}})}^2} + {{({w^{\mathrm{c}}})}^2}}} + \frac{{{\rho ^2}(h,{h^{{\mathrm{gt}}}})}}{{{{({h^{\mathrm{c}}})}^2}}} + \frac{{{\rho ^2}(w,{w^{{\mathrm{gt}}}})}}{{{{({w^{\mathrm{c}}})}^2}}} $$ 式中:
$ {h}^{\mathrm{c}} $ 和$ {w}^{\mathrm{c}} $ 为最小包围框的高和宽,$ h\mathrm{和}{h}^{\mathrm{g}\mathrm{t}} $ 表示2个矩形框的高,$w $ 和$ w ^{{\mathrm{gt}}} $ 表示2个矩形框的宽。然而,当检测框之间距离较远时,EIoU Loss的收敛速度慢。因此本文提出一种新的损失函数GCIoU。GCIoU在CIoU Loss和EIoU Loss的基础上进行结合,首先借鉴CIoU Loss的预测框纵横比,直到其收敛至一个合适的范围,然后借助EIoU Loss分别计算目标框和预测框的长和宽,直至收敛到正确的值。其计算公式为
$$ {I_{{\mathrm{GCIoU}}}} = 1 - {I_{{\mathrm{oU}}}} + \alpha v + \frac{{{\rho ^2}({b^{{\mathrm{gt}}}},b)}}{{{c^2}}} + \frac{{{\rho ^2}({h^{{\mathrm{gt}}}},h)}}{{c_h^2}} + \frac{{{\rho ^2}({w^{{\mathrm{gt}}}},w)}}{{c_w^2}} $$ 无人机拍摄的输电线路外力破坏图片中,机械的机械臂过长,容易生成大量同一目标的候选框。为了从这些重叠的候选框中选择最佳的一个,从而消除重叠的检测结果,确保每个目标只被检测到一次,本文在损失函数中集成了非极大值抑制[26]。首先根据候选框的置信度分数对候选框进行降序排列,然后利用GCIoU度量计算候选框之间的重叠程度。根据预先设定的IoU阈值,对重叠度过高的候选框进行筛选,仅保留置信度最高且不重叠的候选框作为最终的检测结果。
3. 实验结果与分析
3.1 实验环境及参数设置
本文所有实验使用的操作系统为Windows10,GPU为NVIDIA GeForce RTX 4070,CUDA为11.6,深度学习框架为PyTorch1.13。消融实验采用随机梯度下降方法。在自建数据集上的初始学习率设为0.01,最小学习率为0.000 1,批处理尺寸为8,工作数量设为8,训练轮数设为300。在PASCAL VOC数据集上的初始学习率设为0.01,最小学习率为0.000 1,批处理尺寸为16,工作数量设为16,训练轮数设为400。
3.2 实验数据集和设置
本实验使用输电线路外力破坏目标自建数据集和挑战视觉比赛数据集(the pattern analysis statical modeling and computational learning visual object classes, PASCAL VOC) [27]。
构建自建数据集时,根据苏电设备[2021]83号《输电可视化全过程管理规范》进行标注,构建过程如下。结合实际情况,本文对包含3个类型外破目标:长臂挖掘机、农机、桩机的输电走廊图片进行筛选标注,规定:1)包含以上3类目标中任意一种目标的图片视为有效图片,需进行保留,其余图片为无效图片。2)对于距离过远的目标、过曝、过暗导致无法辨别类别的目标不进行标注。通过以上遵循标注标准和标注指南完成数据集构建的质量控制。本文使用的自建数据集来自于不同区域不同背景下的输电走廊图片,涵盖了不同情况下的外力破坏类型。外力破坏类型有十几种,目前本文主要针对3种外力破坏进行研究。
本文对初始数据集进行图片切割、翻转等操作进行扩展,共得到图片8 939张,其中训练集5 614张,验证集2 406张,测试集892张。自建数据集中部分带标签图片如图6(a)所示。
本文使用PASCAL VOC数据集中的VOC 2007的和VOC 2012进行训练,使用VOC 2007进行测试。数据集中共包括20类目标,其中训练集8 218张图片,验证集8 333张图片,测试集4 952张图片。PASCAL VOC数据集中部分带标签图片如图6(b)所示。
3.3 评价指标
本文使用的模型评价指标包括准确率(Precision)、召回率(Recall)、平均精度均值(mean average precision, mAP)中的mAP@50%与mAP@50%-95%、参数量和每秒帧数(frames per second, FPS)。准确率表示网络检测的所有目标中为正类个数的比例。召回率表示网络检测的正类占数据集所有正类的比例。mAP反应目标检测精度,mAP@50%表示在置信度阈值为50%时的mAP值,mAP@50%-95%计算在置信度阈值从50%到95%变化的范围内的mAP值。计算公式分别为
$$ {P_{{\text{recision}}}} = \frac{{{N_{{\mathrm{TP}}}}}}{{{N_{{\mathrm{TP}}}} + {N_{{\mathrm{FP}}}}}} \times 100 \text{%} $$ $$ {R_{{\text{ecall}}}} = \frac{{{N_{{\mathrm{TP}}}}}}{{{N_{{\mathrm{TP}}}} + {N_{{\mathrm{FN}}}}}} \times 100\text{%} $$ $$ {I_{{\mathrm{AP}}}} = \int_0^1 {P(R){\text{d}}R} $$ $$ {I_{{\mathrm{mAP}}}} = \frac{1}{n}\sum\limits_{i = 1}^n {{I_{{\text{AP}}_{i}}}} $$ 式中:NTP 表示正确预测的正样本个数,NFP表示错误预测的正样本个数,NTN表示正确预测的负样本个数,NFN表示错误预测的负样本个数,n为数据集中包含的类别总数,
$ I_{\mathrm{AP}_i} $ 为第i个类别检测的平均精度(average precision, AP)。3.4 实验结果及分析
3.4.1 对比实验
为了验证本文提出的DBSWFF的性能,在自建数据集上,本文分别统计了多个方法的mAP@50%、mAP@50%-95%、参数量和FPS。对比实验结果如表1所示。
表 1 输电线路外力破坏数据集对比实验Table 1 Comparison of performance metrics of different algorithms方法 AP/% Precision/% Recall/% mAP@50%/% mAP@50%-95%/% 参数量/103 FPS 长臂挖掘机 桩机 农机 Faster-RCNN[9] 73.4 74.5 76.9 82.6 67.5 75.3 40.1 158.40 43.0 Cascade-RCNN[10] 74.1 79.8 77.7 81.8 68.7 77.2 41.2 265.00 37.0 YOLOv5[19] 71.2 80.0 77.5 82.0 70.5 76.3 45.1 2.51 85.5 YOLOv6[13] 63.1 72.5 69.0 80.1 62.3 68.2 39.4 4.23 84.5 YOLOv7[15] 72.0 78.9 80.0 81.5 70.8 77.1 45.5 37.21 77.0 RT-DETR-x[28] 78.5 77.4 85.1 81.8 74.3 80.3 49.0 67.30 67.2 YOLOv8[28] 75.1 80.9 78.3 85.9 70.9 78.1 48.2 3.15 78.9 YOLOv8-l[28] 80.0 84.7 83.5 84.0 75.9 82.7 56.3 43.69 66.1 YOLOv9-m 77.0 81.2 79.8 85.7 72.3 81.1 55.2 20.13 68.6 YOLOv10-l 82.3 85.4 84.7 87.0 76.2 84.1 57.7 24.51 69.4 DBSWFF 86.1 87.4 86.9 89.5 77.8 86.8 58.4 14.54 78.6 注:加粗表示本列最优结果。 由表1的对比方法检测可以看出,在输电线路外力破坏目标数据集上,DBSWFF的准确率、召回率、mAP@50%和mAP@50%-95%均高于其他对比方法。在mAP@50%上,DBSWFF对比原始的YOLOv8方法增加了10.5百分点,在mAP@50%-95%上,相较YOLOv8增加了10.2百分点。虽然在参数量和检测速度方面,DBSWFF并没有达到最优,但是综合来看,该方法牺牲了一定的参数量和处理时间获得了较大的检测精度提升。
本文使用YOLOv8作为原方法。在VOC数据集上的实验结果如表2所示。由表2可知,本文方法在VOC数据集上的准确率、召回率、mAP@50%、mAP@50%-95%等评价指标均超过原方法(YOLOv8方法)。由此可验证本文方法的可靠性。
表 2 PASCAL VOC数据集对比实验Table 2 Comparison of performance metrics of PASCAL VOC datasets% 方法 Precision Recall mAP@50% mAP@50%-95% 原方法 74.6 65.1 72.2 50.7 本文方法 78.2 73.8 79.5 58.8 注:加粗表示本列最优结果。 3.4.2 结构化消融实验
本文分别在自建数据集和VOC数据集上设计了消融实验。由于DLKA模块对变形图像的特征提取能力较强,本文将DLKA模块加入到特征提取网络中,该模块不作为本文提出的创新结构,但是作为结构化消融实验的一部分。结构化消融实验结果如表3所示,DLKA表示原方法特征提取部分改为融合DLKA网络;SWFF表示原方法中特征融合模块改为SWFF模块;Light Head表示原方法中的检测头部分进行轻量化操作;D_L表示原方法中加入融合DLKA网络和检测头进行轻量化操作;S_L表示特征融合模块改为SWFF模块和检测头进行轻量化操作;S_D表示原方法提取部分改为融合DLKA网络且特征融合模块改为SWFF模块;S_D_H表示原方法提取部分改为融合DLKA网络且特征融合模块改为SWFF模块同时改为检测头轻量化操作。
表 3 自建数据集的消融实验Table 3 Ablation experiments of self-built datasets方法 AP/% Precision/% Recall/% mAP@50%/% mAP@50%-95%/% 参数量/103 FPS 长臂挖掘机 桩机 农机 YOLOv8 75.1 80.9 78.3 85.9 70.9 78.1 48.2 3.15 78.9 DLKA 75.3 81.9 79.6 84.8 72.5 78.9 48.5 5.39 76.5 SWFF 80.7 84.8 83.2 87.6 77.4 82.9 54.5 11.34 75.4 Light Head 75.5 80.9 78.1 83.1 72.4 78.2 47.5 2.76 89.5 D_L 76.5 82.3 79.2 85.1 71.9 79.3 48.9 4.99 77.1 S_L 82.4 84.9 84.2 86.7 79 83.8 55.5 10.32 75.8 S_D 81.8 86.5 85.2 89.5 77.8 84.9 56 15.56 70.2 S_D_H 82.8 85.7 85.6 87.7 78.7 84.7 55.6 14.54 74.1 DBSWFF 86.1 87.4 86.9 89.6 79.1 86.8 58.4 14.54 78.6 注:加粗表示本列最优结果。 由表3可知,DLKA模块中,mAP@50%提升了0.8百分点,mAP@50%-95%提升了0.3百分点,且对3种施工机械的检测精度都有所提升;SWFF模块中,mAP@50%提升了4.8百分点,mAP@50%-95%提升了6.3百分点,由此看出SWFF虽然一定程度上增加了参数量、延缓了处理速度,但是在完成提高检测精度的任务上表现良好;Light Head模块使参数量得到了有效的下降,运行速度得到较大提升,且在长臂挖掘机的检测精度和所有目标的mAP50%上有一定提升。
D_L模块相较单独加入某一个模块在所有精度指标上均得到了有效提升,且Light Head模块降低了原本融DLKA网络的参数量,提升了原融DLKA网络的运行速度;S_L模块同样有效提升了检测精度,且降低了SWFF带来的大参数量,提升了模型检测速度;S_D提升了mAP50%-95%的值,且提升了对大目标桩机的检测精度;S_D_H模块虽然造成桩机检测精度下降了0.8百分点,mAP50%-95%下降了0.4百分点,但是其他指标均有所提升,在mAP50%指标上提升了1百分点,参数量降低了1×103,FPS提升了3.9;DBSWFF模块使得3个目标的检测精度均达到最优,且mAP50%达到了86.8%,mAP50%-95%达到了58.4%,均达到最优效果。
3.4.3 多尺度特征融合消融实验
为了验证多尺度特征融合的有效性,本文在自建数据集上设计了不同尺度上的消融实验。本文将融合DLKA网络中得到的小尺度特征C1放弃,直接使用C2与P4特征进行融合,作为对比实验1,验证C1对于目标检测精度的重要性;本文将融合DLKA网络中得到的小尺度特征C2放弃,直接使用C1与P4特征进行融合,作为对比实验2,验证C2对于目标检测精度的重要性;本文将融合DLKA网络中得到的中尺度特征C3放弃,使用C1、C2、C4融合得到
${\boldsymbol P}'_{3_1}$ 特征代替P3,C2、C4、C5进行融合得到${\boldsymbol P}'_{4_1}$ 代替P4,作为对比实验3,验证C3对于目标检测精度的重要性;本文将融合DLKA网络中得到的大尺度特征C4放弃,直接使用C5与C3特征进行融合得到${\boldsymbol{P}}_{4_2}'$ ,使用${\boldsymbol P}'_{4_2}$ 代替P4与P3进行融合,作为对比实验4,验证C4对于目标检测精度的重要性;本文将融合DLKA网络中得到的大尺度特征C5放弃,直接使用C4与C3特征进行融合得到$ {\boldsymbol P}'_{4_3} $ ,使用$ {\boldsymbol P}'_{4_3} $ 代替P4与P3进行融合,作为对比实验5,验证C5对于目标检测精度的重要性。使用DBSWFF表示使用本文方法进行实验,实验结果如表4所示。表 4 多尺度特征融合消融实验Table 4 Ablation experiments of MSSF% 方法 Precision Recall mAP50% mAP50%-95% 实验1 84.1 72.5 82.0 44.1 实验2 81.2 70.4 78.4 40.0 实验3 78.7 70.1 78.1 39.1 实验4 81.4 70.2 78.6 41.3 实验5 82.1 69.7 79.3 40.9 DBSWFF 89.6 79.1 86.8 58.4 注:加粗表示本列最优结果。 由表4可知,小、中、大尺度特征均对模型的检测精度有重要影响,本文自建数据集对中尺度特征依赖性更深。
3.4.4 损失函数消融实验
为了验证GCIoU NMS的有效性,本文在自建数据集上设计了损失函数消融实验。CIoU表示在YOLOv8上使用CIoU Loss,EIoU表示在YOLOv8上使用EIoU Loss,EC表示在YOLOv8上先使用EIoU Loss进行收敛计算,损失收敛到一定程度后再使用CIoU Loss进行计算得到结果。GCIoU表示在YOLOv8上使用GCIoU NMS损失函数。实验结果如表5所示。
表 5 损失函数消融实验Table 5 Ablation experiments of loss function% 方法 Precision Recall mAP50% mAP50%-95% CIoU 85.9 70.9 78.1 48.2 EIoU 86.9 75.4 82.6 53.7 EC 83.1 70.1 77.4 42.1 GCIoU 87.7 78.1 84.1 55.1 注:加粗表示本列最优结果。 由表5可知,同原CIoU Loss和EIoU Loss相比,EC方法由于先使用EIoU Loss进行收敛,得到了较慢的收敛速度,又由于使用CIoU Loss进行后续计算,得到的结果反而没有原函数结果优秀。通过对CIoU Loss和EIoU Loss结合进行排列组合的对比实验,证明了本文先使用CIoU Loss进行收敛计算再使用EIoU Loss进行结果计算的方式结合了两者的优点,获得了理想的效果。
3.4.5 实验结果可视化
原方法和本文方法在自建数据集上的P-R曲线分别如图7(a)、(b)所示。由图7可以看出,本文方法3个种类的精度均值均高于原方法,且3个种类的精度均值更贴近于平均精度均值。
原方法和本文方法在VOC数据集上的混淆矩阵分别如图8(a)、(b)所示。由混淆矩阵结果可看出,本文方法在每种类别上的准确率均高于原方法。
使用原方法和本文方法对未经训练的输电线路图片进行检测,检测结果分别如图9(a)、(b)所示。
4. 结束语
针对输电线路外部破坏检测问题,本文提出了基于阶梯式特征融合的目标检测方法。首先,针对无人机拍摄图片产生的目标形变问题,在骨干网络中加入可变形大卷积核注意力模块;其次,为了减少输电线路复杂背景的影响,同时提高模型对带臂机械不同工作状态下的形变特征捕获能力,采用阶梯式特征融合模块,以阶梯形式将多个尺度的序列特征进行融合,使用多尺度序列特征融合模块,同时对3个不同尺度特征进行融合,以提升目标检测精度;为了在不影响模型效果的前提下降低模型参数,本文对检测头进行改进,使用深度可分离卷积代替卷积模块对分类任务进行简化;对损失函数进行改进,结合CIoU Loss和EIoU Loss,并且加入非极大值抑制函数,通过优化损失函数增强模型的检测精度和模型的鲁棒性。经过实验对比,在自建数据集上,本文相较原始的YOLOv8方法,mAP@50%和mAP@50%-90%分别提升了10.5、10.2百分点。改进方法的参数量较原方法有所增加,FPS有所降低,但仍满足实时性要求。后续研究将进一步探索利用轻量级骨干特征提取网络和新的特征融合方式来简化网络结构,提高算法实时性,同时尝试在实际部署中验证方法的可靠性。
-
表 1 输电线路外力破坏数据集对比实验
Table 1 Comparison of performance metrics of different algorithms
方法 AP/% Precision/% Recall/% mAP@50%/% mAP@50%-95%/% 参数量/103 FPS 长臂挖掘机 桩机 农机 Faster-RCNN[9] 73.4 74.5 76.9 82.6 67.5 75.3 40.1 158.40 43.0 Cascade-RCNN[10] 74.1 79.8 77.7 81.8 68.7 77.2 41.2 265.00 37.0 YOLOv5[19] 71.2 80.0 77.5 82.0 70.5 76.3 45.1 2.51 85.5 YOLOv6[13] 63.1 72.5 69.0 80.1 62.3 68.2 39.4 4.23 84.5 YOLOv7[15] 72.0 78.9 80.0 81.5 70.8 77.1 45.5 37.21 77.0 RT-DETR-x[28] 78.5 77.4 85.1 81.8 74.3 80.3 49.0 67.30 67.2 YOLOv8[28] 75.1 80.9 78.3 85.9 70.9 78.1 48.2 3.15 78.9 YOLOv8-l[28] 80.0 84.7 83.5 84.0 75.9 82.7 56.3 43.69 66.1 YOLOv9-m 77.0 81.2 79.8 85.7 72.3 81.1 55.2 20.13 68.6 YOLOv10-l 82.3 85.4 84.7 87.0 76.2 84.1 57.7 24.51 69.4 DBSWFF 86.1 87.4 86.9 89.5 77.8 86.8 58.4 14.54 78.6 注:加粗表示本列最优结果。 表 2 PASCAL VOC数据集对比实验
Table 2 Comparison of performance metrics of PASCAL VOC datasets
% 方法 Precision Recall mAP@50% mAP@50%-95% 原方法 74.6 65.1 72.2 50.7 本文方法 78.2 73.8 79.5 58.8 注:加粗表示本列最优结果。 表 3 自建数据集的消融实验
Table 3 Ablation experiments of self-built datasets
方法 AP/% Precision/% Recall/% mAP@50%/% mAP@50%-95%/% 参数量/103 FPS 长臂挖掘机 桩机 农机 YOLOv8 75.1 80.9 78.3 85.9 70.9 78.1 48.2 3.15 78.9 DLKA 75.3 81.9 79.6 84.8 72.5 78.9 48.5 5.39 76.5 SWFF 80.7 84.8 83.2 87.6 77.4 82.9 54.5 11.34 75.4 Light Head 75.5 80.9 78.1 83.1 72.4 78.2 47.5 2.76 89.5 D_L 76.5 82.3 79.2 85.1 71.9 79.3 48.9 4.99 77.1 S_L 82.4 84.9 84.2 86.7 79 83.8 55.5 10.32 75.8 S_D 81.8 86.5 85.2 89.5 77.8 84.9 56 15.56 70.2 S_D_H 82.8 85.7 85.6 87.7 78.7 84.7 55.6 14.54 74.1 DBSWFF 86.1 87.4 86.9 89.6 79.1 86.8 58.4 14.54 78.6 注:加粗表示本列最优结果。 表 4 多尺度特征融合消融实验
Table 4 Ablation experiments of MSSF
% 方法 Precision Recall mAP50% mAP50%-95% 实验1 84.1 72.5 82.0 44.1 实验2 81.2 70.4 78.4 40.0 实验3 78.7 70.1 78.1 39.1 实验4 81.4 70.2 78.6 41.3 实验5 82.1 69.7 79.3 40.9 DBSWFF 89.6 79.1 86.8 58.4 注:加粗表示本列最优结果。 表 5 损失函数消融实验
Table 5 Ablation experiments of loss function
% 方法 Precision Recall mAP50% mAP50%-95% CIoU 85.9 70.9 78.1 48.2 EIoU 86.9 75.4 82.6 53.7 EC 83.1 70.1 77.4 42.1 GCIoU 87.7 78.1 84.1 55.1 注:加粗表示本列最优结果。 -
[1] 胡毅, 刘凯, 吴田, 等. 输电线路运行安全影响因素分析及防治措施[J]. 高电压技术, 2014, 40(11): 3491−3499. HU Yi, LIU Kai, WU Tian, et al. Analysis of influential factors on operation safety of transmission line and countermeasures[J]. High voltage engineering, 2014, 40(11): 3491−3499. [2] 崔岩, 方春华, 文中, 等. 基于VMD-WOA-ELM的电缆外力破坏振动信号在线识别[J]. 电子测量技术, 2023, 46(2): 121−129. CUI Yan, FANG Chunhua, WEN Zhong, et al. Online identification of cable external force damage vibration signal based on VMD-WOA-ELM[J]. Electronic measurement technology, 2023, 46(2): 121−129. [3] 黄然, 方正云, 马御棠, 等. 基于变化检测的输电走廊外力破坏隐患区域识别[J]. 航天返回与遥感, 2022, 43(3): 138−148. doi: 10.3969/j.issn.1009-8518.2022.03.015 HUANG Ran, FANG Zhengyun, MA Yutang, et al. Hidden danger area identification of outside force destroy in transmission corridor based on change detection[J]. Spacecraft recovery & remote sensing, 2022, 43(3): 138−148. doi: 10.3969/j.issn.1009-8518.2022.03.015 [4] 蓝向州, 卢泉, 陈桥. 面向边缘计算的轻量化外力破坏目标检测算法[J]. 广西大学学报(自然科学版), 2022, 47(5): 1363−1373. LAN Xiangzhou, LU Quan, CHEN Qiao. External force damage targets lightweight detection algorithm for edge computing[J]. Journal of Guangxi university (natural science edition), 2022, 47(5): 1363−1373. [5] LUO Yanhong, YU Xue, YANG Dongsheng, et al. A survey of intelligent transmission line inspection based on unmanned aerial vehicle[J]. Artificial intelligence review, 2023, 56(1): 173−201. [6] 康重庆, 杜尔顺, 郭鸿业, 等. 新型电力系统的六要素分析[J]. 电网技术, 2023, 47(5): 1741−1750. KANG (C /Z)Q, DU Ershun, GUO Hongye, et al. Primary exploration of six essential factors in new power system[J]. Power system technology, 2023, 47(5): 1741−1750. [7] ZOU Zhengxia, CHEN Keyan, SHI Zhenwei, et al. Object detection in 20 years: a survey[J]. Proceedings of the IEEE, 2023, 111(3): 257−276. [8] WEI Liu, DRAGOMIR A, DUMITRU E, et al. SSD: single shot multi-box detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21−37. [9] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137−1149. [10] 王晓林, 苏松志, 刘晓颖, 等. 一种基于级联神经网络的飞机检测方法[J]. 智能系统学报, 2020, 15(4): 697−704. doi: 10.11992/tis.201908028 WANG Xiaolin, SU Songzhi, LIU Xiaoying, et al. Cascade convolutional neural networks for airplane detection[J]. CAAI transactions on intelligent systems, 2020, 15(4): 697−704. doi: 10.11992/tis.201908028 [11] DUAN Kaiwen, BAI Song, XIE Lingxi, et al. CenterNet: keypoint triplets for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 6569−6578. [12] TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 9627−9636. [13] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6517−6525. [14] REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1804−2767. [15] WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 7464−7475. [16] 程德强, 马尚, 寇旗旗, 等. 基于YOLOv4改进特征融合及全局感知的目标检测算法[J]. 智能系统学报, 2024, 19(2): 325−334. doi: 10.11992/tis.202207018 CHENG Deqiang, MA Shang, KOU Qiqi, et al. Target detection algorithm for improving feature fusion and global perception based on YOLOv4[J]. CAAI transactions on intelligent systems, 2024, 19(2): 325−334. doi: 10.11992/tis.202207018 [17] ZHAO Zhenbing, QI Hongyu, QI Yincheng, et al. Detection method based on automatic visual shape clustering for pin-missing defect in transmission lines[J]. IEEE transactions on instrumentation and measurement, 2020, 69(9): 6080−6091. [18] 郝帅, 马瑞泽, 赵新生, 等. 基于卷积块注意模型的YOLOv3输电线路故障检测方法[J]. 电网技术, 2021, 45(8): 2979−2987. HAO Shuai, MA Ruize, ZHAO Xinsheng, et al. Fault detection of YOLOv3 transmission line based on convolutional block attention model[J]. Power system technology, 2021, 45(8): 2979−2987. [19] 邱志斌, 朱轩, 廖才波, 等. 基于目标检测的电网涉鸟故障相关鸟种智能识别[J]. 电网技术, 2022, 46(1): 369−377. QIU Zhibin, ZHU Xuan, LIAO Caibo, et al. Intelligent recognition of bird species related to power grid faults based on object detection[J]. Power system technology, 2022, 46(1): 369−377. [20] 孙阳, 李佳. 基于通道剪枝的YOLOv7-tiny输电线路异物检测算法[J]. 计算机工程与应用, 2024, 60(14): 319−328. doi: 10.3778/j.issn.1002-8331.2311-0160 SUN Yang, LI Jia. YOLOv7-tiny transmission line foreign object detection algorithm based on channel pruning[J]. Computer engineering and applications, 2024, 60(14): 319−328. doi: 10.3778/j.issn.1002-8331.2311-0160 [21] 王宇博, 尚军利, 张烨, 等. 基于改进YOLOv7的实时输电导线缺陷检测方法[J]. 南方电网技术, 2023, 17(12): 127−134. WANG Yubo, SHANG Junli, ZHANG Ye, et al. Real-time transmission wire defect detection method based on improved YOLOv7[J]. Southern power system technology, 2023, 17(12): 127−134. [22] 张铭泉, 邢福德, 刘冬. 基于改进Faster R-CNN的变电站设备外部缺陷检测[J]. 智能系统学报, 2024, 19(2): 290−298. ZHANG Mingquan, XING Fude, LIU Dong. External defect detection of transformer substation equipment based on improved Faster R-CNN[J]. CAAI transactions on intelligent systems, 2024, 19(2): 290−298. [23] AZAD R, NIGGEMEIER L, HÜTTEMANN M, et al. Beyond self-attention: deformable large kernel attention for medical image segmentation[C]//2024 IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2024: 1276−1286. [24] ZHENG Zhaohui, WANG Ping, REN Dongwei, et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J]. IEEE transactions on cybernetics, 2022, 52(8): 8574−8586. [25] ZHANG Yifan, REN Weiqiang, ZHANG Zhang, et al. Focal and efficient IOU loss for accurate bounding box regression[J]. Neurocomputing, 2022, 506: 146−157. [26] SALSCHEIDER N O. FeatureNMS: non-maximum suppression by learning feature embeddings[C]//2020 25th International Conference on Pattern Recognition. Milan: IEEE, 2021: 7848−7854. [27] EVERINGHAM M, ALI ESLAMI S M, VAN GOOL L, et al. The pascal visual object classes challenge: a retrospective[J]. International journal of computer vision, 2015, 111(1): 98−136. doi: 10.1007/s11263-014-0733-5 [28] ZHAO Yian, LYU Wenyu, XU Shangliang, et al. DETRs beat YOLOs on real-time object detection[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 16965−16974.