锈蚀知识引导的配电线路金具及其缺陷双阶段检测方法

赵振兵 唐辰康 张靖梁 毕雨轩 李浩鹏

赵振兵, 唐辰康, 张靖梁, 等. 锈蚀知识引导的配电线路金具及其缺陷双阶段检测方法 [J]. 智能系统学报, 2026, 21(1): 167-178. doi: 10.11992/tis.202507033
引用本文: 赵振兵, 唐辰康, 张靖梁, 等. 锈蚀知识引导的配电线路金具及其缺陷双阶段检测方法 [J]. 智能系统学报, 2026, 21(1): 167-178. doi: 10.11992/tis.202507033
ZHAO Zhenbing, TANG Chenkang, ZHANG Jingliang, et al. Rust knowledge-guided dual-stage detection method for distribution line fitting and defect detection [J]. CAAI Transactions on Intelligent Systems, 2026, 21(1): 167-178. doi: 10.11992/tis.202507033
Citation: ZHAO Zhenbing, TANG Chenkang, ZHANG Jingliang, et al. Rust knowledge-guided dual-stage detection method for distribution line fitting and defect detection [J]. CAAI Transactions on Intelligent Systems, 2026, 21(1): 167-178. doi: 10.11992/tis.202507033

锈蚀知识引导的配电线路金具及其缺陷双阶段检测方法

doi: 10.11992/tis.202507033
基金项目: 国家自然科学基金项目(U21A20486, 62373151, 62371188, 62303184);河北省自然科学基金项目(F2021502008, F2021502013);中央高校基本科研业务费(2023JC006).
详细信息
    作者简介:

    赵振兵,教授,博士生导师,博士,主要研究方向为电力视觉(电力人工智能)。主持国家自然科学基金项目等科研项目20余项,获省级科学技术奖一等奖3项,以第一完成人获得国家发明专利授权19项。以第一作者或通信作者发表学术论文100余篇,以第一作者出版专著2部。E-mail:zhaozhenbing@ncepu.edu.cn;

    唐辰康,硕士研究生,主要研究方向为配电线路视觉缺陷检测。E-mail:f1ngertips@163.com;

    张靖梁,硕士研究生,主要研究方向为变电站渗漏油分割。E-mail:recolourlink@163.com.

    通讯作者:

    赵振兵. E-mail:zhaozhenbing@ncepu.edu.cn.

  • 中图分类号: TP183

Rust knowledge-guided dual-stage detection method for distribution line fitting and defect detection

  • 摘要:

    针对配电线路金具及其缺陷检测中航拍图像小目标特征提取困难、复杂光照误检率高、类间差异小等问题,提出一种锈蚀知识引导的双阶段检测方法。构建粗−精双阶段框架:通过前景聚合模块实现目标区域密度聚类,抑制背景干扰。提出锈蚀知识提取模块,融合光照不变特征与自适应纹理提取策略,建立色域−频域联合表征。引入频率感知特征融合网络,采用自适应低通滤波和高频增强机制优化多尺度特征一致性,并提出可变形检测头提升不规则锈蚀形态建模能力。实验结果表明,该方法在自建数据集上mAP50和mAP分别达85.8%和62.5%,并在公开数据集验证了泛化性,为复杂场景配电设备缺陷检测提供了高效解决方案。

     

    Abstract:

    Aiming at the challenges of small target feature extraction in aerial images, high false detection rates under complex lighting conditions, and low inter-class differences between normal and rusted fittings in corrosion detection of distribution line hardware, this paper proposes a rust knowledge-guided dual-stage detection method. First, a coarse-to-fine dual-stage framework is constructed: the coarse detection phase employs a foreground aggregation module to achieve density clustering of target regions and suppress background interference. Second, a rust knowledge extraction module is proposed, integrating illumination-invariant features with an adaptive texture extraction strategy to establish chromatic-frequency joint representations. Finally, a frequency-aware feature fusion network is introduced, utilizing adaptive low-pass filtering and high-frequency enhancement mechanisms to optimize multi-scale feature consistency, while a deformable detection head is proposed to improve the modeling capability for irregular rust morphologies. Experimental results demonstrate that the proposed method achieves mAP50 and mAP of 85.8% and 62.5%, respectively, on a self-built dataset, and exhibits strong generalization capability on public power inspection datasets, providing an efficient solution for defect detection of distribution equipment in complex scenarios.

     

  • 随着社会经济的持续发展,配电网络的用电负荷呈现显著增长态势。作为电力系统末端的重要环节,配电线路的运行状态直接影响着供电可靠性和用户用电体验[1]。其中,配电线路金具作为连接、支撑和固定导线的关键组件,其性能退化可能引发连锁故障,严重威胁配电系统的安全稳定运行。在复杂多变的运行环境中,金具表面腐蚀已成为导致配电线路故障的主要因素之一。因此,开展配电线路金具的定期检测与维护工作,及时发现并处理腐蚀缺陷,对预防重大电力事故、保障配电网络可靠运行具有重要的现实意义[2]

    当前基于视觉的锈蚀检测研究虽取得一定进展,但面向配电线路特殊场景仍存在明显局限性。传统图像处理方法依赖人工设计特征,在色调−饱和度−明度(hue-saturation-value, HSV)颜色空间分割[3]和纹理梯度分析[4]等方面受光照条件制约严重,检测准确率波动较大。深度学习方法中,Faster R-CNN(faster region-based convolutional neural network)系列算法虽通过区域建议机制提升定位精度,但其两阶段检测框架导致推理速度难以满足实时性要求[5];YOLO(you only look once)系列算法虽具有较高检测效率,但直接应用原始网络进行锈蚀检测时,对小目标召回率较低[6]。近期研究尝试通过注意力机制[7]和多尺度特征融合[8]提升检测性能。文献[9]通过融合方向梯度直方图和局部二值模式双特征有效提升小目标特征表达能力。但这些方法在处理锈蚀区域与正常金属表面相似纹理时仍面临特征混淆问题。文献[10]提出融合边缘感知与统计纹理知识的方法,通过知识融合模块实现频域特征融合,验证了纹理−边缘联合建模的有效性。文献[11]提出的语义分割方法虽能实现像素级锈蚀标注,但模型复杂度高且依赖大量精细标注数据。文献[12]在变电设备锈蚀检测中引入频率通道注意力机制和多尺度特征增强模块,通过离散余弦变换补充高频特征,为配电场景的多尺度锈蚀检测提供了新思路。

    虽然上述文章对锈蚀检测提出有效的解决方法,但面向配电线路场景仍存在三大挑战。1)航拍视角下锈蚀区域多呈现碎片化分布,现有目标检测算法在特征提取过程中难以有效捕捉细粒度锈蚀特征;2)锈蚀区域在复杂光照条件下呈现显著尺度变化与形态多样性,传统阈值分割方法易受背景噪声干扰;3)正常金具与锈蚀金具表面纹理存在类内差异大、类间差异小的特性,导致基于深度学习的检测模型易产生误判。

    针对上述问题,提出了面向配电线路金具及其缺陷检测的粗−精双阶段检测框架并构建锈蚀知识引导的目标检测网络。本文基于CenterNetv2[13],提出了锈蚀知识引导的目标检测网络(rust-aware detection network, RDNet)。在粗−精双阶段检测框架中,提出前景聚合模块,实现有效解决复杂背景干扰问题。RDNet融合锈蚀知识与深度学习特征,包含三大核心模块:1)锈蚀知识提取模块通过光照不变模块[14]特征消除环境光干扰与可学习通道自适应纹理提取模块的协同作用,强化锈蚀纹理的色域−频域联合表征;2)频率感知融合网络将频率感知特征融合模块(FreqFusion)[15]嵌入自顶向下的特征融合路径,取代传统双线性插值上采样,解决类内特征不一致和边界偏移问题,实现频域特征增强;3)自适应检测头通过几何引导的动态形变[16]与类别解耦的精细化热图生成,实现配电线路场景下不规则锈蚀缺陷形态的精准建模。

    本文方法在自建配电线路金具锈蚀数据集上mAP50和mAP分别达到85.8%和62.5%,较基线模型显著提升7.7%和6.3%;在公开电力巡检数据集InsPLAD和CPLID上mAP50和mAP分别达到91.3%和93.1%,验证了该方法在复杂场景下具有优异的泛化能力。

    图1所示,本文提出面向配电线路金具及其缺陷检测的粗−精双阶段目标检测框架与锈蚀知识引导的RDNet网络,解决配电线路场景中锈蚀检测的核心挑战。双阶段框架通过层级化特征处理机制,分别应对全局场景解析与局部特征优化任务。RDNet网络则深度融合锈蚀物理特性与深度学习特征,构建针对性特征表达体系。两者协同实现了从粗粒度定位到细粒度分析的完整检测链路。

    图  1  本文整体框架
    Fig.  1  Overall architecture
    下载: 全尺寸图片

    图1所示,粗检测阶段的核心由一个基于无锚点范式的目标检测网络构成。该网络直接以目标的几何中心点作为核心表征。其输出是目标热力图,该热力图能描述金具及其缺陷的空间分布密度和置信度信息,峰值点对应目标的中心位置。

    此目标检测网络的具体架构为本文提出的RDNet。RDNet继承了CenterNetv2[13]的无锚检测范式,通过深度融合锈蚀先验知识,增强了网络对锈蚀目标特征的敏感性,使其生成的热力图能更精准地反映配电线路场景下的目标分布。具体内容将在第3章展开。

    热图作为粗检测阶段的基石,能够有效刻画图像中物体的空间分布特性。针对航拍场景下小尺寸目标易受分辨率限制的问题,本研究提出前景聚合模块,通过热图引导的聚类区域定位与尺度自适应调整机制,进一步提高检测精度。

    在航拍图像中,金具及其缺陷等物体往往聚集在少数区域。图像中的大部分区域是背景,不需要检测。此外,密集区域的有限分辨率会导致检测性能的显著下降。因此,本文提出了前景聚合模块,它可以自适应地定位聚类区域。前景聚合模块的结构如图2所示,其灵感来源于YOLC(you only look clusters)[17],但本文做了一些修改,使其适合配电线路巡检图像。

    图  2  锈蚀知识提取模块
    Fig.  2  Rust knowledge extraction module
    下载: 全尺寸图片

    首先,为解决固定网格对长条形金具结构的切割问题,采用层次化密度聚类算法(hierarchical density-based spatial clustering, HDBSCAN)替代固定网格划分。该算法通过层次聚类和噪声处理机制,无需预先指定簇数量,能够自适应识别数据中的密度变化和簇结构。其核心在于计算核心距离和可达性距离,生成任意形状的聚类簇,从而完美匹配配电金具的长条形、碎片化等不规则形态。

    其次,针对邻近部件误融合的问题,基于聚类簇坐标极值直接生成候选框。在密集的配电线路场景中,不同金具部件空间位置接近但功能独立。直接提取坐标极值有效避免了传统八连通合并规则导致的误判,同时通过设置最小簇规模参数,能够有效抑制金属反光等噪声干扰。

    最后,针对航拍图像尺度变化大的问题,设计了簇内点间距自适应的动态扩增策略。对高密度锈蚀特征明显区域采用1.1倍保守扩增,防止框体重叠;对低分辨率稀疏特征模糊区域采用1.3倍积极扩增,增强上下文信息捕捉能力。

    前景聚合模块的伪代码如算法1所示,通过以下流程实现候选区域生成。首先,基于检测网络输出的热图分支获取二值化热力图$ M $,激活像素表征潜在目标中心位置。采用HDBSCAN对激活点集进行分析,通过最小簇尺寸参数过滤孤立噪声点并生成空间密度关联的聚类簇。对于每个聚类簇,提取其坐标极值构成初始边界框。所有候选框按覆盖面积降序排列后,根据预设的目标区域数量截取前$ K $个候选框。最后,对每个候选框执行动态边界扩增。

    算法1 前景聚合模块算法

    输入 $ M $:二值化热力图$ [H,W] $;$ K $:目标中心点数量;min_cluster_size:最小簇尺寸

    输出 $ C $:边界框集合$ \{{C}_{1},{C}_{2},\cdots ,{C}_{k}\} $

    1) P ← {(x, y) | M[x, y] == 1}

    2) clusters ← HDBSCAN(P, min_cluster_size)

    3) bb_list ← []

    4) for cluster in clusters do

    5) $ {x}_{\min } $ ← min{x | (x, y) ∈ cluster}

    6) $ {y}_{\min } $ ← min{y | (x, y) ∈ cluster}

    7) $ {x}_{\max } $ ← max{x | (x, y) ∈ cluster}

    8) $ {y}_{\max } $ ← max{y | (x, y) ∈ cluster}

    9) bb_list.add([$ {x}_{\min } $,$ {y}_{\min } $,$ {x}_{\max } $,$ {y}_{\max } $])

    10) bb_list.sort(descending by area)

    11) if |bb_list| > k then bb_list ← bb_list[0,1,…,k−1]

    12) for bb in bb_list do bb ← enlarge(bb)

    13) C ← bb_list

    14) return C

    为实现高效检测,本文的目标是产生更少的候选框。将每张图像的$ K=2 $,并聚焦于更大范围的密集区域,因为对较大候选区域进行精细检测能带来更高的性能提升。实验表明$ K=3 $时可有效平衡检测效率与精度,在保留主要锈蚀区域的同时减少冗余计算。通过对扩增比例的系列实验,确定了最优参数配置:在密集区域测试[1.0,1.5]的扩增范围,最终确定1.1倍的扩增比例可有效避免目标重叠;在稀疏区域测试[1.2,2.0]的扩增范围,确定1.3倍的扩增比例能最大限度增强上下文特征捕捉能力。因此,前景聚合模块利用极少量的高质量候选区域实现精准检测,在检测速度与精度之间取得了良好平衡。

    本文提出的RDNet以CenterNetv2为基线模型,针对配电线路锈蚀检测场景进行了三方面创新设计。如图1所示,该网络通过锈蚀知识提取模块、频率感知特征融合网络和自适应检测头有效减少配电线路金具及其缺陷光照敏感,类间混淆的难题,提升检测精度。

    图2所示,针对配电线路金具在光照不均条件下锈蚀难判别问题,本模块通过光照不变模块[14]构建颜色恒常性特征空间,可学习通道自适应纹理提取模块建立方向敏感特征表达,再通过融合卷积与原图结合,实现锈蚀特征一致性表达。该模块可以与现有检测模型集成,增强网络在复杂环境下的能力。

    3.1.1   光照不变模块

    光照不变模块旨在消除配电线路巡检中复杂环境光的干扰,保留锈蚀颜色特征,构建对光照变化不敏感的特征表示。根据二色反射模型的体反射项,$ {C}_{{{p}_{i}}} $的值可以离散形式表示为

    $$ {C}_{{{p}_{i}}}=m({\boldsymbol{n}}_{{{p}_{i}}},{\boldsymbol{l}}_{{{p}_{i}}}){e}^{{{C}_{{{p}_{i}}}}}(\lambda ){\rho }^{{{C}_{{{p}_{i}}}}}(\lambda ) $$

    式中:$ {\boldsymbol{n}}_{{{p}_{i}}} $,$ {\boldsymbol{l}}_{{{p}_{i}}} $分别表示面法线和光方向,$ m $表示它们之间的相互作用函数,$ {e}^{{{C}_{{{p}_{i}}}}} $表示光源在颜色通道$ C $中点$ {P}_{i} $处的光谱功率分布,$ {\rho }^{{{C}_{{{p}_{i}}}}} $表示物体在颜色通道$ C $中点$ {P}_{i} $处的反射率。

    $ m $仅由位置分量决定,不受颜色通道的影响,再利用相邻像素之间照明近似均匀的假设,通过计算相邻像素值之间的差值,可以进一步消除$ m $和$ e $的影响。二色反射模型将图像分解为与光照相关项和与表面反射率相关项。通过计算相邻像素$ {p}_{1} $和$ {p}_{2} $在红(red, R)、蓝(blue, B)颜色通道上的比值,可以构建理论上的光照不变量$ {M}_{\text{rb}} $。取$ {M}_{\text{rb}} $的对数,将像素值代入方程,在光照假设$ {e}^{{{C}_{{{p}_{1}}}}}\approx {e}^{{{C}_{{{p}_{2}}}}} $下,简化为光照不变形式:

    $$ {M}_{{\mathrm{rb}}}=\frac{{R}_{{{p}_{1}}}{B}_{{{p}_{2}}}}{{R}_{{{p}_{2}}}{B}_{{{p}_{1}}}} $$
    $$ \begin{array}{c} \text{log}({M}_{{\mathrm{rb}}})=\text{log}({\rho }^{{{R}_{{{p}_{1}}}}}(\lambda ))-\text{log}({\rho }^{{{R}_{{{p}_{2}}}}}(\lambda ))+\\ \text{log}({\rho }^{{{B}_{{{p}_{2}}}}}(\lambda ))-\text{log}({\rho }^{{{B}_{{{p}_{1}}}}}(\lambda )) \end{array} $$

    局部区域内相邻像素的光照条件近似一致,通过跨通道比值运算,能够同时消除光照分量和入射分量,最终得到仅与物体表面反射特性相关的表达式。固定比值计算方程难以充分捕捉到复杂场景下照明的多样性,使用卷积运算将方程演变为更适应的形式。

    为了将固定的光照不变特征转化为可学习的形式,通过学习一组卷积核$ {\boldsymbol{W}}_{1},{\boldsymbol{W}}_{2},\cdots ,{\boldsymbol{W}}_{n}\in k\times k $,其中$ n $表示核的个数,$ k $表示核的大小。每个卷积核的作用不再是进行固定的邻域差值计算,而是自适应地学习一个局部窗口内的最优加权组合方式,以捕捉最有利于消除当前图像中复杂光照模式的特征。在这里,本文将固定特性扩展为更通用和一般化的形式。设$ {p}_{i} $和$ {w}_{i} $表示核$ {\boldsymbol{W}}_{n} $内的组像素位置及其对应的权值,其中$ i=0,1,\cdots ,{k}^{2} $。这些参数将交叉色比演变为可适应的形式,增强其有效处理不同照明条件的能力。

    $$ M_{{\mathrm{r b}}}=\prod_{i=1}^{k^2-1}\left(\frac{R_{p_i}}{B_{p_i}}\right)^{w_i}\left(\frac{B_{p_{i+1}}}{R_{p_{i+1}}}\right)^{w_{i+1}}=\prod_{i=1}^{k^2}\left(\frac{R_{p_i}}{B_{p_i}}\right)^{w_i} $$

    根据光照不变形式,$ e $和$ m $项被消去。最终特征可以用广义形式表示:

    $$ \log \left(M_{{\mathrm{r b}}}\right)=\sum_{i=1}^{k^2} w_i \log \left(\rho^{R_{p_i}}(\lambda)\right)-\sum_{i=1}^{k^2} w_i \log \left(\rho^{B_{p_i}}(\lambda)\right) $$

    将核函数$ {\boldsymbol{W}}_{i} $应用于图像$ \boldsymbol{I} $,得到的特征记为$ {\boldsymbol{f}}_{{{\boldsymbol{W}}_{i}}}(\boldsymbol{I}) $,可以表示为

    $$ \left.{\boldsymbol{f}}_{{{\boldsymbol{W}}_{{i}}}}(\boldsymbol{I})=\left[\begin{array}{c} {\boldsymbol{W}}_{i}\otimes \text{log}(R)+(-{\boldsymbol{W}}_{i})\otimes \text{log}(B)\\ {\boldsymbol{W}}_{i}\otimes \text{log}(R)+(-{\boldsymbol{W}}_{i})\otimes \text{log}(G)\\ {\boldsymbol{W}}_{i}\otimes \text{log}(G)+(-{\boldsymbol{W}}_{i})\otimes \text{log}(B) \end{array}\right.\right] $$

    式中:$ \otimes $表示卷积,通过对数变换将乘性光照模型转化为加性,便于卷积处理。

    为保持光照消除特性,对每个卷积核施加零均值约束。这一约束确保卷积操作抑制光照平滑变化区域,增强与锈蚀纹理相关的边缘特征。零均值约束表示为

    $$ \overline{{\mathcal{W}}_{n}}=\frac{1}{k^{2}} \sum_{i=1}^{k^{2}} w_{\bar{i}}=0 $$

    这个零均值约束是通过替换核$ {\mathcal{W}}_{n}={\mathcal{W}}_{n}-\overline{{\mathcal{W}}_{n}} $的平均值来实现的。

    3.1.2   可学习通道自适应纹理提取模块

    在配电线路金具及其缺陷检测场景中,传统Gabor滤波器[18]因固定参数设置难以适应复杂多变的表面纹理特性。因此,本文提出了一种可学习通道自适应纹理提取模块。该模块不仅为每个输入通道独立学习Gabor参数,还引入了可学习的卷积核尺寸参数,从而使滤波器在尺度上自适应调整,具有更好的特征表达能力。该函数由正弦波平面波函数与高斯核函数的乘积组成,使Gabor滤波器具有方向选择性和空间频率选择性。采用Gabor函数的实部来分析图像特征,其可表示为

    $$ {g}^{\prime}(x,y;\lambda ,\theta ,\psi ,\gamma ,\sigma )={\text{e}}^{\left(-\tfrac{(x')^{2}+{\gamma }^{2}(y')^{2}}{2{\sigma }^{2}}\right)}\cdot \cos \left(2\text{π}\frac{{x}^{\prime}}{\lambda }+\psi \right) $$

    式中:$ x $和$ y $分别为像素位置坐标;$ \lambda $为波长,影响Gabor滤波器对特定频率的灵敏度;$ \theta $是核方向;$ \psi $为相位偏移,用于调整Gabor小波相位;$ \gamma $是纵横比,决定Gabor小波的形状;$ \sigma $为带宽,表示高斯小波的方差;$ {x}^{\prime} $和$ {y}^{\prime} $分别为$ x $和$ y $的仿射变换。

    以波长$ \lambda $为例,$ \lambda $相对于$ \lambda $的梯度可以表示为

    $$ \frac{\partial {g}^{\prime}}{\partial \lambda }=2\text{π}\frac{{x}^{\prime}}{{\lambda }^{2}}{\text{e}}^{\left(-\tfrac{(x^{\prime})^{2}+{\lambda }^{2}(y^{\prime})^{2}}{2{\sigma }^{2}}\right)}\sin \left(2\text{π}\frac{{x}^{\prime}}{\lambda }+\psi \right) $$

    算法2 通道自适应可学习纹理提取算法

    输入 $ \boldsymbol{F}\in {\mathbb{R}}^{H\times W\times C} $

    参数 对于每层通道$ c $:索引参数$ x $和$ y $,波长$ \lambda $,核方向$ \theta $,带宽$ \sigma $,相位偏移$ \psi $,长径比$ \gamma $,核尺寸$ k $,卷积核K

    1) def CALGF:

    2) K = []

    3) for c in 0 to $ C-1 $:

    4) x = linspace(−k/2, k/2, k)

    5) y = linspace(−k/2, k/2, k)

    6) xx, yy = meshgrid(x, y)

    7) $ {x}_{\text{rot}}=xx*\cos {\theta }_{c[c]}+yy*\sin {\theta }_{c[c]} $

    8) $ {y}_{\text{rot}}=-xx*\sin {\theta }_{c[c]}+yy*\cos {\theta }_{c[c]} $

    9) $ \boldsymbol{K}=(\exp (-(x_{{\mathrm{rot}}}^{2}+\gamma _{c[c]}^{2}*y_{{\mathrm{rot}}}^{2}))/(2\sigma _{c[c]}^{2}))* (\cos (2\text{π}* {x}_{{\mathrm{rot}}}/ {\lambda }_{c[c]}+{\psi }_{c[c]})) $

    10) kernels.append(K/norm(K))

    11) return DepthwiseConv2D(K)}

    在特征金字塔网络框架中,本文将频率感知特征融合模块[15]嵌入自顶向下的特征融合路径,取代传统双线性插值上采样。传统特征金字塔通过双线性插值对高层特征进行上采样后与低层特征直接相加,这种操作易引发类内特征不一致和边界偏移问题。如图3所示,频率感知特征融合模块通过三阶段频率域优化实现特征增强。

    图  3  频率感知特征融合模块结构
    Fig.  3  Structure of the frequency-aware feature fusion module
    下载: 全尺寸图片

    特征融合流程包含3个阶段:首先对高层特征$ {\boldsymbol{Y}}^{l+1} $和低层特征$ {\boldsymbol{X}}^{l} $进行通道压缩生成共享特征$ {\boldsymbol{Z}}^{l} $;随后自适应低通滤波生成器生成平滑上采样特征,动态偏移生成器执行特征重采样优化;同时自适应高通滤波生成器增强低层特征的高频细节;最终将优化后的高层特征与增强的低层特征逐元素融合。该方法在保持特征金字塔多尺度优势的同时,通过频域自适应机制显著提升特征一致性。

    3.2.1   自适应低通滤波生成器

    自适应低通滤波器生成器用于预测动态低通滤波器,旨在有效平滑高级特征以减轻特征不一致,随后对高级特征进行上采样。自适应低通滤波生成器将最初融合的$ {\boldsymbol{Z}}^{l} $作为输入,并预测空间变化的低通滤波器。它由一个$ 3\times 3 $的卷积层和一个Softmax层组成,表示为

    $$ {{\overline{\boldsymbol{V}}}}^{l}={\text{Conv}}_{3\times 3}({\boldsymbol{Z}}^{l}) $$
    $$ \overline{\boldsymbol{W}}_{i, j}^{l, p, q}=\operatorname{Softmax}\left(\overline{\boldsymbol{V}}_{i, j}^l\right)=\frac{\exp \left(\overline{\boldsymbol{V}}_{i, j}^{l, p, q}\right)}{\displaystyle\sum_{p, q \in \Omega} \exp \left(\overline{\boldsymbol{V}}_{i, j}^{l, p, q}\right)} $$

    式中:$ {{\overline{\boldsymbol{V}}}}^{l}\in {\mathbb{R}}^{{{\overline{K}}^{2}}\times 2H\times 2W} $表示随空间变化的滤波器权值,其中$ \overline{K} $表示低通滤波器的核大小,在重塑之后,$ {{\overline{\boldsymbol{V}}}}^{l} $为每个位置包含$ \overline{K}\times \overline{K} $滤波器;$ \Omega $表示大小为$ \overline{K}\times \overline{K} $。在通过一个有核的Softmax来约束过滤器为正并且总和为1之后,结果是$ {\overline{\boldsymbol{W}}}\in {\mathbb{R}}^{{{\overline{K}}^{2}}\times 2H\times 2W} $中的平滑低通滤波器。

    接下来,使用亚像素上采样技术对高层特征$ {{\overline{\boldsymbol{V}}}}^{l}\in {\mathbb{R}}^{{{\overline{K}}^{2}}\times 2H\times 2W} $进行2倍上采样。然后将通道分为4组,每组都有一个空间变化的低通滤波器,表示为$ {{\overline{\boldsymbol{W}}}}^{l,g}\in {\mathbb{R}}^{{{\hat{K}}^{2}}\times H\times W} $,其中$ g\in \{1,2,3,4\} $表示组号。因此,得到4组低通滤波特征,表示为$ {{\tilde{\boldsymbol{Y}}}}^{l+1,g}\in {\mathbb{R}}^{C\times H\times W} $,然后将其重新排列形成一个2倍上采样特征$ {{\tilde{\boldsymbol{Y}}}}^{l+1}\in {\mathbb{R}}^{C\times 2H\times 2W} $,公式表示为

    $$ \overline{\boldsymbol{Y}}_{i, j}^{l+1, g}=\sum_{p, q \in \Omega} \overline{\boldsymbol{W}}_{i, j}^{l, g, p, q} \cdot \boldsymbol{Y}_{i+p, j+q}^{l+1} $$
    $$ {{\overline{\boldsymbol{Y}}}}^{l+1}=\text{PixelShuffle}({{\overline{\boldsymbol{Y}}}}^{l+1,1},{{\overline{\boldsymbol{Y}}}}^{l+1,2},{{\overline{\boldsymbol{Y}}}}^{l+1,3},{{\overline{\boldsymbol{Y}}}}^{l+1,4}) $$

    自适应低通滤波生成器根据特征内容自适应地预测空间变化的低通滤波器,以平滑和增强特征一致性。该组件有效地减轻了类别内的不一致性,从而产生了更有凝聚力的特性。

    3.2.2   动态偏移生成器

    虽然自适应低通滤波生成器增强整体的类内相似性,但它无法校正大量不一致的特征。观察到低类内相似性的邻近特征往往表现出高类内相似性的特征,因此引入动态偏移生成器计算局部余弦相似度:

    $$ \boldsymbol{S}_{i, j}^{1, p, q}=\frac{\displaystyle\sum_{c=1}^C \boldsymbol{Z}_{c, i, i}^i \cdot \boldsymbol{Z}_{c, i+p, j+q}^i}{\sqrt{\displaystyle\sum_{c=1}^C\left(\boldsymbol{Z}_{c, i, j}^i\right)^2} \sqrt{\displaystyle\sum_{c=1}^C\left(\boldsymbol{Z}_{c, i+p, j+q}^i\right)^2}} $$

    式中:$ \boldsymbol{S}\in {\mathbb{R}}^{8\times H\times W} $包含每个像素与其8个相邻像素之间的余弦相似度,这促使动态偏移生成器向具有高类别内相似度的特征进行采样,从而减少类别内不一致区域的模糊性。

    具体来说,动态偏移生成器将$ {\boldsymbol{Z}}^{l} $和$ \boldsymbol{S} $作为输入并预测偏移量。它由2个3×3的卷积层组成,用于预测偏移方向和偏移尺度,表示为

    $$ {\boldsymbol{O}}^{l}={\boldsymbol{D}}^{l}\cdot {\boldsymbol{A}}^{l} $$
    $$ {\boldsymbol{D}}^{l}=\text{Conv}3\times 3(\text{Concat}({\boldsymbol{Z}}^{l},{\boldsymbol{S}}^{l})) $$
    $$ {\mathbf{A}}^{l}=\text{Sigmoid}(\text{Conv}3\times 3(\text{Concat}({\mathbf{Z}}^{l},{\mathbf{S}}^{l}))) $$

    式中:$ {\boldsymbol{D}}^{l}\in {\mathbb{R}}^{2G\times H\times W} $表示偏移方向,$ {\boldsymbol{A}}^{l}\in {\mathbb{R}}^{2G\times H\times W} $用于控制偏移量的大小,$ \boldsymbol{S} $为高级特征的每个像素的最终预测偏移量,$ \boldsymbol{G} $为偏移组数。

    将特征划分为不同的组,为更细粒度的重采样分配独特的空间偏移量。该方法允许重新采样具有高类别内相似度的特征,以取代具有低类别内相似度的特征。这样,偏移量生成器可以处理大面积的不一致特征,实现更一致的特征表达。

    3.2.3   自适应高通滤波生成器

    虽然自适应低通滤波生成器和动态偏移生成器可以有效恢复上采样的高级特征,但下采样过程中丢失的低级特征中的详细边界信息并不能完全恢复到高级特征中。根据奈奎斯特−香农采样定理[19],当高层特征相对于待融合的低层特征以2倍因子下采样时,高于1/4的频率则会产生混叠。

    为了解决这一限制,使用自适应高通滤波生成器来增强下采样过程中丢失的详细边界信息。将最初融合的$ {\boldsymbol{Z}}^{l} $作为输入,并预测空间变化的高通滤波器。它由一个3×3的卷积层、一个Softmax层和一个滤波反演运算组成,表示为

    $$ {{\hat{\boldsymbol{V}}}}^{l}={\text{Conv}}_{3\times 3}({\boldsymbol{Z}}^{l}) $$
    $$ {\hat{\boldsymbol{W}}}_{i,j}^{l,p,q}=\boldsymbol{E}-\text{Softmax}({\hat{\boldsymbol{V}}}_{i,j}^{l}) $$

    式中:$ {{\hat{\boldsymbol{V}}}}^{l}\in {\mathbb{R}}^{{{\hat{K}}^{2}}\times H\times W} $包含每个位置$ (i,j) $的初始核,$ \hat{K} $表示高通滤波器的核大小;$ \boldsymbol{E} $为单位核。

    通过高通滤波和残差相加,得到增强边界高频分量,表示为

    $$ \tilde{\boldsymbol{X}}_{i, j}^l=\boldsymbol{X}_{i, j}^l+\sum_{p, q \in \Omega} \hat{\boldsymbol{W}}_{i, j}^{l, p, q} \cdot \boldsymbol{X}_{i, j}^l $$

    自适应高通滤波生成器引入的增强功能突出了其捕获和保存复杂细节和边界的能力,这对于需要高分辨率和准确特征表示的任务至关重要。

    图4所示,针对配电线路锈蚀形态多变,目标密集的挑战,创新性设计了一种级联式可变形检测架构。该检测头摒弃了传统固定感受野的回归方式,深度融合可变形卷积的动态采样机制与热图解耦预测策略。

    图  4  自适应检测头
    Fig.  4  Adaptive detection head
    下载: 全尺寸图片

    类别感知的热图解耦机制:热图分支引入解耦式热图预测机制,为不同类别目标独立构建热图预测子分支。通过深度可分离卷积[20]优化计算效率,使网络针对不同类别锈蚀或金具的形态特性学习高度差异化的特征表示,有效缓解了“类间差异小”导致的混淆问题,有效提升小目标热图响应强度。

    几何约束下的渐进式回归策略:回归分支采用双级可变形卷积架构,通过几何约束的渐进式优化提升定位精度。设输入特征图为$ \boldsymbol{F}\in {\mathbb{R}}^{C\times H\times W} $,首级回归网络生成初始边界框预测$ {\boldsymbol{B}}_{\text{init}} $:

    $$ {\boldsymbol{B}}_{\text{init}}=\{({x}_{i},{y}_{i},{w}_{i},{h}_{i})\}_{i=1}^{N}={\text{Regress}}_{1}(\boldsymbol{F}) $$

    式中:$ ({x}_{i},{y}_{i}) $表示边界框中心坐标,$ ({w}_{i},{h}_{i}) $表示宽高,$ N $为预测框数量。首级输出提供几何先验,用于引导次级网络的偏移量预测。

    次级网络则利用初始框提供的几何约束,动态预测可变形卷积的采样点偏移量$ \Delta \boldsymbol{p} $:

    $$ \Delta \boldsymbol{p}={\text{Regress}}_{2}(\boldsymbol{F},{\boldsymbol{B}}_{\text{init}}) $$ (1)

    该网络以初始框的空间信息为引导,计算每个采样点的空间偏移矢量,使特征采样区域能够自适应地聚焦于目标的有效边界范围。这种基于几何先验的动态调整机制,显著提升了对长条形金具、碎片化锈蚀等不规则形态的定位精度。

    该自适应检测头通过几何引导的动态形变与类别解耦的精细化热图生成,实现了对配电线路场景下复杂、多样锈蚀缺陷形态的鲁棒且精准的建模能力,是提升模型整体性能的关键创新模块。

    本文实验环境见表1,模型设置的batchsize为8,初始学习率为0.01,训练轮次为100个epoch。

    表  1  实验环境设置
    Table  1  Experimental environment
    名称 型号
    操作系统 Ubuntu20.04.6
    CPU Silver 4210R CPU
    GPU RTX 3080
    CUDA 11.6
    Python 3.8
    PyTorch 1.13.1

    配电线路金具及其缺陷检测数据集划分如表2所示。本文所用的数据均来自某巡检部门近几年对配电线路的巡检图片,输电线路金具检测数据集包含1 503张照片,共6 765个标注实例,按照7∶3的比例划分训练集、验证集。其中训练集包含1 052张图片,验证集包含451张图片。

    表  2  配电线路金具及其缺陷检测数据集
    Table  2  Dataset for power distribution line fittings and their defect detection
    配电线路金具实例数量
    螺栓型耐张线夹正常487
    拉杆型耐张线夹正常2 482
    螺栓型耐张线夹锈蚀740
    拉杆型耐张线夹锈蚀1 956
    螺栓型耐张线夹保护罩缺失1 100

    本文中采用目标检测领域的标准评价指标:交并比(intersection over union, IoU)为50的平均精度均值(mean average precision at IoU=50, mAP50)和IoU阈值区间50~95的均值平均精度均值(mean average precision, mAP),作为模型检测精度的量化基准。模型计算复杂度通过每秒十亿次浮点运算(giga floating point operations per second, GFLOPs)衡量,参数量(parameter quantity, Params)作为模型大小的评价指标。

    表3所示,本文提出的检测模型在配电线路金具及其缺陷检测任务中展现出显著优势。实验结果表明,本文模型在mAP50和mAP指标上分别达到85.8%和62.5%,较基线模型提升7.7百分点和6.3百分点,验证了双阶段框架与锈蚀知识融合的有效性。

    表  3  目标检测模型对比实验
    Table  3  Comparative experiments of object detection models
    算法 mAP50/% mAP/% GFLOPs Params/106
    Faster R-CNN[21] 77.5 51.7 192 47.4
    Cascade R-CNN[22] 78.0 53.9 210 69.4
    YOLOv5s[23] 73.6 54.1 16.5 7.1
    YOLOv6s[24] 75.1 50.6 45.3 17.2
    YOLOv7[25] 73.2 42.8 104.7 36.5
    YOLOv8s[26] 76.3 55.3 28.6 11.1
    YOLOv9c[27] 78.7 57.4 102.8 25.5
    YOLOv10s[28] 77.9 56.7 21.6 7.2
    DETR[29] 78.5 49.2 84.1 41.6
    DAB-DETR[30] 80.3 57.3 89.9 43.7
    Deformable-DETR[31] 81.2 58.8 151.0 40.1
    Grounding DINO[32] 86.2 65.6 464.0 172.0
    基线模型[13] 78.1 56.2 172.0 32.1
    本文模型 85.8 62.5 171.4 32.6

    相较于传统检测器,Faster R-CNN系列算法[21-22]虽通过区域建议机制提升定位精度,但其两阶段检测框架中的固定锚框设计难以适应锈蚀区域的不规则形态,导致对碎片化锈蚀的漏检率较高。YOLO系列算法[23-28]虽具有较高的检测效率,但其单阶段设计中的特征金字塔网络在融合多尺度特征时,采用简单的上采样和相加操作,导致细节信息丢失严重,特别是在小目标锈蚀区域特征提取不足。DETR(detection Transformer)系列算法[29-31]基于Transformer架构,虽具有全局感知优势,但其注意力机制在复杂背景干扰下容易分散焦点,导致复杂光照条件下的误检率升高。Grounding DINO(grounding DETR with diffusion noise-distillation)[32]作为视觉语言模型,虽凭借大规模预训练获得强大的特征表示能力,以86.2%的mAP50和65.6%的mAP保持领先,但其计算复杂度和参数量远超专用检测模型。本文模型在精度与效率的权衡中实现了更优的平衡,其GFLOPs和参数量分别仅为Grounding DINO的36.9%和18.9%。

    为验证本文模型在电力场景中的泛化能力,选取在配电线路金具及其缺陷数据集中排名前八的模型在输电线路资产检测(insulator power line asset dataset, InsPLAD)[33]与绝缘子缺陷检测(Chinese power line insulator dataset, CPLID)[34]电力巡检场景公开数据集进行验证。

    表4所示,本文模型在InsPLAD与CPLID两类差异化任务中,本文模型分别取得91.3%、74.5%与93.1%、78.2%的mAP50、mAP指标,较基线模型平均提升3.4百分点和7.6百分点。

    表  4  电力场景公开数据集对比实验
    Table  4  Comparative experiments on public datasets in power scenarios %
    算法 mAP50 mAP
    InsPLAD CPLID InsPLAD CPLID
    Cascade R-CNN 86.6 87.1 67.6 67.7
    YOLOv9c 90.7 91.2 69.1 74.9
    DETR 89.4 90.5 72.0 74.1
    DAB-DETR 92.1 94.3 73.3 79.6
    Deformable-DETR 90.5 93.5 75.5 77.4
    Grounding DINO 94.2 96.6 77.6 81.1
    基线模型 88.4 90.8 63.5 72.8
    本文模型 91.3 93.1 74.5 78.2

    尽管Grounding DINO、DAB-DETR(dynamic anchor boxes for DETR)和Deformable-DETR在公开数据集评价指标上与本文模型相比各有优劣,但是本文模型在配电线路金具及其锈蚀缺陷检测任务中展现出显著优势的同时,对其他类型目标的特征提取能力同样具备竞争力,验证了其多任务泛化能力。

    图5所示,本研究通过Nemenyi检验($ \alpha =0.1 $)验证了提出模型的综合性能优势。在3个数据集、9项评价指标的综合评估中,本文模型以3.056的平均秩位列第二,与当前最优模型Grounding DINO的秩差为1.278,小于临界差阈值,表明两者在统计学上无显著差异,验证了本文方法在无需大规模预训练的条件下在电力场景目标检测中能接近通用视觉语言模型的检测能力。同时,本文模型显著优于传统检测框架Cascade R-CNN与基线模型,证明粗−精双阶段框架与锈蚀知识引导策略有效突破了锚框机制的特征表达瓶颈。

    图  5  Nemenyi显著性检验
    Fig.  5  Nemenyi significance test
    下载: 全尺寸图片

    在同类先进模型对比中,本文模型以3.056的平均秩超越Deformable-DETR和DAB-DETR,尽管秩差小于临界差阈值,但排名顺序揭示了其相对优势。本文模型与YOLOv9c的秩差达1.611,接近临界差值的50.2%,表明粗−精双阶段检测框架较单阶段设计在电力场景中具有更优的统计稳定性。检验结果进一步表明,本文模型是唯一进入第一性能层级的非Transformer架构算法,实现了传统卷积神经网络(convolutional neural network, CNN)架构的性能突破。

    表5所示,前景聚合模块在复杂背景干扰的电力巡检场景中展现出显著的特征增强能力。该模块通过密度聚类与动态扩增策略,有效解决了航拍图像中背景噪声与目标区域混淆的问题。实验结果显示,在基线模型中引入前景聚合模块后,mAP50和mAP的性能分别提升2.2百分点和3.5百分点,表明模块通过密度聚类策略有效优化了候选区域生成质量。当与RDNet网络结合时,模型的mAP50达到85.8%,较RDNet提升2.4百分点,mAP增幅达到3.6百分点,验证了模块的动态扩增机制与检测网络的协同增强效应。

    表  5  前景聚合模块消融实验
    Table  5  Ablation study of the foreground aggregation module %
    方法 mAP50 mAP
    基线模型 78.1 56.2
    基线模型+前景聚合模块 80.3 59.7
    RDNet 83.4 58.9
    RDNet+前景聚合模块 85.8 62.5

    表6所示,本文提出的RDNet检测网络在配电线路金具及其缺陷检测任务中展现出显著优势。基线模型的总体mAP50为78.1%,引入锈蚀知识提取模块后提升至80.8%,增幅达2.7百分点。该模块针对锈蚀目标的专项优化效果显著,螺栓型耐张线夹锈蚀检测精度从70.5%提升至96.2%,验证了光照不变特征与可学习Gabor滤波器的协同作用。

    表  6  RDNet消融实验
    Table  6  Ablation study of RDNet %
    配电线路金具 基线
    模型
    +锈蚀知
    识提取
    模块
    +频率感
    知特征
    融合网络
    +自适应
    检测头
    螺栓型耐张线夹正常74.174.975.676.6
    拉杆型耐张线夹正常89.190.391.292.4
    螺栓型耐张线夹锈蚀70.596.277.678.1
    拉杆型耐张线夹锈蚀90.193.594.294.7
    螺栓型耐张线夹保护罩缺失68.469.270.872.4
    总体精度(mAP50)78.180.882.383.4

    引入频率感知特征融合网络进一步提升模型性能,mAP50提升至82.3%,较前阶段增长1.5百分点。该模块通过自适应低通滤波与高频细节增强策略,优化了多尺度目标的特征一致性。在螺栓型耐张线夹保护罩缺失检测中,mAP50从69.2%提升至70.8%,显著改善微小结构缺失的定位精度。同时,拉杆型正常线夹检测精度从90.3%提升至91.2%,

    加入自适应检测头使总体mAP50达到83.4%,较前一阶段增长1.1百分点。可变形卷积与解耦式热图预测机制的结合,显著提升了对不规则目标的几何建模能力。拉杆型正常线夹检测精度从91.2%提升至92.4%,同时保持拉杆型锈蚀检测精度稳定在94.7%。

    实验结果表明,前景聚合模块针对碎片化漏检提升小目标召回率,锈蚀知识提取模块降低复杂光照误检率,频率感知网络和自适应检测头优化类间一致性,各类别精度均衡提升。本文方法通过上述模块化设计逐层解决了三大挑战:

    1)针对碎片化锈蚀漏检问题,前景聚合模块通过密度聚类自适应捕捉不规则分布目标,实验表明该模块的引入使总体mAP50和mAP的性能分别提升2.2百分点和3.5百分点。这验证了密度聚类策略对碎片化锈蚀区域的有效捕捉,显著缓解了漏检问题。

    2)针对复杂光照误检问题,锈蚀知识提取模块的光照不变特征通过可学习卷积核消除环境光干扰,该模块使复杂光照场景下易误检的螺栓型耐张线夹锈蚀检测精度从70.5%提升至96.2%,体现了模块在强光、阴影等条件下的鲁棒性。

    3)针对类间差异小问题,频率感知特征融合网络和自适应检测头协同优化特征一致性,频率感知网络通过自适应低通滤波和高频增强使mAP50进一步提升至82.3%,而自适应检测头的热图解耦机制使拉杆型正常线夹检测精度从90.3%提升至92.4%,同时保持拉杆型锈蚀检测精度稳定在94.7%,证明其显著提升了类间区分能力。

    图6可视化结果所示,本文模型在锈蚀形态多样、遮挡及强光干扰等关键挑战场景中均展现出显著性能优势。在锈蚀形态复杂场景(图6(a)和(d))中,模型完整捕捉了耐张线夹表面不同形态的锈蚀区域分布特征,相较基线模型在锈蚀边缘的连续性上展现明显提升;在阴影遮挡场景(图6(b)和(e)),模型通过高频特征增强被遮挡的锈蚀区域,相较基线模型显著改善了纹理缺失区域的识别盲区;对于强光场景(图6(c)和(f)),锈蚀知识提取模块有效抑制金属表面高光干扰,准确识别线夹边缘的锈蚀纹理,而基线模型则出现因反光导致的特征混淆现象。

    图  6  本文模型可视化结果
    Fig.  6  Visualization results of the proposed model
    下载: 全尺寸图片

    锈蚀知识提取模块在强光环境下增强特征鲁棒性;前景聚合模块在密集目标场景中分离粘连锈蚀区域并提升定位精度;频率感知网络强化了遮挡条件下的边界特征识别能力。自适应检测头对拉杆型线夹的锈蚀结构展现出更精确的几何建模能力。当前模型在极端低分辨率样本中仍存在微尺度锈蚀斑点的检测盲区,后续将通过特征超分辨机制重点优化该问题。

    针对配电线路金具锈蚀检测中存在的航拍小目标特征模糊、复杂光照干扰及类间差异小等难题,本文提出了一种锈蚀知识引导的双阶段检测框架。通过构建粗−精双阶段检测机制,结合前景聚合模块的密度聚类策略,有效抑制了复杂背景干扰。创新设计的锈蚀知识提取模块通过光照不变特征与自适应纹理提取的协同优化,实现了色−频域联合表征,显著提升了锈蚀区域的判别能力。实验证明,本文方法在自建数据集上mAP50达到85.8%,较主流检测模型平均提升7.2百分点,且在公开数据集上展现出优异的泛化性能。可视化结果表明,频率感知特征融合网络有效缓解了多尺度特征不一致问题,可变形检测头对不规则锈蚀形态的精度提升明显。

    然而,本研究仍存在以下改进空间:1)针对螺栓型保护罩缺失等小样本类别,需引入对比学习机制增强特征表达能力;2)当前模型在极端低照度条件下的检测鲁棒性仍需提升,未来可融合红外成像等多模态数据;3)动态扩增策略的参数仍依赖经验设置,后续将探索基于强化学习的自适应参数优化方法。本文方法在配电线路金具检测任务中具有显著优势。除特定应用场景外,本方法展现出了良好的推广性和可迁移性:一方面可扩展至输电线路缺陷检测、变电设备表面缺陷检测、新能源设备巡检等工业巡检相邻领域,这些应用场景共享类似的纹理特征和尺度变化特性,方法迁移潜力显著。本文方法在公开数据集上的测试结果验证了其泛化能力。另一方面,模块化设计使其能快速适配不同成像条件的巡检数据,为行业应用提供了技术基础。未来工作将聚焦于小样本类别的特征学习优化,并探索在工业缺陷检测场景的应用潜力。

  • 图  1   本文整体框架

    Fig.  1   Overall architecture

    下载: 全尺寸图片

    图  2   锈蚀知识提取模块

    Fig.  2   Rust knowledge extraction module

    下载: 全尺寸图片

    图  3   频率感知特征融合模块结构

    Fig.  3   Structure of the frequency-aware feature fusion module

    下载: 全尺寸图片

    图  4   自适应检测头

    Fig.  4   Adaptive detection head

    下载: 全尺寸图片

    图  5   Nemenyi显著性检验

    Fig.  5   Nemenyi significance test

    下载: 全尺寸图片

    图  6   本文模型可视化结果

    Fig.  6   Visualization results of the proposed model

    下载: 全尺寸图片

    表  1   实验环境设置

    Table  1   Experimental environment

    名称 型号
    操作系统 Ubuntu20.04.6
    CPU Silver 4210R CPU
    GPU RTX 3080
    CUDA 11.6
    Python 3.8
    PyTorch 1.13.1

    表  2   配电线路金具及其缺陷检测数据集

    Table  2   Dataset for power distribution line fittings and their defect detection

    配电线路金具实例数量
    螺栓型耐张线夹正常487
    拉杆型耐张线夹正常2 482
    螺栓型耐张线夹锈蚀740
    拉杆型耐张线夹锈蚀1 956
    螺栓型耐张线夹保护罩缺失1 100

    表  3   目标检测模型对比实验

    Table  3   Comparative experiments of object detection models

    算法 mAP50/% mAP/% GFLOPs Params/106
    Faster R-CNN[21] 77.5 51.7 192 47.4
    Cascade R-CNN[22] 78.0 53.9 210 69.4
    YOLOv5s[23] 73.6 54.1 16.5 7.1
    YOLOv6s[24] 75.1 50.6 45.3 17.2
    YOLOv7[25] 73.2 42.8 104.7 36.5
    YOLOv8s[26] 76.3 55.3 28.6 11.1
    YOLOv9c[27] 78.7 57.4 102.8 25.5
    YOLOv10s[28] 77.9 56.7 21.6 7.2
    DETR[29] 78.5 49.2 84.1 41.6
    DAB-DETR[30] 80.3 57.3 89.9 43.7
    Deformable-DETR[31] 81.2 58.8 151.0 40.1
    Grounding DINO[32] 86.2 65.6 464.0 172.0
    基线模型[13] 78.1 56.2 172.0 32.1
    本文模型 85.8 62.5 171.4 32.6

    表  4   电力场景公开数据集对比实验

    Table  4   Comparative experiments on public datasets in power scenarios %

    算法 mAP50 mAP
    InsPLAD CPLID InsPLAD CPLID
    Cascade R-CNN 86.6 87.1 67.6 67.7
    YOLOv9c 90.7 91.2 69.1 74.9
    DETR 89.4 90.5 72.0 74.1
    DAB-DETR 92.1 94.3 73.3 79.6
    Deformable-DETR 90.5 93.5 75.5 77.4
    Grounding DINO 94.2 96.6 77.6 81.1
    基线模型 88.4 90.8 63.5 72.8
    本文模型 91.3 93.1 74.5 78.2

    表  5   前景聚合模块消融实验

    Table  5   Ablation study of the foreground aggregation module %

    方法 mAP50 mAP
    基线模型 78.1 56.2
    基线模型+前景聚合模块 80.3 59.7
    RDNet 83.4 58.9
    RDNet+前景聚合模块 85.8 62.5

    表  6   RDNet消融实验

    Table  6   Ablation study of RDNet %

    配电线路金具 基线
    模型
    +锈蚀知
    识提取
    模块
    +频率感
    知特征
    融合网络
    +自适应
    检测头
    螺栓型耐张线夹正常74.174.975.676.6
    拉杆型耐张线夹正常89.190.391.292.4
    螺栓型耐张线夹锈蚀70.596.277.678.1
    拉杆型耐张线夹锈蚀90.193.594.294.7
    螺栓型耐张线夹保护罩缺失68.469.270.872.4
    总体精度(mAP50)78.180.882.383.4
  • [1] 陶岩, 张辉, 黄志鸿, 等. 面向配电网典型部件的热故障精准判别方法[J]. 智能系统学报, 2025, 20(2): 506−515.

    TAO Yan, ZHANG Hui, HUANG Zhihong, et al. Accurate identification of thermal faults for typical components of distribution networks[J]. CAAI transactions on intelligent systems, 2025, 20(2): 506−515.
    [2] NGUYEN V N, JENSSEN R, ROVERSO D. Automatic autonomous vision-based power line inspection: a review of current status and the potential role of deep learning[J]. International journal of electrical power & energy systems, 2018, 99: 107−120.
    [3] 纪钢, 吴萍萍. 在HSV下的材料腐蚀特征区域颜色与边界量化处理[J]. 重庆理工大学学报(自然科学), 2016(1): 63−69.

    JI Gang, WU Pingping. Processing of regional color and boundary quantization about material erosion in HSV[J]. Journal of Chongqing University of Technology (natural science), 2016(1): 63−69.
    [4] HUANG Xinbo, ZHANG Xiaoling, ZHANG Ye, et al. A method of identifying rust status of dampers based on image processing[J]. IEEE transactions on instrumentation and measurement, 2020, 69(8): 5407−5417. doi: 10.1109/TIM.2019.2963732
    [5] GUO Zhimin, TIAN Yangyang, MAO Wandeng. A robust faster R-CNN model with feature enhancement for rust detection of transmission line fitting[J]. Sensors, 2022, 22(20): 7961.
    [6] 王凌云, 李婷宜, 李阳, 等. 基于FEF-DeepLabV3+的电力金具锈蚀分割方法[J]. 电子测量与仪器学报, 2023, 37(7): 166−176.

    WANG Lingyun, LI Tingyi, LI Yang, et al. Rust segmentation method for power fittings based on FEF-DeepLabV3+[J]. Journal of electronic measurement and instrumentation, 2023, 37(7): 166−176.
    [7] ZHAO Zhenbing, QI Hongyu, QI Yincheng, et al. Detection method based on automatic visual shape clustering for pin-missing defect in transmission lines[J]. IEEE transactions on instrumentation and measurement, 2020, 69(9): 6080−6091.
    [8] CHEN Xiaojiao, AN Zhenyu, HUANG Liansheng, et al. Surface defect detection of electric power equipment in substation based on improved YOLOV4 algorithm[C]//2020 10th International Conference on Power and Energy Systems. Chengdu: IEEE, 2021: 256−261.
    [9] 叶飞, 骆星智, 宋永春, 等. 基于双特征融合的改进R-CNN电力小金具缺陷检测方法研究[J]. 电子测量与仪器学报, 2023, 37(7): 213−220.

    YE Fei, LUO Xingzhi, SONG Yongchun, et al. Research on an improved R-CNN power small fitting defect detection method based on dual-feature fusion[J]. Journal of electronic measurement and instrumentation, 2023, 37(7): 213−220.
    [10] 赵振兵, 郭广学, 王艺衡, 等. 融合边缘感知与统计纹理知识的输电线路金具锈蚀检测[J]. 智能系统学报, 2024, 19(5): 1228−1237.

    ZHAO Zhenbing, GUO Guangxue, WANG Yiheng, et al. Rust detection in transmission line fittings via fusion of edge perception and statistical texture knowledge[J]. CAAI transactions on intelligent systems, 2024, 19(5): 1228−1237.
    [11] 倪有豪, 陆欢, 季超, 等. 基于语义分割的桥梁锈蚀病害识别对比分析[J]. 东南大学学报(自然科学版), 2023, 53(2): 201−209.

    NI Youhao, LU Huan, JI Chao, et al. Comparative analysis of bridge corrosion identification based on semantic segmentation[J]. Journal of Southeast University (natural science edition), 2023, 53(2): 201−209.
    [12] 赵振兵, 席悦, 冯烁, 等. 面向复杂场景的变电设备锈蚀检测方法[J]. 智能系统学报, 2025, 20(3): 679−688.

    ZHAO Zhenbing, XI Yue, FENG Shuo, et al. A corrosion detection method of substation equipment for complex scenarios[J]. CAAI transactions on intelligent systems, 2025, 20(3): 679−688.
    [13] ZHOU Xingyi, KOLTUN V, KRÄHENBÜHL P. Probabilistic two-stage detection[EB/OL]. (2021−03−12) [2025−07−30]. https://arxiv.org/abs/2103.07461.
    [14] CHENG Shen, FAN Haoqiang, HONG Mingbo, et al. You only look around: learning illumination-invariant feature for low-light object detection[EB/OL]. (2024−10−24)[2025−07−30]. https://arxiv.org/abs/2410.18398.
    [15] CHEN Linwei, FU Ying, GU Lin, et al. Frequency-aware feature fusion for dense image prediction[J]. IEEE transactions on pattern analysis and machine intelligence, 2024, 46(12): 10763−10780.
    [16] XIONG Yuwen, LI Zhiqi, CHEN Yuntao, et al. Efficient deformable ConvNets: rethinking dynamic and sparse operator for vision applications[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 5652−5661.
    [17] LIU Chenguang, GAO Guangshuai, HUANG Ziyue, et al. YOLC: you only look clusters for tiny object detection in aerial images[J]. IEEE transactions on intelligent transportation systems, 2024, 25(10): 13863−13875.
    [18] LUAN Shangzhen, CHEN Chen, ZHANG Baochang, et al. Gabor convolutional networks[J]. IEEE transactions on image processing, 2018, 27(9): 4357−4366.
    [19] SHANNON C E. Communication in the presence of noise[J]. Proceedings of the IRE, 1949, 37(1): 10−21.
    [20] CHOLLET F. Xception: deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 1800−1807.
    [21] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2016: 1440−1448.
    [22] CAI Zhaowei, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6154−6162.
    [23] JOCHER G, STOKEN A, BOROVEC J, et al. Ultralytics YOLOv5: a state-of-the-art real-time object detection system[EB/OL]. (2022−11−22) [2025−07−30]. https://github.com/ultralytics/yolov5.
    [24] LI Chuyi, LI Lulu, JIANG Hongliang, et al. YOLOv6: a single-stage object detection framework for industrial applications[EB/OL]. (2022−09−07) [2025−07−30]. https://arxiv.org/abs/2209.02976.
    [25] WANG C Y, BOCHKOVSKIY A, LIAO H M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 7464−7475.
    [26] WANG Gang, CHEN Yanfei, AN Pei, et al. UAV-YOLOv8: a small-object-detection model based on improved YOLOv8 for UAV aerial photography scenarios[J]. Sensors, 2023, 23(16): 7190.
    [27] WANG C Y, YEH I H, MARK LIAO H Y. YOLOv9: learning what you want toLearn using programmable gradient information[C]//Computer Vision–ECCV 2024. Cham: Springer, 2025: 1−21.
    [28] CHEN Hui, CHEN Kai, DING Guiguang, et al. YOLOv10: real-time end-to-end object detection[EB/OL]. (2024−05−23) [2025−07−30]. https://arxiv.org/abs/2405.14458.
    [29] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]//Computer Vision–ECCV 2020. Cham: Springer, 2020: 213−229.
    [30] LIU Shilong, LI Feng, ZHANG Hao, et al. DAB-DETR: dynamic anchor boxes are better queries for DETR[EB/OL]. (2022−01−28)[2025−07−30]. https://arxiv.org/abs/2201.12329.
    [31] ZHU Xizhou, SU Weijie, LU Lewei, et al. Deformable DETR: deformable transformers for end-to-end object detection[EB/OL]. (2020−10−08)[2025−07−30]. https://arxiv.org/abs/2010.04159.
    [32] LIU Shilong, ZENG Zhaoyang, REN Tianhe, et al. Grounding DINO: marrying DINO withGrounded pre-training forOpen-set object detection[C]//Computer Vision–ECCV 2024. Cham: Springer, 2025: 38−55.
    [33] VIEIRA E SILVA A L B, DE CASTRO FELIX H, SIMÕES F P M, et al. InsPLAD: a dataset and benchmark for power line asset inspection in UAV images[J]. International journal of remote sensing, 2023, 44(23): 7294−7320.
    [34] TAO Xian, ZHANG Dapeng, WANG Zihao, et al. Detection of power line insulator defects using aerial images analyzed with convolutional neural networks[J]. IEEE transactions on systems, man, and cybernetics: systems, 2020, 50(4): 1486−1498.
WeChat 点击查看大图
图(6)  /  表(6)
出版历程
  • 收稿日期:  2025-07-30
  • 网络出版日期:  2026-01-04

目录

    /

    返回文章
    返回