Pin-missing bolts recognition method for transmission lines based on graph knowledge reasoning
-
摘要: 针对输电线路缺销螺栓识别任务中存在的视觉不可分与样本不平衡问题,提出了基于图知识推理的输电线路缺销螺栓识别方法。首先通过知识表达模块学习到各类螺栓有判别力特征的类别表示;然后深入挖掘螺栓数据集中螺栓种类之间的相关性,提取出标签共现信息;最后将类别表示作为输入特征,以静态图和动态图的相关概率矩阵表征标签共现信息,通过知识推理模块完成图知识的传播与增强,从而实现缺销螺栓的识别。在实验阶段,将所选取的3类金具上的6种螺栓作为实验对象。对比实验结果表明,本文方法对缺销螺栓的识别效果优于其他方法,较原始模型提升了9.13%的准确率。消融实验结果表明,本文所提取的螺栓类别表示、静态图及动态图信息均能够提升缺销螺栓的识别效果。Abstract: Aiming to address the challenges of visual indistinguishability and sample imbalance in identifying missing bolts in transmission lines, we propose a method that relies on graph knowledge reasoning. First, the knowledge expression module learns class representations of various bolts with discriminative characteristics. Then, the label co-occurrence information is extracted through the analysis of correlations among bolt types in the bolt dataset. Finally, the knowledge inference module performs dissemination and enhancement of graph knowledge by taking the category representation as an input feature and using static and dynamic graphs, representing label co-occurrence information, as adjacency matrices. This leads to the identification of missing bolts. In the experimental phase, six bolt types on three selected fittings were selected as test subjects. The results show that our method outperforms other methods in identifying missing bolts, improving accuracy by 9.13% compared to the original model. The results of the ablation experiment demonstrate that the category representation, static graph, and dynamic graph information of bolts extracted in our method all contribute to improved recognition of missing bolts.
-
在“碳中和、碳达峰”的目标下,电网作为支撑各类能源转换利用和资源配置的重要平台,不仅需要完成连接电力生产和消费的工作,还在促进能源革命、推动“双碳”进程中承担着重要责任[1]。在大力推进新能源供给消纳体系建设的过程中,保障输电线路安全运行、实现高品质供电是目前迫切需要考虑的问题[2]。螺栓作为输电线路中紧固连接各种金具不可缺失的部件,极易因野外环境和受力影响产生螺栓缺陷,其中开口销作为定位、固定的连接件,一旦缺失,被紧固部件会产生松动、缺失等各种问题,进而引发安全隐患[3]。传统的输电线路巡检方式需要巡检人员近距离观察设备状态,既费时又费力[4]。利用无人机搭载摄像设备获取输电线路航拍图像逐渐成为主流巡线方式[5],以其高安全性和高效率为电力线路巡检带来了新机遇。
螺栓在航拍图像中占比很小,加上拍摄角度的限制,缺销螺栓的销孔在图像中几乎不可见,此时缺销螺栓和本身不含开口销的正常螺栓高度相似,容易被误认为正常螺栓,即螺栓之间存在视觉不可分的问题。除此之外,由于电力系统绝大多数时间处于稳定状态,航拍图像中缺销螺栓数量远远小于正常螺栓,则螺栓数据集中存在样本不平衡问题。因此,与输电线路的其他部件相比,缺销螺栓更难识别。
目前针对输电线路中螺栓缺陷的研究大多集中在螺栓为小目标的特性上,希望增强现有模型的特征表达和提取能力改进对螺栓缺陷的识别效果。文献[6]通过统计缺销螺栓目标的像素信息作为先验知识分配特征层级后,利用上采样的方式在相同分辨率下实现像素扩增,通过增加细节信息提高特征表达的有效性。文献[7]应用特征融合和增强来丰富检测网络中螺栓作为小目标的特征表示。文献[8]提出了一种基于特征融合和空间注意机制的缺销螺栓识别方法,使用双线性插值的高分辨率特征池化方法来增强小目标的表示,利用注意力机制捕捉来自不同通道的全局特征,并结合它们的权重来提高识别精度。文献[9]通过特征的重复利用来实现前向螺栓和侧向螺栓的缺销识别,同时采用数据增强的方式平衡正负样本的数量,但该方法受样本不平衡限制,影响最终的识别效果。针对样本不平衡问题,文献[10]针对螺栓缺陷数量众多但螺栓缺陷样本较少的问题,选用通道注意力机制获取关键通道特征,并使用随机翻转、平移等数据增强方法扩展螺栓缺陷数据集。文献[11]针对螺栓缺销和螺母松动类样本较少的情况,通过人工实时模拟缺陷状态获得样本缓解类别失衡,提出基于RetinaNet的输电线路螺栓缺销与松动的智能识别方法,通过实验取得了较好的识别效果,但针对螺栓缺销识别任务中存在的视觉不可分问题缺少分析。针对螺栓存在的垫片缺失、销子松动等视觉不可分问题,文献[12]将多属性螺栓缺陷分类任务转化为多个单标签分类任务,利用可变形卷积和注意力机制提高特征提取能力并实现局部特征的高效利用。上述工作主要依赖于螺栓表面视觉特征对模型的特征表达和提取能力进行改进,对缺销识别任务中,缺销螺栓与不含销正常螺栓因高度相似产生的视觉不可分问题并不适用。同时,由于螺栓数据集存在缺销螺栓数量远远小于正常螺栓的样本不平衡问题,仅依赖单一的深度学习模型难以实现对缺销螺栓的准确识别。
为解决缺销螺栓识别任务中存在的视觉不可分与样本不平衡问题,本文将深度学习与电力领域业务知识进行有机融合。首先利用残差网络(residual network, Resnet)[13]作为主干网络提取视觉特征,然后通过知识表达模块提取出有判别力特征的类别表示。之后通过深入研究输电线路螺栓安装规则,总结出缺销螺栓的信息作为指导知识,使类别表示在知识推理模块中完成不同螺栓之间关系的学习,从而提高了模型识别缺销螺栓的准确性。
1. 研究背景
在输电线路中螺栓与金具的组合具有一定的规则性[14],有经验的巡检人员可以不受遮挡和小目标的影响,利用输电线路的螺栓安装具有规则化的特点,准确识别缺销螺栓,即工作人员不仅依靠每个螺栓的外观特征,还利用螺栓安装规则辅助识别。如提包式悬垂线夹上,空间朝向为竖直方向的螺栓为不含销螺栓,空间朝向为水平方向的为含销螺栓;联板作为承受机械载荷的连接金具,其螺栓的空间朝向为水平方向且均为含销螺栓;作为防止舞动及降低舞动幅度的重锤,螺栓安装需与重锤片垂直,螺栓空间朝向为水平方向,且均为含销螺栓。如图1所示,本文选择提包式悬垂线夹、联板、重锤作为背景金具,其中图1分别给出了上述金具中正常螺栓的示例。
在航拍图像中,螺栓根据其空间朝向分为竖直螺栓和水平螺栓。在缺销螺栓识别任务中,螺栓根据表面特征分为含销螺栓和不含销螺栓两类。利用金具、螺栓空间朝向与螺栓种类之间的潜在关系,总结出缺销螺栓的信息,作为知识推理的指导知识。如图2所示,在所选金具范围内,含销螺栓为正常螺栓,不含销螺栓依据空间朝向分为两类,其中竖直螺栓为正常螺栓,水平螺栓为缺销螺栓。
本文将缺销螺栓作为研究对象,首先通过知识表达挖掘螺栓的类别表示,然后通过有效利用标签之间的共现信息学习螺栓类别之间的关系,最后经图卷积网络实现信息的更新,从而解决缺销螺栓识别任务中存在的视觉不可分与样本不平衡问题。
2. 相关工作
2.1 知识表达
对于有特定任务的深度学习模型,考虑如何针对拟解决的问题选取具体的知识进行实例化表达是该类研究的重点。文献[15]考虑到图像中标签的生成顺序可能会因图像而改变,提出将预测的标签序列作为先验知识实现动态排序候选框标签的方法。文献[16]在行人多属性识别任务中,各属性之间关系构建的核心是利用每个属性协助其他属性的表达。文献[17]提出一种深度语义词典学习模型,将标签类别从类级语义生成语义词典,然后利用该语义词典对卷积神经网络提取的带有标签向量的特征进行表示。文献[18]针对数据集中部分对象的视觉细节特征有限的问题,提出将标签的语义信息和拓扑结构进行表达后集成到视觉表示中,从而增强图像识别的学习能力。文献[19]将目标的初始区域特征作为语义知识,位置和形状信息作为空间知识进行表达,建模语义关系和空间布局关系实现小目标检测的精度提升。针对缺销螺栓识别任务中的视觉不可分问题,如何提取不同种类螺栓有判别力的特征表示是本研究面临的挑战。
2.2 知识推理
在计算机视觉领域,出现了一些方法尝试将目标间关系信息应用到识别任务中,文献[20]提出基于图卷积的多标签识别模型探索并利用标签依赖关系来提高识别性能。文献[21]提出类似于人类感知对象方式的双流框架,利用多注意力区域模块从全局到局部识别多类对象。文献[22]提出使用结构关系图从对象上下文中捕获长期相关性,使用语义关系图动态建模图像对象的语义信息,通过两个有效关系图之间的协作学习提高识别准确率。文献[23]通过构建动态图网络捕获类别的语义内容感知关系。文献[24]在考虑对象视觉特征的基础上,将场景上下文信息和单个图像中的对象关系加以利用,从而将目标检测问题表述为图结构推理问题。在输电线路领域,文献[25]提出了结合图学习方法将金具结构化组合规则应用到目标检测模型,从而提高模型检测的准确性。考虑到图卷积网络[26]表征与传递信息表现出的明显优势,本文采用图卷积网络学习不同种类螺栓之间的关系实现缺销螺栓的识别。
3. 研究方法
本文的方法框架如图3所示,所提出的基于图知识推理的缺销螺栓识别方法主要分为3个步骤:首先将螺栓图像作为输入,从卷积神经网络提取的特征图中得到特征表示,该特征图中含有丰富的类别特征信息;然后将这些特征信息通过知识表达模块得到每类螺栓对应的类别表示;之后分别从螺栓数据集与螺栓图像中提取共现信息,引入到知识推理模块中,将螺栓的类别表示作为节点,相关概率矩阵为边,通过图卷积网络实现标签依赖关系的传播,得到标签预测结果。
3.1 知识表达模块
针对同一螺栓,不同属性关注的特征不同。具体来说,针对不含销螺栓,其作为水平螺栓时对螺栓的整体空间朝向的特征相关度更高,作为缺销螺栓则与开口销缺失产生的销孔位置的特征相关度更高。由于缺销螺栓与不含销正常螺栓类间差异小,仅依赖图像的特征识别缺销螺栓比较困难,通过知识表达可以在利用图像视觉特征的同时考虑螺栓的朝向特征,从而挖掘到有判别力的螺栓类别的信息,因此有效的知识表达可以解决缺销识别任务中视觉不可分问题。
TKRL模型[27]基于物体类别信息进行知识表达学习,但该模型依赖于具有层次结构的类别信息,而这种层次结构并不适用于非欧几里德结构的数据。知识表达模块将输入特征图中的特征信息与相应的类别进行融合,通过有选择性地聚合相关度高的特征进行表达,从而得到C类螺栓对应的更具表征能力的类别表示。
如图3所示,首先将一幅给定的螺栓图像x作为输入,通过Resnet-101网络得到包含类别特征信息的特征图,
${\boldsymbol{X}} \in {{\bf R}^{H \times W \times D}}$ ,其中H、W和D表示特征高度、宽度和维度。特征图X首先通过${\boldsymbol{M}} = \delta (C_{\text{1D}}({\boldsymbol{X}}))$ 得到类映射$M{=}[{m_1,m_2,}\cdots,{m_C}]\in {\bf{R}}^{H\times W\times C}$ ,其中$C_{\text{1D}}( \cdot )$ 表示将一维卷积运算作为分类器对特征进行分类,$ \delta ( \cdot ) $ 表示sigmoid映射函数,C为标签类别数。同时,将主干网络提取到的特征图采用卷积核为1×1的卷积层进行通道下采样操作降低通道尺度,得到特征张量${{\boldsymbol{X}}'} \in {{\bf R}^{H \times W \times D}}'$ 。如式(1)所示,将类映射
$ {\boldsymbol{M}} $ 与特征$ {{\boldsymbol{X}}'} $ 通过按位相乘进行融合得到各个类别表示xc,则xc能够选择性地聚合与其对应类别c相关度高的特征。$$ {\boldsymbol{x}}_c = {\boldsymbol{m}}_{{c}}^{\text{T}}{\boldsymbol{X}}'= \sum\limits_{i = 1}^H {\sum\limits_{j = 1}^W {{\boldsymbol{m}}_{{{i,j}}}^{{c}}} } {\boldsymbol{X}}_{i,j}' $$ (1) 式中:
$ {\boldsymbol{m}}_{i,j}^c $ 和${\boldsymbol{X}}_{i,j}' \in {{\bf R}^D}'$ 分别是第c个类映射的权重和特征张量在(i, j)处的特征向量。通过得到类别表示${{\boldsymbol{X}}}^{l}=[{\boldsymbol{x}}_{1}\;{\boldsymbol{x}}_{2}\; \cdots\;{\boldsymbol{x}}_{C}]\in {\bf{R}}^{{C\times D}'}$ ,使知识表达模块学习到更有判别力的特征,作为知识推理中知识获取和应用的基础,由此可提高知识推理模块的认知与推理能力。3.2 知识推理模块
为了学习螺栓类别间的相关性,通过图卷积网络探索标签依赖关系。其中,图知识推理模块利用静态图学习类别关系之间的一般性规律,鲁棒性增强模块利用动态图学习具体输入图像中螺栓类别之间的相关程度,通过静态图与动态图相结合实现螺栓类别之间的信息的传递。
3.2.1 图知识推理模块
构建静态图的相关概率矩阵。具体操作如下:首先通过统计训练集所有图像中螺栓标签共现次数,得到对称的标签共现矩阵
${\boldsymbol{A}} \in {{\bf{R}}^{C \times C}}$ ,${ A}_{ij}$ 表示标签hi和标签hj在同一图像的共现次数。然后利用该共现矩阵归一化得到的标签之间的相关概率矩阵${{\tilde {\boldsymbol{A}}}} \in {{\bf R}^{C \times C}}$ ,计算公式为$$ P_{ij}= \frac{{P({h_i},{h_j})}}{{P({h_i})}} = \frac{{A_{ij}/{A_{{\rm{all}}}}}}{{A_i/{A_{{\rm{all}}}}}} = \frac{{A_{ij}}}{{A_i}} $$ (2) 式中:条件概率
$P_{ij} = P(h_j|h_i)$ 表示类别标签hi出现的前提下标签hj的出现概率;$A_i$ 表示标签hi出现的次数;${A_{{\rm{all}}}}$ 表示全部图片的数量。使用图卷积网络利用静态图通过各节点之间信息的相互传递更新并增强节点的特征信息表示,从而对图中标签共现信息进行建模。具体实现流程如图3所示,首先以
${{\boldsymbol{X}}^l} \in {{\bf R}^{C \times D}}'$ 为节点,作为图知识推理模块的输入特征,相关概率矩阵为边,作为各节点之间的关系表征。利用相关概率矩阵${{\tilde {\boldsymbol{A}}}} \in {{\bf R}^{C \times C}}$ 和权重更新矩阵${{\boldsymbol{W}}^l} \in {{\bf R}^{D \times D_1}}$ 来更新$ {{\boldsymbol{X}}^l} $ 的值。在训练过程中,相关概率矩阵$ {{\tilde {\boldsymbol{A}}}} $ 首先将共现信息传播到所有节点,然后节点接收信息经过线性变换后更新自身状态得到${{\boldsymbol{X}}^{l + 1}} \in {{\bf R}^{C \times D_1}}$ 。$$ {{\boldsymbol{X}}^{l + 1}} = f\left( {{{\tilde {\boldsymbol{A}}}}{{\boldsymbol{X}}^l}{{\boldsymbol{W}}^l}} \right) $$ (3) 式中:
$ {{\tilde {\boldsymbol{A}}}} $ 为所有图像共享则能够捕获全局标签依赖关系;$ {{\boldsymbol{W}}^l} $ 为训练过程中通过梯度下降法自学习到的权重矩阵;$ f( \cdot ) $ 表示LeakyReLU激活函数。3.2.2 鲁棒性增强模块
考虑到图知识推理模块使用静态图建模螺栓数据集中统一的标签共现关系,会由于样本不平衡问题,使图像中螺栓会出现低概率的共现标签。例如,“不含销螺栓”总是与“正常螺栓”一起出现,与“缺销螺栓”一起出现的概率较低。这时仅依赖计算训练数据的标签共现来构造图会降低方法的实用性,受Ye等[23]的方法启发,本文尝试构建鲁棒性增强模块将动态图引入图像级图网络,通过自适应地捕获标签之间的关联性,降低图知识推理的过拟合概率。与图知识推理模块相似,构建鲁棒性增强模块的关键是构造动态相关概率矩阵
$ {{\boldsymbol{A}}^d} $ 。具体操作如下:将图知识推理的输出特征
$ {{\boldsymbol{X}}^{l + 1}} $ 通过全局平均池化获得的特征向量$ {{\boldsymbol{X}}_{{\text{pool}}}} $ ,通过卷积运算将$ {{\boldsymbol{X}}_{{\text{pool}}}} $ 扁平化得到$ {{\boldsymbol{x}}_t} $ 作为$ {{\boldsymbol{X}}^{l + 1}} $ 的全局表示。$$ {\boldsymbol{x}}_{{t}} = F(C_{\text{1D}}(P({{\boldsymbol{X}}^{l + 1}}))),\;\;{{\boldsymbol{x}}_t} \in {{\bf R}^{D_1}} $$ (4) 式中:
$ P( \cdot ) $ 表示平均池化;$C_{\text{1D}}( \cdot )$ 表示一维卷积运算;$ F( \cdot ) $ 表示归一化、LeakyReLU激活函数和张量扁平化的组合。将
$ {{\text{X}}^{l + 1}} $ 与${\boldsymbol{x}}_t$ 依次拼接得到${{\boldsymbol{X}}^I} \in {{\bf R}^{2D_1 \times C}}$ ,即${{\boldsymbol{X}}^I} = \left[{\boldsymbol{x}}_{{1}}\left|{\boldsymbol{x}}_{{t}}\;{\boldsymbol{x}}_{{2}}\right|{\boldsymbol{x}}_{{t}}\;\cdots\;{\boldsymbol{x}}_{{c}}\left|{\boldsymbol{x}}_{{t}}\right.\right]$ 。将$ {{\boldsymbol{X}}^I} $ 作为输入特征,通过卷积运算得到相关概率矩阵$ {{\boldsymbol{A}}^d} $ :$$ {{\boldsymbol{A}}^d} = \delta (C_{\text{1D}}({{\boldsymbol{X}}^I})),{{\boldsymbol{A}}^d} \in {{\bf R}^{C \times C}} $$ (5) 其中
$ \delta ( \cdot ) $ 表示Sigmoid激活函数。以
$ {{\boldsymbol{X}}^{l + 1}} $ 为节点,作为图卷积运算的输入特征,相关矩阵$ {{\boldsymbol{A}}^d} $ 为边,由式(6)计算得到获得最终的特征类别表示${\boldsymbol{Z}} = [y_1\;y_2\; \cdots \;y_C]$ 。$$ {\boldsymbol{Z}}= f\left( {{{\boldsymbol{A}}^d}{{\boldsymbol{X}}^{l + 1}}{{\boldsymbol{W}}^d}} \right) $$ (6) 式中:
$ f( \cdot ) $ 表示LeakyRELU激活函数;$ {{\boldsymbol{W}}^d} $ 表示状态更新权重。总体而言,知识推理模块通过基于数据集图网络和图像级图网络实现了从
$ {{\boldsymbol{X}}^l} $ 到Z类别表示的增强,每个向量$ {\boldsymbol{x}}_c' $ 与第c类标签相对应并且包含与其他标签的关系信息。3.3 整体识别框架
缺销螺栓识别任务的目标是通过预测输入螺栓图像x中的螺栓标签y来判断缺销螺栓对应的类别标签是否存在。将
${\boldsymbol{X}} = \{ (x_i,y_i)\} _{i = 1}^N$ 作为输入数据,$(x_i,y_i)$ 表示第i张螺栓图像$x_i$ 以及它所对应的螺栓类别标签$y_i$ ,N为图像数量。将知识推理模块的输出${\boldsymbol{Z}}= [y_1\;y_2\; \cdots\;y_C]$ ,作为最终识别结果,C为螺栓对应类别数,若$y_c = 1$ ,表示图像中存在该类螺栓,$y_c = 0$ 则不存在。将知识表达模块的类映射M经过全局平均池化得到置信分数向量
${\boldsymbol{S}}_1 = [s_1^1\;s_1^2\; \cdots \;s_1^C]$ 。将知识推理模块得到的各个标签的输出$ {\boldsymbol{x}}_c' $ 经过分类器得到第c类标签的预测值${{s}}_2^{\text{c}} = C_{\text{1D}}({\boldsymbol{x}}_c')$ ,然后将预测值组成置信分数向量${\boldsymbol{S}}_2{{ = [}}s_2^1\;s_2^2\;\cdots \;s_2^C]$ 。将两个置信分数分别乘以相关系数,通过加权求和聚合两个得分向量,作为最终的标签预测分数${\boldsymbol{S}} = [{s^1}\;{s^2}\; \cdots \;{s^C}]$ :$$ {\boldsymbol{S}} = \lambda {\boldsymbol{S}}_1 + (1 - \lambda ){\boldsymbol{S}}_2 $$ (7) 式中:
$\lambda \in (0,1]$ 是用于平衡${\boldsymbol{S}}_1$ 和${\boldsymbol{S}}_2$ 之间重要性的权重。本文中,权重$\lambda $ 根据经验设置为0.5。损失函数使用均方损失函数训练整个网络,如式(8)所示。
$$ {\boldsymbol{L}} = \frac{1}{C}\sum\limits_{c = 1}^C {||{s^c} - {y^c}|{|^2}} $$ (8) 式中:
$ {s^c} $ 为第c类标签的预测值;$ {y^c} $ 为第c类标签真实值;C为螺栓标签的总类别数。4. 实验结果及分析
本文的研究内容为输电线路上的缺销螺栓识别,由于现有的螺栓缺陷识别方法与数据集均不公开,因此参考PASCAL VOC2007[28]的数据集构建方法,构建螺栓数据集。本文的螺栓目标为金具上的螺栓,不考虑金具外的螺栓,在标注螺栓数据集时,将螺栓分为含销螺栓(350个样本)、不含销螺栓(1152个样本)、竖直螺栓(1050个样本)、水平螺栓(452个样本)、正常螺栓(1401个样本)、缺销螺栓(102个样本),共6类螺栓。最终的螺栓数据集共4507个样本,其中3605张图像作为训练集、450张图像作为验证集,452张图像作为测试集。
本实验基于Pytorch框架实现,并使用GTX1080ti GPU对本文所提框架进行训练与测试。本文使用Resnet-101为主干网络进行特征提取,将输入图像随机裁剪,调整图像尺寸为448像素×448像素,并采用随机水平翻转实现数据增强避免过拟合。模型训练初始学习率设置为0.5,骨干卷积网络设置为0.05,且在30和40个周期时,学习率分别降低为之前的1/20,权重衰减为10−4,使用动量为0.9的梯度下降法进行优化。
$ {{\boldsymbol{X}}^l} $ 的维度为1024,非线性激活函数LeakyReLU斜率为−0.2。在测试阶段,将输入图像的大小调整为512像素×512像素来进行评估。为了说明知识推理模块学到的知识,图4展示了螺栓数据集测试集中的一幅螺栓图像与其静、动态相关概率矩阵
$\tilde {\boldsymbol{A }}$ 、$ {{\boldsymbol{A}}^d} $ 的可视化结果。图4(b)为标签共现的一般规律;图4(c)为针对图4(a)中的螺栓图像中出现的类别之间的相关程度,可以看出“水平螺栓”“不含销螺栓”在“缺陷螺栓”这一列中排名最靠前。这表明“水平螺栓”和“不含销螺栓”与“缺陷螺栓”更相关,类似的结果也可以在“不含销螺栓”与“缺陷螺栓”这两行中找到,符合缺销螺栓的指导知识。且图4(a)中没有开口销,图4(c)中“含销螺栓”所对应行和列均概率极低。由此证明,知识推理模块可以捕捉学习到输入图像的语义知识。4.1 消融实验
为了验证图知识推理方法中单个模块的贡献,分别在主干网络Resnet-101上对知识表达和知识推理模块进行部分调整后进行消融实验。在评估知识表达模块时,通过移除知识推理模块并将知识表达的输出向量
$ {{\boldsymbol{X}}^l} $ 输入到二进制分类器实现知识表达模块有效性的评估;在评估鲁棒性增强模块有效性时,简单地去掉了该模块;在知识推理模块有效性时,将知识表达模块替换为卷积层和激活层进行预处理。如表1所示,采用多标签识别的性能主要主要指标评估:每个类别上采用平均精度(AP)和所有类别平均精度的均值(mAP)。方法 含销螺栓 不含销螺栓 竖直螺栓 水平螺栓 正常螺栓 缺销螺栓 mAP 基线 90.94 93.68 94.77 92.64 94.81 76.49 90.56 基线+知识表达 92.50 94.72 94.88 93.03 94.92 83.04 92.18 基线+知识推理 92.04 94.69 94.80 92.77 94.93 83.01 92.04 基线+知识表达+图知识推理 91.87 94.15 94.86 93.07 94.88 81.20 91.67 本文方法 92.76 94.69 94.95 94.14 94.97 85.62 92.86 从表1可以得出以下结论:
1)与基线相比,加入知识表达模块、知识推理模块、加入知识表达与图知识推理模块或知识表达模块与知识推理模块结合都可以有效学习不同种类螺栓之间的关系表示。
2)引入鲁棒性增强模块之前,将知识表达模块与图知识推理模块加入基线模型,平均准确率反而低于不加入图知识推理模块,说明加入动态图更有助于学习类别关系表示。
3)单一的进行知识表达或知识推理的平均准确率均低于本文方法,说明单独使用任一模块学习类别关系是不够充分的,联合使用更有效,说明了本文方法的有效性。
为了进一步说明知识表达模块和知识推理模块的贡献,采用总体精度(OP)、总体召回率(OR)、总体F1值(OF1)和每类精度(CP)、每类召回率(CR)、每类F1值(CF1)作进一步比较,其定义如下所示:
$$ \begin{gathered} {\rm{OP }}=\dfrac{{\displaystyle\sum_i {N_i^c} }}{{\displaystyle\sum_i {N_i^p} }}{\rm{, CP }}= \dfrac{1}{C}\displaystyle\sum_i {\dfrac{{N_i^c}}{{N_i^p}}} \\ {\rm{OR }}=\dfrac{{\displaystyle\sum_i {N_i^c} }}{{\displaystyle\sum_i {N_i^g} }}{\rm{, CR }}=\dfrac{1}{C}\displaystyle\sum_i {\dfrac{{N_i^c}}{{N_i^g}}} \\ {\rm{OF}}_1 = \dfrac{{{{2}} \times {\rm{OP}} \times {\rm{OR}}}}{{{\rm{OP + OR}}}}{\rm{, CF}}_1{{ = }}\dfrac{{{{2}} \times {\rm{CP}} \times {\rm{CR}}}}{{{\rm{CP + CR}}}} \end{gathered} $$ (9) 式中:
$ N_i^c $ 是对第i类标签正确预测的图像数量;$ N_i^p $ 是对第i类标签进行预测的图像数量;$ N_i^g $ 是第i类标签的真实图像数量。当一个标签的估计概率大于0.5时,被预测为正,表2中展示了评估结果,其中All表示mAP取得最优结果时式(9)中各类指标的评估值。此外,如表2中Top3所示,采用另一种方式计算上述指标,即每个图像分配具有前3名最高分的标签,但是这些标签可能会受到阈值影响。因为OF1和CF1比OP、OR、CP和CR更稳定,则mAP、OF1和CF1作为最重要的评估指标,提供更全面的比较结果。方法 mAP All Top3 OP OR OF1 CP CR CF1 OP OR OF1 CP CR CF1 基线 90.56 90.7 91.6 91.1 85.9 84.5 85.2 91.6 90.6 91.1 86.9 82.1 84.4 基线+知识表达 92.18 92.6 92.4 92.5 90.6 89.3 89.9 92.8 93.2 93.0 90.8 89.3 90.0 基线+知识推理 92.04 92.2 92.0 92.1 90.8 88.8 89.8 92.4 92.0 92.2 91.0 88.8 89.9 基线+知识表达+图知识推理 91.67 91.4 91.2 91.3 87.5 85.2 86.3 91.4 91.0 91.2 87.0 83.8 85.4 本文方法 92.86 92.8 93.2 93.0 91.9 91.3 91.6 93.2 93.0 93.1 92.4 91.1 91.7 如表2所示,知识表达模块、知识推理模块及鲁棒性增强模块都大幅度改善了基线。与直接提取特征的Resnet-101网络相比,结果表明,知识表达模块从特征图提取到的类别表示更具有判别力,知识推理模块能够使结果的判别能力进一步增强。
4.2 对比实验
为了验证本文所提方法的优越性,在螺栓数据集与当前先进的图表示学习识别网络对比,表3为本文方法与其他方法在螺栓数据集上的精确率比较结果。从表中可以看出,在缺销螺栓识别任务中本文方法明显优于其他图表示识别方法。除此之外,在螺栓数据集的其余5类标签的精确率中,本文方法同样具有显著优势。这是由于本文方法不仅学习到了更有效的特征,还更加充分地利用了螺栓类别之间的关系,进一步证明本文所提方法的有效性。
5. 结束语
为了实现输电线路上螺栓缺陷识别,本文提出了基于图知识推理的缺销螺栓识别方法。针对视觉不可分问题,首先提出知识表达模块将卷积神经网络提取的特征与螺栓的类别表示进行融合,从而使每类螺栓得到相应的更有判别力的特征。然后通过螺栓类别之间静态和动态的相关概率矩阵分别表征螺栓数据集和螺栓图像中标签之间的关系,采用图卷积网络学习螺栓类别之间的知识,在解决视觉不可分问题的同时降低对数据集的样本依赖,从而解决样本不平衡问题。
下一步工作将继续挖掘螺栓缺陷与其所处场景之间潜在的关系,同时考虑将位置关系与语义知识引入模型作为未来的研究方向。
-
表 1 消融实验结果
Table 1 Ablation test results
% 方法 含销螺栓 不含销螺栓 竖直螺栓 水平螺栓 正常螺栓 缺销螺栓 mAP 基线 90.94 93.68 94.77 92.64 94.81 76.49 90.56 基线+知识表达 92.50 94.72 94.88 93.03 94.92 83.04 92.18 基线+知识推理 92.04 94.69 94.80 92.77 94.93 83.01 92.04 基线+知识表达+图知识推理 91.87 94.15 94.86 93.07 94.88 81.20 91.67 本文方法 92.76 94.69 94.95 94.14 94.97 85.62 92.86 表 2 消融实验其他指标
Table 2 Other indicators of ablation experiments
% 方法 mAP All Top3 OP OR OF1 CP CR CF1 OP OR OF1 CP CR CF1 基线 90.56 90.7 91.6 91.1 85.9 84.5 85.2 91.6 90.6 91.1 86.9 82.1 84.4 基线+知识表达 92.18 92.6 92.4 92.5 90.6 89.3 89.9 92.8 93.2 93.0 90.8 89.3 90.0 基线+知识推理 92.04 92.2 92.0 92.1 90.8 88.8 89.8 92.4 92.0 92.2 91.0 88.8 89.9 基线+知识表达+图知识推理 91.67 91.4 91.2 91.3 87.5 85.2 86.3 91.4 91.0 91.2 87.0 83.8 85.4 本文方法 92.86 92.8 93.2 93.0 91.9 91.3 91.6 93.2 93.0 93.1 92.4 91.1 91.7 表 3 与先进识别算法性能对比
Table 3 Performance comparison with advanced identification algorithms
% -
[1] 周远翔, 陈健宁, 张灵, 等. “双碳”与“新基建”背景下特高压输电技术的发展机遇[J]. 高电压技术, 2021, 47(7): 2396–2408. doi: 10.13336/j.1003-6520.hve.20210203 ZHOU Yuanxiang, CHEN Jianning, ZHANG Ling, et al. Opportunity for developing ultra high voltage transmission technology under the emission peak, carbon neutrality and new infrastructure[J]. High voltage engineering, 2021, 47(7): 2396–2408. doi: 10.13336/j.1003-6520.hve.20210203 [2] 肖先勇, 郑子萱. “双碳”目标下新能源为主体的新型电力系统: 贡献、关键技术与挑战[J]. 工程科学与技术, 2022, 54(1): 47–59. XIAO Xianyong, ZHENG Zixuan. New power systems dominated by renewable energy towards the goal of emission peak & carbon neutrality: contribution, key techniques, and challenges[J]. Advanced engineering sciences, 2022, 54(1): 47–59. [3] YAN Guangjian, LI Chaoyang, ZHOU Guoqing, et al. Automatic extraction of power lines from aerial images[J]. IEEE geoscience and remote sensing letters, 2007, 4(3): 387–391. doi: 10.1109/LGRS.2007.895714 [4] 傅博, 姜勇, 王洪光, 等. 输电线路巡检图像智能诊断系统[J]. 智能系统学报, 2016, 11(1): 70–77. doi: 10.11992/tis.201503043 FU Bo, JIANG Yong, WANG Hongguang, et al. Intelligent diagnosis system for patrol check images of power transmission lines[J]. CAAI transactions on intelligent systems, 2016, 11(1): 70–77. doi: 10.11992/tis.201503043 [5] MAO Tianqi, HUANG Kai, ZENG Xianwu, et al. Development of power transmission line defects diagnosis system for UAV inspection based on binocular depth imaging technology[C]//2019 2nd International Conference on Electrical Materials and Power Equipment. Guangzhou: IEEE, 2019: 478−481. [6] 赵振兵, 张帅, 蒋炜, 等. 基于DBSCAN-FPN的输电线路螺栓缺销检测方法[J]. 中国电力, 2021, 54(3): 45–54. ZHAO Zhenbing, ZHANG Shuai, JIANG Wei, et al. Detection method for bolts with mission pins on transmission lines based on DBSCAN-FPN[J]. Electric power, 2021, 54(3): 45–54. [7] ZHAO Zhenbing, QI Hongyu, QI Yincheng, et al. Detection method based on automatic visual shape clustering for pin-missing defect in transmission lines[J]. IEEE transactions on instrumentation and measurement, 2020, 69(9): 6080–6091. doi: 10.1109/TIM.2020.2969057 [8] HE Hui, LI Yuchen, YANG Jing, et al. Pin-missing defect recognition based on feature fusion and spatial attention mechanism[J]. Energy reports, 2022, 8: 656–663. [9] WANG Hongchao, SHAO Yunfeng, ZOU Suli, et al. Detection of cotter pins missing of connection fittings on transmission lines of power system[C]//2021 40th Chinese Control Conference. Shanghai: IEEE, 2021: 6873−6879. [10] LIN Z, LIANG Y, JIANG Q. A bolt defect recognition algorithm based on attention model[C]// Proceedings of the 7th International Conference on Fuzzy Systems and Data Mining. Seoul: IEEE, 2021: 86−93. [11] 王凯, 王健, 刘刚, 等. 基于辅助数据RetinaNet算法的销钉缺陷智能识别[J]. 广东电力, 2019, 32(9): 41–48. doi: 10.3969/j.issn.1007-290X.2019.009.005 WANG Kai, WANG Jian, LIU Gang, et al. RetinaNet algorithm based on auxiliary data for intelligent identification on pin defects[J]. Guangdong electric power, 2019, 32(9): 41–48. doi: 10.3969/j.issn.1007-290X.2019.009.005 [12] 张珂, 何颖宣, 赵凯, 等. 可变形NTS-Net的螺栓属性多标签分类[J]. 中国图象图形学报, 2021, 26(11): 2582–2593. ZHANG Ke, HE Yingxuan, ZHAO Kai, et al. Multi-label classification method of bolt attributes based on deformable NTS-Net[J]. Journal of image and graphics, 2021, 26(11): 2582–2593. [13] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770−778. [14] 赵强主编. 白俊峰, 陈建华编写. 输电线路金具理论与应用[M]. 北京: 中国电力出版社, 2013. [15] OGUZ YAZICI V, GONZALEZ-GARCIA A, RAMISA A, et al. Orderless recurrent models for multi-label classification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 13437−13446. [16] LI Dangwei, CHEN Xiaotang, HUANG Kaiqi. Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios[C]//2015 3rd IAPR Asian Conference on Pattern Recognition. Kuala Lumpur: IEEE, 2015: 111−115. [17] ZHOU Fengtao, HUANG Sheng, XING Yun. Deep semantic dictionary learning for multi-label image classification[J]. Proceedings of the 35th AAAI Conference on Artificial Intelligence, 2021, 35(4): 3572–3580. doi: 10.1609/aaai.v35i4.16472 [18] NGUYEN H D, VU X S, LE D T. Modular graph transformer networks for multi-label image classification[J]. Proceedings of the AAAI conference on artificial intelligence, 2021, 35(10): 9092–9100. doi: 10.1609/aaai.v35i10.17098 [19] Fu K, Li J, Ma L, et al. Intrinsic relationship reasoning for small object detection[EB/OL]. (2020−09−02)[2022−05−11].https://arxiv.org/abs/2009.00833. [20] CHEN Zhaomin, WEI Xiushen, WANG Peng, et al. Multi-label image recognition with graph convolutional networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 5172−5181. [21] GAO Binbin, ZHOU Hongyu. Learning to discover multi-class attentional regions for multi-label image recognition[J]. IEEE transactions on image processing:a publication of the IEEE Signal Processing Society, 2021, 30: 5920–5932. doi: 10.1109/TIP.2021.3088605 [22] ZHAO Jiawei, YAN Ke, ZHAO Yifan, et al. Transformer-based dual relation graph for multi-label image recognition[C]//2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 163−172. [23] YE Jin, HE Junjun, PENG Xiaojiang, et al. Attention-driven dynamic graph convolutional network for multi-label image recognition[C]//Computer Vision-ECCV 2020. Cham: Springer International Publishing, 2020: 649−665. [24] LIU Yong, WANG Ruiping, SHAN Shiguang, et al. Structure inference net: object detection using scene-level context and instance-level relationships[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 6985−6994. [25] 翟永杰, 杨旭, 赵振兵, 等. 融合共现推理的Faster R-CNN输电线路金具检测[J]. 智能系统学报, 2021, 16(2): 237–246. doi: 10.11992/tis.202012023 ZHAI Yongjie, YANG Xu, ZHAO Zhenbing, et al. Integrating co-occurrence reasoning for Faster R-CNN transmission line fitting detection[J]. CAAI transactions on intelligent systems, 2021, 16(2): 237–246. doi: 10.11992/tis.202012023 [26] KIPF T N, Welling M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2017−02−22)[2022−05−11].https://arxiv.org/abs/1609.02907. [27] XIE R, LIU Z, SUN M. Representation learning of knowledge graphs with hierarchical types[C]// Proceedings of the 25th International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2016: 2965−2971. [28] EVERINGHAM M, GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (VOC) challenge[J]. International journal of computer vision, 2010, 88(2): 303–338. doi: 10.1007/s11263-009-0275-4