一种基于CNN的航拍输电线路图像分类方法

引用本文

张秋雁, 杨忠, 姜遇红, 等. 一种基于CNN的航拍输电线路图像分类方法[J]. 应用科技, 2019, 46(6): 41-45. DOI: 10.11991/yykj.201904008.

ZHANG Qiuyan, YANG Zhong, JIANG Yuhong, et al. CNN-based aerial image classification method for aerial transmission lines[J]. Applied Science and Technology, 2019, 46(6): 41-45. DOI: 10.11991/yykj.201904008.

基金项目

中国南方电网有限责任公司科技项目（066600KK52170074）；国家自然科学基金面上项目（61473144）；航空科学基金项目（20162852031）；江苏高校优势学科建设工程资助项目

通信作者

杨忠，E-mail：YangZhong@nuaa.edu.cn

作者简介

张秋雁，男，高级工程师;
杨忠，男，教授，博士生导师

文章历史

收稿日期：2019-04-10
网络出版日期：2019-06-26

Contents Abstract Full text Figures/Tables PDF

一种基于CNN的航拍输电线路图像分类方法

张秋雁¹, 杨忠², 姜遇红³, 李弘宸², 韩家明², 陈科羽¹

1. 贵州电网有限责任公司，贵州贵阳 550000;
2. 南京航空航天大学自动化学院，江苏南京 211106;
3. 南京航空航天大学无人机研究院，江苏南京 210016

收稿日期：2019-04-10；网络出版日期：2019-06-26

基金项目：中国南方电网有限责任公司科技项目（066600KK52170074）；国家自然科学基金面上项目（61473144）；航空科学基金项目（20162852031）；江苏高校优势学科建设工程资助项目

作者简介：张秋雁，男，高级工程师;
杨忠，男，教授，博士生导师.

通信作者：杨忠，E-mail：YangZhong@nuaa.edu.cn.

摘要：输电线路场景的复杂程度较高，经典卷积神经网络对输电线路场景数据集的分类效果较差。为了解决这一问题，利用卷积神经网络的优势，提出了一种基于VGG−19的优化网络结构，并将此优化网络应用在输电线路场景数据集的分类中，优化网络的分类准确度为95.1%。实验结果表明本文提出的优化网络相较于经典的卷积神经网络有更好的分类效果。

关键词：输电线路绝缘子图像分类卷积神经网络全连接网络 VGG−19 AlexNet 批归一化

CNN-based aerial image classification method for aerial transmission lines

ZHANG Qiuyan¹, YANG Zhong², JIANG Yuhong³, LI Hongchen², HAN Jiaming², CHEN Keyu¹

1. Electric Power Research Institute of Guizhou Power Grid Co., Ltd., Guiyang 550000, China;
2. College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;
3. Research Institute of UAV, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China

Abstract: The complexity of the scene of transmission lines is relatively high, and classical convolution neural networks are not effective in classification of transmission line scene datasets. To solve this problem, an optimized network structure based on VGG−19 is proposed by taking advantage of convolutional neural network. This network is applied to the classification of transmission line scene datasets, and the classification accuracy of the optimized network is 95.1%. The experimental results show that the proposed optimized network has better classification performance than the classical convolution neural networks.

Keywords: transmission lines insulators image classification convolutional neural network full connected network VGG−19 AlexNet batch normalization

绝缘子是输电线路系统的重要组成部分之一，绝缘子检测在保证输电线路正常运行方面有着极为重要的作用。由于人工近距离拍摄存在效率低、安全性差等缺点，所以绝缘子检测主要通过无人机（unmanned aerial vehicles，UAV）航拍的方式实现。预先在巡线视频中筛选出具有绝缘子的图像可以提高绝缘子检测的效率。输电线路场景分类对于线路部件目标的识别与跟踪有着重要的辅助作用。若分类信息表明图像中存在线路部件（如绝缘子），系统可据此对图像进行目标识别与跟踪，因此场景分类是一个提升系统性能的预处理环节。除此之外，分类信息也是引导并控制无人机实施电力作业的重要参考。当无人机接近输电线路时，图像分类信息可以用于控制无人机沿线飞行并保持与线路的安全距离。

卷积神经网络是深度学习基本框架^[1]。1959年，Hubel和Wiesel^[2]提出了生物视觉的分层结构。1989年，LeCun等^[3]提出了第一个真正意义上的神经网络并将该神经网络应用到了手写字符的识别中。LeCun等^[4]对原始网络经过修改和优化后提出了LeNet−5。神经网络的概念出现较早^[5]，但是第一个成熟的深度卷积神经网络是直到2012年才出现的AlexNet，由于ReLU函数和dropout层减弱了加深层数带来的过拟合^[6−7]，AlexNet比之前的网络有更多的层数。文献[8]在AlexNet的基础上加入转置卷积提出了ZFNet。2014年，Google将Inception机制应用到了卷积神经网络中并提出了GoogleNet^[9]。Inception机制可以有效地减少网络参数，提高网络性能。牛津大学的科研人员在2014年提出了VGGNet^[10]，首次在卷积神经网络中加入了大量尺寸较小的卷积核。VGG−Net的结构十分简单而且泛化性很强，如今VGG−Net被大量地应用在图像的特征提取问题中^[11]。

1 航拍图像分类相关工作

随着高性能计算硬件的进步，卷积神经网络逐渐加深并被广泛地应用在图像分类领域中。文献[12]将一种基于分形理论和BP神经网络的图像分类方法应用到彩色航拍图像分类中。将图像从RGB格式转化为HSI格式，这样可以根据亮度计算纹理特征，同时纹理特征具有尺度不变性，适用于对遥感图像进行分类。该种方法将光谱信息和纹理特征相结合，将归一化后的饱和度信息用神经网络进行分类，结果证实改进方法效果较好。

文献[13]提出了一种通过建立模糊模型来对航拍图像进行分类的方法，主要研究了绝缘子的污秽程度和表面是否有裂纹这两方面信息。对航拍图像进行分析，将污秽检测分为整体污秽和局部污秽2部分，而后对2种污秽的检测原理和算法进行讨论，并用MATLAB仿真验证。实验结果表明这种方法不仅可以提高巡线效率，还能更加快速地发现输电线路的故障。

文献[14]提出了一种基于图谱分解和概率神经网络的图像分类方法，指出图谱特征可以很好地保持图像特征。经过实验分析，基于概率的神经网络可以准确地进行图像分类。

以上文献对航拍图像的分类都做了大量的研究，且具有很大参考价值。然而以上文献都没有对卷积神经网络的结构做改进，传统卷积神经网络的最后一层为全连接层，全连接层包含的参数占整个网络参数的绝大部分。为了减少网络参数，我们将卷积层代替全连接层并以此为基础提出了一种基于VGG−19的优化网络。实验结果表明，优化网络比传统的卷积神经网络有更加优异的分类性能。

2 搭建优化卷积神经网络 2.1 卷积神经网络

卷积神经网络的结构可以划分为卷积层、池化层和全连接层^[15]。通过卷积层中的卷积核可以提取数据的深层信息和图像的局部特征。池化层可以在减少数据量的情况下保留有用的信息，它可以加快计算速度，同时防止过拟合。本文采用了最大池化层，最大池化层的示意图如图1。

	Download: JPG larger image
图 1 最大池化层示意

全连接层大部分情况下位于网络尾端，经常作为输出层使用。它对前面逐层变换和映射提取的特征进行回归分类等处理。全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。图像特征的提取是通过卷积操作和池化操作实现的，进入神经网络的数据经过激活函数的处理得到输出值，式(1)是输出值的计算方法。

${x^l} = f\left( {{W^l}{x^l} + {b^l}} \right)$

(1)

式中： $l$ 代表层数； $W$ 代表权值； $b$ 代表偏置； $f$ 代表激活函数。

上一层带有图像特征的数据经过卷积核的处理后可以得到另一组数据，这些新生成的数据经过这一层的激活函数便可以得到一组新的输出值，新的输出值为

$x_j^l = f(\sum\limits_{i \in {M_j}} {X_i^{l - 1} \times k_{ij}^l + b_j^l} )$

式中： $l$ 表示当前层层数； $l - 1$ 表示后一层层数； $X_i^{l - 1}$ 表示当前层的特征图； $k_{ij}^l$ 表示当前层第个特征图与前一层第个特征图对应的卷积核； $b_j^l$ 表示偏置值。

池化层可以增加算法的稳定性并降低数据的维度，池化层的输出维度计算为

$N = {{\left( {W - F + 2P} \right)} / S} + 1$

式中： $N$ 代表输出数据维度； $W$ 代表输入数据维度； $F$ 代表滤波器维度； $P$ 代表步长； $S$ 代表像素数。

2.2 优化VGGNet结构

在卷积神经网络中，全连接层通常在卷积层之后。全连接层可以将卷积层和池化层产生的特征图映射成一个固定长度的特征向量。但是过多的全连接层会造成网络的参数过多并导致过拟合现象，因此本文提出了一种基于传统卷积神经网络的优化网络，在输电线路场景数据集进行训练并测试。实验结果表明，本文提出的优化网络解决了传统卷积神经网络在输电线路场景数据集的过拟合现象。

为了解决传统卷积神经网络在图像分类方面的缺陷，我们用多卷积层的特定组合代替卷积神经网络的全连接层的方式构建一种新的优化网络。本文选择VGG−19网络作为优化的对象。VGG−19网络是一种分类性能较好的卷积神经网络，所以在解决一些复杂的分类问题时经常使用VGG−19网络做预处理，并提取数据特征。利用上文描述的方法，将最后3层全连接层替换为多层卷积层的组合，为了避免由于层数加深所造成的过拟合，通常在卷积神经网络中加入Batch Normalization(BN)层^[16]。BN层可以在一定程度上避免梯度消失，其作用是把逐渐向极限饱和区靠拢的输入分布强制拉回到均值为0、方差为1的比较标准的正态分布，使得非线性变换函数的输入值落入对输入比较敏感的区域，以此避免梯度消失问题。基于VGG−19网络的优化结构如图2所示。

	Download: JPG larger image
图 2 基于VGG−19的优化网络机构

2.3 激活函数

在多层神经网络中，上层节点的输出和下层节点的输入之间的函数关系被称作是激活函数。近年来神经网络取得巨大发展的原因之一是性能更加优异的激活函数被应用到了网络中。如果不使用激活函数，那么一个神经元的输出值和输入值相同，无论神经网络有多少层网络的输出，最终输出都是输入的线性组合，这将导致网络的逼近能力有限。为了避免出现上述情况，激活函数应为非线性函数，这样神经网络的逼近能力将得到很大提高，因为从理论上讲神经网络可以逼近任意函数。

现有的激活函数主要有Sigmoid、tanh和ReLU，Sigmoid的数学表达式如式(2)所示。一般来说采用Sigmoid作为激活函数的神经网络的深度有一定的限制，如果层数过多非常容易出现梯度消失现象^[17]。

$f\left( x \right) = {1 / {\left( {1 + \exp \left( { - x} \right)} \right)}}$

(2)

tanh函数避免了非零均值输出的现象，所以它可以在一定程度上缓解梯度消失，其数学表达式为

$f\left( x \right) = {{\left( {1 - \exp \left( { - 2x} \right)} \right)} / {\left( {1 + \exp \left( { - 2x} \right)} \right)}}$

ReLU是一个分段函数，它的函数表达式如式(3)所示。虽然ReLU可以在很大程度上缓解梯度消失现象，但是随着训练的推进，神经网络的权值将无法继续更新。

$f\left( x \right) = \max \left( {0,x} \right)$

(3)

由于上述3种激活函数均存在着一定的缺陷，因此本文采用了Leaky ReLU^[18]。Leaky ReLU的数学表达式如式(4)所示，其中参数 $a$ 从区间 $\left( {0, + \infty } \right)$ 取值。Leaky ReLU函数图像如图3所示。Leaky ReLU具有ReLU的所有优点，而且不会出现梯度消失。

	Download: JPG larger image
图 3 Leaky ReLU函数图像

$f\left( x \right) = \left\{ \begin{array}{l} x,\;\;x\geqslant 0\\ {x / {a,\;\;x < 0}} \end{array} \right.$

(4)

3 实验 3.1 数据集

文中将数据集分为训练集、验证集和测试集3部分，每部分有3种类别，分别为无绝缘子、无清晰绝缘子、有清晰绝缘子的图像，这些图像均通过无人机航拍得到。在实验之前，首先对图像进行预处理操作。数据集具体组成如表1所示，数据集中相关样本如图4所示。

表 1 数据集组成

	Download: JPG larger image
图 4 部分样本展示

图像中无清晰绝缘子代表无人机距离绝缘子较远，这种情况会给后续绝缘子检测工作的开展带来一定困难。过分类处理筛选出具有清晰绝缘子的图片，并对其进行绝缘子检测，提高分类精度。

3.2 实验结果及分析

将整理好的数据集分别用AlexNet、VGG−19和本文中提出的优化网络进行训练以及类别预测，这3种网络的训练过程如图5所示，类别预测的实验结果如表2所示。

	Download: JPG larger image
图 5 网络训练过程

表 2 实验结果

AlexNet的精确度为89.6%，该网络的训练过程有2个特点：1）在训练初期，验证集的精确度往往大于训练集精确度；2）在训练中期，精确度曲线出现大幅度波动，精确度急剧下降且这种现象在多个连续的迭代中出现。该网络在处理输电线路场景数据集时，容易陷入局部极值甚至分类精确度快速下降。同时，训练过程总共有100次迭代，但是在第40次迭代之后验证集精确度难以上升，并且测试集精确度曲线直到第90次迭代时精确度才出现收敛。当训练结束时，验证集精确度比训练集精确度约小18%，这说明AlexNet的学习能力较差。VGG−19的精确度为93.5%，相比于AlexNet，VGG−19训练收敛更快且曲线没有出现剧烈下降现象。该网络的训练过程有2个特点：1）在训练初期，精确度曲线上升较快，但是当精确度上升到约75%时，精确度上升十分缓慢且曲线波动较大；2）在训练收敛后，精确度曲线仍会出现较小的波动。VGG−19的分类性能比AlexNet强，但是仍有一定提升的空间。本文提出的优化网络的精确度为95.1%，相比于以上2种网络，优化网络的训练过程更加平稳。训练收敛后，精确度曲线稳定，不会出现较大的波动。验证集的精确度比训练集的精确度约低8%，虽然在这方面优化网络和VGG−19几乎相同，但是优化网络的精确度曲线比VGG−19的精确度曲线更加平滑，可以认为优化网络在输电线路场景数据集上的分类性能优于VGG−19。

混淆矩阵可以更加详细地显示优化网络对数据集中不同类别样本的分类情况，优化网络的混淆矩阵如图6所示。混淆矩阵表明优化网络对3种类别场景的分类精度都很高，其中对有清晰绝缘子的图像分类效果最好。对于类别1，有93%的样本被分类正确，有6%的样本被分类器识别为类别3，经分析这种现象产生的原因是分类网络将类别1中的公路认作了绝缘子。综上所述，本文提出的优化网络更适合解决场景较为复杂的输电线路场景分类问题。

	Download: JPG larger image
图 6 优化网络混淆矩阵

4 结论

本文以VGG−19为基础，通过将网络底层的全连接层替换成多卷积层的组合从而优化网络结构，减少网络参数。实验表明本文提出的优化网络在输电线路场景数据集上的分类性能与经典卷积神经网络相比更加优异。

1）与经典的卷积神经网络相比，本文提出的优化网络具有更高的分类精准度。在训练过程中，优化网络训练更加平稳、收敛更快，对不同种类别的输电线路场景图片均有较好的分类效果。

2）本文提出的优化网络存在一些问题，该网络只应用于输电线路场景数据集，可以通过使用多种数据集，所以无法说明该网络具有泛用性。因此要训练网络，修改网络参数，增强模型的泛用性。

3）在输电线路场景分类中，景物的亮度会随着时间的变化而变化；同时，灰尘的密集程度也会改变绝缘子等景物的图像特征，这两点因素会影响网络的分类性能。将大量环境信息引入输电线路场景分类中是未来发展的主要方向。

参考文献

[1]	LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural computation, 1989, 1(4): 541-551. DOI:10.1162/neco.1989.1.4.541 (0)
[2]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1988, 86(11): 2278-2324. (0)
[3]	LE CUN Y, BOSER B, DENKER J S, et al. Handwritten digit recognition with a back-propagation network[M]//TOURETZKY D S. Advances in Neural Information Processing Systems 2. San Mateo, CA: Morgan Kaufmann Publishers Inc., 1990. (0)
[4]	黎明, 杨小芹, 周琳霞. 基于局部进化的Hopfield神经网络的优化计算方法[J]. 中国图象图形学报, 2004, 9(2): 207-213. DOI:10.3969/j.issn.1006-8961.2004.02.015 (0)
[5]	LU Siyuan, LU Zhihai, ZHANG Yudong. Pathological brain detection based on AlexNet and transfer learning[J]. Journal of computational science, 2019, 30: 41-47. DOI:10.1016/j.jocs.2018.11.008 (0)
[6]	王年, 任彬, 黄勇, 等. 基于神经网络的汽车车型图象自动识别[J]. 中国图象图形学报, 1999, 4(8): 668-672. DOI:10.11834/jig.199908152 (0)
[7]	TANG Pengjie, WANG Hanli, KWONG S. G-MS2F: GoogLeNet based multi-stage feature fusion of deep CNN for scene recognition[J]. Neurocomputing, 2017, 225: 188-197. DOI:10.1016/j.neucom.2016.11.023 (0)
[8]	DAY M J, HORZINEK M C, SCHULTZ R D, et al. Guidelines for the vaccination of dogs and cats. Compiled by the vaccination guidelines group (VGG) of the world small animal veterinary association (WSAVA)[J]. The journal of small animal practice, 2007, 48(9): 528-541. DOI:10.1111/j.1748-5827.2007.00462.x (0)
[9]	PTUCHA R, SUCH F P, PILLAI S, et al. Intelligent character recognition using fully convolutional neural networks[J]. Pattern recognition, 2019, 88: 604-613. DOI:10.1016/j.patcog.2018.12.017 (0)
[10]	DIAMANTIS D E, IAKOVIDIS D K, KOULAOUZIDIS A. Look-behind fully convolutional neural network for computer-aided endoscopy[J]. Biomedical signal processing and control, 2019, 49: 192-201. DOI:10.1016/j.bspc.2018.12.005 (0)
[11]	赵志宏, 杨绍普, 马增强. 基于卷积神经网络LeNet−5的车牌字符识别研究[J]. 系统仿真学报, 2010, 22(3): 638-641. (0)
[12]	李厚强, 刘政凯, 林峰. 基于分形理论的航空图像分类方法[J]. 遥感学报, 2001, 5(5): 353-357. DOI:10.11834/jrs.20010506 (0)
[13]	葛玉敏, 李宝树, 赵书涛, 等. 基于航拍图像的绝缘子表面状态检测[J]. 高压电器, 2010, 46(4): 65-68, 73. (0)
[14]	汤进, 张春燕, 罗斌. 基于图谱分解和概率神经网络的图像分类[J]. 中国图象图形学报, 2018, 11(5): 630-634. (0)
[15]	HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012. DOI: http://dx.doi.org/0.9774/LEAF.978-1-909493-38-4_2. https://arxiv.org/abs/1207.0580v1 (0)
[16]	孙瑜阳. 深度学习及其在图像分类识别中的研究综述[J]. 信息技术与信息化, 2018(1): 138-140. DOI:10.3969/j.issn.1672-9528.2018.01.033 (0)
[17]	汪亚明. 基于神经网络的图象序列特征点匹配[J]. 中国图象图形学报, 2002, 7(4): 313-318. DOI:10.3969/j.issn.1006-8961.2002.04.001 (0)
[18]	ZHANG Xiaohu, ZOU Yuexian, SHI Wei. Dilated convolution neural network with LeakyReLU for environmental sound classification[C]//Proceedings of the 2017 22nd International Conference on Digital Signal Processing. London, UK, 2017. (0)