2. 南京航空航天大学 无人机研究所,江苏 南京 211106;
3. 贵州电网有限责任公司,贵州 贵阳 550000
2. Research Institute of UAV, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;
3. Electric Power Research Institute of Guizhou Power Grid Co., Ltd., Guiyang 550000, China
随着人类社会的发展,电力成为无法替代的重要能源之一。为了实现大面积的电力输送以满足电力需求,输电线路广泛地分布在各个地区和不同环境中。因此,输电线路的安全正常运作是保证电力稳定可靠输送的必要条件[1]。然而,由于空气污染、自然灾害以及周围植被等客观因素的影响,输电线路往往会出现故障,例如绝缘子爆裂、杆塔倒塌等,这些故障会严重降低电力输送效率[2]。为了解决这一问题,电力部门需要定期地利用不同的电力线巡检方法对输电线路的健康状况进行评估。由于输电线路分布广泛,人工巡检难以适应复杂危险的地形,并且该方法十分耗时[3]。所以,目前常用的巡检方法是利用搭载相机的无人机进行无人巡检。利用航拍图像中提取到的信息对输电线路部件如绝缘子和杆塔等关键部件进行健康评估。然而,无人机巡检会采集大量无用数据,在这些数据中不含有输电线路信息。如果无用数据和有效数据同时被传输到地面站,必将导致工作量激增,严重影响输电线路巡检效率。为了解决这一问题,本文采用图像分类算法对输电线路航拍图像进行分类,去除无用数据并保留有效数据。该方法可以有效地提高输电线路巡检效率并提高输电线路运行的可靠性。随着深度学习和图形处理器的发展,卷积神经网络被广泛地应用在不同的图像处理任务中,如图像分类、目标检测以及语义分割等。不仅如此,卷积神经网络在这些领域中均取得了优异的性能[4]。传统的机器学习算法需要采用图像特征提取算法如尺度不变特征变换算子 (scale-invariant feature transform, SIFT)[5]、局部二值模式算子(local binary pattern, LBP)[6]以及方向梯度直方图算子(histogram of oriented gradient, HOG)[7],预先提取图像特征。然而,通过这些算法提取的图像特征和图像高级语义之间存在较大的偏差,所以传统的机器学习算法难以满足复杂环境背景下的图像分类任务[8]。卷积神经网络利用卷积层、池化层以及全连接层提取图像的特征信息。随着网络深度增大,卷积神经网络可以提取图像的高级语义。因此,卷积神经网络可以摆脱人工图像特征提取算法的限制,在不同图像处理任务中均取得优异的性能[9]。
1998年,LeCun等[10]提出了卷积神经网络LeNet,并将其应用于书写字符的识别中。然而,受限于当时图像处理器的性能,LeNet并没有取得优异的性能,所以卷积神经网络并没有得到学术界的广泛关注。2012年,Krizhevsky等[11]提出AlexNet并以巨大的优势获得了ILSVRC 2012竞赛的冠军。因此,卷积神经网络引起巨大的关注。随后,越来越多的学者提出性能更加优异的卷积神经网络,如VGGNet[12]以及GooLeNet[13]。随着卷积神经网络层数的增加,训练集精确度会下降,这种现象不是由过拟合导致的。经分析,过深的卷积神经网络会出现梯度弥散现象。为了解决这一问题,何凯明等[14]于2015年提出了ResNet,并一举夺得ILSVRC 2015竞赛冠军。
卷积神经网络由于其优异的性能,被广泛应用于多种实际应用中。在此之前,已有多名学者在输电线路航拍图像分类问题中进行深入研究。陈科峻等[15]提出了一种基于循环神经网络的航空图像分类算法,首先,采用超像素分割算法获取图像地层特征;而后,通过交叉验证确定图像最佳尺度;最后,采用改进的双向长短期记忆网络对航拍图像进行分类。
李厚强等[16]提出了一种基于分形理论的航拍图像分类算法。首先,将航拍图像的颜色格式由RGB转换为HSI;然后,根据颜色特征计算基于分形的图像纹理特征;最后,采用BP神经网络作为分类器对航拍图像进行分类。
张秋雁等[17]提出了一种基于VGG-16网络的输电线路航拍图像分类算法。首先,利用图像增强对原始数据及进行扩充,以提高算法鲁棒性;然后,利用多卷积层组合代替VGG-16中的全连接层;最后,利用优化网络对输电线路航拍图像进行分类。
本文在ResNet的基础上进行改进,提出了一种优化ResNet结构,并利用收集到的输电线路图像数据集训练该网络。实验结果表明,在输电线路分类数据集上,优化ResNet网络对比传统卷积神经网络具有更高的分类精确度和更低的内存占用。
1 优化ResNet网络 1.1 ResNet网络大量实验结果表明,加深卷积神经网络可以提高分类精确度。然而,过深的卷积神经网络会出现梯度弥散现象。当训练集精确度达到饱和后会急剧下降,因此通过简单堆叠卷积层而构成的网络,其深度难以超过20层。ResNet的出现在一定程度上打破了卷积神经网络的层数限制。综合考虑内存占用以及分类性能,本文采用ResNet50作为骨干网络,并对其进行优化。ResNet50具体结构如表1所示。
ResNet由残差网络单元组成,其核心在于恒等映射。式(1)为残差单元的输入输出关系:
$H\left( x \right) = F\left( x \right) + x$ | (1) |
式中:H(x)为残差单元的输出;x为残差单元的输入;F(•)为卷积以及激活函数等操作。
恒等映射不引入网络参数,相当于浅层网络。如果网络在训练过程中出现由于层数过深而导致精确度下降的情况,可令F(x)趋近于0,此时残差单元可近似于恒等映射,网络对输入x的变化更加敏感。因此,残差模块可以有效地抑制梯度弥散现象。残差单元结构如图1所示。
Download:
|
|
为了增强网络的分类性能,本文在原有残差单元的基础上提出了一种优化残差模块,其结构图如图2所示。
Download:
|
|
我们将分组卷积引入残差单元中,特征图通过优化残差单元的第一个卷积核为1×1的卷积层后,其通道维被分为4等份。设输入特征图的尺寸为n×n×d,则xi的尺寸为n×n×(d/4)。为了增强网络的信息流动,令该部分的输入xi与前一部分的输出yi-1相加,并使其经过卷积操作而得到该部分的输出yi。为了减少网络参数,建立了x1与y1的恒等映射,并利用卷积核为3×1和1×3的卷积层代替原有的卷积核为3×3的卷积层,xi与yi的关系为
${y_i} = \left\{\!\! {\begin{array}{*{20}{l}} {x_i,} \quad i = 1 \\ {K_i}\left( {{x_i} + {y_{i - 1}}} \right), \quad 2 \leqslant i \leqslant 4 \end{array}} \right.$ |
式中:xi为第i个输入;yi为第i个输出;Ki(•)为3×1和1×3的卷积以及激活函数等操作。
对比图1和图2可知,优化残差模块与原有残差模块的区别在于,优化残差模块利用分组卷积代替原有的3×3卷积层。设一个尺寸为n×n×d的特征图经过3×3的卷积层和本文提出的分组卷积结构,其参数式为
$\left\{ \begin{array}{l} {p_{3 \times 3}} = d \times 3 \times 3 \times d = 9{d^2} \\ {p_{{\rm{group}}}} = 3 \times \left( {\dfrac{d}{4} \times 3 \times 1 \times \dfrac{d}{4} + \dfrac{d}{4} \times 1 \times 3 \times \dfrac{d}{4}} \right) = \dfrac{9}{8}{d^2} \end{array} \right.$ | (2) |
式中:p3×3为3×3卷积层的参数量,pgroup为本文提出的分组卷积结构的参数量。
通过观察式(2)可知,本文提出的分组卷积结构可大幅度减少网络参数量,降低模型内存占用,使网络更适用于部署至如无人机嵌入式平台中。
1.3 训练参数利用开源深度学习库Keras实现本文提出的优化ResNet50网络。为了证明其有效性,控制不同网络在训练时超参数相同。本文所有网络均采用随机梯度下降法优化算法进行训练。由于本文涉及到的航拍图像分类任务中,仅包含2类样本,所以输出层的激活函数以及损失函数分别为sigmoid以及二元交叉熵损失函数(binary cross-entropy)。依据文献[18]的训练参数设置,批尺寸(batch size)、学习率(learning rate)、回合(epoch)以及权重衰减率(weight decay)分别设被置为30、0.01、50以及0.0001。
2 实验与分析 2.1 数据集采集与扩展本文采用的数据集是由无人机巡检过程中相机所捕捉到的航拍图像组成。每张图片的大小为224×224。航拍图像被分为正负样本,其中正样本包含输电线路关键部件信息,而负样本不包含。正负样本示意图如图3所示。为了提高算法的鲁棒性,利用数据增强方法扩充数据集。经过水平镜像、垂直镜像、改变亮度以及添加噪声后,总数据量变为原来的5倍。
Download:
|
|
本文采用的输电线路航拍图像数据集包含24 000张输电线路航拍图像,其中正负样本比例为1∶1。该数据集被分为训练集、验证集以及测试集,其包含的航拍图像数量比例为3∶1∶1。为了使训练得到的权重能够在测试集上达到良好的分类效果,保存在验证集精确度最高的权重,并利用该权重预测测试集数据类别。
2.2 实验结果及分析根据参考文献[19]所述,采用测试集精确度(Paccuracy)与类性能指标(F1-measure)共同衡量卷积神经网络的分类性能;真阳性(PTP)、真阴性(PTN)、伪阳性(PFP)以及伪阴性(PFN)为分类任务的重要指标。得到准确率(Pprecision)以及召回率(Precall)的计算公式分别为
$\left\{ \begin{array}{l} {P_{{\rm{precision}}}} = \dfrac{{{P_{{\rm{TP}}}}}}{{{P_{{\rm{TP}}}} + {P_{{\rm{FP}}}}}} \\ {P_{{\rm{recall}}}} = \dfrac{{{P_{{\rm{FP}}}}}}{{{P_{{\rm{FP}}}} + {P_{{\rm{TN}}}}}} \end{array} \right.$ |
根据以上分析可知,Paccuracy与分类性能指标F1-measure可通过式(3)计算得到
$\left\{ {\begin{array}{*{20}{c}} {{P_{{\rm{accuracy}}}} = \dfrac{{{P_{{\rm{TP}}}} + {P_{{\rm{TN}}}}}}{{{P_{{\rm{TP}}}} + {P_{{\rm{FN}}}} + {P_{{\rm{FP}}}} + {P_{{\rm{TN}}}}}}} \\ {{F_{{\rm{1 - measure}}}}{\rm{ = }}\dfrac{{2 \times {P_{{\rm{precision}}}} \times {P_{{\rm{recall}}}}}}{{{P_{{\rm{precision}}}} + {P_{{\rm{recall}}}}}}} \end{array}} \right.$ | (3) |
ResNet50以及优化ResNet50的Pccuracy和F1-measure如表2所示。通过观察表2数据可以得出如下结论:对比原始网络,优化ResNet50取得了更高的分类精度和F1-measure。因此,本文提出的优化残差单元可以提升分类网络在输电线路航拍数据集上的分类性能。图4展示了ResNet50以及优化ResNet50的混淆矩阵。
Download:
|
|
由于本文提出的网络需要在无人机系统上运行,因此,除了分类性能,网络的实时性同样需要实验验证。ResNet50以及优化ResNet50的内存占用和平均运行时间如表3所示。通过观察表3数据可以得出如下结论:1)对比原始网络,优化ResNet50网络占用内存更小,因此该网络更适合部署至无人机系统中;2)虽然优化ResNet50网络的平均运行时间比ResNet50更长,但是其处理速度仍然远远高于相机拍摄速度,仍可以达到实时性要求。因此,综合考虑优化ResNet50网络的分类性能,该网络可以视为准确性和实时性的折中方案。
本文提出了一种优化ResNet50网络结构,并将该结构应用于输电线路图像分类中。实验结果表明,本文提出的网络比传统的卷积神经网络具有更优异的分类性能。在实时性方面,虽然优化ResNet50网络的运行速度比传统神经网络略低,但是由于其更高的精确度和更小的内存占用,可以认为优化ResNet50是一种折中方案,更加适合应用在无人机平台。
1)与传统的卷积神经网络相比,优化ResNet50具有更优异的分类性能和更低的内存占用。
2)该网络存在一些问题,由于本文仅在输电线路场景分类数据集上对网络进行性能验证进行性能验证,所以无法说明网络的泛化性。可以利用大型的公共数据集训练网络,并验证网络的泛化性。
3)在输电线路场景分类问题中,由于光照条件以及相机的拍摄距离、角度的变化,图像特征会有较大的变化。为了增强分类算法的鲁棒性,利用数据增强扩充数据集十分必要。
[1] | NGUYEN V N, JENSSEN R, ROVERSO D. Automatic autonomous vision-based power line inspection: A review of current status and the potential role of deep learning[J]. International journal of electrical power & energy systems, 2018, 99: 107-120. (0) |
[2] | DENG Chuang, WANG Shengwei, HUANG Zhi, et al. Unmanned aerial vehicles for power line inspection: a cooperative way in platforms and communications[J]. Journal of communications, 2014, 9(9): 687-692. DOI:10.12720/jcm.9.9.687-692 (0) |
[3] | 陈利明, 张巍, 于虹, 等. 无人机载LiDAR系统在电力线巡检中的应用[J]. 测绘通报, 2017(S1): 176-178. (0) |
[4] | 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述[J]. 计算机学报, 2017, 40(6): 1229-1251. DOI:10.11897/SP.J.1016.2017.01229 (0) |
[5] | 刘敏, 周聪, 汤靖博. 基于SIFT图像配准算法优化研究[J]. 湖北工业大学学报, 2020, 35(2): 32-36. DOI:10.3969/j.issn.1003-4684.2020.02.008 (0) |
[6] | 郑永斌, 黄新生, 丰松江. SIFT和旋转不变LBP相结合的图像匹配算法[J]. 计算机辅助设计与图形学学报, 2010, 22(2): 286-292. (0) |
[7] | 张天飞, 龙海燕, 丁娇, 等. 基于STRCF的改进HOG特征目标跟踪算法研究[J]. 东莞理工学院学报, 2020, 27(3): 55-59. (0) |
[8] | CHAN T H, JIA Kui, GAO Shenghua, et al. PCANet: a simple deep learning baseline for image classification?[J]. IEEE transactions on image processing, 2015, 24(12): 5017-5032. DOI:10.1109/TIP.2015.2475625 (0) |
[9] | 卢宏涛, 张秦川. 深度卷积神经网络在计算机视觉中的应用研究综述[J]. 数据采集与处理, 2016, 31(1): 1-17. (0) |
[10] | LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791 (0) |
[11] | KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25: 1097-1105. (0) |
[12] | SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations. San Diego, USA. 2015: 1-19. (0) |
[13] | SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA, 2015: 1-9. (0) |
[14] | HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 770−778. (0) |
[15] | 陈科峻, 张叶. 循环神经网络多标签航空图像分类[J]. 光学 精密工程, 2020, 28(6): 1404-1413. (0) |
[16] | 李厚强, 刘政凯, 林峰. 基于分形理论的航空图像分类方法[J]. 遥感学报, 2001(5): 353-357, 404. DOI:10.11834/jrs.20010506 (0) |
[17] | 张秋雁, 杨忠, 姜遇红, 等. 一种基于CNN的航拍输电线路图像分类方法[J]. 应用科技, 2019, 46(6): 41-45. (0) |
[18] | HUANG G, LIU Z, Van Der MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, USA, 2017: 4700−4708. (0) |
[19] | HUA Yuansheng, MOU Lichao, ZHU Xiaoxiang. Relation network for multilabel aerial image classification[J]. IEEE transactions on geoscience and remote sensing, 2020, 58(7): 4558-4572. DOI:10.1109/TGRS.2019.2963364 (0) |