基于Mask R-CNN的道路交通标志识别 | ![]() |
无人机具有快速灵活、实时性强的特点[1],常被用作遥感平台以快速获取多方位、高分辨率的实景影像。无人机影像上交通标志自动检测与识别是研究智能交通的重要内容[2],对建设具有真实纹理的三维场景也具有重要的意义[3, 4]。同一类型的标志通常具有相同的形状和颜色,这为交通标志的检测和识别提供了便利。
近年来,深度学习方法被广泛应用于图像分类、检测和分割。基于区域的卷积神经网络(region-based convolution neural network,R-CNN)是第一个可以真正工业级应用的目标检测解决方案。Fast R-CNN[5]、Faster R-CNN[6]、Mask R-CNN[7]都是在此基础上改进的。这类深度学习算法将目标检测分为提取候选框和分类两个步骤,识别错误率和漏识别率较低。
交通标志的检测和识别最早可追溯到模板匹配算法[8]。Keller等[9]利用交通标志在形状上对称性较好的特性,设计了一种径向对称的算子来提取交通标志候选区域,再使用基于Harr小波特征的级联分类器对目标区域进行分类识别。Ren等[10]在色调、饱和度、明度(hue saturation value,HSV)颜色空间对图像进行H通道阈值化分割,计算候选区域形状在目标函数与模板函数间的差异,对区域进行归类。Creusen等[11]首先提取图像在YcbCr空间上的方向梯度直方图(histogram of oriented gradient,HOG)特征,然后将特征向量输入训练好的支持向量机(support vector machine,SVM)分类器,以实现交通标志的分类。在德国交通标志检测基准(German Traffic Sign Detection Benchmark,GTSDB)[12]建立以来,基于深度学习的交通标志检测与识别方法得到了发展,许多研究人员在此数据集上进行实验,并达到了很高的准确度[13]。在倾斜式无人机影像中,交通标志呈现出尺寸小、形变大、尺度变化大的特点,由现有数据集训练得到的模型无法适用于无人机影像。因此,本文以自制的无人机影像交通标志数据集为基础,使用Mask R-CNN算法对6种交通标志进行像素级的检测与识别,并对该算法进行改进,提升掩膜的精确度。
1 Mask R-CNN检测算法Mask R-CNN示意图如图 1所示。Mask R-CNN检测算法包括训练模型和使用模型进行前向传播预测两个阶段。Mask R-CNN网络训练包括区域建议网络(region proposal network,RPN)训练,分类器训练、边框坐标回归和语义分割网络训练。在前向传播时,目标定位、目标识别及语义分割多任务同时进行。
![]() |
图 1 Mask R-CNN示意图 Fig.1 Diagram of Mask R-CNN |
1.1 Mask R-CNN实例分割框架
Mask R-CNN能够在一个网络框架中同时完成目标检测和实例分割任务。第一阶段提取候选目标边框,第二阶段对候选框内目标进行分类、边框回归和分割。该算法以Faster R-CNN网络为基础,使用RPN结构提取候选框。Mask R-CNN的创新主要有以下两点:对候选框内的特征图使用感兴趣区(region of interest,RoI)校准以及实现像素级的对齐。在分类回归阶段,Mask R-CNN增加了一个分割网络作为预测掩码的分支。Mask R-CNN使用残差网络(residual network,ResNet)提取特征,并且结合特征金字塔网络(feature pyramid network,FPN)提高对小目标的检测能力。
本文采用结合FPN的ResNet-50[14]作为主干网络来提取特征。FPN在处理多尺度检测问题时表现较好[15]。本文使用RPN生成候选区域,进行分类和回归,得到区域变换参数和前景分数。
1.2 增加掩膜得分策略的Mask R-CNN框架在实例分割任务中,通常以分类置信度作为检测结果质量的衡量指标,这个指标不能代表分割蒙版的真实质量。实例Mask的实际质量和完整性没有参与模型优化,会降低模型的评价结果。实际上,掩膜的质量应该被量化为预测值和真实值的交并比(intersection of union,IoU),其计算公式为:
$ I = \frac{{{S_p} \cap {S_g}}}{{{S_p} \cup {S_g}}} $ | (1) |
式中,I表示IoU;Sp和Sg分别表示像素级预测的掩膜和掩膜真值。
本文在Mask R-CNN的基础上增加了基于掩膜得分的策略,在预测掩膜的分支上增加了一个网络块来学习预测实例掩膜的质量,网络结构如图 2所示。将预测的Mask和RoI特征连接起来作为输入,网络由4个卷积层和3个全连接层组成,卷积层的核大小为3,滤波器个数为256,全连接层输出设置为1 024。使用回归损失进行训练,掩膜得分Sm计算公式如下:
$ {S_m} = {S_c} \times {S_i} $ | (2) |
![]() |
图 2 掩膜预测网络 Fig.2 Diagram of Mask Prediction Network |
式中,Sc表示分类得分;Si表示边框回归得分。
将学习任务分解为掩膜分类和IoU回归,Sc直接取R-CNN任务中分类分数。将该网络集成到Mask R-CNN中,提高分割模型的性能。该方法同时考虑了语义类别和实例掩膜的完整性,能够提高掩膜的质量和分割精度。
2 数据集与预处理为增大样本容量,提高模型的泛化能力,本文使用数据增广的策略对自制数据集进行增强,对图片进行随机旋转和透视变换[16, 17]。
数据集为大势智慧公司提供的2 000张包含道路交通标志的城市地区无人机影像。对2 000张原图进行旋转、透视变换和重采样操作,旋转角度在-10°~+10°,90°,180°间随机选取,透视变换角度在左上方、正上方、右上方随机选取,重采样缩放倍数在0.7~1倍中随机选取。实验训练数据有无人机影像训练数据3 000张,测试数据600张。图 3是训练样本的示例。本文使用数据标注工具VIA对交通标志的边界以及类别进行标注。
![]() |
图 3 训练样本示例 Fig.3 Training Samples |
3 交通标志检测实验
实验使用的深度学习框架为torch1. 0,显卡为RTX 2070。首先用CoCo数据集对主干网络ResNet-50进行预训练,然后在自制数据集上对模型继续训练,训练时长约7 h。
3.1 检测结果与分析从测试集中选取部分图像进行测试,结果如图 4所示,可以看出,对于不同尺度的交通标志,此算法均有较好的检测效果。在无人机影像被分割为小块的过程中,部分位于裁剪框边缘的标牌只能保留部分区域,如图 4(e)所示,检测结果也表明此算法对不规则形状检测的鲁棒性较好。交通标志的检测错误主要集中在误检上,如在图 4(f)中,集装箱的侧面被误检为交通标志。在测试过程中发现,影响精确度的主要原因为误检,干扰包括车辆、路旁堆积物等。部分尺度较小的交通标志在影像中失去了细节特征,无法进一步对标志进行分类,也是检测错误的原因。此外,影像中尺寸较小的标志往往没有清晰的边界,实例分割的结果也存在微小偏差。
![]() |
图 4 检测结果 Fig.4 Test Results |
Mask R-CNN检测结果与本文算法检测结果的对比如图 5所示,可以看出,本文算法在交通标志边界的提取上更加精确。在Mask R-CNN预测掩膜的分支中增加掩膜得分的策略,依据真实的掩膜质量对网络进行训练,能够使模型的掩膜预测更加精准,明显提高掩膜的质量。
![]() |
图 5 Mask R-CNN检测结果与本文算法检测结果对比 Fig.5 Comparison of the Results Obtained by Mask R-CNN and the Proposed Algorithm |
3.2 精度效率统计
在一个检测任务中,通常统计测试集的平均精度均值(mean average precision,mAP)作为结果精度的实际度量标准。在GTSDB和本文数据集中分别取600张测试数据对两种训练模型进行精度评定,统计其mAP50。计算结果见表 1,可以看出,在GTSDB数据集上,相较于Mask R-CNN,本文算法精确度有所提升。由于无人机影像地物干扰较多,交通标志尺度变化大,两种算法的精确度较地面近景摄影获取的数据精度低。在自制数据集上,使用深度学习提取无人机影像中道路交通标志的精确度在90% 左右。增加掩膜得分策略的Mask R – CNN改进了掩膜质量的判别方式,以掩膜真值与预测值的差异来训练网络,有更高的精确度。两种数据集的图像大小一致,除去模型载入的时间,一张分辨率为1 024×800的图像的处理时间均在0.48 s左右。
表 1 Mask R-CNN与本文算法的精度/效率统计 Tab.1 Statistics of Accuracy and Efficiency of Mask R-CNN and the Proposed Algorithm |
![]() |
4 结束语
本文针对无人机遥感影像中交通标志提取时遇到的形变大、尺度变化大的问题,采用Mask R-CNN在检测和识别交通标志的同时,实现像素级的分割,取得了较好的检测效果。针对交通标志数据集较小的问题,提出使用透视变换数据增广的策略增加数据集。针对小目标边缘模糊造成的掩码不精确的问题,增加基于掩膜得分的策略,改善预测边界的质量。本文方法可被应用于其他地物的无人机影像目标检测与轮廓提取中。但是该方法还存在一些问题,例如,对高分辨率无人机影像检测耗时较长,对弱光照和阴影区域检测失效。
[1] |
Watts A C, Ambrosia V G, Hinkley E A. Unmanned Aircraft Systems in Remote Sensing and Scientific Research: Classification and Considerations of Use[J]. Remote Sensing, 2012, 4(6): 1671-1692. DOI:10.3390/rs4061671 |
[2] |
Gao S B, Zhang Y. The Automatic Detection and Recognition of the Traffic Sign[C]. 2016 International Conference on Virtual Reality and Visualization(ICVRV), Hangzhou, China, 2016
|
[3] |
孙敏, 马蔼乃, 陈军. 三维城市模型的研究现状评述[J]. 遥感学报, 2002, 6(2): 155-160. |
[4] |
刘磊, 孙敏, 任翔, 等. 基于无人机影像序列的三维重建方法综述[J]. 北京大学学报(自然科学版), 2017, 53(6): 1165-1178. |
[5] |
Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 2014
|
[6] |
Shih K H, Chiu C T, Lin J A, et al. Real-Time Object Detection with Reduced Region Proposal Network via Multi-feature Concatenation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(6): 2164-2173. DOI:10.1109/TNNLS.2019.2929059 |
[7] |
He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397. DOI:10.1109/TPAMI.2018.2844175 |
[8] |
刘华平, 李建民, 胡晓林, 等. 动态场景下的交通标识检测与识别研究进展[J]. 中国图象图形学报, 2013, 18(5): 493-503. |
[9] |
Keller C G, Sprunk C, Bahlmann C, et al. Real-Time Recognition of US Speed Signs[C]. 2008 IEEE Intelligent Vehicles Symposium, Eindhoven, the Netherlands, 2008
|
[10] |
Ren F X, Huang J S, Jiang R Y, et al. General Traffic Sign Recognition by Feature Matching[C]. 2009 24th International Conference Image and Vision Computing, Wellington, New Zealand, 2009
|
[11] |
Creusen I M, Wijnhoven R G J, Herbschleb E, et al. Color Exploitation in Hog-Based Traffic Sign Detection[C]. 2010 IEEE International Conference on Image Processing, Hong Kong, China, 2010
|
[12] |
Houben S, Stallkamp J, Salmen J, et al. Detection of Traffic Signs in Real-World Images: The German Traffic Sign Detection Benchmark[C]. The 2013 International Joint Conference on Neural Networks (IJCNN), Dallas, TX, USA, 2013
|
[13] |
朱盈盈. 交通标志检测与识别研究[D]. 武汉: 华中科技大学, 2018
|
[14] |
He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016
|
[15] |
Dollár P, Appel R, Belongie S, et al. Fast Feature Pyramids for Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1532-1545. DOI:10.1109/TPAMI.2014.2300479 |
[16] |
丁鸽, 彭健, 焦明东, 等. 无人机倾斜摄影测量技术在超高层建筑竣工测量中的应用[J]. 测绘地理信息, 2019, 44(3): 62-64. |
[17] |
陈鹏, 汪本康, 高飒, 等. 利用ResNet进行建筑物倒塌评估[J]. 武汉大学学报·信息科学版, 2020, 45(8): 1179-1184. |