测绘地理信息   2022, Vol. 47 Issue (3): 119-122
0
基于Mask R-CNN的道路交通标志识别[PDF全文]
王之博1, 赵双明1    
1. 武汉大学遥感信息工程学院,湖北 武汉,430079
摘要: 在遥感无人机影像中,道路交通标志经过透视投影呈现出形变大、尺度变化大和干扰多等特点,传统的检测方法只关注标志的形状和颜色,应用于无人机影像时易出现漏检、误检等问题。针对上述问题,先利用透视变换对数据集进行增广,再基于Mask R-CNN框架对交通标志进行实例分割。在原框架中增加掩膜得分的策略,分割精度约提高了2%。实验结果表明,基于Mask R-CNN的方法具有较高的准确度,在解决无人机影像交通标志检测问题上具有较好的性能。
关键词: 无人机影像    交通标志    Mask R-CNN    实例分割    
Road Traffic Sign Recognition Based on Mask R-CNN
WANG Zhibo1, ZHAO Shuangming1    
1. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China
Abstract: Through perspective projection, the road traffic signs in remote sensing unmanned aerial vehicle(UAV)images show the characteristics of large deformation, large scale change and many interferences.However, the traditional detection method only pays attention to the shape and color of signs.When using UAV images, problems such as missed detection and false detection are easy to occur.To solve these problems, the data set is first augmented by perspective transformation, and then the traffic signs are segmented based on Mask R-CNN framework.The strategy of adding mask scores in the original framework improves the segmentation accuracy by about 2%.The experimental results show that the method based on Mask R-CNN has higher accuracy and it has better performance in solving the problem of UAV image traffic sign detection.
Key words: unmanned aerial vehicle image    traffic sign    Mask R-CNN    instance segmentation    

无人机具有快速灵活、实时性强的特点[1],常被用作遥感平台以快速获取多方位、高分辨率的实景影像。无人机影像上交通标志自动检测与识别是研究智能交通的重要内容[2],对建设具有真实纹理的三维场景也具有重要的意义[3, 4]。同一类型的标志通常具有相同的形状和颜色,这为交通标志的检测和识别提供了便利。

近年来,深度学习方法被广泛应用于图像分类、检测和分割。基于区域的卷积神经网络(region-based convolution neural network,R-CNN)是第一个可以真正工业级应用的目标检测解决方案。Fast R-CNN[5]、Faster R-CNN[6]、Mask R-CNN[7]都是在此基础上改进的。这类深度学习算法将目标检测分为提取候选框和分类两个步骤,识别错误率和漏识别率较低。

交通标志的检测和识别最早可追溯到模板匹配算法[8]。Keller等[9]利用交通标志在形状上对称性较好的特性,设计了一种径向对称的算子来提取交通标志候选区域,再使用基于Harr小波特征的级联分类器对目标区域进行分类识别。Ren等[10]在色调、饱和度、明度(hue saturation value,HSV)颜色空间对图像进行H通道阈值化分割,计算候选区域形状在目标函数与模板函数间的差异,对区域进行归类。Creusen等[11]首先提取图像在YcbCr空间上的方向梯度直方图(histogram of oriented gradient,HOG)特征,然后将特征向量输入训练好的支持向量机(support vector machine,SVM)分类器,以实现交通标志的分类。在德国交通标志检测基准(German Traffic Sign Detection Benchmark,GTSDB)[12]建立以来,基于深度学习的交通标志检测与识别方法得到了发展,许多研究人员在此数据集上进行实验,并达到了很高的准确度[13]。在倾斜式无人机影像中,交通标志呈现出尺寸小、形变大、尺度变化大的特点,由现有数据集训练得到的模型无法适用于无人机影像。因此,本文以自制的无人机影像交通标志数据集为基础,使用Mask R-CNN算法对6种交通标志进行像素级的检测与识别,并对该算法进行改进,提升掩膜的精确度。

1 Mask R-CNN检测算法

Mask R-CNN示意图如图 1所示。Mask R-CNN检测算法包括训练模型和使用模型进行前向传播预测两个阶段。Mask R-CNN网络训练包括区域建议网络(region proposal network,RPN)训练,分类器训练、边框坐标回归和语义分割网络训练。在前向传播时,目标定位、目标识别及语义分割多任务同时进行。

图 1 Mask R-CNN示意图 Fig.1 Diagram of Mask R-CNN

1.1 Mask R-CNN实例分割框架

Mask R-CNN能够在一个网络框架中同时完成目标检测和实例分割任务。第一阶段提取候选目标边框,第二阶段对候选框内目标进行分类、边框回归和分割。该算法以Faster R-CNN网络为基础,使用RPN结构提取候选框。Mask R-CNN的创新主要有以下两点:对候选框内的特征图使用感兴趣区(region of interest,RoI)校准以及实现像素级的对齐。在分类回归阶段,Mask R-CNN增加了一个分割网络作为预测掩码的分支。Mask R-CNN使用残差网络(residual network,ResNet)提取特征,并且结合特征金字塔网络(feature pyramid network,FPN)提高对小目标的检测能力。

本文采用结合FPN的ResNet-50[14]作为主干网络来提取特征。FPN在处理多尺度检测问题时表现较好[15]。本文使用RPN生成候选区域,进行分类和回归,得到区域变换参数和前景分数。

1.2 增加掩膜得分策略的Mask R-CNN框架

在实例分割任务中,通常以分类置信度作为检测结果质量的衡量指标,这个指标不能代表分割蒙版的真实质量。实例Mask的实际质量和完整性没有参与模型优化,会降低模型的评价结果。实际上,掩膜的质量应该被量化为预测值和真实值的交并比(intersection of union,IoU),其计算公式为:

$ I = \frac{{{S_p} \cap {S_g}}}{{{S_p} \cup {S_g}}} $ (1)

式中,I表示IoU;SpSg分别表示像素级预测的掩膜和掩膜真值。

本文在Mask R-CNN的基础上增加了基于掩膜得分的策略,在预测掩膜的分支上增加了一个网络块来学习预测实例掩膜的质量,网络结构如图 2所示。将预测的Mask和RoI特征连接起来作为输入,网络由4个卷积层和3个全连接层组成,卷积层的核大小为3,滤波器个数为256,全连接层输出设置为1 024。使用回归损失进行训练,掩膜得分Sm计算公式如下:

$ {S_m} = {S_c} \times {S_i} $ (2)
图 2 掩膜预测网络 Fig.2 Diagram of Mask Prediction Network

式中,Sc表示分类得分;Si表示边框回归得分。

将学习任务分解为掩膜分类和IoU回归,Sc直接取R-CNN任务中分类分数。将该网络集成到Mask R-CNN中,提高分割模型的性能。该方法同时考虑了语义类别和实例掩膜的完整性,能够提高掩膜的质量和分割精度。

2 数据集与预处理

为增大样本容量,提高模型的泛化能力,本文使用数据增广的策略对自制数据集进行增强,对图片进行随机旋转和透视变换[16, 17]

数据集为大势智慧公司提供的2 000张包含道路交通标志的城市地区无人机影像。对2 000张原图进行旋转、透视变换和重采样操作,旋转角度在-10°~+10°,90°,180°间随机选取,透视变换角度在左上方、正上方、右上方随机选取,重采样缩放倍数在0.7~1倍中随机选取。实验训练数据有无人机影像训练数据3 000张,测试数据600张。图 3是训练样本的示例。本文使用数据标注工具VIA对交通标志的边界以及类别进行标注。

图 3 训练样本示例 Fig.3 Training Samples

3 交通标志检测实验

实验使用的深度学习框架为torch1. 0,显卡为RTX 2070。首先用CoCo数据集对主干网络ResNet-50进行预训练,然后在自制数据集上对模型继续训练,训练时长约7 h。

3.1 检测结果与分析

从测试集中选取部分图像进行测试,结果如图 4所示,可以看出,对于不同尺度的交通标志,此算法均有较好的检测效果。在无人机影像被分割为小块的过程中,部分位于裁剪框边缘的标牌只能保留部分区域,如图 4(e)所示,检测结果也表明此算法对不规则形状检测的鲁棒性较好。交通标志的检测错误主要集中在误检上,如在图 4(f)中,集装箱的侧面被误检为交通标志。在测试过程中发现,影响精确度的主要原因为误检,干扰包括车辆、路旁堆积物等。部分尺度较小的交通标志在影像中失去了细节特征,无法进一步对标志进行分类,也是检测错误的原因。此外,影像中尺寸较小的标志往往没有清晰的边界,实例分割的结果也存在微小偏差。

图 4 检测结果 Fig.4 Test Results

Mask R-CNN检测结果与本文算法检测结果的对比如图 5所示,可以看出,本文算法在交通标志边界的提取上更加精确。在Mask R-CNN预测掩膜的分支中增加掩膜得分的策略,依据真实的掩膜质量对网络进行训练,能够使模型的掩膜预测更加精准,明显提高掩膜的质量。

图 5 Mask R-CNN检测结果与本文算法检测结果对比 Fig.5 Comparison of the Results Obtained by Mask R-CNN and the Proposed Algorithm

3.2 精度效率统计

在一个检测任务中,通常统计测试集的平均精度均值(mean average precision,mAP)作为结果精度的实际度量标准。在GTSDB和本文数据集中分别取600张测试数据对两种训练模型进行精度评定,统计其mAP50。计算结果见表 1,可以看出,在GTSDB数据集上,相较于Mask R-CNN,本文算法精确度有所提升。由于无人机影像地物干扰较多,交通标志尺度变化大,两种算法的精确度较地面近景摄影获取的数据精度低。在自制数据集上,使用深度学习提取无人机影像中道路交通标志的精确度在90% 左右。增加掩膜得分策略的Mask R – CNN改进了掩膜质量的判别方式,以掩膜真值与预测值的差异来训练网络,有更高的精确度。两种数据集的图像大小一致,除去模型载入的时间,一张分辨率为1 024×800的图像的处理时间均在0.48 s左右。

表 1 Mask R-CNN与本文算法的精度/效率统计 Tab.1 Statistics of Accuracy and Efficiency of Mask R-CNN and the Proposed Algorithm

4 结束语

本文针对无人机遥感影像中交通标志提取时遇到的形变大、尺度变化大的问题,采用Mask R-CNN在检测和识别交通标志的同时,实现像素级的分割,取得了较好的检测效果。针对交通标志数据集较小的问题,提出使用透视变换数据增广的策略增加数据集。针对小目标边缘模糊造成的掩码不精确的问题,增加基于掩膜得分的策略,改善预测边界的质量。本文方法可被应用于其他地物的无人机影像目标检测与轮廓提取中。但是该方法还存在一些问题,例如,对高分辨率无人机影像检测耗时较长,对弱光照和阴影区域检测失效。

参考文献
[1]
Watts A C, Ambrosia V G, Hinkley E A. Unmanned Aircraft Systems in Remote Sensing and Scientific Research: Classification and Considerations of Use[J]. Remote Sensing, 2012, 4(6): 1671-1692. DOI:10.3390/rs4061671
[2]
Gao S B, Zhang Y. The Automatic Detection and Recognition of the Traffic Sign[C]. 2016 International Conference on Virtual Reality and Visualization(ICVRV), Hangzhou, China, 2016
[3]
孙敏, 马蔼乃, 陈军. 三维城市模型的研究现状评述[J]. 遥感学报, 2002, 6(2): 155-160.
[4]
刘磊, 孙敏, 任翔, 等. 基于无人机影像序列的三维重建方法综述[J]. 北京大学学报(自然科学版), 2017, 53(6): 1165-1178.
[5]
Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 2014
[6]
Shih K H, Chiu C T, Lin J A, et al. Real-Time Object Detection with Reduced Region Proposal Network via Multi-feature Concatenation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(6): 2164-2173. DOI:10.1109/TNNLS.2019.2929059
[7]
He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397. DOI:10.1109/TPAMI.2018.2844175
[8]
刘华平, 李建民, 胡晓林, 等. 动态场景下的交通标识检测与识别研究进展[J]. 中国图象图形学报, 2013, 18(5): 493-503.
[9]
Keller C G, Sprunk C, Bahlmann C, et al. Real-Time Recognition of US Speed Signs[C]. 2008 IEEE Intelligent Vehicles Symposium, Eindhoven, the Netherlands, 2008
[10]
Ren F X, Huang J S, Jiang R Y, et al. General Traffic Sign Recognition by Feature Matching[C]. 2009 24th International Conference Image and Vision Computing, Wellington, New Zealand, 2009
[11]
Creusen I M, Wijnhoven R G J, Herbschleb E, et al. Color Exploitation in Hog-Based Traffic Sign Detection[C]. 2010 IEEE International Conference on Image Processing, Hong Kong, China, 2010
[12]
Houben S, Stallkamp J, Salmen J, et al. Detection of Traffic Signs in Real-World Images: The German Traffic Sign Detection Benchmark[C]. The 2013 International Joint Conference on Neural Networks (IJCNN), Dallas, TX, USA, 2013
[13]
朱盈盈. 交通标志检测与识别研究[D]. 武汉: 华中科技大学, 2018
[14]
He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 2016
[15]
Dollár P, Appel R, Belongie S, et al. Fast Feature Pyramids for Object Detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1532-1545. DOI:10.1109/TPAMI.2014.2300479
[16]
丁鸽, 彭健, 焦明东, 等. 无人机倾斜摄影测量技术在超高层建筑竣工测量中的应用[J]. 测绘地理信息, 2019, 44(3): 62-64.
[17]
陈鹏, 汪本康, 高飒, 等. 利用ResNet进行建筑物倒塌评估[J]. 武汉大学学报·信息科学版, 2020, 45(8): 1179-1184.