2. 淮阴工学院 江苏省物联网移动互联技术工程实验室,江苏 淮安 223001
2. Laboratory for Internet of Things and Mobile Internet Technology of Jiangsu Province, Huaiyin Institute of Technology, Huaian 223001, China
随着机动车数量的增多,频发的交通事故成为社会关注的难题,而司机的不规范驾驶行为(如抽烟、玩手机等)是造成事故发生的重要原因。通过约束驾驶员的行为可以在一定程度上减少此类交通事故的发生,众多研究者开始致力于研究如何快速有效地检测驾驶员的不规范驾驶行为。近年来,图像识别成为了检测驾驶员行为的趋势,深度学习在计算机视觉领域被广泛用于图像分类和目标检测,卷积神经网络(convolutional neural network, CNN)在图像识别和物体检测方面功不可没[1]。
目前基于CNN的检测驾驶员行为的方法包括:Le等[2]利用R-CNN目标检测算法,对驾驶员头部、手部和方向盘进行检测,通过检测头部和手部的位置,判断驾驶员是否在打电话,检测手部和方向盘的位置,判断驾驶员的手是否脱离方向盘;李俊俊等[3]对经典卷积神经网络进行改进,提出了结合FCNN与三级级联神经网络融合的模型,实验结果表明该模型能有效识别违规行为,但仍需提高训练的准确率和速度;巍泽发[4]构建了一种基于SSD[5]目标检测算法的出租车司机违规行为检测方法,他选用VGG16[6]作为SSD算法的基础网络,结合自建数据集的特点,采用迁移学习的方法训练数据集,准确率高达94.22%,较原始SSD算法提升了2.42%,同时能保证模型处理速度为33 f/s。Jin等[7]采用了一种基于双流卷积神经对驾驶员使用手机这种行为进行实时检测,并在自建数据集上取得了95.7%的准确率; Huang等[8]建立了一个混合CNN的框架,先采用一个联合的预训练的模型对驾驶员的行为特征进行提取,再将这些提取出来的特征送入到全连接层进行分类,实验结果表明,检测准确率达到96.74%。He等[9]基于CornerNet-Lite[10]神经网络对驾驶员打电话这种行为进行检测,在取得86.2%的准确率的同时还有着30 f/s的实时检测速度,并且即使在具有噪声干扰的环境下,仍然能够保持较为稳定的鲁棒性。Masood等[11]在内安装一个摄像头,利用VGG16对驾驶员的违规行为进行识别,实验结果表明,平均准确率达到了99%。
实时性和有效性是驾驶员行为检测的重要指标。将基于CNN的目标检测方法如YOLOv4[12]、YOLOv3[13]、EfficientDet[14]、Faster-RCNN[15]、RetinaNet[16]、R-FCN[17]等算法进行对比,YOLOv4算法更加高效且适合单次GPU训练。另外,姿态检测算法Open Pose[18]能够实现多人姿态检测,优点是能在人物数量多的情况下,既能保持精度,又可以提升检测速度。
本文提出了一种新颖算法LW-Yolov4,通过去除网络模型中权重较低的模型通道数来简化Yolov4网络模型大小,从而提高了检测速度。驾驶员违规行为的识别需要通过提出的LW-Yolov4网络和姿态检测算法OpenPose对驾驶员的监控数据进行协同检测,将视频帧图像送入LW-Yolov4网络获取置信度较高的敏感物品检测框位置坐标,并同时进行人体姿态关键点的检测,获取手指部分关键点坐标。通过判断双手手指部分关键点与敏感物品识别区域是否有重叠,以检测行车过程中玩手机、抽烟、喝水等违规驾驶行为。
1 Yolov4目标检测算法Yolov4目标检测算法平衡了精度与速度,相较于Yolov3,mAP提升了10%,速度提升了12%。Yolov4的主干网络采用了CSPDarknet53网络,并将SPP (spatial pyramid pooling)模型[19]加入到CSPDarknet53中,使用PANet[20](path aggregation network)代替了Yolov3的FPN[21]。用Focal Loss来解决数据不平衡的问题。回归框的损失则采用CIOU Loss[22]。基于CutMix[23]数据增强方法,Yolov4提出了一种新的数据增强方法Mosaic,将4张图片拼接成一张,能够丰富检测物体的背景,降低批处理数量,使得图片在单GPU上训练更为轻松。Mosaic拼接效果如图1所示。
Download:
|
|
Yolov4采用的CSPDarknet53网络包含了29个卷积层,感知野大小为725×725。Darknet53结构如图2所示,由5个残差块组成。
CSPDarknet53为Darknet改进而来,在Darknet基础上添加了CSPNet[24](cross stage partial network),能在轻量化的同时保持准确性,降低计算的成本。CSPDark网络是在每一个残差块上加上CSP,图3为残差块1的CSPDarknet53模型图,其中,层[0,1,5,6,7]与Darknet53的原网络一致,而层[2,4,8,9,10]为新添加的CSPNet。
Download:
|
|
Download:
|
|
Yolov4算法计算精度高,检测速度快,通过加入CSP(cross stage partial)、SPP(spatial pyramid pooling)模块和PANet(path aggregation network)进行多尺度融合的同时利用路径聚合网络将底层特征信息与高层特征进行融合,从而有效增强模型的表达能力,仅牺牲少量训练速度的代价来换得精度的提升。由于车载系统属于低功耗场景,实时检测需要模型的计算量和大小尽可能的小,为了让驾驶员行为检测平台对数据能够实时地处理反馈,针对驾驶员协同检测算法中的目标检测网络模型结构,本文提出了一种Yolov4的网络模型简化算法——LW-Yolov4,LW(light weight)代表了轻量化,即轻量化的Yolov4网络模型。
LW-Yolov4算法简化了神经网络模型,通过去除卷积层中不重要的要素通道,达到提升检测速度的目的。首先通过L1正则化[12]产生稀疏权值矩阵[25],得到的梯度添加到BN (batch normalization)层的梯度中。L1正则化表示为
$ \varOmega (\omega ) = ||\omega |{|_1} = \sum\nolimits_t {|{\omega _t}|} $ | (1) |
式中:
Download:
|
|
模型通道数量的改进前后对比效果见表1。通过对比改进前后的模型通道数可知Yolov4网络模型得到了简化。
本文通过LW-Yolov4算法进行车内敏感物品的检测,训练前需对数据集图像进行归一化[26]处理,归一化采用了z-score 标准化方法,基于原始数据的均值和标准差,经过处理的数据符合标准正态分布,转换函数为
$ {x^ * } = \frac{{x - \mu }}{\sigma } $ | (2) |
式中:
训练函数采用了CIOU Loss,CIOU Loss加入了一个影响因子,这个因子把预测框长宽比、拟合目标框的长宽比考虑进去,公式为
$ {\rm{CIOU}} = {\rm{IOU}} - \frac{{{\rho ^2}(b,{b^{{\rm{gt}}}})}}{c} - av $ | (3) |
式中:
$ v = \frac{4}{{{{\text{π}}^2}}}{\left(\arctan \frac{{{w^{\rm{gt}}}}}{{{h^{\rm{gt}}}}} - \arctan \frac{w}{h}\right)^2} $ | (4) |
式中:
$ {\rm{LOS}}{{\rm{S}}_{{\rm{CIOU}}}} = 1 - {\rm{IOU}} + \frac{{{p^2}(b,{b^{\rm{gt}}})}}{{{c^2}}} + av $ | (5) |
将敏感物品的识别与人体的姿态进行协同融合检测,从而达到驾驶员违规驾驶行为的识别的目的。
1)人体姿态算法OpenPose
OpenPose人体姿态识别算法[10]由美国卡耐基梅隆大学提出,可以实现人体动作、面部表情、手指运动等姿态估计。OpenPose使用的是联合的多branch分支,一个分支负责关键点的检测,另一个分支负责将关键点连接成骨架,再通过二分图匹配匈牙利算法。
2)算法融合策略
将待检测视频的同一帧同时送入LW-Yolov4网络模型和OpenPose模型,LW-Yolov4算法检测后得到敏感物品的位置信息以及置信度,OpenPose检测后得到人体关键点信息及手部的位置坐标。设定一个阈值,若连续1 s内检测到驾驶员的手指位置与敏感物品重合则判定驾驶员出现了违规驾驶行为,保留视频节点并进行语音提醒。算法融合流程如下:
1)将采集到的动作图片序列输入检测系统,对图片进行裁剪、缩放、中值滤波等图像预处理操作,获得416像素×416像素的图片,作为模型的输入;
2)将图片输入到LW-Yolov4模型中进行敏感检测,并得到敏感物的坐标;
3)将图片输入到OpenPose中获得手部关键点的坐标;
4)进行图片渲染,整合到一张图片上;
5)判断敏感物坐标是否与手部坐标重叠,若重叠则进行相应的预警。
3 实验分析本文的驾驶员行为识别分析系统是通过对比车内敏感物品的检测框位置与驾驶员手部位置坐标是否出现重合来判定驾驶员是否出现了违规驾驶行为的。因此,实验分为3个部分,分别为车内敏感物品的检测、人体关键点的检测以及视频融合与行为判定。
3.1 实验平台及数据实验数据来自淮安公共交运平台的驾驶员行车过程中的驾驶员视角的监控视频,视频数据大小为430 GB。视频像素大小为1280
将制作完成的VOC格式的数据集图片采用Mosaic数据增强方法进行裁剪、旋转以及缩放操作。LW-Yolov4训练参数的初始学习率设置为0.001,采用阶跃衰减学习率[27]调度策略,预测分类类别数设置为3(检测手机、水杯、香烟这三类敏感物品),经过2 000次的迭代训练。读取待检测视频的每一帧图像,通过训练好的网络模型进行敏感物品的检测。图5为日间行车敏感物品检测效果图,图6为灰度图像敏感物品检测效果图。
Download:
|
|
Download:
|
|
将送入LW-Yolov4网络模型的视频帧同时送入OpenPose进行人体关键点检测,得到人体关键点信息。结合敏感物品的检测窗口及姿态检测的信息对原视频每一帧进行渲染,并进行文本可视化,根据检测到的敏感物品以及手部信息在左上角给出文本进行提示,渲染后的效果图如图7、图8所示。
Download:
|
|
Download:
|
|
本文选取了3段驾驶员行车过程监控视频(10 800 f)进行检测,检测对象喝水、打电话、玩手机等违规驾驶行为。通过统计含有违规驾驶行为的帧数与检出违规驾驶行为的帧数计算检出率,检测结果如表3所示。
通过表3的数据可以看出,驾驶员的违规驾驶行为具有较高的检出率,3个视频的违规行为总体检出率为94.76%,其中喝水的平均检出率达到了95.90%,玩手机的平均检出率为94.65%,抽烟检出率为93.40%。整体来看,喝水的检出率略高于玩手机及抽烟的检出率。检测过程的FPS为21.36,能够满足驾驶员违规行为检测的准确性和实时性要求。
为了进一步验证LW-Yolov4算法的性能,本文对面前应用的主流算法进行训练,对比实验结果。评价指标为平均精度召回率mAP、精确率Priecision以及召回率Recall。实验结果如表4所示。
通过表4中的数据可以看出,LW-Yolov4算法的运行速度比Yolov4高出了9.1个百分点,比Yolov3高出了6.7个百分点。但是在精度上,LW-Yolov4下降的原因在于去除了部分权重较低的网络通道。与SSD、Faster-RCNN和R-FCN相比,本文提出的LW-Yolov4在速度和精度上均有了较大幅度的提升。根据实验结果可知,LW-Yolov4的算法优势在于,精度小幅下降的情况下,大幅提升了检测速度,能够满足实时检测的要求。为了进一步验证融合算法对于危险驾驶行为的检测效果,本文进行了协同检测算法的性能和精度对比。实验对比结果如表5所示。
在3类违规驾驶行为的综合检出率中,协同检测算法相较于Yolov4,检测精度提升了5.3%,检测速度提升了10%。相较于其他主流算法,融合检测算法的检测速度和精度也都具有明显的检测优势,检测精度提升5%以上,检测速度提升了10%以上。
由对比实验可以看出,本文提出的协同检测算法在检测精度、检测速度方面均有优势。
4 结束语本文提出的LW-Yolov4算法是在Yolov4的基础上通过精简网络模型改进得到的。通过LW-Yolov4算法与人体姿态算法进行融合从而达到检测驾驶员行车过程中违规行为的目的。目前众多深度学习算法模型在精度上表现都较为优越,但很多行业对数据的实时性处理要求较高,在检测速度上还未能完全得到满足。本文提出的LW-Yolov4算法在精度能够达到实际应用的同时大幅提高了检测的速度,能够满足基础的应用,但距离工业化的检测速度要求还有一定的差距。在未来目标检测的前进方向上,目标检测速度算法的提升仍会成为重点的研究方向。
[1] |
张慧, 王坤峰, 王飞跃. 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报, 2017, 43(8): 1289-1305. ZHANG Hui, WANG Kunfeng, WANG Feiyue. Advances and perspectives on applications of deep learning in visual object detection[J]. Acta automatica sinica, 2017, 43(8): 1289-1305. (0) |
[2] | LE T H N, ZHENG Yutong, ZHU Chenchen, et al. Multiple scale faster-RCNN approach to driver’s cell-phone usage and hands on steering wheel detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Las Vegas, USA, 2016: 46−53. (0) |
[3] |
李俊俊, 杨华民, 张澍裕, 等. 基于神经网络融合的司机违规行为识别[J]. 计算机应用与软件, 2018, 35(12): 222-227, 319. LI Junjun, YANG Huamin, ZHANG Shuyu, et al. Driver’s illegal behavior recognition based on neural network fusion[J]. Computer applications and software, 2018, 35(12): 222-227, 319. (0) |
[4] |
魏泽发. 基于深度学习的出租车司机违规行为检测[D]. 西安: 长安大学, 2019. WEI Zefa. Taxi driver violation detection based on deep learning[D]. Xi’an: Chang’an University, 2019. (0) |
[5] | LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//14th European Conference on Computer Vision. Amsterdam, The Netherlands, 2016: 21−37. (0) |
[6] | SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10)[2020-12-03] https://arxiv.org/abs/1409.1556. (0) |
[7] | JIN Chongchong, ZHU Zhongjie, BAI Yongqiang, et al. A deep-learning-based scheme for detecting driver cell-phone use[J]. IEEE access, 2020, 8: 18580-18589. DOI:10.1109/ACCESS.2020.2968464 (0) |
[8] | HUANG Chen, WANG Xiaochen, CAO Jiannong, et al. HCF: a hybrid CNN framework for behavior detection of distracted drivers[J]. IEEE access, 2020, 8: 109335-109349. DOI:10.1109/ACCESS.2020.3001159 (0) |
[9] | HE Anqing, CHEN Guohua, ZHENG Wei, et al. Driver cell-phone use detection based on CornerNet-Lite network[C]//OP Conference Series: Earth and Environmental Science. Smolensk, Russian, 2021: 042004. (0) |
[10] | LAW H, TENG Yun, RUSSAKOVSKY O, et al. Cornernet-lite: efficient keypoint based object detection[EB/OL]. (2019-04-18)[2020-12-03] https://arxiv:1904.08900.2019. (0) |
[11] | MASOOD S, RAI A, AGGARWAL A, et al. Detecting distraction of drivers using convolutional neural network[J]. Pattern recognition letters, 2020, 139: 79-85. DOI:10.1016/j.patrec.2017.12.023 (0) |
[12] | BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL].(2020-04-23)[2020-12-03] https://arxiv.org/abs/2004.10934. (0) |
[13] | REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL].(2018-04-08)[2020-12-03] https://arxiv.org/abs/1804.020767. (0) |
[14] | TAN Mingxing, PANG Ruoming, LE O V. EfficientDet: scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA, 2020: 10778−10787. (0) |
[15] | REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149. DOI:10.1109/TPAMI.2016.2577031 (0) |
[16] | LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of the 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2999−3007. (0) |
[17] | DAI Jifeng, LI Yi, HE Kaiming, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 379−387. (0) |
[18] | CAO Zhe, HIDALGO G, SIMON T, et al. OpenPose: realtime multi-person 2D pose estimation using part affinity fields[J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 43(1): 172-186. DOI:10.1109/TPAMI.2019.2929257 (0) |
[19] | HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824 (0) |
[20] | LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA, 2018: 8759−8768. (0) |
[21] | LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 936−944. (0) |
[22] | REZATOFIGHI H, TSOI N, GWAK J Y, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]//Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA, 2019: 658−666. (0) |
[23] | YUN S, HAN D, CHUN S, et al. Cutmix: regularization strategy to train strong classifiers with localizable features[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South), 2019: 6022−6031. (0) |
[24] | WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, USA, 2020: 1571−1580. (0) |
[25] |
赵传君, 王素格, 李德玉. 跨领域文本情感分类研究进展[J]. 软件学报, 2020, 31(6): 1723-1746. ZHAO Chuanjun, WANG Suge, LI Deyu. Research progress on cross-domain text sentiment classification[J]. Journal of software, 2020, 31(6): 1723-1746. (0) |
[26] |
王岩. 深度神经网络的归一化技术研究[D]. 南京: 南京邮电大学, 2019: 1179−1185. WANG Yan. Analysis of normalization for deep neural networks[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019: 1179−1185. (0) |
[27] | ZHANG Shuang, SONG Zongxi. An ethnic costumes classification model with optimized learning rate[C]//The 11th International Conference on Digital Image Processing. Guangzhou, China, 2019: 1179−1185. (0) |