Road target detection for autonomous driving in complex traffic scenes
-
摘要: 针对复杂交通场景下自动驾驶汽车对遮挡目标以及小目标漏检情况严重、精度较低的问题,本文提出改进的YOLOv4目标检测方法。首先提出一种新的非极大值抑制算法Soft-DIoU-NMS以提升算法对遮挡目标的精确定位能力,其次改进K-means聚类算法生成更准确的候选框,最后引入焦点损失缓解样本之间的不均衡问题。实验结果表明,改进后的YOLOv4检测精度达到89.91%,检测速度达到35.52 f/s,能够很好地解决复杂交通场景的目标检测问题。Abstract: Aiming at the problems of low accuracy and serious missed detection of occlusion targets and small targets by autonomous vehicles in complex traffic scenarios, an improved YOLOv4 target detection method is proposed in this paper. Firstly, a new non-maximum suppression algorithm—Soft-DIoU-NMS, is proposed to improve accuracy of the occlusion target location. Secondly, the K-means clustering algorithm is improved to generate a more accurate candidate box. Finally, the focus loss is introduced to alleviate the imbalance between samples. The experimental results show that the improved YOLOv4 detection accuracy reaches 89.91% and the detection speed reaches 35.52 f/s, which helps to solve the problem of target detection in complex traffic scenes.
-
Keywords:
- automatic driving /
- object detection /
- YOLOv4 /
- non-maximum suppression /
- loss function /
- focus loss /
- deep learning /
- occlusion target /
- small target
-
对于自动驾驶而言,随着目标检测算法研究的不断深入,通用的目标检测算法已经基本能够满足一般交通场景下的目标检测问题。但在复杂交通场景下,存在大量的目标遮挡和小目标检测问题,检测精度难以满足要求。因此解决密集目标遮挡以及小目标检测问题是复杂交通场景下目标检测算法的关键,近年来也成为目标检测领域的研究热点。
李松江等[1]和Cai等[2]提出了Cascade R-CNN算法,通过4个阶段的级联分类器调整交并比(intersection overunion,IoU)阈值,减少了检测框的噪声干扰,对遮挡目标和小目标的检测精度有一定的提高;陈幻杰等[3]把目标进行分类处理,对于小占比目标,利用反卷积和区域映射操作,在高分辨率特征图上进行特征提取,实现了对小目标的检测;李轩等[4]针对遮挡问题提出了一种回归损失函数Occlusion Loss,可以使训练得到的预测框与真实框的匹配程度更高,从而获得更为准确的位置信息,有效解决了目标漏检的情况;采用基于回归YOLO系列算法处理速度快,正确率高,在实际工业部署中得到了广泛应用[5];YOLOv2[6-9]、YOLOv3[10]在YOLO算法的基础上进一步改进,使得检测效果进一步加强。但速度较快的基于回归的检测算法网络结构仍然较大。BOCHKOVSKIY等[11]对近几年来目标检测领域内比较优秀的算法进行移植和对比试验,提出了YOLOv4,对各种目标的检测效果大幅提升。
本文根据以往研究成果提出改进的YOLOv4目标检测算法,解决复杂交通场景下的常见道路目标检测问题。主要进行了3个方面的改进:改进非极大值抑制算法,提出Soft-DIoU-NMS,能够返回更准确的目标边界框;改进K-means聚类算法,生成更加准确的候选框;改进损失函数,引入焦点损失(focal loss),缓解样本之间的不平衡问题。改进后的YOLOv4算法能够在保证实时性的情况下,较为准确地检测出复杂交通场景下的遮挡目标和小目标,检测能力较为突出。
1. YOLOv4原理
$ YOLOv4网络结构主要由主干网络层、特征增强层和分类回归层组成。以输入图像分辨率416×416为例,首先将图像经过CSPDarknet53主干网络进行特征提取,然后先后通过SPP[12]和PANet[13]特征金字塔结构进行特征增强和融合处理,最终得到52×52、26×26和13×13这3种不同分辨率的特征图,最后通过分类回归层得到最终的检测结果。
YOLOv4的主干网络是Darknet53,其在YOLOv3[14]主干网络Darknet53的基础上添加了跨阶段初等网络(cross stage paritial network,CSPNet)[15]。CSPNet主要解决的是网络在优化过程中梯度信息重复引起的计算量过大的问题。CSPNet先将基础层的特征映射划分为2部分:一部分进行残差连接缓解梯度爆炸和过拟合问题,另一部分跳跃连接减少计算;然后通过跨阶段层次结构将它们合并,在保证准确率的同时减少了计算量,加快了训练速度。
在目标检测领域,为了更好地提取融合特征,通常在主干网络和输出层之间插入特征增强层,主要用于特征提取增强以及不同特征层之间的融合。YOLOv4的特征增强层主要采用了SPP模块和PANet模块。在SPP模块中,主干网络的输出经过4种不同尺度的最大池化(max pooling)操作,然后再将不同尺度的特征图进行拼接。SPP模块可以将不同分辨率的图像生成固定尺寸的图像,很大程度上增加感受野,分离出最显著的上下文特征,起到特征增强的作用;PANet模块对特征反复提取与融合,主要包含FPN和PAN这2个子模块。PANet通过2次特征金字塔操作,将FPN传达的强语义信息与PAN传达的强定位特征在对应的检测层上进行特征融合,可以在浅层网络和深层网络同时获取精准的定位信息和丰富的语义信息,提高小目标的检测能力和目标定位精度。
2. YOLOv4算法改进
2.1 非极大值抑制算法改进
非极大值抑制(non-maximum suppression,NMS)算法是一种广泛应用于计算机视觉领域的后处理算法,其本质思想是搜索局部最大值,抑制非极大值[16]。传统NMS算法核心的思想是通过迭代的方式,每当置信度得分最高的基准框M与预测框
$ {b}_{i} $ 的IoU值大于或等于阈值${N}_{t}$ 时,直接将$ {b}_{i} $ 的置信度$ {s}_{i} $ 置0,即直接过滤掉这些预测框。传统NMS的置信度重置公式为$$ {s}_{i}=\left\{\begin{array}{c}0,\text{IoU}(M,{b}_{i}) \geqslant {N}_{t}\\ 0,\text{IoU}(M,{b}_{i}) < N_t \end{array} \right. $$ 传统NMS在一般情况下效果良好,但难以解决遮挡较为严重的问题。由于目标之间互相遮挡,检测器产生的预测框排列十分紧密,传统NMS无法区分某个预测框隶属于哪个目标,使得本应属于另一个目标的预测框在算法中超过阈值而被抑制掉,最终导致漏检的情况。为此本文提出一种新的非极大值抑制算法Soft−DIoU−NMS,使用DIoU[17]作为距离的评判指标,并采用高斯衰减策略,其置信度重置公式为
$${s}_{i}=\left\{\begin{array}{c} {{s_i}f({\rm{DIoU}}(M,{b_i})),\;\; {\rm{DIoU}}(M,{b_i}) \geqslant {N_t}} \\ {{s_i}, \;\;{\rm{DIoU}}(M,{b_i}) < {N_t}} \qquad\qquad\quad\quad\;\; \end{array} \right. $$ 式中
$f({\text{DIoU}}(M,{b_i})) = {{\text{e}}^{ - \frac{{{\text{DIoU}}{{(M,{b_i})}^2}}}{\sigma }}}$ 。2.2 K-means聚类算法改进
K-means聚类作为生成先验框的重要算法对于先验框的准确性产生了重要的影响,距离度量作为数据之间的聚类依据,直接决定着最终的聚类结果。适当增大距离值可以缓解局部最优解的问题,提高生成先验框的准确率。本文为缓解局部最优问题,对聚类距离度量进行修改。修改前的距离度量公式为
$$ d(b,c) = 1 - {\text{IoU}}(b,c) $$ 式中:b为聚类的样本框,c为聚类中心。
修改后的距离度量公式为
$$ d(b,c) = \sqrt {1 - {\text{Io}}{{\text{U}}^2}(b,c)} $$ K-means聚类改变前后距离度量随IoU值改变的对比图如图1所示。由图1可知,实线为修改后的曲线,修改之后的距离度量函数值在IoU值域内总大于改变之前,这表明优化之后的距离度量的确可以放大IoU对距离的影响,提高聚类准确率。
2.3 损失函数改进
在训练目标检测模型的时候,损失函数作为样本评判的重要依据,很大程度上决定了模型最终收敛的效果。在YOLOv4算法中,损失函数由回归损失函数、分类损失函数以及置信度损失函数组成。其中回归损失采用CIoU Loss函数,分类损失函数和置信度损失函数均采用交叉熵损失函数,具体表示为
$$ \begin{gathered} L = {L_{{\text{location}}}} + {L_{{\text{confidence}}}} + {L_{{\text{class}}}} = \\ {\lambda _{{\text{coord}}}}\sum\limits_{i = 0}^{K \times K} {\sum\limits_{j = 0}^M {I_{ij}^{{\text{obj}}}(2 - {w_i} \times {h_i}) \times {L_{{\text{CIoU}}}}} } - \\ \sum\limits_{i = 0}^{K \times K} {\sum\limits_{j = 0}^M {I_{ij}^{{\text{obj}}}} } [\hat c_i^j\log (c_i^j) + (1 - \hat c_i^j)\log (1 - c_i^j)] - \\ {\lambda _{{\text{nobj}}}}\sum\limits_{i = 0}^{K \times K} {\sum\limits_{j = 0}^M {I_{ij}^{{\text{nobj}}}} } [\hat c_i^j\log (c_i^j) + (1 - \hat c_i^j)\log (1 - c_i^j)] - \\ \sum\limits_{i = 0}^{K \times K} {\sum\limits_{j = 0}^M {I_{ij}^{{\text{obj}}}} } \sum\limits_{c \in {N_{{\text{class}}}}} {[\widehat {p_{ci}^j}\log (p_{ci}^j) + } \\ (1 - \hat p_{ci}^j)\log (1 - p_{ci}^j)] & \\ \end{gathered} $$ 式中:Llocation为回归损失函数,Lconfidence为置信度损失函数,Lclass为类别损失函数,
$ {\lambda _{{\text{coord}}}} $ 和$ {\lambda _{{\text{nobj}}}} $ 分别为回归损失权重和不包含目标的置信度损失权重,K×K为特征图分成的网格个数,M为每个网格产生的先验框个数,$ I_{ij}^{{\text{obj}}} $ 、$ I_{ij}^{{\text{nobj}}} $ 分别为第i个网格的第j个先验框对目标负责和不负责,$ ({w}_{i},{h}_{i}) $ 为真实框中心在特征图网格中的位置,$ {c}_{i}^{j} $ 、$ \hat c_i^j $ 分别为预测框和真实框的置信度,$ {p}_{ci}^{j} $ 、$ \hat p_{ci}^j $ 分别为预测框和真实框的类别概率。目前基于anchor的目标检测算法在检测过程中产生大量的预测框样本,但其中只有小部分包含目标正样本,绝大多数预测框只包含背景负样本,正负样本数量相差悬殊。正样本一般情况下是易分类样本,这直接导致了容易分类的正样本占据了样本中的绝大多数,造成了严重的样本不均衡问题。
为解决复杂交通场景下目标相互遮挡且存在大量小目标,一定程度上会加剧样本不均衡的问题,本文引入焦点损失函数[18]代替交叉熵损失函数,焦点损失函数的表达式为
$$ {L}_{\text{focal}}(p,y)=\left\{\begin{array}{l}-\alpha {(}^{1}\mathrm{log}(p),\;\;y\text{=1}\\ -(1-\alpha ){p}^{\gamma }\mathrm{log}(1-p),\;\;\text{其他}\end{array} \right. $$ 式中:
$ a $ 为类别权重因子,$ \gamma $ 为调制因子。改进后的YOLOv4损失函数为
$$ \begin{gathered} &L = {L_{\rm{location}}} + {L_{\rm{confidence}}} + {L_{\rm{class}}} = \\ &\lambda_{\rm{coord}} \sum\limits_{i = 0}^{K \times K} {\sum\limits_{j = 0}^M I_{ij}^{{\rm{obj}}}(2 - {w_i} \times {h_i}) \times {L_{\rm{CIoU}}}} - \\ &\sum\limits_{i = 0}^{K \times K} \sum\limits_{j = 0}^M {I_{ij}^{\rm{obj}}}[\alpha {\hat{c_i}}^j{(1 - c_i^j)^{\gamma}}{\rm{log}}(c_i^j) + \\ &(1 - \alpha )(1 - {\hat {c_i}}^j){c_i}^{j^{\gamma}}{\rm{log}} (1 - c_i^j)]-\\ &{\lambda_{\rm{nobj}}}\sum\limits_{i = 0}^{K \times K} \sum\limits_{j = 0}^M {I_{ij}^{\rm{nobj}}} [\alpha {\hat{c_i}}^j{(1 - {c_i}^{j})^{\gamma}}{\rm{log}} (c_i^j) + \\ & (1-\alpha )(1 - {\hat{c_i}}^j){c_i}^{j^{\gamma}} {\rm{log}} (1-{c_i}^j)]-\\ & {\sum\limits_{i = 0}^{K \times K}} \sum\limits_{j = 0}^M {I_{ij}^{{\rm{obj}}}} \sum\limits_{c \in {\rm{class}}} [{\alpha {\hat {p}}_{ci}^j{{(1 - p_{ci}^j)}^{\gamma}}{\rm{log}} (p_{ci}^j) + } \\ &(1 - \alpha )(1 - {\hat p}_{ci}^j){p_{ci}^{j^{\gamma}}}{\rm{log}} (1 - p_{ci}^j)] \end{gathered} $$ 3. 实验及结果分析
3.1 实验环境及数据集处理
本文在训练过程中涉及到大量的图片处理和计算过程,需要一定的软硬件要求,具体的软硬件环境如下。操作系统:Windows10专业版;CPU:Inter i7-8700 3.20GHz;GPU:NVIDIA GTX 1080Ti;内存:32GB内存,16GB显存;编程语言:Python3.6;CUDA:Cuda10.0;Cudnn:Cudnn7.4;深度学习框架:tensorflow、keras。
本次实验选取的通用数据集包括PASCAL VOC2007、MS COCO2017和KITTI自动驾驶数据集,为适应本文对复杂交通场景下常见道路目标的检测,需对这3种数据集标注信息进行处理,去除多余的标注信息并将剩下的数据集标签改为“vehicle”、“person”、“bicycle”、“motorbike”。此外,针对复杂交通场景,本文手动标注了复杂交通场景(complex traffic scene,CTS)数据集,CTS数据集含有更多的遮挡目标和小目标,可以提高模型对复杂交通场景下目标的检测能力。实验选用的训练集是本文提出的CTS数据集和KITTI目标检测数据集,各交通场景下每张图片最多包含40个目标,包含较多的遮挡目标和小目标。实验数据集共包含14797张图片,按8∶1∶1的比例将数据集分为训练集、测试集和验证集,得到训练集图片11839张,测试集和验证集图片各1479张。
3.2 训练策略
本文实验使用深度学习框架tensorflow-gpu 1.13.1和Keras 2.1.5对改进前后的YOLOv4算法进行训练。训练时,初始阶段图片批量大小设置为32,即一次性加载32张图片进入内存,初始学习率设为0.001,采用自适应矩估计(Adam)优化器优化模型,迭代5000次之后,图片批量大小改为8,使用keras中的“ReduceLROnPlateau”函数对学习率进行衰减。关注模型的性能,当迭代3次而模型性能不提升时,后一次训练的学习率变为原来的0.9,同时使用“EarlyStopping”函数对验证集损失进行监控,当迭代3次而模型性能不提升时,停止训练,加快训练速度。
3.3 实验结果与分析
3.3.1 遮挡目标检测实例
复杂交通场景之下目标之间相互遮挡,原始算法存在漏检问题。如图2近处较为密集致使目标之间存在一定的遮挡,原始YOLOv4算法结果如图2(a)所示,近处5辆汽车仅仅检测出了3辆,对于后面遮挡较为严重的2辆汽车出现了目标漏检问题,严重影响检测结果。改进后的YOLOv4算法检测结果如图2(b)所示,算法可以返回更为准确的目标边界框,能够很好地检测出被遮挡的汽车目标,检测更为准确。
3.3.2 小目标检测实例
为了比较直观地显示算法对小目标的检测能力,实验选取汽车行车记录仪摄像头视频,分别使用修改前后的YOLOv4算法进行复杂交通目标检测,该视频共456帧,每隔150帧记录一次检测结果。图3展示了YOLOv4改进前后对该视频流的部分检测效果对比图。
由图3可以看出,在第151帧图像中,图像右侧区域存在多个小目标和密集目标,改进之前的YOLOv4算法对此区域出现了大量的漏检情况,改进之后的YOLOv4算法就不会出现目标漏检的问题。在第301帧图像中,目标受遮挡程度不大且较为明显,改进前后的算法均能够成功检测出所有目标,但改进之后的YOLOv4算法的检测置信度明显更高,检测性能更好。以图中局部放大行人目标和汽车目标为例,改进后的行人目标置信度提升到0.85,汽车目标置信度提升到0.99,与改进前相比分别提升了0.44和0.09。在第451帧图像中,图像左侧存在3个小目标且较为模糊,改进之前的YOLOv4算法漏检了这些目标,而改进之后的YOLOv4算法则有效地将这些小目标检测出来。由检测结果可知,改进之后的YOLOv4算法不仅提升了检测目标的置信度,也检测出了之前漏检的目标,检测能力明显提升。
3.3.3 算法综合检测能力对比实验
为了实验改进前后YOLOv4算法对于多类别的综合检测能力,本小节分别在CTS、VOC2007、COCO2017以及KITTI数据集中通过各类别的平均精度均值(mean average precision,mAP)对算法进行评估。实验过程中,置信度阈值取0.5,非极大值抑制阈值取0.3。
图4给出了YOLOv4算法改进前后不同数据集上对于常见道路目标检测的平均精度变化情况。在本文提出的CTS数据集上,mAP值从改进前的85.15%提升到89.91%;在较为简单的VOC2007数据集上,检测精确率能够达到更高的水平,YOLOv4算法在改进前mAP值为88.90%,改进后达到了91.16%;在较为复杂的COCO2017数据集上,检测精确率与CTS数据集相比下降不多,YOLOv4改进前的mAP值为81.50%,改进后提升到84.16%;在自动驾驶交通场景数据集KITTI上,检测能力也较为突出,YOLOv4改进前后mAP值从86.17%提升到88.53%。这些实验结果表明,改进后的YOLOv4算法对小目标和遮挡目标检测效果不佳、漏检率较高的问题具有一定的解决能力,使得算法在复杂交通场景中依然具有很高的综合检测能力,且适合不同交通场景,能够满足自动驾驶汽车的实际要求。
3.3.4 本文算法与其他算法结果对比
本小节将改进后的YOLOv4算法与Faster R-CNN、SSD、YOLO、YOLOv4等目标检测算法在CTS数据集上进行对比实验,选取的评价指标为mAP以及帧率。
表1给出了不同算法的目标检测评估结果。从评价结果分析可知,改进后的YOLOv4目标检测算法在精确率方面远远领先于其他算法,达到了89.91%;在检测速度方面,检测速度达到35.52 f/s,虽然与YOLO和YOLOv4相比有所下降,但仍能满足自动驾驶30 f/s的实时性要求,充分说明本文提出的YOLOv4改进算法的有效性。
表 1 不同目标检测算法结果对比算法 平均精度均值/% 帧率/(f·s−1) Faster R-CNN 71.42 3.98 SSD 73.36 31.73 YOLO 68.56 38.52 YOLOv4 85.15 36.78 改进的YOLOv4 89.91 35.52 4. 结论
1)针对复杂交通场景下目标遮挡问题,基于CIoU Loss回归损失函数,本文提出了Soft-1DIoU-NMS非极大值抑制算法作为后处理算法,使得改进后的YOLOv4算法能够提高目标定位精度。实验结果表明,改进后的YOLOv4算法能够有效解决目标遮挡问题,在各种数据集上均能发挥突出的检测性能,具有良好的泛化能力。虽然检测速度略有下降,但依然能够满足自动驾驶汽车实时性要求。
2)对复杂交通场景下小目标检测问题,提出改进的K-means方法,获得更加准确的先验框,为解决样本不均衡的问题,引入焦点损失修改损失函数,同时训练时使用Mosaic数据增强方法增加小样本以丰富数据集。实验结果表明,改进后的YOLOv4算法能够提升召回率和精确率,对小目标漏检和虚检问题解决能力突出,同时算法在各种数据集上检测精度均有不同程度的提升,具备复杂交通场景下良好的道路目标综合检测能力。
3)本文使用的YOLOv4是一种基于anchor的目标检测算法,此类方法先在特征图上生成大量的anchor后进行分类和位置精修,但是大量冗余的anchor造成正负样本不均衡的问题,并且需要额外的非极大值抑制后处理算法,损害了算法的实时性。因此基于anchor-fre 的目标检测算法将会是一个比较重要的突破点,值得继续开发研究。
-
表 1 不同目标检测算法结果对比
算法 平均精度均值/% 帧率/(f·s−1) Faster R-CNN 71.42 3.98 SSD 73.36 31.73 YOLO 68.56 38.52 YOLOv4 85.15 36.78 改进的YOLOv4 89.91 35.52 -
[1] 李松江, 吴宁, 王鹏, 等. 基于改进Cascade RCNN的车辆目标检测方法[J]. 计算机工程与应用, 2021, 57(5): 123−130. doi: 10.3778/j.issn.1002-8331.2005-0416 [2] CAI Zhaowei, VASCONCELOS N. Cascade R-CNN: delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6154-6162. [3] 陈幻杰, 王琦琦, 杨国威, 等. 多尺度卷积特征融合的SSD目标检测算法[J]. 计算机科学与探索, 2019, 13(6): 1049−1061. doi: 10.3778/j.issn.1673-9418.1810005 [4] 李轩, 李静, 王海燕. 密集交通场景的目标检测算法研究[J]. 计算机技术与发展, 2020, 30(7): 46-50. [5] 刘学平, 李玙乾, 刘励, 等. 嵌入SENet结构的改进YOLOV3目标识别算法[J]. 计算机工程, 2019, 45(11): 243−248. [6] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//CVPR 14: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: ACM, 2014: 580-587. [7] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1440-1448. [8] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137−1149. doi: 10.1109/TPAMI.2016.2577031 [9] CÁCERE HERNÁNDEZ D, FILONENKO A, SHAHBAZ A, et al. Lane marking detection using image features and line fitting model[C]//2017 10th International Conference on Human System Interactions (HSI). Piscataway: IEEE, 2017: 234-238. [10] LI Yadan, HAN Zhenqi, XU Haoyu, et al. YOLOv3-lite: a lightweight crack detection network for aircraft structure based on depthwise separable convolutions[J]. Applied sciences, 2019, 9(18): 3781. doi: 10.3390/app9183781 [11] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. [2021-10-08]. https://doi.org/10.48550/arXiv.2004.10934. [12] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//European Conference on Computer Vision. Cham: Springer, 2014: 346-361. [13] LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8759-8768. [14] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-08-06]. https://doi.org/10.48550/arXiv.1804.02767. [15] WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway: IEEE, 2020: 1571-1580. [16] 张沁怡. 基于深度卷积网络的人车检测及跟踪算法研究[D]. 北京: 北京邮电大学, 2019. [17] ZHENG Zhaohui, WANG Ping, LIU Wei, et al. Distance-IoU loss: faster and better learning for bounding box regression[J]. Proceedings of the AAAI conference on artificial intelligence, 2020, 34(7): 12993−13000. doi: 10.1609/aaai.v34i07.6999 [18] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE transactions on pattern analysis & machine intelligence, 2017(99): 2999−3007.





下载:


