中国科学院大学学报  2024, Vol. 41 Issue (6): 810-820   PDF    
基于双帧融合的野外运动小目标检测网络
赵筱晗1,2, 张泽斌1, 李宝清1     
1. 中国科学院上海微系统与信息技术研究所微系统技术重点实验室, 上海 201800;
2. 中国科学院大学, 北京 100049
摘要: 由于野外监控传感系统中背景干扰较多、小目标像素点较少以及缺乏相关公开数据集等因素,在野外复杂环境中检测运动小目标仍然是国防军事应用中一个具有挑战性的问题。针对这一问题,提出一种基于YOLOv5改进的双帧融合目标检测网络(YOLO-DFNet)。首先,提出双帧融合模块用来处理骨干网络输出的相邻帧特征,通过计算通道及时间维度的注意力和空间注意力,提取运动特征;其次,在颈部网络与检测头之间设计一个时间梯形融合网络,关注不同大小感受野上的运动目标,改善大位移小目标的检测效果。在野外运动小目标数据集FMSOD上的实验结果表明:YOLO-DFNet在不同IoU上的平均精度比YOLOv5算法提高3.9个百分点,同时也优于TPH-YOLOv5、YOLOv7等其他目标检测网络。
关键词: 目标检测    野外监控传感网    运动小目标    双帧融合    时空注意力    
Field dynamic small object detection network based on double frame fusion
ZHAO Xiaohan1,2, ZHANG Zebin1, LI Baoqing1     
1. Key Laboratory of Microsystem Technology, Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences, Shanghai 201800, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Detecting dynamic small objects in complex environments in the field remains a challenging problem for defense and military applications due to factors such as more background interference in the field surveillance sensing systems, fewer pixels of small targets, and the lack of relevant open datasets. In order to solve this problem, a YOLOv5-based object detection network with double frame feature fusion (YOLO-DFNet) is proposed. Firstly, a double frame feature fusion module(D-F fusion) is introduced to process the adjacent frame features from the backbone network, calculating attention in channel, time, and space dimensions successively, to extract motion features. Secondly, a temporal trapezoidal fusion network based on an attention mechanism(TTFN_AM) is designed between the neck network and the detection head to focus on dynamic objects within receptive fields of different sizes, thereby improving the detection effect of small objects with large displacement. The experimental results on field motion small object dataset (FMSOD) show that the mean average precision (mAP) on different IoUs of the proposed YOLO-DFNet is 3.9 percentage points higher than that of YOLOv5, and also outperforms other object detection models such as Tph-YOLOv5 and YOLOv7.
Keywords: object detection    field monitoring sensor network    dynamic small object    double-frame feature fusion    spatial-temporal attention    

野外监控传感系统通常由声音、震动、红外、图像等传感器组成,负责在特定范围内探测入侵目标,并将目标的一系列相关信息提供给决策者。为了直接获取目标的外部特征信息,图像传感器在野外传感系统中获得了广泛应用。由于野外场景比较复杂,目前野外监控传感系统中图像传感器目标检测模型查准率偏低,目标框预测精度差。

野外监控传感系统中的目标检测在国防军事领域具有重要应用,复杂环境中的小目标检测是这项任务的难点之一。运动小目标检测是指检测距离较远、像素占比较小的运动目标(如车辆、行人等)的一种目标检测技术。然而,在复杂的野外环境里,一些运动目标,尤其是运动小目标,外部特征可能与背景中的杂物极其相似,并且车辆目标在行驶过程中存在灰尘拖尾遮挡等问题,为小目标检测任务带来极大的挑战。

针对运动目标检测,目前的一些研究基于像素级,在序列图像中检测出变化区域并将运动目标从背景图像中提取出来,如光流法[1]、帧差法[2]、背景差法[3]、ViBE算法[4]等。光流法难以提取大位移的小目标;帧差法与背景差法的融合方法能有效抑制移动的背景边缘和残留噪声干扰[5],但难以区分运动小目标与噪声;基于ViBE的算法则需要建立背景模型,在实时运动目标检测跟踪中具有良好的性能[6],但难以应对低帧率条件。为了提高精度、应对各种复杂情况,基于视频目标的检测方法常常将图像分割与目标识别一同交给深度神经网络处理,但不能满足野外监控传感系统中低功耗、低计算量的要求。因此,基于深度学习的单帧图像目标检测算法成为改善复杂背景环境下低帧率运动小目标的检测性能的一个重要方向。

随着深度学习的发展,基于深度学习的视觉目标检测算法已经得到了广泛应用,可以划分为2类,一类是以R-CNN系列[7-9]为代表的2阶段目标检测算法(two-stage);另一类是以YOLO系列[10-13]、SSD系列[14-16]为代表的单阶段目标检测算法(one-stage)。上述常见算法虽已在通用目标检测领域取得了较好成绩,但针对野外小目标检测,难度依然较大。为解决小目标难以检测的问题,一些研究从改善特征融合网络的结构入手,例如特征金字塔网络(feature pyramid networks, FPN)[17]首次通过构造多尺度特征融合,提高小目标的检测性能;PANet[18]对FPN进行了优化,通过融合自底向上和自顶向下2条路径的方式增强了骨干网络的表征能力;AFFSSD[19]通过在SSD算法中引入注意力机制进行特征融合,获得细节和语义信息更丰富的特征图,使得检测小目标的精度高于传统的SSD框架;TPH-YOLOv5[20]在YOLOv5的基础上加入Transformer、卷积注意力模块(convolutional block attention module, CBAM)等技术,使其专注于无人机小目标的检测。这些方法针对的场景大多是MS COCO和PASCAL VOC等通用目标检测数据集,没有考虑到小目标与野外背景可能高度相似以及运动目标造成的灰尘拖尾会干扰目标定位等问题,也没有利用相邻运动图像帧之间信息的高度相关性,对野外场景中小目标检测的效果较差。因此,针对这些问题,需要充分利用运动信息,设计一个检测精度高、定位精准的网络模型。

为了利用运动信息提升检测精确率与定位精准度,本文提出一种基于改进YOLOv5的双帧融合运动小目标检测算法YOLO-DFNet。主要内容如下:1)为了提取运动特征,将当前运动帧图像和前一帧图像输入到同一个网络中,分别提取输出特征图后经过双帧融合模块处理,使注意力机制既能关注到当前帧感受野内的周围点位又能关注到前一帧感受野内的各个点位;2)为了提升小目标的检测效果,需要增强低级特征的表达能力,所以在YOLOv5骨干网络和颈部网络形成双向融合的基础上,引入坐标注意力和swin transformer,结合双帧融合模块在颈部网络与检测头之间设计了一个时间梯形融合网络。该网络中低级特征的自注意力能更好地关注到速度慢或像素少的目标,高级特征的自注意力能更好地关注到速度快或像素多的目标。两者结合,可提高定位和检测的精度。

1 YOLOv5基本原理

YOLOv5是Ultralytics公司于2020年发布的YOLO系列最新一代的目标检测算法,包含YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x等多种不同规模的网络。因其更好地实现了检测速度和检测精度的平衡,在计算机视觉领域受到广泛关注,是目前常用的目标检测算法之一。它的核心思想是将目标检测任务视为分类和定位的回归问题,利用整张图作为网络的输入,通过一个端到端的卷积神经网络对输入进行直接预测,得到目标的位置和类别概率。相比于YOLOv4,YOLOv5具有权重文件小、网络结构使用灵活、训练和推理速度更快的特点。以YOLOv5s 6.0为例,网络整体结构如图 1所示。

Download:
图 1 YOLOv5s 6.0网络整体结构 Fig. 1 YOLOv5s 6.0 network structure

YOLOv5包括输入端(input)、骨干网络(backbone)、颈部网络(neck)和检测头(head)4个部分。输入端对图片进行自适应缩放,并沿用YOLOv4采用的mosaic数据增强方法对输入进行增强。为计算不同数据集的最佳锚框值,输入端还加入了自适应锚框计算功能。骨干网络主要用于特征提取,为减少网络的参数量和计算复杂度、提高训练速度,YOLOv5在这一部分加入focus模块,对输入图像进行切片。YOLOv5的颈部网络采用PANet结构,对骨干网络提取的特征进行多尺度融合,其中卷积采用与骨干网络不同的CSP结构,具有更好的鲁棒性和多样性。检测头主要包含损失计算和非极大值抑制(non-maximum suppression, NMS)等,对目标进行分类和定位,并输出最终的检测结果。

2 改进YOLOv5的YOLO-DFNet

YOLOv5在COCO和PASCAL VOC数据集上的实验表现优秀,证明了其在检测精度方面的提升,且因其更好地平衡了模型大小和检测效果,备受整个领域的关注。但YOLOv5算法针对的是通用目标检测,设计网络时并未过多考虑具有运动信息的弱小目标的特点。因此,本文针对野外复杂环境中传感器帧率低、运动目标像素低以及受到噪声和汽车拖尾等干扰的特点,对YOLOv5网络进行改进和优化,以适用于复杂背景下的运动小目标场景。

2.1 网络整体结构

本文提出一种基于YOLOv5改进的双帧融合目标检测算法,建立YOLO-DFNet网络,如图 2所示。网络同时将相邻帧运动图像作为输入,在骨干网络特征提取阶段采用非冻结参数的方式共享参数,充分学习前后帧特征的相关性。为提高网络对帧间运动信息的利用度,提出双帧融合模块(double-frame fusion,D-F fusion),在P2-4级将双帧特征进行融合,充分利用骨干网络提取的特征信息,提高网络提取运动特征的能力。最后,在骨干网络、颈部网络以及双帧融合模块形成的多向、多级融合的基础上,在YOLOv5的颈部网络和检测头之间,设计了一个时间梯形融合网络(temporal trapezoidal fusion network based on attention mechanism,TTFN_AM),让小区域的预测框能获得大区域上的运动特征信息,以提高小目标定位和检测的精度。

Download:
图 2 YOLO-DFNet网络整体结构 Fig. 2 YOLO-DFNet network structure

YOLO-DFNet没有直接使用传统帧差法或背景法获取运动特征,而是通过神经网络学习相邻帧图像间有用的运动特征信息,输入到检测头中得到检测结果,获得的特征信息比帧差法更丰富。且避免了背景法的背景建模耗时缺陷,从而改善运动小目标图像特征。

2.2 D-F fusion模块

YOLOv5颈部网络采用PANet结构进行特征融合,通过双向融合高分辨率的低级特征和低分辨率的高级语义特征,提高网络的定位能力和检测精度。但是野外复杂环境中的运动小目标图像外观和几何线索很少,再加上尺寸有限以及缺少大规模小目标数据集等限制因素,YOLOv5很难从图像中提取足够的特征信息,从而影响识别和定位的准确性。相邻帧图像可以为网络提供更多的运动特征信息,但研究发现,传统的帧差法容易造成图像噪声特征增加、信息丢失等问题,导致检测效果并不理想。针对上述问题,本文引入卷积注意力[21],提出一个双帧融合模块D-F fusion,具体结构如图 3所示,图中$ \otimes$表示元素级相乘,中间采用广播机制进行维度变换和匹配。

考虑到野外传感器的低功耗、低帧率的特点,D-F fusion模块仅将当前帧图像特征和前一帧图像特征作为模块的双通道输入。由于检测对象主要为特征信息少的小目标,网络应该更注重感受野小的特征,因此,本模块选择对backbone P2-4级特征进行提取。考虑到噪声特征的影响,提取的特征逐像素相加将导致当前帧图像特征受到前一帧图像噪声的干扰,因此,本模块选择将提取的特征进行拼接,$\boldsymbol{F} \in \mathbb{R}^{2 C \times H \times W}$

Download:
图 3 D-F fusion的结构 Fig. 3 The framework of D-F fusion

拼接后的特征首先经过通道注意力模块(channel attention module,CAM)处理。CAM基于特征图的宽度和高度同时采用全局平均池化和最大池化方法,将每一个通道的二维特征信息编码为一个参数,实现对空间方向上的特征压缩编码,用于聚合通道的全局信息。经过池化后的通道向量与池化前融合特征维度一致,为$\boldsymbol{M}_{\mathrm{C}} \in$ $\mathbb{R}^{C \times 1 \times 1}$。之后将该特征输入到一个共享的多层感知机网络(multi-layer perceptron,MLP)中,产生最终的通道注意力特征向量$\boldsymbol{M}_{\mathrm{C}} \in \mathbb{R}^{C \times 1 \times 1}$,并通过sigmoid激活函数计算出归一化注意力权重。最后,通过元素级相乘的方式,将计算出的通道注意力逐通道加权到原始特征图上,在通道维度上完成对原始特征的重新标定。综上,CAM计算公式可以表达为

$ \begin{align*} \boldsymbol{M}_{\mathrm{C}}(\boldsymbol{F}) & =\sigma(\operatorname{MLP}(\operatorname{AvgPool}(\boldsymbol{F}))+\operatorname{MLP}(\operatorname{MaxPool}(\boldsymbol{F}))) \\ & =\sigma\left(W_{1}\left(W_{0}\left(\boldsymbol{F}_{\text {avg }}^{\mathrm{ch}}\right)\right)+W_{1}\left(W_{0}\left(\boldsymbol{F}_{\max }^{\mathrm{C}}\right)\right)\right), \end{align*} $ (1)

式中:$\boldsymbol{F}_{\mathrm{arg}}^{\mathrm{Ch}}$$\boldsymbol{F}_{\text {max }}^{\mathrm{Ch}}$分别表示空间方向上的平均池化特征和最大池化特征(Ch表示channel),W0W1分别为MLP中2个全连接层的参数,维度分别为C/γ×CC×C/γγ为缩放因子,用于降低计算量,σ表示sigmoid激活层。由于CAM的输入是双帧经过卷积后的特征,所以得到的注意力权重代表的是卷积区域在双帧上各通道的注意力。

经CAM输出的特征图进入空间注意力模块(spatial attention module,SAM),在这个模块中,首先基于通道进行全局最大池化和平均池化,经池化后的特征为$\boldsymbol{M}_{\mathrm{s}} \in \mathbb{R}^{1 \times H \times W}$。将这2个1×H×W的特征图在通道维度上做拼接操作,得到$\boldsymbol{M}_{\mathrm{s}} \in$ $\mathbb{R}^{2 \times H \times W}$。接下来,为更好地建立空间特征相关性,该特征通过1个卷积核为7×7的卷积操作和ReLU激活函数,降维为1个通道,有效地减少了参数和计算量,并通过sigmoid激活函数标准化处理,生成最后的空间注意力特征向量$\boldsymbol{M}_{\mathrm{s}} \in$ $\mathbb{R}^{1 \times H \times W}$。最后,将计算出的空间注意力与通道注意力输出的特征图进行元素级相乘,以进行自适应特征优化,完成空间和通道2个维度上对特征图的重标定。SAM计算公式可以表达为

$ \begin{align*} \boldsymbol{M}_{\mathrm{s}}(\boldsymbol{F}) & =\sigma\left(f^{7 \times 7}([\operatorname{AvgPool}(\boldsymbol{F}) ; \operatorname{MaxPool}(\boldsymbol{F})])\right) \\ & =\sigma\left(f^{7 \times 7}\left(\left[\boldsymbol{F}_{\mathrm{arg}}^{\mathrm{s}} ; \boldsymbol{F}_{\max }^{\mathrm{s}}\right]\right)\right), \end{align*} $ (2)

式中:f7×7表示卷积核为7×7的卷积操作,$\boldsymbol{F}_{\mathrm{avg}}^{\mathrm{s}}$$\boldsymbol{F}_{\text {max }}^{\mathrm{s}}$分别表示通道方向上的平均池化特征和最大池化特征(s表示spatial)。由于SAM的输入含有双帧经过卷积后的特征,所以SAM计算出的空间注意力权重能一定程度上代表感受野内的特征运动信息,越大的感受野能关注到越长距离的运动。

经过D-F fusion模块后,输出的特征图将得到双帧特征图像中通道和时空维度上的注意力权重,可有效提高2帧特征信息在通道和时空上的联系,使网络更关注具有运动特征的区域,更有利于识别与背景高度相似或被遮挡的目标。最后,融合后的运动特征信息在颈部网络的后半部分而不是前半部分接入,修正单张图片的预测效果,以减少参数更新,同时使修正效果更加明显。

2.3 基于注意力机制的时间梯形融合网络

本节利用骨干网络、颈部网络以及双帧融合模块构成的双向多级融合,引入坐标注意力(coordinate attention,CA)[22]和一种局部窗口自注意力机制(swin transformer,STR)[23],设计了一个时间梯形融合网络TTFN_AM,结构如图 4(a)所示。经过D-F fusion的图像特征在颈部网络和检测头之间以时间梯形的形式连接,使网络能够充分融合双帧间深层和浅层信息,增强运动小目标识别和定位能力。此外,由于这种设计,每次计算的当前帧通过骨干网络的前向传播计算都能在下一次计算中复用,实际上监测过程中的每帧图像只需要计算一次骨干网的前向传播,降低了计算成本。

Download:
图 4 TTFN_AM示意图和其中每个feature fusion结构 Fig. 4 The diagram of TTFN_AM and each feature fusion

图 4(a)Pi表示backbone中第i级的特征图,Oi表示TTFN_AM模块的输出特征图,Di表示检测头输出,Fi表示neck阶段生成的中间特征图,计算公式为

$ \begin{gathered} \boldsymbol{F}_{i}=\\ \begin{cases}\operatorname{CBS}\left(\operatorname{CSP}\left(\operatorname{Concat}\left(\boldsymbol{P}_{i}, \operatorname{Upsample}\left(\boldsymbol{F}_{i+1}\right)\right)\right)\right), & i \neq 2, \\ \operatorname{Upsample}\left(\boldsymbol{F}_{i+1}\right), & i=2 .\end{cases} \end{gathered} $ (3)

TTFN_AM具有时间梯形、跳跃连接的特点。时间梯形路径通过向深层传递浅层特征的细节信息,提高运动特征的提取能力与大目标的识别能力,通过向浅层传递深层的运动特征,增强小目标识别与定位能力。为融合更多特征信息,还添加了跳跃连接,在检测头前面的TTFN_AM融合部分,每一个节点都有多个来自网络不同阶段的输入节点,包括backbone骨干网络提取的特征信息、D-F fusion模块融合的双帧信息以及neck颈部网络融合的特征信息,共同作用了最终的结果。此外,为改善多特征融合效果,TTFN_AM引入了坐标注意力CA和一种局部窗口自注意力机制STR。TTFN_AM中每个feature fusion(图 4(a)中为Oi)的具体结构如图 4(b)所示。图 4(b)中CA_x表示串联x个CA模块,STR_x表示串联x个STR模块。

CA和STR结构分别如图 5(a)5(b)所示。当D-F fusion及颈部网络中的特征输入TTFN_AM中时,特征首先会经过空间金字塔池化层(spatial pyramid pooling, SPP),实现局部特征和全局特征的融合,丰富最终特征图的表达能力。为了有效地提取小目标特征信息,特征图接下来输入CA中,其目的是告诉网络哪些内容和位置更需要被关注,进一步提高检测的准确率。

Download:
图 5 CA和STR机制的具体结构 Fig. 5 The structure of CA and STR

CA是一个轻量级的注意力模块,在本部分中,CA将双帧及neck网络融合后的特征信息加入通道注意力中,使网络能够关注更大范围的位置信息。为避免以往常见注意力机制中提出的二维全局池化造成的位置信息丢失问题,提高长距离关系提取的能力,CA将通道注意力分解为2个平行的一维向量的编码操作,分别在2个方向聚合特征到通道注意力中。一个方向捕捉到长距离依赖关系,同时另外一个方向能够保留空间信息,帮助网络更准确地定位目标。

为了提高小目标的召回率,同时降低计算和存储成本,CA模块输出的特征在检测头之前,会先进入STR模块,进行局部窗口自注意力的计算。以往的注意力机制是在全局层面进行计算,计算量普遍较大,而本部分引入的STR模块能够在保证检测效果的前提下显著降低计算量。每个STR模块包含2个子层,第1个子层是多头注意力层,第2个子层(MLP)是全连接层,每个子层之间使用残差连接。STR中多头注意力层分类两种,一种是普通的局部窗口多头注意力层(local window multi-head attention layer,W-MSA),另一种是移位窗口多头注意力层(shift window multi-head attention layer,SW-MSA),将注意力计算限制在一个有交叠的窗口中,提高捕获不同局部信息的能力。为了保证特征不被遗漏,串联的STR交替执行W-MSA和SW-MSA单元,得到最终的特征图并输出给预测头。

3 实验结果与分析 3.1 实验数据集

考虑到目前缺乏公开的野外复杂环境监控数据集,本文使用的数据集是上海微系统与信息技术研究所微系统技术重点实验室自制的野外运动小目标多帧检测数据集(FMSOD)。该数据集是由实验室工作人员在现场监控系统的成像设备的帮助下,通过拍摄视频和抽帧标注制作的。它尽可能选取多样的野外复杂环境、被灰尘拖尾遮挡的车辆等扰动较大的目标,能更好地评估算法在野外监控传感系统中的有效性。数据集中有标注图像总数为5 329组,每组2~4帧,帧间间隔为0.125 s,分辨率为960×540。实验的训练集、验证集和测试集按6 ∶2 ∶2的比例随机划分。数据集中的场景都是野外环境,目标是固定背景下的移动目标,标注的类别有6类:person、truck、tank、EBRC、brave_warrior和other。表 1中展示了数据集内大、中、小目标的占比。

表 1 数据集中的目标尺寸分布 Table 1 the size Distribution of object in dataset

此外,本文还使用了公开的DETRAC抽帧数据集。DETRAC一共100个视频,将其中60个作为训练集,20个作为验证集,其余作为测试集。每个视频中抽取10段连续帧,抽取的帧间间隔为0.125 s,分辨率为960×540。

3.2 实验环境及参数设置

本文实验使用的CPU为Intel(R) Xeon(R) E5-2620 v4,GPU为Nvidia GeForce GTX 1080Ti,平台操作系统为Ubuntu 20.04,深度学习框架为PyTorch,开发环境为Python 3.9,PyTorch 1.9.0,CUDA 11.0。

本文实验使用的数据集为FMSOD数据集与DETRAC抽帧数据集,输入图片大小设置为640×320。训练过程采用的优化器是随机梯度下降法(stochastic gradient descent,SGD),batch size设为16,迭代次数为300,初始学习率为0.01,末轮学习率为0.001,使用余弦退火策略调整学习率,动量因子为0.937,其中warm up阶段学习率使用线性调整策略,动量因子为0.8。

3.3 评估指标

所有预测为正样本的结果中,预测正确的比率被称为查准率或精确率;所有正样本中被正确预测的比率被称为查全率或召回率;检测框(detection box)与真实标签(ground truth)的交集和并集的比值被称为交并比(intercetion over union,IoU),是评价边界框正确性的度量指标。下文中的PR指的是IoU门限值取0.6时的一对使F1值最大的各类别平均精确率、召回率。mAP代表PR曲线的面积,mAP@.5代表IoU门限值取0.5时的PR曲线面积。mAP@.5:.95则代表IoU门限值分别取torch.linspace(0.5, 0.95, 10)时的PR曲线面积的平均值,是精准定位的重要指标。

3.4 对比实验

对比实验中,为了使YOLOv5等图像目标检测算法能够检测运动目标,将多帧图像的色彩通道拼接在一起作为单帧输入,结果表明此方法的效果优于直接检测静态单帧图像效果。

本文使用FMSOD数据集对提出的改进网络进行训练和测试,图 6为YOLOv5与YOLO-DFNet网络模型的可视化检测效果对比。与YOLOv5相比,YOLO-DFNet的mAP@.5:.95提高3.9个百分点,YOLO-DFNet对于前后帧图像运动信息的提取使得目标定位更加精准,如图 6(f)中YOLO-DFNet能辨别出车辆与背景相似的白色部分;P提高2个百分点,YOLO-DFNet能够检测出与环境特征高度融合的小目标,如图 6(b)中的行人,而YOLOv5往往会漏检这些目标。

Download:
图 6 YOLOv5与YOLO-DFNet的检测效果对比 Fig. 6 Comparison of YOLOv5 and YOLO-DFNet detection results

本文模型的参数量略大于YOLOv7,小于YOLOv5,且本文的改进策略可以应用于其他轻量级的YOLO模型,便于在不同性能的设备上灵活部署。本文模型在训练中的浮点数运算(floating point operations per second,FLOPs)较大,但是在推理过程中可以通过保存多帧的中间层特征张量来减少浮点数运算,单帧在backbone中前向传播花费的FLOPs约为36.2 G,所以本文模型在推理过程中的FLOPs可以降到53.9 G,在低帧率条件下足以做到实时检测。

为进一步验证YOLO-DFNet的有效性,本文对比了最近几年公开发表的其他YOLO系列目标检测算法在FMSOD数据集上的检测效果,对比实验结果如表 2所示。与较为轻量级的PPYOLO相比,本文模型的mAP@.5、mAP@.5:.95分别提高7.1和5.1个百分点;与目前较新的针对小目标的检测算法TPH-YOLOv5相比,本文模型的mAP@.5、mAP@.5:.95分别提升2.5和2.7个百分点;与最新的YOLOv7相比,本文模型的mAP@.5、mAP@.5:.95分别提升3.5和1.5个百分点。整体而言,大模型的效果比小模型的效果好;backbone网络中采用3卷积层CSP-Bottleneck的YOLOv5等模型优于采用4卷积层CSP-Bottleneck的YOLOv4、YOLOR等模型。就mAP@.5、mAP@.5:.95这2项关键指标,本文模型都达到了YOLO系列最好效果,验证了本文模型在运动小目标检测任务上的检测精度与定位效果的优越性。

表 2 不同目标检测算法在FMSOD数据集上的结果对比 Table 2 Comparison of the results of different object detection algorithms on FMSOD

此外,本文还对比了YOLOv5、YOLOv7与YOLO-DFNet在DETRAC抽帧数据集上的检测效果,对比结果如表 3所示。结果表明本文模型仍能取得优于YOLOv5与YOLOv7的检测效果。

表 3 不同目标检测算法在DETRAC抽帧数据集上的结果对比 Table 3 Comparison of the results of different object detection algorithms on frame extraction dataset of DETRAC  
3.5 多帧与帧间间隔对比实验

为了探究YOLO-DFNet中融合的帧数对实验结果的影响,对比了融合2、3、4帧的YOLO-DFNet在FMSOD数据集上的检测效果,结果如表 4所示。该对比实验需要每组连续帧数据至少4帧,FMSOD数据集中满足条件的有2 106组,划分为训练集1 262组,验证集422组,测试集422组。数据量小于表 2中的实验,所以性能指标较低。实验结果表明,每多融合1帧,参数量增加约0.3 M,训练过程中的FLOPs增加约36.2 G,但是性能提升有限。如果保存多帧的中间层特征张量,推理过程中的FLOPs则相差不大,每多融合1帧需要多保存的中间层特征张量的参数量为2.8 M,推理过程中的FLOPs增加0.63 G,可以根据设备性能灵活选择融合的帧数。

表 4 不同帧数的YOLO-DFNet在FMSOD数据集上的结果对比 Table 4 Comparison of the results of YOLO-DFNet on FMSOD with different frame counts

为探究YOLO-DFNet中帧间间隔对实验结果的影响,对比了帧间间隔分别为0.125、0.250、0.375 s的YOLO-DFNet在FMSOD数据集上的检测效果,结果如表 5所示。该对比实验使用的数据集与表 4相同。实验结果表明,帧间间隔为0.125 s时各项指标最优。说明低帧率条件下,帧间间隔越大,检测效果越差。

表 5 不同帧间间隔的YOLO-DFNet在FMSOD数据集上的结果对比 Table 5 Comparison of the results of YOLO-DFNet on FMSOD with different interval between frames  
3.6 消融实验

为了探究YOLO-DFNet中不同模块对检测结果的影响,以YOLOv5作为baseline,在FMSOD数据集上进行了消融实验,结果如表 6所示。引入D-F fusion模块后(D-F fusion模块输出的特征图与原YOLOv5网络同级backbone输出的特征图做相同处理),自注意力机制能有效关注双帧特征图像中的通道和时空维度,可有效提取相邻帧在通道和时空上的运动信息,使网络更关注运动目标特征所在的区域,mAP@.5、mAP@.5:.95这2项指标分别提高2.6和2.7个百分点。引入TTFN_AM模块(D-F fusion模块用卷积代替)则使得模型能够在不同大小感受野上提取运动信息,mAP@.5:.95进一步提高1.2个百分点,增强了模型对目标的定位能力。结果表明,本文改进的各个模块对于模型的检测精度与定位精确度都有一定提升。

表 6 在FMSOD数据集上的消融实验 Table 6 Ablation experiment on FMSOD dataset  
4 结论

针对野外环境复杂、小目标像素信息少以及数据集缺乏的问题,提出一种基于YOLOv5改进的双帧融合目标检测网络YOLO-DFNet来改善野外小目标的检测精度。该网络模型首先在骨干网络提取输出特征时引入双帧融合模块,使注意力机制同时关注通道、空间与时间维度,高效提取运动特征信息。然后利用骨干网络和颈部网络形成的双向融合,结合双帧融合模块在颈部网络与检测头之间设计了一个时间梯形融合网络,使小感受野上的目标也能获得大感受野上的运动特征,提升小目标检测效果。实验结果表明,与现有的目标检测算法相比,本文提出的YOLO-DFNet对于野外复杂环境中的运动小目标具有更高的检测精度。

参考文献
[1]
Barron J L, Fleet D J, Beauchemin S S. Performance of optical flow techniques[J]. International Journal of Computer Vision, 1994, 12(1): 43-77. Doi:10.1007/BF01420984
[2]
刘鑫, 刘辉, 强振平, 等. 混合高斯模型和帧间差分相融合的自适应背景模型[J]. 中国图象图形学报, 2008, 13(4): 729-734. Doi:10.11834/jig.20080422
[3]
Moeslund T B, Granum E. A survey of computer vision-based human motion capture[J]. Computer Vision and Image Understanding, 2001, 81(3): 231-268. Doi:10.1006/cviu.2000.0897
[4]
Barnich O, Droogenbroeck M V. ViBE: a powerful random technique to estimate the background in video sequences[C]// 2009 IEEE International Conference on Acoustics, Speech and Signal Processing. April 19-24, 2009. Taipei, China. IEEE, 2009. DOI: 10.1109/ICASSP.2009.4959741.
[5]
袁益琴, 何国金, 王桂周, 等. 背景差分与帧间差分相融合的遥感卫星视频运动车辆检测方法[J]. 中国科学院大学学报, 2018, 35(1): 50-58. Doi:10.7523/j.issn.2095-6134.2018.01.007
[6]
黄萍萍, 王峰, 向俞明, 等. 基于V-CSK视频遥感卫星运动目标检测跟踪方法[J]. 中国科学院大学学报, 2021, 38(3): 392-401. Doi:10.7523/j.issn.2095-6134.2021.03.013
[7]
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. Doi:10.1109/TPAMI.2016.2577031
[8]
He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). October 22-29, 2017. Venice. IEEE, 2017: 2961-2969. DOI: 10.1109/iccv.2017.322.
[9]
王凤随, 王启胜, 陈金刚, 等. 基于注意力机制和Soft-NMS的改进Faster R-CNN目标检测算法[J]. 激光与光电子学进展, 2021, 58(24): 405-416. Doi:10.3788/LOP202158.2420001
[10]
Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016. Las Vegas, NV, USA. IEEE, 2016: 779-788. DOI: 10.1109/cvpr.2016.91.
[11]
Redmon J, Farhadi A. YOLOv3: an incremental improvement[EB/OL]. arXiv: 1804.02767. (2018-04-08)[2022-10-07]. https://arxiv.org/abs/1804.02767.
[12]
Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. arXiv: 2004.10934. (2020-04-23)[2022-10-07]. https://arxiv.org/abs/2004.10934.
[13]
刘峰, 郭猛, 王向军. 基于跨尺度融合的卷积神经网络小目标检测[J]. 激光与光电子学进展, 2021, 58(6): 213-221. Doi:10.3788/LOP202158.0610012
[14]
Liu W, Anguelov D, Erhan D, et al. SSD: single shot MultiBox detector[M]//Computer Vision-ECCV 2016. Cham: Springer International Publishing, 2016: 21-37. DOI: 10.1007/978-3-319-46448-0_2.
[15]
Fu C Y, Liu W, Ranga A, et al. DSSD: Deconvolutional single shot detector[EB/OL]. arXiv: 1701.06659. (2017-01-23)[2022-10-07]. https:arxiv.org/abs/1701.06659.
[16]
耿鹏志, 杨智雄, 张家钧, 等. 基于SSD的行人鞋子检测算法[J]. 激光与光电子学进展, 2021, 58(6): 184-191. Doi:10.3788/LOP202158.0610009
[17]
Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 936-944. DOI: 10.1109/CVPR.2017.106.
[18]
Liu S, Qi L, Qin H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 8759-8768. DOI: 10.1109/CVPR.2018.00913.
[19]
汪亚妮, 汪西莉. 基于注意力和特征融合的遥感图像目标检测模型[J]. 激光与光电子学进展, 2021, 58(2): 363-371. Doi:10.3788/LOP202158.0228003
[20]
Zhu X K, Lyu S C, Wang X, et al. TPH-YOLOv5: improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). October 11-17, 2021, Montreal, BC, Canada. IEEE, 2021: 2778-2788. DOI: 10.1109/ICCVW54120.2021.00312.
[21]
Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 3-19. DOI: 10.1007/978-3-030-01234-2_1.
[22]
Hou Q B, Zhou D Q, Feng J S. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 13708-13717. DOI: 10.1109/CVPR46437.2021.01350.
[23]
Liu Z, Lin Y T, Cao Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2022: 9992-10002. DOI: 10.1109/ICCV48922.2021.00986.
[24]
Long X, Deng K P, Wang G Z, et al. PP-YOLO: an effective and efficient implementation of object detector[EB/OL]. arXiv: 2007.12099. (2020-08-03)[2022-10-07]. https://arxiv.org/abs/2007.12099v3.
[25]
Wang C Y, Yeh I H, Liao H Y M. You only learn one representation: unified network for multiple tasks[EB/OL]. arXiv: 2105.04206. (2021-05-10)[2022-10-07]. https://arxiv.org/abs/2105.04206v1.
[26]
Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. arXiv: 2207.02696. (2022-07-06)[2022-10-07]. https://arxiv.org/abs/2207.02696.