基于高效特征提取和大感受野的无人机航拍图像目标检测

沈朕宇; 朱凤华; 王知学; 沈震; 熊刚

doi:10.11992/tis.202405001

基于高效特征提取和大感受野的无人机航拍图像目标检测

doi: 10.11992/tis.202405001

沈朕宇^1,,
朱凤华^2,,
王知学¹,
沈震²,
熊刚^2, ,

1.
山东交通学院轨道交通学院, 山东济南 250300;
2.
中国科学院自动化研究所, 多模态人工智能系统全国重点实验室, 北京 100190

基金项目: 国家自然科学基金项目(U24A20277); 北京市自然科学基项目(L241016); 重庆市交通科技项目(CQJT-CZKJ2024-04).

详细信息

作者简介:
沈朕宇，硕士研究生，主要研究方向为图像处理与目标检测。E-mail：2216825930@qq.com;

朱凤华，副研究员，博士，主要研究方向为智能交通、云计算与大数据分析。E-mail：fenghua.zhu@ia.ac.cn;

熊刚，研究员、博士生导师，主要研究方向为人工智能、智能控制与管理。获吴文俊人工智能奖、中国自动化学会科技奖等10余项。发表学术论文450余篇，出版专著共3部，授权PCT 6项，授权专利90余项，登记软著90余项。E-mail：gang.xiong@ia.ac.cn.

通讯作者:
熊刚. E-mail：gang.xiong@ia.ac.cn.

中图分类号: TP391.4
出版历程
- 收稿日期: 2024-05-03
- 网络出版日期: 2025-02-26

Uav aerial image target detection based on high-efficiency feature extraction and large receptive field

1.
School of Rail Transit, Shandong Jiaotong University, Ji’nan 250300, China;
2.
National Key Laboratory of MultiModal Artificial Intelligence Systems, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China

摘要

摘要: 针对无人机航拍图像中存在小目标、目标遮挡、背景复杂的问题，提出一种基于高效特征提取和大感受野的目标检测网络(efficient feature and large receptive field network, EFLF-Net)。通过优化检测层架构降低小目标漏检率；在主干网络融合新的构建模块以提升特征提取效率；引入内容感知特征重组模块和大型选择性核网络，增强颈部网络对遮挡目标的上下文感知能力；采用Wise-IoU损失函数优化边界框回归稳定性。在VisDrone2019数据集上的实验结果表明，EFLF-Net较基准模型在平均精度上提高了5.2%。与已有代表性的目标检测算法相比，该方法对存在小目标、目标相互遮挡和复杂背景的无人机航拍图像有更好的检测效果。
- 无人机航拍图像 /
- 小目标检测 /
- 特征提取 /
- 多尺度变化 /
- YOLOv8 /
- 上下文信息 /
- 感受野 /
- 损失函数
Abstract: Aiming at the problems of small targets, target occlusion and complex background in UAV aerial images, a target detection network based on high-efficiency feature extraction and large receptive field (EFLF-Net) was proposed. Firstly, the missed detection rate of small targets was reduced by optimizing the detection layer architecture. Then, the new building blocks were integrated in the backbone network to improve the efficiency of feature extraction. Then, a content-aware feature recombination module and a large selective kernel network were introduced to enhance the context-aware ability of the neck network for occluded targets. Finally, the Wise-IoU loss function was used to optimize the bounding box regression stability. Experimental results on the VisDrone2019 dataset show that EFLF-Net improves the average precision by 5.2% compared with the basic algorithm. Compared with the existing representative target detection algorithms, the proposed method has better detection effects for UAV aerial images with small targets, mutual occlusion of targets and complex backgrounds.
- drone aerial images /
- small target detection /
- feature extraction /
- multi-scale variation /
- YOLOv8 /
- context information /
- receptive field /
- loss function

HTML全文

随着无人机技术的迅速发展，其航拍能力在农业、环境监测、城市规划及灾害应对等多个领域展现出广泛的应用潜力，成为现代科技应用的重要组成部分^[1]。然而，无人机航拍的图像往往具有大视角，导致目标外观变化大，并且目标可能具有不同大小和严重遮挡，进一步增加了目标检测的复杂性^[2]。在无人机航拍图像目标检测领域，以卷积神经网络(convolutional neural network, CNN)为基础的算法已成为主流方法，其中，YOLO(you only look once)系列^[3]、SSD(single shot multibox detector)^[4]、RetinaNet(retina network)^[5]、Fast R-CNN(fast region-based convolutional neural network)^[6]和Faster R-CNN(faster region-based convolutional neural network)^[7]等代表性算法得到了广泛应用。

为解决无人机航拍图像目标检测出现的问题，秦振等^[8]提出了一种改进的SSD方法，通过结合相邻特征和不同尺度间的非局部关系，提高了小目标检测的精度。Lee等^[9]提出了一种增强的RetinaNet模型，该模型将可变形卷积纳入ResNet-50主干、更深的特征金字塔层和多头配置中的交叉联合感知分支，以提高检测性能。邓姗姗等^[10]提出了一种基于Faster R-CNN的多层频域特征融合目标检测算法，针对总像素面积较小的目标，修改了区域提案网络(region proposal network, RPN)中的锚点尺度，并采用多尺度卷积特征融合的方法，将来自不同特征层的特征进行融合，从而解决了小目标在深层特征图中信息丢失的问题。吴明杰等^[11]提出了一种改进的YOLOv5s小目标检测算法，采用双层路由注意力提升特征提取效果，并引入结合注意力机制的动态目标检测头，以增强特征表达能力。Wang等^[12]在基线网络YOLOX-X的基础上，利用SAHI(slicing aided hyper inference)算法对训练集进行了预处理和数据增强；在路径聚合网络 (path aggregation network, PAN)阶段，引入具有丰富空间信息的浅层特征图，并添加目标检测头；最后，优化了边界框回归的损失函数，以提高图像检测的精度。牛为华等^[13]在改进YOLOv7时，将骨干网络中的低层小目标检测层融入聚合网络结构，并新增了一个检测头，提高对小目标的检测能力。但是这些方法仍存在不足，在目标尺寸小、背景信息复杂、目标遮挡的场景中会出现误检、漏检和检测精度不高的问题。

针对以上问题，本文在YOLOv8n架构的基础上，提出了一种基于高效特征提取和大感受野的目标检测网络(efficient feature and large receptive field network, EFLF-Net)算法，并在VisDrone2019数据集上验证了该方法的有效性。

1. YOLOv8算法

在各种目标检测算法中，YOLOv8^[14]凭借其在速度、准确性、适用性和易用性等方面的优势脱颖而出。YOLOv8算法是YOLO系列目标检测算法的改进版本，采用了一种更深、更宽的网络结构，以增加对目标的感知能力和特征提取能力。本文选用YOLOv8n作为基础模型，优化该模型以解决小目标、目标遮挡和背景复杂的问题。该模型的网络架构由主干网络(Backbone)、颈部网络(Neck)和检测头(Head)共3部分组成。Backbone通常采用DarkNet^[15]、ResNet^[16]等卷积神经网络，用于提取输入图像的特征信息。Neck采用特征金字塔网络(feature pyramid network，FPN)^[17]和PAN^[18]的结构，以获得不同尺度的特征信息，从而提高对不同尺寸目标的检测能力。Head则负责预测目标的类别、位置和置信度等信息^[19]。

2. EFLF-Net网络

2.1 EFLF-Net网络结构

为了解决无人机航拍图像目标检测中小目标检测精度较低的问题，本文提出了以YOLOv8n为基线的EFLF-Net目标检测算法，网络结构如图1所示。首先，通过优化检测层架构，提高网络对小目标检测精度；然后在主干网络融合一个新的CNN构建模块^[20]，避免信息的丢失，使网络获得了更高的检测精度；此外，在颈部网络引入内容感知特征重组(content-aware reassembly of features, CARAFE)模块^[21]和大型选择性核网络(large selective kernel network, LSKNet)模块^[22]，使模型以较大的感受野根据输入特征进行特征重组，提高网络关注检测目标的最相关的空间背景区域的能力；最后，引入WIoU(Wise-IoU)损失函数^[23]替换原始的CIoU(Complete-IoU)^[24]，提高网络的泛化能力和检测性能。

图 1 EFLF-Net网络结构

Fig. 1 EFLF-Net network structure

下载: 全尺寸图片

2.2 优化检测层架构

为提升对无人机航拍图像中小目标的检测能力，在原有检测架构基础上引入了分辨率为160像素×160像素的P2小目标检测层，以增强高分辨率浅层特征的表达能力。同时，移除原有P5（20像素×20像素）检测层的检测头，以控制模型复杂度并降低计算开销。检测层级由原始的P3、P4、P5调整为P2、P3 和P4，分别用于检测小、中、大尺度目标，详细改进如图2所示。其中，图2(a)为原始检测层架构，图2(b)为优化后的检测层架构。

图 2 检测层架构对比

Fig. 2 Detect layer architecture comparison

下载: 全尺寸图片

2.3 大型选择性核网络

为了解决无人机航拍图像中存在背景复杂的问题，引入LSKNet。该网络通过动态调整感受野的特征提取模块，更有效地处理了不同目标所需的背景信息差异。该动态感受野通过空间选择机制实现，对Depth-wise^[25]卷积核处理的特征进行加权和空间融合。卷积核的权重依据输入动态调整，使得模型能够自适应地选择合适的核大小，针对不同目标调整感受野。

LSKNet块是主干网络中的一个可重复堆叠的块，其结构如图3所示。每个LSKNet块包括大核选择(large kernel selection, LK Selection)子块和前馈网络(feed-forward network, FFN)子块共2个残差子块。LK Selection子块根据实际需求调整网络感受野的大小；FFN子块则负责特征的通道混合和优化，包含1个全连接层、深度卷积操作、GELU激活函数以及第2个全连接层。LSK模块由大核卷积序列和空间核选择机制组成，嵌入到了LSKNet块的LK Selection子块中。

图 3 大型选择性核网络模块

Fig. 3 A block of LSKNet

下载: 全尺寸图片

2.4 新的CNN构建模块

卷积神经网络在图像分类和目标检测等计算机视觉任务中得到了广泛应用。然而，当面对小目标或低分辨率图像时，传统的网络结构常常无法提供理想的性能。为解决这一挑战，提出了一个称为SPD-Conv(space-to-depth convolution)的新的CNN构建模块，它替代了常规的跨步卷积和池化层。该模块由空间–深度(space-to-depth, SPD)层与非跨步卷积层组成，能够灵活处理多尺度特征图，并按比例因子对其进行有效下采样。SPD层将特征图的空间维度转换成深度维度，通过增加通道数保留了更多信息。非跨步卷积层保持了空间维度，减少了通道数。通过引入SPD-Conv模块不但避免了信息的丢失，而且使网络获得了更高的检测精度、更低的误检率以及更好的目标定位能力，SPD-Conv模块如图4所示。

图 4 SPD-Conv模块

Fig. 4 SPD-Conv module

下载: 全尺寸图片

假设中间特征图$X$的大小为$S \times S \times {C_1}$，则切出的子特征图为

$$ \left\{\begin{array}{*{20}{l}}f_{0,0}=X\left[0:S:t,0:S:t\right] \\ f_{1,0}=X\left[1:S:t,0:S:t\right] \\ \qquad\qquad\quad\vdots \\ f_{t-1,0}=X\left[t-1:S:t,0:S:t\right] \\ \qquad\qquad\quad\vdots \\ f_{t-1,t-1}=X\left[t-1:S:t,t-1:S:t\right]\end{array}\right. $$

图4为$t = 2$时的SPD-Conv下采样模块，输入尺寸为$ S \times S \times {C_1} $的原始特征图$X$。原始特征图$X$首先经过空间–深度层，按照设定系数$t$对$X$进行下采样，经采样后原始特征图$X$切出了4个子特征图，其中每个子特征图的空间维度变为${S \mathord{\left/ {\vphantom {S 2}} \right. } 2}$，通道维度仍为$ {C_1} $。然后4个子特征图沿通道维度进行拼接，得到大小为$ {{(S} \mathord{\left/ {\vphantom {{(S} {2,{S \mathord{\left/ {\vphantom {S {2,4{C_1}}}} \right. } {2,4{C_1}}}}}} \right. } {2,{S \mathord{\left/ {\vphantom {S {2,4{C_1}}}} \right. } {2,4{C_1}}}}}) $的特征图$X'$。在空间–深度层之后，再经过一个带有${C_2}$滤波器的非跨步(即步长为1)卷积层，其中${C_2} < 4{C_1}$，进一步变换得到大小为$ {{(S} \mathord{\left/ {\vphantom {{(S} {2,{S \mathord{\left/ {\vphantom {S {2,{C_2}}}} \right. } {2,{C_2}}}}}} \right. } {2,{S \mathord{\left/ {\vphantom {S {2,{C_2}}}} \right. } {2,{C_2}}}}}) $的特征图$X''$。

2.5 内容感知特征重组模块

内容感知特征重组(content-aware reassembly of features, CARAFE)模块是自适应感受野特征增强模块，通过像素点的空间位置来决定上采样核的方式，能够有效地提高特征图的分辨率和语义信息，并且对小目标的检测效果更好，同时只带来轻量计算量。CARAFE模块的核心原理是通过逐通道的自适应滤波来捕获更广泛的上下文信息，并且通过插值操作将细节信息与原始特征图融合，以生成高质量的上采样结果。

CARAFE主要分为预测上采样核和特征重组模块。当输入图像大小为$C \times H \times W$且上采样率为$\sigma $时，预测上采样核通过$1 \times 1$卷积将通道数减少至${C_m}$，然后进行内容编码和上采样核的预测，使用$ k\mathrm{_{encoder}}\times k_{\mathrm{encoder}} $的卷积层操作，其中输入通道数和输出通道数分别为${C_m}$和$ \sigma^2k_{\mathrm{up}}^2 $。接着通道在空间维度上展开并生成$ \sigma H\times\sigma H\times k_{\mathrm{up}}^2 $的上采样核，随后进行归一化处理，确保卷积核权重的总和为1。特征重组模块在每个输出特征图位置进行映射，提取以该位置为中心的$ k\mathrm{_{up}}\times k_{\mathrm{up}} $的区域，并使用预测的上采样核进行点积运算，以计算最终输出值。在不同位置但同一通道的特征图共享相同的上采样核。最终，生成尺寸为$C \times \sigma H \times \sigma W$输出特征图。

2.6 损失函数

在无人机航拍目标检测中损失函数能够指导模型正确的定位和分类目标，抑制背景干扰，以及平衡不同任务之间的优化目标，从而提高模型的检测性能和泛化能力。本文引用损失函数WIoU v3，用于无人机目标检测任务中取代传统的CIoU评估方法。WIoU v3考虑了目标的形状和大小差异性，通过引入权重参数，可以根据具体的检测场景进行调整，提高了评估的灵活性和准确性。相比传统方法，WIoU v3对边界框的位置和大小进行了更精细的计算，使得在目标存在遮挡或者重叠部分时，匹配结果更加准确，有助于提高检测算法的鲁棒性和可靠性。通过WIoU v3评估，可以更直观地了解检测算法在不同场景下的表现，指导算法的优化和改进，进一步提升无人机目标检测的性能和效果。

通过距离度量方法构建了距离注意力机制，从而设计了具有双重注意力机制的WIoU v1。其具体表达式为

$$ {\mathcal{R}_{{\mathrm{WIoU}}}} = {\mathrm{exp}}\left( {\frac{{{{\left( {x - {x_{gt}}} \right)}^2} + {{\left( {y - {y_{gt}}} \right)}^2}}}{{{{\left( {W_g^2 + H_g^2} \right)}^*}}}} \right) $$

$$ {\mathcal{L}_{{\mathrm{WIoUv1}}}} = {\mathcal{R}_{{\mathrm{WIoU}}}}\left( {1 - {I_{{\mathrm{oU}}}}} \right) $$

式中：$x$和$y$为预测框中心点的坐标，${x_{gt}}$和${y_{gt}}$为真实框中心点的坐标，${W_g}$和${H_g}$为预测框和真实框之间的最小包围矩形的宽度和高度，$ I_{\mathrm{oU}} $为预测框和真实框的交并比。

通过利用$\beta $构造了一个非单调聚焦系数并将其应用于WIoU v1，从而实现了具有动态非单调特征映射的WIoU v3。采用了明智的梯度增益分配策略，使得WIoU v3 在性能上获得了显著提升。WIoU v3具体表达式为

$$ \beta = \frac{{\mathcal{L}_{{\mathrm{IoU}}}^*}}{\overline {\mathcal{L}}_{{\mathrm{IoU}}} } \in \left[ {0, + \infty } \right) $$

$$ r = \frac{\beta }{{\delta {\alpha ^{\beta - \delta }}}} $$

$$ {\mathcal{L}_{{\mathrm{WIoUv3}}}} = r{\mathcal{L}_{{\mathrm{WIoUv1}}}} $$

式中：$ \mathcal{L}_{\mathrm{WIoU}v3} $为定位损失函数值，采用了动态非单调评估锚盒质量的机制，使模型更专注于锚定普通质量的框，并提升了模型对目标的定位能力；$\alpha $和$\delta $为超参数；$\beta $为离群度；$ \mathcal{L}_{\mathrm{IoU}}^* $为单调聚焦系数；$ \overline{\mathcal{L}}_{\mathrm{IoU}} $为动量的滑动平均值。在无人机航拍场景中的目标检测任务中，小物体的比例较大，增加了检测的难度。WIoU v3能够动态地优化对小物体的加权，以提升模型的检测性能。

3. 实验验证与对比分析

3.1 数据集

为评估所提出算法的性能，实验选择了VisDrone2019^[26]数据集进行验证。该数据集由天津大学AISKYEYE团队收集，使用无人机摄像设备拍摄，包含10种目标类别。VisDrone2019数据集共包含10209张静态图片，其中训练集6471张图片，验证集548张图片，测试集3190张图片。

3.2 实验环境及参数配置

本文使用的实验环境配置如下：操作系统为64位Windows11系统；CPU为13th Gen Intel(R) Core(TM) i5-13400F，工作频率为2.50 GHz；GPU为NVIDIA GeForce RTX 3090，显存大小为24 GB；实验环境为Python3.8.18，PyTorch2.0.0，CUDA11.8。相关参数配置：将输入图片的分辨率统一设置为640×640，缩放至统一尺寸，以提升处理速度；设置训练批次(batch-size)为8，确保GPU能够全功率运行；训练迭代次数(epoch)为150，通常在此时网络能够收敛；随机种子设为1，固定模型训练产生的随机数，最大程度复现模型效果；使用随机梯度下降（stochastic gradient descent，SGD）优化器，并采用梯度下降法调整学习率；初始学习率为0.01，逐步减小学习率至最小值0.0001，初始设定较大的学习率有助于加快训练速度，而设定最小学习率则有助于避免网络陷入局部最小值。

3.3 参数指标

本研究在VisDrone2019数据集上评估算法性能时，选用了精确率P(precision)、召回率R(recall) 、平均精度(average precision, AP)、平均精度均值(mean average precision, mAP)、计算量(floating point of operations, FLOPs）和参数量（parameters, Params)等指标进行比较分析，旨在量化模型的表现，并为后续训练与调优提供依据。mAP50表示交并比阈值为0.5时的平均精度均值，其计算公式为

$$ P = \frac{{{N_{\rm{TP}}}}}{{{N_{\rm{TP}}} + {N_{\rm{FP}}}}} $$

$$ R = \frac{{{N_{\rm{TP}}}}}{{{N_{\rm{TP}}} + {N_{{\mathrm{FN}}}}}} $$

$$ {A_{{\mathrm{AP}}}} = \int_0^1 {P\left( R \right){\mathrm{d}}R} $$

$$ {M_{{\mathrm{mAP}}}} = \frac{1}{N}\mathop \sum \limits_{i = 1}^N A_{{\mathrm{AP}}}^i $$

式中：${N_{\rm{TP}}}$为模型正确预测为正类的正样本数量，${N_{\rm{FP}}}$为模型错误地将负样本预测为正类的数量，${N_{{\mathrm{FN}}}}$为模型错误地将正样本预测为负类的数量，$ A_{{\mathrm{AP}}}^i $为每个类$i$的平均精度，$N$为数据集中的类别数，${M_{{\mathrm{mAP}}}}$为所有类$i$的平均精度的均值。

3.4 实验结果与分析

3.4.1 LSKNet模块对网络性能的影响

为了评估LSKNet模块在不同位置引入对网络性能的影响，以YOLOv8n为基准模型，设计了如表1所示的对比实验，旨在全面分析模块位置对模型表现的具体作用。实验中，4种不同的配置分别进行了测试：LSK-B表示在骨干网络的第4个C2f模块后添加LSKNet模块，LSK-S表示在小目标层后添加LSKNet模块，LSK-L表示在大目标层后添加LSKNet模块，LSK-N表示在颈部网络的3个输出端后都添加LSKNet模块。通过该实验深入分析不同模块位置的引入如何影响网络的特征提取、目标检测以及整体性能。

表 1 LSKNet不同位置对比结果

Table 1 LSKNet different position comparison results

模型	mAP50/%	P/%	R/%	Params/10⁶	FLOPs/10⁹
YOLOv8n	31.3	42.6	31.9	3.00	8.1
LSK-B	31.9	42.3	32.1	3.16	8.3
LSK-S	32.7	45.1	32.5	3.02	8.2
LSK-L	32.0	43.1	32.3	3.13	8.2
LSK-N	32.0	42.7	32.6	3.17	8.4
注：加黑代表最优结果，下同。

由实验结果可知，在YOLOv8n模型的小目标层后添加LSKNet模块，计算成本增加最小的同时检测精度得到了最大的提升。因此，选择在小目标层后添加LSKNet模块可以获得最佳性能。

3.4.2 主流算法对比实验

为进一步评估EFLF-Net算法对无人机航拍图像中小目标、目标遮挡和背景复杂目标的检测优势，本研究在VisDrone2019数据集上开展了与其他主流目标检测算法的对比实验，主要算法有Faster-RCNN、CenterNet、RetinaNet、CornerNet、Cascade-RCNN、YOLOv5s、YOLOX-s和YOLOv8n，各类目标的平均精度如表2所示。

表 2 mAP50对比实验结果

Table 2 Results of mAP50 compare experiment %

模型	目标类别										平均
模型	行人	人员	自行车	汽车	面包车	卡车	三轮车	带棚三轮	巴士	摩托车	平均
Faster-RCNN	21.4	15.6	6.7	51.7	29.5	19.0	13.1	7.7	31.4	20.7	21.7
CenterNet^[27]	28.0	11.6	9.0	51.0	36.5	27.9	20.1	19.9	37.7	21.0	26.0
RetinaNet	13.0	7.9	1.4	45.5	19.9	11.5	6.3	4.2	17.8	11.8	13.9
CornerNet^[28]	20.4	6.6	4.6	40.9	20.2	20.5	14.0	9.3	24.4	12.1	17.4
Cascade-RCNN	19.9	12.3	8.4	54.1	35.3	26.4	17.4	9.2	42.2	19.6	24.5
YOLOv5s^[29]	39.1	31.8	10.2	73.3	35.4	31.7	19.5	11.7	38.9	37.0	32.9
YOLOX-s^[30]	15.0	10.9	4.2	49.3	24.4	15.7	10.5	6.1	25.6	16.9	17.9
YOLOv8n	33.6	26.4	7.2	75.0	37.1	26.9	19.7	11.7	42.0	33.8	31.3
LFEF-Net	43.9	34.7	11.5	80.4	41.7	28.0	22.3	13.2	46.6	42.9	36.5

实验结果中EFLF-Net算法在行人、人员、自行车、汽车、面包车、卡车、三轮车、带棚三轮、巴士和摩托车上的mAP50值分别为43.9%、34.7%、11.5%、80.4%、41.7%、28.0%、22.3%、13.2%、46.6%和42.9%，取得了最优效果。与基准模型YOLOv8n的mAP50值进行对比，EFLF-Net算法在行人、人员、自行车、三轮车和带棚三轮小目标类别上的提升分别为10.3%、8.3%、4.3%、2.6%和1.5%；在汽车、面包车和摩托车中目标类别上提高了5.4%、4.6%和9.1%，在卡车、巴士大目标类别上提高了1.1%和4.6%。同时比次优算法YOLOv5s的mAP50值高3.6%，但是在大目标Truck类别上精度较低。由此可见，EFLF-Net算法在进行无人机目标检测的平均精度较好，效果更好。这一结果主要由于EFLF-Net合理优化了目标检测层，加强了小目标特征信息的提取和保留，并通过引入LSKNet模块进一步加强了应对复杂背景的检测能力。同时，引入SPD-Conv和CARAFE，提升了检测精确度的同时大大降低了漏检率，使得本文算法在小目标检测方面具有巨大优势，同时也显著提升了中、大目标检测效果，表现出良好的鲁棒性。

3.4.3 消融实验结果及分析

为评估EFLF-Net算法各模块的效果，本研究以YOLOv8n作为基准模型，在VisDrone2019数据集上进行了消融实验，旨在分析不同模块对无人机航拍图像检测性能的影响。实验首先单独测试每个改进模块，然后逐步集成其他模块进行实验，最终的结果如表3所示。

表 3 消融实验结果

Table 3 Results of ablation experiment

YOLOv8n	优化层	SPD-Conv	CARAFE	LSKNet	WIoU v3	mAP50/%	P/%	R/%	Params/M	FLOPs/G
√						31.3	42.6	31.9	3.01	8.1
√	√					34.1	44.6	33.5	0.98	9.4
√		√				34.2	44.6	34.5	3.27	9.6
√			√			32.3	43.5	32.0	3.14	8.6
√				√		32.7	45.1	32.5	3.02	8.2
√					√	32.2	43.7	32.2	3.01	8.1
√	√	√				36.2	45.9	35.7	1.10	10.4
√	√	√	√			36.3	46.5	35.8	1.13	10.2
√	√	√	√	√		36.4	46.6	36.0	1.08	10.2
√	√	√	√	√	√	36.5	46.7	36.3	1.08	10.2

由表3消融实验结果可知，添加不同的改进策略对模型的检测性能影响不同。单独进行目标层优化，mAP50增加了2.8%，P、R分别增加了2%、1.6%，Params降低了2.03×10⁶，对整体模型轻量化起重要作用；加入SPD-Conv，mAP50增加了2.9%，P、R分别增加了2%、2.6%；引入CARAFE模块后，mAP50增加了1%，P、R分别增加了0.9%和0.1%，添加SPD-Conv后可以有效降低目标的漏检率；引入LSKNet模块后，mAP50增加了1.4%，P、R分别增加了2.5%、0.6%；修改CIoU损失函数为WIoU损失函数，mAP50增加了0.9%，P、R分别增加了1.1%和0.3%，有效降低冗余计算。

在初始模型中，依次引入目标检测层优化、SPD-Conv、CARAFE、LSKNet和WIoU模块，实验结果显示，这些改进逐步提升了模型的性能，得到的mAP50依次比基础模型增加了2.8%、4.9%、5%、5.1%和5.2%，P依次比基础模型增加了2%、3.3%、3.9%、4%和4.1%，R依次比基础模型增加了1.6%、3.8%、3.9%、4.1%和4.4%。

通过消融实验结果显示，优化的每一个模块都展现出了良好的性能。最终优化后的模型相较于基准算法，P值提升了4.1%，R值提升了4.4%，mAP50提升了5.2%，同时减少了参数量。虽然计算量增加了2.1×10⁹，但检测准确率有明显的提升，整体网络性能显著提升，证实了本文所提出算法的可行性。

3.4.4 实验可视化与分析

为更加直观地展示EFLF-Net算法在实际场景中的检测效果，本研究在VisDrone2019数据集的典型场景中进行了可视化对比，相关结果如图5所示。

图 5 检测效果对比

Fig. 5 Comparison of detection effect

下载: 全尺寸图片

图5(a)出现了检测目标被遮挡的情况，在图片中下方有被树荫遮挡的摩托车，YOLOv8n算法将摩托车误检为人，而本文改进算法准确检测出了摩托车。图5(b)出现在目标尺寸过于小的情况，在图片左下方有人在行走，但是因为行人尺寸过小，使得YOLOv8n算法将行人误检为自行车，而本文改进算法正确识别了行人。图5(c)出现了背景复杂的情况，在图片街道、广场和建筑的复杂背景中，左侧有多个行人，YOLOv8n算法只识别出了一个行人目标，而本文改进算法未出现漏检。图5(d)出现了巴士因视角不同而尺寸不同的情况，YOLOv8n算法误将巴士检测为卡车，而本文改进算法正确识别。从比较结果可以看出，相较于原始算法，改进后的方法在无人机航拍图像的目标检测中展现了更低的误检率和漏检率，且能更好地适应复杂背景、目标遮挡以及多尺度场景，显著提升了检测性能。

3.4.5 模型泛化性实验对比

为了验证本文提出算法的适用性和鲁棒性，首先将VisDrone2019数据集中的图像添加椒盐噪声；然后，将得到的噪声数据集与基础算法进行对比实验，这样做可以更真实地模拟现实世界中的数据情况，从而提高模型在实际应用中的泛化能力，并帮助模型更好地学习和适应真实世界中的变化和噪声，增强其鲁棒性和泛化能力。椒盐噪声处理还可视为一种数据增广技术，通过引入噪声使得训练数据更加多样化，有助于防止模型在训练过程中过拟合，并提升其对未知数据的适应能力。改进前后模型在噪声数据集上的实验结果如表4所示。

表 4 改进前后模型在噪声数据集上的实验结果

Table 4 Experimental results of the models before and after improvement on the noisy dataset

模型	mAP50/%	P/%	R/%	Params/10⁶
YOLOv8n	30.0	41.0	30.4	3.01
EFLF-Net	34.3	45.3	33.8	1.08

根据表4数据显示，改进后的算法在检测精度、查准率和召回率上分别提升了4.3%、4.3%和3.4%，同时减少了参数量。这些结果充分证明了本文提出的改进算法具有良好的泛化性和鲁棒性，进一步验证了其在航拍图像目标检测中的适用性。

4. 结束语

针对无人机航拍图像存在的小目标、背景干扰和目标重叠的问题，在YOLOv8n的基础上提出了基于高效特征提取和大感受野的目标检测（EFLF-Net）算法。该算法通过优化检测层架构提高了对小目标的检测精度。在主干网络中引入SPD-Conv模块，避免了信息丢失，提高了检测精度。同时，在颈部网络中引入CARAFE和LSKNet模块，使模型能够更好地关注检测目标及其周围背景区域。此外，引入WIoU损失函数，提高了网络的泛化能力和检测性能。在VisDrone2019数据集上的实验表明，EFLF-Net相比YOLOv8n初始算法的平均精度提高了5.2%，效果较好，并且算法精度超越了其他主流算法，证明了其准确性，具有广泛的应用前景。虽然改进后的算法在提升检测精度的同时也有效减小了参数量，但在参数优化方面仍有进一步提升的空间。与初始算法相比，改进算法虽然提高了精度，但计算量有所增加，导致计算时间和成本的上升。未来的研究将聚焦于在提高精度的基础上，进一步减少模型的计算量和参数量，从而实现更轻量化的设计，便于在无人机航拍实时检测任务中应用。

图 1 EFLF-Net网络结构

Fig. 1 EFLF-Net network structure

下载: 全尺寸图片

图 2 检测层架构对比

Fig. 2 Detect layer architecture comparison

下载: 全尺寸图片

图 3 大型选择性核网络模块

Fig. 3 A block of LSKNet

下载: 全尺寸图片

图 4 SPD-Conv模块

Fig. 4 SPD-Conv module

下载: 全尺寸图片

图 5 检测效果对比

Fig. 5 Comparison of detection effect

下载: 全尺寸图片

表 1 LSKNet不同位置对比结果

Table 1 LSKNet different position comparison results

模型	mAP50/%	P/%	R/%	Params/10⁶	FLOPs/10⁹
YOLOv8n	31.3	42.6	31.9	3.00	8.1
LSK-B	31.9	42.3	32.1	3.16	8.3
LSK-S	32.7	45.1	32.5	3.02	8.2
LSK-L	32.0	43.1	32.3	3.13	8.2
LSK-N	32.0	42.7	32.6	3.17	8.4
注：加黑代表最优结果，下同。

表 2 mAP50对比实验结果

Table 2 Results of mAP50 compare experiment %

模型	目标类别										平均
模型	行人	人员	自行车	汽车	面包车	卡车	三轮车	带棚三轮	巴士	摩托车	平均
Faster-RCNN	21.4	15.6	6.7	51.7	29.5	19.0	13.1	7.7	31.4	20.7	21.7
CenterNet^[27]	28.0	11.6	9.0	51.0	36.5	27.9	20.1	19.9	37.7	21.0	26.0
RetinaNet	13.0	7.9	1.4	45.5	19.9	11.5	6.3	4.2	17.8	11.8	13.9
CornerNet^[28]	20.4	6.6	4.6	40.9	20.2	20.5	14.0	9.3	24.4	12.1	17.4
Cascade-RCNN	19.9	12.3	8.4	54.1	35.3	26.4	17.4	9.2	42.2	19.6	24.5
YOLOv5s^[29]	39.1	31.8	10.2	73.3	35.4	31.7	19.5	11.7	38.9	37.0	32.9
YOLOX-s^[30]	15.0	10.9	4.2	49.3	24.4	15.7	10.5	6.1	25.6	16.9	17.9
YOLOv8n	33.6	26.4	7.2	75.0	37.1	26.9	19.7	11.7	42.0	33.8	31.3
LFEF-Net	43.9	34.7	11.5	80.4	41.7	28.0	22.3	13.2	46.6	42.9	36.5

表 3 消融实验结果

Table 3 Results of ablation experiment

YOLOv8n	优化层	SPD-Conv	CARAFE	LSKNet	WIoU v3	mAP50/%	P/%	R/%	Params/M	FLOPs/G
√						31.3	42.6	31.9	3.01	8.1
√	√					34.1	44.6	33.5	0.98	9.4
√		√				34.2	44.6	34.5	3.27	9.6
√			√			32.3	43.5	32.0	3.14	8.6
√				√		32.7	45.1	32.5	3.02	8.2
√					√	32.2	43.7	32.2	3.01	8.1
√	√	√				36.2	45.9	35.7	1.10	10.4
√	√	√	√			36.3	46.5	35.8	1.13	10.2
√	√	√	√	√		36.4	46.6	36.0	1.08	10.2
√	√	√	√	√	√	36.5	46.7	36.3	1.08	10.2

表 4 改进前后模型在噪声数据集上的实验结果

Table 4 Experimental results of the models before and after improvement on the noisy dataset

模型	mAP50/%	P/%	R/%	Params/10⁶
YOLOv8n	30.0	41.0	30.4	3.01
EFLF-Net	34.3	45.3	33.8	1.08

参考文献(30)

[1]	何宇豪, 易明发, 周先存, 等. 基于改进的Yolov5的无人机图像小目标检测[J]. 智能系统学报, 2024, 19(3): 635−645. doi: 10.11992/tis.202210032 HE Yuhao, YI Mingfa, ZHOU Xiancun, et al. UAV image small-target detection based on improved Yolov5[J]. CAAI transactions on intelligent systems, 2024, 19(3): 635−645. doi: 10.11992/tis.202210032
[2]	刘威, 靳宝, 周璇, 等. 基于特征融合及自适应模型更新的相关滤波目标跟踪算法[J]. 智能系统学报, 2020, 15(4): 714−721. doi: 10.11992/tis.201803036 LIU Wei, JIN Bao, ZHOU Xuan, et al. Correlation filter target tracking algorithm based on feature fusion and adaptive model updating[J]. CAAI transactions on intelligent systems, 2020, 15(4): 714−721. doi: 10.11992/tis.201803036
[3]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779−788.
[4]	TAN Ling, WU Hui, XU Zifeng, et al. Multi-object garbage image detection algorithm based on SP-SSD[J]. Expert systems with applications, 2025, 263: 125773. doi: 10.1016/j.eswa.2024.125773
[5]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2020, 42(2): 318−327. doi: 10.1109/TPAMI.2018.2858826
[6]	CUI Jian, ZHANG Xinle, ZHANG Jiahuan, et al. Weed identification in soybean seedling stage based on UAV images and Faster R-CNN[J]. Computers and electronics in agriculture, 2024, 227: 109533. doi: 10.1016/j.compag.2024.109533
[7]	KARAKO K, MIHARA Y, ARITA J, et al. Automated liver tumor detection in abdominal ultrasonography with a modified faster region-based convolutional neural networks (Faster R-CNN) architecture[J]. Hepatobiliary surgery and nutrition, 2022, 11(5): 675−683. doi: 10.21037/hbsn-21-43
[8]	秦振, 李学伟, 刘宏哲. 基于改进SSD的鲁棒小目标检测算法[J]. 东北师大学报(自然科学版), 2023, 55(4): 59−66. QIN Zhen, LI Xuewei, LIU Hongzhe. Robust small tar-get detection algorithm based on improved SSD[J]. Journal of Northeast Normal University(natural science edition), 2023, 55(4): 59−66.
[9]	LEE S S, LIM L G, PALAIAHNAKOTE S, et al. Oil palm tree detection in UAV imagery using an enhanced RetinaNet[J]. Computers and electronics in agriculture, 2024, 227: 109530. doi: 10.1016/j.compag.2024.109530
[10]	邓姗姗, 黄慧, 马燕. 基于改进Faster R-CNN的小目标检测算法[J]. 计算机工程与科学, 2023, 45(5): 869−877. doi: 10.3969/j.issn.1007-130X.2023.05.012 DENG Shanshan, HUANG Hui, MA Yan. A small object detection algorithm based on improved Faster R-CNN[J]. Computer engineering & science, 2023, 45(5): 869−877. doi: 10.3969/j.issn.1007-130X.2023.05.012
[11]	吴明杰, 云利军, 陈载清, 等. 改进YOLOv5s的无人机视角下小目标检测算法[J]. 计算机工程与应用, 2019, 60(2): 191−199. WU Mingjie, YUN Lijun, CHEN Zaiqing, et al. Improved YOLOv5s small target detection algorithm in UAV view[J]. Computer engineering and applications, 2019, 60(2): 191−199.
[12]	WANG Xin, HE Ning, HONG Chen, et al. Improved YOLOX-X based UAV aerial photography object detection algorithm[J]. Image and vision computing, 2023, 135: 104697. doi: 10.1016/j.imavis.2023.104697
[13]	牛为华, 魏雅丽. 基于改进YOLOv 7的航拍小目标检测算法[J]. 电光与控制, 2024, 31(1): 117−122. doi: 10.3969/j.issn.1671-637X.2024.01.019 NIU Weihua, WEI Yali. Small target detection in aerial photography images based on improved YOLOv7 algorithm[J]. Electronics optics & control, 2024, 31(1): 117−122. doi: 10.3969/j.issn.1671-637X.2024.01.019
[14]	TERVEN J, CÓRDOVA-ESPARZA D M, ROMERO-GONZÁLEZ J A. A comprehensive review of YOLO architectures in computer vision: from YOLOv1 to YOLOv8 and YOLO-NAS[J]. Machine learning and knowledge extraction, 2023, 5(4): 1680−1716. doi: 10.3390/make5040083
[15]	KRIEGEL J, DEJAM J, DURTH H, et al. Zur strafbarkeit von datenfunden im darknet[J]. Datenschutz und datensicherheit-DuD, 2024, 48(12): 769−774. doi: 10.1007/s11623-024-2015-x
[16]	SHEN Kenan, ZHAO Dongbiao. Fault analysis and fault degree evaluation via an improved ResNet method for aircraft hydraulic system[J]. Scientific reports, 2025, 15: 4132. doi: 10.1038/s41598-025-86634-3
[17]	FENG Dapeng, ZHUANG Xuebin, CHEN Zhiqiang, et al. Position information encoding FPN for small object detection in aerial images[J]. Neural computing and applications, 2024, 36(26): 16023−16035. doi: 10.1007/s00521-024-09917-2
[18]	LIU Shu, QI Lu, QIN Haifang, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8759-8768.
[19]	伍麟, 郝鸿宇, 宋友. 基于计算机视觉的工业金属表面缺陷检测综述[J]. 自动化学报, 2024, 50(7): 1261-1283. WU Lin, HAO Hongyu, SONG You. A review of industrial metal surface defect detection based on computer vision [J]. IEEE/CAA journal of automatica sinica, 2019, 50(7): 1261−1283.
[20]	SUNKARA R, LUO Tie. No more strided convolutions or pooling: a new CNN building block for low-resolution images and small objects[EB/OL]. (2022−08−07)[2024−04−01]. https://arxiv.org/abs/2208.03641.
[21]	DING Zhipeng, WANG Ben, SUN Shuifa, et al. Improved SmapGAN remote sensing image map generation based on multi-head self-attention and carafe[J]. Journal of applied remote sensing, 2024, 18(1): 014526.
[22]	HOU Yue, ZHANG Zhihao, DU Lixia, et al. A fully locally selective large kernel network for traffic video detection[J]. Measurement, 2025, 242: 115779. doi: 10.1016/j.measurement.2024.115779
[23]	WANG Chenghao, LUO Zhongqiang, QI Ziyuan. Transformer oil leakage detection with sampling-WIoU module[J]. The journal of supercomputing, 2024, 80(6): 7349−7368. doi: 10.1007/s11227-023-05748-5
[24]	HUANG Zixin, TAO Xuesong, LIU Xinyuan. NAN-DETR: noising multi-anchor makes DETR better for object detection[J]. Frontiers in neurorobotics, 2024, 18: 1484088. doi: 10.3389/fnbot.2024.1484088
[25]	MARAPATLA A D K, ILAVARASAN E. An effective attack detection framework using multi-scale depth-wise separable 1DCNN via fused grasshopper-based lemur optimizer in IoT routing system[J]. Intelligent decision technologies, 18(3): 1741−1762.
[26]	WANG Xin, HE Ning, HONG Chen, et al. YOLO-ERF: lightweight object detector for UAV aerial images[J]. Multimedia systems, 2023, 29(6): 3329−3339. doi: 10.1007/s00530-023-01182-y
[27]	ZHU Xingfei, WANG Qimeng, ZHANG Bufan, et al. An improved feature enhancement CenterNet model for small object defect detection on metal surfaces[J]. Advanced theory and simulations, 2024, 7(8): 2301230. doi: 10.1002/adts.202301230
[28]	NAWAZ M, NAZIR T, MASOOD M, et al. Analysis of brain MRI images using improved CornerNet approach[J]. Diagnostics, 2021, 11(10): 1856. doi: 10.3390/diagnostics11101856
[29]	WANG Zhaodi, YANG Shuqiang, QIN Huafeng, et al. CCW-YOLO: a modified YOLOv5s network for pedestrian detection in complex traffic scenes[J]. Information, 2024, 15(12): 762. doi: 10.3390/info15120762
[30]	ZHANG Hongtao, ZHENG Li, TAN Lian, et al. YOLOX-S-TKECB: a Holstein cow identification detection algorithm[J]. Agriculture, 2024, 14(11): 1982. doi: 10.3390/agriculture14111982

点击查看大图

图(5) / 表(4)

摘要

基于高效特征提取和大感受野的无人机航拍图像目标检测

doi: 10.11992/tis.202405001

通讯作者: 熊刚. E-mail：gang.xiong@ia.ac.cn.

出版历程

Uav aerial image target detection based on high-efficiency feature extraction and large receptive field

1. YOLOv8算法

2. EFLF-Net网络

2.1 EFLF-Net网络结构

2.2 优化检测层架构

2.3 大型选择性核网络

2.4 新的CNN构建模块

2.5 内容感知特征重组模块

2.6 损失函数

3. 实验验证与对比分析

3.1 数据集

3.2 实验环境及参数配置

3.3 参数指标

3.4 实验结果与分析

3.4.1 LSKNet模块对网络性能的影响

3.4.2 主流算法对比实验

3.4.3 消融实验结果及分析

3.4.4 实验可视化与分析

3.4.5 模型泛化性实验对比

4. 结束语

出版历程

目录

通讯作者:
熊刚. E-mail：gang.xiong@ia.ac.cn.