Remote sensing image object detection based on dynamic hypergraphs and multi-scale feature fusion
-
摘要:
遥感图像目标尺度差异大、背景复杂,而目标检测模型存在多尺度感知能力不足、全局语义特征建模能力差的问题。本文提出了一种基于动态超图与多尺度特征融合的遥感图像目标检测模型。构造多尺度空洞卷积特征融合模块,并设计对应的特征提取网络,充分提取多尺度特征;构造动态门控超图模块,以此构建全局语义特征建模网络,强化对目标特征区域的感知,弱化复杂背景的干扰;提出多通道坐标注意力模块,结合坐标注意力机制与多尺度通道交互,增强特征的表达。在DIOR和RSOD两个数据集上设计了多组消融实验,结果表明,本模型在DIOR数据集与RSOD数据集上的平均精度均值比YOLO11模型分别提升2.5和2.3百分点,显著提升了遥感图像目标检测的精度。为验证本模型的有效性,设计对比实验与不同方法比较,实验结果证明本模型的检测效果优于其他方法。
Abstract:Remote sensing images exhibit significant variations in target scales and complex backgrounds, while existing object detection models suffer from limited multi-scale perception and insufficient global semantic modeling capabilities. To address these challenges, a remote sensing object detection framework based on dynamic hypergraph and multi-scale feature fusion was proposed. First, a multi-scale dilated convolution feature fusion module was constructed, and a feature extraction network was designed to fully extract multi-scale features. Second, a dynamic gated hypergraph module was developed to establish a global semantic feature modeling network, which enhanced target feature perception while weakening complex background interference. Finally, a multi-channel coordinate attention module was presented, combining coordinate attention mechanisms with multi-scale channel interactions to strengthen feature representation. Ablation experiments are conducted on the DIOR and the RSOD datasets, demonstrating that the proposed model achieves 2.5 and 2.3 percent age point improvements in mean average precision over the YOLO11 baseline. Comparative experiments validate the superiority of the proposed model, showing enhanced detection performance against other methods.
-
作为人工智能与遥感技术交叉渗透的重要研究领域,遥感图像目标检测在城市规划、灾害监测和军用侦察等关键场景中展现出广阔的应用潜力。然而,遥感图像具有目标尺度差异大、背景复杂和小目标特征稀疏等特点[1],使得传统的目标检测算法面临显著挑战。
随着机器学习相关技术的发展,一系列基于深度学习的目标检测方法相继涌现。依据算法是否预先生成目标候选区域这一核心特征,目标检测算法可划分为单阶段目标检测算法与双阶段目标检测算法两大类别。
YOLO(you only look once)[2]系列是单阶段目标检测算法的代表。该系列算法能够基于输入图像的像素信息直接预测出目标边界框的坐标参数与对应类别概率。SSD(single shot multi-box detector)[3]也是单阶段目标检测算法的典型代表。该算法通过在多尺度特征图上开展边界框预测任务,具备对不同尺寸目标的检测能力。吴珺等[4]在YOLOv5s目标检测网络基础上,提出了轻量网络模型,实现轻量化部署。唐嘉潞等[5]基于CenterNet[6]提出加入注意力机制和特征融合的瑕疵检测算法,提高了小目标检测精度。梁礼明等[7]提出一种基于MobileViT(mobile vision Transformer)和多尺度特征聚合的遥感图像目标检测算法,提升了对遥感目标的检测性能。周莲等[8]提出了一种小样本目标检测算法,提升了遥感图像小样本目标检测的精度。
R-CNN(region-based convolutional neural networks)[9]系列是双阶段目标检测算法的主要代表。这类算法先生成候选区域,再对这些区域进行分类和定位。其检测精度较高,但训练繁琐且检测速度慢。Fast R-CNN[10]将特征提取、分类和回归整合到一个网络,简化了训练过程并提升了效率。Faster R-CNN[11]引入区域提议网络(region proposal network,RPN)实现端到端训练,适用于高精度场景。
随着Transformer的成功,一些基于Transformer的目标检测算法陆续被提出。DETR(detection Transformer)[12]采用CNN提取特征,经编码器−解码器结构处理,预测目标类别和边界框位置。Huang等[13]提出一个名为DEIM(DETR with improved matching)的高效训练框架,加速基于DETR的实时目标检测的收敛。Meng等[14]提出的Conditional DETR通过改进解码器加速训练收敛。Ye等[15]提出一个密度感知的动态查询DETR,实现了高效和准确的微小物体检测。
由于遥感图像自身的特点,传统的目标检测算法直接应用于遥感图像目标检测效果不尽人意。因此,一些针对于遥感图像的目标检测算法陆续被提出来。赵文清等[16]提出了一种改进YOLOv5s的遥感图像目标检测算法,引入Swin Transformer网络结构与坐标注意力机制,提高了遥感图像目标检测的精度。文斌等[17]提出了基于FNM-Net的轻量级遥感目标检测网络,提高了模型的检测速度。Zhao等[18]提出了一种自适应注意力特征融合的多尺度目标检测算法,提升了遥感图像目标检测的精度。单慧琳等[19]提出了一种增强小目标特征的多尺度神经网络,改善了光学遥感图像小目标检测性能。Yue等[20]提出了一种语义校正与聚焦网络,提高了对遥感目标的检测精度。Ren等[21]提出了一个交叉阶段部分强化匹配检测器,改善了遥感图像目标检测效果。赵文清等[22]提出了一种结合倒残差自注意力机制的目标检测方法,构造倒残差自注意力机制骨干网络,提升了遥感图像目标检测精度。虽然上述方法在遥感场景中取得了一定的进展,但是模型多尺度感知能力不足,全局语义建模薄弱的问题仍未被有效解决,在一定程度上限制了遥感图像目标检测的性能。
针对上述问题,并结合遥感图像目标尺度差异大,背景复杂等特点,本文提出一种基于动态超图与多尺度特征融合的遥感图像目标检测模型(dynamic hypergraphs and multi-scale feature fusion network,DHMF-Net)。本文的主要工作如下:
1)提出了一个多尺度空洞卷积特征融合模块(multi-scale dilated convolution feature fusion block,MSDCFB),利用不同大小的感受野,提取多尺度的目标特征。
2)提出了一个动态门控超图模块(dynamic gated hypergraph module,DGHGM),通过动态超图建立全局语义特征模型,抑制复杂背景的干扰。
3)提出了一个多通道坐标注意力模块(multi-channel and coordinate attention module,MCAM)结合坐标注意力机制与多尺度通道交互,增强特征的表达。
1. 相关技术
1.1 YOLO11网络
本文提出的DHMF-Net模型是基于YOLO11网络改进的。YOLO11的骨干网络以CSPDarknet(cross stage partial Darknet)为基础,主要用于提取图像的特征信息。相较于YOLOv8的骨干网络,YOLO11采用C3k2模块替换了C2f模块,同时在骨干网络的尾部添加了一个C2PSA(cross stage partialpyramid slice attention)模块。YOLO11的特征融合网络采用PANet(path aggregation network)结构分别从自顶而下和自底向上两个方向聚合不同尺度的特征信息。YOLO11检测头的分类损失分支使用两个深度可分离卷积(depthwise separable convolution, DSC)替代了标准卷积,减少了冗余计算,提高了效率。
与YOLO系列的其他模型相比,YOLO11的性能更好,参数量与计算量更低,在计算资源受限的环境中更具效率。因此,本文选择YOLO11作为基线模型,并在此基础上提出了DHMF-Net模型。
1.2 超图神经网络
由于传统的图卷积神经网络仅限于处理数据间的成对连接关系,难以对复杂的数据关系建模,超图神经网络(hypergraph neural networks,HGNN)[23]应运而生。HGNN利用超图结构对复杂数据关系进行建模。超图中的超边可连接两个或更多节点,能表示复杂数据之间的关系,是一种更加灵活的数据建模工具。
HGNN通过超边卷积操作,在表征学习中处理数据之间的相关性。其将数据的潜在关系以超图结构来表示,并通过超边卷积操作对高阶数据相关性进行表征学习。HGNN核心思想是通过“节点−超边−节点”的两阶段消息传递机制,实现节点特征的更新。通过超图卷积操作,HGNN能够学习数据中的高阶相关性,实现信息在超图结构上的高效传播和聚合,使得节点能够综合考虑多种复杂关系,获得更全面的特征信息。
本文提出的DGHGM模块借鉴了HGNN的思想,通过动态超图构建全局语义特征模型,抑制复杂背景的干扰。
1.3 空洞卷积
空洞卷积(dilated convolution)[24]是一种在卷积核中插入空洞(零点)的卷积操作,主要用于扩大卷积的感受野。具体而言,空洞卷积通过在卷积核中插入多个零点,使得卷积操作能够跳跃式地覆盖更大的区域,从而扩大感受野。这使得网络能够在不增加参数量的情况下捕获更长距离的依赖关系。通过使用不同空洞率(dilation rate)的空洞卷积,可以在不同尺度上提取特征,实现多尺度特征融合。这种特性使得空洞卷积可同时捕获局部细节和全局上下文信息,对于目标检测任务尤为重要。
本文提出的MSDCFB模块利用不同空洞率的空洞卷积,提升模型对多尺度目标的特征提取能力。
2. 网络结构与方法
本文提出的DHMF-Net模型结构如图1所示。首先,构建了一个基于多尺度空洞卷积的特征提取网络。利用MSDCFB模块将不同空洞率的空洞卷积与多分支结构创新性结合,扩大卷积操作的感受野,提升了网络对多尺度特征的提取能力。同时,本文借鉴了Hyper-YOLO[25]模型中基于超图的跨层次跨位置表示网络(hypergraph-based cross-level and cross-position representation network)的思想,并结合本文提出的DGHGM模块,构建出一个全局语义特征建模网络,提升了DHMF-Net模型抗复杂背景干扰的能力。此外,本文构建了一个基于多通道坐标注意力的特征融合网络。利用MCAM模块的坐标注意力增强目标的特征信息,利用多个深度可分离卷积组捕获丰富的上下文信息,增强目标的特征。
2.1 基于多尺度空洞卷积的特征提取网络
在基于多尺度空洞卷积的特征提取网络中,输入图像先后经过多个卷积层和MSDCFB模块,用于提取多尺度目标特征。然后再通过SPPF(spatial pyramid pooling fast)模块进行多尺度特征融合,最后通过C2PSA模块进行特征强化。
其中,MSDCFB模块的结构如图2所示。本模块采用了多分支特征融合设计,以增强模型的多尺度特征感知能力;使用了一个轻量级通道注意力机制——SE_Block(squeeze-and-excitation Block)[26],在仅增加少量参数的情况下,强化模型对关键特征的聚焦能力;使用多个Bottleneck模块堆叠,逐步提取深层次的语义特征,提升模型对复杂目标的识别能力,同时缓解梯度消失问题,确保深层网络的稳定;利用通道扩展与融合机制,综合不同层次和不同尺度的特征,提升了模型对目标类别的识别能力。
与YOLO11中传统的C3k2模块相比,MSDCFB模块结合了多分支特征融合与多尺度空洞卷积,扩大了模型的感受野,对不同尺度目标的特征提取能力更强。
在MSDCFB模块中,输入的特征图首先经过一个卷积层来扩展通道维度,为后续多分支处理提供更丰富的信息。然后,特征图经过3个分支的处理后再进行通道拼接,最终利用1×1卷积融合多分支特征,保留关键信息,减少冗余计算。其中,3个处理特征的分支分别是特征降维分支、空洞卷积分支和特征分割处理分支。特征降维分支直接通过1×1卷积对特征图降维,以保留原始特征的浅层信息,确保模型对简单目标的快速响应。空洞卷积分支利用3个空洞率分别为1、2、3的深度卷积(depth-wise convolution,DWConv)构成空洞卷积,在不增加参数量的情况下扩展感受野,捕捉不同尺度的上下文信息。然后,通过通道拼接与SE_Block注意力机制,动态调整各通道的重要性权重,抑制噪声信息的干扰,增强模型对关键特征(如目标轮廓、纹理)的响应。特征分割处理分支将初始特征进行拆分,并利用Bottleneck模块堆叠来挖掘深层特征。每个Bottleneck模块处理前一阶段的输出,并逐步细化多尺度特征,形成层次化的特征表示,提升目标检测的精度和泛化能力。此外,Bottleneck模块通过使用残差连接来缓解模型在训练中的梯度消失问题,加强深层网络结构的稳定性。总之,MSDCFB模块通过结合多分支特征融合、轻量级注意力机制、Bottleneck模块堆叠和通道扩展融合机制,增强了特征提取网络对多尺度目标的感知能力。经过特征提取网络对输入图像的多尺度特征提取,为后续全局语义特征建模网络和基于多通道坐标注意力的特征融合网络提供了丰富的特征信息。
2.2 全局语义特征建模网络
在全局语义特征建模网络中,首先,将特征提取网络中6个不同尺度的特征图进行通道维度的拼接,然后再利用1×1的卷积层进行通道压缩。最后,利用DGHGM模块对压缩后的特征图进行语义特征建模,其结构如图3所示。
DGHGM模块利用余弦相似度(cosine_similarity)来计算原始特征与投影特征的相似度,并结合可学习阈值动态生成超边掩码,隐式构建超图,以此筛选出高相关性的特征区域;利用双向门控机制提取局部特征,同时动态控制节点(特征点)与超边(高阶关系)之间的信息流动;利用深度卷积聚合局部特征,模拟超边内的特征交互,捕捉深层的语义特征,提升模型的语义建模能力。
对比传统的HGNN方法,DGHGM模块利用可学习阈值参数与双向门控机制实现了超边的动态生成以及超边与节点之间的动态交互。这可以更加高效地筛选出特征图中的高阶语义特征,增强语义建模能力。
在DGHGM模块中,为降低计算的复杂度,特征图先经过1×1的卷积层来压缩通道数目,得到特征图x。然后,构建一个节点到超边的门控网络。使用DWConv和Sigmoid函数生成一个空间注意力权重v2e,并与原始特征图x逐元素相乘,得到局部门控特征xv2e。此过程模拟超图中节点特征向超边聚合的过程,主要作用是筛选出重要特征用于动态构建超边。然后,再利用DWConv和SiLU函数实现对xv2e的消息聚合。这一过程模拟了超边内的局部特征交互,生成初始超边特征E。
同时,本文基于余弦相似度构建出动态超边生成网络。特征图x经过全连接层将原始特征投影到相似性空间,并生成对应的投影特征xt。然后,利用余弦相似度来计算投影特征xt与局部门控特征xv2e之间的相似度。之后,将相似度矩阵与预先设置好的可学习阈值进行二值化处理,大于阈值的部分构成超边掩码Emask。这一过程将超图结构隐式编码在特征相似度计算中,通过超边掩码机制实现超边的按需生成。这种设计既提升了计算效率,又保留了超图的拓扑特性。最后,将初始超边特征E与超边掩码相乘得到超边特征xEdge。这一过程将特征图中潜在的高阶语义特征聚合,筛选出高相关性的特征区域,增强了模型对上下文语义信息的建模能力。
接下来,将超边特征xEdge应用于超边到节点的门控网络中。再次使用DWConv和Sigmoid函数生成空间注意力权重v2e,并与超边特征xEdge逐元素相乘,从而将超边捕获的高阶语义特征发散到各个节点中,得到高阶特征S。最后,将S与原始特征x相加以保留原始特征,并使用卷积操作恢复通道数目,为后续目标检测任务提供丰富的语义特征。
上述计算过程的公式为
$$ {{\boldsymbol{x}}_{{\mathrm{v2e}}}={\boldsymbol{x}}} {\otimes} {\boldsymbol{v}}_{{\mathrm{2e}}} $$ (1) $$ {{\boldsymbol{E}}}= \mathrm{SiLU(DWConv(} {{\boldsymbol{x}}_{{\mathrm{v2e}}}} \mathrm{))} $$ (2) $$ {{\boldsymbol{E}}_{{\mathrm{mask}}}}= \mathrm{Bina(cosine\_similarity(} {\boldsymbol{x}}_{{\mathrm{t}}}\text{,}{\boldsymbol{x}}_{{\mathrm{v2e}}} \mathrm{))} $$ (3) $$ {\boldsymbol{x}}_{{\mathrm{Edge}}} = {\boldsymbol{E}} {\otimes} {{\boldsymbol{E}}_{{\mathrm{mask}}}} $$ (4) $$ {\boldsymbol{S}} = {\boldsymbol{x}}_{{\mathrm{Edge}}} {\otimes} {\boldsymbol{v}}_{{\mathrm{2e}}} $$ (5) 式中:$\otimes $表示逐元素相乘,DWConv( )表示深度卷积操作,SiLU( )表示使用SiLU作为损失函数,cosine_similarity( )表示使用余弦相似度比较,Bina( )表示使用阈值进行二值化处理。
这一过程充分利用了不同尺度的特征信息,增强了模型对全局语义特征的建模能力。同时,通过动态超边的生成与更新,模型可以不断强化对目标特征区域的感知。
经过全局语义特征建模网络对多个层次特征的处理,为后续基于多通道坐标注意力的特征融合网络提供了更加全面的语义特征。
2.3 基于多通道坐标注意力的特征融合网络
为了进一步增强模型对小目标的特征表达能力,本文构建了一个基于多通道坐标注意力的特征融合网络。在整个特征融合网络部分,分别将特征提取网络中3个不同尺度的特征图和经全局语义特征建模网络处理后的特征图作为输入,经过多个MCAM模块与C3k2模块的处理,实现特征增强与融合。其中,MCAM模块的结构如图4所示。
本模块利用多尺度通道交互机制,使用不同尺度的深度可分离卷积来增强多尺度目标感知能力;利用坐标注意力机制,生成归一化的坐标网格,并将空间位置信息与通道信息融合,强化了目标特征的表达;同时,本模块利用可学习权重参数,对多尺度通道交互的输出进行加权融合,并根据输入特征动态调整不同尺度分支的权重。
与CBAM[27]注意力相比,MCAM模块结合了多通道交互、可学习权重和坐标注意力机制,让模型更聚焦关键区域,对目标的感知与识别能力更强。
当输入信息进入MCAM模块后,会被3个不同的深度可分离卷积分支处理。其中,3×3的深度可分离卷积用于提取小尺度的特征,5×5的深度可分离卷积提取中等尺度的特征,7×7的深度可分离卷积提取大尺度的特征。这一过程可以提取到多尺度的上下文信息。深度可分离卷积的使用既保持了各通道特征的独立性,又降低了模型的计算量。此外,本模块预先设置了可学习的权重参数,与多分支处理后的特征进行动态加权并融合。可学习的权重参数可根据任务需求自适应调整各分支特征的权重,避免固定比例导致的信息丢失。
同时,本模块利用了坐标注意力机制。首先,根据特征图的空间尺寸创建归一化的X坐标和Y坐标网格,并利用显式位置编码将空间坐标信息(目标的相对位置)融入注意力机制,以增强对小目标的特征表达。然后,使用1×1的卷积对坐标信息进行编码,生成与输入特征同尺寸的注意力权重。此外,输入信息会经过全局最大池化,以增强模型对特征显著区域的关注度。接着利用1×1的卷积生成全局通道权重,进一步筛选重要特征。然后,将坐标注意力权重信息与全局通道权重信息逐元素相乘,得到最终的坐标注意力权重。这一过程将目标的空间位置信息与显著特征信息相融合,强化了模型对目标的定位和识别能力。最后,将坐标注意力权重与原始特征相乘后与多尺度通道交互的加权特征相融合,再通过残差连接防止原始特征丢失,输出增强后的特征图。该特征图与全局语义特征建模网络的输出相结合后,经过多层C3k2与卷积层的处理,实现多尺度的特征融合。
经过特征融合网络对特征图进行特征增强与融合,输出的不同尺寸特征图再通过检测头的处理,实现对目标的分类与回归,进而完成目标检测任务。
3. 实验结果与分析
3.1 实验环境与参数设置
本实验使用的是ubuntu20.04 LTS操作系统,CPU为Intel Core i7 11700K,GPU为NVIDIA GeForce RTX 4070 SUPER。实验使用的相关技术框架是PyTorch 2.2.0、CUDA 11.8、Python 3.8.20。实验训练过程中,epochs设置为300,batch设置为16,初始学习率为0.01,最终学习率为
0.0001 ,优化器采用了随机梯度下降算法(stochastic gradient descent,SGD)。在训练开始时,首先进行3个epoch的warm-up训练。在warm-up训练阶段动量参数设置为0.8,训练结束后修改为0.937。3.2 数据集与评价指标
本研究选取RSOD与DIOR两个公开数据集开展实验验证。RSOD数据集聚焦4类典型地物目标(操场、油桶、飞机、立交桥),由936幅图像与
6950 个标注实例构成;DIOR数据集涵盖20个目标类别,总计包含23463 幅遥感图像,对应标注的目标实例数量达192472 个。在数据集划分方面,针对RSOD数据集,本研究按照8∶2的比例划分,训练集746幅图像,验证集190幅图像;对于DIOR数据集,本研究采用随机划分方式,选取11725 幅图像构建训练集,余下11738 幅图像作为验证集。本研究采用多维度评估指标对模型性能进行分析:针对检测精度的评估,选取平均精度(average precision, AP)及平均精度均值(mean average precision, mAP)作为核心指标;模型的大小通过参数量(Parameters)进行表征;推理速度则以每秒处理帧数(frames per second, FPS)作为关键评估标准。
3.3 消融实验结果与分析
为验证DHMF-Net模型中3个创新模块的实际效果,本研究在DIOR与RSOD两个数据集上设计并开展了针对性的消融实验。其中,在DIOR数据集上进行消融实验的结果如表1所示。由表1可知,基线模型YOLO11在DIOR数据集上的mAP为78.0%。在基线模型的基础上分别加入DGHGM模块和MSDCFB模块后,mAP先后达到78.6%和79.5%。在基线模型的基础上同时加入DGHGM和MCAM模块mAP为78.7%;同时加入DGHGM和MSDCFB模块mAP为80.0%。在基线模型的基础上,同时加入DGHGM、MSDCFB和MCAM模块后,mAP达到了80.5%,比基线模型提升了2.5百分点。
表 1 DIOR数据集消融实验结果Table 1 Ablation results on the DIOR dataset% 方法 mAP YOLO11 78.0 YOLO11+DGHGM 78.6 YOLO11+MSDCFB 79.5 YOLO11+DGHGM+MCAM 78.7 YOLO11+DGHGM+MSDCFB 80.0 YOLO11+DGHGM+MSDCFB+MCAM 80.5 注:加粗为效果最好。 模型在RSOD数据集上的消融实验结果如表2所示。基线模型YOLO11在RSOD数据集上的mAP为93.0%。在基线模型的基础上分别加入DGHGM模块和MSDCFB模块后,mAP先后达到93.6%和94.4%。在基线模型的基础上同时加入DGHGM和MCAM模块mAP为94.9%;同时加入DGHGM和MSDCFB模块后mAP为95.1%。在基线模型的基础上,同时加入DGHGM、MSDCFB和MCAM模块后,mAP达到了95.3%,较基线模型提升了2.3百分点。
表 2 RSOD数据集消融实验结果Table 2 Ablation results on the RSOD dataset% 方法 mAP YOLO11 93.0 YOLO11+DGHGM 93.6 YOLO11+MSDCFB 94.4 YOLO11+DGHGM+MCAM 94.9 YOLO11+DGHGM+MSDCFB 95.1 YOLO11+DGHGM+MSDCFB+MCAM 95.3 注:加粗为效果最好。 对比两个数据集上的消融实验结果,DHMF-Net模型在RSOD数据集上的mAP达到了95.3%,在DIOR数据集上的mAP达到了80.5%,两者相差14.8百分点。出现这种差异的原因是RSOD数据集的图片数目和目标类别都远少于DIOR数据集,降低了目标检测的难度。
3.4 对比实验结果与分析
为了进一步证明DHMF-Net模型的有效性,本文分别在DIOR和RSOD两个数据集上,将所提出的DHMF-Net模型与其他的主流目标检测方法进行对比实验。其中,不同算法在DIOR数据集上的对比实验结果如表3所示。
表 3 不同方法在DIOR数据集上的检测结果比较Table 3 Comparison of detection results of different methods in DIOR dataset方法 骨干网络 输入尺寸 mAP/% 参数量/106 SSD VGGNet 300×300 55.7 26.3 Faster R-CNN VGGNet 600× 1000 52.1 136.7 CenterNet Resnet50 640×640 55.2 32.7 RetinaNet Resnet50 640×640 61.6 37.9 YOLOv3 Darknet53 640×640 58.0 61.5 YOLOv4 CSPDarknet53 640×640 65.0 52.5 YOLOv5 CSPDarknet 640×640 69.6 7.1 YOLOX CSPDarknet 640×640 72.2 8.9 YOLOv8 CSPDarknet 640×640 77.2 3.0 AAFNet[18] Modified CSPDarknet 640×640 75.3 14.1 SCFNet[20] Modified CSPDarknet 640×640 69.9 32.1 StrMCsDet[21] CSPDarknetC5 608×608 65.6 41.4 YOLO11 CSPDarknet 640×640 78.0 2.6 DHMF-Net Modified CSPDarknet 640×640 80.5 3.8 注:加粗表示效果最好。 由表3可知,在目标检测精度方面,DHMF-Net模型比SSD、Faster R-CNN、CenterNet[6]和RetinaNet这些经典方法有显著提升。与YOLOv3、YOLOv4、YOLOv5、YOLOX、YOLOv8和YOLO11这些主流的目标检测方法相比,DHMF-Net模型仍有较大的提升。与AAFNet[18]、SCFNet[20]和StrMCsDet[21]这些改进的遥感图像目标检测方法相比,DHMF-Net模型的mAP分别提升了5.2、10.6、14.9百分点。通过与不同方法的对比,验证了本文提出的DHMF-Net模型的有效性,进一步说明了DGHGM、MSDCFB和MCAM这3个模块对提升模型的检测精度有重要作用。
从模型参数量上分析,DHMF-Net模型在保持较高检测精度的同时,仅有3.8×106的参数量,显著低于大多数方法。这意味着本文提出的方法计算开销更小,对硬件要求更低。虽然YOLOv8与YOLO11的参数量比DHMF-Net模型分别减少了0.8×106、1.2×106,但是其检测精度也比DHMF-Net模型降低了3.3和2.5百分点。这意味着尽管DHMF-Net模型在引入DGHGM、MSDCFB和MCAM这3个模块时增加了一定的参数量,但检测精度有明显的提升。
各个对比方法在DIOR数据集上的检测结果详细比较如表4所示。表中C1—C20依次对应DIOR数据集中20个不同类别目标的检测精度。通过对比分析可得,本研究提出的DHMF-Net模型在17类目标的检测精度上取得了最优结果。虽然在剩余3个类别的检测精度未达到最高值,但是DHMF-Net模型的检测精度仍处于较高的水平。
表 4 不同方法在DIOR数据集的检测结果详细比较Table 4 Comparison of detailed detection results of different methods in DIOR dataset% 方法 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20 mAP SSD 58.6 67.1 68.1 83.6 26.2 77.2 53.5 67.7 48.2 75.2 56.7 54.3 50.7 34.9 67.9 28.2 77.8 46.0 18.9 52.5 55.7 Faster R-CNN 47.9 64.7 68.6 84.0 23.7 76.4 53.1 57.5 47.0 74.6 56.8 42.0 49.2 16.6 70.5 20.9 73.9 52.9 12.2 49.1 52.1 CenterNet 65.7 64.7 69.2 84.8 25.8 73.8 46.8 54.0 48.0 69.5 56.9 39.7 48.2 45.1 47.6 39.6 79.8 50.3 30.2 65.1 55.2 RetinaNet 71.8 65.7 71.1 87.9 30.9 79.2 57.3 69.9 54.8 79.4 74.1 55.8 53.3 50.1 70.7 40.2 83.8 45.9 21.4 68.4 61.6 YOLOv3 74.7 54.6 69.4 83.8 27.2 73.5 47.7 50.2 46.9 57.7 44.2 57.8 47.3 88.6 29.3 72.3 85.8 27.3 47.4 73.4 58.0 YOLOv4 84.8 65.5 74.7 85.1 36.3 78.6 52.3 57.2 54.9 71.3 69.2 58.2 56.2 88.0 38.7 67.8 85.8 49.0 49.9 75.9 65.0 YOLOv5 85.9 76.1 72.3 89.4 43.6 80.8 61.5 59.9 58.0 75.5 73.8 62.1 57.6 89.1 55.7 72.7 86.9 55.5 53.8 82.7 69.6 YOLOX 89.3 72.0 75.3 90.2 47.8 79.3 61.5 60.1 66.2 74.2 76.8 58.1 62.3 89.9 71.1 77.5 89.9 61.0 57.3 83.5 72.2 YOLOv8 80.2 87.8 84.7 89.4 47.3 78.5 73.6 89.0 72.5 83.0 81.8 67.4 63.2 91.0 80.2 75.1 91.6 67.6 51.7 87.4 77.2 AAFNet[18] 92.7 81.7 81.0 90.8 49.7 81.3 69.9 67.9 70.4 80.4 77.3 64.0 63.2 90.4 68.5 78.0 90.6 65.1 56.6 85.7 75.3 StrMCsDet[21] 78.6 58.4 81.3 72.0 38.1 79.2 37.1 49.3 49.5 56.8 62.9 35.5 42.5 54.9 66.0 66.6 80.8 38.3 38.3 34.9 65.6 YOLO11 79.6 90.7 86.1 89.5 46.8 78.5 77.4 90.3 70.5 85.4 81.8 68.1 63.7 90.9 81.6 75.1 91.5 74.7 51.8 86.5 78.0 DHMF-Net 85.2 92.7 88.0 91.2 51.0 81.4 80.1 93.2 75.4 86.4 83.6 68.5 66.0 91.9 83.8 76.4 92.9 77.6 55.1 90.2 80.5 注:加粗表示效果最好。 不同方法在RSOD数据集上的检测结果比较如表5所示。在目标检测精度方面,通过对比可知,DHMF-Net模型的效果比SSD、Faster R-CNN、CenterNet和RetinaNet这些经典方法有显著提升。与YOLO系列的主流方法YOLOv3、YOLOv4、YOLOv5、YOLOX、YOLOv8和YOLO11相比,DHMF-Net模型的mAP分别提升了13.7、7.5、11.7、5.9、5.9、2.3百分点。此外,与改进的遥感图像目标检测方法IRSAM[22]相比,DHMF-Net模型的mAP依然优于IRSAM。
表 5 不同方法在RSOD数据集上的检测结果比较Table 5 Comparison of detection results of different methods in RSOD dataset方法 骨干网络 输入尺寸 mAP/% 参数量/106 SSD VGGNet 300×300 76.4 26.3 Faster R-CNN VGGNet 600× 1000 80.5 136.7 CenterNet Resnet50 640×640 77.3 32.7 RetinaNet Resnet50 640×640 81.7 37.9 YOLOv3 Darknet53 640×640 81.6 61.5 YOLOv4 CSPDarknet53 640×640 87.8 52.5 YOLOv5 CSPDarknet 640×640 83.6 7.1 YOLOX CSPDarknet 640×640 89.4 8.9 YOLOv8 CSPDarknet 640×640 89.4 3.0 IRSAM[22] IRSAB 640×640 94.7 4.7 YOLO11 CSPDarknet 640×640 93.0 2.6 DHMF-Net Modified CSPDarknet 640×640 95.3 3.8 注:加粗表示效果最好。 从模型参数量上分析,DHMF-Net模型的参数量显著低于大多数方法。虽然在引入DGHGM、MSDCFB和MCAM这3个模块后DHMF-Net模型参数量略高于YOLO11和YOLOv8,但是其检测精度优于YOLO11和YOLOv8。通过比较不同方法在RSOD数据集上的检测结果,进一步验证了DHMF-Net模型的有效性。
为更全面地评估DHMF-Net模型的性能,本文在RSOD数据集上与YOLO系列模型进行了全方面对比,对比结果如表6所示。结果表明,DHMF-Net模型的检测精度最高;在推理速度与参数量方面,DHMF-Net模型的性能低于YOLO11和YOLOv8模型,优于其他YOLO系列模型。
表 6 YOLO系列与DHMF-Net对比结果Table 6 Comparison results of YOLO and DHMF-Net方法 mAP/% 推理速度/(帧/s) 参数量/106 YOLOv3 81.6 30 61.5 YOLOv4 87.8 28 52.5 YOLOv5 83.6 48 7.1 YOLOX 89.4 49 8.9 YOLOv8 89.4 68 3.0 YOLO11 93.0 86 2.6 DHMF-Net 95.3 53 3.8 3.5 可视化结果分析
为更直观地展示DHMF-Net模型的效果,本文将DIOR数据集和RSOD数据集上的目标检测结果进行可视化展示,结果分别如图5、6所示。
由图5可知,在DIOR 数据集的可视化结果中,第1张与第2张图片因为背景复杂,干扰了目标的特征信息,使用YOLO11检测时出现漏检与误检。而DHMF-Net模型利用全局语义特征建模,抑制了复杂背景对目标检测的影响,正确检测出目标。在第3张图片中,由于目标尺度差异大,导致YOLO11出现了漏检。而DHMF-Net模型利用多尺度感知机制,减少了目标的漏检。
由图6可知,在RSOD数据集的可视化结果中,通过对比YOLO11与DHMF-Net的检测结果可看出,无论是背景复杂的目标,还是尺度差异大的目标,DHMF-Net的检测效果均优于YOLO11。
4. 结束语
本文提出了一种基于动态超图与多尺度特征融合的遥感图像目标检测模型,提升了模型的多尺度感知能力和全局语义建模能力。通过在DIOR和RSOD两个遥感图像数据集上进行大量实验,DHMF-Net模型取得了较好的效果。与基线模型相比,DHMF-Net模型分别提升了2.5和2.3百分点,克服了遥感图像目标检测中背景复杂,目标尺度差异大的问题。
但是,DHMF-Net模型的参数量仍有优化空间。未来研究将探索在保持较高检测精度的前提下,更加轻量化的遥感图像目标检测模型。
-
表 1 DIOR数据集消融实验结果
Table 1 Ablation results on the DIOR dataset
% 方法 mAP YOLO11 78.0 YOLO11+DGHGM 78.6 YOLO11+MSDCFB 79.5 YOLO11+DGHGM+MCAM 78.7 YOLO11+DGHGM+MSDCFB 80.0 YOLO11+DGHGM+MSDCFB+MCAM 80.5 注:加粗为效果最好。 表 2 RSOD数据集消融实验结果
Table 2 Ablation results on the RSOD dataset
% 方法 mAP YOLO11 93.0 YOLO11+DGHGM 93.6 YOLO11+MSDCFB 94.4 YOLO11+DGHGM+MCAM 94.9 YOLO11+DGHGM+MSDCFB 95.1 YOLO11+DGHGM+MSDCFB+MCAM 95.3 注:加粗为效果最好。 表 3 不同方法在DIOR数据集上的检测结果比较
Table 3 Comparison of detection results of different methods in DIOR dataset
方法 骨干网络 输入尺寸 mAP/% 参数量/106 SSD VGGNet 300×300 55.7 26.3 Faster R-CNN VGGNet 600× 1000 52.1 136.7 CenterNet Resnet50 640×640 55.2 32.7 RetinaNet Resnet50 640×640 61.6 37.9 YOLOv3 Darknet53 640×640 58.0 61.5 YOLOv4 CSPDarknet53 640×640 65.0 52.5 YOLOv5 CSPDarknet 640×640 69.6 7.1 YOLOX CSPDarknet 640×640 72.2 8.9 YOLOv8 CSPDarknet 640×640 77.2 3.0 AAFNet[18] Modified CSPDarknet 640×640 75.3 14.1 SCFNet[20] Modified CSPDarknet 640×640 69.9 32.1 StrMCsDet[21] CSPDarknetC5 608×608 65.6 41.4 YOLO11 CSPDarknet 640×640 78.0 2.6 DHMF-Net Modified CSPDarknet 640×640 80.5 3.8 注:加粗表示效果最好。 表 4 不同方法在DIOR数据集的检测结果详细比较
Table 4 Comparison of detailed detection results of different methods in DIOR dataset
% 方法 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20 mAP SSD 58.6 67.1 68.1 83.6 26.2 77.2 53.5 67.7 48.2 75.2 56.7 54.3 50.7 34.9 67.9 28.2 77.8 46.0 18.9 52.5 55.7 Faster R-CNN 47.9 64.7 68.6 84.0 23.7 76.4 53.1 57.5 47.0 74.6 56.8 42.0 49.2 16.6 70.5 20.9 73.9 52.9 12.2 49.1 52.1 CenterNet 65.7 64.7 69.2 84.8 25.8 73.8 46.8 54.0 48.0 69.5 56.9 39.7 48.2 45.1 47.6 39.6 79.8 50.3 30.2 65.1 55.2 RetinaNet 71.8 65.7 71.1 87.9 30.9 79.2 57.3 69.9 54.8 79.4 74.1 55.8 53.3 50.1 70.7 40.2 83.8 45.9 21.4 68.4 61.6 YOLOv3 74.7 54.6 69.4 83.8 27.2 73.5 47.7 50.2 46.9 57.7 44.2 57.8 47.3 88.6 29.3 72.3 85.8 27.3 47.4 73.4 58.0 YOLOv4 84.8 65.5 74.7 85.1 36.3 78.6 52.3 57.2 54.9 71.3 69.2 58.2 56.2 88.0 38.7 67.8 85.8 49.0 49.9 75.9 65.0 YOLOv5 85.9 76.1 72.3 89.4 43.6 80.8 61.5 59.9 58.0 75.5 73.8 62.1 57.6 89.1 55.7 72.7 86.9 55.5 53.8 82.7 69.6 YOLOX 89.3 72.0 75.3 90.2 47.8 79.3 61.5 60.1 66.2 74.2 76.8 58.1 62.3 89.9 71.1 77.5 89.9 61.0 57.3 83.5 72.2 YOLOv8 80.2 87.8 84.7 89.4 47.3 78.5 73.6 89.0 72.5 83.0 81.8 67.4 63.2 91.0 80.2 75.1 91.6 67.6 51.7 87.4 77.2 AAFNet[18] 92.7 81.7 81.0 90.8 49.7 81.3 69.9 67.9 70.4 80.4 77.3 64.0 63.2 90.4 68.5 78.0 90.6 65.1 56.6 85.7 75.3 StrMCsDet[21] 78.6 58.4 81.3 72.0 38.1 79.2 37.1 49.3 49.5 56.8 62.9 35.5 42.5 54.9 66.0 66.6 80.8 38.3 38.3 34.9 65.6 YOLO11 79.6 90.7 86.1 89.5 46.8 78.5 77.4 90.3 70.5 85.4 81.8 68.1 63.7 90.9 81.6 75.1 91.5 74.7 51.8 86.5 78.0 DHMF-Net 85.2 92.7 88.0 91.2 51.0 81.4 80.1 93.2 75.4 86.4 83.6 68.5 66.0 91.9 83.8 76.4 92.9 77.6 55.1 90.2 80.5 注:加粗表示效果最好。 表 5 不同方法在RSOD数据集上的检测结果比较
Table 5 Comparison of detection results of different methods in RSOD dataset
方法 骨干网络 输入尺寸 mAP/% 参数量/106 SSD VGGNet 300×300 76.4 26.3 Faster R-CNN VGGNet 600× 1000 80.5 136.7 CenterNet Resnet50 640×640 77.3 32.7 RetinaNet Resnet50 640×640 81.7 37.9 YOLOv3 Darknet53 640×640 81.6 61.5 YOLOv4 CSPDarknet53 640×640 87.8 52.5 YOLOv5 CSPDarknet 640×640 83.6 7.1 YOLOX CSPDarknet 640×640 89.4 8.9 YOLOv8 CSPDarknet 640×640 89.4 3.0 IRSAM[22] IRSAB 640×640 94.7 4.7 YOLO11 CSPDarknet 640×640 93.0 2.6 DHMF-Net Modified CSPDarknet 640×640 95.3 3.8 注:加粗表示效果最好。 表 6 YOLO系列与DHMF-Net对比结果
Table 6 Comparison results of YOLO and DHMF-Net
方法 mAP/% 推理速度/(帧/s) 参数量/106 YOLOv3 81.6 30 61.5 YOLOv4 87.8 28 52.5 YOLOv5 83.6 48 7.1 YOLOX 89.4 49 8.9 YOLOv8 89.4 68 3.0 YOLO11 93.0 86 2.6 DHMF-Net 95.3 53 3.8 -
[1] 徐丹青, 吴一全. 光学遥感图像目标检测的深度学习算法研究进展[J]. 遥感学报, 2024, 28(12): 3045−3073. doi: 10.11834/jrs.20243166 XU Danqing, WU Yiquan. Progress of research on deep learning algorithms for object detection in optical remote sensing images[J]. National remote sensing bulletin, 2024, 28(12): 3045−3073. doi: 10.11834/jrs.20243166 [2] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779–788. [3] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Computer Vision–ECCV 2016. Cham: Springer, 2016: 21–37. [4] 吴珺, 董佳明, 刘欣, 等. 注意力优化的轻量目标检测网络及应用[J]. 智能系统学报, 2023, 18(3): 506−516. doi: 10.11992/tis.202206014 WU Jun, DONG Jiaming, LIU Xin, et al. Lightweight object detection network and its application based on the attention optimization[J]. CAAI transactions on intelligent systems, 2023, 18(3): 506−516. doi: 10.11992/tis.202206014 [5] 唐嘉潞, 杨钟亮, 张凇, 等. 结合显微视觉和注意力机制的毛羽检测方法[J]. 智能系统学报, 2022, 17(6): 1209−1219. doi: 10.11992/tis.202112035 TANG Jialu, YANG Zhongliang, ZHANG Song, et al. Detection of yarn hairiness combining microscopic vision and attention mechanism[J]. CAAI transactions on intelligent systems, 2022, 17(6): 1209−1219. doi: 10.11992/tis.202112035 [6] ZHOU Xingyi, WANG Dequan, KRAHENBUHL P. Objects as points[EB/OL]. (2019−04−16)[2025−08−03]. https://arxiv.org/abs/1904.07850. [7] 梁礼明, 冯耀, 龙鹏威, 等. 基于MobileViT和多尺度特征聚合的遥感图像目标检测[J]. 智能系统学报, 2024, 19(5): 1168−1177. doi: 10.11992/tis.202310022 LIANG Liming, FENG Yao, LONG Pengwei, et al. Remote sensing image object detection based on MobileViT and multiscale feature aggregation[J]. CAAI transactions on intelligent systems, 2024, 19(5): 1168−1177. doi: 10.11992/tis.202310022 [8] 周莲, 何楚, 汪鼎文, 等. 光学遥感图像的小样本目标检测[J]. 遥感学报, 2024, 28(7): 1693−1701. doi: 10.11834/jrs.20243209 ZHOU Lian, HE Chu, WANG Dingwen, et al. Few-shot object detection in optical remote sensing images[J]. National remote sensing bulletin, 2024, 28(7): 1693−1701. doi: 10.11834/jrs.20243209 [9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580–587. [10] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440–1448. [11] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137−1149. doi: 10.1109/TPAMI.2016.2577031 [12] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]//Computer Vision–ECCV 2020. Cham: Springer, 2020: 213–229. [13] HUANG Shihua, LU Zhichao, CUN Xiaodong, et al. DEIM: DETR with improved matching for fast convergence[C]//2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2025: 15162–15171. [14] MENG Depu, CHEN Xiaokang, FAN Zejia, et al. Conditional DETR for fast training convergence[C]//2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2022: 3631–3640. [15] YE Xianhang, XU Chang, ZHU Haoran, et al. Density-aware DETR with dynamic query for end-to-end tiny object detection[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2025, 18: 13554−13569. doi: 10.1109/JSTARS.2025.3571814 [16] 赵文清, 康怿瑾, 赵振兵, 等. 改进YOLOv5s的遥感图像目标检测[J]. 智能系统学报, 2023, 18(1): 86−95. doi: 10.13229/j.cnki.jdxbgxb.20240459 ZHAO Wenqing, KANG Yijin, ZHAO Zhenbing, et al. A remote sensing image object detection algorithm with improved YOLOv5s[J]. CAAI transactions on intelligent systems, 2023, 18(1): 86−95. doi: 10.13229/j.cnki.jdxbgxb.20240459 [17] 文斌, 张俊, 王浚银, 等. 基于FNM-Net的轻量级遥感目标检测算法[J]. 现代电子技术, 2025, 48(13): 1−10. doi: 10.16652/j.issn.1004-373x.2025.13.001 WEN Bin, ZHANG Jun, WANG Junyin, et al. Lightweight remote sensing object detection algorithm based on FNM-Net[J]. Modern electronics technique, 2025, 48(13): 1−10. doi: 10.16652/j.issn.1004-373x.2025.13.001 [18] ZHAO Wenqing, KANG Yijin, CHEN Hao, et al. Adaptively attentional feature fusion oriented to multiscale object detection in remote sensing images[J]. IEEE transactions on instrumentation and measurement, 2023, 72: 5008111. [19] 单慧琳, 王硕洋, 童俊毅, 等. 增强小目标特征的多尺度光学遥感图像目标检测[J]. 光学学报, 2024, 44(6): 374−386. doi: 10.3788/AOS231676 SHAN Huilin, WANG Shuoyang, TONG Junyi, et al. Multi-scale optical remote sensing image target detection based on enhanced small target features[J]. Acta optica sinica, 2024, 44(6): 374−386. doi: 10.3788/AOS231676 [20] YUE Chenke, YAN Junhua, ZHANG Yin, et al. SCFNet: Semantic correction and focus network for remote sensing image object detection[J]. Expert systems with applications, 2023, 224: 119980. doi: 10.1016/j.eswa.2023.119980 [21] REN Shougang, FANG Zhiruo, GU Xingjian. A cross stage partial network with strengthen matching detector for remote sensing object detection[J]. Remote sensing, 2023, 15(6): 1574. doi: 10.3390/rs15061574 [22] 赵文清, 赵振寰, 巩佳潇. 结合倒残差自注意力机制的遥感图像目标检测[J]. 智能系统学报, 2025, 20(1): 64−72. doi: 10.11992/tis.202312001 ZHAO Wenqing, ZHAO Zhenhuan, GONG Jiaxiao. Remote sensing image object detection based on inverted residual self-attention mechanism[J]. CAAI transactions on intelligent systems, 2025, 20(1): 64−72. doi: 10.11992/tis.202312001 [23] FENG Yifan, YOU Haoxuan, ZHANG Zizhao, et al. Hypergraph neural networks[J]. Proceedings of the AAAI conference on artificial intelligence, 2019, 33(1): 3558−3565. doi: 10.1109/iccv48922.2021.00130 [24] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[EB/OL]. (2015−11−23)[2025−08−03]. https://arxiv.org/abs/1511.07122. [25] FENG Yifan, HUANG Jiangang, DU Shaoyi, et al. Hyper-YOLO: when visual object detection meets hypergraph computation[J]. IEEE transactions on pattern analysis and machine intelligence, 2025, 47(4): 2388−2401. doi: 10.1109/TPAMI.2024.3524377 [26] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132–7141. [27] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Computer Vision–ECCV 2018. Cham: Springer International Publishing, 2018: 3–19.
下载: