基于边缘增强和多尺度特征融合的遥感图像船舰检测

王德文 宋学帅 李成浩 赵文清

王德文, 宋学帅, 李成浩, 等. 基于边缘增强和多尺度特征融合的遥感图像船舰检测 [J]. 智能系统学报, 2026, 21(1): 60-71. doi: 10.11992/tis.202505014
引用本文: 王德文, 宋学帅, 李成浩, 等. 基于边缘增强和多尺度特征融合的遥感图像船舰检测 [J]. 智能系统学报, 2026, 21(1): 60-71. doi: 10.11992/tis.202505014
WANG Dewen, SONG Xueshuai, LI Chenghao, et al. Ship detection in remote sensing images using edge enhancement and multi-scale feature fusion [J]. CAAI Transactions on Intelligent Systems, 2026, 21(1): 60-71. doi: 10.11992/tis.202505014
Citation: WANG Dewen, SONG Xueshuai, LI Chenghao, et al. Ship detection in remote sensing images using edge enhancement and multi-scale feature fusion [J]. CAAI Transactions on Intelligent Systems, 2026, 21(1): 60-71. doi: 10.11992/tis.202505014

基于边缘增强和多尺度特征融合的遥感图像船舰检测

doi: 10.11992/tis.202505014
基金项目: 国家自然科学基金项目(62371188).
详细信息
    作者简介:

    王德文,副教授,主要研究方向为人工智能与图像处理。主持或参与国家自然科学基金项目4项;获省科技进步奖3项;以第一完成人获国家专利授权3项;发表学术论文50余篇。E-mail:wde@ncepu.edu.cn;

    宋学帅,硕士研究生,主要研究方向为人工智能与遥感图像处理。E-mail:ncepuxs@163.com;

    李成浩,硕士研究生,主要研究方向为人工智能与图像处理。E-mail:patricklee@163.com.

    通讯作者:

    王德文. E-mail:wde@ncepu.edu.cn.

  • 中图分类号: TP751

Ship detection in remote sensing images using edge enhancement and multi-scale feature fusion

  • 摘要:

    遥感图像中的船舰目标具有尺度变化剧烈、分布密集和方向朝向任意的特点,特别是船舰与海洋环境之间对比度低,相邻船舰之间边界模糊,这使船舰检测面临更高的挑战。针对以上问题,本文提出了一种基于边缘增强和多尺度特征融合的遥感图像船舰检测模型。设计了高频特征增强模块,提升模型捕获细节的能力;提出了一种边缘信息引导的多尺度特征融合方法,缓解浅层边缘信息在传递过程中丢失的问题;构建轻量化定向检测头,减少模型参数量。实验结果表明,改进后的模型在ShipRSImageNet数据集和HRSC2016数据集上,平均检测精度(mAP50)较YOLO11-obb模型分别提升3.6和2.1百分点,有效提升遥感图像船舰检测的精度。

     

    Abstract:

    Ship objects in remote sensing images exhibit large scale variation, dense distribution, and arbitrary orientation. In particular, the low contrast between ships and the ocean background, along with blurred boundaries between adjacent ships, poses greater challenges for detection. To address these issues, a model based on edge enhancement and multi-scale feature fusion for ship detection in remote sensing images was proposed. Firstly, a high-frequency feature enhancement module was designed to improve the ability of the model to capture fine details. Furthermore, an edge-guided multi-scale feature fusion method was proposed to mitigate the loss of edge information on low-level during propagation. Finally, a lightweight oriented detection head was constructed to reduce the params of the model Experimental results show that the improved model improves 3.6 and 2.1 percentage points of mAP50 on the ShipRSImageNet dataset and the HRSC2016 Dataset, compared to the YOLO11-obb model, effectively improves the accuracy of ship detection in remote sensing images.

     

  • 光学遥感图像目标检测是航空和卫星图像分析领域的基本任务之一,其目的是对图像中的感兴趣目标进行分类和定位,并有效提取关于待测目标的重要信息[1-3]。船舰目标作为遥感图像中的典型目标,实现其精准识别与检测在军事和民用领域具有重要意义。但由于遥感图像中的船舰目标存在所在环境复杂,分布密集以及姿态各异的现象,导致遥感图像中的船舰检测面临严峻的挑战。

    传统的船舰检测基于模板匹配、视觉显著性和分类学习等[4],通常依赖于手工提取特征的方式定位,在特定背景下具有一定效果。但在遥感图像中存在识别准确率不高、效率低和易受背景干扰的缺点[5]。随着深度学习的快速发展,基于卷积神经网络(convolutional neural networks,CNN)的算法被广泛应用于目标检测领域,并取得重大进展。

    由于船舰遥感图像与自然图像间存在显著差异,往往存在图像模糊和目标尺度变化大等现象,导致经典的目标检测算法在船舰检测任务中表现不佳。因此,学者们提出了一系列基于卷积神经网络改进的遥感图像船舰检测算法。为了弥补图像质量不足,Liu等[6]通过将图像分割为多个区域融合特征强化检测性能,并引入多区域特征融合模块,增强船舶表征能力;Zhang等[7]通过在特征融合时加入注意力机制,增强船舰特征信息;Bashir等[8]通过结合循环生成对抗网络和残差特征聚合改进超分辨率框架,提高图像质量;Tian等[9]提出了多标签船舰检测方法,通过循环注意力引导模块丰富了高级语义特征;成倩等[10]提出了改进YOLO(you only look once)v5算法,通过语义信息增强模块增强浅层中语义特征,并减少背景干扰。针对船舰目标尺度变化大的特点,Zhou等[11]提出了一种多尺度船舶检测网络,使用可学习的融合系数改进FPN(feature pyramid networks),用于自适应融合不同尺度特征,提高不同尺度船舶目标的检测精度;Corbane等[12]通过结合Radon变换和小波变换提取的特征,充分挖掘了图像的多尺度信息;Ye等[13]提出一种交叉注意力模块,通过融合多级特征增强多尺度特征提取能力;Al-Saad等[14]利用小波变换将图像分解成高低频分量,在频域进行训练,提升了模型在复杂环境下的检测精度;张省等[15]通过通道混洗的方式减少特征金字塔的信息损失,增强了模型对不同尺度信息的理解力。

    以上算法大多基于水平检测框,遥感图像中船舰目标分布密集且方向随机,使用水平检测框可能会出现检测框重叠、单个检测框中出现多个实例、检测框内包含冗余背景信息[16]等问题。因此,学者们开始应用旋转框,并提出了一系列面向船舰目标的旋转目标检测算法。王昌安等[17]在目标检测框架中引入生成对抗网络,提升船舰细粒度检测精度;张磊等[18]提出关键子区域融合网络,通过自适应融合区域和整体特征,提高船舰目标识别准确率;高明明等[19]提出了改进的YOLOv5网络,通过引入滑动窗口分支,提高了稀疏目标的检测精度;牛为华等[20]通过在YOLOV8网络中引入可变性卷积,增强了模型提取不规则信息的能力;Huang等[21]提出了一种改进YOLO11的船舰旋转检测算法,设计多尺度特征扩张颈部模块提升任意方向船舶目标的检测精度,并减小了模型体积。上述算法在一定程度上解决了船舰检测中目标朝向任意、模型复杂和目标尺度变化大的问题,但目标与背景混淆、细节特征提取不充分和船舰轮廓模糊的问题并没有得到较好的解决,检测精度任然有待提升。

    针对上述问题,本文结合边缘增强与多尺度特征融合技术,提出一种适应遥感图像的船舰检测模型。主要贡献如下:

    1)设计了一种高频特征增强(high frequency feature enhancement,HFFE)模块,通过从不同尺度上提取特征并增强高频特征,提升模型捕获细节信息的能力,帮助模型更好地将目标与背景分离。

    2)提出了一种边缘信息引导的多尺度融合(edge-guided multi-scale feature fusion,EMFF)方法,通过结合边缘检测算法与目标检测算法,充分融合浅层边缘特征和深层语义特征,解决浅层边缘细节信息无法有效传递至深层网络的问题。

    3)构建了轻量化定向检测头(lightweight oriented detection head,LODH),在实现模型轻量化的同时,提升模型定位船舰目标的能力。

    YOLO11是Ultralytics公司提出的一种优秀的目标测算法,整体结构可划分为4部分:输入层、骨干网络、颈部网络以及检测头。相比于YOLOv8,YOLO11算法使用C3K2模块替代原有的C2f模块,C3K2由C2f模块演变而来,结合了C2f模块与C3模块的优势,且更为轻量化。在此基础上,在骨干网络的SPPF(spatial pyramid pooling fast)层后引入了C2PSA(C2 position-sensitive attention)模块,以增强多尺度特征表达能力。沿用解耦的检测头,但在分类检测头分支中加入了深度可分离卷积,提高了算法的推理速度。

    YOLO11-obb算法是在YOLO11算法的基础之上,对检测头做了针对性改进。引入角度参数的同时增加了一条角度预测的独立输出分支。损失函数部分,替换掉原有的CIoU损失函数,引入ProbIoU(probabilistic intersection over union)损失函数预测旋转框(oriented bounding boxes,OBB),以达到检测旋转目标的目的。该算法有5种不同尺寸的版本(n、m、s、l、x),综合多方面因素考虑,本文以YOLO11n-obb为基础网络并进行改进。

    旋转框是在传统水平框的基础之上引入了角度信息,从而更精准地界定船舰目标的位置和方向。根据角度定义的方式,采用长边定义法的变体形式定义旋转框,可视化旋转框如图1所示。

    图  1  旋转框可视化
    Fig.  1  Visualization of oriented bounding boxes
    下载: 全尺寸图片

    原始长边定义法将角度$\theta $定义为旋转框长边方向相对于水平轴($x$轴)的夹角,其取值范围为[−π/2,π/2)。变体形式考虑到处于边界的目标太多会导致训练不稳定,所以将角度取值范围设为[−π/4,3π/4),以缓解不连续性问题。本文模型的输入格式是以顺时针的4个角点的坐标指定,在内部处理损失和输出时,转换为$(x,y,w,h, \theta )$格式,分别表示中心点坐标、高度、宽度和旋转角度。

    本文提出的模型整体结构如图2所示,为优化模型的特征提取能力,设计HFFE模块替换C3K2中的Bottleneck模块,构成C3K2-HFFE模块,利用不同尺度上提取并增强的高频特征,增强细节特征提取能力;提出EMFF方法,在骨干网络的P2层使用边缘信息生成模块提取边缘信息并传递至骨干和颈部网络,随后利用跨通道特征融合模块与C3K2-HFFE模块的输出特征融合,以充分结合细节和语义特征,提高网络对边缘信息的敏感度,缓解细节信息的丢失问题。构建LODH,利用共享卷积层减少冗余计算,同时引入定位质量估计模块,增强模型对旋转目标的定位性能。

    图  2  本文模型整体结构
    Fig.  2  Overall structure of the proposed mode
    下载: 全尺寸图片

    C3K2模块通过卷积和拼接操作,可以高效地处理来自不同特征层的信息,提取多尺度特征。C3K作为模块的核心组件,通过引入多尺度卷积核拓宽了感受野,提升了大目标的检测精度,但却忽略了局部的细节信息,在船舰遥感图像数据集存在特征提取能力不足的问题。图像的高频特征包括边缘、角点、纹理等信息,是图像细节信息的核心组成部分。这些信息可以帮助模型抑制噪声干扰,提升对细粒度信息的感知力。

    因此,本文设计了HFFE模块,旨在提升模型捕获细节信息的能力。模块结构如图3所示。具体而言,HFFE模块接收输入特征后分为两条分支进行处理。

    图  3  高频特征增强模块结构
    Fig.  3  HFFE module structure
    下载: 全尺寸图片

    第1条分支通过提取多尺度特征,并对各尺度的特征进行高频特征增强,有效提高了模型捕获不同层次中的目标边缘和角点等细节信息的能力。流入此分支的特征${\boldsymbol{F}} \in {{\bf{R}}^{H \times W \times C}}$,其中$C$表示通道数,$H \times W$表示维度。首先通过自适应平均池化(adaptive avg pooling)操作,将特征缩放至不同尺寸。相比于平均池化(avg pooling),自适应平均池化能够自动计算池化核和步长,使模型更加灵活地适应不同大小和复杂度的图像。最后输出${{\boldsymbol{F}}_i}$:

    $$ {{\boldsymbol{F}}_i} = {\text{AdaptiveAvgPool}}2{{\text{d}}_{i \times i}}({\boldsymbol{F}}) $$

    式中:输出特征$ {{\boldsymbol{F}}_i} \in {{\bf{R}}^{{H_i} \times {W_i} \times C}} $,$i$表示输出特征图尺寸,$ {\text{AdaptiveAvgPool}}2{{\text{d}}_{i \times i}}( \cdot ) $表示输出尺寸为$i$的自适应平均池化。

    随后通过一个$1 \times 1$的卷积层对通道进行压缩,接着经过一个$3 \times 3$的深度卷积层(depthwise conv-olution,DWConv),充分提取多种尺度的特征。该过程可表示为

    $$ {\hat {\boldsymbol{F}}_i} = f_{{\text{DWConv}}}^{3 \times 3}(f_{{\text{Conv}}}^{1 \times 1}({{\boldsymbol{F}}_i})) $$

    式中:$ {\hat {\boldsymbol{F}}_i} \in {{\bf{R}}^{{H_i} \times {W_i} \times C}} $,$ f_{{\text{DWConv}}}^{3 \times 3}( \cdot ) $表示$3 \times 3$的深度卷积层,$ f_{{\text{Conv}}}^{1 \times 1}( \cdot ) $表示$1 \times 1$的卷积层。

    其次,为方便后续特征拼接操作,采用双线性插值(bilinear interpolation)方法将提取的不同尺度的特征对齐到同一尺度。

    此后,设计高频特征增强器(high-frequency feature enhancement generator,HFFEG)增强各尺度的高频特征。为保证计算效率,本文在该模块中实现了一个伪高频滤波器,简单且高效地提取了高频特征。首先,对特征$ \hat {\boldsymbol{F}} \in {{\bf{R}}^{H \times W \times C/4}} $使用平均池化进行平滑,得到低频特征。随后过滤掉原始图像中低频特征,保留高频特征。为了有效区分真实信号和噪声,引入卷积层(二维卷积层,批量归一化层和Sigmoid激活函数)增强非线性表达能力。具体而言,利用Sigmoid激活函数,将逐点元素值映射到$(0,1)$内作为高频特征中对应像素的加权值,增强高频特征的对比度。最后通过残差连接,将经处理的高频特征与原始特征相融得到增强的高频特征。上述流程可描述为

    $$ \hat{{\boldsymbol{F}}}\mathrm{_{HF}}=\left|\hat{{\boldsymbol{F}}}-\text{AvgPool}2\text{d}_{3\times3}(\hat{{\boldsymbol{F}}})\right| $$
    $$ \hat{{\boldsymbol{F}}}\mathrm{_{EHF}}=\hat{{\boldsymbol{F}}}+\sigma(\hat{{\boldsymbol{F}}}_{\mathrm{HF}}) $$

    式中:$ \hat{{\boldsymbol{F}}}_{\mathrm{HF}}\in {\bf{R}}^{H\times W\times C/4} $表示高频特征,$ \hat{{\boldsymbol{F}}}\mathrm{_{EHF}}\in {\bf{R}}^{H\times W\times C/4} $表示增强的高频特征,${\text{AvgPool}}2{{\text{d}}_{3 \times 3}}{\text{(}} \cdot {\text{)}}$表示步长为3的平均池化,$\sigma ( \cdot )$表示Sigmoid函数。

    第2条分支通过一个$3 \times 3$的卷积层提取局部特征,在保持输入尺寸不变的同时保留了输入特征图在原始分辨率下的细节信息。

    最终,将两条分支输出的特征进行融合,并经过一个$1 \times 1$卷积层输出。通过结合局部特征与多尺度高频特征,增加了细粒度特征表示的丰富性。

    随着网络层次的加深,模型在深层特征图上捕获了丰富的语义特征。但由于多次的跨步卷积和下采样操作,导致部分浅层细节信息丢失,其中包括目标边缘信息。边缘信息通过梯度变化凸显目标轮廓,辅助模型构建拟合边界的旋转框。此外,由于船体的几何特性,船舰目标在遥感图像中的边缘分布通常呈现出显著的方向性,这种特性能帮助模型更好地学习不同旋转姿态下的目标表征。YOLO检测算法缺乏专门针对边缘信息建模的模块,而边缘检测算法通过算子对图像梯度进行建模计算,可以达到检测边缘的目的。

    因此,本文结合Scharr算子,提出了一种EMFF方法,有效缓解了边缘模糊和细节丢失的问题。EMFF由边缘信息生成(edge information generation,EIG)模块和跨通道特征融合(cross-channel feature fusion,CFF)模块协同实现。边缘引导的多尺度融合方法结构如图4所示。

    图  4  边缘引导的多尺度融合方法结构
    Fig.  4  Structure of EMFF method
    下载: 全尺寸图片

    首先EIG模块利用Scharr算子提取P2层特征图的边缘信息,并生成多尺度的边缘信息特征图。这些特征图被传递到整个网络,并通过CFF模块与不同尺度的特征图进行融合,有效整合了边缘细节信息和深层语义信息,提高了网络对于边缘信息的敏感度。

    2.2.1   Scharr算子

    Scharr算子是一种常用于边缘检测的离散微分算子,通过水平和垂直两个方向上的卷积核分别计算图像在水平和垂直的梯度近似值,从而提取边缘信息。

    其中水平方向卷积核$ \boldsymbol{G}_x $为

    $$ {{\boldsymbol{G}}_x} = \left[ {\begin{array}{*{20}{c}} {{{ - 3}}}&{\text{0}}&{\text{3}} \\ {{{ - 10}}}&{\text{0}}&{{\text{10}}} \\ {{{ - 3}}}&{\text{0}}&{\text{3}} \end{array}} \right] $$

    垂直方向卷积核$ \boldsymbol{G}_y $为

    $$ {{\boldsymbol{G}}_y} = \left[ {\begin{array}{*{20}{c}} {{{ - 3}}}&{{{ - 10}}}&{{{ - 3}}} \\ {{0}}&{{0}}&{{0}} \\ {{3}}&{{{10}}}&{{3}} \end{array}} \right] $$

    对于输入特征图${\boldsymbol{I}}$,使用Scharr算子分别计算水平方向和垂直方向上的梯度,将其加权融合得到梯度幅值。计算公式为

    $$ {\boldsymbol{G}} = a \times {\text{Schar}}{{\text{r}}_x}({\boldsymbol{I}}) + b \times {\text{Schar}}{{\text{r}}_y}({\boldsymbol{I}}) $$

    式中:$a$和$b$表示权重系数,$ {\text{Schar}}{{\text{r}}_x}( \cdot ) $和$ {\text{Schar}}{{\text{r}}_y}( \cdot ) $分别表示Scharr算子使用水平卷积核和垂直卷积核计算梯度。

    Scharr算子对中心像素的邻域差异敏感,保证了边缘检测的效果。且Scharr可以提高边缘各向同性,更适用于旋转目标检测任务。

    2.2.2   边缘信息生成模块

    EIG模块作用于浅层特征图,旨在提取骨干网络P2层的边缘信息,其结构如图5所示。

    图  5  边缘信息生成模块结构
    Fig.  5  EIG module structure
    下载: 全尺寸图片

    相较于原始输入图像${\boldsymbol{I}} \in {{\bf{R}}^{H \times W \times C}}$, P2层仅经历了两次卷积操作,不仅有效抑制了背景噪声,且仍具有丰富的边缘信息。首先,利用Scharr算子计算图像梯度矩阵,检测并提取P2层特征图的边缘信息。随后,为充分保留边缘信息,构建边缘特征金字塔,采用最大池化(max pooling)操作逐步下采样至不同尺度的边缘特征图${S_i}(i = 3,4,5)$。最后,为方便后续融合操作,使用$1 \times 1$的卷积进行通道映射,生成具有统一特征表达能力的多尺度边缘特征。

    2.2.3   跨通道特征融合模块

    为了有效融合边缘细节特征和语义信息更强的深层特征,本文设计了CFF模块。其结构如图6所示。

    图  6  跨通道特征融合模块结构
    Fig.  6  CFF module structure
    下载: 全尺寸图片

    首先,将不同尺度的特征在通道维度上进行拼接,完成初步的跨通道信息融合,为后续融合提供载体。接着,通过一个$1 \times 1$的逐点卷积层(pointwise convolution,PWConv),对拼接后的特征中每个位置的通道信息进行线性组合,将不同通道之间的信息混洗,实现跨通道的信息交互与融合。随后,通过一个$3 \times 3$的卷积层提取融合后的特征的局部空间特征,并在空间维度上对融合后的特征进行进一步的增强,提升了模型对上下文信息的感知能力。最后,经过一个$1 \times 1$的卷积层调整通道数,并输出最终的融合特征${F_{{\text{out}}}}$。该流程可表示为

    $$ {{\boldsymbol{F}}_{{\text{cat}}}} = {\mathrm{Conca}}{{\mathrm{t}}_{{\text{dim}} = 1}}({{\boldsymbol{F}}_1},{{\boldsymbol{F}}_2}, \cdots ,{{\boldsymbol{F}}_n}) $$
    $$ {{\boldsymbol{F}}_{{\mathrm{fused}}}} = f_{{{\mathrm{PW}}} {{\mathrm{C}}} {\text{onv}}}^{1 \times 1}({{\boldsymbol{F}}_{{\mathrm{cat}}}}) $$
    $$ {{\boldsymbol{F}}_{{\mathrm{out}}}} = f_{{\text{Conv}}}^{1 \times 1}(f_{{\text{Conv}}}^{3 \times 3}({{\boldsymbol{F}}_{{\mathrm{fused}}}})) $$

    式中:${{\boldsymbol{F}}_i} \in {{\bf{R}}^{H \times W \times {C_i}}}$表示输入特征图,${{\boldsymbol{F}}_{{\text{out}}}} \in {{\bf{R}}^{H \times W \times {C_{{\text{out}}}}}}$表示输出特征图,$ {\mathrm{Conca}}{{\mathrm{t}}_{{\mathrm{dim}} = 1}}( \cdot ) $表示在通道维度进行特征拼接,$ f_{{{\mathrm{PW}}} {{\mathrm{C}}} {\text{onv}}}^{1 \times 1}( \cdot ) $表示$ 1\times 1 $的逐点卷积层。

    LSCD(lightweight shared convolution detection)[22]是一种用于目标检测的轻量化检测头。该检测头使用组归一化(group normalization)代替批量归一化(batch normalization),提升检测头的定位性能。并通过两个使用组归一化的共享卷积共同组成共享卷积层,减少模型参数量。最后使用Scale层进行特征缩放,以解决检测目标尺度不一致的问题。

    本文在LSCD的基础之上,借鉴解耦检测头的思想,构建了一种适用于旋转目标的检测头LODH,其整体结构如图7所示。

    图  7  轻量化定向检测头结构
    Fig.  7  LODH structure
    下载: 全尺寸图片

    首先,引用细节增强卷积(detail-enhanced convolution,DEConv)[23]替换共享卷积。该卷积通过并行使用不同方向的差分卷积,不仅能提高检测头的方向感知能力,还能帮助模型捕获更多细节信息。其次,为实现轻量化的目的,使用结构重参数化技术,在模型推理时,利用卷积层的线性属性,将细节增强卷积转换为普通卷积。最后,引入定位质量估计器(location quality estimator,LQE)[24],用于评估和调整旋转边界框的预测质量分数。其中,回归分支推测边界框角点分布的统计信息,经处理后与分类分支生成初步分类得分联合表示得到质量分数,以提升检测头的定位能力。

    本文实验基于Ubuntu 20.04操作系统,Python 3.10编程语言,PyTorch 2.3深度学习框架和CUDA 12.1环境。硬件采用NVIDIA GeForce 4070 SUPER GPU。训练时输入图像缩放至640像素×640像素,批次大小设为32。不使用预训练权重。采用SGD网络优化器,初始学习率设为0.01,使用余弦退火(cosine annealing)学习率调度策略[25]动态调整学习率,动量设为0.937,权重衰减系数设为0.000 5,训练结束时最终学习率为0.000 1。总训练周期设为600轮,为防止模型过拟合,设置早停轮次为50轮。

    ShipRSImageNet[26]数据集是由清华大学在2021年公开的一个大规模遥感光学数据集,包含 3 435张高分辨率图像和17 573个船舶实例。由于ShipRSImageNet尚未发布其测试集,采用文献[27]的做法,使用原数据集中验证集的550张图像作为测试集。该数据集将检测任务按细粒度分为4个级别,本实验不再对船舰种类进行划分,仅区分船舰和码头目标,并在此数据集上验证模型检测性能。

    HRSC2016[28]数据集是由西北工业大学在2016年发布的用于船舰检测的光学遥感图像数据集,共1 061张图像,包含2 976个船体实例。按照原数据集划分方式,436张图像被划分为训练集,181张图像被划分为验证集,444张图像用作测试集。同样不再对类别进行细致划分,统一归类为船类,并在此数据集上验证模型泛化性能。

    为客观评价模型性能,本文采用平均精度均值(mAP)、参数量(Params)和浮点运算数(FLOPs)作为评价指标。mAP由准确率P(Presion)、召回率R(Recall)和平均精度PA(AP)确定。

    准确率指正确检测的船舰目标占检测出总目标个数的比重;召回率指正确检测的船舰目标占真实标注目标个数的比重,平均精度指以召回率为$x$、准确率为$y$轴的坐标轴与P-R曲线围成的面积。平均精度均值指样本中所有类别平均精度的均值。其计算公式分别为

    $$ P = \frac{{{N_{{\text{TP}}}}}}{{{N_{{\text{TP}}}}{\text{ + }}{N_{{\text{FP}}}}}} $$
    $$ R = \frac{{{N_{{\text{TP}}}}}}{{{N_{{\text{TP}}}} + {N_{{\text{FN}}}}}} $$
    $$ P_{\mathrm{A}} = \int_0^1 {PR{\mathrm{d}}R} $$

    式中:$ {N_{{\text{TP}}}} $为正样本被正确检测的数量,$ {N_{{\text{FP}}}} $为检测为正样本但实际是负样本的数量,$ {N_{{\text{FN}}}} $为检测为负样本但实际是正样本的数量。

    平均精度均值指样本中所有类别平均精度的均值,其计算公式为

    $$ {P_{{\text{mA}}}} = \frac{1}{N}\sum\limits_{i = 1}^N {{P_{{\text{A}}_i}}} $$

    式中:$N$表示类别数量,$ {P_{{\text{A}}_i}} $表示第$i$类类别的平均精度,mAP@0.5表示IoU阈值设置为0.5时的$ {P_{{\text{mA}}}} $值。

    3.4.1   消融实验

    本文以YOLO11n-obb为基础模型,在ShipR-SImageNet数据集上进行消融实验。实验共设计8组,以验证不同改进方法的有效性。第1组为基准模型实验;第2~4组为分别结合3种改进后的实验;第5~8组为依次结合不同形式组合的改进方法实验。消融实验结果如表1所示。

    表  1  ShipRSImageNet数据集上消融实验结果
    Table  1  Ablation experimental result on the ShipRSImageNet dataset
    YOLO11n-obb HFFE EMFF LODH 参数量/106 浮点运算数/109 mAP@0.5/%
    2.7 6.6 78.2
    2.7 6.7 79.5
    3.6 10.3 80.3
    2.4 6.6 79.0
    3.6 10.4 81.3
    2.4 6.9 79.9
    3.1 9.7 80.8
    3.2 9.8 81.8
    注:加粗表示结果最好。

    表1可知,第1组基础模型没有关注到船舰目标的边缘信息,在ShipRSImageNet数据集上mAP@0.5仅有78.2%;第2组通过设计HFFE模块改进C3K2,提升模型对细节特征的捕捉能力,使mAP@0.5达到79.5%,较基准模型提升了1.3百分点;第3组加入EMFF,融合边缘特征和语义特征,增加模型对边缘信息的敏感度,将mAP@0.5提高到80.3%,较基准模型提升了2.1百分点;第4组替换检测头为LODH,使模型参数量较基础模型减少0.3×106,且mAP@0.5较基准模型提升了0.8百分点;第5组同时加入HFFE模块和EMFF,mAP@0.5较基准模型提升了3.1百分点;第6组同时加入HFFE模块和LODH,mAP@0.5较基准模型提升了1.7百分点;第7组同时加入EMFF和LODH,mAP@0.5较基准模型提升了2.6百分点,并且,相较于单独加入EMFF方法减少了参数量和计算量,优化了计算效率;第8组同时加入上述3种改进方法,在ShipRSImageNet数据集上mAP@0.5达到了81.8%,较基准模型提升3.6百分点,且参数量仅增加0.5×106,在增加少量模型参数量的情况下,大幅提升了平均检测精度。

    3.4.2   不同层级边缘信息提取实验

    为验证EIG模块在不同层级的特征图上提取边缘信息对模型性能的影响,本文分别在骨干网络的P1层和P2层应用EIG模块进行实验。实验结果如表2所示。

    表  2  不同层级边缘信息提取实验结果
    Table  2  Experimental results of edge information extraction at different layers
    层级 参数量/106 浮点运算数/109 mAP@0.5/%
    P1 3.2 9.8 79.6
    P2 3.2 9.8 81.8
    注:加粗表示结果最好。

    表2可知,使用EIG模块提取P1层特征图的边缘信息,反而使模型检测性能变差,说明在提取边缘信息的同时,引入了大量无关背景噪声。

    3.4.3   边缘检测算子实验

    为验证不同边缘检测算子对模型性能的影响,本文设计了3组实验。第1~3组实验分别采用Prewitt、Sobel和Scharr算子对边缘特征进行提取,实验结果如表3所示。

    表  3  不同边缘检测算子实验结果
    Table  3  Experimental results of different edge detection operators
    算子 参数量/106 浮点运算数/109 mAP@0.5/%
    Prewitt 3.2 9.9 80.3
    Sobel 3.2 10.4 80.8
    Scharr 3.2 9.8 81.8
    注:加粗表示结果最好。

    表3可知,采用不同边缘检测算子模型性能均有不同程度的提升,证明了边缘信息在遥感图像船舰检测任务中的有效性。上述实验中,采用Scharr算子的模型在保持最低参数量与计算复杂度的前提下,取得了最优的检测精度,表明Scharr算子在边缘特征提取任务中相较于Prewitt和Sobel算子对噪声干扰和目标方向变化的鲁棒性更强。

    3.4.4   多尺度特征融合实验

    为验证多尺度特征融合在网络不同位置的效果,本文设计了4组实验,以评估融合位置对模型性能的影响。第1组在基础模型中加入HFFE模块和LODH,不进行特征融合;第2组将EIG模块提取到的边缘信息仅传递至骨干网络进行融合;第3组将边缘信息仅传递至颈部网络进行融合;第4组将边缘信息传递至骨干网络和颈部网络进行融合。实验结果如表4所示。

    表  4  多尺度特征融合实验结果
    Table  4  Experimental results of multi-scale feature fusion
    融合位置 参数量/106 浮点运算数/109 mAP@0.5/%
    2.4 6.9 79.9
    骨干网络 2.8 8.0 80.5
    颈部网络 2.9 8.7 81.3
    骨干+颈部 3.2 9.8 81.8
    注:加粗表示结果最好。

    表4可知,在网络不同位置融合边缘信息均有不同程度的精度提升。其中,第2组在骨干网络融合,增强了模型特征表达能力,使mAP@0.5提升了0.6百分点;第3组在颈部网络融合,充分结合边缘及上下文语义信息,使mAP@0.5提升了1.4百分点;第4组将多尺度边缘信息传递至骨干网络和颈部网络进行融合,提升了整体网络对边缘的敏感度,使mAP@0.5提升了1.9百分点,取得了上述实验中的最优平均检测精度。

    3.4.5   对比实验

    为进一步验证本文所提算法的有效性,评估基于水平框和旋转框两类算法在船舰遥感图像目标检测任务中的性能差异,本文在ShipRSImageNet数据集上对比了两类主流的目标检测算法。算法包括YOLOv3-tiny、YOLOv5n、YOLOv8n、YOLOv10n、YOLO11n、YOLO12n和CM-YOLO等基于水平检测框的算法,以及RoI-Transformer、Oriented R-CNN、R3Det、S2A-Net、DSLA和PETDet等基于旋转检测框的先进算法。实验结果如表5所示。

    表  5  ShipRSImageNet数据集上对比实验结果
    Table  5  Comparison experimental results on the ShipRSImageNet dataset
    算法 来源 Backbone 参数量/106 浮点运算数/109 各类别平均精度/% mAP@0.5/%
    船舰 码头
    YOLOv3-tiny DarkNet-19 12.1 18.9 70.3 66.5 68.5
    YOLOv5n CSPDarkNet-53 2.5 7.1 75.8 74.8 75.3
    YOLOv8n CSPDarkNet-53 3.0 8.1 74.9 73.6 74.2
    YOLOv10n CSPNet 2.7 8.2 74.3 71.8 73.0
    YOLO11n Modified CSPDarkNet 2.6 6.3 76.9 74.4 75.7
    YOLO12n Modified CSPDarkNet 2.6 6.3 75.8 72.4 74.1
    CM-YOLO[28] TGRS’25 CSPDarkNet 25.3 70.9 81.2 77.3 79.3
    RoI-Transformer[29] CVPR’19 ResNet-50 55.0 122.6 60.5 59.7 60.1
    Oriented RCNN[30] ICCV’21 ResNet-50 41.1 121.5 72.2 71.4 71.8
    R3Det[31] AAAI’21 ResNet-50 41.6 200.9 68.6 23.0 45.8
    S2A-Net[32] TGRS’22 ResNet-50 38.5 198.0 70.0 45.2 57.6
    S2A-Net+DSLA[33] J-STARS’23 ResNet-50 38.5 198.0 74.5 68.5 71.5
    PETDet[34] TGRS’24 ResNet-50 47.7 204.1 75.4 74.5 74.9
    YOLO11n-obb Modified CSPDarkNet 2.7 6.6 80.1 76.3 78.2
    本文模型 Modified CSPDarkNet 3.2 9.8 83.8 79.9 81.8
    注:加粗表示结果最好。

    表5可知,本文模型在检测船舰和码头类别的平均精度分别达到了83.8%和79.9%,mAP@0.5达到了81.8%,在对比的主流算法中均取得了最佳精度。相较于上述基于水平检测框的最优算法YOLO11n,本文模型在牺牲少量计算效率的情况下,大幅提高了所有类别平均精度。相比于上述基于旋转检测框的先进算法,本文模型在船舰和码头类别均取得最高的平均精度,并显著提升了mAP@0.5,同时使模型参数量和计算复杂度均减少了90%以上,更易部署于边缘设备,有较大的实用价值。

    为验证本文模型的泛化性,在HRSC2016数据集上与其他目标检测算法进行了进一步的对比实验。实验结果如表6所示。

    表  6  HRSC2016数据集上对比实验结果
    Table  6  Comparison experimental results on the HRSC2016 Dataset
    算法 来源 Backbone 参数量/106 浮点运算数/109 mAP@0.5/%
    YOLOv3-tiny DarkNet-19 12.1 18.9 89.5
    YOLOv5n CSPDarkNet-53 2.5 7.1 91.2
    YOLOv8n CSPDarkNet-53 3.0 8.1 91.0
    YOLOv10n CSPNet 2.7 8.2 90.1
    YOLO11n Modified CSPDarkNet 2.6 6.3 92.4
    YOLO12n Modified CSPDarkNet 2.6 6.3 92.5
    CM-YOLO[28] TGRS’25 CSPDarkNet 25.3 70.9 91.4
    RoI-Transformer[29] CVPR’19 ResNet-50 55.0 122.6 90.2
    Oriented RCNN[30] ICCV’21 ResNet-50 41.1 121.5 90.3
    R3Det[31] AAAI’21 ResNet-50 41.6 200.9 89.2
    S2A-Net[32] TGRS’22 ResNet-50 38.5 198.0 89.7
    S2A-Net+DSLA[33] J-STARS’23 ResNet-50 38.5 198.0 90.3
    PETDet[34] TGRS’24 ResNet-50 47.7 204.1 90.6
    YOLO11n-obb Modified CSPDarkNet 2.7 6.6 93.0
    本文模型 Modified CSPDarkNet 3.2 9.8 95.1
    注:加粗表示结果最好。

    表6可知,本文模型在HRSC2016数据集上mAP@0.5达到了95.1%,依然保持了最佳精度。相较于RoI-Transformer、Oriented R-CNN、R3Det、S2A-Net和PETDet等基于旋转检测框的先进算法,mAP@0.5分别提升了4.9、4.8、5.9、5.4和4.5百分点。与基础算法相比,本文所提模型的平均精度提升了2.1百分点,证明模型具有较好的泛化性和鲁棒性。

    基础模型与本文模型的P-R曲线图如图8所示。由图8可知,相较于基础模型的P-R曲线,改进模型的P-R曲线在高召回率区域有更高的准确率,且曲线与坐标轴之间形成的面积更大,说明改进模型的P-R曲线整体优于基础模型的曲线,表明了改进模型的有效性。

    图  8  P-R曲线可视化
    Fig.  8  Visualization of P-R curve
    下载: 全尺寸图片

    本文比较的边缘算子的检测结果可视化如图9所示。其中,图9(a)为原始图像,图9(b)、(c)、(d)为分别使用3种边缘检测算子检测图像边缘的结果。由图9可知,相较于其他2种检测算子,使用Scharr算子检测的边缘最为清晰,能够识别船舰细小的边缘,且边缘与背景之间的对比度最高。

    图  9  边缘检测结果可视化
    Fig.  9  Visualization of edge detection results
    下载: 全尺寸图片

    为了定性分析本文模型的有效性,在ShipRSImageNet数据集上随机选取图片进行可视化分析。可视化检测结果如图10所示,其中,图10(a)、(b)、(c)和(d)依次代表原始图片、真实标签、基础模型YOLO11n-obb可视化结果和本文模型可视化结果。由图10可知,第1行中,改进算法在大、中、小3类目标尺寸的检测精度均有提升,其中小目标精度提升最为显著;第2行中,YOLO11n-obb出现了误检,而改进算法有效缓解了误检的问题;第3行中,YOLO11n-obb构建的旋转检测框包含了大量无关背景,而改进模型构建了更拟合目标的旋转检测框。

    图  10  检测结果可视化
    Fig.  10  Visualization of test results
    下载: 全尺寸图片

    通过对比可视化检测结果可知,本文模型能够较好地适应尺度变化剧烈的目标,降低了漏检率。此外,本文模型能够更充分地关注到目标边缘信息,增强目标与背景及相邻目标之间的对比度,在目标分布密集的复杂背景下,表现出了较强的抗干扰能力。相较于基础模型,显著提升了船舰目标的检测精度。

    本文提出了一种基于边缘增强和多尺度特征融合的遥感图像船舰检测模型。针对船舰细节特征提取不充分问题,设计高频增强模块改进C3K2模块;为缓解浅层边缘信息丢失,提出边缘信息引导的多尺度特征融合方法,充分结合边缘特征与语义特征;在检测头应用共享参数和重参数化技术,减少模型参数量。本文在ShipRSImage数据集上进行消融实验,并依次验证不同层级提取的边缘信息、边缘检测算子和融合策略对模型性能的影响与有效性。此外,在ShipRSImage数据集和HRSC2016数据集上开展对比实验。结果表明,本文模型在两个数据集上较YOLO11-obb平均检测精度分别提升3.6和2.1百分点,且与主流旋转框检测算法相比在计算量和精度上有明显优势。

    但改进的模型仍有不足,相比于基础模型引入了额外参数量,计算成本也有小幅增加。接下来将探索轻量化模块以优化模型结构,提升实际部署的效率。此外在高频特征增强模块中仅实现了伪高通滤波,并未显示的引入频域信息,后续将考虑结合傅里叶变换,实现频域与空域的交互。

  • 图  1   旋转框可视化

    Fig.  1   Visualization of oriented bounding boxes

    下载: 全尺寸图片

    图  2   本文模型整体结构

    Fig.  2   Overall structure of the proposed mode

    下载: 全尺寸图片

    图  3   高频特征增强模块结构

    Fig.  3   HFFE module structure

    下载: 全尺寸图片

    图  4   边缘引导的多尺度融合方法结构

    Fig.  4   Structure of EMFF method

    下载: 全尺寸图片

    图  5   边缘信息生成模块结构

    Fig.  5   EIG module structure

    下载: 全尺寸图片

    图  6   跨通道特征融合模块结构

    Fig.  6   CFF module structure

    下载: 全尺寸图片

    图  7   轻量化定向检测头结构

    Fig.  7   LODH structure

    下载: 全尺寸图片

    图  8   P-R曲线可视化

    Fig.  8   Visualization of P-R curve

    下载: 全尺寸图片

    图  9   边缘检测结果可视化

    Fig.  9   Visualization of edge detection results

    下载: 全尺寸图片

    图  10   检测结果可视化

    Fig.  10   Visualization of test results

    下载: 全尺寸图片

    表  1   ShipRSImageNet数据集上消融实验结果

    Table  1   Ablation experimental result on the ShipRSImageNet dataset

    YOLO11n-obb HFFE EMFF LODH 参数量/106 浮点运算数/109 mAP@0.5/%
    2.7 6.6 78.2
    2.7 6.7 79.5
    3.6 10.3 80.3
    2.4 6.6 79.0
    3.6 10.4 81.3
    2.4 6.9 79.9
    3.1 9.7 80.8
    3.2 9.8 81.8
    注:加粗表示结果最好。

    表  2   不同层级边缘信息提取实验结果

    Table  2   Experimental results of edge information extraction at different layers

    层级 参数量/106 浮点运算数/109 mAP@0.5/%
    P1 3.2 9.8 79.6
    P2 3.2 9.8 81.8
    注:加粗表示结果最好。

    表  3   不同边缘检测算子实验结果

    Table  3   Experimental results of different edge detection operators

    算子 参数量/106 浮点运算数/109 mAP@0.5/%
    Prewitt 3.2 9.9 80.3
    Sobel 3.2 10.4 80.8
    Scharr 3.2 9.8 81.8
    注:加粗表示结果最好。

    表  4   多尺度特征融合实验结果

    Table  4   Experimental results of multi-scale feature fusion

    融合位置 参数量/106 浮点运算数/109 mAP@0.5/%
    2.4 6.9 79.9
    骨干网络 2.8 8.0 80.5
    颈部网络 2.9 8.7 81.3
    骨干+颈部 3.2 9.8 81.8
    注:加粗表示结果最好。

    表  5   ShipRSImageNet数据集上对比实验结果

    Table  5   Comparison experimental results on the ShipRSImageNet dataset

    算法 来源 Backbone 参数量/106 浮点运算数/109 各类别平均精度/% mAP@0.5/%
    船舰 码头
    YOLOv3-tiny DarkNet-19 12.1 18.9 70.3 66.5 68.5
    YOLOv5n CSPDarkNet-53 2.5 7.1 75.8 74.8 75.3
    YOLOv8n CSPDarkNet-53 3.0 8.1 74.9 73.6 74.2
    YOLOv10n CSPNet 2.7 8.2 74.3 71.8 73.0
    YOLO11n Modified CSPDarkNet 2.6 6.3 76.9 74.4 75.7
    YOLO12n Modified CSPDarkNet 2.6 6.3 75.8 72.4 74.1
    CM-YOLO[28] TGRS’25 CSPDarkNet 25.3 70.9 81.2 77.3 79.3
    RoI-Transformer[29] CVPR’19 ResNet-50 55.0 122.6 60.5 59.7 60.1
    Oriented RCNN[30] ICCV’21 ResNet-50 41.1 121.5 72.2 71.4 71.8
    R3Det[31] AAAI’21 ResNet-50 41.6 200.9 68.6 23.0 45.8
    S2A-Net[32] TGRS’22 ResNet-50 38.5 198.0 70.0 45.2 57.6
    S2A-Net+DSLA[33] J-STARS’23 ResNet-50 38.5 198.0 74.5 68.5 71.5
    PETDet[34] TGRS’24 ResNet-50 47.7 204.1 75.4 74.5 74.9
    YOLO11n-obb Modified CSPDarkNet 2.7 6.6 80.1 76.3 78.2
    本文模型 Modified CSPDarkNet 3.2 9.8 83.8 79.9 81.8
    注:加粗表示结果最好。

    表  6   HRSC2016数据集上对比实验结果

    Table  6   Comparison experimental results on the HRSC2016 Dataset

    算法 来源 Backbone 参数量/106 浮点运算数/109 mAP@0.5/%
    YOLOv3-tiny DarkNet-19 12.1 18.9 89.5
    YOLOv5n CSPDarkNet-53 2.5 7.1 91.2
    YOLOv8n CSPDarkNet-53 3.0 8.1 91.0
    YOLOv10n CSPNet 2.7 8.2 90.1
    YOLO11n Modified CSPDarkNet 2.6 6.3 92.4
    YOLO12n Modified CSPDarkNet 2.6 6.3 92.5
    CM-YOLO[28] TGRS’25 CSPDarkNet 25.3 70.9 91.4
    RoI-Transformer[29] CVPR’19 ResNet-50 55.0 122.6 90.2
    Oriented RCNN[30] ICCV’21 ResNet-50 41.1 121.5 90.3
    R3Det[31] AAAI’21 ResNet-50 41.6 200.9 89.2
    S2A-Net[32] TGRS’22 ResNet-50 38.5 198.0 89.7
    S2A-Net+DSLA[33] J-STARS’23 ResNet-50 38.5 198.0 90.3
    PETDet[34] TGRS’24 ResNet-50 47.7 204.1 90.6
    YOLO11n-obb Modified CSPDarkNet 2.7 6.6 93.0
    本文模型 Modified CSPDarkNet 3.2 9.8 95.1
    注:加粗表示结果最好。
  • [1] NI Kang, MA Tengfei, ZHENG Zhizhong. Object detection in remote sensing imagery based on prototype learning network with proposal relation[J]. IEEE transactions on instrumentation and measurement, 2024, 73: 1−16.
    [2] ZHOU Zhuangzhuang, ZHU Yingying. KLDet: detecting tiny objects in remote sensing images via Kullback-Leibler divergence[J]. IEEE transactions on geoscience and remote sensing, 2024, 62: 1−16.
    [3] GAO Honghao, WU Shuping, WANG Ye, et al. FSOD4RSI: few-shot object detection for remote sensing images via features aggregation and scale attention[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2024, 17: 4784−4796. doi: 10.1109/JSTARS.2024.3362748
    [4] ZHAO Tianqi, WANG Yongcheng, LI Zheng, et al. Ship detection with deep learning in optical remote-sensing images: a survey of challenges and advances[J]. Remote sensing, 2024, 16(7): 1145. doi: 10.3390/rs16071145
    [5] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886−893.
    [6] LIU Qiangwei, XIANG Xiuqiao, YANG Zhou, et al. Arbitrary direction ship detection in remote-sensing images based on multitask learning and multiregion feature fusion[J]. IEEE transactions on geoscience and remote sensing, 2021, 59(2): 1553−1564. doi: 10.1109/TGRS.2020.3002850
    [7] ZHAGN Dongdong, WANG Chunping, FU Qiang. OFCOS: an oriented anchor-free detector for ship detection in remote sensing images[J]. IEEE geoscience and remote sensing letters, 2023, 20: 1−5.
    [8] BASHIR S M A, WANG Yi. Small object detection in remote sensing images with residual featureaggregation-based super-resolution and object detector network[J]. Remote sensing, 2021, 13(9): 1854. doi: 10.3390/rs13091854
    [9] TIAN Yang, MENG Hao, LING Yue. Joint learning networks of low-level and high-level features for multi-label ship recognition in complex backgrounds[J]. Applied intelligence, 2023, 53(20): 24327−24345. doi: 10.1007/s10489-023-04865-1
    [10] 成倩, 李佳, 杜娟. 基于YOLOv5的光学遥感图像舰船目标检测算法[J]. 系统工程与电子技术, 2023, 45(5): 1270−1276.

    CHENG Qian, LI Jia, DU Juan. Ship target detection algorithm of optical remote sensing image based on YOLOv5[J]. Systems engineering and electronics, 2023, 45(5): 1270−1276.
    [11] ZHOU Kexue, ZHAGN Min, WANG Hai, et al. Ship detection in sar images based on multi-scale feature extraction and adaptive feature fusion[J]. Remote sensing, 2022, 14(3): 755. doi: 10.3390/rs14030755
    [12] CORBANE C. , NAJMAN L, PECOUL E, et al. A complete processing chain for ship detection using optical satellite imagery[J]. Remote sensing, 2010, 31(22): 5837−5854. doi: 10.1080/01431161.2010.512310
    [13] YE Biaohua, QIN Tong, ZHOU Huajun, et al. Cross-level attention and ratio consistency network for ship detection[C]//2022 26th International Conference on Pattern Recognition. Montreal: IEEE, 2022: 4644−4650.
    [14] AL-SAAD M, ABURAED N, PANTHAKKAN A, et al. Airbus ship detection from satellite imagery using frequency domain learning[C]//Image and Signal Processing for Remote Sensing XXVII. Washington: SPIE, 2021.
    [15] 张省, 李山山, 魏国芳, 等. 面向精细化多尺度特征的遥感图像目标检测[J]. 遥感学报, 2022, 26(12): 2616−2628. doi: 10.11834/jrs.20221801

    ZHANG Shen, LI Shanshan, WEI Guofang, et al. Refined multi-scale feature-oriented object detection of the remote sensing images[J]. National remote sensing bulletin, 2022, 26(12): 2616−2628. doi: 10.11834/jrs.20221801
    [16] FIRDIANTIKA I M, KIM S. IS-YOLO: a YOLOv7-based detection method for small ship detection in infrared images with heterogeneous backgrounds[J]. International journal of control, automation and systems, 2024, 22(11): 3285−3302. doi: 10.1007/s12555-023-0760-5
    [17] 王昌安, 田金文. 生成对抗网络辅助学习的舰船目标精细识别[J]. 智能系统学报, 2020, 15(2): 296−301. doi: 10.11992/tis.201901004

    WANG Changan, TIAN Jinwen. Fine-grained inshore ship recognition assisted bydeep-learning generative adversarial networks[J]. CAAI transactions on intelligent systems, 2020, 15(2): 296−301. doi: 10.11992/tis.201901004
    [18] 张磊, 陈文, 王岳环. 用于遥感舰船细粒度检测与识别的关键子区域融合网络[J]. 中国图象图形学报, 2023, 28(9): 2940−2955. doi: 10.11834/jig.220671

    ZHANG Lei, CHEN Wen, WANG Yuehuan. Key sub-region feature fusion network for fine-grained ship detection and recognition in remote sensing images[J]. Journal of image and graphics, 2023, 28(9): 2940−2955. doi: 10.11834/jig.220671
    [19] 高明明, 李沅洲, 马雷, 等. YOLOv5-LR: 一种遥感影像旋转目标检测模型[J]. 红外技术, 2024, 46(1): 43−51.

    GAO Mingming, LI Yuanzhou, MA Lei, et al. YOLOv5-LR: a rotating object detection model for remote sensing images[J]. Infrared technology, 2024, 46(1): 43−51.
    [20] 牛为华, 郭迅. 基于改进YOLOv8的船舰遥感图像旋转目标检测算法[J]. 图学学报, 2024, 45(4): 726−735.

    NIU Weihua, GUO Xun. Rotating target detection algorithm in ship remote sensing images based on YOLOv8[J]. Journal of graphics, 2024, 45(4): 726−735.
    [21] HUANG Jianwei, WANG Kangbo, HOU Yue, et al. LW-YOLO11: a lightweight arbitrary-oriented ship detection method based on improved yolo11. Sensors, 2025, 25(1): 65.
    [22] 王雪秋, 高焕兵, 郏泽萌. 改进YOLOv8的道路缺陷检测算法[J]. 计算机工程与应用, 2024, 60: 179−190.

    WANG Xueqiu, GAO Huanbing, JIA Zemeng. Improved road defect detection algorithm based on YOLOv8[J]. Computer engineering and applications, 2024, 60: 179−190.
    [23] CHEN Ziyuan, HE Zewei, LU Zheming. DEA-Net: single image dehazing based on detail-enhanced convolution and content-guided attention[J]. IEEE transactions on image processing, 2024, 33: 1002−1015. doi: 10.1109/TIP.2024.3354108
    [24] LI Xiang, WANG Wenhai, HU Xiaolin, et al. Generalized focal loss V2: learning reliable localization quality estimation for dense object detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 11627−11636.
    [25] LOSHCHILOV I, HUTTER F. SGDR: stochastic gradient descent with warm restarts[C]//5th International Conference on Learning Representations. Toulon: OpenReview. net, 2017.
    [26] ZHANG Zhengning, ZHANG Lin, WANG Yue, et al. ShipRSImageNet: a large-scale fine-grained dataset for ship detection in high-resolution optical remote sensing images[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2021, 14: 8458−8472. doi: 10.1109/JSTARS.2021.3104230
    [27] MIN Lingtong, DOU Feiyang, ZHANG Yani, et al. CM-YOLO: context modulated representation learning for ship detection[J]. IEEE transactions on geoscience and remote sensing, 2025, 63: 1−14.
    [28] LIU Zikun, YUAN Liu, WENG Lubin, et al. A high resolution optical satellite image dataset for ship recognition and some new baselines[C]//6th International Conference on Pattern Recognition Application and Methods. Porto: INSTICC, 2017.
    [29] DING Jian, XUE Nan, LONG Yang, et al. Learning RoI transformer for oriented object detection in aerial images[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 2844−2853.
    [30] XIE Yingying, CHENG gong, WANG Jiabao, et al. Oriented R-CNN for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 3520−3529.
    [31] YANG Xue, YAN Junchi, FENG Ziming, et al. R3Det: refined single-stage detector with feature refinement for rotating object[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI, 2021: 3163−3171.
    [32] HAN Jiaming, DING Jian, LI Jie, et al. Align deep features for oriented object detection[J]. IEEE transactions on geoscience and remote sensing, 2022, 60: 1−11.
    [33] LI Yangfan, BIAN Chunjiang, CHEN Hongzhen. Dynamic soft label assignment for arbitrary-oriented dhip detection[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2023, 16: 1160−1170. doi: 10.1109/JSTARS.2022.3233081
    [34] LI Wentao, ZHAO Danpei, YUAN Bo, et al. PETDet: proposal enhancement for two-stage fine-grained object detection[J]. IEEE transactions on geoscience and remote sensing, 2024, 62: 1−14.
WeChat 点击查看大图
图(10)  /  表(6)
出版历程
  • 收稿日期:  2025-05-21
  • 网络出版日期:  2025-08-14

目录

    /

    返回文章
    返回