舰船科学技术  2025, Vol. 47 Issue (20): 170-174    DOI: 10.3404/j.issn.1672-7649.2025.20.026   PDF    
面向多尺度船舶目标的高精度检测
黄猛1, 郑义成1, 吕亚飞1, 马天舒2     
1. 91977部队,北京 102249;
2. 航天恒星科技有限公司,北京 100095
摘要: 遥感图像目标检测与识别主要通过自动分析遥感图像内容,快速确定关键目标的位置、并判断其类别,在制导、瞄准、侦察和防御等军事应用中,目标检测技术是关键的技术支撑。本研究探讨了特征金字塔结构的优化,通过融合高低两级特征,对比了基于多尺度特征融合的特征金字塔Faster R-CNN算法在检测不同尺寸舰船目标时的精度,实现了一种可以针对目标旋转进行自适应的回归网络用于目标检测框的回归,对于简单背景下的舰船检测识别精度较好。本研究在目标尺度变化范围大、方向多变、形状多变的目标具有较好的检测效果。
关键词: 多类别舰船     目标检测     多尺度    
High-precision detection of multi-category ship targets
HUANG Meng1, ZHENG Yicheng1, LV Yafei1, MA Tianshu2     
1. No.91977 Unit, Beijing 102249, China;
2. Space Star Technology Co., Ltd., Beijing 100095, China
Abstract: Object detection and recognition in remote sensing images is mainly based on automatic analysis of the content of remote sensing images to quickly determine the location and category of key objects. In military applications such as guidance, aiming, reconnaissance and defense, target detection technology is the key technical support. In this study, the optimization of the feature pyramid structure is discussed. By fusing the lower-level and higher-level features, the accuracy of the feature pyramid Faster R-CNN algorithm based on multi-scale feature fusion in detecting ship targets of different sizes is compared, and a regression network that can adapt to the rotation of the target is realized for the regression of the target detection frame. The accuracy of ship detection and recognition under simple background is better. This study has a good detection effect on targets with large scale variation range, variable direction and variable shape.
Key words: multi-category ships     target detection     multi-scale    
0 引 言

随着天基图像空间分辨率大幅提升,基于天基图像的目标检测在多领域内应用较广。图像中舰船目标检测技术根据特征提取方法的差异,主要分为两大技术路线。传统方法通过人工设计特征(如HOG、SIFT)结合支持向量机等机器学习模型实现目标识别,而深度学习框架则采用卷积神经网络自动学习多层次特征表达。然而,前者从图像中提取的浅层特征表达能力弱,对于背景多变复杂情况下的目标检测效果较差。近年来,深度学习技术逐步迭代,卷积神经网络被应用于目标检测。主要的检测流程可分为一阶段和双阶段。YOLO(You Only Look Once)及其2018年的升级版YOLOv3是单阶段目标检测的典型算法[1]。对比可知,Faster R-CNN(Region-Convolutional Neural Network)作为双阶段的代表算法,改进为Mask R-CNN,后者通过引入RoI Align技术并增加了一个专门用于生成目标区域掩码的分支,实现了对图像中目标的实例级分割[2]。当前算法设计普遍面向自然图像的刚性目标假设,忽视了图像场景中地物目标的各向异性排列特性(如港口船舶的任意朝向、机场飞机的密集分布),尤其在复杂背景干扰与小目标检测场景下,单阶段算法表现不如双阶段算法。

图像场景中关键舰船目标呈现出显著的空间几何特性:其一,目标主轴方向具有随机分布特征,其方位角θ∈[0°,180°)呈均匀分布;其二,目标形态呈现显著的多尺度各向异性,长宽比分布范围可达1∶5至5∶1。传统基于水平边界框(Horizontal Bounding Box, HBB)的检测模式因受限于轴向约束,对密集排列场景下的目标无法精准进行定位。此外,传统水平边界框检测框架在目标密集区域会产生30%~50%的框体重叠,导致非极大值抑制(Non-Maximum Suppression, NMS)算法在重叠阈值(IoU threshold)与置信度排序判定时产生漏检率上升和检测框数量减少的问题。

针对目标方向多样性问题,现有解决方案主要源于文档检测领域。先生成初始候选框,通过多尺度特征聚合预测旋转角度θ∈[−45°,45°]的精确边界框[3]。Faster R-CNN中的区域生成网络(Region Proposal Network, RPN)中带入方向性特征,便于区域生成网络输出带有方向和角度特征的预测框[4]

超像素方法和旋转候选框的引入虽然提高了检测精度,但计算复杂度增加,影响了检测效率[5]。对于海面小目标舰船的检测,现有方法的鲁棒性仍有待提高[6]。旋转候选框的应用可大幅度提高检测精度,但代价是检测效率的降低[7]

图像中的海面舰船因尺度不一给目标的精确识别任务带来诸多困难。第一,海面背景广阔,目标分布不均匀,距离较远,样本的地理位置分布状态分布状态规律不一;第二,舰船目标较小且尺度变化大,增加了识别的难度。

面对以上任务中的挑战,本文主要开展针对不同分辨率下不同背景中不同类型的舰船目标检测和分类方法的研究。本文构建了面向海面舰船目标检测的专用图像数据集,然后,针对以海面为背景下舰船目标尺度多变性导致的难以检测和靠岸舰船检测的问题开展相关研究。

1 技术方案 1.1 增强旋转区域检测网络设计

Faster R-CNN框架采用迁移学习策略,通过预训练的深度卷积网络(如VGG16、ResNet50)提取多层次特征表示,生成具有丰富语义信息的特征图谱[8]。如图1所示,区域建议网络(Region Proposal Network, RPN)作为核心创新模块,优势主要体现在参数共享架构,RPN与后续Fast R-CNN检测器共享基础卷积特征,使推理速度提升。

图 1 Faster R-CNN网络模型结构图 Fig. 1 Faster R-CNN network model architecture diagram

R-CNN检测框架采用两级分类-回归机制。在分类阶段,通过softmax分类器对RPN生成的区域建议实现前后区域的二分类;在精调阶段,采用边界框回归器(Bounding Box Regressor)对候选框坐标进行微调,提高了定位精度[9]。随后通过2个全连接层实现特维度压缩与高阶特征提取,最终输出船舶目标类别概率分布和精调后的边界框坐标。

Faster R-CNN框架的基础特征提取网络主要捕获目标的低层次视觉特征,如目标的边缘点和边框线等特点[10]。针对小船舶目标效果较差。图像中的多类别目标聚集排列,并朝向各异,使用传统水平边界框的定位精度差距较大,这就是目标的多尺度特征。

为此,本文开展部分改进,针对现有方法的局限性,研究提出三重优化策略:特征提取网络重构、旋转区域建议优化和分类网络优化。

本文提出改进方案,首先特征提取优化,构建自适应特征金字塔网络,随后进行区域建议重构,设计旋转敏感区域生成网络(Rotation-Sensitive Region Proposal Network, RS-RPN);随后分类网络增强,采用RoIAlign层而非RoIPooling,通过双线性插值保持特征空间对齐精度,并新增卷积层提升特征表达能力[1112]。算法的整体框架如图2所示。

图 2 基于RRPN的图像舰船检测模型结构图 Fig. 2 Structure diagram of the remote sensing ship detection model based on RRPN

项目采用ResNet-101作为基本特征抽取网络,并结合多尺度融合增强策略。ResNet通过引入残差块有效解决了网络加深导致的性能退化问题,支持构建如ResNet-152这样极深的网络。与传统网络相比,ResNet具备更强的泛化能力和较低的复杂度,特别是在卷积层与池化层间加入批量标准化层,以及使用残差连接,这些都显著加速了训练过程并提高了训练效率[13]。此外,ResNet比VGG等传统网络更深,能更有效地学习图像中的细节特征。

针对Faster R-CNN在小船舶目标检测任务中存在显著局限性,高层特征虽具有复杂的语义,分类置信度高,但其空间分辨率太低,导致小目标的特征响应衰减;低层次特征虽保持较高空间的细节信息,但它的语义表征能力有限,分类置信度不高。因此提出多尺度特征增强方案,设计自适应特征金字塔网络,将高层特征的语义信息与低层特征的细节信息进行互补增强[14],如图3所示。

图 3 特征金字塔图 Fig. 3 Feature pyramid network
1.2 自旋转生成目标候选区的检测网络设计

该方法主要是基于Faster R-CNN框架构建双路检测模型,使用双路ResNet-101网络对特征抽取,通过多尺度融合特征金字塔(MFPN)增强多级特征汇集的能力;设计自适应旋转区域生成网络(AR-RPN)生成可旋转的备选框,筛选顺序较前的候选框;利用旋转RoI Align对齐特征,最终通过旋转NMS输出最优检测结果,有效解决了舰船目标的尺度差异和方向性问题。

对于多尺度多类别的舰船目标检测,多尺度融合特征金字塔(MFPN),尤其是对于从航母到小艇这样尺度差异巨大的目标。MFPN的网络结构,保留了ResNet网络中的C4和C5的深层语义信息和特征级融合后MFPN 输出的特征图,具有高分辨的空间信息。

本文采用的AR-RPN,可以减小针对例如海洋和海岸与目标无关的地区的计算的资源消耗。研究提出基于位置引导的旋转锚框生成机制:利用MFPN输出的特征图F,通过位置预测分支输出舰船目标中心点坐标,形状预测分支在中心点坐标引导下输出舰船目标尺寸(w,h)和角度θθ∈[−30°,120°],步长30°);通过最大化概率选择最优位置和形状参数生成锚框,并利用偏移量对特征图进行优化对齐。

本文提出基于概率引导的旋转锚框生成策略:位置预测分支通过1×1卷积和sigmoid激活函数,将特征图F转换为目标中心概率分布,设定阈值$ \varnothing $初值为0.5筛选高概率区域作为候选中心,有效降低计算复杂度;形状预测分支在确定的目标中心区域生成旋转锚框,通过预测标准化坐标(w, h, θ)提升尺寸预测稳定性,确保生成的锚框与真实标注具有较高的初始IoU(>0.6),从而提高检测精度。转换公式为:

$ w\cdot\sigma =s\cdot{e}^{{w}_{s}},{h}\cdot\sigma =s\cdot{e}^{{h}_{s}},\mathrm{\theta }\cdot\mathrm{\sigma }=\mathrm{s}\cdot{e}^{{\theta }_{s}}。$ (1)

式中:(w, h, θ)为输出的预测锚框;(w, h, 0)为标准化的预测锚框;s为步长;σ为一个经验比例因子(例如取1/8)。目标尺寸将会从原有的0~1000标准化为−1~1,从而使网络训练更稳定。研究提出基于标准化预测和自适应特征的旋转区域建议网络(AR-RPN):首要先通过非线性变换将目标尺寸(w, h,θ)标准化到[−1,1]范围,利用步长s和经验比例因子σ稳定训练过程;通过引入3×3可变形卷积层,根据锚框特征生成自适应特征图F1,解决锚框形状变化导致的特征不一致问题;同时设计多任务损失函数。以分类损失和回归损失为基本,新增位置预测损失和形状预测损失,实现联合优化;最后是改进旋转框筛选策略,本研究先筛选角度差小于15°的候选框,再保留IoU大于0.6的检测结果,有效排除方向不一致但重叠面积较大的误检框。

1.3 利用特征尺度归一化的目标检测

尺度归一化训练算法:在极端的尺度水平发生改变的情况下,识别和检测任务是很难输出精准结果的。即使有了特征金字塔这种方式,深度卷积网络对尺度变化不一的目标检测性能不稳定。采用图像金字塔尺度归一化(SNIP)开展训练,以便小目标和大目标在较小和较大尺度上的识别工作。

为了训练分类器,在一个特定的分辨率i下,如果感兴趣区域的面积落在图中,它被标记为有效,否则无效。同样,区域候选网络(RPN)训练也使用所有地面实况框为锚点分配标签。最后,在训练期间排除那些具有大于0.3的重叠且具有无效的地面实况框的锚(即其梯度被设置为0)。在推理阶段,本文采用各种分辨率候选区域生成方法:RPN在各个分辨率下独立生成候选区域并进行分类,过滤超出预设范围的检测结果,如图4所示。合并后的RoI与预训练网络分辨率匹配,便于微调学习。对于R-FCN等基于位置敏感滤波器的方法,RoI尺寸(如48像素,对应conv5特征图的3个像素)与滤波器(如7×7)之间的空间对齐至关重要,尺寸失配会导致特征与滤波器的位置对应关系丢失。

图 4 尺度归一化训练流程 Fig. 4 Scale normalization training process

本文采用基于特征金字塔的路径聚合网络实现多尺度目标的精确提取,如图5所示。路径聚合网络中,卷积层数越深,拥有的抽象语义信息越强,而空间分辨率随着卷积层数的增加而降低,造成图像中目标位置信息的损失,不利于小目标的检测。层数越浅,空间分辨率越高,但对语义信息的表达能力不足。所以本文将基于路径聚合的策略,融合深层语义和浅层空间的特征。使得对于小目标能同时得到高分辨率和强语义的信息。路径聚合网络在图像提取阶段包括一个自顶向下和一个自底向上连接的过程。自顶向下过程从最高层开始,将当前层上采样的结果和下一层经过1×1卷积的结果相加,在迭代聚合的过程中增强各层的语义信息和空间信息。自底向上过程和自顶向下过程相反,从最底层开始,将当前层下采样的结果和上一层经过1×1卷积的结果相加。经过自顶向下和自底向上两个过程之后,输出的特征图兼顾强语义、高分辨细节。随后经过自适应特征池化操作,从不同层中进行感兴趣区域池化,进一步对不同层的信息进行整合,得到池化之后的特征用于图像目标分类和位置回归。

图 5 路径聚合网络 Fig. 5 Path aggregation network

快速路径聚合网络:上述路径聚合网络通过一个自顶向下结构和一个自底向上的特征聚合增强,能够显著增强特征在处理遥感图像目标尺度变化时的鲁棒性,但是时间开销太大,而且这几个操作之间存在冗余信息。在自适应池化结构中,需要对不同级别特征图中池化的特征做一个线性组合。如果将4个不同级别层的特征图作为基底,那么原始的残差网络中4个层级的特征图和经过自顶向下、自底向上操作之后得到的4个层级的特征图所张成的空间是近似的。本文直接从原始残差网络中4个层级的特征图中分别进行感兴趣区域池化,然后对其进行线性组合,这样保证模型表达能力并不会下降。同时,本文将利用位置敏感感兴趣区域对齐操作来进行降维,进一步减小计算开销。利用空间金字塔池化的方式,在不同层,感兴趣区域池化之后的特征图大小也按照空间金字塔的方式排列,增强对多尺度特征的计算水平[15]。基于以上方法,可以大大提升遥感图像舰船目标信息的提取速度,快速路径聚合网络的网络结构如图6所示。

图 6 快速路径聚合网络 Fig. 6 Fast path aggregation network
2 测试结果分析

本文探讨了特征金字塔各层生成的锚框尺度对检测精度水平的影响。实验表明,初设置的默认锚框尺度显著影响检测精度。基于多尺度测试图像金字塔、多尺度特征融合特征金字塔以及两者结合的Faster RCNN方法进行了对比。结果显示,结合使用多尺度测试图像金字塔和特征金字塔的方法将舰船大目标检测精度提高了30%。

引入图像金字塔与Softer NMS后,虽然减少了漏检现象,但也增加了虚警情况。利用特征金字塔在不同尺度上生成候选框有助于同时减少虚警和漏检。此外,采用感受野金字塔进一步提升了定位精确度。本研究提出基于特征金字塔的旋转检测框架,设计动态RoI Align机制,分析不同特征尺度和融合策略的性能差异。结果证明,合理的多尺度选择能够有效提升检测精度,而特征级融合比决策级融合表现更佳。总体而言,相较于单一尺度池化方案,多尺度方法提供了更好的检测效果。

本文算法输出的多角度边框比人为标注的具有更高的交并比,其角度、大小等信息更为丰富,在以下2个数据集中进行了实验。

1)对于舰船识别问题,利用现有数据集xView中的舰船目标进行研究,在该数据集中的各类型舰船目标信息提取如表1所示。

表 1 xView数据集舰船目标类别与数量情况 Tab.1 The category and quantity of ship targets in the xView dataset

使用基于的特征归一化的cascade RCNN网络的检测结果如表2表3所示。

表 2 多类别舰船目标检测水平 Tab.2 Detection level of multi-class ship targets

表 3 各类别舰船目标检测水平 Tab.3 The level of target detection of ships of various classes

2)针对高分系列舰船数据集中各类型舰船目标信息提取任务,使用基于的特征归一化网络的检测结果如下:平均检测率/虚警率达到98.8%/15.8%,军民分类正确率达到91.2%,平均目标识别正确率90.5%。

3 结 语

本文涉及的技术可以用于港口舰船检测,为军事需求提供技术支持。实验数据中多个舰船数据集,包括多种尺度大小的目标。本文实现了一种增强旋转区域检测网络设计,构建了特征金字塔自适应网络,利用自旋转生成目标候选区的检测网络设计,解决了舰船目标尺度不一,方向各异的问题。最后通过图像金字塔尺度归一化训练,使用快速路径聚合网络提升了目标检测精度和速度。

本文算法在不同尺度的舰船检测识别任务中表现较好,经测试,利用现有数据集实现军民舰船的目标识别,本文算法可达到高于90%的检测率和识别率,在工程应用中成熟度较高,适用性较强。

参考文献
[1]
REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2016.
[2]
HE K, GKIOXARI G, DOLLÁR P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision, 2017.
[3]
QIAN X, ZHU X, WANG Y, et al. Rotated Text Detection with Transformer-based Localization Refinement[C]//AAAI. 2021.
[4]
LI X, WANG S, ZHANG C, et al. Arbitrary-oriented remote sensing text detection via adaptive rotation feature aggregation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-15.
[5]
王冰. 基于深度学习的舰船目标检测研究[D]. 厦门: 厦门大学2017.
[6]
王腾飞. 高分辨率遥感图像深度学习舰船检测技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2017.
[7]
刘昱龙. 高分辨率光学遥感图像舰船检测研究[D]. 厦门: 厦门大学, 2017.
[8]
CHEN S, WANG J, PANG J, et al. Faster R-CNN Revisited: An end-to-end training framework[C]//NeurIPS, 2021.
[9]
WANG Y, JIANG Y, CHEN Y, et al. Efficient convolutional networks for multi-task visual recognition[J]. IEEE Transactions on Image Processing, 2020, 29: 7893-7906.
[10]
REN S, HE K, GIRSHICK R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems, 2015.
[11]
HE K, ZHANG X, REN S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916. DOI:10.1109/TPAMI.2015.2389824
[12]
ZHANG Y, LI H, WANG G, et al. Enhanced faster R-CNN for aerial object detection[J]. Journal of Applied Remote Sensing, 2021, 15(2): 026018.
[13]
殷文斌. 卷积神经网络在遥感目标识别中的应用研究[D]. 北京: 中国科学院大学 (中国科学院遥感与数字地球研究所), 2017.
[14]
刘敏. 高分遥感图像目标在线检测技术研究[D]. 武汉: 武汉大学, 2020.
[15]
LI X, WANG L, ZHANG T, et al. Multi-scale feature fusion for remote sensing object detection[J]. Remote Sensing, 2023, 15(5): 1324. DOI:10.3390/rs15051324