基于多尺度时序影像深度学习的动目标检测技术

引用本文

郑义成, 黄猛, 王玉菊, 孙宇晗, 刘科, 黄玉. 基于多尺度时序影像深度学习的动目标检测技术. 舰船科学技术, 2025, 47(19): 190-196 复制到剪切板

ZHENG Yicheng, HUANG Meng, WANG Yuju, SUN Yuhan, LIU Ke, HUANG Yu. Multi-scale time-series deep learning-based image motion target detection technology. Ship Science and Technology, 2025, 47(19): 190-196 复制到剪切板

基于多尺度时序影像深度学习的动目标检测技术

郑义成¹, 黄猛¹, 王玉菊¹, 孙宇晗², 刘科³, 黄玉³

1. 中国人民解放军91977部队，北京 102249;
2. 航天恒星科技有限公司，北京 100095;
3. 中国船舶集团有限公司第七一四研究所，北京 100101

收稿日期: 2025-01-17.

作者简介: 郑义成（1976 – ），男，硕士，高级工程师，研究方向为目标特性

摘要: 利用高分辨率地球同步轨道卫星对海洋区域重复观测的特点，本文提出一种舰船运动目标检测算法，通过快速区域提取算法，提取云掩膜与水体的NDWI（Normalized Difference Water Index），基于梯度算法对海洋背景进行建模，随后使用深度学习的方法，将多尺度特征融合目标检测技术与基于上下文分析的模型相结合，得到时序影像中舰船目标位置信息。本研究同时利用真实目标和仿真目标相结合的技术，验证了算法的可行性。在50 m分辨率的高分四序列影像实验中表明，本研究提出的算法可以有效提取多尺度运动舰船目标的位置和状态信息，有效为舰船目标检测和跟踪领域提供技术支撑。该算法在工程实践领域中具有较高的应用价值。

关键词: 天基实测序列影像舰船检测凝视卫星

Multi-scale time-series deep learning-based image motion target detection technology

ZHENG Yicheng¹, HUANG Meng¹, WANG Yuju¹, SUN Yuhan², LIU Ke³, HUANG Yu³

1. No. 91977 Unit of PLA, Beijing 102249, China;
2. Space Star Technology Co., Ltd., Beijing 100095, China;
3. The 714 Research Institute of CSSC, Beijing 100101, China

Abstract: Taking advantage of the characteristics of repeated observation of ocean areas by high-resolution geosynchronous orbit satellites, this paper proposes a ship target detection algorithm, which extracts the NDWI (Normalized Difference Water Index) and cloud mask through a fast area extraction algorithm, and models the ocean background based on the gradient algorithm. Then, the multi-scale feature fusion target detection technology is combined with the target detection model based on context analysis to obtain the target position information of the ship. In this study, the feasibility of the algorithm is verified by using the combination of real target and simulated target. In the 50 m resolution high-resolution four-sequence image experiment, it is shown that the algorithm proposed in this study can effectively extract the position and status information of ship targets of various sizes, and effectively provide technical support for the field of ship target detection and tracking. This algorithm has strong engineering application value.

Key words: space-based measured sequence images ship inspection staring satellite

0 引　言

卫星遥感数据作为一类重要的空间信息来源，以其时效性、实用性而被广泛用于资源勘查、军事侦察、环境灾害监测、城市规划、农作物病虫害检测等诸多领域，对国防、国民经济和社会发展有着重大的影响。随着卫星遥感技术持续发展，高分辨率图像不仅在空间、光谱和时间上具有高精度，还能够实现多角度拍摄、多传感器协同作业以及跨平台的合作。如何高效分析和处理海量且复杂的遥感数据，以便精确地提取出关注的目标和信息，已经成为遥感技术应用领域中一个迫切需要攻克的难题。

高分辨率地球同步轨道遥感卫星（GEO）能够在短时间内对大范围海域进行高频重复监测，近实时地获取海上舰船的动态变化过程，因而较之于低轨道遥感卫星，在监视监测运动目标方面具有独特优势和巨大的潜力。该类卫星不仅具有宽幅成像与快速重访的优势，能够对非合作目标进行监视监测，且其对地观测的空间分辨率较高，在动态监测方面具有很大优势。另外，它们具有拍摄时序影像的能力，可以高性能、全天候地对某一区域进行长时间的监测，如何利用时序图像中丰富的时间信息进行动态监测对所使用的目标检测算法提出了更高的要求。同时，由于卫星具有较大的检测范围，影像中含有的目标尺度也十分多样，而主流的目标检测方法往往对于多尺度问题鲁棒性较差，因此也对算法的鲁棒性提出了更高的要求。

舰船目标作为海上交通、资源探测主要的交通载体和战斗力，其自动检测和识别在军事和民事上有着深远的意义。准确定位舰船目标利于判别敌方军事动态、打击效果评估、战场分析、国防预警，为保护人民安全提供强大的保障。现阶段舰船检测方法主要包含4个阶段：图像预处理、海陆分离、候选目标定位、舰船目标确认。在国内外，众多学者针对检测算法的4个环节提出了诸多行之有效的方法^{[1 − 3]}。其中，美国学者给出了一种目标检测并跟踪算法，该算法包含运动目标估计、目标建模、目标匹配这3个处理步骤^[4]。

多尺度分析工具源自计算机视觉领域对人眼感知过程的研究。与单尺度相比，多尺度分解方法能够把那些处于相同空间区域但尺度不同的特征区分开来，随后便可以更高效地处理这些被分离出来的不同尺度的特征。

因此本研究着眼于利用时序影像数据，通过提取影像的时空特征，利用影像的不同层次的语义特征，对影像中不同尺度的目标进行检测，进而解决多尺度时序影像的目标检测问题，利用卷积神经网络深入挖掘影像的特征信息，针对性地提取网络中不同层次的特征信息，增强特征的表示能力，解决影像中目标尺度不统一的问题。

其次，将上述的记忆单元内嵌到改进的多尺度神经网络中，挖掘卷积神经网络所提取的深度空间特征的时间特征，将提取到的最终特征结果用于检测。

最后，基于长短期记忆网络，记忆大量邻近帧的信息，挖掘时序影像的时间特征，找到时序影像之间的联系，获得更丰富的特征信息，利用上下文分析，从而实现准确、高效地检测目标。本文利用目标多尺度特征实现了较高精度的舰船目标时序检测，为目标特性检测识别提取精度的提高进行理论支撑。

1 基于多尺度时序深度学习的卫星影像目标检测技术 1.1 技术路线

基于多尺度时序深度学习的卫星影像目标检测关键技术的实现方案如图1所示。

图 1 研究方案 Fig. 1 Research protocols

首先是收集GF-4凝视卫星相应数据，并且以Landset8全色波段数据为基准，重采样至GF4对应分辨率，利用相应辐射定标系数和自动选取配准点进行正射校正和配准。

其次，处理凝视序列影像数据，同时使用NDWI阈值法提取水体信息。鉴于舰船与云区、陆地在密度分布上的显著区别，对通过阈值分割后得到的二值图像开展块操作处理，以此来划分陆地或云区。再通过海水背景建模的方式模拟图像中的背景，基于运动特性的目标增强来提高目标的信噪比，进而提升目标与背景的对比度，最后得到预处理后的高分四多光谱图像。然后选取其中一帧数据进行单帧目标检测。本模型的检测流程：利用残差网络提取图像中的特征信息；在提取到的特征图上应用区域提议网络（RPN），生成一系列候选框。针对每一个候选框，截取其对应的特征区域，并通过池化操作将该区域统一调整为7×7×512的标准尺寸，作为后续全连接层的输入。后通过分类层和回归层分别完成目标类别的识别和边界框位置的精确定位。

在此基础上，结合后几帧多光谱图像，针对单帧检测存在的问题，以单帧检测为基础，开展序列图像海上弱小目标检测。LSTM-Faster R-CNN架构，包括RPN生成候选区域、Fast R-CNN进行ROI池化和目标检测。不同之处在于，LSTM-Faster R-CNN利用多层LSTM处理特征，先将特征图池化至20×20，分割成序列输入LSTM，提取上下文信息后调整为全连接层输入尺寸，最终生成包含上下文的分类特征。

1.2 数据预处理

1）单帧图像快速区域筛选

通过归一化水体指数（NDWI）的阈值技术对水体进行识别。清澈水体在可见光波段的反射率通常极低，近乎为0，所以在遥感图像中呈现出较深的颜色。对2个研究区域随机选取的样本进行光谱特性分析后发现，水体、植被和云在蓝波段的反射率普遍高于绿波段和红波段。在可见光范围内，水体反射率相对较低，且随波长增加逐渐降低，在近红外波段降至最低点。植被的光谱曲线与水体光谱曲线有着明显差异以供区分。

图像预处理步骤主要包括海陆分割和云层去除。相较于海面，云层与陆地具有较高的反射率。若输入为单波段图像，可采用阈值分割直接提取出云区与陆地；若输入为多波段图像，则可利用光谱特性进行地物区分。借助水体指数能够有效检测出海洋区域，进而提取出感兴趣区域。实验使用的高分四属于多光谱数据，能够提供绿光、近红外波段数据，所以本文通过计算归一化水体指数 NDWI 来提取海洋区域：

$ NDWI=\frac{{\rho }_{G}-{\rho }_{NIR}}{{\rho }_{G}+{\rho }_{NIR}}。$

(1)

式中：$ {\rho }_{G}、{\rho }_{NIR} $分别为绿光波段和近红外波段的反射率。设置阈值T_water，得到海面地区的二值图，如下：

$ B(x,y)=\left\{\begin{aligned}&1,{NDWI} (x,y) < {T}_{\text{water}}，\\ &0,{NDWI} (x,y)\geqslant {T}_{\text{water}}。\end{aligned}\right. $

(2)

随后提取云掩膜，高四单幅图像的云检测采用的是阈值法，而且是根据高四数据特征专门设置的自动阈值法。这种方法利用可见光近红外各波段中云和背景场的数值差别，云在反差较大的情况下被识别出。在第 4 波段（0.63～0.69 μm），晴空数据反射率低，厚云反射率高，同时这个波段能增强云和陆地之间的对比，本研究使用第4波段开展基于阈值的云检测研究。

现阶段较为困难的云掩模处理是因为陆地上的雪、高亮地区与云的相似性高，难以进行区分，但是在本文中不需要去考虑陆地的难以区分的部分，而是只在海面上去判断即可。利用光谱反射率特征阈值来识别厚云；利用云的空间变化特性来识别云边缘和碎云。有研究显示，在可见光光谱范围内，云与其他下垫面相比具有更高的光谱反射率^{[5 - 6]}，尤其在云的中间区域这个特征更为明显。可凭借云的高反射率光谱特征对厚云进行识别，这与使用云空间变化特征的方法形成互补。研究表明，在可见光 0.65 μm 波段（可见光红光波段），晴空数据通常具有较低的反射率，因此可见光 0.65 μm 波段是进行云检测的首选波段^[7]。

2）基于多谱段连续成像模式的波段间时间差计算

GF-4卫星获取的多光谱图像波段间成像时间间隔主要来自于系统运转时间与各波段的系统积分时间。后者作为初始数据，将与TIF图像一同发送至用户。要计算波段成像时间间隔，关键在于波段切换时系统运转时间的计算。由于GF-4卫星携带的传感器各波段的积分时间为6、30、20、30和30 ms，这与波段成像时间间隔差异较大，可将各波段切换期间的系统运转时间忽略不计，在此基础上根据成像期间快速运动目标的位移与运动速度计算波段间隔。

$ \left\{\begin{aligned} & \Delta T_{\text{tra}}=\displaystyle\frac{D}{V}-\Delta T'_{\text{int}}, \\ & \Delta T''=\Delta T_{\rm{tra}}+\Delta T''_{\text{int}}。\end{aligned} \right.$

(3)

式中：$ \Delta T\mathrm{_{tra}} $为波段切换时的系统运转时间；V为成像期间目标的运动速度，一帧图像成像时间较短，期间船速变化较小，在进行波段间隔计算时将船速视为定值；$ \Delta T_{\text{int}}' $为用于$ \Delta T\mathrm{_{tra}} $计算的2个波段之间的总系统积分时间，可根据影像头文件信息直接得出；D为在这2波段的图像上量测的运动目标的位移，二者随选用波段的差异而变化；$ \Delta T_{\text{int}}'' $为需要计算波段成像间隔的2个波段之间的总系统积分时间；$ \Delta T'' $为这2个波段的成像时间间隔。

由于相同时间内，船舶位移越大，计算结果的精度越高，在选择参与运算的船舶时，选择航速较快的船舶；在选择参与运算的波段时，选择信息量最为丰富的全色波段（B1）和水陆对比度最高的近红外波段（B5）。遥感影像上的船舶航速计算方法如下：首先对获取的GF-4多光谱数据进行正射校正，然后将成像期间的AIS数据按地理位置投影到相应的遥感图像上；从AIS数据中筛选出与影像中标记的船舶位置接近且航向一致的船舶。最后对AIS数据进行线性插值，计算得到全色和近红外波段图像检测到的运动目标的速度。

1.3 多尺度特征融合序列帧目标检测技术

本部分为多尺度特征融合的序列帧目标检测技术，结合了2种方法，在运动舰船目标检测中，多尺度特征融合检测方法可有效提取不同大小舰船的多分辨率特征，应对目标尺度变化问题；然而复杂海况下的背景干扰与语义关联缺失仍需解决。本研究通过基于上下文分析的深度目标检测技术，挖掘舰船与海洋环境、邻近目标的空间语义关系，增强对复杂背景的辨别能力。二者结合，通过多尺度特征捕捉目标细节，并利用上下文分析排除干扰的方法来适应动态复杂海面下的舰船检测任务。

1.3.1 多尺度特征融合检测方法

根据以往研究，基于候选区域的模型在目标检测精度上优于基于回归的模型，但在小目标检测上表现不佳^[8]。这主要是因为模型使用的特征来自深层CNN，虽然语义信息丰富，但丢失了大量细节信息，如边缘、纹理和颜色。深层特征对小目标的描述能力有限，因为小目标在高层特征图中的表示过于抽象。为了解决这一问题，可以通过融合多层特征来同时保留语义和细节信息。具体来说，结合浅层的高分辨率特征和深层的强语义特征。此外，优化非极大值抑制（NMS）算法也有助于减少误检和漏检。一些模型如Mask R-CNN通过自顶向下的特征金字塔网络（FPN）实现了多尺度特征融合，但在特征融合的方向性上还有待加强。为此，本研究采用MS-Faster R-CNN模型，在FPN基础上增加了自底向上的特征融合路径，并采用了级联RPN和改进的NMS算法，对候选框完成推荐。

本研究的MS-Faster R-CNN由以下核心模块组成：第一为特征提取模块：采用ResNet-101作为主干网络，用于提取输入图像的特征。不同于传统的单一流程，本模型设计了双向的特征传递链路——自顶向下的高层语义信息传递和自底向上的底层分辨率信息传递。可保证5个不同层级的Feature Map中，既能获取强大的语义信息，也能保留丰富的细节信息。第二个模块负责生成候选框，本模型的RPN是一个级联结构，不同大小的锚点（anchor）会根据其尺度选择合适的Feature Map层级进行处理。在第一层RPN选择出候选框集合后本模型利用改进NMS方法筛选候选框。第三作为特征池化模块，在处理RPN推荐的候选区域时，使用ROI Align池化层进行降维，形成7×7×512大小的最终特征，输入全连接层。其中，通过双线性插值的方式，避免了传统ROI Pooling中因量化带来的精度损失。最后一个模块为目标分类和边框预测模块，模型全连接层、目标分类层softmax以及边框回归层bbox，对池化后的特征向量进行处理，以实现目标的分类和位置的精细化调整。

通过上述模块的协同工作，MS-Faster R-CNN可提升对小目标检测的能力。

1.3.2 基于上下文分析的深度目标检测技术

为了在复杂环境中提高目标检测的准确性，尤其是在目标重叠和遮挡的情况下，本研究开展一种基于上下文分析的目标检测模型LSTM-Faster R-CNN。该模型的核心在于有效利用目标周围的上下文信息，以提升在复杂场景下，目标重叠遮挡等情况下的检测效果。

首先，LSTM-Faster R-CNN与Faster R-CNN的架构相似，包括RPN推荐候选区域，FastR-CNN进行ROI池化与检测目标的分类以及候选框位置的回归等，但是具体实现细节上有很多差别。具体结构如图2所示，其中主干网络依旧采取101层的ResNet-101。

图 2 LSTM-Faster R-CNN框架 Fig. 2 LSTM-Faster R-CNN framework

在上下文信息融合方面，LSTM对连续帧中的目标及其周围环境进行建模，捕捉目标的动态变化和背景信息。生成候选区域时，前后帧的上下文可提高候选区域的质量。

在时空特征提取方面，在Faster R-CNN的基础上，通过LSTM层对时间序列数据提取的特征，模型可以加深理解目标的运动模式和背景变化，减少因遮挡和重叠导致的误判^[9]。LSTM对检测结果进行后处理，平滑目标轨迹，过滤掉不稳定或错误的检测结果。通过时序建模，进一步提高检测的稳定性和准确性^[10]。

2 实验与结果分析 2.1 水体提取和舰船目标仿真

本文采用3组有效GF-4凝视卫星海上序列影像数据，共30景，时间分辨率均为分钟级（南海数据间隔不一致），具体位置包括渤海海域、东海黄海海域、南海北部海域。

其中渤海和南海数据中云覆盖较多。图4中红色区域为通过所提的时序高分序列影像水体与云掩模精确提取方法所获取的水体（非云）区域。通过对比图3和图4可以看出，所提非云覆盖水域形体完整，能够完整提取水域且能够排除主要的云覆盖区域。

图 3 3组GF-4卫星影像原始RGB图像 Fig. 3 Three sets of GF-4 satellite imagery raw RGB images

图 4 3组GF-4卫星影像水体区域 Fig. 4 Three sets of GF-4 satellite images of water body areas

此外，在渤海一组数据的三帧图像小区域上进行了不同帧的云覆盖掩模提取，对比GF4的局部原图以及对应的云掩膜可以看出，上述方法可以较好地识别出静态图像中的云像元。对比图5和图6可以看出，在不同帧的图像中，云产生了位移，这由于图像拍摄的时间不同导致，而通过以上云识别方法生成的云掩膜也产生了变化，说明该方法能够相对准确的识别出位移后的云像元。

图 5 同区域不同帧的GF-4全色图像 Fig. 5 GF-4 panchromatic images of different frames in the same area

图 6 不同帧上云掩模提取结果对比 Fig. 6 Comparison of cloud mask extraction results on different frames

本文研究了利用GF-2数据源进行GF-4舰船目标仿真添加的功能。基于GF-2影像的GF-4舰船目标仿真和添加过程如图7所示。

图 7 GF-4目标仿真过程 Fig. 7 GF-4 target simulation adding process

具体过程包括：

1）根据云掩膜获得水体部分的位置区域。

2）获得不可用点的坐标，即GF4原图中已经存在目标的坐标位置。

3）在已经获得的水体的位置区域内，排除不可插入点的坐标后随机选点。

4）根据随机选择的位置坐标插入预处理后的GF2目标（降采样），考虑到GF2图像特性与GF4图像特性的差异，需要对插入后的区域去向进行匀色处理。

5）得到仿真的结果图（见图8）。

图 8 GF-2原始舰船目标和降采样为50 m分辨率后的GF-2舰船目标 Fig. 8 GF-2 original ship target and GF-2 ship target after downsampling to 50 m resolution

仿真过程中向GF4原图中添加了30个真目标，其中一个目标添加结果如图9所示，可以看出，仿真目标和真实目标基本无差异。本研究在每组连续10帧图像中将仿真目标按照匀速直线运动进行添加，同时避免与真实目标的运动路线交叉。

图 9 添加仿真目标前后的GF-4图像 Fig. 9 The GF-4 images before and after the addition of the simulated target

仿真结果图分析：

1）空间特性

通过观察上图中仿真目标与真实目标可以发现，二者的空间特性十分相近。

2）光谱特性

通过对比图10可以看出，仿真目标的光谱特性与真实目标的光谱特性基本一致。

图 10 仿真与真实目标的光谱曲线 Fig. 10 Simulate spectral curves with real targets

2.2 时序影像舰船目标的仿真及检测结果

本次测试原图中包含目标数量为129个，后续通过仿真的方法向其中添加了30个目标（针对目标过少问题）。利用本研究所提舰船检测方法，部分检测结果如图11所示。可以看出，本方法可以较好地检测出图像中的目标，检测方法具有可行性。同时对于仿真添加的目标（绿框目标）也可以实现检测的功能，证明仿真具备可行性。通过和实际舰船尺寸比对，几何尺寸精度提取结果优于1个像元。

图 11 GF-4舰船检测结果图 Fig. 11 GF-4 ship objects detection results

表1和表2为单帧所检测到的目标个数。表1为总体检测情况，表2为真实和仿真目标时各自的检测率情况。可以看到，真实舰船目标和仿真舰船目标的检测率大体相当，总体检测率在62%左右。

表 1 整体舰船检测结果 Tab.1 overall ship detection results

表 2 真实和仿真舰船检测结果 Tab.2 Real and simulation ship detection results

同时，本研究利用多帧联合数据提取了多尺度舰船目标的位置、航速、航向信息，表3展示了3个典型不同尺寸的目标位置和状态分析结果。

表 3 序列帧舰船目标位置和状态分析结果 Tab.3 Analysis results of the position and state of ship targets in sequence frames

多帧结果表明：针对长度大于300 m的大型舰船目标检测率为85%，虚警率15%，分类准确率为91%。针对长度大于150 m的中型舰船，目标检测率为75%，虚警率25%。后续通过采取数据超分辨等方式提高检测精度。

3 结　语

基于多尺度时序深度学习的卫星影像目标检测技术主要解决如何利用时序图象中丰富的时间信息进行海上运动目标动态监测问题。通过结合凝视序列影像预处理、多尺度特征融合目标检测、基于上下文分析目标检测3个子内容，完成了完整的关键技术方案和程序实施。相关关键技术已在GF-4数据上进行实验验证，实验结果表明所提技术在预处理和舰船检测中都有较好的实验效果，相关关键技术具备可行性，本文提出的方法具备较好的应用前景。

参考文献

[1]	YU Y, YANG J. Visual saliency using binary spectrum of walsh - hadamard transf -orm and its applications to ship detection in multispectral imagery[J]. Neural Processing Letters, 2017, 45(3): 759-776. DOI:10.1007/s11063-016-9507-0
[2]	路威, 余旭初, 马永刚, 等. 高光谱遥感影像海上舰船目标检测算法的研究[J]. 海洋测绘, 2005, 25(4): 8-12. DOI:10.3969/j.issn.1671-3044.2005.04.003
[3]	李明, 赵俊霞, 胡芬. 国家航空航天遥感影像获取现状及发展[J]. 测绘通报, 2015(10): 12-15.
[4]	WANG Y, ZHOU X, ZUO Y, et al. A comparative study of moving target detection algorithms[J]. IOP Conference Series: Materials Science and Engineering, 2020, 790(1): 012061. DOI:10.1088/1757-899X/790/1/012061
[5]	CHEN Z, WANG Y, LIU X, et al. Physical model-driven deep learning for single image dehazing[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(5): 2314-2326. DOI:10.1109/TNNLS.2021.3132834
[6]	张振. 高分辨率可见光遥感图像港口及港内目标识别方法研究[D]. 合肥: 中国科学技术大学, 2009.
[7]	LETU H, YANG K, NAKAJIMA TY, et al. High-resolution retrieval of cloud microphysical properties and surface solar radiation using Himawari-8/AHI next-generation geostationary satellite[J]. Remote Sensing of Environment, 2020, 239: 1-16. DOI:10.1016/j.rse.2019.111583
[8]	XI Q, ZHANG Z, PENG L. Small object detection algorithm based on improved dense network and quadratic regression[J]. Computer Engineering, 2021, 47(4): 241-247+255. DOI:10.19678/j.issn.1000-3428.0057595
[9]	DANG Z, SUN B, LI C, et al. CA - LSTM: An improved LSTM trajectory prediction method based on infrared UAV target detection[J]. Electronics, 2023, 12(19): 4081. DOI:10.3390/electronics12194081
[10]	ZHANG Y, WANG X, LIU X, et al. Multi - object tracking with LSTM-based post-processing for UAV-based video surveillance[J]. Journal of Intelligent & Robotic Systems, 2021, 102(1−2): 1−14.


舰船科学技术 2025, Vol. 47 Issue (19): 190-196 DOI: 10.3404/j.issn.1672-7649.2025.19.031	PDF