中国科学院大学学报  2024, Vol. 41 Issue (6): 776-785   PDF    
一种面向SAR图像快速舰船检测的轻量化网络
周文雪, 张华春     
中国科学院空天信息创新研究院, 北京 100190;中国科学院大学电子电气与通信工程学院, 北京 100049
摘要: 在基于深度学习的合成孔径雷达(SAR)图像舰船检测领域,传统的模型通常结构复杂、计算量大,难以适配低算力平台并实现实时检测;同时,依赖于预设锚框的卷积神经网络因锚框位置较难合理设置,容易导致大量计算冗余。针对上述问题,提出一种基于无锚框的端到端轻量化卷积神经网络,设计了一种轻量的通道注意力模块(EESE)并将其应用于解耦合检测头(ED-head)上,有效解决了分类和定位2种任务的冲突。此外,提出一种优化的EIOU损失函数,在保证推理速度几乎不变的情况下有效提升网络性能。在SSDD数据集上的实验结果表明:与YOLOX-nano相比,该方法的AP50和AP分别提高2.1和7.4个百分点,在CPU上推理延迟仅5.33 ms,远小于YOLOX-nano的13.13 ms,实现了精度与效率的平衡。
关键词: 合成孔径雷达(SAR)    舰船检测    深度学习    轻量化网络    无锚框目标检测    
Lightweight network for fast ship detection in SAR images
ZHOU Wenxue, ZHANG Huachun     
Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100190, China; School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: In the field of SAR image ship detection based on deep learning, traditional models are usually complex in structure and require a large amount of calculation, making them unsuitable for low computing power platforms and real-time detection. And convolutional neural networks that rely on preset anchor boxes will lead to a lot of computational redundancy due to the difficulty of setting a reasonable anchor box. To solve these problems, an end-to-end lightweight convolutional neural network based on anchor-free design is proposed, and a lightweight channel attention module (EESE) is designed and applied to the detection head (ED-head), to resolve the conflict between classification and localization tasks. In addition, an optimized EIOU loss function is proposed, which enables the model to effectively improve the network performance without increasing the inference time. The proposed method is tested on the SSDD dataset, and the experimental results show that compared to YOLOX-nano, AP50 and AP are increased by 2.1 and 7.4 percentage points, respectively, with the CPU latency being only 5.33 ms, much less than 13.13 ms of YOLOX-nano. The proposed method achieves a balance between accuracy and efficiency.
Keywords: synthetic aperture radar (SAR)    ship detection    deep learning    lightweight network    anchor-free target detection    

合成孔径雷达(synthetic aperture radar,SAR)具有全天时、全天候的工作特征,克服了光学成像受时间、云雾等因素影响的缺点,对于变幻莫测的海洋场景具有良好的适应性,因此被广泛应用于海洋舰船目标检测,这对海洋交通管理、海洋权益维护等有着重要意义。

传统的SAR图像舰船检测多采用基于恒虚警率(constant false alarm rate, CFAR)和基于多通道的检测方法[1-2]等。恒虚警法的关键在于海杂波的建模,这导致其应用场景受限,泛化能力不强;基于多通道的检测方法仅适用于极化SAR图像,不具有普适性。此外,传统的SAR图像舰船检测方法还存在需人为选取特征、检测时间较长等缺点。随着人工智能技术的蓬勃发展,卷积神经网络(convolutional neural network, CNN)因其具有强大的自主学习与特征提取能力,能够克服上述传统方法的局限性,被广泛应用于SAR图像舰船检测领域。

目前应用于目标检测的卷积神经网络可主要划分为一阶段(one-stage)目标检测和两阶段(two-stage)目标检测,其中两阶段目标检测网络率先蓬勃发展:2014年,基于区域的卷积神经网络(region-based CNN, R-CNN)[3]被提出,首次成功地将CNN用于目标检测。2015年,空间金字塔池化网络(spatial pyramid pooling net, SPPNet)[4]被提出,通过在CNN中加入RoI(region of interest)池化层,在保证输出固定的同时实现多尺度输入。此后,Fast R-CNN[5]、Faster R-CNN[6]的提出有效提高了R-CNN的检测速度。Mask R-CNN[7]在Faster R-CNN的基础上添加了一个与现有目标检测回归并行的用于预测目标掩码的分支。而首个一阶段目标检测网络(you only look once,YOLO)[8]于2016年被提出,它将定位和分类整合进单个CNN,无需预先生成候选区域,使得检测速度得到极大提升。SSD[9]针对YOLO对锚框设计粗糙这一不足,通过多尺度多长宽比的密集锚框设计和特征金字塔等方法成功提升了检测精度。此后,YOLO系列不断精进,先后提出YOLOv2-YOLOv4[10-12],推动了深度学习技术的发展。

从2016年开始,基于对实际应用的需求,轻量化网络蓬勃发展,旨在保证网络精度的基础上实现快速高效的检测。除模型压缩技术外,更多研究者试图从网络设计上实现轻量化。2016年,SqueezeNet[13]通过Fire模块实现先压缩再扩展通道,有效减少了计算量;MobileNet[14-15]系列提出深度可分离卷积(depthwise separable convolution)等方法;ShuffleNet[16-17]系列则提出通道混洗的方法;GhostNet[18]通过更小的计算量生成更多的特征图,实现了高效的深度学习模型。此外,一些先进网络,例如YOLOv5、YOLOX[19]等都设计了轻量化版本,有效平衡了速度和精度。但YOLO系列需要根据不同的数据集手动设计锚框,应用步骤繁杂;此外,由于生成的大部分锚框是负的,易导致正负样本不平衡等问题。因此,近年来许多学者重新将目光转向无锚框(anchor-free)检测,应用较为广泛的有CornerNet[20]、FCOS[21]等。其中,NanoDet[22]是基于无锚框的轻量网络模型,兼顾了精度、速度和体积,能够满足应用实时性要求,可部署到移动端实现实时检测,但是误检率仍然较高。为解决上述问题,本文基于NanoDet提出一种更为高效的轻量化神经网络模型,且能够满足应用实时性的需求,本文的主要创新点如下:

1) 基于NanoDet提出一种无锚框检测的一阶段目标检测网络,在SSDD(SAR shipdetection dataset)数据集上检测性能和速度有所提升。

2) 设计了一种新的通道注意力模块(extremely efficient squeeze-excitation, EESE)和轻量高效的解耦合检测头(efficient decoupled-head, ED-head)。

3) 用优化后的EIOU Loss替换原网络的GIOU Loss,在不增加计算量和参数量的情况下有效提升了检测性能。

1 方法

本节首先介绍本文网络的基础模型,然后分别从注意力机制、检测头和损失函数等角度详细介绍本文神经网络模型的实现细节。

1.1 基础网络

所提方法使用NanoDet作为基础模型,NanoDet是一个基于FCOS设计的一阶段轻量化网络模型。整体结构设计主要包含3部分:骨干网络、Neck模块和检测头。其中,骨干网络采用去掉最后一层卷积的ShuffleNetV2,抽取8、16、32倍下采样特征作为下层输入;Neck部分为PAN(path aggregation network)[23],在PAN的结构基础上去掉所有卷积,只保留从骨干网络特征提取后的1×1卷积实现特征通道维度的对齐,用抽、插值进行上下采样,特征图之间通过直接相加实现多尺度融合;检测头是由3×3的深度可分离卷积[24]和1×1的普通卷积构成,分类和边框回归结果用同一组卷积核卷积得到,再分离成两部分。

1.2 所提网络 1.2.1 解耦合检测头

SAR图像的分辨率较低且具有散射带来的模糊性,对舰船精准定位存在难度。此外,对于目标检测的分类和定位2个任务,它们的关注点是不相同的。文献[25]通过实验得出:某些显著性区域的特征具有丰富的分类信息,而边界特征可能更擅长边框回归,因此共享卷积的检测头无法较好处理2个任务之间的矛盾,而解耦头能够有效防止两分支特征交互。因此使用解耦合检测头替代原始耦合检测头进行网络改进,如图 1所示。其中N代表分类类别数,WH分别代表特征图的宽和高。

Download:
图 1 耦合头和解耦合头的结构 Fig. 1 Structure of coupled head and decoupled head

解耦合检测头虽然增加了一部分计算量和参数量,但是对网络的检测性能有一定提升,并且还提供了更大的改进空间。具体的结果对比将在2.3.2小节展示。

1.2.2 注意力机制

注意力机制能促使模型聚焦局部区域,找出最重要的信息,有益于提高模型性能,广泛应用于深度学习。例如SE[26]、CBMA[27]等。SE模块(squeeze-excitation module)的结构如图 2(a)所示,能有效提升模型对通道的敏感性并且十分轻量。其过程可分为2步:压缩和激励,首先通过全局池化对空间维度进行压缩,然后通过2个全连接(fully-connected,FC) 层[28]和激活函数调整输入特征映射,最后与原图像相乘,对不同的通道赋予不同的权重,从而筛选出最重要的信息。假定输入特征图为Xi$\mathbb{R}^{C \times W \times H}$(C为通道数),那么通道注意特征图$\mathrm{MAP}_{\mathrm{SE}} \in \mathbb{R}^{C \times 1 \times 1}$定义如下

$ \operatorname{MAP}_{\mathrm{SE}}=\sigma\left(W_C\left(\delta\left(W_{C / r}\left(f_{\mathrm{GAP}}\left(X_i\right)\right)\right)\right) .\right. $ (1)
Download:
图 2 SE模块和eSE模块的结构 Fig. 2 Structure of SE module and eSE module

其中:fGAP表示全局平均池化(global average pooling);$W_{C / r} \in \mathbb{R}^{C / r \times 1 \times 1}, W_C \in \mathbb{R}^{C \times 1 \times 1}$分别表示2个FC层权重,其中r为维度衰减因子;δ表示非线性算子ReLU;σ表示Sigmoid函数。

然而SE模块存在的问题是在其应用于轻量化网络中时,为避免模型复杂度过高,在FC层处的信道数减少至C/r,导致信道信息的丢失。针对此问题,文献[29]提出eSE模块(effective squeeze-excitation module),该模块的结构如图 2(b)所示,只有一个通道数为C的FC层,保证通道信息的完整性,从而提高性能。其过程定义如下

$ \mathrm{MAP}_{\text {eSE }}=\sigma\left(W_c\left(f_{\mathrm{GAP}}\left(X_i\right)\right)\right) . $ (2)

为进一步提高模型对通道的敏感度,在eSE模块的启发下,本文提出一种新的EESE。在eSE模块中,假定全局池化后的特征图为$X_{\mathrm{GAP}} \in$\mathbb{R}^{1 \times 1 \times C}$,FC层就等价于用C个与XGAP相同大小的卷积核对其进行卷积。这种卷积方式卷积核通道间的冗余突出,导致其对不同通道的灵活性不足。为解决这一问题,本文用involution算子[30]取代FC层,involution kernel在通道间是共享的,能够减少传统卷积核通道间的冗余。其实现过程为:先经过2个1×1卷积层将通道数压缩为C/r,再扩展为k×k×G,其中k为involution kernel的大小,G为组数,每一组共用一个involution kernel,核生成函数如下

$ H_{i, j}=\phi\left(X_{i, j}\right)=W_1 \eta\left(W_0 X_{i, j}\right) . $ (3)

其中:$W_0 \in \mathbb{R}^{C / r \times C}, W_1 \in \mathbb{R}^{(k \times k \times C) \times C / r}$η表示BN(batch normalization)和激励函数ReLU。图 3所示为G=1时involution的实现示意图。此外,最终得到的通道注意力特征图还需经过一层卷积核大小为1×1的卷积层,得到EESE模块的输出。假定输入特征图为$X_i \in \mathbb{R}^{C \times W \times H}$其具体实现如下

$ \operatorname{MAP}_{\text {EESE }}=\sigma\left(\operatorname{invo}\left(f_{\text {GAP }}\left(X_i\right)\right)\right) . $ (4)
$ X_{\text {out }}=\xi\left(\eta\left(W_C\left(X_i \otimes \mathrm{MAP}_{\text {EESE }}\right)\right)\right) . $ (5)
Download:
图 3 G=1时的involution实现示意图 Fig. 3 Schematic illustration of involution at G=1

其中:σ表示Sigmoid函数,invo表示involution算子,$\otimes$表示对应元素相乘,$W_C \in \mathbb{R}^{1 \times 1 \times C}$表示卷积层权重,η表示BN,ξ表示非线性算子Swish。通过实验得出由involution构成的通道注意力机制EESE比eSE更为轻量和高效。具体见第2.3.2小节。

1.2.3 基于EESE的解耦合检测头

本文将EESE模块融入解耦合检测头中,然而解耦合检测头会导致分类和定位任务分离独立。TOOD[31]中设计的T-head可以增强2个任务的交互,通过协同工作使预测更加准确,然而其设计对于轻量化网络来说过于复杂。PP-YOLOE[32]将T-head进行了简化,在分类分支中增加shortcut分支,这在一定程度上可以增强2个任务的交互。因此我们也对解耦合检测头做同样的优化,最终得到ED-head。图 4所示为本文网络的结构模型,骨干网络为ShuffleNetV2,颈部为PAN,检测头为ED-head,PAN模块中的灰色圆圈表示特征图,其中Upsample和Downsample分别表示上、下采样,Conv表示卷积,$\oplus$表示逐元素相加,具体实现与NanoDet相同;Head模块中,GAP表示全局平均池化(global average pooling),$\otimes$表示对应元素相乘,invo表示involution算子,decoupled head结构见图 1(b)

Download:
图 4 本文网络结构模型图 Fig. 4 The model architecture of this paper

为更清楚地展示EESE模块和解耦合检测头的优越性,将在第2.3小节中展示实验结果。

1.3 损失函数

GIOU Loss[33]作为定位任务的损失函数引入最小闭包区域面积Ac,弥补了IOU Loss只关注重叠区域的缺陷。但是当检测框A和真值框B出现包含的情况时,AcA∪B相等,GIOU就退化为IOU,如图 5所示。另外,SAR图像中的舰船大多长宽比较大,而GIOU并未考虑目标的长宽比,因此对于舰船目标检测模型,引入EIOU Loss[34]作为网络的损失函数。

Download:
图 5 当检测框与真值框重叠时,IOU=GIOU Fig. 5 When the anchor box overlaps the target box, IOU=GIOU

EIOU Loss包含3部分:重叠损失、中心距离损失和纵横比损失。具体实现如下

$ \begin{gathered} L_{\text {EIOU }}=L_{\mathrm{IOU}}+L_{\mathrm{dis}}+L_{\mathrm{asp}} \\ =1-\mathrm{IOU}+\frac{\rho^2\left(b, b^{\left.b^{\mathrm{tt}}\right)}\right)}{c^2}+\frac{\rho^2\left(w, w^{\mathrm{gt}}\right)}{c_w^2}+\frac{\rho^2\left(h, h^{\mathrm{zt}}\right)}{c_h^2} . \end{gathered} $ (6)

其中: c表示能够同时包含预测框和真实框之间的最小闭包区域的对角线距离,cwch是包含目标框和真值框的最小框的宽和高,bbgt表示预测框和真值框的中心点,wh表示预测框的长和宽,wgthgt表示真值框的长和宽,ρ(a, b)代表ab的欧式距离。引入纵横比损失后预测框与真值框的长度和宽度差最小,加快了收敛速度。

LEIOU和EIOU之间关系是LEIOU=1-EIOU,因此当EIOU发生变化时,LEIOU也会相应变化,但其变化的梯度保持不变。文献[35]提出IEIOU Loss,其梯度绝对值随着EIOU的增大而减小,更有利于边框回归。鉴于此,我们提出更适合本文网络的损失函数OEIOU,如下

$ L_{\text {OEIOU }}=3.5 \times \ln 3.5-3.5 \times \ln (2.5+\text { EIOU }) . $ (7)

综上所述,在回归分支中采用OEIOU loss和distribution focal loss(DFL)损失函数,而对于分类任务,采用损失函数quality focal loss(QFL)来监督。QFL和DFL可以去掉FCOS系列难以训练的Centerness分支,省去了这一分支的大量卷积,从而减少检测头的计算开销,检测速度大幅提升,用设计更为合理的OEIOU比GIOU更能实现对预测框的精确定位。最终的损失函数如下

$ \operatorname{loss}=\alpha \cdot \operatorname{loss}_{\mathrm{QFL}}+\beta \cdot \operatorname{loss}_{\mathrm{IEIOU}}+\gamma \cdot \operatorname{loss}_{\mathrm{DFL}} . $ (8)

其中: α=1, β=2, γ=0.25。

2 实验结果与分析

本节介绍实验的细节与结果,所有实验均基于以下条件:基于Pytorch1.8.1框架构建深度学习模型,使用Python3.7在Windows平台上进行编写,硬件平台为Intel®CoreTM i5-10600KF CPU@4.10 GHz×16 G内存,NVIDIA GeForce RTX 3060Ti GPU,通过CUDA 11.1软件包实现加速。

2.1 实验数据和训练策略

实验采用的数据集为SSDD公开数据集,该数据集共有1 160张SAR舰船图片,共2 456艘舰船,并将目标区域裁剪成约500像素×500像素,通过人工标注舰船目标位置而得到[36]。SSDD采用PASCAL VOC数据集标注策略进行标注,数据主要来源于RadarSat-2、TerraSAR-X和Sentinel-1传感器,这些图像包含HH、HV、VV和VH 4种极化方式,分辨率为1~15 m,在大片海域和近岸地区都有舰船目标。实验将数据集按照如下公开划分标准进行划分:文件编号最后数字为1和9的图像被确定为测试集,其余的被视为训练集。使用SGD优化器[28]更新网络参数,动量为0.9,一共训练190个epoch,使用Multistep策略动态调整学习率,基于实验经验分别在迭代130、160、175、185次后对学习率进行调整。批大小为8。

2.2 评价指标

实验采用传统深度学习评价指标平均精度均值(mean average precision, mAP)评价网络检测的准确程度。AP50和AP75分别表示在下述标准下的平均精度:IOU超过0.5或0.75即视为检测结果正确,而AP又可以表示为mAP@0.5 ∶0.95,即IOU以0.05为步长,0.5~0.95的所有AP取平均后得到的值。APS、APM、APL分别表示对不同尺寸(小、中、大)目标的AP值。

对于模型的轻量化程度采用计算量(floating point operations,Flops)和参数量(parameters)来反映。计算量即浮点计算次数,模型的计算量等于模型中每个算子的计算量之和;参数量是模型中的参数的总和,跟模型在磁盘中所需的空间大小直接相关。这2个指标可以一定程度上反映模型的推理速度,然而模型在特定硬件上的推理速度除受计算量影响外,还会受内存访问的时间成本[16]、硬件特性、软件实现、系统环境等诸多因素影响[37],因此引入实测速度进行评估。

将在单GPU设备上训练好的模型移植到算力更低的CPU上进行测速,训练结果保存为*.pth文件,并借助OpenVINO工具集的模型优化器进行优化,得到该模型的IR中间文件(*.xml和*.bin文件),然后通过推理引擎进行模型推断加速。用实测网络检测相同尺寸图片的检测时间来评价网络的速度。

2.3 实验结果

为验证前文提出方法的效果,进行不同网络性能对比分析和消融实验结果对比分析。

2.3.1 实验对比分析

为验证本文算法的优越性,将其与现阶段优秀的、应用较广的卷积神经网络性能进行分析对比,如表 1所示,加粗为最优结果。可以直观看出,我们提出的算法在检测精度上有一定优势,与最近的轻量化网络YOLOX-nano相比,AP、AP50、AP75均有提升。由于引入ED-head,计算量和参数量虽有少量增加,但是检测速度仅比最快的NanoDet慢0.33 ms,与其他网络相比具有较大优势,完全满足实时检测的要求。此外,本文模型体量小,在相同大小的数据集和硬件条件下,训练速度更快,节约时间成本,利于未来实现硬件移植。

表 1 SSDD数据集消融实验性能分析比较 Table 1 Comparison of ablation experimental performance analysis of SSDD

为直观感受各网络的性能,将YOLOv4-tiny、YOLOX-nano、NanoDet以及本文算法对测试集的检测结果展示于图 6,其中绿色框为真实框,红色框为检测框。可以看到,YOLOv4-tiny对近岸舰船误检率较高,对边缘模糊舰船无法精确定位,对远海小目标漏检较多,YOLOX-nano则是对近岸舰船漏检较多,但是对边缘模糊的舰船能够精准定位,对远海舰船小目标虚警较多; 而我们的方法由于引入了基于通道注意力机制的ED-head,对于舰船定位得更加精准,再加上优化后的损失函数的作用,最终检测效果相比起其他网络对近岸舰船和海上小舰船的漏检和误检更少。

Download:
图 6 在SSDD数据集上不同方法检测结果对比 Fig. 6 Comparison of test results of different methods on SSDD
2.3.2 eSE模块和EESE模块性能对比

分别用eSE和EESE模块替换图 4中的注意力模块进行消融实验,得到的结果如表 2所示。EESE模块比eSE模块在AP50上略有提升,但是参数量低于eSE模块,并且检测速度也略快。

表 2 eSE和EESE模块性能分析比较 Table 2 The comparison of test results for eSE and EESE
2.3.3 消融实验

对1.2和1.3小节中的改进点进行消融实验,得到的性能如表 3所示。

表格第1列分别表示基线模型NanoDet、在基线模型的基础上引入解耦合检测头、将解耦合头替换为本文提出的ED-head、在基线模型的基础上引入OEIOU Loss、在ED-head基础上引入OEIOU Loss。打√表示引入某个模块,加粗表示最优指标,可以看到,我们提出的ED-head对网络性能有较明显的提升,这主要是因为注意力机制让解耦合检测头更聚焦于不同任务的重点关注区域,改善了原始算法共用卷积的弊端。引入ED-head仅增加了0.33 ms的延时。

表 3 消融实验性能分析比较 Table 3 Analysis and comparison of ablation experimental performance

加入OEIOU Loss对AP50有较为明显的提升,图 7所示为GIOU Loss和OEIOU Loss分别作用时的mAP曲线图,横坐标为Epoch训练次数,纵坐标为AP50,可以明显看出改进后损失函数比原损失函数使得mAP上升浮动更小,更加稳定,并且引入OEIOU Loss并不会减缓推理速度。

Download:
图 7 不同Loss下的mAP曲线对比 Fig. 7 Comparison of mAP curves under different losses
2.3.4 泛化性实验

为进一步分析实验结果的可靠性,进行了泛化性实验,将公开数据集SAR-Ship-Dataset[38]按照8 ∶2随机划分为训练集和测试集。SAR-Ship-Dataset一共有43 819个船舶切片,来自于高分3号和Sentinel-1传感器,分辨率为256×256。样本中小尺寸舰船偏多,采用PASCAL VOC数据集标注策略进行标注。实验结果如表 4所示,加粗为最优结果。图 8所示为不同方法在该数据集上检测结果的直观展示。可以看出本文方法仍然具备一定的优势。

表 4 SAR-Ship-Dataset数据集消融实验性能分析比较 Table 4 Comparison of ablation experimental performance analysis of SAR-Ship-Dataset 

Download:
图 8 在SAR-Ship-Dataset数据集上不同方法检测结果对比 Fig. 8 Comparison of test results of different methods on SAR-ship-dataset
3 结束语

为解决深度学习网络模型计算复杂、检测效率低等问题,本文基于NanoDet提出一种无锚框的一阶段SAR图像舰船检测网络。该方法有效平衡了精度和速度,在公开舰船检测数据集上的实验表明,相较于其他方法,本文算法在具有较高检测精确度的同时,检测速度也显著提升,能够实现实时检测,并且模型轻量。这对于紧急海难救援、实时目标监控和军事部署等应用都有一定的现实意义。未来工作将聚焦于更多数据集上的泛化实验,进一步优化网络结构,以提升网络对中等和大尺度舰船检测的精度。

参考文献
[1]
Sciotti M, Pastina D, Lombardo P. Exploiting the polarimetric information for the detection of ship targets in non-homogeneous SAR images[C]//IEEE International Geoscience and Remote Sensing Symposium. June 24-28, 2002, Toronto, ON, Canada. IEEE, 2002: 1911-1913. DOI: 10.1109/IGARSS.2002.1026297.
[2]
林旭, 洪峻, 孙显, 等. ScanSAR图像舰船目标快速检测方法[J]. 中国科学院大学学报, 2013, 30(6): 793-799. Doi:10.7523/j.issn.2095-6134.2013.06.012
[3]
Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. June 23-28, 2014, Columbus, OH, USA. IEEE, 2014: 580-587. DOI: 10.1109/CVPR.2014.81.
[4]
He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. Doi:10.1109/TPAMI.2015.2389824
[5]
Girshick R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). December 7-13, 2015, Santiago, Chile. IEEE, 2016: 1440-1448. DOI: 10.1109/ICCV.2015.169.
[6]
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149. Doi:10.1109/TPAMI.2016.2577031
[7]
He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 386-397. Doi:10.1109/TPAMI.2018.2844175
[8]
Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 779-788. DOI: 10.1109/CVPR.2016.91.
[9]
Liu W, Anguelov D, Erhan D, et al. SSD: single shot multibox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37. DOI: 10.1007/978-3-319-46448-0_2.
[10]
Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 6517-6525. DOI: 10.1109/CVPR.2017.690.
[11]
Redmon J, Farhadi A. YOLOv3: an incremental improvement[EB/OL]. 2018: arXiv: 1804.02767. (2018-04-08)[2023-02-20]. https://arxiv.org/abs/1804.02767.
[12]
Bochkovskiy A, Wang C-Y, Liao H-Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. arXiv: 2004.10934. (2020-04-23)[2023-02-20]. https://arxiv.org/abs/2004.10934.
[13]
Iandola F N, Moskewicz M W, Ashraf K, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and < 1 MB model size[EB/OL]. arXiv: 1602.07360. (2016-02-24)[2023-02-20]. https://arxiv.org/abs/1602.07360.
[14]
Howard A G, Zhu M, Chen B, et al. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL]. arXiv: 1704.04861. (2017-04-17)[2023-02-20]. https://arxiv.org/abs/1704.04861.
[15]
Sandler M, Howard A, Zhu M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 4510-4520. DOI: 10.1109/CVPR.2018.00474.
[16]
Ma N N, Zhang X Y, Zheng H T, et al. ShuffleNet V2: practical guidelines for efficient cnn architecture design[C]//European Conference on Computer Vision. Cham: Springer, 2018: 122-138. DOI: 10.1007/978-3-030-01264-9_8.
[17]
Zhang X Y, Zhou X Y, Lin M X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 6848-6856. DOI: 10.1109/CVPR.2018.00716.
[18]
Han K, Wang Y H, Tian Q, et al. GhostNet: more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 1577-1586. DOI: 10.1109/CVPR42600.2020.00165.
[19]
Ge Z, Liu S, Wang F, et al. YOLOX: exceeding YOLO series in 2021[EB/OL]. arXiv: 2107.08430. (2021-07-18)[2023-02-20]. https://arxiv.org/abs/2107.08430.
[20]
Law H, Deng J. CornerNet: detecting objects as paired keypoints[C]//European Conference on Computer Vision. Cham: Springer, 2018: 765-781. DOI: 10.1007/978-3-030-01264-9_45.
[21]
Tian Z, Shen C H, Chen H, et al. FCOS: fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). October 27-November 2, 2019, Seoul, Korea (South). IEEE, 2020: 9626-9635. DOI: 10.1109/ICCV.2019.00972.
[22]
刘方坚, 李媛. 基于视觉显著性的SAR遥感图像NanoDet舰船检测方法[J]. 雷达学报, 2021, 10(6): 885-894. Doi:10.12000/JR21105
[23]
Liu S, Qi L, Qin H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 8759-8768. DOI: 10.1109/CVPR.2018.00913.
[24]
张晓玲, 张天文, 师君, 等. 基于深度分离卷积神经网络的高速高精度SAR舰船检测[J]. 雷达学报, 2019, 8(6): 841-851. Doi:10.12000/JR19111
[25]
Song G L, Liu Y, Wang X G. Revisiting the sibling head in object detector[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 11560-11569. DOI: 10.1109/CVPR42600.2020.01158.
[26]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018, Salt Lake City, UT, USA. IEEE, 2018: 7132-7141. DOI: 10.1109/CVPR.2018.00745.
[27]
Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//European Conference on Computer Vision. Cham: Springer, 2018: 3-19. DOI: 10.1007/978-3-030-01234-2_1.
[28]
李松, 魏中浩, 张冰尘, 等. 深度卷积神经网络在迁移学习模式下的SAR目标识别[J]. 中国科学院大学学报, 2018, 35(1): 75-83. Doi:10.7523/j.issn.2095-6134.2018.01.010
[29]
Lee Y, Park J. CenterMask: real-time anchor-free instance segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 13903-13912. DOI: 10.1109/CVPR42600.2020.01392.
[30]
Li D, Hu J, Wang C H, et al. Involution: inverting the inherence of convolution for visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 20-25, 2021, Nashville, TN, USA. IEEE, 2021: 12316-12325. DOI: 10.1109/CVPR46437.2021.01214.
[31]
Feng C J, Zhong Y J, Gao Y, et al. TOOD: task-aligned one-stage object detection[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). October 10-17, 2021, Montreal, QC, Canada. IEEE, 2022: 3490-3499. DOI: 10.1109/ICCV48922.2021.00349.
[32]
Xu S, Wang X, Lv W, et al. PP-YOLOE: an evolved version of YOLO[EB/OL]. arXiv: 2203.16250. (2022-03-20)[2023-02-20]. https://arxiv.org/abs/2203.16250.
[33]
Rezatofighi H, Tsoi N, Gwak J, et al. Generalized intersection over union: a metric and a loss for bounding box regression[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 15-20, 2019, Long Beach, CA, USA. IEEE, 2020: 658-666. DOI: 10.1109/CVPR.2019.00075.
[34]
Zhang Y-F, Ren W, Zhang Z, et al. Focal and efficient IOU loss for accurate bounding box regression[EB/OL]. arXiv: 2101.08158. (2021-01-20)[2023-02-20]. https://arxiv.org/abs/2101.08158.
[35]
谭显东, 彭辉. 改进YOLOv5的SAR图像舰船目标检测[J]. 计算机工程与应用, 2022, 58(4): 247-254. Doi:10.3778/j.issn.1002-8331.2108-0308
[36]
Zhang T W, Zhang X L, Li J W, et al. SAR ship detection dataset (SSDD): official release and comprehensive data analysis[J]. Remote Sensing, 2021, 13(18): 3690. Doi:10.3390/rs13183690
[37]
Molchanov P, Tyree S, Karras T, et al. Pruning convolutional neural networks for resource efficient transfer learning[EB/OL]. arXiv: 1611.06440. (2016-11-19)[2023-02-20]. https://arxiv.org/abs/1611.06440.
[38]
Wang Y Y, Wang C, Zhang H, et al. A SAR dataset of ship detection for deep learning under complex backgrounds[J]. Remote Sensing, 2019, 11(7): 765. Doi:10.3390/rs11070765