舰船科学技术  2024, Vol. 46 Issue (23): 174-178    DOI: 10.3404/j.issn.1672-7649.2024.23.031   PDF    
基于深度特征协作的舰船目标分类方法
李英1, 李至立2, 胡载萍3, 江练金1, 郑红3, 刘兴惠2     
1. 招商局海洋装备研究院有限公司,广东 深圳 518067;
2. 山东纬横数据科技有限公司,山东 烟台 264000;
3. 中船凌久高科(武汉)有限公司,湖北 武汉 430070
摘要: 针对现有的舰船目标分类方法对舰船细粒度分类性能不佳、舰船图像特征学习效果差的问题,提出一种深度特征协作的舰船目标分类算法。首先,搭建双分支ResNet-18网络结构;然后引入对比学习的思想,实现双分支特征信息互补,丰富舰船图像特征学习;最后,通过特征协作模块,对学习到的双分支对比特征进行深度信息整合,以最小化分类损失,进而提高分类结果。在舰船图像数据集FGSC-23上的大量实验结果表明,对23类细粒度舰船图像分类平均准确率达到83.56%。
关键词: 深度特征协作     对比学习     舰船目标分类    
A ship target classification method based on deep feature collaboration
LI Ying1, LI Zhili2, HU Zaiping3, JIANG Lianjin1, ZHENG Hong3, LIU Xinghui2     
1. China Merchants Marine Equipment Research Institute Co., Ltd., Shenzhen 518067, China;
2. Shandong Weiheng Data Technology Co., Ltd., Yantai 264000, China;
3. China Shipbuilding Lingjiu High Tech (Wuhan) Co., Ltd., Wuhan 430070, China
Abstract: A deep feature collaborative ship target classification algorithm is proposed to address the issues of poor performance in fine-grained ship classification and poor learning of ship image features in existing ship target classification methods. Firstly, build a dual branch ResNet-18 network structure; Then, the idea of contrastive learning is introduced to achieve complementary feature information between two branches, enriching the learning of ship image features; Finally, through the feature collaboration module, the learned dual branch contrastive features are deeply integrated to minimize classification loss and improve classification results. A large number of experimental results on the ship image dataset FGSC-23 show that the average accuracy of classifying 23 types of fine-grained ship images reaches 83.56%.
Key words: deep feature collaboration     comparative learning     ship target classification    
0 引 言

舰船目标分类(Ship Target Classification,STC)是海军装备现代化发展中的重要研究任务之一。随着航海技术的不断进步和舰船数量的增加,准确地分类舰船目标对于海上作战、模拟推演、航行安全以及情报测量等任务具有重要意义[1]。舰船图像目标分类作为计算机视觉领域的研究热点之一,旨在利用计算机视觉技术,自动分类不同类型的舰船目标[2-3]。舰船目标分类研究至今,技术效果远远未达到能够普及的地步,但已成为海上作战系统的重要技术组成部分,因此,STC拥有很大的研究价值与提升空间。

STC任务过程包括图像预处理、分类模型训练以及目标分类。舰船图像数据通常由海上遥感图像或雷达图像获取[1],舰船目标形态各异且种类繁多,且舰船整体形状大致相同,因此,STC任务属于计算机视觉图像处理中的细粒度图像分类任务[4-5]。现有的大多数细粒度图像分类算法,基于卷积神经网络(Convolutional Neural Network, CNN)的各种变体,通过引入注意力机制来提高网络对特征的学习能力,以此提高分类结果[6-8]。但单通道的网络模型结构,难以学习更丰富的图像特征,而细粒度图像分类任务相较于传统的图像分类任务,需要更为丰富的特征描述,以区分不同但相似的多类目标。

为了解决上述问题,许多双分支、多特征协作的网络框架被提出,旨在增强对图像特征的描述,此类问题可被看做深度长尾学习研究中的信息增强问题[9]。邹承明等[10]基于CNN,提取尺度不变特征转换的多组特征作为最终的特征表示,以提升细粒度图像分类的结果。王阳等[11]提出双线性残差注意力网络,搭建双分支残差网络并引入混合注意力机制,以获取更为丰富的特征。Cui等[12]搭建三分支残差网络,优化一个主要分支,另外2个残差分支逐渐增强,提高细粒度图像分类效果。Li等[13]提出双分支双注意力机制网络,对不同分支引入混合注意力模块,提取细化特征。Zhang等[14]引入知识蒸馏技术,通过教师模型减少特征域间的损失以及分类损失,达到集成特征的目的,以提高细粒度图像分类的结果。

上述方法相较于单通道网络结构,侧重关注于不同特征组间的信息差,在最小化特征组间特征差异的同时,最小化分类损失,能够有效地提升网络的特征学习能力,获得了很好的细粒度图像分类结果[15]。然而,丰富的特征需要特征组间信息互为补充,也即最大化特征组间的不相似性,现有的多特征协作网络框架往往忽略了特征组间不相似性、多样性重要信息,导致特征学习不充分,细粒度分类结果提升不显著。

为了解决此问题,本文引入对比学习的思想策略[16-18],提出深度特征协作的舰船目标分类方法,在最大化双分支特征间不相似性信息的同时,最小化分类损失,旨在获取更为丰富的舰船图像特征信息,提高细粒度STC结果。首先,基于ResNet-18网络[19]作为骨架,搭建双分支ResNet-18网络结构。然后,引入对比学习的策略,最小化双分支特征间的余弦相似度,以实现特征分支间的信息互补,丰富特征信息。最后,将对比的多样特征通过深度特征协作模块实现特征信息的整合,以最小化分类损失。

1 基于深度特征协作的舰船目标分类

本文提出的深度特征协作的舰船目标分类方法框架如图1所示。舰船图像输入网络,首先经由双分支ResNet-18,每个分支由4组残差块构成,每组残差块学习到的特征称之为过程特征。然后,利用余弦相似度对双分支的过程特征进行对比学习,实现分支特征的信息互补,学习生成多样特征。接下来对学习到的多样特征进行深度特征协作学习,进行多样性特征信息整合,整合后的多样性特征分别输入下一组残差块进行学习。最后,通过全连接层,将多样特征映射至标签空间,实现舰船分类任务。

图 1 深度特征协作算法示意图 Fig. 1 Diagram of deep feature collaboration algorithm
1.1 多样特征生成

为了获得多样性特征,本文引入对比学习(Contrastive Learning, CL)[16]的思想策略,通过最小化分支间特征的相似程度,学习得到不相似性双分支ResNet-18特征,旨在获得更丰富的舰船特征信息。在对比学习任务中,余弦相似度能够用来衡量特征间的相似性[17],因此,最小化相同样本的增广分支间特征的余弦相似度,能够实现分支间特征表达能力的互补,进而达到对比特征学习的目的[18],这个过程称之为不相似性对比学习。

首先,利用Torchvision中在ImageNet数据集[20]上预训练的ResNet-18作为所提模型的网络骨架,实现双分支网络特征提取。ResNet引入“残差块”的概念,从而避免了梯度消失问题。ResNet-18包含4组残差块,4种卷积操作,如图1所示,不同颜色代表不同组残差块,每组残差块由2个残差块结构组成。记不同组残差块的输出为$ {F}_{n}^{m} $,其中$ n\in \left\{\mathrm{1,2}\right\} $代表不同的特征分支,$ m\in \{\mathrm{1,2},\mathrm{3,4}\} $代表第m组残差块。然后,对输入双分支ResNet-18进行分支间特征表达能力的互补学习,最小化分支间特征的余弦相似度,公式如下:

$ {L}_{\mathrm{cos}}^{j}=\frac{1}{N}{\displaystyle \sum \mathrm{cos}({F}_{1}^{m{'}},{F}_{2}^{m{'}})}=\frac{{F}_{1}^{m{'}}\cdot{F}_{2}^{m{'}}}{\left|{F}_{1}^{m{'}}\right|\left|{F}_{2}^{m{'}}\right|} 。$ (1)

式中:$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $为余弦相似度,$ j\in \{\mathrm{1,2},\mathrm{3,4}\} $$ \left|\cdot \right| $为向量的模长;N为批次大小;$ {F}_{1}^{m{'}} $$ {F}_{2}^{m{'}} $分别为过程特征$ {F}_{1}^{m} $$ {F}_{2}^{m} $展平后的特征向量。

经过式(1)最小化了双分支ResNet-18特征间的余弦相似性,实现了双分支特征$ {F}_{1}^{m} $$ {F}_{2}^{m} $间的信息互补,更加丰富地描述了舰船的特征信息,最终生成了多样特征。

1.2 深度特征协作

为了将生成的多样特征信息进行整合,提高模型的性能及准确率,进一步对学习到的双分支多样特征进行深度特征协作[21]学习。以第4组残差块$ {\rm{ResB}}_{4} $的深度特征协作模块结构为例,如图2所示。

图 2 $ {\rm{ResB}}_{4} $的深度特征协作模块结构 Fig. 2 Deep feature collaboration module structure of $ {\rm{ResB}}_{4} $

首先,对残差组$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{4} $经过对比学习得到的多样特征$ {F}_{1}^{4} $$ {F}_{2}^{4} $分别进行两层卷积操作,卷积核大小为3×3,卷积核个数为512,然后进行Concat操作将2组特征进行连接,输出特征维数则变为1024=512+512。接着对拼接后的特征进行两层卷积操作,卷积核大小为3×3,卷积核个数分别为1024、512。最终,得到双分支$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{4} $的多样性协作特征$ {F}_{\mathrm{c}\mathrm{o}\mathrm{l}} $。注意,由于残差组$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{4} $是双分支ResNet-18的最后一组残差块,因此,该组深度特征协作模块只输出一组$ {F}_{\mathrm{c}\mathrm{o}\mathrm{l}} $特征,对于前3组$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{m} $的深度特征协作特征模块,需要输出2组$ {F}_{\mathrm{c}\mathrm{o}\mathrm{l}} $特征,进行下一组$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{m} $双分支多样特征的学习。

1.3 舰船目标分类

通过深度特征协作模块整合后的特征输入全连接层(Fully Connected, FC),将特征表示映射至样本的标签空间,所提模型采用交叉熵损失作为分类损失,计算公式如下:

$ L_{\mathrm{cls}}=-\frac{1}{N}\sum\limits_i^{ }\sum\limits_{c=1}^My_{ic}log(p_{i_{ }c})。$ (2)

其中:$ {L}_{\mathrm{c}\mathrm{l}\mathrm{s}} $为分类损失;M为类别总数;本文实验中M=23;$ c $为第c类样本;N为批次大小;y为标签;p为预测概率;i为第i个样本。模型最终损失函数计算公式如下:

$ L_{\text{total}}=L_{\cos}+L\mathrm{_{cls}}。$ (3)

式中:$ {L}_{\rm total} $为模型的最终损失函数;$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}} $为模型的余弦相似度损失,计算公式如下:

$ {L_{\cos }} = \frac{1}{J}\sum\limits_{j = 1}^J {{L^j}_{\cos }} 。$ (4)

式中:J为余弦相似度$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $的总数量;j为第j个余弦相似度损失,且$ j\ne m $

通过计算式(3),能够最小化模型最终损失函数$ {L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}} $,在最小化分支间特征的余弦相似度的同时,最小化分类损失,以学习更为丰富的多样性深度协作特征,提高STC任务的结果。

2 实 验 2.1 数据集

本文实验采用FGSC-23数据集[22],FGSC-23包括23个细粒度分类的船舶类别,总共有 4081张图片,其中3256张图片属于训练集,其余825张图片属于测试集。该数据集中每个类别的训练图像数量从17张到434张不等。

2.2 实验配置

本文实验使用2张RTX 2080 Ti GPU作为加速运算单元,在Ubuntu操作系统上,本实验使用的Python版本为3.8,采用Pytorch作为深度学习框架,版本为1.7.1,并采用Torchvision包,版本为0.8.2,其中包含丰富的视觉图像处理工具和预训练模型参数,本实验在开始时加载了Torchvision提供的ResNet-18预训练参数。实验将批次大小(batch_size)设置为100,采用Adam优化器,学习率设置为5e-4,同时采用StepLR机制在每100轮次训练后将学习率缩小至0.8,共训练500轮次。实验对训练图像进行了图像增强操作,具体而言,先将图片固定为224×224大小,之后采用了随机水平翻转和随机旋转操作。验证和测试图片没有用到图像增强,只将图片固定到了224×224大小。

2.3 实验结果与分析 2.3.1 多样特征生成模块分析

本文所提模型中,$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $在不同残差组$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{\mathrm{m}} $位置会对模型分类结果产生影响,模型分析实验结果见表1,其中,baseline代表在双分支ResNet-18中无$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $插入,out4表示$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $插入在残差组$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{4} $的输出位置,out43表示$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $插入在$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{3} $$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{4} $的位置,out432表示$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $插入在残差组$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{2} $$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{3} $$ {\mathrm{R}\mathrm{e}\mathrm{s}\mathrm{B}}_{4} $的位置。从表1可知,$ {L}_{\mathrm{c}\mathrm{o}\mathrm{s}}^{j} $在模型设置out4中舰船分类整体表现最好,因此,本文所提模型基于out4结构。

表 1 模型分析实验结果 Tab.1 Experimental results of model analysis
2.3.2 舰船图像分类算法对比

将本文提出的深度特征协作算法与多个最新的特征协作算法在FGSC-23数据集上进行实验结果对比,包括:1)标签分布感知边界(Label Distribution Aware Margin, LDAM)[23]:基于一种理论原则的标签分布感知边际损失,最小化基于边界的泛化界;2)路由不同专家(Routing Diverse Experts, RIDE)[24]:对不同的数据组进行原则性的模型偏差和方差分析;3)残差学习的长尾识别(Residual Learning for Long-tailed, ResLT )[12]:设计了有效的残差融合机制,优化一个主要分支,另外2个残差分支逐渐增强;4)平衡知识蒸馏(Balanced Knowledge Distillation, BKD)[14]:通过最小化与教师模型的实例平衡分类损失和类平衡蒸馏损失的组合来训练学生模型。表2为4种对比方法与本文所提方法在23种舰船图像分类任务中的表现。

表 2 不同方法在FGSC-23数据集的实验结果 Tab.2 Experimental results of different methods on the FGSC-23 dataset

表2可知,本文所提方法(Ours)的平均分类率达到了83.56%,相较于分类结果最好的对比方法BKD,平均分类率提升了17.62%,具有较高的分类表现。BKD方法与现有大多数双分支结构特征协作方法的解决思路相近,通过权衡不同策略下特征组的分类损失,使得特征组之间的信息相互增益,以此提高分类结果。与对比方法LDAM、RIDE、ResLT、BKD不同,本文所提方法(Ours)考虑到丰富的特征信息应该建立在低冗余、低相似度的基础上,引入对比学习的思想,通过最小化特征分支间的余弦相似度,使得双分支特征间的信息不相似,实现不同分支特征组间的特征相互补充,提供更丰富的特征信息,以此提高舰船分类任务的结果。

3 结 语

本文提出一种深度特征协作的舰船目标分类方法模型,将对比学习的思想策略与深度特征协作框架相结合,实现分支间特征信息的互补以及对比信息的深度融合,以提高细粒度舰船图像分类任务的结果。在FGSC-23数据集中的大量实验结果表明,本文提出的方法相较于已有的大多数多特征协作深度网络模型,能够获得更好的细粒度舰船图像分类结果,平均分类率达到了83.56%,分类性能显著提升。

本文方法在最小化分支特征间相似性的同时,忽略了分支特征间的相似性信息,存在一定局限性。因此,在未来将探索如何将相似性与不相似性模块相结合作为多特征组间的双重度量,学习更有助于细粒度舰船分类的判别特征信息,以进一步提高模型的分类性能。

参考文献
[1]
LI B, XIE XY, WEI XX, et al. Ship detection and classification from optical remote sensing images: A survey[J]. Chinese Journal of Aeronautics, 2021, 34(3): 145-163. DOI:10.1016/j.cja.2020.09.022
[2]
郭璟瑶. 基于视觉传达的模糊舰船图像目标分类检测[J]. 舰船科学技术, 2023, 45(9): 172-175.
GUO J Y. Fuzzy ship image target classification and detection based on visual communication[J]. Ship Science and Technology, 2023, 45(9): 172-175. DOI:10.3404/j.issn.1672-7649.2023.09.038
[3]
李庆忠, 徐相玉. 基于改进YOLOV3-Tiny的海面船舰目标快速检测[J]. 计算机工程, 2021, 47(10): 283-289.
[4]
HUANG L, WANG F, ZHANG Y, et al. Fine-grained ship classification by combining CNN and swin transformer[J]. Remote Sensing, 2022, 14(13): 3087. DOI:10.3390/rs14133087
[5]
WEI X, XIONG Z, and CUI Y. An explainable attention network for fine-grained ship classification using remote-sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-14.
[6]
罗建豪, 吴建鑫. 基于深度卷积特征的细粒度图像分类研究综述[J]. 自动化学报, 2017, 43(8): 1306-1318.
[7]
WEI X, SONF Y, AODHA O, et al. Fine-grained image analysis with deep learning: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(12): 8927-8948.
[8]
黄港, 郑元林, 廖开阳, 等. 互补注意多样性特征融合网络的细粒度分类[J]. 中国图象图形学报, 2023, 28(8): 2420−2431.
[9]
ZHANG Y, KANG B, HOOI B, et al. Deep long-tailed learning: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
[10]
邹承明, 罗莹, 徐晓龙. 基于多特征组合的细粒度图像分类方法[J]. 计算机应用, 2018, 38(7): 1853-1856.
[11]
王阳, 刘立波. 面向细粒度图像分类的双线性残差注意力网络[J]. 激光与光电子学进展, 2020, 57(12): 171-180.
[12]
CUI J, LIU S, TIAN Z, et al. Reslt: Residual learning for long-tailed recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3695-3706.
[13]
LI R, ZHENG S, DUAN C, et al. Classification of hyperspectral image based on double-branch dual-attention mechanism network[J]. Remote Sensing, 2023, 12(3): 582.
[14]
ZHANG S, CHEN C, HU X, et al. Balanced knowledge distillation for long-tailed learning[J]. Neurocomputing, 2023, 527: 36-46. DOI:10.1016/j.neucom.2023.01.063
[15]
CHANG D, DING Y, XIE J, et al. The devil is in the channels: Mutual-channel loss for fine-grained image classification[J]. IEEE Transactions on Image Processing, 2020, 29: 4683-4695. DOI:10.1109/TIP.2020.2973812
[16]
LE-KHAC P H, HEALY G, SMEATON A F. Contrastive representation learning: A framework and review[J]. IEEE Access, 2020, 8: 193907-193934. DOI:10.1109/ACCESS.2020.3031549
[17]
CHEN X, HE K. Exploring simple siamese representation learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[18]
张重生, 陈杰, 李岐龙, 等. 深度对比学习综述[J]. 自动化学报, 2023, 49(1): 15-39.
[19]
HE K, ZHANG X, REN S, et al, Deep residual learning for image recognition[J]. in Proc. IEEE Conf. Comput. Vis. Pattern Recognit, 2016, 770–778.
[20]
DENG J, DONG W, SOCHER R, et al, ImageNet: A large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL, USA, 2009.
[21]
ZHENG H, HU Z, YANG L, et al. Multi-feature collaborative fusion network with deep supervision for SAR ship classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-14.
[22]
ZHANG X H, LV Y F, YAO L B, et al. A new benchmark and an attribute-guided multilevel feature representation network for finegrained ship classification in optical remote sensing images[J]. IEEE J. Sel. Topics Appl. Earth Observ. Remote Sens., 2020, 13: 1271-1285. DOI:10.1109/JSTARS.2020.2981686
[23]
CAO K, WEI C, GAIDON A, et al. Learning imbalanced datasets with label-distribution-aware margin loss[J]. Advances in Neural Information Processing Systems, 2019, 32: 1-12.
[24]
WANG X, LIAN L, MIAO Z, et al. Long-tailed recognition by routing diverse distribution-aware experts[C]//International Conference on Learning Representations. 2021.