舰船科学技术  2025, Vol. 47 Issue (16): 122-127    DOI: 10.3404/j.issn.1672-7649.2025.16.019   PDF    
基于特征融合和注意力机制的轻量化水声目标识别
李晶1, 张兴龙1, 张立立1, 魏薇1, 谭洪鑫2, 于沛3, 李筱林4     
1. 北京石油化工学院 信息工程学院,北京 102617;
2. 中国人民解放军 93184部队,北京 100076;
3. 中国消防救援学院,北京 102202;
4. 中国人民解放军 94789部队,江苏 南京 210018
摘要: 水声目标识别技术在舰船航行安全、海洋动物保护、水下态势智能感知等领域均有重要应用价值。针对水声目标识别方法精度不足及嵌入式模块部署困难等问题,本文提出一种基于差分特征融合和注意力机制改进的轻量化水声目标识别模型。该模型采用CNN-Transformer混合架构,将原始音频信号中提取的梅尔倒谱系数及其一阶、二阶差分特征组成三通道融合特征作为模型的输入,并引入Shuffle Attention模块改进MobileViT模型,利用迁移学习技术优化模型权重。实验结果表明,在公开的ShipsEar数据集上,本文提出的方法测试精度达到98.49%,同时模型参数量仅为952.79 K,均优于其他方法。
关键词: 水声目标识别     特征融合     轻量化     迁移学习     注意力机制    
A lightweight underwater acoustic target recognition based on feature fusion and attention mechanism
LI Jing1, ZHANG Xinglong1, ZHANG Lili1, WEI Wei1, TAN Hongxin2, YU Pei3, LI Xiaolin4     
1. School of Information Engineering, Beijing Institute of Petrochemical Technology, Beijing 102617, China;
2. No. 93184 Unit of PLA, Beijing 100076, China;
3. China Fire and Rescue Institute, Beijing 102202, China;
4. No. 94789 Unit of PLA, Nanjing 210018, China
Abstract: Underwater acoustic target recognition technology has significant application value in some fields such as ship navigation safety, marine animal protection and intelligent perception of underwater situation. This paper proposes an improved lightweight underwater acoustic recognition model based on delta feature fusion and attention mechanism to address the problems of insufficient accuracy and difficulty in embedded deployment. The model employs a CNN-Transformer hybrid architecture. Mel Frequency cepstral coefficients, delta and delta-delta features are extracted to form a three-channel fused input feature. The MobileViT model is enhanced with the Shuffle Attention block. Also, the transfer learning technique is applied to optimize its weights. The experimental results show that the proposed method achieves the testing accuracy of 98.49% on the ShipsEar dataset with the parameter of 952.79 K, which is superior to other methods.
Key words: underwater target recognition     feature fusion     lightweight     transfer learning     attention mechanism    
0 引 言

水声目标识别技术在海洋资源开发与海军作战等方面具有广泛的应用,如水下航行探测、水生动植物保护、港口安全保卫等。其中,利用相关技术识别舰船类型可以为航行安全提供重要保障,也具有较为重要的军事意义。

传统的水声目标识别方法主要训练有素的声呐员人工观察、听测声呐设备接收到的声信号和图像信号,并在此基础上结合积累的经验完成对目标属性的人工识别,识别的主观性较强,识别精度可靠性不高[1]。随着人工智能的发展,使用特征提取技术并结合深度学习对水声信号进行分类成为海洋领域的研究热点[27]。由于水声信号的复杂性以及海洋混响的影响,传统的单一特征无法涵盖信号的全部信息,导致模型难以学习到信号的有效特征。Liu等[4]使用梅尔谱图及其一阶和二阶特征来构建水声信号的三维特征;Yang等[5]、张钇等[6]采用三阶动态MFCC差分特征作为模型的输入;Wu等[7]融合三阶对数梅尔谱图特征进行特征提取,提升水声信号分类效率的同时降低计算成本。无论单一时频图还是多种信号融合,都是将声学信号变换成图像。因此,借鉴图像分类的方法是水声识别的一个重要研究方向。传统的基于卷积的图像分类方法对于长距离依赖问题的处理存在困难,导致对全局信息的捕捉不够全面。Transformer架构通过自注意力机制直接捕捉图像中远距离的依赖关系,有效弥补了传统卷积神经网络在局部感受野和逐层卷积操作方面的局限性,非常适合复杂场景下的分类问题[8]。Li等[9]将Transformer结构引入水声目标识别任务,通过自注意力机制展示了模型在水下声学信号分类的优越性能。Xu等[10]在ResNet18的残差连接后添加自注意力层,用以提取水声信号中的关键特征。Yao等[11]结合MobileNet和Transformer架构提出Mobile_ViT混合网络。采用轻量化卷积网络,并在其中嵌入坐标注意力机制,以增强输入的局部细节,捕捉信号的长期时间依赖和精确的频域关系。考虑到实际部署的情况下,水下无人潜航器自身存储和计算资源有限,以上模型参数量较大,不适用于水下设备的轻量化部署。减少模型参数量可以降低模型对存储空间的需求并且减少模型在推理过程中的计算量,实现更快速度地推理以方便实时目标探测。Lyu等[12]、Yang等[5]将轻量级注意力机制与ResNet网络相结合,提出了轻量化的水声识别模型,在保持识别精度的前提下减少了参数量。Mehta等[13]提出了一种轻量级的视觉转化模型MobileViT,通过结合卷积神经网络和视觉变换器的优势,能够在轻量级的结构中进行空间局部特征学习和全局信息处理。在保持较低计算成本和参数量的同时,显著提高了识别准确率和处理能力。使其在多种视觉任务和数据集上表现出色,特别适合资源有限的水下应用环境。

综上所述,水声目标识别存在以下问题:一是单一特征无法充分捕捉信号的内在特性,导致模型的识别准确度有待提高;二是模型训练过程中涉及的参数较多,增加了计算的复杂性。本文提出一种基于差分特征融合和注意力机制的轻量化水声目标识别方法。首先,通过提取MFCC及其一阶、二阶差分在时间轴上拼接构成融合差分特征,之后在原始的MobileNet V2模块中的倒残差结构中添加Shuffle Attention(SA)注意力,最后应用迁移学习技术,将图像数据集上的权重进行迁移,提高模型的识别精度。

1 基于特征融合和注意力机制的轻量化水声目标识别

本文所提出的基于差分特征融合的轻量化水声识别模型如图1所示。本框架主要包括差分融合特征提取和基于注意力的轻量化模型构建。

图 1 整体网络框架 Fig. 1 The overall framework
1.1 差分特征融合

差分融合特征提取过程首先对音频信号进行预加重,然后将其分帧并应用窗函数。对每帧进行傅里叶变换以获取频谱,再通过梅尔滤波器组将频谱转换到梅尔频率域,计算对数功率谱并对其进行离散余弦变换,得到MFCC特征。在此基础上依次提取其一阶和二阶差分特征,一阶差分通过计算相邻帧之间的差异性,反映信号在相邻时间点之间的变化速度,用于描述信号短时间内变化的剧烈程度及其变化的特征。二阶差分在一阶差分的基础上进一步计算相邻时间点的差异。一阶差分和二阶差分特征可以更好地捕捉信号的变化和动态特性,进一步丰富特征信息。将上述得到的MFCC、一阶差分、二阶差分特征在时间维度进行拼接操作,得到差分融合特征。将得到的单通道差分融合特征在通道维度上复制三份,最终组成多通道差分融合特征。

1.2 基于注意力机制的轻量化水声目标识别 1.2.1 改进后的MV2模块

MobileViT主要由MV2模块和MobileViT模块两部分串联组成,其中MV2模块来源于MobileNet V2。MV2模块主要在MV1的基础上引入了线性瓶颈结构和倒残差来提高网络的表征能力。在倒残差模块中,将MobileNet V1中的3×3的标准卷积替换为Depthwise卷积。在减少了计算量的同时,以便后续增加通道数提升模型的效果。在MobileNet V2中,首先使用1×1卷积层来增加通道数,然后进行Depthwise 3×3卷积操作,最后再使用1×1卷积层来降低通道数,形成“中间宽两头窄”的倒残差结构。这种设计保证了两端的通道数保持较小,使得1×1卷积层在通道数的升降转换过程中的计算量并不大。而中间阶段的通道数虽然较多,但由于Depthwise卷积的高效性,其计算量也得到了有效控制。通过在原始的MobileNet V2倒残差块的3×3卷积后添加轻量级的SA模块[14],能够更好地捕捉输入特征在通道和空间上的特征,改进后的MV2结构如图2所示。

图 2 改进前后的MV2结构 Fig. 2 The improved MV2 structure

在卷积块中添加注意力机制可以有效提高模型的识别准确率。SA模块结构如图3所示。SA模块有效地整合了空间和通道注意力机制,即保证了提升性能的同时,又节省了计算的开销。SA模块首先对输入的特征进行分组,对每一组特征进行划分操作,分成2个分支,分别计算通道注意力和空间注意力。将2个分支得到的结果拼接到一起,在通道维度上进行合并,保持和输入特征图尺寸一致。最后,用一个Channel_Shuffle算子在通道维度上进行重排。

图 3 SA模块结构 Fig. 3 The structure of SA
1.2.2 MobileViT模块

MobileViT模块由局部特征编码、全局特征编码和特征融合3个子模块组成。MobileViT模块的结构如图4所示。C×H×W尺寸的输入特征图通过一个3×3的卷积核得到局部表征,再通过1×1卷积将通道数调整为d,将特征映射到高维空间。全局表征通过展开操作,对应位置的点拼成一个序列,再输入Transformer,Transformer Encoder采用同ViT相同的结构,具体结构如图5所示。通过Transformer的编码结构后,输出经过折叠操作还原回输出特征图。通过1×1卷积调整通道数至原始输入通道数C,并使用残差连接与原始输入的C×H×W的特征图进行拼接,调整通道数至2C。再通过一个3×3的卷积对拼接的特征图进行特征融合,最终输出C×H×W的特征图,保持输入和输出特征图维度相同。

图 4 MobileViT模块示意图 Fig. 4 Schematic diagram of MobileViT module

图 5 Transformer encoder结构图 Fig. 5 Transformer encoder structure
1.3 基于迁移学习的参数微调

迁移学习是指将从一个任务或领域中学到的知识和经验应用到一个新的但具有相似任务或领域中的技术。本文将在ImageNet-1K的图像数据集上预训练好的权重迁移至水声目标识别任务上。具体迁移学习流程如图6所示。

图 6 迁移学习流程 Fig. 6 The process of transfer learning

由于模型在训练过程中前几层学习到的特征一般通用,而后几层提取到的特征较为深入,抽象程度较高,一般具有专一性,需要根据特定任务重新训练进行微调。所以,可以将源数据集已经训练好的模型权重迁移至目标数据集。微调的实现过程为:首先加载在图像数据集上预训练好的权重至目标模型上,冻结输出层以外层的权重,从头训练分类层。训练完成后,解冻模型的其他层,在原有图像数据集权重的基础上继续训练,让模型自适应学习权重,实现对模型的微调。

2 实验数据 2.1 数据集

本文在西班牙维戈大学开源的ShipsEar[15]数据集上验证所提出方法的有效性。该数据集由时长在15 s~10 min的90条音频组成,分为12种小类,包括了11种不同排水量的船舶和环境噪声。在此基础上,依据船型尺寸的大小,将11种船舶分为A、B、C、D 4个大类和E类环境噪声共5个分类类别。数据集的具体分类情况如表1所示。

表 1 ShipsEar数据集分类类别 Tab.1 ShipsEar dataset classification categories
2.2 数据预处理

由于音频过长,不利于模型学习,并且会造成不必要的内存消耗。为方便训练,将2组数据集的原始音频划分为5 s一个的片段。对数据集按照7∶3的比例进行随机划分训练集和测试集。ShipsEar数据集划分后数据集总数为2217。其中,训练集1554个,测试集663个。详细划分信息如表2所示。

表 2 ShipsEar数据集详细划分信息 Tab.2 ShipsEar dataset detailed segmentation information

分别对每条音频做如下预处理:

步骤1 由于音频原始采样率过高,为避免冗余信息过多,对原始音频统一降采样到22050 Hz。

步骤2 对每条降采样后的音频提取MFCC特征。特征维度设置为40,提取得到特征维度为(40,216)。

步骤3 在得到MFCC特征的基础上,分别提取信号的一阶差分和二阶差分。将原始的MFCC特征及其一阶、二阶特征在时间轴上进行拼接操作,得到差分融合特征,特征维度为(40,648)。

步骤4 仿照图片RGB三通道的设计,为匹配模型输入,将步骤3中得到的特征在通道维度上复制3次,组成shape为(3,40,648)的三通道数据作为后续模型的输入。

步骤5 对三通道数据进行随机数据增强,提高模型的泛化能量。分别对步骤4中的特征进行时移数据增强和加噪数据增强。具体操作为在原有数据的基础上,沿时间轴向右移动生成新的样本和随机加入高斯白噪声。

3 实验结果分析 3.1 实验设置

实验环境使用Pytorch 1.11作为深度学习框架,使用librosa 0.10作为音频特征提取后端。在配置cpu为Intel酷睿i9-13980HX@5.6 GHz,内存32 G,显卡RTX4060 8 G的PC机上进行训练。模型训练过程中,初始学习率为0.001,选用Adam优化器,交叉熵损失函数,评价指标为Accuracy,批训练大小为32,训练轮数设置为500。在训练策略上,设置学习率为固定步长衰减,衰减步长设置为30,衰减因子为0.1;为避免过拟合,引入早停机制,patience设置为20。

3.2 实验结果

为验证本文提出方法的有效性,绘制不同改进方法在测试集上的准确率曲线,如图7图8所示。

图 7 实验结果对比 Fig. 7 Comparison of experimental results

图 8 迁移学习微调对比 Fig. 8 Comparison of fine-tuning in transfer learning

图7可知,图中使用MFCC的原始模型(以下称为基线)最早结束训练,准确率最低,在第37轮准确率达到92.46%。分别使用差分融合特征和改进后的MobileViT的准确率一直领先于基线。由于采用了手工特征和注意力机制,在前20轮的训练过程中,分别使用差分融合特征和改进后的MobileViT的上升幅度较大,这说明模型可以更加快速地学习到音频中的有效信息。其最高准确率分别为94.87%和96.23%。同时使用差分融合特征和改进后的MobileViT的曲线前期略低于分别使用差分融合特征和改进后的MobileViT,但后期准确率有小幅提升,在第42轮准确率达到97.13%。改进后的曲线相较基线震荡幅度较小,上升更加迅速,训练过程中到达最高准确率的迭代次数于基线相比无明显增加,但准确率提升较大。

在使用差分融合特征和改进的MobileViT模型的基础上,利用迁移学习技术对模型进行微调。从图8能够看出,在迭代59轮之后,经过迁移学习微调后的模型,模型准确率稳定在98.49%,优于未经过迁移学习微调的模型的97.13%和应用原始特征和改进MobileViT经过迁移学习微调的模型的97.32%。

为了更直观地展示模型在各个类别上的表现,将测试集上的识别结果混淆矩阵进行可视化展示,结果如图9所示。

图 9 混淆矩阵 Fig. 9 Confusion matrix

矩阵的行代表实际类别,列代表预测类别,对角线上的元素表示被正确分类的样本数,而非对角线元素则表示被错误分类的样本数。由图9可知,本文的方法在A类、B类和C类上较其他方法有明显的优势。其中,A类的识别率为99.09%,较其他3种方法准确率提高10.00%、8.19%、2.73%、3.64%;B类的识别率为94.44%,较其他3种方法准确率提高13.33%、6.66%、6.66%、3.33%;C类的识别率为100%,较其他3种方法识别率提高5.98%、2.79%、3.19%、0.31%。

将本文方法与其他方法和模型在测试集上的识别准确率(Acc)、召回率(Recall)、精确率(Precision)、F1分数(F1-score)进行比较,结果如表3所示。

表 3 不同方法和模型的识别结果对比 Tab.3 Comparison of recognition results of different methods and models

本文所提出的基于迁移学习的微调的方法在准确率、召回率、精确率和F1分数这4个评价指标上都取得了较好的分数。与基线方法相比,在参数量仅增加0.16 K的情况下,准确率、召回率、精确率和F1分数分别提高了6.03%、0.063、0.06180.0626

4 结 语

本文提出了一种基于差分特征融合和注意力机制的轻量化水声目标识别方法。差分融合特征可以捕捉相邻帧信号间的差异性变化;基于SA模块改进的MobileViT的倒残差结构可以自适应的提取倒谱图上的多尺度微小特征;CNN-Transformer的混合架构模型,可以解决传统神经网络长距离依赖和局部特征难以捕捉的问题,具有更好的序列建模能力和更高的计算效率。基于迁移学习的微调,提高了模型的识别准确率。实验结果表明了本文所提方法的有效性,较最初未改进的模型提高了6.03%,参数量为952.79 K优于其他轻量化模型。

参考文献
[1]
李启虎. 进入21世纪的声纳技术[J]. 信号处理, 2012, 28(1): 1-11. DOI:10.3969/j.issn.1003-0530.2012.01.001
[2]
强超超, 王元斌. 水声目标识别技术现状与发展[J]. 指挥信息系统与技术, 2018, 9(2): 73-78.
[3]
张延厚, 王超, 张奇, 等. 水声目标探测和识别融合技术发展综述[J]. 信号处理, 2023, 39(10): 1711-1727.
[4]
LIU F, SHEN T, LUO Z, et al. Underwater target recognition using convolutional recurrent neural networks with 3-D Mel-spectrogram and data augmentation[J]. Applied Acoustics, 2021, 178: 107989. DOI:10.1016/j.apacoust.2021.107989
[5]
YANG S, XUE L, HONG X, et al. A lightweight network model based on an attention mechanism for ship-radiated noise classification[J]. Journal of Marine Science and Engineering, 2023, 11(2): 432.
[6]
张钇, 熊水东, 马燕新, 等. 嵌入注意力机制的卷积神经网络水声目标识别[J]. 声学技术, 2022, 41(6): 796-803. DOI:10.3969/j.issn.1000-3630.2022.6.sxjs202206002
[7]
WU J, LI P, WANG Y, et al. VFR: The underwater acoustic target recognition using cross-domain pre-training with fbank fusion features[J]. Journal of Marine Science and Engineering, 2023, 11(2): 263. DOI:10.3390/jmse11020263
[8]
郭佳霖, 智敏, 殷雁君, 等. 图像处理中CNN与视觉Transformer混合模型研究综述[J/OL]. 计算机科学与探索, 1−18[2024−09−25].
[9]
LI P, WU J, WANG Y, et al. STM: Spectrogram transformer model for underwater acoustic target recognition[J]. Journal of Marine Science and Engineering, 2022, 10(10): 1428. DOI:10.3390/jmse10101428
[10]
XU J, XIE Y, WANG W. Underwater acoustic target recognition based on smoothness-inducing regularization and spectrogram-based data augmentation[J]. Ocean Engineering, 2023, 281: 114926. DOI:10.1016/j.oceaneng.2023.114926
[11]
YAO H, GAO T, WANG Y, et al. Mobile_ViT: Underwater acoustic target recognition method based on local–global feature fusion[J]. Journal of Marine Science and Engineering, 2024, 12(4): 589. DOI:10.3390/jmse12040589
[12]
LYU C, HU X, NIU Z, et al. A light-weight neural network for marine acoustic signal recognition suitable for fiber-optic hydrophones[J]. Expert Systems with Applications, 2024, 235: 121235. DOI:10.1016/j.eswa.2023.121235
[13]
MEHTA S, RASTEGARI M. Mobilevit: Light-weight, general-purpose, and mobile-friendly vision transformer. arXiv 2021[J]. arXiv preprint arXiv: 2110.02178.
[14]
ZHANG Q L, YANG Y B. Sa-net: Shuffle attention for deep convolutional neural networks[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 2235−2239.
[15]
SANTOS-DOMÍNGUEZ D, TORRES-GUIJARRO S, CARDENAL-LÓPEZ A, et al. ShipsEar: An underwater vessel noise database[J]. Applied Acoustics, 2016, 113: 64-69. DOI:10.1016/j.apacoust.2016.06.008
[16]
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770−778.
[17]
SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2018.
[18]
HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF international conference on computer vision, 2019.
[19]
MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European conference on computer vision (ECCV), 2018.