舰船科学技术  2025, Vol. 47 Issue (4): 117-123    DOI: 10.3404/j.issn.1672-7649.2025.04.019   PDF    
基于特征金字塔融合的水下目标识别方法研究
刘梦然, 连恒绪, 聂磊, 简泽明     
湖北工业大学 机械工程学院 现代制造质量工程湖北省重点实验室,湖北 武汉 430068
摘要: 复杂的海洋环境会加大水下目标识别的难度,为进一步提高水下目标识别准确率,本文提出基于特征金字塔融合的识别方法。提取了梅尔频率的倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient,LPCC)、色度频谱和短时能量4种频率信息不同的特征,分别基于特征金字塔完成特征的深层信息与浅层信息之间的融合,并将融合特征分别输入迁移学习后的轻量化神经网络shufflenetV2,进行水下目标识别。在Deepship数据集和Shipsear数据集上进行测试,结果表明,本文中4种频率信息不同特征基于特征金字塔融合后水下目标识别准确率均大于98%,相比于原始特征,识别准确率更高。该方法可应用于海洋资源勘探、海洋防御与安全、海洋环境监测等场景,为水下目标识别领域的研究提供了新的思路。
关键词: 水下目标识别     特征金字塔融合     深度学习    
Research on underwater target recognition method based on feature pyramid fusion
LIU Mengran, LIAN Hengxu, NIE Lei, JIAN Zeming     
Hubei Key Laboratory of Modern Manufacturing Quantity Engineering, School of Mechanical Engineering, Hubei University of Technology, Wuhan 430068, China
Abstract: The complex marine environment increases the difficulty of underwater target recognition. In order to further improve the accuracy of underwater target recognition, this paper proposed a recognition method based on feature pyramid fusion. Four different frequency information features, namely Mel frequency cepstral coefficient (Mel Frequency Cepstrum Coefficient, MFCC), linear prediction cepstral coefficient (Linear Predictive Cepstral Coefficient, LPCC), chromaticity spectrum, and short-term energy, were extracted. Based on the feature pyramid, the deep and shallow information of the features were fused, and the fused features were separately input into the lightweight neural network shufflenetV2 after transfer learning for underwater target recognition. The test results on the deepship dataset and shipsear dataset showed that the underwater target recognition accuracy of the four different frequency information features fused based on feature pyramids in this article were all greater than 98%, and compared to the original features, the recognition accuracy was higher. This method can be applied to scenarios such as marine resource exploration, marine defense and safety, and marine environmental monitoring, providing new ideas for research in the field of underwater target recognition.
Key words: underwater target recognition     feature pyramid fusion     deep learning    
0 引 言

声音是一种信息的载体,其中包含着许多声源信息。因此,对声音信号进行分析,可以提取出一些有用的信息,从而达到识别目标的目的。声目标识别在许多领域都应用广泛[1],比如语音识别[23]、水声目标识别[45]、环境声音分类[67]和物种调查分析[8]等。因此,声目标识别目前是声学研究领域的一个热点话题。其中,水下声音目标识别问题由于复杂的海洋环境,识别目标的难度更大,精度有待提高。

随着深度学习技术的发展,其提取信号中信息的能力不断加强,而且具有强大的声音降噪能力,因此在水下目标识别的研究中使用深度学习技术的方法层出不穷。Hu等[9]使用深度可分离卷积和时间扩张卷积进行水下目标识别,其准确率比传统方法高6.8%。Wang等[10]针对船舶辐射噪声会被海洋环境噪声覆盖的问题提出AMNet网络识别水下目标,结果表明该方法的识别效果较好。Xue等[11]针对水声目标识别问题,使用改进的ResNet网络,并且加入通道注意力机制,结果表明,该方法针对4种不同工况的水声目标具有较高的精度。这类方法都在网络结构上进行改进,并且使用原始的频谱特征进行识别任务,虽然对提高识别准确率有一定帮助,但是原始的频谱特征包含信息较少,不能充分表达目标的声音信息。

由于特征金字塔融合方法可以从多个层次提取特征信息,因此,本文将特征金字塔引入水下目标识别。提取了4种时频特征,包括线性预测倒谱系数(LPCC)、梅尔频率的倒谱系数(MFCC)、色度频谱和短时能量,并对这4种特征进行特征金字塔融合,实现多层信息之间的交融,将融合特征输入到轻量化神经网络shufflenetV2中,以期获得更高的水下目标识别准确率。

1 数据集

本文使用Deepship和Shipsear数据集,其中Deepship数据集由穆罕默德等在乔治亚三角洲节点海峡于2016—2018年记录而成[12]。其记录了265艘深水船在真实海洋环境、不同季节和海况中的水下声音,而且每条音频都有序号。其中包含货船、客船、油轮和拖船,除此之外,还有自然背景和海洋动物等噪声,5类声音分别对应序号0、1、2、3、4。Shipsear数据集由大卫等在西班牙西北部大西洋沿岸的不同地区于2012—2013年记录而成[13]。其记录了11类船舶在真实海洋环境下的声音以及海洋环境噪声,共记录90条音频数据。根据原文的实验思路,可以将11类船舶分为ABCD等4个类别,海洋环境噪声为E类。

由于数据集是真实环境下的船舶声音,所以声音信号会受到外界环境干扰,并且振幅较小,所以需要对数据集进行增幅处理[14],而且每条船舶声音的时间长短不一,所以需要将数据裁剪成相同时间间隔3 s的片段。原始信号波形与预处理后的信号波形如图1所示。预处理后的Deepship数据集和Shipsear数据集分别如表1表2所示。

图 1 原始信号波形与预处理后的信号波形 Fig. 1 Original signal waveform and preprocessed signal waveform

表 1 预处理后的deepship数据集 Tab.1 Preprocessed deepship dataset

表 2 预处理后的shipsear数据集 Tab.2 Preprocessed shipsear dataset

将所有样本按照比例4∶1随机抽取划分为训练集和测试集,其中Deepship数据集得到训练集样本2448个,测试集样本611个,Shipsear数据集得到训练集样本2520个,测试集样本628个。

2 特征融合

在提取LPCC和MFCC特征时,使用离散余弦变换(Discrete Cosine Transform,DCT)会损失声音信号的一些高频信息,所以这2种特征主要包含低频信息,而色度频谱和短时能量主要包含声音信号的高频信息。因此,本文选取这4种频率信息不同的特征,并且分别将每种特征输入特征金字塔网络进行特征融合,输出融合特征,以验证该方法对不同特征的识别效果。该部分介绍了4种特征的提取方法,以及特征金字塔融合方法。

2.1 特征提取

使用预处理后的数据提取线性预测倒谱系数(LPCC)、梅尔频率的倒谱系数(MFCC)、色度频谱和短时能量4种特征。

1)LPCC

线性预测倒谱系数(LPCC),丢弃了信号生成过程中的激励信息,而且它的谱包络主要集中在低频部分,它可以消除激励的干扰并且准确地画出共振峰。计算公式如下:

$ {LPCC}_{i}={LPC}_{i}+{\sum }_{k=1}^{i-1}\frac{k-i}{i}{LPCC}_{i-k}{LPC}_{k} 。$ (1)

式中:$ i $为选取的阶数;$ LPC $为线性预测系数。

2)MFCC

梅尔频率的倒谱系数(MFCC),是一种在Mel标度频率域提取出的倒谱系数,符合人耳的听觉特性。Mel滤波器组的滤波器之间存在频带重叠,使用离散余弦变换(DCT)对滤波器组系数进行去相关处理,并取变换后的前$ L $个系数,这$ L $个系数就是MFCC。$ M $代表Mel滤波器的个数。计算公式如下:

${ C\left(l,n\right)=\displaystyle\sum _{m=1}^{M}{\rm{Mel}}\left(m,n\right){\cos}\left(\dfrac{{\text{π}} l\left(m-0.5\right)}{M}\right),\left(1\leqslant l\leqslant L\right)。\ }$ (2)

式中:$ l $为MFCC系数的序号;$ n $为频率分量的索引;$ m $为Mel滤波器的索引。

3)色度频谱

将声音信号进行短时傅里叶变换(short-time Fourier transform,STFT),然后投影到13个色度频率区间上,即得到色度频谱。计算公式如下:

$ {X}_{i}\left(k,l\right)=\sum _{n=0}^{N-1}{x}_{i}\left(n\right)w\left(n\right){e}^{-j2{\text{π}} kn/N},$ (3)
$ {B}_{j}\left(k,l\right)=f\left(x\right)=\left\{\begin{array}{l}{\left|{X}_{i}\left(k,l\right)\right|}^{2}, f\left(k\right)\in {J}_{j},\\ 0, {\mathrm{otherwise}}。\end{array}\right. $ (4)

式中:$ {x}_{i}\left(n\right) $为声音信号;$ w\left(n\right) $为汉明窗的第$ n $个采样点的值;$ {J}_{j} $为第$ j $个频带的频率范围;$ f\left(k\right) $为第$ k $个频率的频率值。

4)短时能量

短时能量可以区分声音的清音部分和浊音部分,并可以作为辅助参数用于声音识别中,其计算公式如下:

$ \begin{split}{E}_{n}=&{\sum }_{m=-\infty }^{\infty }{\left[x\left(m\right)\omega \left(n-m\right)\right]}^{2}=\\ &{\sum }_{m=-\infty }^{\infty }{x}^{2}\left(m\right)h\left(n-m\right) =\\ &{x}^{2}\left(n\right)\cdot h\left(n\right)。\end{split}$ (5)

式中:$ x\left(n\right) $为声音信号;$ E\left(n\right) $为信号在第$ n $个点的短时能量;$ h\left(n\right) $为线性滤波器的单位冲击响应。

所提取的4种特征时频图样如图2所示。

图 2 原始特征 Fig. 2 Original features
2.2 特征金字塔融合

特征金字塔网络(Feature Pyramid Network,FPN)是一种在计算机视觉领域,尤其是目标检测和实例分割任务中广泛应用的架构。它可以实现特征融合,通过对特征图像的不断缩放,提取出C3C4C5三张缩放后的特征图像,然后分别进行1×1的卷积降维和上采样,其中C5经过上采样之后输出预测图像P1C3C4则分别与更深层的图像融合输出P2P3。这些预测图像具有不同的分辨率,但都融合了高层的语义信息和低层的细节信息,从而能进行目标识别的任务。但是这种特征金字塔忽略了原始特征图像C2,所以可能会丢失特征的低级纹理和边界信息。因此,本文使用改良后的特征金字塔网络——全景特征金字塔网络(Panoptic Feature Pyramid Networks,PFPN)[15]进行特征融合,旨在实现对原始特征信息进行更全面、更深入地挖掘与利用。这种网络可以更全面地提取原始特征的深层和浅层信息,其网络结构如图3所示。由原始图像分别缩放4倍、8倍、16倍以及32倍,得到C2C3C4C5。这些特征图在分辨率和语义信息上呈现出明显的层次差异,C5拥有最高的语义抽象度,而C2则保留了丰富的细节信息。然后4张图分别进行上采样还原,恢复图片的分辨率。与此同时,各自进行3×3的卷积降维,减少通道数量,同时进一步提炼特征信息,并输出4张分辨率为128×1/4的图像。再将这4张经过初步处理的特征图叠加,实现特征层面不同尺度信息之间的交互融合。然后,进行1×1的卷积降维,再次提炼特征信息。最后,对融合后的特征图进行上采样操作,还原图像的分辨率,生成1张融合了原始特征的深浅层信息的新特征。

图 3 PFPN网络结构示意图 Fig. 3 Schematic diagram of PFPN network structure

将提取的4种特征输入到全景特征金字塔网络(PFPN)进行特征融合,然后提取出融合之后的特征图。融合后的特征图如图4所示。

图 4 特征金字塔融合特征谱图 Fig. 4 Feature pyramid fusion feature spectrum
3 实 验

本文使用ShufflenetV2网络[1617]进行识别任务,它是一种轻量化的网络模型,这种模型适用于计算能力有限的移动设备,其网络结构如图5所示。特征输入进网络之后被channel split模块分为两部分,一部分不做运算,另一部分进行3×3的深度可分离卷积,然后将两部分拼接并且进行通道重组,从而实现各分组之间的特征融合。在下采样模块中,由于步长为2,特征的长和宽会减小一倍而且通道数会加倍,有利于捕捉更高层次的语义信息。经过网络的多层非线性变换,特征信息被不断学习。最终,模型输出每个类别的概率分布,实现图像分类任务。识别的整体框架图如图6所示。

图 5 ShufflenetV2网络基本结构 Fig. 5 ShufflenetV2 Network basic structure

图 6 识别框架 Fig. 6 Recognition framework

由于Deepship数据集和Shipsear数据集数据量较少,所以使用这2种数据集进行水下目标识别任务时准确率不高,而且使用未迁移学习的shufflenetV2网络训练时间较长,所以使用ImageNet数据集对shufflenetV2网络进行迁移学习,再对模型参数进行微调从而进一步提高识别准确率。将特征输入shufflenetV2网络进行测试,网络参数见表3表4

表 3 网络结构参数 Tab.3 Network structure parameters

表 4 网络训练参数 Tab.4 Network training parameters

将特征输入网络,经过120次训练后得到2组迁移学习前后的损失值曲线、训练集识别准确率和测试集识别准确率,Deepship数据集与Shipsear数据集分别为表5表6

表 5 Deepship数据集迁移学习前后的损失值与准确率 Tab.5 Loss and accuracy before and after transfer learning on the Deepship dataset

表 6 Shipsear数据集迁移学习前后的损失值与准确率 Tab.6 Loss and accuracy before and after transfer learning on the Shipsear dataset

表5可知,在Deepship数据集上,经过迁移学习后的ShufflenetV2网络对特征的识别效果更好,其中LPCC、MFCC、短时能量和色度频谱在训练集准确率与测试集准确率上均有提升。4种特征的训练集准确率分别提高了15.53%、19.44%、16.75%以及18.79%。在测试集准确率上它们依次提高了12.44%、17.84%、9.16%以及14.73%。由表6可知,在Shipsear数据集上,经过迁移学习后的ShufflenetV2网络对特征的识别效果同样也有提升,其中LPCC、MFCC、短时能量和色度频谱在训练集准确率上依次提高了17.19%、12.15%、22.34%以及28.41%,在测试集准确率上依次提高了10.04%、15.77%、10.99%以及17.51%。因此,本文使用迁移学习后的网络进行识别,进一步提高融合特征的识别准确率,并且分别在Deepship数据集和Shipsear数据集上测试该方法的效果,详细结果见图7图8表7

图 7 Deepship数据集融合特征的损失值与准确率 Fig. 7 Loss and accuracy of fused features in the Deepship dataset

图 8 Shipsear数据集融合特征的损失值与准确率 Fig. 8 Loss and accuracy of fused features in the Shipsear dataset

表 7 不同特征的识别结果对比 Tab.7 Comparison of recognition results for different features

结果表明,在使用迁移学习后的Shufflenetv2网络的相同条件下,对于Deepship数据集和shipsear数据集,融合特征的识别准确率,在训练集和测试集上均优于原始特征。在Deepship数据集上,融合特征的训练集准确率较于原始特征有较大提升,PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了20.34%、14.79%、12.13%和5.76%。在测试集准确率上,特征金字塔融合特征较于原始特征也有较大提升,PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了23.73%、16.37%、17.84%和9.99%。在Shipsear数据集上,融合特征也取得了较好的识别效果。在训练集准确率上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了11.62%、38.57%、35.04%和13.37%。在测试集准确率上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了15.76%、39.01%、48.57%和27.39%。

4 结 语

为了进一步提高识别准确率,本文提出了基于特征金字塔融合的水下目标识别方法,将LPCC、MFCC、短时能量和色度频谱的深层信息和浅层信息融合得到融合特征,并将融合特征输入迁移学习后的ShufflenetV2网络进行识别。在Deepship数据集上测试结果表明,使用经过迁移学习微调后的ShufflenetV2网络,比不使用迁移学习的ShufflenetV2网络的识别效果更好。因此,本文使用经过迁移学习微调后的ShufflenetV2网络进行识别任务,并且使用Deepship数据集和Shipsear数据集验证该方法的有效性。在使用迁移学习的基础上,对于不同的数据集,基于特征金字塔的融合特征的识别准确率均高于原始特征。在Deepship数据集上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量和PFPN-色度频谱的识别准确率分别为100%、100%、98.36%和99.84%相比于原始特征LPCC、MFCC、短时能量和色度频谱的识别准确率76.27%、83.63%、80.52%和89.85%,分别提高了23.73%、16.37%、17.84%和9.99%。在Shipsear数据集上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量和PFPN-色度频谱的识别准确率分别为100%、100%、98.73%和99.36%相比于原始特征LPCC、MFCC、短时能量和色度频谱的识别准确率84.24%、60.99%、50.16%和71.97%,分别提高了15.76%、39.01%、48.57%和27.39%。综上所述,本文提出的基于特征金字塔融合的方法能够准确识别水下目标,识别准确率均大于98%,而且通过比对不同数据集、不同特征的识别效果发现该方法能够显著提升识别精度,证明了该方法的有效性,可以应用在海洋资源勘探、海洋防御与安全、海洋环境监测等场景。

参考文献
[1]
李旻择. 基于深度学习的声目标识别方法研究[D]. 绵阳: 西南科技大学, 2020.
[2]
姜囡, 庞永恒, 高爽. 基于注意力机制语谱图特征提取的语音识别[J]. 吉林大学学报(理学版), 2024, 62(2): 320-330.
JIANG N, PANG Y H, GAO S. Speech recognition based on attention mechanism and spectrogram feature extraction[J]. Journal of Jilin University(Science Edition), 2024, 62(2): 320-330.
[3]
王丽, 涂冰花, 王伟, 等. 长短期记忆循环神经网络在自动语音识别中的应用[J]. 单片机与嵌入式系统应用, 2023, 23(10): 49-52+56.
WANG L, TU B H, WANG W, et al. Application of short-term and long-term memory cyclic neural network in automatic speech recognition[J]. Microcontrollers & Embedded Systems, 2023, 23(10): 49-52+56.
[4]
LI D, LIU F, SHEN T, et al. Data augmentation method for underwater acoustic target recognition based on underwater acoustic channel modeling and transfer learning[J]. Applied Acoustics, 2023, 208: 109344. DOI:10.1016/j.apacoust.2023.109344
[5]
张玉皓, 李立钢. 改进的SqueezeNet网络在船舶分类中的应用[J]. 传感器与微系统, 2022, 41(1): 150-152+160.
ZHANG Y H, LI L G. Application of improved SqueezeNet in ship classification[J]. Transducer and Microsystem Technologies, 2022, 41(1): 150-152+160.
[6]
简泽明, 赵旭辉, 胡君豪, 等. 基于改进ShuffleNetV2模型的声目标识别方法研究[J]. 传感器与微系统, 2023, 42(8): 43-45+49.
JIAN Z M, ZHAO X H, HU J H. Research on acoustic target recognition method based on improved ShuffleNetV2 model[J]. Transducer and Microsystem Technologies, 2023, 42(8): 43-45+49.
[7]
AL-HATTAB Y A, ZAKI H F, SHAFIE A A.. Rethinking environmental sound classification using convolutional neural networks: optimized parameter tuning of single feature extraction[J]. Neural Computing and Applications, 2021, 33(21): 14495-14506. DOI:10.1007/s00521-021-06091-7
[8]
YASSIR A, ANDALOUSSI S J, OUCHETTO O, et al. Acoustic fish species identification using deep learning and machine learning algorithms: A systematic review[J]. Fisheries Research, 2023, 266: 106790. DOI:10.1016/j.fishres.2023.106790
[9]
HU G, WANG K, LIU L. Underwater acoustic target recognition based on depthwise separable convolution neural networks[J]. Sensors, 2021, 21(4): 14−43. DOI:10.3390/s21041429
[10]
WANG B, ZHANG W, ZHU Y, et al. An underwater acoustic target recognition method based on AMNet[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 1-5.
[11]
XUE L, ZENG X, JIN A. A novel deep-learning method with channel attention mechanism for underwater target recognition[J]. Sensors, 2022, 22(15): 54−63. DOI:10.3390/s22155492
[12]
IRFAN M, JIANGBIN Z, Ali S, et al. DeepShip: an underwater acoustic benchmark dataset and a separable convolution based autoencoder for classification[J]. Expert Systems with Applications, 2021, 183(5): 115270.
[13]
SANTOS-DOMÍNGUEZ D, TORRES-GUIJARRO S, CARDENAL-LÓPEZ A, et al. Shipsear: An underwater vessel noise database[J]. Applied Acoustics, 2016, 113: 64-69. DOI:10.1016/j.apacoust.2016.06.008
[14]
任晨曦, 王黎明, 韩星程, 等. 基于联合神经网络的水声目标识别方法[J]. 舰船科学技术, 2022, 44(1): 136-141.
REN C X, WANG L M, HAN X C, et al. Underwater acoustic target recognition method based on joint neural network[J]. Ship Science and Technology, 2022, 44(1): 136-141. DOI:10.3404/j.issn.1672-7649.2022.01.026
[15]
KIRILLOV A, GIRSHICK R, He K, et al. Panoptic feature pyramid networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019.
[16]
易振通, 吴瑰, 官端正, 等. 轻量化卷积神经网络的研究综述[J]. 工业控制计算机, 2022, 35(10): 109-111+114.
YI Z T, WU G, GUAN D Z, et al. Survey of research on lightweight convolutional neural networks[J]. Industrial Control Computer, 2022, 35(10): 109-111+114.
[17]
MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European conference on computer vision (ECCV), 2018.