声音是一种信息的载体,其中包含着许多声源信息。因此,对声音信号进行分析,可以提取出一些有用的信息,从而达到识别目标的目的。声目标识别在许多领域都应用广泛[1],比如语音识别[2 − 3]、水声目标识别[4 − 5]、环境声音分类[6 − 7]和物种调查分析[8]等。因此,声目标识别目前是声学研究领域的一个热点话题。其中,水下声音目标识别问题由于复杂的海洋环境,识别目标的难度更大,精度有待提高。
随着深度学习技术的发展,其提取信号中信息的能力不断加强,而且具有强大的声音降噪能力,因此在水下目标识别的研究中使用深度学习技术的方法层出不穷。Hu等[9]使用深度可分离卷积和时间扩张卷积进行水下目标识别,其准确率比传统方法高6.8%。Wang等[10]针对船舶辐射噪声会被海洋环境噪声覆盖的问题提出AMNet网络识别水下目标,结果表明该方法的识别效果较好。Xue等[11]针对水声目标识别问题,使用改进的ResNet网络,并且加入通道注意力机制,结果表明,该方法针对4种不同工况的水声目标具有较高的精度。这类方法都在网络结构上进行改进,并且使用原始的频谱特征进行识别任务,虽然对提高识别准确率有一定帮助,但是原始的频谱特征包含信息较少,不能充分表达目标的声音信息。
由于特征金字塔融合方法可以从多个层次提取特征信息,因此,本文将特征金字塔引入水下目标识别。提取了4种时频特征,包括线性预测倒谱系数(LPCC)、梅尔频率的倒谱系数(MFCC)、色度频谱和短时能量,并对这4种特征进行特征金字塔融合,实现多层信息之间的交融,将融合特征输入到轻量化神经网络shufflenetV2中,以期获得更高的水下目标识别准确率。
1 数据集本文使用Deepship和Shipsear数据集,其中Deepship数据集由穆罕默德等在乔治亚三角洲节点海峡于2016—2018年记录而成[12]。其记录了265艘深水船在真实海洋环境、不同季节和海况中的水下声音,而且每条音频都有序号。其中包含货船、客船、油轮和拖船,除此之外,还有自然背景和海洋动物等噪声,5类声音分别对应序号0、1、2、3、4。Shipsear数据集由大卫等在西班牙西北部大西洋沿岸的不同地区于2012—2013年记录而成[13]。其记录了11类船舶在真实海洋环境下的声音以及海洋环境噪声,共记录90条音频数据。根据原文的实验思路,可以将11类船舶分为A、B、C、D等4个类别,海洋环境噪声为E类。
由于数据集是真实环境下的船舶声音,所以声音信号会受到外界环境干扰,并且振幅较小,所以需要对数据集进行增幅处理[14],而且每条船舶声音的时间长短不一,所以需要将数据裁剪成相同时间间隔3 s的片段。原始信号波形与预处理后的信号波形如图1所示。预处理后的Deepship数据集和Shipsear数据集分别如表1和表2所示。
![]() |
图 1 原始信号波形与预处理后的信号波形 Fig. 1 Original signal waveform and preprocessed signal waveform |
![]() |
表 1 预处理后的deepship数据集 Tab.1 Preprocessed deepship dataset |
![]() |
表 2 预处理后的shipsear数据集 Tab.2 Preprocessed shipsear dataset |
将所有样本按照比例4∶1随机抽取划分为训练集和测试集,其中Deepship数据集得到训练集样本
在提取LPCC和MFCC特征时,使用离散余弦变换(Discrete Cosine Transform,DCT)会损失声音信号的一些高频信息,所以这2种特征主要包含低频信息,而色度频谱和短时能量主要包含声音信号的高频信息。因此,本文选取这4种频率信息不同的特征,并且分别将每种特征输入特征金字塔网络进行特征融合,输出融合特征,以验证该方法对不同特征的识别效果。该部分介绍了4种特征的提取方法,以及特征金字塔融合方法。
2.1 特征提取使用预处理后的数据提取线性预测倒谱系数(LPCC)、梅尔频率的倒谱系数(MFCC)、色度频谱和短时能量4种特征。
1)LPCC
线性预测倒谱系数(LPCC),丢弃了信号生成过程中的激励信息,而且它的谱包络主要集中在低频部分,它可以消除激励的干扰并且准确地画出共振峰。计算公式如下:
$ {LPCC}_{i}={LPC}_{i}+{\sum }_{k=1}^{i-1}\frac{k-i}{i}{LPCC}_{i-k}{LPC}_{k} 。$ | (1) |
式中:
2)MFCC
梅尔频率的倒谱系数(MFCC),是一种在Mel标度频率域提取出的倒谱系数,符合人耳的听觉特性。Mel滤波器组的滤波器之间存在频带重叠,使用离散余弦变换(DCT)对滤波器组系数进行去相关处理,并取变换后的前
${ C\left(l,n\right)=\displaystyle\sum _{m=1}^{M}{\rm{Mel}}\left(m,n\right){\cos}\left(\dfrac{{\text{π}} l\left(m-0.5\right)}{M}\right),\left(1\leqslant l\leqslant L\right)。\ }$ | (2) |
式中:
3)色度频谱
将声音信号进行短时傅里叶变换(short-time Fourier transform,STFT),然后投影到13个色度频率区间上,即得到色度频谱。计算公式如下:
$ {X}_{i}\left(k,l\right)=\sum _{n=0}^{N-1}{x}_{i}\left(n\right)w\left(n\right){e}^{-j2{\text{π}} kn/N},$ | (3) |
$ {B}_{j}\left(k,l\right)=f\left(x\right)=\left\{\begin{array}{l}{\left|{X}_{i}\left(k,l\right)\right|}^{2}, f\left(k\right)\in {J}_{j},\\ 0, {\mathrm{otherwise}}。\end{array}\right. $ | (4) |
式中:
4)短时能量
短时能量可以区分声音的清音部分和浊音部分,并可以作为辅助参数用于声音识别中,其计算公式如下:
$ \begin{split}{E}_{n}=&{\sum }_{m=-\infty }^{\infty }{\left[x\left(m\right)\omega \left(n-m\right)\right]}^{2}=\\ &{\sum }_{m=-\infty }^{\infty }{x}^{2}\left(m\right)h\left(n-m\right) =\\ &{x}^{2}\left(n\right)\cdot h\left(n\right)。\end{split}$ | (5) |
式中:
所提取的4种特征时频图样如图2所示。
![]() |
图 2 原始特征 Fig. 2 Original features |
特征金字塔网络(Feature Pyramid Network,FPN)是一种在计算机视觉领域,尤其是目标检测和实例分割任务中广泛应用的架构。它可以实现特征融合,通过对特征图像的不断缩放,提取出C3、C4和C5三张缩放后的特征图像,然后分别进行1×1的卷积降维和上采样,其中C5经过上采样之后输出预测图像P1,C3和C4则分别与更深层的图像融合输出P2和P3。这些预测图像具有不同的分辨率,但都融合了高层的语义信息和低层的细节信息,从而能进行目标识别的任务。但是这种特征金字塔忽略了原始特征图像C2,所以可能会丢失特征的低级纹理和边界信息。因此,本文使用改良后的特征金字塔网络——全景特征金字塔网络(Panoptic Feature Pyramid Networks,PFPN)[15]进行特征融合,旨在实现对原始特征信息进行更全面、更深入地挖掘与利用。这种网络可以更全面地提取原始特征的深层和浅层信息,其网络结构如图3所示。由原始图像分别缩放4倍、8倍、16倍以及32倍,得到C2、C3、C4和C5。这些特征图在分辨率和语义信息上呈现出明显的层次差异,C5拥有最高的语义抽象度,而C2则保留了丰富的细节信息。然后4张图分别进行上采样还原,恢复图片的分辨率。与此同时,各自进行3×3的卷积降维,减少通道数量,同时进一步提炼特征信息,并输出4张分辨率为128×1/4的图像。再将这4张经过初步处理的特征图叠加,实现特征层面不同尺度信息之间的交互融合。然后,进行1×1的卷积降维,再次提炼特征信息。最后,对融合后的特征图进行上采样操作,还原图像的分辨率,生成1张融合了原始特征的深浅层信息的新特征。
![]() |
图 3 PFPN网络结构示意图 Fig. 3 Schematic diagram of PFPN network structure |
将提取的4种特征输入到全景特征金字塔网络(PFPN)进行特征融合,然后提取出融合之后的特征图。融合后的特征图如图4所示。
![]() |
图 4 特征金字塔融合特征谱图 Fig. 4 Feature pyramid fusion feature spectrum |
本文使用ShufflenetV2网络[16 − 17]进行识别任务,它是一种轻量化的网络模型,这种模型适用于计算能力有限的移动设备,其网络结构如图5所示。特征输入进网络之后被channel split模块分为两部分,一部分不做运算,另一部分进行3×3的深度可分离卷积,然后将两部分拼接并且进行通道重组,从而实现各分组之间的特征融合。在下采样模块中,由于步长为2,特征的长和宽会减小一倍而且通道数会加倍,有利于捕捉更高层次的语义信息。经过网络的多层非线性变换,特征信息被不断学习。最终,模型输出每个类别的概率分布,实现图像分类任务。识别的整体框架图如图6所示。
![]() |
图 5 ShufflenetV2网络基本结构 Fig. 5 ShufflenetV2 Network basic structure |
![]() |
图 6 识别框架 Fig. 6 Recognition framework |
由于Deepship数据集和Shipsear数据集数据量较少,所以使用这2种数据集进行水下目标识别任务时准确率不高,而且使用未迁移学习的shufflenetV2网络训练时间较长,所以使用ImageNet数据集对shufflenetV2网络进行迁移学习,再对模型参数进行微调从而进一步提高识别准确率。将特征输入shufflenetV2网络进行测试,网络参数见表3和表4。
![]() |
表 3 网络结构参数 Tab.3 Network structure parameters |
![]() |
表 4 网络训练参数 Tab.4 Network training parameters |
将特征输入网络,经过120次训练后得到2组迁移学习前后的损失值曲线、训练集识别准确率和测试集识别准确率,Deepship数据集与Shipsear数据集分别为表5和表6。
![]() |
表 5 Deepship数据集迁移学习前后的损失值与准确率 Tab.5 Loss and accuracy before and after transfer learning on the Deepship dataset |
![]() |
表 6 Shipsear数据集迁移学习前后的损失值与准确率 Tab.6 Loss and accuracy before and after transfer learning on the Shipsear dataset |
由表5可知,在Deepship数据集上,经过迁移学习后的ShufflenetV2网络对特征的识别效果更好,其中LPCC、MFCC、短时能量和色度频谱在训练集准确率与测试集准确率上均有提升。4种特征的训练集准确率分别提高了15.53%、19.44%、16.75%以及18.79%。在测试集准确率上它们依次提高了12.44%、17.84%、9.16%以及14.73%。由表6可知,在Shipsear数据集上,经过迁移学习后的ShufflenetV2网络对特征的识别效果同样也有提升,其中LPCC、MFCC、短时能量和色度频谱在训练集准确率上依次提高了17.19%、12.15%、22.34%以及28.41%,在测试集准确率上依次提高了10.04%、15.77%、10.99%以及17.51%。因此,本文使用迁移学习后的网络进行识别,进一步提高融合特征的识别准确率,并且分别在Deepship数据集和Shipsear数据集上测试该方法的效果,详细结果见图7、图8和表7。
![]() |
图 7 Deepship数据集融合特征的损失值与准确率 Fig. 7 Loss and accuracy of fused features in the Deepship dataset |
![]() |
图 8 Shipsear数据集融合特征的损失值与准确率 Fig. 8 Loss and accuracy of fused features in the Shipsear dataset |
![]() |
表 7 不同特征的识别结果对比 Tab.7 Comparison of recognition results for different features |
结果表明,在使用迁移学习后的Shufflenetv2网络的相同条件下,对于Deepship数据集和shipsear数据集,融合特征的识别准确率,在训练集和测试集上均优于原始特征。在Deepship数据集上,融合特征的训练集准确率较于原始特征有较大提升,PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了20.34%、14.79%、12.13%和5.76%。在测试集准确率上,特征金字塔融合特征较于原始特征也有较大提升,PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了23.73%、16.37%、17.84%和9.99%。在Shipsear数据集上,融合特征也取得了较好的识别效果。在训练集准确率上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了11.62%、38.57%、35.04%和13.37%。在测试集准确率上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量以及PFPN-色度频谱相较于原始特征LPCC、MFCC、短时能量和色度频谱分别提高了15.76%、39.01%、48.57%和27.39%。
4 结 语为了进一步提高识别准确率,本文提出了基于特征金字塔融合的水下目标识别方法,将LPCC、MFCC、短时能量和色度频谱的深层信息和浅层信息融合得到融合特征,并将融合特征输入迁移学习后的ShufflenetV2网络进行识别。在Deepship数据集上测试结果表明,使用经过迁移学习微调后的ShufflenetV2网络,比不使用迁移学习的ShufflenetV2网络的识别效果更好。因此,本文使用经过迁移学习微调后的ShufflenetV2网络进行识别任务,并且使用Deepship数据集和Shipsear数据集验证该方法的有效性。在使用迁移学习的基础上,对于不同的数据集,基于特征金字塔的融合特征的识别准确率均高于原始特征。在Deepship数据集上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量和PFPN-色度频谱的识别准确率分别为100%、100%、98.36%和99.84%相比于原始特征LPCC、MFCC、短时能量和色度频谱的识别准确率76.27%、83.63%、80.52%和89.85%,分别提高了23.73%、16.37%、17.84%和9.99%。在Shipsear数据集上,融合特征PFPN-LPCC、PFPN-MFCC、PFPN-短时能量和PFPN-色度频谱的识别准确率分别为100%、100%、98.73%和99.36%相比于原始特征LPCC、MFCC、短时能量和色度频谱的识别准确率84.24%、60.99%、50.16%和71.97%,分别提高了15.76%、39.01%、48.57%和27.39%。综上所述,本文提出的基于特征金字塔融合的方法能够准确识别水下目标,识别准确率均大于98%,而且通过比对不同数据集、不同特征的识别效果发现该方法能够显著提升识别精度,证明了该方法的有效性,可以应用在海洋资源勘探、海洋防御与安全、海洋环境监测等场景。
[1] |
李旻择. 基于深度学习的声目标识别方法研究[D]. 绵阳: 西南科技大学, 2020.
|
[2] |
姜囡, 庞永恒, 高爽. 基于注意力机制语谱图特征提取的语音识别[J]. 吉林大学学报(理学版), 2024, 62(2): 320-330. JIANG N, PANG Y H, GAO S. Speech recognition based on attention mechanism and spectrogram feature extraction[J]. Journal of Jilin University(Science Edition), 2024, 62(2): 320-330. |
[3] |
王丽, 涂冰花, 王伟, 等. 长短期记忆循环神经网络在自动语音识别中的应用[J]. 单片机与嵌入式系统应用, 2023, 23(10): 49-52+56. WANG L, TU B H, WANG W, et al. Application of short-term and long-term memory cyclic neural network in automatic speech recognition[J]. Microcontrollers & Embedded Systems, 2023, 23(10): 49-52+56. |
[4] |
LI D, LIU F, SHEN T, et al. Data augmentation method for underwater acoustic target recognition based on underwater acoustic channel modeling and transfer learning[J]. Applied Acoustics, 2023, 208: 109344. DOI:10.1016/j.apacoust.2023.109344 |
[5] |
张玉皓, 李立钢. 改进的SqueezeNet网络在船舶分类中的应用[J]. 传感器与微系统, 2022, 41(1): 150-152+160. ZHANG Y H, LI L G. Application of improved SqueezeNet in ship classification[J]. Transducer and Microsystem Technologies, 2022, 41(1): 150-152+160. |
[6] |
简泽明, 赵旭辉, 胡君豪, 等. 基于改进ShuffleNetV2模型的声目标识别方法研究[J]. 传感器与微系统, 2023, 42(8): 43-45+49. JIAN Z M, ZHAO X H, HU J H. Research on acoustic target recognition method based on improved ShuffleNetV2 model[J]. Transducer and Microsystem Technologies, 2023, 42(8): 43-45+49. |
[7] |
AL-HATTAB Y A, ZAKI H F, SHAFIE A A.. Rethinking environmental sound classification using convolutional neural networks: optimized parameter tuning of single feature extraction[J]. Neural Computing and Applications, 2021, 33(21): 14495-14506. DOI:10.1007/s00521-021-06091-7 |
[8] |
YASSIR A, ANDALOUSSI S J, OUCHETTO O, et al. Acoustic fish species identification using deep learning and machine learning algorithms: A systematic review[J]. Fisheries Research, 2023, 266: 106790. DOI:10.1016/j.fishres.2023.106790 |
[9] |
HU G, WANG K, LIU L. Underwater acoustic target recognition based on depthwise separable convolution neural networks[J]. Sensors, 2021, 21(4): 14−43. DOI:10.3390/s21041429 |
[10] |
WANG B, ZHANG W, ZHU Y, et al. An underwater acoustic target recognition method based on AMNet[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 1-5. |
[11] |
XUE L, ZENG X, JIN A. A novel deep-learning method with channel attention mechanism for underwater target recognition[J]. Sensors, 2022, 22(15): 54−63. DOI:10.3390/s22155492 |
[12] |
IRFAN M, JIANGBIN Z, Ali S, et al. DeepShip: an underwater acoustic benchmark dataset and a separable convolution based autoencoder for classification[J]. Expert Systems with Applications, 2021, 183(5): 115270. |
[13] |
SANTOS-DOMÍNGUEZ D, TORRES-GUIJARRO S, CARDENAL-LÓPEZ A, et al. Shipsear: An underwater vessel noise database[J]. Applied Acoustics, 2016, 113: 64-69. DOI:10.1016/j.apacoust.2016.06.008 |
[14] |
任晨曦, 王黎明, 韩星程, 等. 基于联合神经网络的水声目标识别方法[J]. 舰船科学技术, 2022, 44(1): 136-141. REN C X, WANG L M, HAN X C, et al. Underwater acoustic target recognition method based on joint neural network[J]. Ship Science and Technology, 2022, 44(1): 136-141. DOI:10.3404/j.issn.1672-7649.2022.01.026 |
[15] |
KIRILLOV A, GIRSHICK R, He K, et al. Panoptic feature pyramid networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019.
|
[16] |
易振通, 吴瑰, 官端正, 等. 轻量化卷积神经网络的研究综述[J]. 工业控制计算机, 2022, 35(10): 109-111+114. YI Z T, WU G, GUAN D Z, et al. Survey of research on lightweight convolutional neural networks[J]. Industrial Control Computer, 2022, 35(10): 109-111+114. |
[17] |
MA N, ZHANG X, ZHENG H T, et al. Shufflenet v2: Practical guidelines for efficient cnn architecture design[C]//Proceedings of the European conference on computer vision (ECCV), 2018.
|