基于双通道的多维域水声目标识别

引用本文

张晨颖, 杨琼, 刘枫. 基于双通道的多维域水声目标识别. 舰船科学技术, 2024, 46(20): 142-147 复制到剪切板

ZHANG Chenying, YANG Qiong, LIU Feng. Multi-dimensional underwater acoustic target recognition based on dual channel. Ship Science and Technology, 2024, 46(20): 142-147 复制到剪切板

基于双通道的多维域水声目标识别

张晨颖^1,2, 杨琼^1,2, 刘枫^1,2

1. 西安工程大学计算机科学学院，陕西西安 710600;
2. 陕西省服装设计智能化重点实验室，陕西西安 710600

收稿日期: 2024-01-02.

基金项目: 陕西自然科学青年基金资助项目（2021JQ693）

作者简介: 张晨颖（2000 –），男，硕士研究生，研究方向为声信号识别

摘要: 在海洋遥感领域，水声目标分类识别一直是声呐系统的一项困难而又极其重要的任务，为了进一步提高在不同信噪比下水下声目标的识别准确率，本文提出一种使用多维域融合特征分别输入双通道模型的水声目标识别方法。首先，通过梅尔频率倒谱系数（MFCC）和短时傅里叶变换（STFT）提取声信号在频域和时频上的特征进行融合；其次，构建密集卷积神经网络（DenseCNN）和长短期记忆网络（LSTM）2个通道，DenseCNN通道架构采用跳跃连接重用所有以前的特征映射，以优化各种受损条件下的分类率，并采用SE注意力机制使得动态调整特征权重。LSTM通道捕捉时间相关性，对模型进行长依赖关系处理能力的补充。实验结果表明，该方法在–20～10 dB信噪比下的分类准确率优于其他先进的神经网络模型。

关键词: 水声目标识别多维时频特征双通道学习模块

Multi-dimensional underwater acoustic target recognition based on dual channel

ZHANG Chenying^1,2, YANG Qiong^1,2, LIU Feng^1,2

1. School of Computer Science, Xi 'an Polytechnic University, Xi 'an 710600, China;
2. Shaanxi Key Laboratory of Intelligent Fashion Design, Xi 'an 710600, China

Abstract: In the field of Marine remote sensing, the classification and recognition of underwater acoustic targets has always been a difficult and extremely important task for sonar systems. In order to improve the accuracy of underwater acoustic targets under different signal-to-noise ratios, this paper proposes a method of underwater acoustic target recognition using multi-domain fusion features to input dual channel models respectively. First, the features of acoustic signal in frequency domain and time frequency are extracted by Mel-Frequency Cepstral Coefficients (MFCC) and short-time Fourier transform (STFT). Secondly, dense convolutional neural network (DenseCNN) and long short term memory network (LSTM) are constructed. The DenseCNN channel architecture uses skip connections to reuse all previous feature maps to optimize classification rates under various damaged conditions, and SE attention mechanism enables dynamic adjustment of feature weights. LSTM channels capture temporal dependencies and complement the model's ability to handle long dependencies. Experimental results show that the classification accuracy of the proposed method is better than other advanced neural network models at –20～10 db SNR.

Key words: underwater acoustic target recognition multidimensional time-frequency characteristics dual channel learning module

0 引　言

随着海洋开发不断深入，人们对声呐在水中目标识别方面的需求不断增长^[1]。然而，水下声传播受水体特性、压力、盐度等因素的影响，具有复杂性和不确定性，使得声音特征的提取和识别变得困难。此外，水下环境中存在各种来源的噪声，可能会覆盖或混淆目标声音，进而增加目标识别的难度。因此，许多国内外学者都在致力于这一领域的研究。

在水声信号的即时分类或实时处理应用中，模型需要能够快速、准确地对传入信号进行分类。Doan等^[2]提出一种重用所有以前特征映射的密集连接网络，使得特征传播更加直接和高效。在处理水下环境中存在各种来源的噪声方面，Zhou等^[3]针对抑制水下背景噪声，提出在每个子网中部署了一些堆叠的全频带子频带注意力（FSA）块，以捕获特征的全局依赖关系和细粒度局部依赖关系。Wang等^[4]提出一个卷积注意网络通过对时频图的全局信息进行加权，自适应地选择有效特征，辅助多分支骨干网进行分类识别。此外，针对复杂水声环境下的水声目标分类难题，刘承伟等^[5]建立基于多类别特征子集的三维聚合特征，采用双端注意力模型捕获样本的全局依赖和局部特性进行优化。杜柏润等^[6]将一维卷积网络和门控循环网络进行串联并对网络参数和模型结构进行优化。赵乾坤等^[7]利用目标的短时平稳特性和长时关联特性对目标的声纹特征进行建模，通过融合注意力机制和时延网络模型提取高级特性。李紫鹏等^[8]提出了一种特征模式分解后使用相关峭度作为优化目标分解参数，并根据子信号的相似性进行模式融合以增强特征表达的方法，以提高水声目标的准确识别。

本文结合水声信号的特征提取方法，首先将水声信号进行时域和时频上的维域特征融合，提出一种DenseCNN-LSTM双通道网络模型，将适合各通道的特征进行分别输入。其中DenseCNN通道架构采用跳跃连接重用所有以前的特征映射，并结合SE注意力机制使得动态调整特征权重。由于密集CNN通道擅长提取局部特征和空间信息，但对于水声信号数据中的长程依赖关系处理能力相对较弱。LSTM作为循环神经网络的一种，能够很好地捕捉长期依赖和时间上的模式，因此构建LSTM通道对其进行补充。结果分析表明，该方法能够构建出水声信号深层次的特征，较大提升了在不同信噪比下水声信号分类的准确率。

1 基本原理 1.1 提取被动声呐的多维域特征

由于水下环境的复杂性，其水声信号特征繁多，单一的特征并不能完全表示信号的特征^{[9 - 10]}，因此将通过时频变换获得声信号的时频成分以及能量分布，进行级联形成新的特征融合矩阵，这种多维声信号表征方式能够更有效地为DenseCNN-LSTM模型提供不同类别声信号的差异信息，进而提升模型的识别率。由于MFCC提取出的特征对于噪声的鲁棒性较强，因此采用MFCC从原始频谱图中提取关键的频率系数。

其中，水下声信号采样率为22050 Hz，每个信号被连续分割为1000个观测帧，每帧4096个采样点，指定时间窗口之间的重叠大小为512。通过对信号进行傅里叶变换、梅尔滤波器组合、对数压缩、离散余弦变换等步骤，每个音频帧都会生成13个MFCC系数，处理后的MFCC是一个14×23的二维矩阵。其中由于仅使用MFCC特征作为水声识别的输入特征容易导致水声信号高频成分的缺失，通过短时傅里叶变换对非平稳的水声信号进行特征补充。

STFT特征系数的实质是加窗的傅里叶变换。在声音信号做傅里叶变换前，先对其进行加窗处理，从而保证非平稳信号在窗口中的短时间内平稳。通过窗函数在时间轴上的移动，对信号进行逐段分析，从而得到语音信号的STFT特征。信号x(t)的短时傅里叶变换为：

$ \mathrm{S}\mathrm{T}\mathrm{F}\mathrm{T}(t,f)={\int }_{-\infty }^{\infty }x\left(\tau \right)h(\tau -t){e}^{-j2 {\text{π}} f\tau }{\mathrm{d}}\tau。$

(1)

式中：$ h(\tau -t) $为分析窗函数。

其中每个窗口包含512个采样点，帧移为160个采样点，保证信号在时间上的连续性。同时设置快速傅里叶变换（FFT）的点数为128，用于将时域信号转换为频域信号，生成65×23的特征矩阵。

提取MFCC和STFT后的特征，使用Concat方式将单一特征进行融合，扩大输入特征的维数大小为79×23，但并不改变输入特征的通道大小，其特征融合流程如图1所示。

图 1 特征融合流程图 Fig. 1 Feature fusion flow chart

1.2 融合SE的DenseCNN神经网络

DenseCNN作为一种卷积神经网络的变体，其网络结构中允许每一层的每个单元都与上一层的所有单元相连，充分利用输入数据的特征，在一定程度上减轻了梯度消失问题，从而提高网络的性能。本文使用的DenseCNN通道基于UATC-DenseNet网络进行修改。

DenseCNN通道的架构而言，经过数据预处理，将MFCC和STFT融合后的二维特征矩阵作为输入。输入层之后是一个批归一化层，以消除数据之间的量纲差异。

之后定义3个卷积块，生成相应的特征映射，分别包含卷积层，最大池化层，激活函数层，其中卷积运算的定义为：

$ y\left(i\right)={\mathrm{conv}}(\widehat{x},c)=\sum _{i}\widehat{x}\left(i\right)c\left(i\right)+b 。$

(2)

式中：$ \widehat{x} $为输入；c为卷积系数；b为偏置项。

然后经过一个空间最大池化层对特征进行下采样，去除弱特征的存在，并减少后面层的计算量。其定义为：

$ {y}_{pool}\left(i\right)=\max\left\{y\right(i-1),y(i),y(i+1\left)\right\}。$

(3)

在最大池化层之后是激活层。该层在网络中起着至关重要的作用。由于ELU（Exponential Linear Unit）函数在负数区域的曲线为指数增长，有助于避免某些神经元永远不会被激活的问题。此外，在负数区域的平滑性也有助于训练深度神经网络时更快地收敛。因此该层采用ELU函数作为激活函数，其定义为：

$ f(x)= \left\{\begin{array}{l}x ，x > 0，\\ a\cdot ({e}^{x}-1)，x\leqslant 0。\end{array}\right. $

(4)

式中：$ a $为一个正数，代表斜率。

通过跳跃连接将前面每一次经过卷积块的输出作为后面卷积块的输入，每次进行跳跃连接的路径上同样包含一个空间最大池化层，以加强显著特征的表达。经3个卷积块获取特征，整合这些信息并通过一个二维平均池化层和ELU激活函数处理后，得到一组特征。

接下来，使用SE（Squeeze-and-Excitation）注意力机制对这些特征进行加权，通过权重矩阵，从通道域的角度赋予其不同位置不同的权重，其算法流程如图2所示。

图 2 SE注意力机制流程图 Fig. 2 Flow chart of SE attention mechanism

首先，对输入特征图$ x $进行全局平均池化，得到每个通道的特征压缩。对于每个通道$ c $，全局平均池化表示为：

$ {z}_{c}=\frac{1}{H\times W}{\sum }_{i=1}^{H}{\sum }_{j=1}^{W}{X}_{i,j,c}。$

(5)

式中：$ {z}_{c} $为通道$ c $的压缩特征，$ H\times W $为特征图的高度和宽度。

通过学习2个全连接层F₁和F₂来计算每个通道的权重。首先利用ReLU函数对$ {z}_{c} $进行非线性映射：

$ {f}_{c}=\delta \left({F}_{1}\right({Z}_{c}\left)\right) 。$

(6)

式中：$ {f}_{c} $为经过非线性映射后的特征。

再将$ {f}_{c} $传递给第2个全连接层F₂，得到每个通道的激励权重：

$ {s}_{c}=\sigma \left({F}_{2}\right({f}_{c}\left)\right)。$

(7)

式中：$ {s}_{c} $为通道$ c $的激励权重；$ \sigma $为Sigmoid激活函数。

使用得到的激励权重$ {s}_{c} $对输入特征图进行加权：

$ {Y}_{i,j,c}={s}_{c}\cdot {X}_{i,j,c} 。$

(8)

这个过程对特征矩阵中每个位置$ ({i},{j}) $的每个通道$ c $都进行加权操作，最终输出加强了有用特征的特征图$ {Y} $。

最后经过Dropout层和全连接层，增强其泛化能力，将其转换为DenseCNN通道最终的输出特征。DenseCNN通道结构如图3所示。

图 3 DenseCNN通道结构图 Fig. 3 DenseCNN channel structure diagram

卷积神经网络虽然可以针对水声信号的每个片段进行处理，但在处理具有时间上前后相关性的序列时表现不够敏感，而水声信号具有明显的时序相关性。因此，为了增强模型对时序相关特征的提取能力，在DenseCNN之外引入一个LSTM通道。这样的双通道结构能更有效地捕获水声信号的特征，有助于提高分类性能。

1.3 LSTM神经网络

LSTM作为一种能够解决长期依赖问题的循环神经网络（RNN）变体，通过使用门控结构来控制信息流动，包括遗忘门、输入门和输出门。以下是LSTM的实现步骤:

1）遗忘门。它由一个Sigmoid激活函数控制。负责决定上一个记忆细胞状态$ {C}_{t-1} $中的哪些信息需要保留或遗忘，并且结合当前输入$ {X}_{t} $。其计算公式为：

$ {f}_{t}=\sigma ({W}_{f}\cdot [{h}_{t-1},{x}_{t}]+{b}_{f}) 。$

(9)

2）输入门。它包括Sigmoid激活函数和tanh激活函数。Sigmoid层决定哪些值需要被更新，tanh层则创建一个新的候选值向量，这些值可能会被加入到细胞状态中。其计算过程为：

$ {i}_{t}=\sigma ({W}_{i}\cdot [{h}_{t-1},{x}_{t}]+{b}_{i}) ，$

(10)

$ {\widetilde{C}}_{t}={\mathrm{tanh}}({W}_{C}\cdot [{h}_{t-1},{x}_{t}]+{b}_{C})。$

(11)

3）细胞状态更新。它通过组合遗忘门和输入门的结果来更新当前时间步的记忆细胞状态。更新公式为：

$ {C}_{t}={f}_{t}*{C}_{t-1}+{i}_{t}*{\widetilde{C}}_{t} 。$

(12)

4）输出门。它使用Sigmoid函数来筛选记忆细胞中的哪些部分将作为最终的输出。输出门的计算式为：

$ {o}_{t}=\sigma ({W}_{o}\cdot [{h}_{t-1},{x}_{t}]+{b}_{o}) ，$

(13)

$ {h}_{t}={o}_{t}\cdot{\mathrm{tanh}}\left({C}_{t}\right) 。$

(14)

其中：W和b分别为权重矩阵和偏置项；$ {x}_{t} $为当前时间步的输入；$ {h}_{t-1} $为上一个时间步的隐藏状态；$ {C}_{t-1} $为上一个时间步的细胞状态；$ {f}_{t} $为遗忘门的输出；$ {i}_{t} $为输入门的输出；$ {\widetilde{C}}_{t} $为输入门的候选值；$ {C}_{t} $为当前时间步的细胞状态；$ {o}_{t} $为输出门的输出；$ {h}_{t} $为当前时间步的隐藏状态输出。

通过建立LSTM通道，首先将数据展开以包含时间维度。接下来，将数据输入到具有128个隐藏单元的LSTM层中，以捕捉时间相关性。随后，经过Dropout层和全连接层的处理，以增强模型的泛化能力，并将其转换为LSTM通道的最终输出特征。在全连接层中指定12个神经元以对应于12个目标类别进行分类。整个LSTM模型的结构如图4所示。

图 4 LSTM通道结构图 Fig. 4 LSTM channel structure diagram

将来自DenseCNN通道和LSTM通道的特征执行元素级的加法操作，融合后的特征输入至Softmax层和分类层，以获得针对输入信号的目标预测结果。

2 仿真实验 2.1 实验数据集

为了验证模型在水声信号分类识别的性能，使用的数据集为由被动声呐系统采集的11种目标信号和1个纯噪声数据集。所有信号都由声呐专家进行标记，为挑战分类模型，这些信号带有一个加性合成噪声，其信噪比范围为–20～10 dB，步长为2 dB。在不同信噪比下测试12种信号的分类，其中，将数据集随机分为70%用于训练，30%用于测试。

2.2 模型训练

基于Win11操作系统在Matlab R2022b平台上对模型进行训练。通过12类水声数据集上评估的实验结果，证明了DenseCNN-LSTM双通道模型在各信噪比条件下的效率，图5为该模型的整体结构图。在模型参数方面，DenseCNN-LSTM双通道模型使用adam优化器进行40轮的训练，初始学习率为0.001，以每迭代5轮减小0.1的速度递减。小批次样本大小为64。为防止网络过拟合，在训练过程中采用了概率为20%的dropout技术和0.0001的L2正则化。

图 5 DenseCNN-LSTM双通道模型结构图 Fig. 5 Structure diagram of DenseCNN-LSTM dual-channel model

在表1和表2中，对于DenseCNN通道和LSTM通道进行了详细的描述和分析，包含2个通道内部结构、层次组织、参数设置以及网络架构的设计。突显了每个通道的特定优势和设计考量，使得在处理水信号目标识别任务中发挥各自的作用。

表 1 DenseCNN通道模型结构 Tab.1 Structure of DenseCNN channel model

表 2 LSTM通道模型结构 Tab.2 LSTM channel model structure

2.3 训练结果分析

采用对比实验的方法，验证了本文提出的融合特征在分别输入双通道模型后对于UA信号分类的有效性，并对实验结果进行分析和论证。

为了验证融合特征和单一特征对分类效果的影响，在DenseCNN-LSTM双通道模型中，依次将原始时域信号（TD）、MFCC、STFT和融合后的特征作为模型的输入，进行分类对比实验，其中，模型的超参数和数据集的划分标准保持不变。对比实验结果如表3所示。

表 3 不同特征输入不同通道识别对比 Tab.3 Comparison of recognition of different channels with different feature inputs

实验结果表明，在DenseCNN通道输入MFCC_STFT融合特征，LSTM通道输入MFCC特征后识别率高于其他方式3%～5%，有效提升了模型的整体识别率。

由图6可知，DensesCNN-LSTM双通道模型和所对比的UATC-DenseNet模型在–20～10 dB下每一类的平均分类情况，其中对于T01、T02和T09的提升较明显，达到7.7%～9.6%，Noise、T04和T07的分类结果有微小提升，其余6类提升约2.6%～4.1%。总体分类情况均高于UATC-DenseNet模型。

图 6 不同目标的分类准确度 Fig. 6 Classification accuracy of different targets

此外，对比和UATC-DenseNet、Vggish、SqueezeNet、VGG16-Finetune主流模型在不同信噪比下的验证准确率。由图7可知，在0～10 dB下，所提模型准确率可达到99.5%以上，其中SqueezeNet模型表现较差，准确率为97.2%，另外3种模型约为98.3%，相比提升1.2%～2.3%。在0～–10 dB下，所提模型准确率可达到95%～99%，提升2.67%～4.93%，同时在–10～–20 dB下准确率远高于对比模型。

图 7 不同信噪比下模型准确率对比 Fig. 7 Comparison of model accuracy under different SNR

由表4可知，在–20～10 dB下，所提模型参数量小于Vggish、SqueezeNet、VGG16-Finetune三种模型，略高于UATC-DenseNet模型，为272.2 K，所提模型验证准确率为88.21%，相比另外4种模型，验证准确率提高2.8%～4.7%。

表 4 不同模型性能对比 Tab.4 Comparison of different model performance

3 结　语

本文针对水声信号特性，利用12类水声目标信号数据集，提出了基于信号多维域融合和DenseCNN-LSTM双通道模型的识别方法。在不同信噪比下展示了水声信号的准确度验证，并与4种主流模型进行比较。性能评估显示，DenseCNN-LSTM双通道模型在分类和精度方面明显优于其他主流模型，能够更准确地分类水声目标，有效提升了水声信号的识别能力。

参考文献

[1]	张奇, 笪良龙, 王超, 等. 基于深度学习的水声被动目标识别研究综述[J]. 电子与信息学报, 2023, 45(11): 4190-4202.
[2]	DOAN V S, HUYNH T, KIM D S. Underwater acoustic target classification based on dense convolutional neural network[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 19: 1-5.
[3]	ZHOU A, ZHANG W, LI X, et al. A Novel Noise-Aware Deep Learning Model for Underwater Acoustic Denoising[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-13.
[4]	WANG B, ZHANG W, ZHU Y, et al. An underwater acoustic target recognition method based on AMNet[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 1-5.
[5]	刘承伟, 洪峰, 冯海泓, 等. 结合多尺度卷积网络和双端注意力机制的水声目标识别[J]. 声学技术, 2023, 42(2): 161−167.
[6]	杜柏润, 章博. 基于卷积和循环网络的水声信号联合特征表示和识别方法[J]. 舰船科学技术, 2023, 45(15): 107-110. DU Borun, ZHANG Bo. Joint feature representation and recognition method of underwater acoustic signals based on convolutional and cyclic networks[J]. Ship Science and Technology, 2023, 45(15): 107-110.
[7]	赵乾坤, 刘峰, 梁秀兵, 等. 基于时延神经网络模型的舰船辐射噪声目标识别[J]. 应用声学, 2023, 42(5): 1033−1041.
[8]	李紫鹏, 纪永强, 郭兵勇, 等. 基于特征模式分解的水声目标特征提取方法[J]. 哈尔滨工程大学学报, 2023, 44(9): 1542-1548.
[9]	李林桦, 王学渊, 李小霞. 融合多维时频特征的环境声识别[J]. 制造业自动化, 2021, 43(6): 49−52+94.
[10]	姜子星. 基于特征融合与软注意力机制的环境声识别技术研究[D].广州: 广东工业大学, 2022.


舰船科学技术 2024, Vol. 46 Issue (20): 142-147 DOI: 10.3404/j.issn.1672-7649.2024.20.026	PDF