2. 大连测控技术研究所,辽宁 大连 116013
2. Dalian Scientific Test and Control Technology Institute, Dalian 116013, China
水声信号识别方法的关键是特征提取、特征选择和分类器的设计,其中特征提取的好坏直接影响到分类器的性能,传统的水声信号识别方法将以上各个关键技术分开处理,其中特征提取是从原始水声信号中提取特征,如将Demo谱、MFCC、听觉特征等作为分类器的输入,这些特征容易受到主观经验的影响且对数据有较高的要求。海洋环境背景噪声复杂多变,海洋声信道是时变、空变的随机信道[3],使得水声信号很容易发生畸变,传统特征的分类性能在不同数据集上的表现差异较大,对水声信号分类识别的区分不够明显。如何从原始水声信号中提取出随环境调节的自适应特征是解决上述问题的难点。得益于深度学习在语音识别领域的成功应用,近年来,国内外的很多学者将深度学习方法应用到水声信号识别中。文献[4]主要采用一维卷积网络对环境声信号进行端到端的分类,平均识别精度达到89%。文献[5]通过建立CNN和DBN模型对水下目标进行识别,取得了较好的识别效果。深度学习具有强大的自主学习能力,将特征提取和分类作为一个模型中的整体,省去了传统方法中单独提取特征和分类的复杂步骤,能够提升水声信号识别的整体性能。
本文结合水声信号自身的特点,设计一种一维卷积网络和门控循环网络串联方法,一维卷积网络具有自适应表征学习、时间平移不变性等特点,门控循环网络具有记忆功能,能够很好利用时序信号的相互关系,水声信号是时间连续的时域波形信号,信号前后间有关联性,联合使用一维卷积网络和门控循环网络提取的特征会更全面。本文将原始水声信号波形输入作为进入模型,进行端到端的特征表征学习和识别,并与使用单一的一维卷积网络和循环网络的训练结果进行对比。结果分析表明,该方法能够逐层构建出水声信号高层次的特征,更有利于提升水声信号的分类效率。
1 基本原理 1.1 一维卷积神经网络(1DCNN)卷积神经网络是一种深度学习网络,是专门用来处理具有类似网格结构数据的神经网络[1],因网络内部包含卷积运算而得名,具有自适应表征学习、局部连接、权值共享以及时空平移不变性等特点,通常由卷积层、池化层、激活层等组合而成。一维卷积神经网络的卷积核和池化层的平移方向都是一维,其工作原理如图1所示。图中使用大小为5的卷积核处理水声时域信号,一维卷积网络通常应用在信号处理中,如振动信号故障诊断、语音识别等。在原始水声信号中,一维卷积网络能够直接从中识别出信号的局部特征,因为一维卷积神经网络具有时间平移不变性,对每个水声信号段都执行相同的输入变换,所以在水声信号片段中某个位置学习得到的特征都可在其他位置被识别,因此能够减少卷积网络的参数总量,提高网络模型的稳定性和泛化能力。本文使用的一维卷积网络是在LeNet网络基础上进行网络层数和模型参数修改的。
卷积层是整个卷积网络的核心层,等效于使用傅里叶变换将输入与卷积核都转换到频域,执行2个信号的逐点相乘,再使用傅里叶逆变换转换回时域[1]。它能够自适应调节网络参数来逐层学习原始水声信号的特征。本文采用的水声信号为3 s长的波形,采样率为25kHz,输入为25000×3的一维矢量。假设
$ {s_t} = \sum\limits_{k = 1}^K {{w_k} \times {x_{t - k + 1}}} 。$ | (1) |
池化层是使用经卷积层输出后某一位置相邻输出的总体统计特征来代替网络在该位置的输出[1],这样做的好处为:一是可以减少网络结构中参数,提升网络模型的计算效率;二是通过对几个结点选水声信号相邻片段内部的最大值进行输出,可对水声信号的局部特征进行再一次的抽象表达,从而增加模型对水声信号特征的鲁棒性。
ReLU激活函数是一种简单的非线性变换,该函数只保留正数,将负数清零[2],因此 ReLU函数的计算量小,并且不易发生过拟合。本文在网络模型的每个卷积层后都匹配一个ReLU激活层,由此得到的输出为该卷积层对水声信号局部特征的观察结果。
$ {Re} LU(x) = \max (x,0) 。$ | (2) |
一维卷积网络可分别处理每一个输入的水声信号片段,因此对具有时间前后相关的序列不敏感,提取的特征信息步,水声信号序列具有时序相关性。因此,为了进一步提升模型的特征提取能力,提高水声信号的识别效率,在1DCNN后串联一层GRU层联合进行水声信号的特征表示,将更有利于分类。
1.2 门控循环神经网络(GRU)循环神经网络是一类用于处理序列数据的神经网络[1],输出的每一项是前一项的函数,文献[6]的研究证明了声学的波动方程与RNN循环网络在计算上存在着对应关系,同时水声信号属于时间序列,具有时序相关性。因此它适用于水声信号的识别,但早期的RNN循环网络受限于短期记忆问题,在处理长期依赖的水声信号时容易出现梯度消失和爆炸,即如果一个序列足够长,那很难把信息从较早的时间步传输到后面的时间步。LSTM引入门控单元(输入门、遗忘门、输出门)的内部反馈机制,具备选择性保留或遗忘某些信息的能力,能够避免在时间序列上丢失信息。GRU网络是LSTM循环神经网络的一种效果很好的变体,与LSTM相比,GRU内部少了一个门控,将LSTM的输入门和遗忘门合并为更新门,较LSTM网络的结构更加简单;参数比LSTM更少,训练速度更快,且分类精度保持不变。GRU的网络结构图如图2所示。
GRU网络的核心结构为更新门和重置门,输入均为当前时间步输入
$ \begin{split} & {h_i}^{(t)} = {u_i}^{(t - 1)}{h_i}^{(t - 1)} + (1 - {u_i}^{(t - 1)})\times \\ & \sigma \left({b_i} + \sum\limits_j {{U_{i,j}}{x_j}^{(t)}} + \sum\limits_j {{W_{i,j}}^u} {r_j}^{(t - 1)}{h_j}^{(t - 1)}\right) 。\end{split} $ | (3) |
其中,u为更新门,用于控制前一时刻的隐藏层状态有多大程度更新到当前隐藏层状态,其公式为:
$ {u_i}^{(t)} = \sigma \left({b_i}^u + \sum\limits_j {u{{_i^u}_{,j}}} x_j^{(t)} + \sum\limits_j {W_{i,j}^u} h_j^{(t)}\right),$ | (4) |
其中,r为重置门,用于控制前一时刻的隐藏层状态有多大程度更新到当前候选隐藏层状态,其公式为:
$ {r_i}^{(t)} = \sigma \left({b_i}^r + \sum\limits_j {u{{_i^r}_{,j}}} x_j^{(t)} + \sum\limits_j {W_{i,j}^r} h_j^{(t)}\right) 。$ | (5) |
本文设计了1DCNN与GRU串联的网络,网络共7层,其中1DCNN网络有4层。参考了LeNet模型,在此基础上修改了模型层数和参数,1DCNN有2个卷积层,负责自适应提取水声信号的特征。每个卷积层的后面都加了ReLU激活函数,在2个卷积层间增加了2×2的最大池化层,以减少网络结构中的参数,同时起到降低过拟合的作用,水声信号特征经池化层输出后进入Dropout层,加入该层的目的是避免数据样本不平衡导致出现过拟合,之后将学习得到的水声信号特征输入到GRU网络中,进一步学习水声信号的时序相关特征。在该网络后面还有一层Dropout,最后使用Dense层对水声信号进行分类,网络模型结构如图3所示。
为了验证网络模型在水声信号分类识别的性能,使用实测的水声信号数据集对方法进行验证,根据数据的种类分成A,B,C3类,共7345个样本。其中B类样本较少,样本之间不平衡,容易导致模型过拟合,故在网络模型中考虑使用丢弃法,来降低模型的过拟合。每个数据样本时长3 s,训练时将所有的水声信号片段随机划分为75%的训练集,25%的测试集,数据集情况如表2所示。
基于ubuntu操作系统在Mxnet平台下对模型进行训练,模型算法使用python语言编写,训练网络模型的超参数设置如表3所示。
根据设计的模型和数据集对网络模型进行训练,训练过程如图4所示。
从图4可知,本文提出的模型在训练过程中趋于收敛,未出现欠拟合或过拟合的现象,也未发生梯度消失或爆炸,训练和测试识别准确率都达到了较高精度。
网络模型经过100次迭代后,将本文方法与使用单一的1DCNN和GRU网络的识别准确率进行对比,以此来验证本文提出的1DCNN-GRU网络联合特征表示和识别的性能。表4为1DCNN、GRU和1DCNN-GRU模型的性能对比。可以看出,1DCNN-GRU网络的训练集准确率和测试集准确率明显高于1DCNN和GRU,测试集准确率比使用1DCNN方法提高了17.2%,比使用GRU方法提高了5.2%。在训练和测试时间上,1DCNN-GRU和GRU均低于1DCNN所使用的时间,因此1DCNN-GRU在水声信号的特征表示和识别性能上具有明显优势。
本文结合水声信号的特点,以3类水声信号数据集为研究对象,提出了基于1DCNN-GRU联合特征表示和识别的方法,并与单独使用1DCNN和GRU网络模型的分类性能进行对比。实验结果表明,本文提出的方法识别准确率可达97.8%,并且训练时间较短,分类性能优于其他2种模型,能够提高水声信号的识别能力。
[1] |
伊恩. 古德费洛, 约书亚. 本吉奥, 亚伦. 库维尔. 深度学习[M]. 北京: 人民邮电出版社, 2018.
|
[2] |
阿斯顿. 张, 李沐, 扎卡里. C. 立顿, 亚历山大. J. 斯莫拉. 动手学深度学习[M]. 北京: 人民邮电出版社, 2019.
|
[3] |
惠俊英, 生雪莉. 水下声信道[M]. 哈尔滨: 哈尔滨工程大学出版社, 2011.
|
[4] |
ABDOLI S, CARDINAL P, LAMEIRAS KOERICH A. End-to-end environmental sound classification using a 1D convolutional neural network[R]. arXiv, 2019.
|
[5] |
王强, 曾向阳. 深度学习方法及其在水下目标识别中的应用[J]. 声学技术, 2022, 44(1): 136-141. |
[6] |
HUGHES Tyler W, WILLIAMSON Ia A. D, MOMCHIL M, et al. Wave physics as an analog recurrent neural network[R]. Science Advances, 2019.
|
[7] |
权稳稳, 林明星. CNN特征与BOF相融合的水下目标识别算法[J]. 山东大学学报, 2019, 49(1): 107-113. |