长短时记忆网络水下目标噪声智能识别方法

引用本文

张少康, 王超, 田德艳, 张小川. 长短时记忆网络水下目标噪声智能识别方法. 舰船科学技术, 2019, 41(12): 181-185 复制到剪切板

ZHANG Shao-kang, WANG Chao, TIAN De-yan, ZHANG Xiao-chuan. Intelligent recognition of underwater target noise based on long short-term memory networks. Ship Science and Technology, 2019, 41(12): 181-185 复制到剪切板

长短时记忆网络水下目标噪声智能识别方法

张少康¹, 王超¹, 田德艳², 张小川¹

1. 海军潜艇学院，山东青岛 266000;
2. 海洋科学与技术国家实验室，山东青岛 266000

收稿日期: 2018-09-05.

作者简介: 张少康(1990 – )，男，博士研究生，研究方向为海洋环境效应技术

摘要: 未来基于水下无人平台的水声目标探测体系要求平台自身具备目标智能化识别能力，而传统水下目标噪声识别方法需要人工提取泛化能力强的特征数据，且识别过程具有较强的人机交互特性，无法满足这一要求。针对这一问题，本文研究一种基于长短时记忆网络（LSTM）的水下目标噪声智能识别方法，借助深度学习自主学习数据特征的能力，应用长短时记忆网络（LSTM）分别对水下目标噪声的时域时间序列数据、频谱数据、梅尔倒谱（MFCC）数据进行深层次特征提取与识别，并使用实际水声目标噪声信号对该方法进行了验证。结果表明，在上述3种输入数据情况下，采用LSTM长短时记忆模型均能有效实现水下目标噪声特征提取与智能识别。

关键词: 深度学习长短时记忆网络水下目标辐射噪声特征提取智能识别

Intelligent recognition of underwater target noise based on long short-term memory networks

ZHANG Shao-kang¹, WANG Chao¹, TIAN De-yan², ZHANG Xiao-chuan¹

1. Navy Submarine Academy, Qingdao 266000, China;
2. National Laboratory for Marine Science and Technology, Qingdao 266000, China

Abstract: In the future, the underwater acoustic target detection system based on the unmanned underwater platform requires the platform itself to have the ability of intelligent target recognition, while the traditional method of underwater target noise recognition needs to manually extract the feature data with strong generalization ability. And the recognition process has a strong human-computer interaction characteristics, which can not meet this requirement. To solve this problem, an intelligent underwater target noise recognition method based on long short-term memory network (LSTM) is studied in this paper. The time domain time series data, frequency spectrum data and Mel frequency cepstrum coefficient(MFCC) data of underwater target noise are extracted and recognized by long short-term memory network (LSTM). The method is verified by underwater acoustic target noise signal. The results show that the long-short term memory network adopted in this paper can effectively achieve underwater target noise feature extraction and intelligent recognition under the above three input data conditions.

Key words: deep learning long short-term memory network underwater target radiated noise feature extraction intelligent recognition

0 引　言

特征向量提取方法一直以来都是水下目标辐射噪声识别问题的研究重点。文献[1 – 4]就舰船螺旋桨空化噪声调制线谱特征提取方法及建模进行了相关研究，文献[5 – 8]就舰船辐射噪声的低频线谱特征的提取进行了研究，文献[9 – 11]开展了舰船辐射噪声功率谱相关分析研究，文献[12 – 14]则就舰船辐射噪声的时域及非线性特征提取方法进行了研究。但是，传统水声目标特征提取方法大都需要通过人工分析手段提取时频谱特征或其他类型的特征，目标识别过程具有较强的人机交互特性，需要研究人员具备较强的数据分析能力、先验知识及专业素养。

近几年，随着浮标潜标、水下滑翔机、AUV、UUV等水下无人潜航器的发展，基于水下无人平台的声学探测体系正在不断建立完善，未来水下无人平台水声目标探测系统要求平台自身具备目标探测、跟踪及自动识别能力，传统水下目标识别方法已无法满足此需求，因此，智能识别方法将成为今后水下目标识别领域的研究重点之一。目前，已有学者开展了相关方面的研究工作。文献[15] 针对水声目标小样本识别问题，提出了基于混合正则化深度置信网络的水声目标深度特征学习及识别方法；文献[16]通过建立SDAE堆栈式自编码模型，对水下目标辐射噪声谱数据进行逐层降维特征提取；文献[17]使用卷积神经网络（CNN）与深度置信网络（DBN），对3类水下目标进行了识别；文献[18] 采用听觉感知和卷积神经网络模拟人类听觉系统的听音判型过程对舰船辐射噪声进行分类识别，通过一个5层卷积神经网络对舰船目标信号的二维听觉图谱进行了特征提取。

在众多深度学习网络模型中，循环神经网络（RNN）^[19]是专门用于处理时序序列的神经网络，其变体模型长短时记忆网络（Long Short-Term Memory, LSTM）^{[20 – 21]}由于有效弥补了RNN梯度消失和梯度爆炸、长期记忆不足等问题，使得循环神经网络能够真正有效应用于长时时序问题。目前，LSTM模型已成功应用于语音识别^[22]、故障时间预测^[23]等领域。然而，在水声探测领域其应用相当有限，特别是对于水下目标识别问题，目前还未发现相关研究。

本文针对水下目标辐射噪声智能化识别这一问题，提出一种基于LSTM长短时记忆网络的识别方法，给出了详细网络结构设计方案，并针对实际应用中存在的有偏估计、数据分布不平衡等问题提供了一定的解决方案。在此基础上，分别以水下目标辐射噪声时域时间序列数据、频谱数据、MFCC特征数据为网络输入向量，进行深层次特征提取和分类识别研究，并采用实际水声信号对该方法进行验证，证明了将LSTM长短时记忆网络应用于水下目标识别的有效性。

1 LSTM长短时记忆网络识别模型 1.1 LSTM长短时记忆网络模型

长短时记忆网络（Long Short Term Memory Networks，LSTM）是循环神经网络（RNN）的改进形式，其基本单元被称为记忆块，由一个中心节点和3个门控单元组成。中心节点通常被称为记忆细胞，用以存储当前网络状态，3个门控单元分别通常被称作输入门、输出门和遗忘门，用以控制记忆块内信息流动。在前向传播过程中，输入门用以控制输入到记忆细胞的信息流，输出门用以控制记忆细胞到网络其他结构单元的信息流；在反向传播过程中，输入门用以控制迭代误差流出记忆细胞，输出门用以控制迭代误差流入记忆细胞。而遗忘门则用以控制记忆细胞内部的循环状态，决定信息的取舍或遗忘。通过这种门控机制，LSTM网络得以控制单元内信息流动，使其具备保存长时间信息的能力，即“记忆”能力，在训练过程中能够防止内部梯度受外部干扰，避免了梯度弥散和梯度爆炸问题。

图 1 LSTM基本结构单元^[24] Fig. 1 Basic structure unit of LSTM

设单个LSTM记忆块的输入向量为 ${{{x}}_t}$ ，输出向量为 ${{{y}}_t}$ ，前向传播公式可表述为^[25]：

1）长期记忆单元 ${{{C}}_t}$ 更新过程

${{{f}}_t} = \sigma ({{{W}}_f} \times [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_f}){\text{，}}$

(1)

${{{i}}_t} = \sigma ({{{W}}_i} \times [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_i}){\text{，}}$

(2)

${\tilde {{C}}_t} = \tanh ({{{W}}_c} \times [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_c}){\text{，}}$

(3)

${{{C}}_t} = {{{f}}_t} \bullet {{{x}}_t} + {{{i}}_t} \bullet {\tilde {{C}}_t}{\text{。}}$

(4)

其中： ${{{f}}_t}$ 代表遗忘门； ${{{i}}_t}$ 代表输入门。在每一个时刻，遗忘门会控制上一时刻记忆的遗忘程度，而输入门则控制新记忆 ${\tilde {{C}}_t}$ 写入长期记忆的程度。 ${{{f}}_t}$ ， ${{{i}}_t}$ ， ${\tilde {{C}}_t}$ 都是与上一时刻的短期记忆 ${{{h}}_{t - 1}}$ 和当前时刻输入 ${{{x}}_t}$ 相关的函数，其中， $\sigma $ 是sigmoid函数，取值范围[0, 1]，tanh函数取值范围[–1, 1]。

2）短期记忆单元 ${{{h}}_t}$ 更新过程

${{{h}}_t} = {{{o}}_t} \bullet \tanh ({{{C}}_t}){\text{，}}$

(5)

${{{o}}_t} = \sigma ({{{W}}_o} \times [{{{h}}_{t - 1}},{{{x}}_t}] + {{{b}}_o}){\text{。}}$

(6)

其中， ${{{o}}_t}$ 表示输出门，控制着短期记忆如何受长期记忆影响。

单个LSTM细胞的输出 ${{{C}}_t}$ ， ${{{h}}_t}$ 循环作为层内细胞的输入输出，即第t-1时刻细胞单元输出 ${{{C}}_{t - 1}}$ ， ${{{h}}_{t - 1}}$ 为下一时刻LSTM细胞的输入值，此为层内循环。层内各时刻LSTM细胞共用相同权重参数 ${{{W}}_{lstm}}$ 及偏置系数 ${{{b}}_{lstm}}$ ，因此，单层LSTM网络可看做单个LSTM细胞输入输出值的循环计算。此外，细胞单元输出 ${{{h}}_t}$ 还作为下一层LSTM网络对应细胞单元的输入 ${{{x}}_t}$ 参与到该层循环计算中，此为层间循环。LSTM网络采用BPTT算法^[26]进行训练，其主要步骤为：1）按式（1）～式（6）前向计算LSTM网络输出值；2）反向计算每个LSTM细胞单元误差项；3）根据误差项，计算相应权重参数梯度；4）通过相关优化算法更新权重；5）重新按步骤1进行前向计算，依此循环。

在深度学习模型优化方面，目前已有众多成熟算法，如基本的随机梯度下降（SGD）、动量、Nesterov动量算法及自适应学习率算法，如AdaGrad，RMSProp，Adam等算法，本文使用优化算法为Adam算法。在模型正则化策略方面，选取目前最为流行的dropout算法^[27]，以提高模型的泛化能力。相关研究表明，dropout算法能够有效抑制模型的过拟合现象，提高模型的鲁棒性。

1.2 LSTM识别模型

结合LSTM网络模型相关理论及水下目标辐射噪声数据特点，本节给出基于LSTM的水下目标辐射噪声识别方法，相关识别框图如图2所示。按网络结构，可将该模型分为输入层、LSTM特征学习层、特征分类层3部分；按功能，可将该模型分为数据预处理、模型训练与识别分类3个模块。

图 2 LSTM识别框图 Fig. 2 Recognition diagram of LSTM

输入层主要进行数据预处理工作，包括对目标噪声信号进行分析、获取时域、频谱或其他类型数据信息，模型输入数据标准化操作，以及输入层到LSTM层数据非线性变换等工作。设归一化后输入数据向量为 ${{{X}}_{in}} = \{ {x_1},{x_2},\cdots\cdots,{x_m}\} $ ，LSTM层每层块循环次数为T，则将输入 ${{{X}}_{in}}$ 按T进行分割，后按时序顺序经非线性变换，输出作为LSTM层输入向量 ${{{X}}_{lstm}}$ 。整个过程按公式可描述为：

${{X}}_{in}' = \{ {x_{k + 1}},{x_{k + 2}},\cdots\cdots,{x_{k + n}}\} ,k = 0,1,\cdots,t\text{，}$

(7)

${{X}}_{lstm}^{(k)} = {{{W}}_{in}}{{X}}_{in}' + {{{b}}_{in}},k = 0,1,\cdots,t\text{，}$

(8)

${{{X}}_{lstm}} = \{ {{X}}_{lstm}^{{{(1)}^\prime }},{{X}}_{lstm}^{{{(2)}^\prime }},\cdots,{{X}}_{lstm}^{{{(t)}^\prime }}\}\text{。}$

(9)

其中， ${{{W}}_{in}}$ ， ${{{b}}_{in}}$ 为输入层权重参数和偏置系数， $n = m/T$ ，为正整数。

LSTM层主要对输入数据进行非线性特征提取，深度学习模型具有从大量数据中自主学习特征的能力，LSTM层输出即为网络模型自主学习到的特征数据。 ${{{X}}_{lstm}}$ 作为该层输入向量，按照式（1）～式（6）逐层进行前向计算，由最后一层各LSTM块输出 ${h_t}$ 共同组成LSTM层输出向量 ${{{X}}_{out}}$ ，即

${{{X}}_{out}} = \{ {h_1},{h_2},\cdots,{h_T}\}\text{。} $

(10)

分类层或输出层主要以softmax分类器构成，以LSTM层输出向量作为分类器输入，通过计算信号所属各类别概率给出识别结果。

2 模型验证

对于未来基于水下无人平台的声学探测设备，主要对水下目标进行警戒探测，因此判定本文所提出模型有效性的标准就是能否正确区分水面、水下两类目标，基于此判定标准，进行如下验证：

模型训练数据库包含各种已知类别的舰船辐射噪声数据近1 600条，按1s时长进行处理，分别获取噪声信号的时域时间序列数据、频谱数据及MFCC梅尔倒谱特征数据作为LSTM识别模型的样本库数据，其中样本总数为65 284，其中水面目标样本数42 375，水下目标样本数22 909，3种输入数据条件下LSTM网络参数如表1所示。

表 1 LSTM网络参数 Tab.1 Parameters of the LSTM

同时，为保证验证结果有效性，按照4/5比例从样本库中随机抽取数据组成多组训练样本，剩余1/5作为测试样本，各组测试结果如表2所示。

表 2 测试结果 Tab.2 Test results

第1组条件下LSTM智能识别模型对时域数据、频谱数据及MFCC数据训练效果如图3所示。

图 3 训练效果图 Fig. 3 Classification of Training data

以上几组测试数据表明，在以时域时间序列数据、频域频谱数据和MFCC特征数据作为输入向量的情况下，采用LSTM模型对水下目标噪声进行识别分类是可行的。另外，在上述4组训练模型条件下，输入向量为时域数据时，对水面目标分类正确率大于80%，对水下目标分类正确率大于71%；输入向量为频谱数据时，对水面目标分类正确率大于80%，对水下目标分类正确率大于71%；输入向量为MFCC数据时，对水面目标分类正确率大于84%，对水下目标分类正确率大于74%。

3 结　语

本文提出一种基于长短时记忆网络的水下目标智能识别方法。该方法首次将深度学习中的LSTM长短时记忆网络应用于水下目标噪声识别，分别以噪声信号的时域时间序列数据、频域频谱数据、MFCC数据作为模型的输入向量，有监督预训练LSTM模型，并对未知类别的水下目标噪声数据进行了识别分类。识别结果表明，在上述3种输入数据条件下，该方法能够有效区分水面、水下两类目标。从整个识别分类过程来看，区别于传统水下目标噪声识别方法，该方法能够在不依赖人工提取噪声信号特征向量的基础上对水下目标进行识别，满足未来水下无人移动声学探测平台智能化识别水下目标的需求。

参考文献

[1]	何国庚. 空泡发生与运动理论及其应用[D]. 南昌: 华中理工大学, 2000.10, 82–86. HE Guo-geng. Theory and application of cavitation formation and motion[D]. Nanchang: Central China University of Technology, 2000.10, 82–86.
[2]	吴国清, 李靖, 陈耀明, 等. 舰船噪声识别(I)—总体框架、线谱分析和提取[J]. 声学学报, 1998, 23(5): 394-400. WU Guo-qing, LI Jing, CHEN Yao-ming, et al. Ship radiated-noise recognition(Ⅱ)—the overall framework, analysis and extraction of line-spectrum[J]. ACTA ACUSTICA, 1998, 23(5): 394-400.
[3]	吴国清, 李靖, 陈耀明, 等. 舰船噪声识别(Ⅱ)—线谱稳定性和唯一性[J]. 声学学报, 1999, 24(1): 6-11. WU Guo-qing, LI Jing, CHEN Yao-ming, et al. Ship radiated-noise recognition(Ⅱ)—stability and uniqueness of line spectrum[J]. ACTA ACUSTICA, 1999, 24(1): 6-11.
[4]	程玉胜, 王易川, 史广智. 基于现代信号处理的技术的舰船噪声信号DEMON分析[J]. 声学技术, 2006, 25(1): 71-74. CHENG Yu-sheng, WANG Yi-chuan, SHI Guang-zhi. DEMON analysis of underwater target radiation noise based on modern signal processing[J]. Technical Acoustics, 2006, 25(1): 71-74. DOI:10.3969/j.issn.1000-3630.2006.01.016
[5]	李启虎, 李敏杨. 水下目标辐射噪声中单频信号分量的检测:理论分析[J]. 声学学报, 2008, 33(3): 193-196. LI Qi-hu, LI Min-yang. The detection of single frequency component of underwater radiated noise of target: theoretical analysis[J]. Acta Acustica, 2008, 33(3): 193-196. DOI:10.3321/j.issn:0371-0025.2008.03.001
[6]	李启虎. 水下目标辐射噪声中单频信号分量的检测:数值仿真[J]. 声学学报, 2008, 33(4): 289-293. LI Qi-hu. The detection of single frequency component of underwater radiated noise of target: digital simulation[J]. Acta Acustica, 2008, 33(4): 289-293. DOI:10.3321/j.issn:0371-0025.2008.04.001
[7]	HAWKES M. Acoustic vector-sensor processing in the presence of a reflecting boundary[J]. IEEE Transactions on signal processing, 2000, 48(11): 2981-2993. DOI:10.1109/78.875455
[8]	HAWKES M. Wideband source localization using a distributed acoustic vector-sensor array[J]. IEEE Transactions on signal processing, 2003, 51(6): 1479-1491. DOI:10.1109/TSP.2003.811225
[9]	吴国清, 陈永强. 水声瞬态信号短时谱形态及谱相关法检测[J]. 声学学报, 2000, 25(6): 511-516. WU Guo-qing, CHEN Yong-qiang. The analysis of underwater transient signal and their detection by spectral correlation[J]. ACTA ACUSTICA, 2000, 25(6): 511-516.
[10]	彭圆, 申丽然, 李雪耀. 基于双谱的水下目标辐射噪声的特征提取与分类研究[J]. 哈尔滨工程大学学报, 2003, 24(4): 390-394. PENG Yuan, SHEN Li-ran, LI Xue-yao. Bispectrum based feature extraction and classification of radiation noises from underwater targets[J]. Journal of Harbin Engineering University, 2003, 24(4): 390-394. DOI:10.3969/j.issn.1006-7043.2003.04.009
[11]	陈敬军, 陆佶人. 被动声纳线谱检测技术综述[J]. 声学技术, 2004, 23(1): 57-60. CHEN Jing-jun, LU Ji-ren. A review of techniques for detection of line-spectrum in passive sonar[J]. Technical Acoustics, 2004, 23(1): 57-60. DOI:10.3969/j.issn.1000-3630.2004.01.015
[12]	李思纯. 基于矢量水听器的目标特征提取与识别结束研究[D]. 哈尔滨: 哈尔滨工程大学, 2007 LI Si-chun. The feature extraction and targets recognition based on vector hydrophone[D]. Harbin : Harbin Engineering University, 2007
[13]	李新欣. 船舶及鲸类声信号特征提取和分类识别研究[D]. 哈尔滨: 哈尔滨工程大学, 2012 LI Xin-xin. Research on feature extraction and classification of ship noise and whale sound[D]. Harbin : Harbin Engineering University, 2012
[14]	孟庆昕. 海上目标被动识别方法研究[D]. 哈尔滨: 哈尔滨工程大学, 2016 MENG Qing-xin. Research on rassive recognition methods of marine targets[D]. Harbin : Harbin Engineering University, 2016
[15]	杨宏晖, 申昇, 姚晓辉, 等. 用于水声目标特征学习与识别的混合正则化深度置信网络[J]. 西北工业大学学报, 2017, 4, 35(2): 220-225. YANG Hong-hui, SHEN Sheng, YAO Xiao-hui, et al. Underwater acoustic target feature learning and recognition using hybrid regularization deep belief networks[J]. Journal of Northwestern Polytechnical University, 2017, 4, 35(2): 220-225. DOI:10.3969/j.issn.1000-2758.2017.02.008
[16]	陈越超, 徐晓男, 姚晓辉, 等. 基于降噪自编码的水中目标识别方法[J]. 声学与电子工程, 2018, 1: 30-33. CHEN Yue-chao, XU Xiao-nan, YAO Xiao-hui, et al. Underwater target recognition based on denoising autoencoder[J]. Acoustics and Electronic Engineering, 2018, 1: 30-33.
[17]	王强, 曾向阳. 深度学习方法及其在水下目标识别中的应用[J]. 声学技术, 2015, 4, 34(2): 138-140. WANG Qiang, ZENG Xiang-yang. Deep learning methods and their applications in underwater targets recognition[J]. Technical Acoustics, 2015, 4, 34(2): 138-140.
[18]	张大伟, 章新华, 付留芳等. 基于听觉感知与卷积神经网络识别舰船目标[J]. 声学技术, 2015.12, 34(6):181–184. ZHANG Dawei, ZHANG Xinhua, FU Liufang. Recognition of ships based on auditory sense and convolutional neural networks[J]. 2015.12, 34(6):181–184.
[19]	LECUN Y, BENGIO Y, HINTON G. Deep Learning[J]. Nature, 2015, 521(7544): 436-444.
[20]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[21]	GRAVES A. Long short-term memory[M]. Berlin:Springer, 2012:1735-1780.
[22]	舒帆, 屈丹, 等. 采用长短时记忆网络的低资源语音识别方法[J]. 西安交通大学学报, 2017, 10, 51(10): 120-127. SHU Fan, QU Dan. A Speech recognition method using long short-term memory network in low resources[J]. Journal of Xi’an Jiao Tong University, 2017, 10, 51(10): 120-127.
[23]	王鑫, 吴际, 等. 基于LSTM循环神经网络的故障时间序列预测[J]. 北京航空航天大学学报, 2017, 10, 51(10): 120-127. WANG Xin, WU Ji. Exploring LSTM based recurrent neural networks for failure time series prediction[J]. Journal of Beijing University of Aeronauties and Astronautics, 2017, 10, 51(10): 120-127.
[24]	KLAUS Greff, RUPESH K, Srivastava, et al. LSTM: A Search Space Odyssey[C]. IEEE Transactions on Neural Networks and Learning Systems, 2017.10, 28(10), 2222–2232.
[25]	ALEX Graves. Learning precise timing with LSTM recurrent networks[J]. Journal of Machine Learning Research, 2003, 3(3): 115-143.
[26]	IAN Goodfellow, Yoshua Bengio, Aaron Courville.Deep Learning[M]. Journal of Machine Learning Research, vol.3, 379-396.
[27]	NITISH Srivastava, GEOFFREY Hinton, et al. Dropout: A Simple Way to Prevent Neural Networks from Overfitting[J]. Journal of Machine Learning Research, 2014(15): 1929-1958.


舰船科学技术 2019, Vol. 41 Issue (12): 181-185	PDF