2. 山西格盟中美清洁能源研发中心有限公司,山西 太原 030000
2. Shanxi Gemeng Sino-US Clean Energy R&D Center Co. Ltd., Taiyuan 030000, China
水声目标识别问题是水声领域的关键问题,现代反潜技术的发展对水声被动识别技术提出了更高的要求。
水声目标识别问题具有极大的复杂性,复杂的水下环境会使辐射噪声特性产生畸变[1],使得水下声音目标识别具有比常规语音识别更高的难度,技术进展一直比较缓慢,所以必须致力于研究更加精准的水声目标识别方法。
水声目标识别的任务是通过声呐接收的水声信号进行分析,判别目标的性质。深度学习目前成为各行业的热点技术,它凭借着非常强的特征提取以及优化能力,给水声目标识别技术开拓了新的发展空间[2]。目前很多学者将卷积神经网络(CNN)应用于水声目标识别,HU等[3]将深度可分卷积和时间膨胀卷积用于被动水声目标识别,其识别精度达到90.9%。王小宇等[4]提出一种新型CNN结构用于实现水下目标的自动识别,在网络结构中加入了一层核为1的卷积层,这样的设计使得音频信号的时域信息得到了更好的保存,从而达到更高的识别精度,所提出的改进型网络识别正确率高达91.7%。
长短时记忆网络(long short-term memory, LSTM)拥有特殊的结构,通常被应用于语音识别。其适合于对时间序列中有较长间隔的事件进行处理、预测,而船舶辐射噪声的分析也很大程度上依赖于局部时频信息和时序相关信息,因此也适用于水声领域。张少康等[5]改进了网络的输入特征,将多类别融合特征输入到LSTM网络中进行水声目标识别分类,相比于单一类别特征的传统判定方法,识别的正确率、虚警率等相关指标均有提高。
目前不同国家地区的许多研究人员都致力于提升水声目标识别的精度,但由于单一神经网络的识别框架难以全面提取水声信号的各方面特征,研究方向通常在于研发更深、更复杂的网络,训练起来也存在许多困难。
本文研究了各种相关水声目标识别技术后,构建一种联合一维卷积神经网络与LSTM网络的识别框架,结合2种网络模型的长处,搭建了一种新型的串行网络,用提取到的船舶音频信号特征作为输入,对网络进行训练,以期用一种易于训练的简单网络实现更高精度的目标识别。
1 识别原理 1.1 卷积神经网络CNN通常包括卷积、池化和全连接3种网络层,其中,池化层也被称为降采样层。在卷积层与池化层中,通常包含多个特征矩阵,这些不同的特征矩阵是由不同的卷积核生成的,通过多层的卷积和池化,可以达到将数据降维的效果,最后通过分类层即可获得预测的类别标签[6]。
由于机器视觉的发展,目前二维卷积应用得更为广泛,二维卷积适用于图形的识别。由于本文要完成的任务是对一维声音信号进行识别,因此使用一维卷积(1D-CNN)。1D-CNN模型如图1所示。
卷积神经网络中完成的最关键的与其他网络不同的运算就是卷积。卷积层能够通过卷积核,从输入中抽取重要特征,形成特征向量。其运算表达式为:
$ {X^l} = {X^{l - 1}} * {W^l} + {b^l},$ | (1) |
式中,
通过卷积操作的线性变换,从输入数据中提取出具有区分性的特征,通过激活操作进行非线性变换,得到更加适宜用于分类的特性。激活操作需要由设置激活函数来完成,本文使用常见的ReLU函数,其表达式为:
$ f\left( x \right) = \max \left( {0,x_j^l} \right)。$ | (2) |
由于提取的数据特征有比较高的维度,容易造成网络对训练集的过度拟合,因此通常加入池化层来提高运算速度,减少训练时间并能有效防止训练过拟合[7],池化层也是通过一个运算核在输入矩阵上进行滑动运算,但池化层的运算核不含任何的参数,它通常分为最大池化、平均池化2种,把上一层指定范围内矩阵元素的最大值或者是平均值,作为本层的输出。池化层的输出为:
$ {X^{\text{l}}} = S\left[ {{X^{l - 1}}} \right],$ | (3) |
其中
$ S[ {X^{l - 1}} ] = {\mathop {\max }\limits_{0 < n \leqslant w}} x_n^{l - 1}。$ | (4) |
式中:
经过多层的卷积、池化后,就可以利用分类层完成分类识别的任务。
1.2 长短时记忆网络LSTM网络由于其能够从每一个序列中分析提取数据的特点,常被广泛地用来处理序列数据,能够很好地建模数据之间的短时依赖或者是长时依赖[8]。它是一种循环链路相互连接的网络结构,网络整体实现的仍然是循环神经网络,但网络中还存在着LSTM块的小循环,与普通循环神经网络的区别就在于把神经元替换成了LSTM块。它的最大优势是能够在多个节点之间进行链接,把相同隐藏层之间的节点串联起来,实现各个节点之间的参数都是共享的,这样就使得它们在技术上能够完全区别于其他的网络[9]。
LSTM块如图2所示。
遗忘门
$ f_i^{\left( t \right)} = \sigma \left( {b_i^f + \sum\limits_j {U_{i,j}^fx_j^{\left( t \right)} + \sum\limits_j {W_{i,j}^fh_j^{\left( {t - 1} \right)}} } } \right)。$ | (5) |
其中:
LSTM块的更新计算为:
$ s_i^{\left( t \right)} = f_i^{\left( t \right)}s_i^{\left( {t - 1} \right)} + g_i^{\left( t \right)}\sigma \left( {{b_i} + \sum\limits_j {U_{i,j}^fx_j^{\left( t \right)} + \sum\limits_j {W_{i,j}^fh_j^{\left( {t - 1} \right)}} } } \right)。$ | (6) |
其中:
$ g_i^{\left( t \right)} = \sigma \left( {b_i^g + \sum\limits_j {U_{i,j}^gx_j^{\left( t \right)} + \sum\limits_j {W_{i,j}^gh_j^{\left( {t - 1} \right)}} } } \right)。$ | (7) |
输出门
$ h_i^{\left( t \right)} = \tan h \left( {s_i^{\left( t \right)}} \right)q_i^{\left( t \right)},$ | (8) |
$ q_i^{\left( t \right)} = \sigma \left( {b_i^o + \sum\limits_j {U_i^ox_j^{\left( t \right)} + } \sum\limits_j {W_i^oh_j^{\left( {t - 1} \right)}} } \right)。$ | (9) |
其中:
LSTM网络比普通的循环网络实现的计算要更加复杂,但它在学习长期依赖方面的表现是优于目前已知的任何循环网络的,且在序列处理任务上有非常良好的表现。
2 实验数据 2.1 数据集本文使用的船舶辐射噪声数据来自2012年和2013 年在西班牙海岸不同地区录制的ShipsEar[10]数据集。该数据集共有在15 s~10 min以内的11种舰船类型以及环境噪声共90条音频记录,按照数据集原文的标注,根据舰船种类可以将它们合并为A,B,C,D 等 4个大类, 以及环境噪声E类,每类中包含的船只种类如表1所示。
由于原始数据集均为海洋实测数据,在一些数据集中存在噪声过大、有空白段等问题,90条音频数据集需要经过一些预处理。
首先剔除部分采集效果差的音频,剩余的音频中,手动去除采集时留下的空白段,并将音频进行了去噪处理,部分声音较小的音频数据进行了数据增强。为了增大数据集,将原始的90段音频信号分割为3 s的片段。
针对这4900条音频数据,对其提取5种特征。
1)提取梅尔频谱,得到基于梅尔标度的梅尔频谱图[11],对得到的矩阵进行列压缩,计算每行的平均值,返回一个(128,1)的特征向量。
2)提取梅尔频率倒谱系数[12],它是一种利用人的非线性听觉系统,对音频频谱进行非线性的转化,对应到梅尔频谱上,再进行从梅尔频谱到倒谱的二次转换得到的系数。在这里设定其输出的行维度为40,同样再对得到的系数矩阵进行列压缩,得到最终维度为(40,1)的特征向量。
3)对音频进行短时傅里叶变换的结果中计算色谱图[13],由于其反映的特征与12个不同的音高等级有关,因此最终得到的向量大小为(12,1)。
4)提取光谱对比度[14],得到的向量大小为(6,1)。5)提取调性网络[15],得到的向量大小为(7,1)。
提取了5种特征后,对得到的5条特征向量进行融合,每条音频数据都将得到一个(193,1)的特征向量,作为网络的输入。
处理流程如图4所示。
原数据集中每条音频都有对应标号,按照原文标注进行手动筛选,去除部分无法处理、录制效果差的音频,将剩下的音频进行处理后得到如表2所示的实际使用数据集。
为了更好地对网络进行验证,用随机抽取的方式将4900个样本以4∶1的比例划分为训练集与测试集,样本个数为训练集3920个,测试集980个。
3 网络搭建1D-CNN网络运用了一维卷积的方式来处理一维序列模型,在音频识别方面有比较多的运用。由于船舶的航行是一个连续过程,其声信号特征就必定具有时间上的连续性,因此可以考虑用处理时序信号的方法来进行船舶目标识别。
船舶水声信号特征在当前时刻发生变化,但可以利用之前记忆的历史信息来及时捕捉当前的目标信号特征,这就需要用到LSTM网络。将1D-CNN与LSTM网络相结合,可以使系统快速适应信号变化,提升识别的正确率。
因此本文将构建一种1D-CNN与LSTM网络的联合模型,网络模型如图4所示。
网络的具体参数如表3所示。
基于前文所述的数据集,将所有4900个音频片段随机划分为训练集与测试集,测试集占全体数据的20%。
搭建好联合网络模型之后,设置网络训练参数如表4所示。
经过100次迭代,训练过程中识别正确率与损失值的变化过程如图5和图6所示。
联合网络对于数据集的分类准确度在训练集上达到了96.73%,在测试集上也达到了92.14%。
为了验证本文提出的联合网络性能相比于传统网络有无优化,将其与常用的单一1D-CNN和LSTM网络进行了识别正确率的比较,结果如表5所示。
通过对比,发现联合网络的识别正确率相比于单一LSTM网络在训练集上提高了14.46%,相比于单一1D-CNN网络提高了10.75%,在测试集上,相比于LSTM网络,正确率提高了16.04%,比1D-CNN网络提高了7.96%,
为了更加直观地看到3种网络针对Shipsear数据集的识别表现,对测试集上的识别结果进行了可视化,运用的方式是绘制混淆矩阵,结果如图7所示。
其中横纵坐标的0~5分别代表标签A-E。
通过混淆矩阵可以计算出3种网络对于五类船舶目标的识别情况如表6所示。
可见联合网络对于5类目标的识别正确度在3种网络中都是最高的,由此可以推出,提出的联合网络对于提升水声目标识别的准确度有很大的帮助。
5 结 语为了研究出具有更高识别精度的网络结构,改善单一的神经网络在分类识别时的缺陷,充分利用船舶噪声信号是时序信号的特点,本文提出一种联合1D-CNN与LSTM网络的新模型,通过将2种网络串联的结构来增强识别效果,并首次将其运用于水声识别领域。
经过试验论证,在Shipear数据集上,本文提出的联合网络识别正确率相比于传统神经网络有了较大的提高,且网络结构简单、参数少、训练时间短,为水声目标识别方法提供了新的发展方向。
本文的不足之处在于使用的数据集单一,无法验证在实际的海洋环境中此网络的表现。努力的方向是扩大数据集,多采集实测海洋环境中的船舶噪声音频信号,通过增大数据集个数,不断训练优化网络参数,增强网络的普适性。
[1] |
章业成. 水声目标识别技术的现状与发展[J]. 电子技术与软件工程, 2019(18): 97−98. KANG Y, WANG Y, WANG Y, et al. A new method for detecting underwater acoustic targets [J]. IEEE Transactions on Geoscience and Remote Sensing, 2015, 18 (1): 69−72. |
[2] |
王培兵, 彭圆. 深度学习在水声目标识别中的应用研究[J]. 数字海洋与水下攻防, 2020, 3(1): 11-17. WANG Peibing, PENG Yuan. Application of deep learning in underwater acoustic target recognition[J]. Digital Oceans and Underwater Offense and Defense, 2020, 3(1): 11-17. |
[3] |
HU Gang, WANG Kejun, LIU Liangliang. Underwater acoustic target recognition based on depthwise separable convolution neural networks[J]. Sensors, 2021, 21(4).
|
[4] |
王小宇, 李凡, 曹琳, 等. 改进的卷积神经网络实现端到端的水下目标自动识别[J]. 信号处理, 2020, 36(6): 958-965. |
[5] |
张少康, 王超, 孙芹东. 基于多类别特征融合的水声目标噪声识别分类技术[J]. 西北工业大学学报, 2020, 38(2): 366-376. ZHANG Shaokang, WANG Chao, SUN Qindong. Recognition and classification of underwater acoustic target noise based on multi-category feature fusion[J]. Journal of Northwestern Polytechnical University, 2020, 38(2): 366-376. DOI:10.3969/j.issn.1000-2758.2020.02.018 |
[6] |
CHENG Wensheng, YANG Wen, et al. Context aggregation network for semantic labeling in aerial images[J]. Remote Sensing, 2019, 11(10): 1158. DOI:10.3390/rs11101158 |
[7] |
王升贵, 胡桥, 陈迎亮, 等. 基于深度学习的水下目标识别方法研究[J]. 舰船科学技术, 2020, 42(23): 141-145. WANG Shenggui, HU Qiao, CHEN Yingliang, et al. Research on underwater target recognition method based on deep learning[J]. Ship Science and Technology, 2020, 42(23): 141-145. |
[8] |
张少康, 王超, 田德艳, 等. 长短时记忆网络水下目标噪声智能识别方法[J]. 舰船科学技术, 2019, 41(23): 181-185. ZHANG Shaokang, WANG Chao, TIAN Deyan, et al. Underwater target noise intelligent recognition method based on short and long time memory network[J]. Ship Science and Technology, 2019, 41(23): 181-185. |
[9] |
卢安安. 基于深度学习方法的水下声音目标识别研究[D]. 哈尔滨: 哈尔滨工程大学, 2017.
|
[10] |
Santos-Domínguez D, Torres-Guijarro S, Cardenal-López A, et al. Shipsear: An underwater vessel noise database[J]. Applied Acoustics, 2016, 113: 64–69.
|
[11] |
BOGHDADY N El, LANGNER F, GAUDRAIN E, et al. Effect of spectral contrast enhancement on speech-on-speech intelligibility and voice cue sensitivity in cochlear implant users. [J]. Ear and Hearing, 2020.
|
[12] |
杨路飞, 章新华, 吴秉坤, 等. 基于MFCC特征的被动水声目标深度学习分类方法[J]. 舰船科学技术, 2020, 42(19): 129−133. YANG Lufei, ZHANG Xinhua, WU Bingkun, et al. A deep learning classification method for passive underwater acoustic target based on mfcc feature [J]. Ship Science and Technology, 202, 42(19): 129−133. |
[13] |
李阳. 面向声音事件的特征提取与识别方法研究[D]. 成都: 电子科技大学, 2020.
|
[14] |
JIANG Dan-Ning, LIE Lu, et. al. Music type classification by spectral contrast feature[C]//Proceedings of 2002 International Conference on Multimedia and Expo, Lausanne, 2002: 113−116.
|
[15] |
HOOK J. Generic sequences and the generic tonnetz[J]. Journal of Music Theory, 2020, 64(1).
|