基于深度学习的水下目标识别方法研究

引用本文

王升贵, 胡桥, 陈迎亮, 叶明刚. 基于深度学习的水下目标识别方法研究. 舰船科学技术, 2020, 42(12): 141-145 复制到剪切板

WANG Sheng-gui, HU Qiao, CHEN Ying-liang, YE Ming-gang. Research on underwater target recognition method based on deep learning. Ship Science and Technology, 2020, 42(12): 141-145 复制到剪切板

基于深度学习的水下目标识别方法研究

王升贵¹, 胡桥², 陈迎亮¹, 叶明刚¹

1. 中国船舶集团公司第七〇五研究所昆明分部，云南昆明 650118;
2. 西安交通大学机械学院，陕西西安 710049

收稿日期: 2020-08-20.

作者简介: 王升贵(1978-)，男，高级工程师，主要从事机电一体化研究

摘要: 针对传统机器学习在水下目标识别方面严重依赖先验知识、识别精度低的难题，提出基于深度学习的水下目标辨识方法。该方法通过短时傅里叶变换进行时频分析获取水下目标信号的LOFAR谱图，将目标从一维序列空间映射至类别可分性更高的二维矢量空间。利用深度卷积神经网络自适应实现对目标LOFAR图特征提取，最后采用全连接层将特征变换至类别空间，用Softmax函数实现水下目标智能辨识。结合7类不同水下目标的实测舰船辐射噪声数据从网络模型结构参数、激活函数、池化方法以及数据片段长度等方面对深度学习分类精度进行验证。结果表明，利用二维时频谱图变换和卷积神经网络相结合的方法可有效降低噪声的影响，分类精度可达98.57%。验证了基于深度学习的水下目标辨识方法的有效性，为海洋装备智能目标探测与识别提供了一种新的研究思路与方法。

关键词: 水下目标识别时频分析深度学习卷积神经网络

Research on underwater target recognition method based on deep learning

WANG Sheng-gui¹, HU Qiao², CHEN Ying-liang¹, YE Ming-gang¹

1. The 705 Research Institute of CSSC Kunming Branch, Kunming 650118, China;
2. Xi′an Jiaotong University, School of Mechanical Engineering, Xi′an 710049, China

Abstract: Aiming at the problem that traditional machine learning relies heavily on prior knowledge and low recognition accuracy in underwater target recognition, an underwater target recognition method based on deep learning is proposed. This method uses short-time Fourier transform to perform time-frequency analysis to obtain the LOFAR spectrogram of the underwater target signal, and maps the target from a one-dimensional sequence space to a two-dimensional vector space with higher class separation. Then the deep convolutional neural network is used to adaptively extract the features of the target LOFAR map, and finally the fully connected layer is used to transform the features into the category space, and the softmax function is used to realize the intelligent identification of underwater targets. Combining the actual measured ship radiated noise data of 7 different underwater targets, the deep learning classification accuracy is verified from the network model structure parameters, activation function, pooling method, and data segment length. The results show that the two-dimensional time-spectrogram transform and The combined method of convolutional neural network can effectively reduce the impact of noise, and the classification accuracy can reach 98.57%, which verifies the effectiveness of the underwater target identification method based on deep learning, and provides a new approach for intelligent target detection and recognition of marine equipment Research ideas and methods.

Key words: underwater target recognition time-frequency analysis deep learning convolutional neural network

0 引　言

水下目标的分类识别是水声领域研究的热点问题，对于现代海洋装备目标探测尤为关键。最早兴起的目标分类辨识技术是机器学习，基于机器学习的水下目标分类可以摆脱人工经验限制，比传统信号分析更加精准有效，但由于其需要复杂的特征工程结构进行分类决策，识别精度存在瓶颈，无法进行多任务学习，难以满足水下目标智能辨识高精度的要求，越来越多的学者开始将深度学习引入水下目标的智能辨识以解决上述问题。深度学习是一种利用非线性信息处理技术实现多层次、有监督或无监督的特征提取和转换，并进行模式分析和分类的机器学习理论和方法。2006年，由加拿大多伦多大学Hinton等首次提出深度学习的概念，并将理论模型发表于Science期刊，开启了深度学习领域的浪潮^[1]。此后，随着各国学者不断探索，深度学习理论不断在医学、教育、工业等研究领域取得重大成果。

在水下目标处理方面，由于深度学习理论可以打破现有的水声目标识别中对先验知识和特征提取方法等的依赖，能够从原始信号进行学习，完成特征提取，极大降低噪声的影响，实现分类决策的自主化与智能化，近年来也有学者在进行不断深入的研究。2017年，杨宏晖等^[2]采用混合正则化深度置信网络进行舰船辐射噪声识别，表明通过描述深度特征能够提高水声目标识别率。2018年，陈越超等^[3]采用降噪自编码器的方法对辐射噪声进行识别，分类结果优于传统的BP神经网络和支持向量机。2019年，吕海涛等^[4]采用卷积神经网络对分帧并归一化后的舰船噪声信号进行分类，结果显示分类性能优于传统高阶谱分类方法。水声深度学习目标分类辨识常采用的方法如图1所示。

图 1 深度学习水下目标分类方法 Fig. 1 Deep learning underwater target classification method

基于以上工作，本文提出利用二维时频谱图（LOFAR谱）和深度学习方法（卷积神经网络）相结合的方式，对舰船辐射噪声信号进行特征提取和分类。采用短时傅里叶变换（short-time-Fourier-transform, STFT）方法通过分帧、加窗的方式对时间序列分段求取功率谱。通过对每一帧的功率谱数值离散化并用色阈值表示，将每一帧的数值依次叠加获得谱图，即LOFAR谱。LOFAR谱中包含了时域和频域的信息，可以作为分类识别的依据。然后搭建深度卷积神经网络，进行迭代更新模型参数完成对LOFAR谱图特征信息的提取，最后通过类别映射实现水下目标的分类辨识，并且验证了不同的网络模型结构参数、激活函数、池化方法以及数据片段长度均会对深度学习模型分类精度造成的影响，为深度学习水下目标分类辨识提供了一种新思路。

1 基于深度学习的水下目标识别基本理论

本文提出的基于深度学习的水下目标识理论别主要包括LOFAR谱变换理论和卷积神经网络理论两部分。

1.1 二维时频谱图—LOFAR谱

LOFAR谱图分析方法基于短时傅里叶变换产生的，其工作流程如图2所示。LOFAR谱中包含了丰富的时域和频域的信息，可以作为分类识别的依据。

图 2 LOFAR谱生成过程 Fig. 2 Generation process of the LOFAR spectrum

1）分帧。由于舰船、潜艇等噪声信号具有时变性和非平稳性，因此可以对一个时间片段进行频谱分析，通常取几十毫秒并认为此时间区域内信号为稳态。从整段信号中取出一部分片段即称为分帧。实际分帧时帧与帧之间往往存在重叠部分，目的是使信号帧之间过渡平缓。

2）加窗。信号分帧时采用窗函数在原信号上滑动截取的方式实现，选取窗函数时需要考虑窗函数的类型和宽度，尽量使得窗函数两侧过渡平滑，常用的窗函数有矩形窗、汉明窗、海宁窗等。

${\text{矩形窗}}:\omega \left( n \right) = \left\{ {\begin{array}{*{20}{c}} {1,0 \leqslant n \leqslant M - 1}{\text{，}}\\ {0,\;{\rm{otherwise}}}{\text{；}} \end{array}} \right.$

(1)

${\text{汉明窗}}:\omega \left( n \right) = \left\{ {\begin{array}{*{20}{c}} {0.54 - 0.46\cos \left( {\dfrac{{2{\text{π}} n}}{{M - 1}}} \right),1 \leqslant n \leqslant M}{\text{，}}\\ {0,\;{\rm{otherwise}}}{\text{；}} \end{array}} \right.$

(2)

${\text{海宁窗}}:\omega \left( n \right) = \left\{ {\begin{array}{*{20}{c}} {0.5\left[ {1 - \cos \left( {\dfrac{{2{\text{π}} n}}{{M + 1}}} \right)} \right],1 \leqslant n \leqslant M}{\text{，}}\\ {0,\;{\rm{otherwise}}}{\text{。}} \end{array}} \right.$

(3)

其中，M为窗长度。汉明窗可以避免信号泄露，应用最为广泛，实际使用中应注意窗函数类型和宽度的选取。

3）FFT。快速傅里叶变换，对信号分帧加窗后，对每一帧信号进行傅里叶变换，将时域信号转换为频域信号， $X\left( {i,k} \right) = FFT\left[ {{x_i}\left( m \right)} \right]$ 。

4）取log。对FFT后的数据计算谱线能量， $E\left( {i,k} \right) = {\left[ {{X_i}\left( k \right)} \right]^2}$ 。通常会在取log求对数谱 ${\rm{log}}\left( {E\left( {i,k} \right)} \right)$ ，使得频谱能量更加紧凑。

5）色域映射。将能量谱幅值进行离散化，通常取256阶，从而将能量谱转化为灰度或RGB色值。

最后，通过将大量帧的离散色值按照时间顺序进行堆叠即获得LOFAR谱图（也称为声谱图，Spectrogram谱图）。可以用于进一步的目标分辨、自动识别分类等应用。

1.2 卷积神经网络理论

20世纪80年代，就提出了卷积神经网络（convolutional neural networks, CNN）方法。直到1998年，LeCun等^[5]在研究手写数字识别问题时，将梯度反向传播算法和卷积神经网络进行结合，提出深度卷积神经网络LeNet（见图3），其极高的识别率结果将卷积神经网络处理方法推向了蓬勃发展的新阶段。卷积神经网络的典型结构包含卷积层、池化层（也称为降采样层）、全连接层等，卷积层和池化层通常包含多个特征图像（由不同卷积核生成），通过多层的卷积和池化，可以将数据从二维矩阵转化为一维特征向量，最后通过Softmax等分类层即可获得预测的类别标签。

图 3 LeNet卷积神经网络，用于识别手写数字集 Fig. 3 LeNet convolutional neural network for recognizing handwritten digit sets

1）卷积层

卷积层是卷积神经网络的核心，通过卷积核可以从输入中提取丰富的特征从而形成特征图像。假设卷积层的输入为X，卷积核为k，则单次卷积输出y为：

$\begin{split}{y_{{l_1},{l_2}}} =& {\rm{conv}}\left( {X,k} \right) =\\ &f\left( {\mathop \sum \limits_{i = 1}^\sigma \mathop \sum \limits_{j = 1}^\sigma X\left( {i + {l_1},j + {l_2}} \right) \cdot k\left( {i,j} \right) + b} \right)\text{。}\end{split}$

(4)

其中：σ为卷积核大小；l₁和l₂为卷积核在输入图像上所处的位置；b为偏置项；f为激活函数，如ReLU激活函数、Sigmoid激活函数等。

通过设置步长使得卷积核遍历整个二维输入图像矩阵，便可求得卷积层输出特征图像矩阵：

${{Y}} = \left( {\begin{array}{*{20}{c}} {{y_{11}}}& \ldots &{{y_{1n}}}\\ \vdots & \ddots & \vdots \\ {{y_{m1}}}& \cdots &{{y_{mn}}} \end{array}} \right)\text{。}$

(5)

其中：输出特征图像大小m，n由原图像大小、卷积核大小以及卷积核移动步长决定。

2）池化层

池化层也称为降采样层，是在卷积层之后对特征参数进行压缩，从而降低卷积神经网络特征数量和网络参数，提高运算速度，减少训练时间并能有效防止训练过拟合。与卷积层运算类似，池化层也是通过一个运算核在输入图像矩阵上进行滑动计算。不同的是池化层的运算核不含参数，而是采用计算区域内的最大值或平均值的方式输出。与之相对的池化层分别称为最大池化层（max-pooling）和平均池化层（average-pooling）。假设池化层输入为X，核为k（σ×σ），池化输出y为：

${y_{{l_1},{l_2}}} = \mathop {{\rm{max}}}\limits_{i \in \left[ {1,\sigma } \right],j \in \left[ {1,\sigma } \right]} \left( {X\left( {i + {l_1},j + {l_2}} \right)} \right)\text{，}$

(6)

或

${y_{{l_1},{l_2}}} = \mathop {{\rm{average}}}\limits_{i \in \left[ {1,\sigma } \right],j \in \left[ {1,\sigma } \right]} \left( {X\left( {i + {l_1},j + {l_2}} \right)} \right)\text{。}$

(7)

其中：σ为池化运算核大小；l₁，l₂为运算核在图像上的位置。

通过运算核遍历整个二维输入图像矩阵，便可求得特征图像输出矩阵：

${{Y}} = \left( {\begin{array}{*{20}{c}} {{y_{11}}}& \ldots &{{y_{1n}}}\\ \vdots & \ddots & \vdots \\ {{y_{m1}}}& \cdots &{{y_{mn}}} \end{array}} \right)\text{。}$

(8)

池化运算时通常步长与运算核维数一致，因此池化层输出图像大小m, n由输入图像大小和核大小决定。

3）全连接层和Softmax层

经过多层的卷积层和池化层处理后的特征矩阵，采用全连接层将图像矩阵排列成一位数组的形式输出，从而完成分类任务。一般CNN最后会采用1～2层全连接层，将特征摆成一维形式并对特征进一步提取，最终输出向量元素个数与待预测的标签类别数相同。最后采用Softmax激活函数，便可以得到每个标签类别的预测概率。

全连接层的输出为：

${z_i} = X \cdot {w_i} + b\;\;\;i \in \left[ {1,K} \right]\text{。}$

(9)

其中：z_i为全连接层输出向量Z的第i个元素；X为全连接层输入特征矩阵或特征向量；w_i为输出向量第i个元素的加权求和向量；K为输出向量的元素个数。

Softmax层输出为：

${p_i} = \frac{{{e^{{z_i}}}}}{{\mathop \sum \nolimits_{k = 1}^K {e^{{z_k}}}}}\text{。}$

(10)

其中：z_i为输入特征向量第i个元素；p_i为softmax层输出第i个值，即表示待分类数据属于第i类的概率。

2 二维时频谱图与深度学习相结合目标分类识别实验分析 2.1 舰船辐射噪声数据集

用代表7类不同水下目标的实测舰船辐射噪声对二维时频谱图深度学习目标分类模型进行验证。采频为8000 Hz，采样时间10 s，即总共80000个采样点。其归一化时域和频域信号如图4和图5所示。

图 4 7类舰船噪声归一化信号 Fig. 4 Normalized signal of 7 types of ship noise

图 5 7类舰船噪声归一化信号能量谱 Fig. 5 Normalized signal energy spectrum of 7 types of ship noise

通过对辐射噪声信号进行分帧加窗求取FFT（即短时傅里叶变换，STFT），将一维数据转化为二维时频谱图（LOFAR谱），如图6所示。

图 6 7类舰船噪声信号LOFAR谱 Fig. 6 LOFAR spectrum of 7 types of ship signal

由于深度学习训练需要大量数据，通过在原始信号进行分段截取的方法进行数据库建立。本章在原始信号上截取8000个点为一个片段，片段之间重叠部分7000个点，即每组信号可以生成72个数据片段，共计7类504个数据。通过LOFAR谱图转化最终生成504张二维时频谱图供后续训练分类。

2.2 舰船辐射噪声信号谱图深度学习分类实验结果

构建卷积神经网络结构如图7所示，采用3层卷积层对图像特征进行提取，最后连接一层全连接层和Softmax层进行分类预测。

图 7 卷积神经网络结构 Fig. 7 Structure of convolutional neural network

卷积神经网络各层主要参数如下：

输入层：本章中生成二维时频谱图格式为224×224，RGB三通道，因此输入层与之对应为224×224×3；

卷积层1：卷积核3×3，共8个，步长为1；

池化层1：最大池化层，池化核2×2，步长为2；

卷积层2：卷积核3×3，共16个，步长为1；

池化层2：最大池化层，池化核2×2，步长为2；

卷积层3：卷积核3×3，共32个，步长为1；

全连接层：输入为7×1向量（与类别数相同）；

Softmax层：根据全连接层输出按照Softmax函数判断类别。

采用分层抽样将数据集划分为训练样本集和测试样本集，最终训练测试结果如表1所示。

将卷积层的卷积核大小修改为5×5，7×7，9×7，11×11，训练与测试数据之比为36/36，对不同卷积核大小对卷积神经网络分类精确度的影响进行测试，结果如表2所示。

表 1 卷积神经网络训练测试结果 Tab.1 Training result of Convolutional neural network

表 2 不同卷积核大小对分类精度的影响 Tab.2 The effect of different convolution kernel sizes on classification accuracy

将卷积层的激活函数设置为ReLU，ELU，tanh，验证不同激活函数对卷积神经网络分类性能的影响。训练与测试数据之比为36/36，结果如表3所示。

表 3 不同激活函数对分类精度的影响 Tab.3 The effect of different activation functions on classification accuracy

将卷积神经网络中池化层分别设置为最大池化和平均池化层，验证不同池化方法对卷积神经网络分类性能的影响。训练与测试数据之比为36/36，结果如表4所示。

表 4 不同池化层对分类精度的影响 Tab.4 The effect of different pooling layers on classification accuracy

调整数据单元长度，取时间长度分别为0.2s，0.4s，0.6s，0.8s，1.0s，其对应LOFAR谱如图8所示。验证不同数据长度对卷积神经网络分类性能的影响。训练数据集与验证数据集之比为80%/20%。结果如表5所示。

图 8 不同数据单元长度对应的二维谱图 Fig. 8 Two-dimensional spectra corresponding to different data unit lengths

表 5 不同数据单元长度对分类精度的影响 Tab.5 The effect of different data unit length on classification accuracy

综合上述结果可以看出，尽管CNN各层的结构以及网络参数也会对分类性能造成影响，但深度学习方法对于舰船辐射噪声信号的总体分类效果较好，在水下目标智能识别方面具有可行性和广阔的应用前景。

3 结　语

通过以上实验，得出以下结论：

1）基于二维时频谱图变换和卷积神经网络相结合的深度学习模型能够对不同类型的舰船辐射噪声进行分类；

2）不同的网络模型结构参数、激活函数、池化方法以及数据片段长度均会对深度学习模型分类精度造成影响，但总体来说深度学习对于水下目标识别保持较高的准确率，为海洋装备目标探测提供了一种新思路。

参考文献

[1]	HINTON G, SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(504).
[2]	杨宏晖, 申昇, 姚晓辉, 等. 用于水声目标特征学习与识别的混合正则化深度置信网络[J]. 西北工业大学学报, 2017(2).
[3]	陈越超, 徐晓男. 基于降噪自编码器的水中目标识别方法[J]. 声学与电子工程, 2018(1): 30-33.
[4]	吕海涛, 巩健文, 孔晓鹏. 基于卷积神经网络的水声目标分类技术[J]. 舰船电子工程, 2019, 39(2): 158-162. DOI:10.3969/j.issn.1672-9730.2019.02.039
[5]	LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. DOI:10.1109/5.726791
[6]	胡桥, 郝保安, 吕林夏, 等. 基于组合支持向量机的水声目标智能识别研究[J]. 应用声学, 2009, 28(6): 421-430. DOI:10.3969/j.issn.1000-310X.2009.06.004
[7]	HU Q, HAO B, LV L, et al. Hybrid intelligent detection for underwater acoustic target using emd, feature distance evaluation technique and FSVDD[C]//2008 International Congress on Image and Signal Processing, IEEE, Sanya, China, 2008, 4: 54−5.
[8]	WANG, Y., WANG, C., ZHANG, H. Ship classification in high-resolution SAR images using deep learning of small datasets[J]. Sensors 2018, 18, 2929.
[9]	MARTIN S B, POPPER A N. Short- and long-term monitoring of underwater sound levels in the Hudson River (New York, USA).[J]. The Journal of the Acoustical Society of America, 2016, 139(4): 1886-1897. DOI:10.1121/1.4944876
[10]	Murat KÜÇÜKBAYRAK, Özhan GÜNEŞ, Nafiz ARICA: Underwater Acoustic Signal Recognition Methods[J]. Journal of Naval Science and Engineering 2009, 5(3): 64−78.


舰船科学技术 2020, Vol. 42 Issue (12): 141-145 DOI: 10.3404/j.issn.1672-7649.2020.12.028	PDF