卷积神经网络单矢量水听器方位估计

引用本文

曹怀刚, 任群言, 郭圣明, 等. 卷积神经网络单矢量水听器方位估计[J]. 哈尔滨工程大学学报, 2020, 41(10): 1524-1529. DOI: 10.11990/jheu.202007043.

CAO Huaigang, REN Qunyan, GUO Shengming, et al. Source azimuth estimation with single vector sensor based on convolutional neural network[J]. Journal of Harbin Engineering University, 2020, 41(10): 1524-1529. DOI: 10.11990/jheu.202007043.

基金项目

国家自然科学基金项目(11904382)

通信作者

任群言, E-mail:renqunyan@mail.ioa.ac.cn

作者简介

曹怀刚, 男, 博士研究生;
任群言, 男, 研究员, 博士生导师

文章历史

收稿日期：2020-07-14
网络出版日期：2020-10-21

Contents Abstract Full text Figures/Tables PDF

卷积神经网络单矢量水听器方位估计

曹怀刚 ^1,2, 任群言 ^1,2, 郭圣明 ^1,2, 马力 ^1,2

1. 中国科学院水声环境特性重点实验室, 北京 100190;
2. 中国科学院大学, 北京 100049

收稿日期：2020-07-14；网络出版日期：2020-10-21

基金项目：国家自然科学基金项目(11904382)

作者简介：曹怀刚, 男, 博士研究生;
任群言, 男, 研究员, 博士生导师.

通信作者：任群言, E-mail:renqunyan@mail.ioa.ac.cn.

摘要：针对浅海环境下单矢量水听器方位估计的问题，本文提出了一种利用卷积神经网络对目标声源进行方位估计的方法。利用KRAKEN模型仿真的声压和质点加速度对1个包含3个卷积层和4个全连接层的卷积神经网络进行训练，利用训练好的卷积神经网络模型进行方位估计。仿真数据训练的卷积神经网络模型具有良好的方位估计性能，即使在低信噪比的条件下，依然能够获得可靠的方位估计结果。海上实验数据处理结果表明：该神经网络模型可以有效地从舰船辐射噪声中提取特征并准确地估计目标船只的方位，与传统的加权直方图的方位估计方法相比，本文方法具有更高的估计精度和可靠性。

关键词：矢量水听器质点加速度方位估计卷积神经网络 KRAKEN模型舰船辐射噪声浅海波导深度学习

Source azimuth estimation with single vector sensor based on convolutional neural network

CAO Huaigang ^1,2, REN Qunyan ^1,2, GUO Shengming ^1,2, MA Li ^1,2

1. Key Laboratory of Underwater Acoustic Environment, Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China;
2. University of Chinese Academy of Science, Beijing 100049, China

Abstract: Aiming at the problem of azimuth estimation with single vector sensor in shallow water, a method of using convolutional neural network (CNN) to estimate source azimuth is proposed in this paper. Sound pressure and particle acceleration simulated by the KRAKEN model are used to train the CNN, which consists of three convolution layers and four fully connected layers. The trained CNN is used for azimuth estimation. The CNN model trained by simulated data has good performance in azimuth estimation, and can obtain reliable results even under low signal-to-noise ratio (SNR). The processing results of experimental data show that the CNN model can effectively extract the features from the radiated noise of ships and estimate the azimuth of the target ship accurately. Comparing with traditional weighted histogram method, the proposed method has higher estimation accuracy and is more reliable.

Keywords: vector sensor particleacceleration particle acceleration azimuth estimation convolutional neural network KRAKEN model radiated noise of ships shallow water waveguide deep learning

矢量水听器由1个声压通道和3个具有偶极子指向性的加速度通道组成，单矢量水听器即可实现声源的方位估计，具有指向性跟声源频率无关、不存在左右舷模糊的优点，同时还可以有效抑制各向同性噪声的优点。近年来基于单矢量水听器方位估计的研究和应用有了很大的进展。Nehorai等^[1]提出了2种基于单矢量水听器的方位估计方法(基于声强的算法和基于振速协方差矩阵的算法)并对其方位估计的性能进行了分析。Levin等^[2-3]提出了一种基于最大似然估计的单矢量水听器方位估计方法，并研究了混响环境下的方位估计性能。梁国龙等^[4]结合矢量水听器自身阵列流型的特点，将阵列信号处理中的MUSIC算法应用到单矢量水听器上，用单个矢量水听器实现了窄带信号和宽带信号的高分辨方位估计。张维等^[5]采用量子粒子群求解声压和质点振速组成的非线性相关方程组，实现多目标方位估计。笪良龙等^[6]基于海上实验数据分析了平均声强器和复声强器2种方法的方位估计性能。胡承彦等^[7]提出了一种利用单矢量水听器声压和加速度互谱的方位估计方法。由于单矢量水听器的指向性指数最高为6 dB^[8]，传统的基于单矢量水听器的方位估计方法对信噪比都有较大的依赖。因此，一种能在相干噪声干扰下实现较高精度的方位估计的方法是目前所急需的。机器学习是近年来的研究热点，其在声源定位方面表现出了优于传统方法的良好性能。NIU等^[9-10]研究了基于垂直阵的前馈神经网络、支持向量机和随机森林3种机器学习方法在声源测距上的性能，并用实验数据进行了验证。HUANG等^[11]将卷积神经网络的输出作为前馈神经网络的输入，研究了深度神经网络在垂直阵声源测距中的性能。基于机器学习的垂直阵水面水下目标分辨、水平阵方位估计等也都取得了一定的进展^[12-14]。基于机器学习的方法具有比传统的定位方法更高的定位精度和更好的环境适应能力。本文利用深度学习的方法，不依赖实验数据，仅利用KRAKEN仿真的矢量声场数据来训练卷积神经网络，利用训练好的神经网络模型来估计目标方位，以期获得比传统方法更高的估计精度。

1 矢量信号模型和数据的预处理 1.1 矢量信号模型

矢量水听器能同时共点地测量声场的声压和加速度的3个正交分量，考虑声场中的1个微分单元，根据牛顿第二定律可得：

$ \rho \frac{{{\rm{d}}v}}{{{\rm{d}}t}} = \rho \mathit{\boldsymbol{\alpha }} = - \nabla p $

(1)

式中：p为声压；v为质点振速；ρ为介质密度；a为质点加速度；▽为梯度运算。质点加速度a为水听器直接测得的矢量，本文基于卷积神经网络的方法从声压p和加速度a中提取特征。图 1为加速度a在3个坐标轴上的投影，结合式(1)，单矢量水听器3个矢量通道的加速度为：

	Download: JPG larger image
图 1 加速度a及其3个正交分量a_x、a_y、a_z的投影图 Fig. 1 Acceleration a and projection of three orthogonal components a_x, a_y and a_z

$ {{\mathit{\boldsymbol{a}}_x} = - \frac{1}{\rho }\frac{{\partial p}}{{\partial r}}\cos \theta \cos \alpha } $

(2)

$ {{\mathit{\boldsymbol{a}}_y} = - \frac{1}{\rho }\frac{{\partial p}}{{\partial r}}\sin \theta \cos \alpha } $

(3)

$ {{\mathit{\boldsymbol{a}}_z} = - \frac{1}{\rho }\frac{{\partial p}}{{\partial z}}\sin \alpha } $

(4)

式中：a_x、a_y、a_z分别为加速度a的3个正交分量; α为极角; θ为方位角，是本文方位估计值。

1.2 数据的预处理

在声压和加速度输入到神经网络之前需要对其进行预处理，以便神经网络可以更有效的提取特征，首先对声压和加速度进行归一化处理：

$ \mathit{\boldsymbol{\tilde R}}(f) = \frac{{\mathit{\boldsymbol{R}}(f)}}{{\sqrt {|p(f){|^2} + |{\mathit{\boldsymbol{a}}_x}(f){|^2} + |{\mathit{\boldsymbol{a}}_y}(f){|^2} + |{\mathit{\boldsymbol{a}}_z}(f){|^2}} }} $

(5)

式中：R(f)=[p(f), a_x(f), a_y(f), a_z(f)]，p(f)为频点f处的声压；a_x(f)为频点f处的x方向的加速度；a_y(f)为频点f处的y方向的加速度；a_z(f)为频点f处的z方向的加速度；$\mathit{\boldsymbol{\tilde R}}$(f)为归一化后的数据，即$\mathit{\boldsymbol{\tilde R}}$(f)=[$\tilde p$(f), $\mathit{\boldsymbol{\tilde a}}$_x(f), $\mathit{\boldsymbol{\tilde a}}$_y(f), $\mathit{\boldsymbol{\tilde a}}$_z(f)]。

其次，将归一化后的声压和加速度进行互谱运算后再进行快拍平均：

$ {S_{p{a_i}}}(f) = \frac{1}{N}\sum\limits_{s = 1}^N {{{\tilde p}_s}} (f)\mathit{\boldsymbol{\tilde a}}_{is}^*(f) $

(6)

式中：i=x, y, z；$\tilde p$_s和$\mathit{\boldsymbol{\tilde a}}$_is分别表示声压和加速度的第i个快拍。声压和加速度互谱的实部和虚部组成1个3×2F的矩阵作为神经网络的输入，其中F为总的频点个数。

由于本文的深度学习方法属于监督学习，所以在训练卷积神经网络的时候需要用到标签(真实方位角)，标签数据的预处理如下：

$ {\mathit{\boldsymbol{t}}_n} = \exp \left( { - \frac{{{{(\mathit{\boldsymbol{d}} - {d_{nr}})}^2}}}{{2{\sigma ^2}}}} \right) $

(7)

式中：t_n为第n个采样点的标签，d=[1, 2, 3, …, 360]；d_nr为第n个采样点的真实角度；σ表示方位角的模糊度范围，在本文中σ为15。

1.3 估计结果的度量标准

本文中设估计值θ_e和真实值θ_r之差的绝对值小于10°(|θ_e-θ_r| < 10°)的估计值为正确的估计结果，用估计准确率作为方法性能的度量标准之一，估计准确率为：

$ {E_{{\rm{ACCU}}}} = \frac{{{N_C}}}{N} \times 100\% $

(8)

式中：N_C表示估计正确的估计结果的个数；N为总的估计结果数。

均方根误差E_RMSE为方法性能的度量标准，均方根误差表示为：

$ {E_{{\rm{RMSE}}}} = \sqrt {\frac{1}{N}\sum\limits_j^N {{{({\theta _r}(j) - {\theta _e}(j))}^2}} } $

(9)

2 卷积神经网络的设计和训练 2.1 神经网络的设计

本文采用的深度神经网络为卷积神经网络。卷积神经网络整体上由输入层、隐藏层和输出层组成，其中隐藏层包括卷积层、激活函数、池化层和全连接层。卷积层是卷积神经网络的核心，卷积的工作原理可以理解为：在三维输入数据上滑动n×n的窗口，在每个可能的位置停止并提取周围特征的三维数据块。每个三维数据块与学到的同一个权重矩阵(卷积核)做向量积，转化为一维的向量。对所有这些向量进行空间重组，使其转化为三维输出特征数据。输出特征数据中的每个空间位置都对应于输入特征数据中相同的位置。该卷积层的输出即为下一个卷积层的输入。卷积的计算过程为：

$ S(i,j) = \mathit{\boldsymbol{K}} * I(i,j) = \sum\limits_m {\sum\limits_n K } (m,n)I(i - m,j - n) $

(10)

式中：K表示卷积核；I表示滑动窗口提取的数据；i、j表示数据的位置。一般来说，计算机在处理数据时，数据会被离散化，所以卷积运算由积分变为离散求和。设最后一个卷积层的输出为x=[x₁, x₂, …, x_k]，卷积层的输出即为全连接层的输入，对于全连接层，其计算的过程为：

$ {a_s} = \sum\limits_k {{w_{sk}}} {x_k} + {w_{s0}} $

(11)

式中：s为神经元的序数；w_sk、w_s0为权重和偏置；a_s经过激活函数的转化后即可得到该全连接层的输出b_s：

$ {b_s} = f({a_s}) $

(12)

该全连接层的输出即为下一个全连接层的输入，并重复式(11)、(12)的运算，其中激活函数f(·)采用线性整流函数(ReLU)，其表达式为：

$ f(x) = \max (0,x) $

(13)

本文所采用的卷积神经网络结构如图 2所示，卷积层中“3×3”表示卷积核的大小，第3个数字表示卷积核的个数(如第1卷积层“3×3×128”中“128”表示该卷积层共有128个卷积核)。由于输入数据的维度较小(3×202)，在设计的神经网络中并没有添加池化层。为降低训练过程中神经网络过拟合造成的影响，在卷积层和全连接层之间，全连接层和输出层之间加入随机失活层。图 2所示为本文所用卷积神经网络的结构全连接层一共有4个，每个全连接层包含2 048个神经元。

	Download: JPG larger image
图 2 卷积神经网络的结构 Fig. 2 The structure of the CNN

2.2 神经网络的训练

神经网络的训练和学习过程主要围绕以下4个方面：1)由多个层组成网络层；2)输入数据和相应的目标值；3)损失函数，即用于学习的反馈信号；4)决定学习过程如何进行的优化器。关系如图 3所示。

	Download: JPG larger image
图 3 卷积神经网络的训练流程 Fig. 3 The processing diagram for CNN training

神经网络的训练和学习过程为通过损失函数和优化器不断更新权重使神经网络的预测值不断接近真实目标值的过程。本文采用的训练数据为KRAKEN模型仿真的数据，海洋环境为典型的浅海波导，海底为分层介质包括沉积层和基底。仿真的声源、接收和环境参数如表 1所示。共仿真输入数据360×25×2×4×6=432 000组，将利用表 1中参数仿真的数据训练的神经网络命名为CNN-3。

表 1 仿真环境的参数 Table 1 The parameters of simulated environment

3 实验仿真及数据处理

本文通过仿真数据研究CNN-3在不同信噪比下的方位估计性能。同时引入加权直方图法^{[6, 15]}来跟CNN-3进行对比。

仿真的环境参数如下：在1°~360°等间隔的取100个采样点，声源深度为4 m，声源距离2 km，信号频段为800~900 Hz，采样间隔为1 Hz，海深61 m，沉积层厚度为6 m，沉积层声速为1 600 m/s，沉积层密度为1.6 g/cm³，沉积层衰减为0.3 dB/λ，基底声速为1 750 m/s，基底密度为1.8 g/cm³，基底衰减为0.3 dB/λ。利用KRAKEN模型仿真声压和质点加速度，并加入色噪声，设置-5、0、5、10和15 dB 5个信噪比，分别利用加权直方图法和CNN-3对仿真的带噪声数据进行方位估计，得到的2种方法在不同信噪比下的估计准确率和均方根误差如表 2所示。

表 2 加权直方图法和CNN-3在不同信噪比下方位估计的准确率和均方根误差 Table 2 The estimation accuracy and root-mean-square-error of weighted bar-graph method and CNN-3 under different SNRs

由表 2的结果可知，2种方法的方位估计性能随信噪比的增加而增加，当SNR≥10 dB时，2种方法的估计准确率均达到100%，均方根误差均小于2°。而当SNR < 10 dB时，CNN-3的方位估计性能要明显的优于加权直方图的方法，特别是在SNR=-5 dB时，CNN-3的估计准确率为87%，均方根误差为6.9°；而加权直方图法的估计准确率只有66%，均方根误差为28.7°。随着信噪比的增加，两者的性能差距在逐渐缩小。总体来说，卷积神经网络(CNN-3)具有良好的方位估计性能，特别是当信噪比较低时，其估计结果依然十分可靠。

2018年在中国南海进行了单矢量水听器的被动方位估计实验。实验过程中将船的辐射噪声作为声源，声源船船长60 m，船宽26 m，围绕矢量潜标逆时针作半径约为1 km的圆周运动，船速保持在10 kN左右，其运动的航迹如图 4(a)所示，声源船与矢量潜标的距离随时间的变化如图 4(b)所示。实验海区海深61 m，矢量水听器以潜标的形式布放在水下44 m的深度。矢量水听器的采样率为12 kHz，有效工作频段为20~3 000 Hz。实验过程中，矢量水听器的航向角变化如图 4(c)所示，航向角的变化代表矢量水听器自身水平方向的转动，从图中来看其随时间有较快且幅度较大的抖动，本文中的方位估计结果都根据航向角进行了补偿。矢量水听器的各通道时频图如图 5所示，分别是声压和加速度通道在100~1 000 Hz频带内的时频图。

	Download: JPG larger image
图 4 实验过程中声源和矢量水听器的主要参数变化 Fig. 4 The main parameter changes of source ship and vector sensor during the experimen

	Download: JPG larger image
图 5 矢量水听器接收航船噪声信号的时频 Fig. 5 The time frequency diagram of ship noise received by a vector sensor

实验海区距离三亚港口较近，有大量的航船来往，由于远处航船噪声的能量主要集中在低频段(800 Hz以下)，但由于其强度较大，对估计近处的目标舰船的方位角有较大的干扰，因此在进行实验数据处理时选择800~900 Hz的频段。

将矢量水听器测得的声压和质点加速度按式(5)、(6)进行预处理后输入训练好的卷积神经网络CNN-3，得到的方位估计结果如图 6(b)所示，图 6(a)为加权直方图法得到的方位估计结果，其结果作为深度学习法的对照。

	Download: JPG larger image
图 6 实验数据的方位估计结果 Fig. 6 The azimuth of experimental data estimated

将图 6的估计结果分3段来分析：

1) 在0~200 s的时间段内，图 6(a)基于加权直方图的估计结果的准确率为29%，均方根误差为13.3°；图 6(b)基于CNN-3的估计结果的准确率为85%，均方根误差为7.6°。在这个时间段内卷积神经网络的性能要明显的优于加权直方图法，但2种方法均存在较大误差，误差出现的原因可能是由于在这个时间段内有较强的干扰出现。

2) 在200~400 s的时间段内，图 6(a)基于加权直方图法的估计结果的准确率为24%，均方根误差为52.1°；图 6(b)基于CNN-3的估计结果的准确率为24%，均方根误差为22.9°。在这个时间段内，2种方法的估计准确率都非常低，但结合图 6和其均方根误差来看，基于加权直方图的估计结果已经严重的偏离真实值，而基于CNN-3的估计结果虽然也有较大的误差，但没有严重偏离真实值，仍然有一定的参考意义。这一段较大误差出现的原因为：由图 4(b)可知，在200~400 s的时间段内声源距离增加，声源距离的增加导致信噪比的下降从而造成了误差的增大。

3) 在400~1 331 s的时间段内，图 6(a)基于加权直方图的估计结果准确率为93%，均方根误差为5.7°；图 6(b)基于CNN-3的估计结果的准确率为97%，均方根误差为4.8°。在这个时间段内2种方法都有较好的表现，CNN-3的估计结果略好于加权直方图法。

综上，在各个时间段内，基于卷积神经网络方法的性能要优于加权直方图法，尤其是在0~400 s干扰较强、信噪比较低时，卷积神经网络的优势更加明显，进一步验证了本文方法的可靠性。

对于实验中出现的误差，除了上面分析的几点外还存在以下3点：1)作为声源的船只并不是一个点声源，船长为60 m，而记录GPS的天线位于船艉，在1 km的声源距离上由此造成的误差最大能到3.4°；2)估计结果根据罗经记录到的航向角进行了补偿，但罗经记录的航向角本身可能存在一定的误差，进行补偿时就把误差引入了结果之中；3)矢量水听器x、y通道的指向性并不是严格的正交，不满足加权直方图法和仿真的训练数据正交的前提假设，从而引入了误差。

4 结论

1) 与很多机器学习定位方法相比，本文方法不需要实测数据作为训练数据，仅利用KRAKEN仿真数据对卷积神经网络进行训练，降低了训练成本。

2) 仿真结果表明利用卷积神经网络的方法可以获得精确的方位估计结果，特别是在低信噪比的情况下(-5 dB)其依然有较高的估计准确率E_ACCU=87%，E_RMSE=6.9°，高于加权直方图法E_ACCU=66%，E_RMSE=28.7°。实验数据处理结果说明在各个时间段基于卷积神经网络的方法都要优于传统的加权直方图法，进一步证明了卷积神经网络法的可靠性。

3) 由实验数据分析结果可知，其他船只的干扰、矢量水听器各通道的指向性不严格正交、声源距离增加导致信噪比的下降、声源船不满足点声源条件以及罗经存在误差等都是造成方位估计结果不准确的原因，在以后的实验中应尽量避免这些因素的干扰。

参考文献

[1]	NEHORAI A, PALDI E. Acoustic vector-sensor array processing[J]. IEEE transactions on signal processing, 1994, 42(9): 2481-2491. (0)
[2]	LEVIN D, HABETS E A P, GANNOT S. Maximum likelihood estimation of direction of arrival using an acoustic vector-sensor[J]. The journal of the acoustical society of America, 2012, 131(2): 1240-1248. (0)
[3]	LEVIN D, HABETS E A P, GANNOT S. On the angular error of intensity vector based direction of arrival estimation in reverberant sound fields[J]. The journal of the acoustical society of America, 2010, 128(4): 1800-1811. (0)
[4]	梁国龙, 张锴, 付进, 等. 单矢量水听器的高分辨方位估计应用研究[J]. 兵工学报, 2011, 32(8): 986-990. LIANG Guolong, ZHANG Kai, FU Jin, et al. Research on high-resolution direction-of-arrival estimation based on an acoustic vector-hydrophone[J]. Acta armamentarii, 2011, 32(8): 986-990. (0)
[5]	张维, 尚玲. 单矢量水听器水中多目标方位跟踪方法[J]. 国防科技大学学报, 2017, 39(2): 114-119. ZHANG Wei, SHANG Ling. Method of direction of arrival tracking for multiple targets under water with single vector hydrophone[J]. Journal of National University of Defense Technology, 2017, 39(2): 114-119. (0)
[6]	笪良龙, 侯文姝, 孙芹东, 等. 单矢量水听器估计目标方位的方法与实验[J]. 应用声学, 2015, 34(6): 516-525. DA Lianglong, HOU Wenshu, SUN Qindong, et al. An experiment on azimuth estimation of target by single vector hydrophone[J]. Journal of applied acoustics, 2015, 34(6): 516-525. (0)
[7]	胡承彦, 马树青, 熊水东, 等. 一种基于声压和加速度的矢量水听器定向方法[J]. 声学技术, 2017, 36(4): 394-398. HU Chengyan, MA Shuqing, XIONG Shuidong, et al. A pressure-acceleration based orientation method for vector hydrophone[J]. Technical acoustics, 2017, 36(4): 394-398. (0)
[8]	CRAY B A, NUTTALL A H. Directivity factors for linear arrays of velocity sensors[J]. The journal of the acoustical society of America, 2001, 110(1): 324-331. (0)
[9]	NIU Haiqiang, REEVES E, GERSTOFT P. Source localization in an ocean waveguide using supervised machine learning[J]. The journal of the acoustical society of America, 2017, 142(3): 1176-1188. (0)
[10]	NIU Haiqiang, OZANICH E, GERSTOFT P. Ship localization in Santa Barbara Channel using machine learning classifiers[J]. The journal of the acoustical society of America, 2017, 142(5): EL455-EL460. (0)
[11]	HUANG Zhaoqiong, XU Ji, GONG Zaixiao, et al. Source localization using deep neural networks in a shallow water environment[J]. The journal of the acoustical society of America, 2018, 143(5): 2922-2932. (0)
[12]	CHI Jing, LI Xiaolei, WANG Haozhong, et al. Sound source ranging using a feed-forward neural network trained with fitting-based early stopping[J]. The journal of the acoustical society of America, 2019, 146(3): EL258-EL264. (0)
[13]	CHOI J, CHOO Y, LEE K. Acoustic classification of surface and underwater vessels in the ocean using supervised machine learning[J]. Sensors, 2019, 19(16): 3492. (0)
[14]	OZANICH E, GERSTOFT P, NIU Haiqiang. A feedforward neural network for direction-of-arrival estimation[J]. The journal of the acoustical society of America, 2020, 147(3): 2035-2048. (0)
[15]	姚直象, 惠俊英, 殷敬伟, 等. 基于单矢量水听器四种方位估计方法[J]. 海洋工程, 2006, 24(1): 122-127, 131. YAO Zhixiang, HUI Junying, YIN Jingwei, et al. Four approaches to DOA estimation based on a single vector hydrophone[J]. The ocean engineering, 2006, 24(1): 122-127, 131. (0)