基于迁移学习的水下目标被动定位技术

引用本文

王豪, 王迅. 基于迁移学习的水下目标被动定位技术. 舰船科学技术, 2025, 47(20): 151-155 复制到剪切板

WANG Hao, WANG Xun. Passive location of underwater target based on transfer learning. Ship Science and Technology, 2025, 47(20): 151-155 复制到剪切板

基于迁移学习的水下目标被动定位技术

王豪, 王迅

上海船舶电子设备所，上海 201108

收稿日期: 2024-11-20.

基金项目: 中国船舶集团有限公司第七二六研究所单位自筹项目（24-5323-1019）

作者简介: 王豪（1996 – ），男，博士，工程师，研究方向为水声信号处理

摘要: 匹配场处理是水声被动定位领域的常用算法，它根据水域环境条件对水下声场进行建模，进而获取搜索区域中每一个位置到阵列之间的拷贝场向量，然后通过设计好的处理器将阵列接收数据和拷贝场向量进行匹配，即可实现水下目标的被动定位。声源位置与拷贝场向量之间形成一种非线性的映射关系，深度学习模型具有强大的非线性学习能力，因此非常适用于学习这种映射关系。本文提取由拷贝场向量组成的图片特征作为深度学习模型的训练样本，将水下目标被动定位问题转换为分类问题。此外，为了避免小样本容易导致网络过拟合的问题，利用预训练网络Res-net18作为模型对数据进行迁移学习。在水声仿真定位试验中，通过与常规匹配场处理和基于稀疏表征的匹配场处理方法相比，验证了本文方法具有更好的定位能力。

关键词: 被动定位匹配场处理迁移学习

Passive location of underwater target based on transfer learning

WANG Hao, WANG Xun

Shanghai Marine Electronic Equipment Research Institute, Shanghai 201108, China

Abstract: Matching field processing is a common algorithm in the field of underwater acoustic passive positioning. It models the underwater acoustic field according to the water environment conditions, and then obtains the copy field vector between each position in the search area and the array. Then, the data received by the array and the copy field vector are matched by the designed processor to realize the passive positioning of underwater targets. There is a nonlinear mapping relationship between the source position and the copy field vector, and the deep learning model has strong nonlinear learning ability, so it is very suitable for learning this mapping relationship. In this paper, image features composed of copy field vectors are extracted as training samples of deep learning models, and the passive location problem of underwater targets is transformed into a classification problem. In addition, in order to avoid the problem of network overfitting caused by small samples, the pre-trained network Res-net18 is used as the model for data transfer learning. Compared with conventional matching field processing and sparse representation based matching field processing, the proposed method is proved to have better locating ability in underwater acoustic simulation positioning experiments.

Key words: passive positioning matching field processing transfer learning

0 引　言

水声定位是水声工程领域最重要的研究课题之一，长期以来一直是国内外学者关注的焦点，在军民领域都有广泛的应用^[1]。水声定位技术分为被动定位和主动定位。其中，被动定位技术具有安全性高、探测范围广和隐蔽性强等优点，因此本文也主要研究被动定位技术。被动定位技术根据水听器接收到声源信号的声压数据，通过相应的信号处理算法，估计出搜索范围内最可能的声源位置。

近几十年来，被动定位技术得到了很好的发展，匹配场处理（Matching Field Processing, MFP）是一种非常经典的定位方法，它可以估计声源的深度和距离信息。MFP根据水域环境选择合适的声场模型，提前计算拷贝场向量，将阵列接收到的复声压与已知的拷贝场向量字典进行匹配，进而估计声源的位置。Barlett处理器、最小方差无失真响应（Minimum Variance Distortion-less Response, MVDR)）^{[2 − 4]}处理器和多信号分类（Multiple Signal Classification, MUSIC）^{[5 − 8]}处理器是常用的3种MFP方法，在水声定位领域应用广泛。传统的MFP方法一般是模型驱动，在理想条件下估计精度可以逼近Cramer-Rao界。然而，在实际应用中，这些技术通常需要严苛的环境条件，对噪声的鲁棒性有限，并且仅在高信噪比（SNR）和大量快拍的条件下有效。由于MFP在计算拷贝场时考虑了声传播模型的多径效应影响，对精确的环境参数有很高的依赖性。当存在阵元耦合、幅度-相位误差和阵元位置误差等非理想情况时，其性能会显著下降。此外，由于具有较宽的主瓣和高旁瓣，它们的分辨率也很低。

将搜索区域划分为若干个网格点，网格点的数量远远大于声源的数量，因此声源所在位置对应的网格点呈现出稀疏性，从而在整个水域空间中呈现稀疏性。因此，水下目标的定位问题也可以转化为一个稀疏表示问题，大大简化了定位问题，用少量的快照就可以实现精确定位。目前，已经提出了许多基于稀疏表示的定位方法，根据构建的稀疏模型，它们大致可以分为贪婪算法^{[9 − 12]}、凸优化算法^[13]和稀疏贝叶斯理论^{[14 − 16]}3类，但是稀疏定位方法也有局限性。贪婪算法需要声源个数的先验信息，大多数工程实践中是无法获取这些信息的。凸优化算法需要人为设定正则化参数，若设置不恰当，可能出现多个假目标或者失去目标。稀疏贝叶斯方法则是提前对主要参数的概率密度函数进行假设，这种假设的概率密度函数与真实情况可能出现较大差别，因此无法保证算法的稳健性。

随着人工智能的快速发展，它开始被应用在水声定位领域^{[17 − 18]}。由于人工智能具有强大的非线性学习能力，而声音在水下传播过程中存在大量的非线性关系，整个传播过程类似于一个“黑匣子”，因此深度学习非常适合用来学习这些非线性关系。Niu等^{[19 − 20]}尝试利用前馈神经网络、随机森林、支持向量机3种机器学习方法来解决水下声源被动定位问题，并在海试实验水声定位数据中验证了方法的可行性。Wang等^[21]提出基于广义回归神经网络水下声源定位方法，在实验中表现出了不错的定位性能。Liu等^[22]提出一种基于卷积网络的声源测距方法，可以实现深度直达声区的声源进行测距。张嘉平^[23]提出了基于卷积神经网络提出了一种水下单声源的定位模型，并在美国水声定位公开实验数据SwellEx-96中验证了该方法的性能。这些研究足以说明了人工智能方法在水声定位中的可行性和有效性。然而，目前人工智能水声定位方法的训练数据主要是提取与声源位置关联的矩阵特征，然后利用神经网络进行训练和分类。而对于卷积网络而言，其更适用于图形的分类。其次，由于水声信号具有强非线性特征，需要足够多的节点、网络层数来进行学习，因此要求训练数据足够多，且具有多样性，如果仅仅是利用声场仿真得到的训练数据或者有限的实验数据来训练网络，这样容易产生过拟合问题。迁移学习可以很好地解决小数据问题，利用在大型数据集上预训练的模型，将其知识迁移到目标任务上。这意味着即使目标任务的数据量较少，模型也可以表现出较好的性能。另外，迁移学习的过程只需要对少数层进行微调，避免了从头开始训练整个神经网络，显著减少了训练时间。

基于此，本文提出一种基于图形迁移学习的水下目标被动定位技术，提取基于拷贝场向量的图形特征作为训练数据，然后利用已经完成预训练的残差网络Res-net18对提取的训练特征进行迁移学习。通过仿真数据和公开的水声定位实验SwellEx-96的数据对提出的方法进行了全面的验证，结果充分证明了此方法的水声定位性能。

1 被动定位的基本原理 1.1 匹配场处理

在匹配场处理中，假设远场有$ K $个窄带信号入射到空间分布的某一具有$ M $个阵元的阵列上，则该阵列第$ m $个阵元的接收信号可以表示为：

$ y_m\left(t\right)=\sum_{k=1}^Kx_k\left(t\right)\cdot h_{mk}\left(t\right)+n_m\left(t\right) 。$

(1)

式中：$ m=\mathrm{1,2},\cdots ,M $；$ {x}_{k}\left(t\right) $为第$ k $个声源信号；$ {h}_{mk}\left(t\right) $为第$ k $个声源信号与第$ m $个阵元之间的格林函数；$ {n}_{m}\left(t\right) $为第$ m $个阵元的观测噪声。对式(1)描述的时域信号进行离散傅里叶变换，从而得到频域形式：

$ {y}_{m}\left(f\right)=\sum _{k=1}^{K} {x}_{k}\left(f\right)\cdot {h}_{mk}\left(f\right)+{n}_{m}\left(f\right) 。$

(2)

式中：$ f $为声源频率。将上式表示为矩阵形式有

$ \boldsymbol{Y}\left(f\right)=\boldsymbol{H}\left(f\right)\boldsymbol{X}\left(f\right)+\boldsymbol{N}\left(f\right) 。$

(3)

其中，

$ \boldsymbol{Y}\left(f\right)=\left[{y}_{1}\right(f),{y}_{2}(f),...,{y}_{M}(f){]}^{\mathrm{T}} ，$

(4)

$ \boldsymbol{H}\left(f\right)=\left[{\boldsymbol{h}}_{1}\right(f),{\boldsymbol{h}}_{2}(f),...,{\boldsymbol{h}}_{k}(f),...,{\boldsymbol{h}}_{K}(f\left)\right] ，$

(5)

$ {\boldsymbol{h}}_{k}\left(f\right)=\left[{h}_{1k}\right(f),{h}_{2k}(f),...,{h}_{Mk}(f){]}^{\mathrm{T}} ,$

(6)

$ \boldsymbol{X}\left(f\right)=\left[{x}_{1}\right(f),{x}_{2}(f),...,{x}_{K}(f){]}^{\mathrm{T}} ,$

(7)

$ \boldsymbol{N}\left(f\right)=\left[{n}_{1}\right(f),{n}_{2}(f),...,{n}_{M}(f){]}^{\mathrm{T}} 。$

(8)

在匹配场理论中，$ {\mathit{h}}_{k}\left(f\right) $被称为拷贝场向量。在水域平面进行网格划分，如图1所示，在距离方向划分了$ {N}_{r} $个点，步长为$ \nabla r $，深度方向划分了$ {N}_{z} $个点，步长为$ \nabla z $。假定每一个栅格点($ {r}_{j},{z}_{j} $)上都分布有声源，结合已知的水域环境参数，选择适宜的声传播模型（本文采用Kraken声传播模型），计算得到拷贝场向量$ {\mathit{h}}_{k} $。

图 1 水下接收阵列布置和预设搜索区域示意图 Fig. 1 Schematic diagram of underwater receiving array layout and preset search area

传统的匹配场处理通过一个匹配场处理器与接受阵列数据进行匹配即可得到一个深度-距离维度的模糊平面，如常见的Barlett处理器，其模糊平面表示为：

$ \boldsymbol{R}=\mathbf{d}\mathbf{i}\mathbf{a}\mathbf{g}(\boldsymbol{H}^{\mathit{'}}\times\boldsymbol{C}\boldsymbol{S}\boldsymbol{M}\times\boldsymbol{H})=\mathbf{d}\mathbf{i}\mathbf{a}\mathbf{g}\left(\boldsymbol{H}^{\mathit{'}}\boldsymbol{Y}\mathbf{Y}^{\mathit{'}}\boldsymbol{H}\right)。$

(9)

式中：$ \boldsymbol{C}\boldsymbol{S}\boldsymbol{M}=\boldsymbol{Y}{\boldsymbol{Y}}^{{\mathit{'}}} $表示阵列接收信号的互谱矩阵。

1.2 基于互谱矩阵的图像特征提取

利用深度学习来实现被动定位，那么首先需要解决的是训练数据，训练数据的优劣直接决定了定位的有效性。根据被动定位的需求，训练数据是提取与声源位置直接或者间接关联的特征。从1.1节对匹配场处理的介绍可知，每一个网格点与接受阵列之间存在一个拷贝场向量$ \mathit{h}, $，假设每一个网格点都存在声源，那么单个网格点传播到阵列的信号$ \boldsymbol{Y}\mathit{ } $对应着一个拷贝场向量$ \mathit{h} $。根据式(9)，可以进一步解释为一个互谱矩阵对应一个对称矩阵$ \boldsymbol{p}\in {\mathbb{R}}^{M\times M}=\mathit{h}{\mathit{h}}^{'} $。换而言之，第$ n $个网格点与一个对称矩阵$ {\boldsymbol{p}}_{n} $唯一对应。因此本文将$ {\boldsymbol{p}}_{n} $作为每一个网格位置的特征，输入神经网络进行训练，网络的输出的是声源最可能属于的网格类别。这个过程本质上将被动定位问题转换为分类问题。但是特征$ {\mathit{p}}_{n} $中的每一个元素是一个复数，不能直接输入神经网络中进行训练，为了充分利用特征虚部和实部的信息，本文将特征$ {\boldsymbol{p}}_{n} $转换为一个图片特征$ {\boldsymbol{P}}_{n} $，它的实部、虚部和幅值分别作为图片的红、绿、蓝3个通道的元素信息，即

$ \boldsymbol{P}_n\left(:,:,1\right)=\mathrm{real\mathrm{\mathrm{ }}}\left(\boldsymbol{p}_n\right) ，$

(10)

$ \boldsymbol{P}_n\left(:,:,2\right)=\mathrm{imag}\left(\boldsymbol{p}_n\right) ，$

(11)

$ \boldsymbol{P}_n\left(:,:,3\right)=\mathrm{abs}\left(\boldsymbol{p}_n\right)。$

(12)

式中：$ \mathrm{real\left(\right)} $为提取元素的实部；$ \mathrm{imag\left(\right)} $为提取元素的虚部；$ \mathrm{abs\left(\right)} $为提取元素的幅度；$ {\boldsymbol{P}}_{n} $的维度为$ M\times M\times 3 $。基于图像特征提取和分类的被动定位流程图2所示。

图 2 基于图像特征提取和分类的被动定位处理流程 Fig. 2 Passive positioning process based on image feature extraction and classification

1.3 基于Res-net18的图像迁移学习

由于水声信号具有强非线性特征，对分类网络的性能有一定要求，需要足够多的节点、网络层数来进行学习，因此训练数据需要足够多，且具有多样性，如果仅仅是利用声场仿真得到的训练数据或者有限的实验数据来训练网络，这样容易产生过拟合问题。迁移学习可以很好地解决小数据问题，利用在大型数据集上预训练的模型，将其知识迁移到目标任务上。这意味着即使目标任务的数据量较少，模型也可以表现出较好的性能。另外，迁移学习的过程只需要对少数层进行微调，避免了从头开始训练整个神经网络，显著减少了训练时间。本文提出利用经过大数据预训练完成的Res-net18对提取的图形特征进行迁移学习，进而达到特征分类的目的，实现水下目标的被动定位。

不过用Res-net18对提取的图性特征进行迁移学习之前，需要对网络进行以下2个预调整操作。

1）由于对网络进行了新的数据训练，且输出结果的大小也有所变化，因此需要一个新的连接层来替换原来的全连接层。由于总的类别数为$ {N}_{r}\times {N}_{\textit{z}} $，因此将参数“Outputsize”设置为$ {{N}={N}}_{{r}}{\times {N}}_{{{\textit z}}} $，其中$ N $为搜索区域的网格点个数，也是图形的类别总数。

2）同样地，由于全连接层的输出大小发生变化，分类输出层也需要重新连接，因此删除最后的分类输出层，并连接一个新的分类输出层。

2 浅海水声被动定位仿真实验

为了验证提出的基于图像迁移学习定位方法的有效性，用基于Kraken的水声信号仿真试验进行算法验证。仿真水域的声速剖面如图3所示，海底介质参数如图4所示。接收阵为8元阵，垂直吊放于水中，仿真实验的主要参数如表1所示。

图 3 浅海水声定位仿真试验的水域声速剖面 Fig. 3 Sound velocity profile of shallow water acoustic location simulation test

图 4 浅海水声定位仿真试验的海底介质参数 Fig. 4 Submarine medium parameters of underwater acoustic positioning simulation test in shallow sea

表 1 水声被动定位仿真试验参数设置 Tab.1 Parameter setting of underwater acoustic passive positioning simulation test

按照1.2节所述的方法生成图像样本后，将训练数据输入预训练网络Resnet-18进行模型训练。图5 4个不同水下位置生成的图像，可以发现它们之间具有明显的差异性。此外，将常规匹配场处理和稀疏匹配场处理2种方法与本文提出的方法进行对比，如图6所示。常规匹配场虽然准确定位声源位置，但是背景具有一些低能量噪声。而稀疏匹配场处理的背景噪声更高，在距离0 m、深度80 m处出现高能量虚假声源。这是由于稀疏匹配场处理方法需要人为设置正则化参数，这个值的选取决定了结果的稀疏程度，参数设置过大，将会导致得到的模糊平面过于干净，以至于丢掉真实声源。参数设置过小，就难以抑制噪声等干扰成分。图6(c)中提出的方法能够准确地定位声源，且不存在其他背景噪声的干扰。

图 5 不同位置的图形特征对比 Fig. 5 The comparison of the graphic characteristics of different locations

图 6 声源在（0 m, 40 m）处各个方法的定位结果 Fig. 6 The location results of different methods when the source is located at (0 m, 40 m)

为了对比3个方法的综合定位性能，做100次蒙特卡洛试验，统计它们的平均定位误差，结果如表2所示，从结果来看，稀疏匹配场处理的结果优于常规匹配场处理，而本文提出的方法在深度和距离方向的误差均为0，充分证明了基于迁移学习的水下目标被动定位技术的优越性。

表 2 100次蒙特卡洛试验的平均误差 Tab.2 The average error of 100 Monte Carlo tests

3 结　语

本文将水声被动问题转换为基于深度学习的图片分类问题，将与水声位置关联的物理特征量转换为图片特征，同时利用预训练网络Res-18对特征进行迁移学习，提高了训练效率，最后在水下目标仿真试验中，通过与常规匹配场处理、稀疏匹配场处理等算法进行对比，验证了算法的有效性和优越性。本文为水声被动定位提供了新的思路，但是目前研究的不足之处在于：由于分类网络的限制，其输出只能是在网格的定位结果，定位结果的分辨率受预设网格的限制。

参考文献

[1]	BAGGEROER A. B, KUPERMAN W. A. An overview of matched field methods in ocean acoustics[J]. IEEE Journal of Oceanic Engineering, 1993, 18(4): 401−424.
[2]	LI N, HAN D, ZHANG S C, et al. The MVDR processor in underwater acoustic source location method based on modal amplitude correlation[C]//International Conference on Signal Processing, Computer Networks, and Communications (SPCNC 2022), 2023.
[3]	JOMON G, JOJISH J V, SANTHANAKRISHNAN T. MVDR beamformer with subband peak energy detector for detection and tracking of fast moving underwater targets using towed array sonars[J]. Acta Acustica united with Acustica, 2019, 105(1): 220-225. DOI:10.3813/AAA.919302
[4]	LIANG G L, FU J, ZHANG K, et al. Modified MVDR algorithm for DOA estimation using acoustic vector hydrophone[C]//2011 IEEE International Conference on Computer Science and Automation Engineering, 2011.
[5]	WONG K T, ZOLTOWSKI M D. Self-initiating MUSIC-based direction finding in underwater acoustic particle velocity-field beamspace[J]. IEEE Journal of Oceanic Engineering, 2000, 25(2): 262-273. DOI:10.1109/48.838989
[6]	LAN C F, CHEN H, ZHANG L, et al. Underwater acoustic DOA estimation of incoherent signal based on improved GA-MUSIC[J]. IEEE Access, 2023: 69474−69485.
[7]	ISHI C T, CHATOT O, ISHIGURO H, et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments[C]//2009 IEEE/RSJ International Conference on Intelligent Robots and Systems, 2009.
[8]	LIANG J L, LIU D. Passive localization of mixed near-field and far-field sources using two-stage MUSIC algorithm[J]. IEEE Transactions on Signal Processing, 2009, 58(1): 108-120.
[9]	BERGEAUD F, MALLAT S. Matching pursuit of images[C]// Proceedings., International Conference on Image Processing, 1995.
[10]	LAURA R N, DAVID L. Optimized orthogonal matching pursuit approach[J]. IEEE Signal Processing Letters, 2002, 9(4): 137-140. DOI:10.1109/LSP.2002.1001652
[11]	WANG J, KWON S, SHIM B. Generalized orthogonal matching pursuit[J]. IEEE Transactions on signal processing, 2012, 60(12): 6202-6216. DOI:10.1109/TSP.2012.2218810
[12]	CAI T T, WANG L. Orthogonal matching pursuit for sparse signal recovery with noise[J]. IEEE Transactions on Information theory, 2011, 57(7): 4680-4688. DOI:10.1109/TIT.2011.2146090
[13]	SHI J, YANG D S, SHI S G, et al. Compressive focused beamforming based on vector sensor array[J]. Acta Phys, 2016, 65(2): 194-204.
[14]	DAVID P WIPF, BHASKAR D RAO. Sparse bayesian learning for basis selection[J]. IEEE Transactions on Signal Processing, 2004, 52(8): 2153-2164. DOI:10.1109/TSP.2004.831016
[15]	GEMBA K L, NANNURU S, GERSTOFT P. Robust ocean acoustic localization with sparse bayesian learning[J]. IEEE Journal of Selected Topics in Signal Processing, 2019, 13(1): 49-60. DOI:10.1109/JSTSP.2019.2900912
[16]	LIU Y N, NIU H Q, YANG S S, et al. Multiple source localization using learning-based sparse estimation in deep ocean[J]. The Journal of the Acoustical Society of America, 2021, 150(5): 3773-3786. DOI:10.1121/10.0007276
[17]	孙霆, 王威, 高婧洁, 等. 传感器运动效应下水声信号传播速度未知的TOA/TOA-AOA水下无源定位方法[J]. 电子学报, 2025, 53(2): 409-419.
[18]	余杰, 王平波, 周彬, 蔡志明. 一种基于冲激脉冲回波检测的主动目标定位技术[J]. 舰船科学技术, 2024, 46(10): 120-125.
[19]	NIU H Q, OZANICH E, GERSTOFT P. Ship localization in santa barbara channel using machine learning classifiers[J]. The journal of the acoustical society of America, 2017, 142(5): EL455-EL460. DOI:10.1121/1.5010064
[20]	NIU H Q, REEVES E, GERSTOFT P. Source localization in an ocean waveguide using supervised machine learning[J]. The Journal of the Acoustical Society of America, 2017, 142(3): 1176-1188. DOI:10.1121/1.5000165
[21]	WANG Y, PENG H. Underwater acoustic source localization using generalized regression neural network[J]. The Journal of the Acoustical Society of America, 2018, 143(4): 2321-2331. DOI:10.1121/1.5032311
[22]	LIU Y N, NIU H Q, LI Z L. Source ranging using ensemble convolutional networks in the direct zone of deep water[J]. Chinese Physics Letters, 2019, 36(4): 044302. DOI:10.1088/0256-307X/36/4/044302
[23]	张嘉平. 基于卷积神经网络和迁移学习的水下声源定位算法研究[D]. 杭州: 浙江大学, 2021.


舰船科学技术 2025, Vol. 47 Issue (20): 151-155 DOI: 10.3404/j.issn.1672-7649.2025.20.023	PDF