基于强化学习的声诱饵航路规划方法

引用本文

张旭, 孔辉, 查淞元. 基于强化学习的声诱饵航路规划方法. 舰船科学技术, 2025, 47(1): 154-158 复制到剪切板

ZHANG Xu, KONG Hui, ZHA Songyuan. An acoustic decoy route planning method based on reinforcement learning. Ship Science and Technology, 2025, 47(1): 154-158 复制到剪切板

基于强化学习的声诱饵航路规划方法

张旭, 孔辉, 查淞元

上海船舶电子设备研究所，上海 201108

收稿日期: 2024-03-03.

作者简介: 张旭（1996 – ），男，硕士，工程师，研究方向为水声对抗仿真与决策

摘要: 本文给出一种基于强化学习的声诱饵航路规划方法。设计了适用于强化训练环境的步进式水声对抗仿真环境，通过该环境展示经典对抗态势与不利对抗态势。根据水声对抗的特点，设计了强化学习的观测空间、动作空间、奖励函数等关键要素。动作空间与奖励函数结合水声对抗特性进行了设计。借助Matlab平台进行深度神经网络的训练，并验证了训练结果，证明通过强化学习方法训练的声诱饵航路规划的有效性，具备将不利对抗态势转危为安的能力。

关键词: 强化学习声诱饵航路规划

An acoustic decoy route planning method based on reinforcement learning

ZHANG Xu, KONG Hui, ZHA Songyuan

Shanghai Marine Electronic Equipment Research Institude, Shanghai 201108, China

Abstract: In this paper, an acoustic decoy route planning method based on reinforcement learning is presented. A stepping underwater acoustic countermeasure simulation environment adapted to the intensive training environment is designed. Through this environment, the classical antagonistic situation and the adverse antagonistic situation are shown. According to the characteristics of underwater acoustic confrontation, the key elements of reinforcement learning such as observation space, action space and reward function are designed. The action space and reward function are designed in combination with underwater acoustic countermeasures. The deep neural network is trained by matlab platform, and the training results are verified, which proves the effectiveness of the acoustic decoy route planning trained by reinforcement learning method, and the ability of refusing to turn the adverse confrontation situation into safety.

Key words: reinforcement learning acoustic decoy route planning.

0 引　言

随着水下战争手段的不断创新和潜艇作战地位的提升，水声对抗技术在现代战争中发挥着越来越重要的作用。反潜作战需求促使水声对抗技术得到广泛关注。此外，科技进步推动了水声对抗技术的优化与完善，使其在复杂战场环境中具备更强的对抗能力和智能化水平。因此，水声对抗技术在国防安全领域的重要性日益凸显。

声诱饵作为水声对抗过程中最为重要的武器装备之一，在现代战争中具有重要意义。它通过模拟敌方目标的声学特性，欺骗敌方声呐和声自导鱼雷，使其无法准确识别和攻击目标。声诱饵的主要作用是提高我方潜艇和水面舰艇的生存能力，保护其在复杂水下环境中免受攻击。声诱饵技术的发展紧紧跟随潜艇作战需求和水下战争手段的进步。随着科技的不断突破，声诱饵设备变得更加智能化、轻便化和高效化，能够在各种战场条件下迅速应对敌方水声威胁。未来，声诱饵技术将继续演进，为水下战争提供更加有效的对抗手段。

声诱饵的航路决策关键在于模拟潜艇行踪，误导敌方声呐和声自导鱼雷。这需要声诱饵能够根据战场态势实时调整自身航向和速度。为实现这一目标，声诱饵的航路决策需综合运用环境感知、敌方声呐信号分析、智能化算法和协同作战等手段。在实际应用中，声诱饵应根据战术目标，采用遗传算法、神经网络等智能方法，自主规避障碍物，并按照预设策略调整航向和速度。

目前声诱饵的航路规划方向较少使用强化学习方法进行研究^[1]。通过学习敌方武器的行为特征和动态环境，强化学习算法可以自动优化声诱饵的航路规划，提高诱骗效果。此外，结合深度学习等先进技术，声诱饵系统还可以实现更高效的实时决策和应变能力，这将有助于提高我国声诱饵技术的竞争力。

1 强化学习现状及要素设计 1.1 强化学习应用现状

强化学习是一种机器学习方法，其主要目的是让智能体在与环境的交互中，通过学习策略来实现回报最大化或达成特定目标。强化学习的主要框架包括4个要素：状态、动作、转移概率和奖赏函数。在强化学习中，智能体在环境中不断进行实验，通过环境给予的反馈（奖励）来优化状态与行为的对应关系。强化学习的核心目标是找到一种策略，使得智能体在各个状态下采取的动作能够最大化累积奖励。

强化学习在航路规划领域应用广泛，尤其是在无人机和自动驾驶汽车方面。通过与环境交互和学习最佳策略，智能体可以优化飞行轨迹、泊车路径等。这种技术有助于提高道路通行效率、实现自主导航等。

王日中等^[2]基于深度强化学习算法的自主式水下航行器（AUV）深度控制问题，在Open AI Gym平台上仿真验证了算法的有效性。张堃等^[3]针对无人机航路终端约束情况下航路自主引导机动控制决策问题，基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法，拟合机动控制决策函数与状态动作值函数，生成最优决策网络。宋大雷等^[4]提出一种将“之”字形算法和基于深度强化学习的无人船全覆盖路径规划算法框架相结合的混合算法，对大范围无障碍区域使用“之”字形算法，对存在障碍的小范围区域使用深度强化学习算法框架，并引入内在好奇心模块增强该算法框架的收敛速度。在无人机的路径规划方面，吕超等^[5]设计了分层强化学习模型，该模型将避障和导航2个子任务模型分别单独训练，并通过2个训练后的模型对系统状态进行抽象，在此基础上训练顶层模型，实现对2个任务输出的有效调度。在移动机器人的三维路径规划方面，马天等^[6]提出一种在有限观测空间优化策略下基于深度强化学习的移动机器人三维路径规划方法。在自动泊车方面，张继仁等^[7]提出一种基于模型的强化学习运动规划方法，以最大限度摆脱人类泊车经验，并综合考虑安全性、舒适性、最终泊车位姿等需求。为实现多枚导弹协同拦截机动目标，提升拦截效能，王金强^[8]提出一种Q-learning强化学习协同拦截制导律。与之类似的，周毅昕等^[9]为提升弹道优化效率，缩短作战响应时间，提出一种基于Q-learning算法的简控弹道优化方法。

1.2 强化学习要素设计

本文搭建强化学习训练系统如图1所示。

图 1 强化学习训练系统 Fig. 1 Reinforcement learning training system

该系统通过部分可观马尔科夫决策过程（Partially Observable Markov Decision Process, POMDP）进行建模。智能体无法获得系统状态 ${{S}_t}$ 的完整信息，仅可获得观测值 ${{O}_t}$ ，智能体依据观测值 ${{O}_t}$ 做出决策执行动作 ${{A}_t}$ ，此时步进式水声对抗仿真环境状态转移，智能体得到下一时刻的观测值 ${{O}_{t + 1}}$ 以及即时奖励 ${{R}_t}$ 。基于以上内容，对本节中的关键要素进行设计。

1.2.1 强化学习步进式水声对抗仿真环境搭建

水声对抗系统涉及潜艇、鱼雷、声诱饵等多个主体，为其搭建实物训练环境难以实现，因此借助Matlab平台搭建仿真训练环境。该系统涉及多个主体的运动学与声学模型，对整个系统进行建模的难度较大，另一方面单一模型的复杂度较高，计算量较大，难以满足训练环境的要求。因此，本文对水声对抗系统的多个主体单独建立参数模型，对其运动学以及声学的关键参数进行建模，通过各个模型间数据交互实现整个系统的状态推进。同时，为满足强化训练环境的要求，本文的仿真模型为步进式模型，即模型的输入为t_i时刻的系统状态，输出为t_i+1时刻的系统状态。系统状态主要包括潜艇、鱼雷、对抗器材的运动学以及声学信息。该模型组成框架如图2所示。

图 2 步进式水声对抗仿真环境组成框图 Fig. 2 Step by step underwater acoustic countermeasure simulation environment composition diagram

将步进式水声对抗仿真环境中的系统各个状态赋初始值，嵌入一个时间长度在600 s的循环之中，测试运行结果。循环的终止条件为对抗时长耗尽或鱼雷命中潜艇。具体的运行结果如图3～图4所示。

图 3 步进式水声对抗仿真环境运行结果（对抗成功） Fig. 3 Step by step underwater acoustic countermeasures simulation environment operation results(successful countermeasures)

图 4 步进式水声对抗仿真环境运行结果（对抗失败） Fig. 4 Operation result of step underwater acoustic countermeasure simulation environment (countermeasure failure)

红色航迹为鱼雷弹道，黑色航迹为潜艇规避航路，蓝色航迹为声诱饵航路。对抗成功态势如图3所示，声诱饵成功诱骗鱼雷远离潜艇，鱼雷恢复原航向后，仍然无法发现潜艇，对抗成功。

但是由于此测试环境中的声诱饵缺少航路规划，只是简单的直航航路，若鱼雷报警方位误差较大或声诱饵设定航向出现偏差的情况。使得鱼雷在恢复原航向之后探测到潜艇，出现如图4所示的情况，导致对抗失败。

1.2.2 观测空间设计

$O = \{ {o_1},{o_2},{o_3},...,{o_n}\}$ 表示可观测状态空间，即智能体在于环境交互的过程中得到的观测值的集合。由于本文智能体进行的是声诱饵的航路规划，因此获得决策信息的主体应该为智能体。观测空间由声诱饵可获得的对抗态势信息决定。

1.2.3 动作空间设计

$A = \{ {a_1},{a_2},{a_3},...,{a_n}\}$ 表示动作空间，即智能体与环境交互的过程中全部动作的集合。本系统中将其设为声诱饵航向的5个动作，航向增加10°、航向增加5°、航向保持、航向减少5°、航向减少10°，通过航向来控制声诱饵的航路。设计为5°一个阶梯的原因是为使得声诱饵更好的模拟潜艇的航迹，避免出现航向快速变化的情形。

1.2.4 奖励函数设计

R表示奖励函数，即智能体与环境交互的过程中全部奖励的集合。由于水声对抗任务要求声诱饵尽可能的诱骗鱼雷远离潜艇，因此奖励函数根据任务要求进行设计。奖励函数要对智能体顺利完成任务有引导作用，要避免奖励设置的过于稀疏使得强化学习收敛过慢；同时奖励函数不可太过复杂，使得智能体陷入意料之外的局部最优，因此设置奖励函数如下：

${R_t} = R_t^p + R_t^m + R_t^n 。$

(1)

式中： $R_t^p$ 表示过程奖励项，本文中将其设置为1，即每运行一步，可获得奖励1，该项的目的是鼓励智能体运行更多的步数，使得声诱饵诱骗鱼雷的时间更长。 $R_t^m$ 表示最终奖励项，本文中将其设置为100，即单次运行结果之后，若鱼雷航程耗尽未命中潜艇，给与智能体100的奖励。 $R_t^n$ 表示最终惩罚项，本文中将其设置为−200，即单次运行结果之后，若鱼雷命中潜艇，给与智能体−200的惩罚。

本文使用鱼雷航程反推仿真环境最大运行时间，将其设定为600，即整个对抗过程在600 s。因此若智能最终获得的奖励值大于400，则代表对抗成功。

1.2.5 DQN深度神经网络

DQN为深度Q网络，与Q学习相对应。不同于Q学习通过维护一个Q表，该Q表格存储每个状态下采取动作获得的奖励，即状态-价值函数Q_{(s, a)}，DQN通过一个连续的函数Q_{(s, a, ω)}对Q_{(s, a)}进行近似，使得该函数可以处理连续空间状态，满足步进式水声对抗仿真环境的要求。DQN的目标值如下式：

${y_t} = {r_t} + \gamma \cdot {{\rm{max}}_a}Q({s_{t + 1}},a;\omega ) 。$

(2)

式中：γ为遗忘因子，代表智能体的短视程度；y_t为目标值，通过该目标值计算损失函数，进而通过反向传播使用梯度下降的方法来更新神经网络的参数ω，使得神经网络不断更新，获得更高的奖励。

由于本文未对DQN深度神经网络的结构、训练方式等进行改进，主要使用了较为成熟的模式建立网络，进行训练。

2 强化学习方法实现 2.1 强化学习训练环境设置

1）训练环境初始状态设置

训练环境的初始态势设置为如图4所示的对于潜艇方不利的态势，在该态势下若声诱饵按初始航向直航，鱼雷恢复原航向后探测到潜艇进行攻击，对抗失败。

2）深度神经网络参数设置

DQN网络的部分参数设置如表1所示。

表 1 DQN网络参数（部分） Tab.1 DQN Network Parameters (Part)

3）训练参数设置

对于定义的智能体可进行训练，训练的关键参数设置如表2所示。

表 2 网络训练参数（部分） Tab.2 Network training parameters (part)

2.2 强化学习训练过程

按设置参数进行训练，训练过程如图5所示。图中浅色折线为智能体单次训练得到的奖励值；深色折线为智能体近5次训练得到奖励的评价值，该值到达设定值之后，训练完成。

图 5 强化学习训练过程 Fig. 5 Reinforcement learning training process

2.3 深度强化学习结果验证

借助Matlab强化学习工具箱的验证功能对训练的智能体分别进行验证，验证结果如图6～图7所示。

图 6 网络训练前验证结果 Fig. 6 Verify the results before network training

图 7 网络训练后验证结果 Fig. 7 Verification results after network training

图6为使用未经训练的网络进行航路规划的验证结果。由前文已知，奖励值大于400的情况下才可以保证对抗成功。可知验证奖励值均小于100，说明通过未经过训练的网络对声诱饵的航路进行控制所取得的对抗结果与图3中所示的直航航路的结果大体相似，对抗无法成功。

图7为使用训练后的网络进行航路规划的验证结果。验证奖励值大于400，说明对抗均取得了成功。

3 结　语

本文提出一种基于强化学习的声诱饵航路规划方法，使得声诱饵具备根据实时对抗态势调整自身航路的能力。训练完成的DQN神经网络生成的声诱饵航路可将初始对抗态势不利的情况转危为安，最终对抗成功。为实现该方法，本文的工作主要集中在：

1）步行式水声对抗仿真环境的搭建。该环境可单步模拟对抗态势的推演，为强化学习要素构建提供基础。搭建完成后对该仿真环境进行测试，展示对抗态势，同时展示了需要DQN神经网络进行决策，使之转危为安的不利对抗态势。

2）强化学习要素的设计。结合水声对抗的背景，对强化学习的关键要素如观测值、动作空间、奖励函数、决策使用神经网络进行了设计。针对声诱饵可获得的信息，设计了观测空间；针对声诱饵航路的要求，设计动作空间；针对对抗流程的要求，设计稀疏奖励与实时奖励结合的奖励函数。

3）强化学习训练与结果验证。给出了训练环境初始状态、神经网络与训练过程的关键参数设置值。将DQN神经网络进行的航路规划的结果进行验证，结果表明通过DQN神经网络实时控制的声诱饵航路将初始不利态势转危为安，即实现直航航路所无法达成的对抗效果，可有效提升我方对抗效能。本文中设计的基于强化学习的声诱饵航路规划方法为现代海战中舰船防御鱼雷来袭提供支持，可用于后续声诱饵的设计及改进。本文中使用的DQN神经网络仅可处理离散动作空间的情况，后续工作中考虑可处理连续动作空间的神经网络算法使得该方法的更加贴合工程实际，工程适用性更强。

参考文献

[1]	侯文姝, 陆铭华. 潜艇声诱饵防御声自导鱼雷改进PSO算法[J]. 水下无人系统学报, 2023, 31(3): 436-441. HOU Wenshu, LU Minghua. Improved PSO Algorithm to Defend against Acoustic Homing Torpedoes Using an Acoustic Decoy of a Submarine[J]. Journal of Unmanned Undersea Systems, 2023, 31(3): 436-441. DOI:10.11993/j.issn.2096-3920.202205001
[2]	王日中, 李慧平, 崔迪, 等. 基于深度强化学习算法的自主式水下航行器深度控制[J]. 智能科学与技术学报, 2020, 2(4): 354-360. DOI:10.11959/j.issn.2096-6652.202038
[3]	张堃, 李珂, 时昊天, 等. 基于深度强化学习的UAV航路自主引导机动控制决策算法[J]. 系统工程与电子技术, 2020, 42(7): 1567-1574. Kun ZHANG, Ke LI, Haotian SHI, Zhenchong ZHANG, Zekun LIU. Autonomous guidance maneuver control and decision-making algorithm[J]. Systems Engineering and Electronics, 2020, 42(7): 1567-1574.
[4]	宋大雷, 吕昆岭, 陈小平, 等. 基于深度强化学习的无人船全覆盖路径规划[J]. 现代电子技术, 2022, 45(22): 1-7. SONG Dalei, LU Kunling, CHEN Xiaoping, et al. Full-coverage path planning for unmanned vessels based on deep reinforcement learning[J]. Modern Electronic Technology, 2022, 45(22): 1-7. DOI:10.16652/j.issn.1004-373x.2022.22.001
[5]	吕超, 李慕宸, 欧家骏. 基于分层深度强化学习的无人机混合路径规划[J]. 北京航空航天大学学报, 2023. LU Chao, LI Mu-chen, OU Jia-jun et al. UAV hybrid path planning based on hierarchical deep reinforcement learning[J]. Journal of Beijing University of Aeronautics and Astronautics, 2023. DOI:10.13700/j.bh.1001-5965.2023.0550
[6]	马天, 席润韬, 吕佳豪, 等. 基于深度强化学习的移动机器人三维路径规划方法[J]. 计算机应用, 2024, 44(7): 2055-2064. Tian MA, Runtao XI, Jiahao LYU, Yijie ZENG, Jiayi YANG, Jiehui ZHANG. Mobile robot 3D space path planning method based on deep reinforcement learning[J]. Journal of Computer Applications, 2024, 44(7): 2055-2064. DOI:10.11772/j.issn.1001-9081.2023060749
[7]	张继仁, 陈慧, 宋绍禹, 等. 基于强化学习的自动泊车运动规划[J]. 同济大学学报(自然科学版), 2019, 47(S1): 186-190. Jiren Zhang, Hui Chen, Shaoyu Song, et al. Reinforcement learning-based motion planning for automatic parking[J]. Journal of Tongji University(Natural Science Edition), 2019, 47(S1): 186-190.
[8]	王金强, 苏日新, 刘莉, 等. Q-learning强化学习协同拦截制导律[J]. 导航定位与授时, 2022, 9(5): 84-90. WANG Jinqiang, SU Rixin, LIU Li, et al. Q-learning reinforcement learning collaborative interception of guidance law[J]. Navigation Positioning and Timing, 2022, 9(5): 84-90. DOI:10.19306/j.cnki.2095-8110.2022.05.009
[9]	周毅昕, 程可涛, 柳立敏, 等. 基于Q-learning的弹道优化研究[J]. 兵器装备工程学报, 2022, 43(5): 191-196. ZHOU Yixin, CHENG Ketao, LIU Limin, et al. Research on trajectory optimization based on Q-learning[J]. Journal of Ordnance Equipment Engineering, 2022, 43(5): 191-196. DOI:10.11809/bqzbgcxb2022.05.031


舰船科学技术 2025, Vol. 47 Issue (1): 154-158 DOI: 10.3404/j.issn.1672-7649.2025.01.027	PDF