面向海洋巡逻任务的AUV集群能量短板效应抑制策略

引用本文

蒋可龙, 彭浩, 袁德利, 徐伟峰, 曾子卿, 武子涵. 面向海洋巡逻任务的AUV集群能量短板效应抑制策略. 舰船科学技术, 2026, 48(6): 181-188 复制到剪切板

JIANG Kelong, PENG Hao, YUAN Deli, XU Weifeng, ZENG Ziqing, WU Zihan. Energy short-board effect mitigation strategy for auv swarms in marine patrol missions. Ship Science and Technology, 2026, 48(6): 181-188 复制到剪切板

面向海洋巡逻任务的AUV集群能量短板效应抑制策略

蒋可龙^1,2, 彭浩^1,3, 袁德利^1,2, 徐伟峰^1,2, 曾子卿^1,3, 武子涵^1,3

1. 海南大学热带海洋工程材料及评价全国重点实验室，海南海口 570228;
2. 海南大学机电工程学院，海南海口 570228;
3. 海南大学海洋科学与工程学院，海南海口 570228

收稿日期: 2025-05-27.

基金项目: 海南省科技专项（ZDYF2024GXJS010）；海南省自然科学基金资助项目（425RC698）

作者简介: 蒋可龙（1999 – ），男，硕士研究生，研究方向为水下机器人技术

摘要: 为解决AUV集群在复杂海洋任务中因能量分配不均导致“短板效应”，提出一种基于多智能体强化学习的动态能量均衡策略。该策略将引入动态能耗奖惩函数的长短期记忆-多智能体近端策略优化（Long Short-Term Memory - Multi-Agent Proximal Policy Optimization，LSTM-MAPPO）深度强化学习、A星（A-star，A*）路径规划和比例-积分-微分控制（Proportional-Integral-Derivative Control，PID），构建三级集成智能控制架构，形成“全局决策-路径规划-精准控制”的完整闭环。仿真实验表明，有能耗奖惩函数的LSTM-MAPPO算法相较于基于前沿的探索算法，巡逻覆盖率提升了143.5%，平均巡逻时间减少了31.6%，能耗降低了58.3%；有效抑制了AUV集群能量的短板效应，提升了巡逻任务的执行能效。

关键词: AUV集群多智能体强化学习能量管理协同路径规划

Energy short-board effect mitigation strategy for auv swarms in marine patrol missions

JIANG Kelong^1,2, PENG Hao^1,3, YUAN Deli^1,2, XU Weifeng^1,2, ZENG Ziqing^1,3, WU Zihan^1,3

1. National Key Laboratory of Tropical Marine Engineering Materials and Evaluation, Hainan University, Haikou 570228, China;
2. School of Mechanical and Electrical Engineering, Hainan University, Haikou 570228, China;
3. School of Marine Science and Engineering, Hainan University, Haikou 570228, China

Abstract: To address the "short-board effect" caused by uneven energy distribution in AUV (Autonomous Underwater Vehicle) clusters during complex marine missions, this study proposes a dynamic energy balancing strategy based on multi-agent reinforcement learning. The strategy integrates Long Short-Term Memory - Multi-Agent Proximal Policy Optimization (LSTM-MAPPO) deep reinforcement learning with a dynamic energy consumption reward-punishment function, A-star (A*) path planning, and Proportional-Integral-Derivative (PID) control, forming a three-tiered intelligent control architecture. This framework establishes a complete closed-loop system encompassing "global decision-making, path planning, and precise control". Simulation results demonstrate that compared to state-of-the-art exploration algorithms, the LSTM-MAPPO algorithm with the energy consumption reward-punishment function improves patrol coverage by 143.5%, reduces average patrol time by 31.6%, and decreases energy consumption by 58.3%. The strategy effectively mitigates the energy short-board effect in AUV clusters and enhances the energy efficiency of patrol mission execution.

Key words: AUV swarm multi-agent reinforcement learning energy management cooperative path planning

0 引　言

AUV可以实现高时空分辨率的海洋三维观测，克服传统水面观测平台在空间分辨率方面存在的固有局限^[1]；但由于有效载荷与作业范围的约束，难以满足复杂观测任务的需求。AUV集群技术通过协同决策与自主导航的有机结合^[2]，有效提升了观测效率和作业范围。然而，在复杂海洋环境下，如非均匀洋流场和不规则海洋地形，集群内各AUV的能量消耗常呈现差异。由于集群的整体续航时间由能量最低的AUV决定，部分AUV因能量耗尽提前退出，导致任务覆盖不全、编队结构破坏、协作探测失效，增加剩余AUV的负担，加速整体能量枯竭，从而引发能量“短板效应”。为此，亟需建立智能化的能量均衡策略，通过实时电量评估的动态任务分配、适应复杂海洋环境的路径规划以及协同运动控制，实现集群系统的能效最大化与稳定运行。

当前，AUV集群能量管理虽然在路径规划、群体智能优化、通信协同与数据采集等方面取得了显著进展，但相关研究多聚焦于路径优化与任务分配，不涉及集群内部能量均衡与协同优化。在路径规划方面，Zhao等^[3]提出的动态速度势场法、Liu等^[4]提出的多群协同进化算法、Sun等^[5]提出的改进多目标粒子群算法以及Li等^[6]提出的改进压缩因子粒子群算法，虽然在能耗约束路径规划中取得一定成效，但大多依赖静态或准动态环境假设，缺乏对复杂水下动力学与实时能量自适应机制的结合。在群体智能优化方面，Zhang等^[7]提出搜索者优化算法（Seeker Optimization Algorithm，SOA）、蚁群优化算法（Ant Colony Optimization，ACO）和两元素优化算法（2-Optimization，2-Opt）的混合算法及Wang等^[8]的蚁群-粒子群优化算法（Ant Colony Optimization-Particle Swarm Optimization，ACO-PSO）优化了路径规划与任务调度效率，但在电量异构与动态任务情境下的能量感知与重分配机制仍显不足。在通信协同方面，Meng等^[9]提出的异步联邦学习方法和Mason等^[10]设计的多模态水声网络显著减少了通信能耗，但尚未实现计算与通信一体化能耗优化。在数据采集方面，Jiang等^[11]结合AoI机制的多智能体深度确定性策略梯度算法（Multi-Agent Deep Deterministic Policy Gradient，MADDPG）在搜索覆盖与能量效率间取得良好平衡，但仍难以解决多AUV协同任务中的能量均衡问题。总体来看，AUV集群仍缺乏以能量均衡为核心的系统性管理机制，亟需构建面向复杂环境的协同能量管理策略，以抑制“短板效应”并提升任务执行的可靠性与持续性。

多智能体强化学习为AUV集群中的协同决策与能量管理提供了新的解决方案。该方法能够模拟复杂环境中智能体之间的交互行为，具备良好的实时自适应能力，特别适用于海洋环境下的动态任务分配与能量优化。本研究提出一种融合长短期记忆-多智能体近端策略优化（Long Short-Term Memory - Multi-Agent Proximal Policy Optimization，LSTM-MAPPO）深度强化学习、A星（A-star，A*）路径规划与比例-积分-微分控制（Proportional-Integral-Derivative Control，PID）的多智能体能量管理任务分配策略。该策略通过LSTM捕捉智能体在复杂环境下的能耗动态特征，结合改进的MAPPO实现集群内的任务自适应分配与能耗感知优化决策，配合PID控制器完成对路径跟踪与动态调节的高精度控制，从而形成“全局决策-路径规划-精准控制”的闭环，可有效抑制AUV集群能量短板效应。

1 物理和数学模型 1.1 物理模型

本研究所采用的物理模型为多个AUV构成的集群系统。每台AUV集成锂离子电池、单螺旋桨推进装置、控制模块及声学传感器，分别用于提供动力、推进控制、姿态调节与环境感知。电池容量为4 kWh，推进系统通过直径0.6 m的螺旋桨实现前进动力，控制系统则负责在复杂水下环境中的稳定运行与功率管理；声学传感器的探测半径可达300 m，有效支持任务中的目标识别与环境感知。

1.2 数学模型

本研究构建了一个完整的AUV数学模型，包含4个耦合子模块，系统表征其水下运动与能耗特性。首先，建立惯性系与本体系的坐标转换关系，定义运动学参数；其次，基于三自由度动力学方程，综合考虑惯性、科里奥利力、流体阻力和浮重力等效应；最后，建立推进功率与电池荷电状态（SOC）关联的能耗模型，量化评估任务续航能力。

1）坐标系及参数定义

为描述AUV的运动学与动力学特性，建立如图1所示的2套坐标系^[12]。

图 1 AUV坐标系 Fig. 1 Coordinate systems for AUV

1）惯性坐标系（E−ξηζ）：固定于地球的静止参考系，任选一点作为坐标系{E}的原点。其中，ξ轴指向正北，η轴指向正东，ζ轴垂直于水平面向下指向地心。

2）本体坐标系（G−xyz）：固定于AUV本体，以重心为坐标系{G}的原点。其中，x轴沿AUV前进方向指向艏部，y轴通过重心指向右舷，z轴垂直向下。由于重心位于浮心下方，当AUV发生横摇或纵摇时会产生复原力矩以保障机械稳定性。

定义如下参数：

● ξ，η，ζ：AUV在惯性坐标系中的位置坐标。

● ϕ，θ，ψ：本体坐标系相对于惯性坐标系的姿态角，分别代表偏航角、俯仰角和横滚角。

● u，v，w：本体坐标系中的线速度分量，分别对应进退速度、横移速度和升沉速度。

● p, q, r：绕本体坐标系x、y、z轴的角速度分量。

定义如下向量：

● 惯性坐标系中的位置与姿态向量：

η₁=[ξ, η, ζ]^T，η₂=[ϕ, θ, ψ]^T，η=[ξ, η, ζ, ϕ, θ, ψ]^T。

● 本体坐标系中的线速度与角速度向量：

v₁=[u, v, w]^T，v₂=[p, q, r]^T，V=[u, v, w, p, q, r]^T。

2）AUV运动学模型

本研究通过坐标变换矩阵建立AUV本体坐标系与惯性坐标系的运动参数转换关系^[13]。其中，R₁(η₁)实现线速度从本体系到惯性系的转换，R₂(η₂)完成角速度的坐标转换，其转换方程为：

$ {\dot{\eta }}_{1}={R}_{1}({\eta }_{2}){v}_{1}，$

(1)

$ {\dot{\eta }}_{2}={R}_{2}({\eta }_{2}){v}_{2} ，$

(2)

${ {R}_{1}({\eta }_{2})\text=\left[\begin{matrix}\cos \theta \cos \psi & \begin{matrix}-\cos \phi \sin \psi +\\ \sin \phi \sin \theta \cos \psi \end{matrix} & \begin{matrix}\sin \phi \sin \psi +\\ \cos \phi \sin \theta \cos \psi \end{matrix}\\ \cos \theta \cos \psi & \begin{matrix} \cos \phi \cos \psi +\\ \sin \phi \sin \theta \sin \psi \end{matrix} & \begin{matrix}-\sin \phi \cos \psi +\\ \cos \phi \sin \theta \sin \psi \end{matrix}\\ -\sin \theta & \cos \theta \sin \phi & \cos \phi \cos \theta \end{matrix}\right]，}$

(3)

$ {R}_{2}({\eta }_{2})\text=\left[\begin{matrix}1 & \sin \phi \tan \theta & \cos \phi \tan \theta \\ 0 & \cos \phi & -\sin \phi \\ 0 & \sin \phi \sec \theta & \cos \phi \sec \theta \\ \end{matrix}\right]。$

(4)

3）AUV动力学模型

本文研究的AUV由尾部螺旋桨提供轴向推进力，水平舵控制俯仰运动，垂直舵调节偏航运动。其非线性动力学方程可表示为：

$ M\dot{V}+C(V)V+D(V)V+g(\eta )=\tau +{\tau }_{\text{ext}}。$

(5)

式中：M为系统惯性特性（含附加质量效应）；C(V)反映旋转运动引起的惯性耦合；D(V)为流体阻力特性（含非线性阻尼）；g(η)为静力平衡项；τ为控制输入向量；τ_ext为环境干扰项。该模型的详细推导过程可见文献[14]。

4）能耗模型

AUV的能量消耗计算式为：

$ {P}_{\text{thrust}}={K}_{P}\rho {n}^{3}{D}^{5} 。$

(6)

式中：P_thrust为推进AUV所需的功率；K_P为螺旋桨功率的经验系数；n和D分别为螺旋桨转速和直径。

SOC计算式为：

$ {\text{SOC}}_{t\text{+1}}={\text{SOC}}_{t}-\frac{{P}_{{\mathrm{thust}}}\times \Delta t}{C}。$

(7)

式中：C为电池的总容量；SOC_t为t时刻的SOC值。

2 基于LSTM-MAPPO的三级集成智能控制架构 2.1 系统架构与功能

本文提出的基于LSTM-MAPPO的三级集成智能控制架构如图2所示。通过集成LSTM-MAPPO算法、A*路径规划算法和PID控制算法，引入动态能耗奖惩机制实现AUV之间的协同能量管理。其中，LSTM-MAPPO算法负责处理时序状态数据并生成最优导航指令，A*算法专注于实现高效路径规划和动态避障，PID控制器则确保运动轨迹的精确跟踪。

图 2 基于LSTM-MAPPO的三级集成智能控制架构 Fig. 2 Framework of three-level integrated intelligent control based on LSTM-MAPPO

2.2 模块设计

1）环境数据采集模块

该模块用于采集智能体的观测数据、动作数据、环境奖励信号及状态更新信息，并将其整合为经验元组{s_t，a_t，r_t+1，s_t+1}存储至经验回放缓冲区，供后续训练与策略更新使用。

2）LSTM-MAPPO算法模块

LSTM-MAPPO模型的核心参数配置如表1所示。该模型采用双网络结构，策略网络和价值网络均设置2层隐藏层和2层全连接层，学习率均为0.001。模型引入1层LSTM处理时序数据，采用0.9的折扣因子平衡即时与远期回报，并通过0.2的裁剪因子约束策略更新幅度以确保训练稳定性。该参数组合反映了算法在策略优化与值函数估计间的平衡设计。

表 1 LSTM-MAPPO模型主要参数 Tab.1 Key parameters of the LSTM-MAPPO model

LSTM-MAPPO算法包含以下4个部分：

1）LSTM状态感知网络

LSTM状态感知网络通过输入门、遗忘门和输出门等门控机制处理序列化观测状态s_t，有效提取时间依赖特征并生成状态表示h_t。

2）评价器网络

评价器网络通过LSTM处理的状态h_t，利用全连接层提取特征并在输出层生成状态价值估计V_μ，将状态映射到预期未来累积奖励的价值函数。训练时采用集中式评价器网络，输入全局状态S_t和所有AUV的联合动作来评估全局价值估计，该估计与奖励信号r_t结合以优化网络参数，通过联合评估多智能体状态和动作捕捉系统级动态特性，从而提升整体性能。

评价网络使用时序差分目标作为价值函数损失L^V(μ)^[15]中的优化目标值，通过最小化L^V(μ)来计算V_μ，如下式：

$ {L}^{V}(\mu )=\hat{E}\left[L_{t}^{V}(\mu )\right]=\hat{E}\left[\left| \hat{V}_{\mu }^{{\mathrm{target}}}({s}_{t})-{V}_{\mu }({h}_{t})\right| \right]，$

(8)

$ \hat{V}_{\mu }^{{\mathrm{target}}}({h}_{t})={r}_{t+1}+\gamma {V}_{\mu }({h}_{t+1})。$

(9)

式中：μ为评价网络的可训练参数集合；$ \hat{E}[\cdot ] $为有限样本的经验期望计算；$ \hat{V}_{\mu }^{{\mathrm{target}}}(\cdot ) $为时序差分目标值；γ∈[0,1]为折扣因子。

在此过程中计算的$ \hat{V}_{\mu }^{{\mathrm{target}}}(\cdot ) $直接用于计算时序差分误差σ_t，再通过广义优势估计（GAE）计算优势函数$ {\hat{A}}_{t} $^[16]，如下式：

$ {\delta }_{t}=\hat{V}_{\mu }^{{\mathrm{target}}}({h}_{t})-{V}_{\mu }({h}_{t}) ，$

(10)

$ {{\hat{A}}_{t}={\sigma }_{t}+(\gamma \lambda ){\sigma }_{t+1}+{(\gamma \lambda )}^{2}{\sigma }_{t+2}+...+{(\gamma \lambda )}^{U-t+1}{\sigma }_{U-1} 。}$

(11)

式中：λ∈[0,1]为GAE参数；U为采样批次长度。

3）执行器网络

执行器网络基于LSTM处理后的状态表示h_t生成动作策略，输出动作正态分布的均值与标准差以构建策略分布π_θ(a_t|h_t)，并通过重要性采样将旧策略π_θold(a_t|h_t)的样本应用于新策略的期望估计，从而将PPO算法转化为离线优化形式以提升更新稳定性。该网络同时输出目标导航点g_k和期望速度以指导AUV运动决策。核心公式为：

$ {L^{{\mathrm{CLIP}}}}(\theta ) = \hat E\left[ {\min \left( \begin{gathered} {r_t}(\theta ){{\hat A}_t},\;{\text{clip}}({r_t}(\theta ), \; 1 - \varepsilon,\;1 + \varepsilon){{\hat A}_t}\\ \end{gathered} \right)} \right]，$

(12)

$ {\text{clip}({r}_{t}(\theta ),1-\varepsilon ,1+\varepsilon )=\begin{cases} \text{}1+\varepsilon \text{，}如果{r}_{t}\text{}(\theta ) \gt 1+\varepsilon ，\\ 1-\varepsilon \text{，}如果{r}_{t}\text{}(\theta ) \lt 1-\varepsilon，\\ {r}_{t}\text{}(\theta )\text{，} 其他。\end{cases} }$

(13)

式中：θ为策略网络的参数；clip[·]为裁剪机制；r_t(θ)=π_θ(a_t|h_t)/π_θold(a_t|h_t)表示新旧策略之间动作a_t概率的比值；$\varepsilon $是一个小值。

3）A*路径规划模块

该模块基于A*算法^[17]计算LSTM-MAPPO生成的导航点间最优路径，其输入为AUV当前位置与目标点，输出为避障且能耗最小的航路点序列$ \left\{w_1,\;w_2,\; \ldots, w_k\right\} $，A*算法通过代价函数实现路径优化，如下式：

$ f(n)=g(n)+\alpha \cdot {h}_{\text{distance}}(n)+\beta {h}_{\text{obstacle}}(n) ，$

(14)

$ {h}_{\text{distance}}(n)=\sqrt{{({{x}_{n}}-{{x}_{g}})}^{2}+{({{y}_{n}}-{{y}_{g}})}^{2}} ，$

(15)

$ {h}_{\text{obstacle}}(n)=\begin{cases} +\mathrm{\infty } ,如果\left({x}_{n},{y}_{n}\right)是障碍物，\\ 0, 其他。\\ \end{cases} $

(16)

式中：n为当前节点；f (n)为节点n的总代价；g(n)为从起始节点到节点n的实际代价；h_distance(n)为节点n到目标节点的欧氏距离；h_obstacle(n)为障碍物代价；α、β分别为h_distance(n) 和h_obtacle(n)的权重；(x_n, y_n)为节点n的坐标；(x_g, y_g)为目标点的坐标。

4）PID控制模块

本模块实现了一个双环PID控制器^[18]，用于精确跟踪A算法生成的路径，同时补偿海流扰动。控制器接收来自A模块的路径点序列和LSTM-MAPPO的期望速度作为输入，输出推进力和转向角控制指令。其核心控制律包括速度环PID和航向环PID，其中航向控制引入路径曲率前馈项以提高跟踪精度。PID算法的核心公式为：

$ F(t)={K}_{p,v}{e}_{v}(t)+{K}_{i,v}\int_{0}^{t}{e}_{v}(\tau ){\mathrm{d}}\tau +{K}_{d,v}\frac{{\mathrm{d}}{e}_{v}(t)}{{\mathrm{d}}t}，$

(17)

$ \delta (t)={K}_{p,\psi }{e}_{\psi }(t)+{K}_{d,\psi }\frac{{\mathrm{d}}{e}_{\psi }(t)}{{\mathrm{d}}t}+\kappa (t){v}_{d}(t) ，$

(18)

$ {e}_{v}(t)={v}_{d}\text{}(t)-v(t)，$

(19)

$ {e}_{\psi }(t)={\psi }_{d}\text{}(t)-\psi (t)。$

(20)

式中：F(t)为力量推进；δ(t)为舵偏转的角度；e_v(t)为速度误差；e_ψ(t)为路径切线方向；K_p,v为速度成比例的增加；K_i,v为积分获得速度；K_d,v为速度微分增益；K_p,ψ为航向比例增益；K_d,ψ为航向微分增益；κ(t)为瞬时曲率路径；e_v(t)为速度误差；v_d(t)为需要速度；v(t)为实际AUV速度；e_ψ(t)为航向误差；ψ_d(t)为路径切线方向；ψ(t)为AUV实际方向。

3 状态空间、动作空间和奖惩函数设计

本研究基于AUV模型设计了状态空间（S）与动作空间（A），并基于巡逻任务设计了奖惩函数（R）。

状态空间（S）包含AUV的关键动态变量：位置（x,y）、速度（v_x,v_y）及荷电状态（SOC），如下式：

$ \begin{split} & {S \in {\mathbb{R}^{{N_\text{agent}} \times 5}} = }\\ & {\left[ {\begin{array}{*{20}{c}} {{{{x}}_{{{i =1}}}}} &{{{{y}}_{{{i = 1}}}}} &{{{{v}}_{{{x}},{{i=1}}}}}&{{{{v}}_{{{y}} ,{{i=1}}}}}&{{\text{SOC}}{_{{{i = 1}}}}} \\ {{{{x}}_{{{i=2}}}}} &{{{{y}}_{{{i=2}}}}}&{{{{v}}_{{{x}},{{i= 2}}}}} &{{{{v}}_{{{y}},{{i = 2}}}}} &{{\text{SOC}}{_{{{i = 2}}}}} \\ {\ldots}&{\ldots}&{\ldots}&{\ldots}&{\ldots} \\ {{{{x}}_{{{i = }} {{{N}}_{{\text{agent}}}}}}} &{{{{y}}_{{{i = }} {{{N}}_{{\text{agent}}}}}}} &{{{{v}}_{{{x}} ,{{i = }} {{{N}}_{{\text{agent}}}}}}} &{{{{v}}_{{{y}} ,{{i = }} {{{N}}_{{\text{agent}}}}}}} &{{\text{SOC}} {_{{{i = }} {{{N}}_{{\text{agent}}}}}}} \end{array}} \right]}。\end{split} $

(21)

动作空间（A）定义为期望速度v_d和航向导航点（g_x,g_y），如下式：

$ A\in {\mathbb{R}}^{{{N}_\text{agent}}\times 3}\text=\left[\begin{matrix}{v}_{d,i=1} & {g}_{x,i=1} & {g}_{y,i=1}\\ {v}_{d,i=2} & {g}_{x,i=2} & {g}_{y,i=2}\\ ... & ... & ...\\ {v}_{d,n={{N}_\text{agent}}} & {g}_{x,i={{N}_\text{agent}}} & {g}_{y,i={{N}_\text{agent}}}\\ \end{matrix}\right] 。$

(22)

式中：N_agent为智能体总数；i为特定智能体索引。

奖惩函数（R）是基于当前观测采取动作的反馈，本研究构建了包含3个子奖惩函数的复合奖励函数，如下式：

$ R={R}_{\text{coverage}}-{P}_{\text{overlap}}-{P}_{\text{energy}}。$

(23)

R_coverage为覆盖奖惩函数。AUV探索未覆盖区域时获得正向奖励，探索范围越大奖励越高，如下式：

$ {R}_{\mathrm{{coverage}}}=\sum_{n=1}^{n={N}_\text{agent}}S_{{\mathrm{{detected}}},n}\times {C}_{\mathrm{{coverage} }}。$

(24)

式中：S_detected,n为单个AUV在其探测范围内发现的未覆盖区域；C_coverage为覆盖奖励的固定权重系数。

P_overlap为重叠奖惩函数，通过累加AUV间探测重叠的惩罚项来抑制冗余探索，重叠越多惩罚越大，如下式：

$ {P}_{\mathrm{overlap}}=\sum_{n=1}^{n={N}_\text{agent}}{S}_{\mathrm{overlap,}}{}_{n}\times {C}_{\mathrm{overlap}}。$

(25)

式中：S_overlap,n为单个AUV在其探测范围内发现的已覆盖区域；C_overlap为重叠惩罚的固定权重系数。

P_energy为动态能耗奖惩函数，通过动态惩罚能量差异，防止低能量AUV引发“短板效应”，破坏群体鲁棒性和任务可靠性。其中考虑了所有AUV的能量消耗，以鼓励节能和平衡AUV之间的能量使用，如下式：

$ {P}_{\mathrm{overlap}}=\sum_{n=1}^{n={N}_\text{agent}}{S}_{\mathrm{overlap,}}{}_{n}\times {C}_{\mathrm{overlap}}，$

(26)

$ {W}_{\text{SOC},}{}_{n}=\frac{{\text{SOC}}_{\text{MAX}}-{\text{SOC}}_{n}}{{\text{SOC}}_{n}}。$

(27)

式中：P_thrust,n为单个AUV的能耗；C_SOC为能量惩罚的固定权重系数；W_SOC,n为当前AUV的动态能耗惩罚权重系数；SOC_MAX为所有智能体中的最大SOC值；SOC_n为当前智能体的SOC。

4 结果与讨论 4.1 实验设置

本研究采用Python3语言在Inteli 9−10940X（4.6 GHz）、RTX3090显卡、32 GB内存的Linux平台上进行仿真验证。

实验采用栅格法^[19]构建了3000 m×3000 m的二维海洋环境，障碍物环境由4个300 m×300 m的矩形障碍物组成，洋流环境由5个Lamb涡流叠加形成。

洋流场建模如下式：

$ {v}_{{x, {\mathrm{current}}}}=\frac{\Gamma }{2\text π r}\left(1-{\text{e}}^{- \frac{{r}^{2}}{r_{0}^{2}}}\right)\displaystyle\frac{x}{r} ，$

(28)

$ {v}_{{y, {\mathrm{current}}}}=\frac{\Gamma }{2\text π r}\left(1-{\text{e}}^{-\frac{{r}^{2}}{r_{0}^{2}}}\right)\displaystyle \frac{y}{r}，$

(29)

$ r=\sqrt{{x}^{2}+{y}^{2}}。$

(30)

式中：Γ为涡流环量强度，均为8 m²/s；r₀为特征半径，取值为150 m；r为任意点到涡流中心的距离。

设置4台AUV进行巡逻任务，当最低电量AUV的SOC低于10%时停止巡逻任务，4台AUV的初始位置对称分布于地图中心区域，坐标分别为(1650, 1650)、(1650, 1350)、(1350, 1650)和(1350, 1350)，SOC分别为100%、90%、80%、70%，如图3所示。

图 3 环境地图 Fig. 3 Environment map

4.2 策略学习分析

图4为LSTM-MAPPO算法与标准MAPPO算法的性能对比分析结果，经过1000个训练周期的迭代，2种算法的学习曲线呈现出差异。为量化比较两者的最终性能，选取训练后期25%的稳定数据计算平均值作为收敛值。实验结果表明，虽然2种算法最终都达到了稳定收敛状态，但LSTM-MAPPO算法的收敛值（−353.7）较标准MAPPO算法（−390.9）提升了9%，表现出更优异的渐进性能。

图 4 奖励值对比 Fig. 4 Comparison of rewards

这一性能提升得益于 LSTM 网络的引入，使得算法能够有效存储并利用历史状态信息，从而在环境动态变化的情况下更准确地估计长期奖励趋势，提升训练效率和最终策略质量。在应对复杂任务场景时，LSTM-MAPPO 的表现尤为突出，展现了更高的适应性和更稳定的策略生成能力。

4.3 节能效果对比

本节设计仿真实验对提出的有能耗奖惩函数的LSTM-MAPPO算法进行系统性评估。为全面验证算法性能，选取以下2种方法进行对比分析：1）无能耗奖惩函数的LSTM-MAPPO算法；2）基于前沿的探索算法^[20]。

实验结果中，智能体的巡逻任务完成情况及其SOC变化过程分别如图5～图8所示。这些图像清晰地反映了不同算法在能量消耗效率、巡逻覆盖率以及协同表现方面的差异，为后续算法性能优化和评估提供了可靠依据。

图 5 基于前沿的探索算法巡逻轨迹图 Fig. 5 Patrol trajectory map of frontier-based exploration algorithm

图 8 算法效果对比 Fig. 8 Algorithm performance comparison

图5为基于前沿的探索算法在模拟环境中的巡逻轨迹投影图。其中，红色、黄色、绿色和紫色曲线分别表示4个智能体的运动轨迹，背景中的蓝色箭头用于指示海流的流向。图例中进一步标注了各智能体的颜色及其对应的SOC（电池状态）信息，便于直观分析智能体的任务执行情况。

实验观测结果表明，基于信息驱动的路径规划算法在区域覆盖任务中存在明显的轨迹优化不足问题。AUV的运动轨迹在多数区域呈现出显著的聚集特征，表现为轨迹重复覆盖现象。这种轨迹分布不仅导致能源利用效率低，同时严重影响了区域覆盖的均匀性和完整性。这种现象直接制约了系统在持续巡逻任务中的整体性能表现，使得AUV集群仅能实现单次全局覆盖，无法完成第二次巡逻。

图6为无能耗奖惩函数的LSTM-MAPPO算法在相同海洋环境中的运动轨迹投影及电池状态变化。实验结果表明，基于LSTM-MAPPO框架的节能算法相较于传统方法具有显著优势，其生成的轨迹在空间分布上更为均匀，有效规避了局部区域轨迹重叠现象，从而实现了系统能耗的显著降低，这也是其能使AUV集群完成3次全局覆盖的主要原因。然而，分析4台AUV的电量变化可以发现，该算法在多智能体能量均衡管理方面仍存在不足：4台在巡逻过程中SOC极差逐渐增大。这一现象揭示了AUV集群能量管理中的局限，高电量AUV能量利用不足，系统续航受限于最低电量AUV，导致“短板效应”，制约了群体效率优化。

图 6 无能耗奖惩函数的LSTM-MAPPO算法巡逻轨迹图 Fig. 6 Patrol trajectory map of LSTM-MAPPO algorithm without energy-consumption reward-penalty function

图7为有能耗奖惩函数的LSTM-MAPPO算法在模拟海洋环境中的运动轨迹投影及电池状态（SOC）变化。实验结果表明，相较于无节能奖励机制的基准算法，该节能算法具有以下显著优势：首先，在保持轨迹空间分布均匀性的同时，能够根据各AUV的初始电量动态优化任务分配；其次，实现了全局4次完整遍历，SOC极差呈现收敛趋势；特别值得注意的是，在第三次巡逻周期中观察到最低能耗AUV的切换现象，这一现象表明，动态节能奖励机制能有效引导高电量AUV承担更多任务，提升能量利用效率，延长低电量AUV续航，从而显著增强系统整体效能。

图 7 有能耗奖惩函数的LSTM-MAPPO算法巡逻轨迹图 Fig. 7 Patrol trajectory map of LSTM-MAPPO algorithm with energy-consumption reward-penalty function

图8为3种算法在系统巡逻进度、能耗及SOC极差3个维度的性能表现。从图8(a)可以看出，基于前沿的探索算法在每次全局遍历的后期阶段存在明显的时间延迟现象，而基于LSTM-MAPPO的2种算法则保持了稳定的巡逻效率。结合图8(b)的能耗分析可知，LSTM-MAPPO框架下的2种算法在单次巡逻中的能耗低于基于前沿的探索算法，这主要得益于其优化的轨迹空间分布策略。特别值得注意的是，如图8(c)所示，有能耗奖惩函数的LSTM-MAPPO算法展现出更优异的性能：一方面，SOC极差呈现稳定下降趋势；另一方面，系统实现了更多的全局遍历次数和更长的持续运行时间。这种性能提升源于算法创新的动态奖励机制，该奖励机制通过电量之间的差异调节分配AUV的状态，提升高电量AUV利用率，延长低电量AUV续航时间，有效克服“短板效应”。实验表明，该节能算法在巡逻效率、能耗控制和系统稳定性方面表现优越。

通过对图8的实验数据进行分析，本文提取并计算了以下关键性能评价指标：平均每次覆盖全地图所需时间（T_avg），平均每次覆盖全地图的能耗（E_avg），SOC极差（ΔSOC），全地图覆盖进度（C）；同时，为全面评估3种算法的计算性能，统计了从巡逻开始到结束的平均单步计算时间（T_step），如表2所示。

表 2 性能评价指标对比 Tab.2 Comparison of performance evaluation metrics

由表2分析可知，本文提出的有能耗奖惩函数的LSTM-MAPPO算法在多项关键性能指标上均显现出优势。在巡逻效率方面，算法实现了1696.5 s的单次巡逻平均耗时，与无能耗奖惩函数的LSTM-MAPPO算法性能相当，但较现有基于前沿的探索算法提升了31.0%的时间效率。能耗性能测试显示，单次巡逻平均能耗仅为0.59 kWh，与无节能奖励的LSTM-MAPPO算法持平，但较基于前沿的探索算法降低了59.0%的能耗；在能量均衡性方面，算法将SOC极差（ΔSOC）控制在15.6%的较低水平，较无能耗奖惩函数的LSTM-MAPPO算法和基于前沿的探索算法分别降低了64.3%和37.8%；同时实现了486.8%的巡逻覆盖率，较2个对比算法分别提升了23.9%和143.5%；在计算性能方面，带有能耗奖惩函数的LSTM-MAPPO算法与无能耗奖惩函数的LSTM-MAPPO算法的平均单步计算时间基本相当，这主要是因为两者的核心算法框架相同。然而，与基于前沿的探索算法相比，带有能耗奖惩函数的LSTM-MAPPO算法实现了显著的效率提升，其单步平均计算时间减少了62.2%。

实验结果验证了有能耗奖惩函数的LSTM-MAPPO算法在多AUV协同巡逻系统中有效提高能量利用效率等方面的优势。

5 结　语

本文针对AUV集群在复杂海洋任务中因能量分配不均导致“短板效应”，提出了引入动态能量平衡策略的三级融合智能控制架构，主要结论如下：

1）有能耗奖惩函数的LSTM-MAPPO算法通过智能路径规划显著降低了路径冗余。实验数据表明，相较于基于前沿的探索算法，该算法使巡逻覆盖率提升143.5%，平均巡逻时间降低31.0%、能耗降低58.3%，整体任务执行效率获得系统性提升。

2）有能耗奖惩函数的LSTM-MAPPO算法相较于无能耗奖惩函数的LSTM-MAPPO算法，在保持平均巡逻时间和能耗水平稳定的基础上，巡逻覆盖率提升了23.9%，SOC极差降低了64.3%，表明该算法可有效解决“能量短板效应”问题，提高了整体系统能效。

参考文献

[1]	TESTOR P, YOUNG B D, RUDNICK D, et al. OceanGliders: a component of the integrated GOOS[J]. Frontiers in Marine Science, 2019, (6): 422. DOI:10.3389/fmars.2019.00422
[2]	闫勋, 廖宇辰, 贾晋军, 等. 面向海洋勘测的多水下机器人编队跟踪控制研究[J]. 舰船科学技术, 2024, 46(1): 102-108. YAN X, LIAO Y C, JIA J J, et al. Research on formation-tracking control of multi-AUV systems for ocean survey[J]. Ship Science and Technology, 2024, 46(1): 102-108.
[3]	ZHAO Z Y, ZHANG Y Z, FENG X L, et al. A dynamic velocity potential field method for multi-AUV cooperative hunting tasks[J]. Ocean Engineering, 2024, 295: 116813. DOI:10.1016/j.oceaneng.2024.116813
[4]	LIU Z L, NING D Y, HOU J Y, et al. AUV path planning in a three-dimensional marine environment based on a novel multiple swarm co-evolutionary algorithm[J]. Ocean Engineering, 2024, 164: 111933.
[5]	SUN B, NIU N N. Multi-AUVs cooperative path planning in 3D underwater terrain and vortex environments based on improved multi-objective particle swarm optimization algorithm[J]. Ocean Engineering, 2024, 311: 118944. DOI:10.1016/j.oceaneng.2024.118944
[6]	LI X H, YU S H. Three-dimensional path planning for AUVs in ocean currents environment based on an improved compression factor particle swarm optimization algorithm[J]. Ocean Engineering, 2023, 280: 114610. DOI:10.1016/j.oceaneng.2023.114610
[7]	ZHANG Y X, SHEN Y, WANG Q, et al. A novel hybrid swarm intelligence algorithm for solving TSP and desired-path-based online obstacle avoidance strategy for AUV[J]. Robotics and Autonomous Systems, 2024, 177: 104678. DOI:10.1016/j.robot.2024.104678
[8]	WANG H J, YUAN J Y, LV H L, et al. Task allocation and online path planning for AUV swarm cooperation [C]// Proceedings of OCEANS 2017 - Aberdeen. Aberdeen, UK: IEEE, 2017.
[9]	MENG Z Z, LI Z, HOU X W, et al. Efficient asynchronous federated learning for AUV swarm[J]. Sensors, 2022(22): 8727. DOI:10.3390/s22228727
[10]	MASON F, CHIARIOTRI F, CAMPAGNARO F, et al. Low-cost AUV swarm localization through multimodal underwater acoustic networks[C]//Proceedings of Global Oceans 2020: Singapore – U. S. Gulf Coast. Biloxi, MS, USA: IEEE, 2020.
[11]	JIANG B Q, DU J, REN K, et al. Multi-Agent reinforcement learning based secure searching and data collection in AUV swarms [C]// Proceedings of IEEE International Conference on Communications (ICC). Rome, Italy: IEEE, 2023.
[12]	FOSSEN T I. Handbook of marine craft hydrodynamics and motion control [M]. Chichester: John Wiley & Sons Ltd, 2011.
[13]	LI J W, XIA Y K, XU G H, et al. Enhanced three-dimensional trajectory tracking control for AUVs in variable operating conditions using FMPC-FTTSMC[J]. Ocean Engineering, 2024, 310: 118805. DOI:10.1016/j.oceaneng.2024.118805
[14]	吴子明, 杨柯, 唐杨周, 等. 基于反步滑模控制的欠驱动AUV定深运动研究[J]. 舰船科学技术, 2023, 45(1): 114-119. WU Z M, YANG K, TANG Y Z, et al. Research on underactuated AUV depth motion based on backstepping sliding mode control[J]. Ship Science and technology, 2023, 45(1): 114-119.
[15]	DUAN J J, SHI D, DIAO R S, et al. Deep-reinforcement-learning-based autonomous voltage control for power grid operations[J]. IEEE Transactions on Power Systems, 2020, 35(1): 814-817. DOI:10.1109/TPWRS.2019.2941134
[16]	SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal Policy Optimization Algorithms [J/OL]. arXiv preprint arXiv: 1707.06347, 2017 [2025-05-15]. https://arxiv.org/abs/1707.06347
[17]	HART P E, NILSSON N J, RAPHAEL B. A formal basis for the heuristic determination of minimum cost paths[J]. IEEE Transactions on Systems Science and Cybernetics, 1968, 4(2): 100-107. DOI:10.1109/TSSC.1968.300136
[18]	WU H, SU W H, LIU Z G. PID controllers: Design and tuning methods [C]//2014 9th IEEE Conference on Industrial Electronics and Applications. Hangzhou, China: IEEE, 2014.
[19]	郭银景, 侯佳辰, 吴琪, 等. AUV全局路径规划环境建模算法研究进展[J]. 舰船科学技术, 2021, 43 (17): 12−18. GUO Y J, HOU J C, WU Q, et al. Research progress of AUV global path planning environment modeling algorithm [J]. Ship Science and technology, 2021, 43 (17): 12−18.
[20]	YAMAUCHI B. A frontier-based approach for autonomous exploration [C]// Proceedings of the 1997 IEEE International Symposium on Computational Intelligence in Robotics and Automation (CIRA'97). Monterey, CA, USA: IEEE, 1997.


舰船科学技术 2026, Vol. 48 Issue (6): 181-188 DOI: 10.3404/j.issn.1672-7649.2026.06.024	PDF