面向无人舰艇集群协同搜索的马尔可夫决策规划

引用本文

吴曼丽, 肖淑苹. 面向无人舰艇集群协同搜索的马尔可夫决策规划. 舰船科学技术, 2025, 47(19): 197-200 复制到剪切板

WU Manli, XIAO Shuping. Markov decision programming for collaborative search of unmanned ship clusters. Ship Science and Technology, 2025, 47(19): 197-200 复制到剪切板

面向无人舰艇集群协同搜索的马尔可夫决策规划

吴曼丽, 肖淑苹

西安明德理工学院信息工程学院，陕西西安 710124

收稿日期: 2025-04-15.

作者简介: 吴曼丽（1982 – ），女，硕士，讲师，研究方向为数据库、智能信号与算法仿真测试等

摘要: 针对无人舰艇集群协同搜索中多目标优化与动态约束难以平衡的问题，本文提出多目标约束马尔可夫决策过程算法。首先构建该算法数学模型，同时提出按搜索阶段自适应调整多目标权重的帕累托最优价值函数求解机制。基于Matlab/Simulink-ROS与ADCIRC海洋环流模型构建实验平台，对比传统MDP、分布式一致性、混合整数规划算法。结果表明：本文算法3000步后以0.896高覆盖度收敛；高覆盖度方案任务周期集中于2280–2400 s，通信中断率30%时性能下降幅度较传统MDP低10%以上。本文算法可支撑开阔海域搜救、岛礁海域安防巡逻等场景，兼具理论创新性与工程实用性。

关键词: 无人舰艇集群多目标约束马尔科夫决策协同搜索

Markov decision programming for collaborative search of unmanned ship clusters

WU Manli, XIAO Shuping

School of Information Engineering, Xi'an Ming De Institute of Technology, Xi'an 710124, China

Abstract: To address the difficulty in balancing multi-objective optimization and dynamic constraints during the collaborative search of unmanned ship clusters, this paper proposes a Multi-Objective Constrained Markov Decision Process (MOC-MDP) algorithm. Firstly, its mathematical model is constructed, and a Pareto optimal value function solution mechanism is proposed—one that adaptively adjusts the weights of multiple objectives according to the search stage.An experimental platform was built based on the Matlab/Simulink-ROS and ADCIRC ocean circulation models to compare the proposed algorithm with traditional Markov Decision Process (MDP), distributed consensus, and mixed integer programming algorithms. Results show that the proposed algorithm converges after 3000 steps, achieving a high coverage rate of 0.896; the task cycle of high-coverage solutions is concentrated between 2280 and 2400 s. When the communication outage rate reaches 30%, the algorithm’s performance degradation is over 10% lower than that of traditional MDP.This algorithm can support scenarios such as open-sea search and rescue and island-reef water security patrols, integrating theoretical innovation with engineering practicality.

Key words: unmanned vessel cluster multi-objective constraints markov decision collaborative search

0 引　言

无人舰艇集群作为海洋领域多智能体系统的重要应用形式，当前在海洋搜救、海域监测、国防安全等领域的实际需求持续增长。其中协同搜索任务作为核心应用场景之一，需应对三重核心挑战：海洋环境的强不确定性，风场、流场的动态干扰会直接影响无人舰艇的运动轨迹与传感器探测精度；集群通信拓扑的动态变化，受通信距离、海洋环境噪声影响，单艇与集群中心或相邻艇的通信连接易出现中断风险，导致协同指令传输延迟或丢失；多目标优先级的动态调整，搜索任务中覆盖度、能耗、时效性等目标常存在冲突，需根据任务阶段与环境变化灵活适配优先级^[1]。马尔可夫决策过程（MDP）因能通过状态转移概率建模动态决策过程，在多智能体规划领域具备天然优势，可有效处理决策的时序性与不确定性，但传统MDP模型缺乏对多目标优化与多约束条件的联合建模能力，无法直接适配无人舰艇集群协同搜索的复杂需求，亟需针对性改进以提升模型的场景适配性^[2]。

当前无人舰艇集群协同搜索算法研究主要分为分布式与集中式两大方向，但均存在明显应用局限。分布式协同算法如一致性协议、拍卖算法，通过节点间局部信息交互实现协同决策，虽能降低对全局通信的依赖，但在多约束场景下难以平衡搜索效率与约束满足度^{[3 − 4]}。集中式规划算法如混合整数规划、启发式算法，虽能通过全局信息优化搜索策略，保障多目标与多约束的协同性，但计算复杂度随集群规模呈指数级增长，在10艘以上无人舰艇的大规模集群场景下，规划耗时显著增加，难以满足搜索任务对实时性的要求，导致算法在实际应用中受限。

多目标约束MDP相关理论与应用研究已取得一定进展，为无人舰艇集群协同搜索规划提供了理论基础，但仍存在场景适配性不足的问题。在多目标MDP（MOMDP）领域，价值函数求解方法主要包括加权求和法与ε-约束法，其中加权求和法通过将多目标转化为单目标优化，计算效率较高但易受权重设置主观影响，难以覆盖帕累托最优解的全部分布^[5]；ε-约束法通过将部分目标转化为约束条件，能生成更全面的帕累托最优解^[6]。本文在前人研究基础上提出一种面向无人舰艇集群协同搜索的多目标约束马尔可夫决策过程规划算法，设计多目标优先级自适应调整的价值函数，构建分布式约束校验迭代机制，降低集中式决策的计算开销。

1 多目标约束MDP的数学建模

面向无人舰艇集群协同搜索的多目标约束马尔可夫决策过程（MOC-MDP），其核心优化目标为在满足多约束条件下实现多目标收益最大化，数学表达为：

$ {\mathrm{max}}_{a\in A}E\left[{\displaystyle \sum _{t=0}^{\infty }{\gamma }^{t}}r({s}_{t},{a}_{t})\right]。$

(1)

且需满足约束条件：

$ E\left[ {\sum\limits_{t = 0}^\infty {{\gamma ^t}} {c_i}({s_t},{a_t})} \right] \leqslant {C_i} ，(其中i=1,2,...,k)。$

(2)

式中：$ E[ \cdot ] $为对长期累积收益与约束成本的期望计算；γ为折扣因子，取值范围[0，1]，用于权衡即时与未来收益的权重。

$ {s_t} \in S $为t时刻的系统状态，S是融合集群整体状态（平均覆盖度、拓扑连通度）与个体状态（位置、剩余电量、传感器状态）的高维向量；$ {a_t} \in A $为t时刻的联合动作，A包含集群级动作（区域划分策略）与个体级动作（运动方向、传感器功率、通信频率）；$ r({s_t},{a_t}) = [{r_1}({s_t},{a_t}),{r_2}({s_t},{a_t}),{r_3}({s_t},{a_t})] $为多目标即时奖励，$ {r_1}({s_t},{a_t}),{r_2}({s_t},{a_t}),{r_3}({s_t},{a_t}) $分别对应搜索覆盖度收益、集群能耗惩罚、任务时效性奖励；$ {c_i}({s_t},{a_t}) $为第i个约束函数，涵盖硬约束（通信距离、传感器视场等）的违反惩罚与软约束（路径重叠率、连续工作时长等）的成本量化；C_i为第i个约束的阈值上限。

上述优化目标中，期望$ E[ \cdot ] $的计算依赖状态转移概率$ P\left( {s'|s,a} \right) $，其定义为：当前时刻集群处于状态s、执行动作a时，下一时刻转移至状态s'的概率，数学表达为：

$ P(s'|s,a) = Pr ({s_{t + 1}} = s'\mid {s_t} = s,{a_t} = a)。$

(3)

该概率需融合无人舰艇集群特性与海洋环境动态性构建，具体计算逻辑如下：

1）状态维度映射

s与s'均包含集群整体状态+个体舰艇状态，整体状态含搜索区域平均覆盖度、集群通信拓扑连通度，个体状态含单艇位置、剩余电量、传感器工作状态）；s'是s在动作a作用下结合环境干扰的状态更新结果。

2）海洋环境干扰量化

引入环境干扰系数ω（由风场强度v_ω、流场速度v_c拟合，ω=1−0.02v_ω−0.03v_c，取值范围[0.5,1]，干扰越强ω越小；当执行个体运动方向调整类动作时，单艇实际位置偏差服从$ \mathcal{N}(0,{\sigma ^2}) $高斯分布，其中，$ \sigma = 0.1(1 - \omega ) $，此时位置状态的转移概率需叠加该分布密度。

3）动作执行误差补偿

针对集群区域划分、传感器功率调节等动作，引入执行成功率$ \eta $，传感器功率调整成功率$ {\eta _1} $为：

$ {\eta _1} = {\text{ }}0.95{\text{ }} - {\text{ }}0.05\left( {1 - e/{e_0}} \right)。$

(4)

式中：e为当前电量；e₀为满电量，若动作执行成功则按预设规则更新状态，失败则维持原状态，因此：

$ P(s'|s,a) = \eta \cdot {P_{{\text{succ}}}}(s'|s,a) + (1 - \eta ) \cdot \mathbb{I}(s' = s)。$

(5)

式中：$ {P_{{\text{succ}}}}(s'|s,a) $为动作成功时的转移概率；$ \mathbb{I}( \cdot ) $为指示函数。

4）拓扑动态性适配

当动作a包含通信频率调整时，拓扑连通度状态的转移概率需结合通信距离阈值d₀计算−若两艇当前距离$ d \leqslant {d_0} $，则连通状态转移为“连通”的概率为$ 0.98 - 0.04(1 - \omega ) $，反之则转移为“断开”的概率为1。

2 多目标约束MDP规划算法设计 2.1 基于动态权重的帕累托最优价值函数求解

为解决多目标（覆盖度、能耗、时效性）优先级动态变化问题，提出动态权重调整机制与改进价值迭代算法，实现帕累托最优解的高效求解。在多目标权重动态调整上，依据协同搜索的任务特性划分三阶段：初始探索阶段需快速扩大搜索范围，故赋予覆盖度0.6的最高权重，能耗与时效性分别为0.2；目标聚焦阶段需优先确认已发现目标区域，时效性权重提升至0.4，覆盖度与能耗均降至0.3；收尾补漏阶段需平衡剩余区域覆盖与能耗控制，两者权重均设为0.4，时效性降至 0.2。权重调整通过实时监测指标触发：当覆盖度达标率低于50%时维持初始阶段权重，达50%～80%自动切换至目标聚焦阶段，超80%进入收尾阶段；若通信中断频次每小时超3次，临时提升通信连通性隐性权重（占比0.1），从覆盖度或能耗权重中分摊，保障约束满足。

为验证上述权重与阶段阈值的稳健性，通过控制变量法开展敏感性测试：

1）权重参数：将3阶段核心权重（覆盖度、能耗、时效性）分别在±0.1范围内调整，结果显示覆盖度波动$ \leqslant $3.2%、任务时间波动$ \leqslant $5.8%，当前权重组合下帕累托解集中性最优，解间距缩小了12%。

2）阶段阈值：将覆盖度阈值（50%、80%）在±5%范围内调整，发现阈值提升5%时收尾阶段启动延迟，任务时间延长8%～10%；阈值降低5%时聚焦阶段过早启动，覆盖度下降2.5%～4%，当前阈值平衡了覆盖与效率。

3）通信中断阈值：将每小时中断频次阈值（3次）调整为2次或4次，结果显示阈值为2次时隐性权重触发频繁，能耗增加15%；阈值为4次时通信稳定性下降，解收敛率降低8%，当前阈值为实测场景下的最优平衡值。

在加权价值函数迭代计算中，改进传统价值迭代算法，主要改进点为：

初始化价值函数$ {V_0}\left( s \right) = 0 $，每个迭代周期先计算状态s下所有动作a的加权即时奖励($ {w_1}{r_1} + {w_2}{r_2} + {w_3}{r_3} $)，(w₁,w₂,w₃)为动态权重，再结合状态转移概率P(s'|s,a)计算下一轮价值函数：

$ V_{k+1}(s)={\mathrm{max}_a}[w^{\mathrm{T}}r(s,a)+\gamma\sum\limits_{s'}^{ }P(s'|s,a)V_k(s')]。$

(6)

同时引入约束校验步骤，若动作a违反硬约束，直接排除该动作并赋予惩罚性奖励r=−10，避免无效迭代。基于压缩映射原理，定义价值函数空间V上的度量$ d({V_1},{V_2}) = \mathop {\sup }\limits_{s \in S} |{V_1}(s) - {V_2}(s)| $，可证明迭代算子$ T(V)(s) = {\max _a}[{w^{\mathrm{T}}}r(s,a) + \gamma\displaystyle \sum\limits_{s'} P (s'|s,a)V(s')] $满足：

$ d(T({V_1}),T({V_2})) \leqslant \gamma d({V_1},{V_2}) ，0 < \gamma < 1。$

(7)

根据巴拿赫不动点定理：若(X,d)是完备度量空间，$ (T:X \to X) $是压缩映射，则T在X中存在唯一不动点V*（即$ T({V^*}) = {V^*} $）；且对任意初始点$ {V_0} \in X $，迭代序列$ \left\{\text{ }{V}_{k}\text{ }\right\}（({V}_{k+1}\text{ }=\text{ }T\left({V}_{k}\right)） $必收敛于V*。价值函数空间(V,d)是完备度量空间−巴拿赫空间，迭代算子T是压缩映射，因此，存在唯一的最优价值函数V*，使得$ T({V^*}) = {V^*} $。对任意初始价值函数$ {V_0}\left( s \right) = 0 $，迭代序列会在有限步内收敛到V*。此外，加权价值函数通过约束校验排除无效动作，减少了搜索空间，实际收敛速度较传统价值迭代算法更优。综上，改进的加权价值函数迭代算法在理论上可证明收敛于唯一最优解，为多目标约束下的无人舰艇集群协同搜索提供了严格数学基础。

2.2 分布式约束迭代决策机制

为适配大规模集群实时决策需求，设计中心-局部” 分层架构与约束冲突消解策略，平衡全局优化与局部响应效率。集群分层决策架构中，中心节点（部署于集群指挥舰或岸基控制台）承担全局统筹角色：每1 min基于搜索区域目标概率密度、集群约束满足状态（如平均剩余电量、通信连通率）更新全局目标优先级与约束阈值，并将搜索区域划分为若干子区域分配至局部节点；局部节点（单艘无人舰艇）每10 s与邻域内3～5艘舰艇交互状态（位置、剩余电量、传感器检测结果），基于中心节点指令执行局部MOC-MDP 决策−通过邻域状态估算局部覆盖度与约束违反风险，筛选满足约束的动作集后求解加权价值函数，同时向中心节点反馈约束满足情况（如通信中断、电量不足等异常）。

在约束冲突消解上，遵循硬约束优先、软约束动态松弛原则：当通信约束与覆盖度目标冲突，中心节点立即调度其邻域内剩余电量≥30%的舰艇补位，通过调整补位舰艇运动路径维持通信连通，保障全局拓扑完整性；当能耗约束接近阈值，局部节点自动降低非核心区域的传感器采样频率，减少能耗消耗，同时保持核心区域采样频率不变，优先保障重点区域搜索精度。

3 实验验证与结果分析 3.1 实验环境搭建

仿真平台集成ADCIRC海洋环流模型模拟风场（5～15 m/s）、流场（0.5～2 m/s）干扰，无人舰艇模型采用三自由度动力学方程，最大航速3 m/s，转弯半径5 m，传感器模型为声呐-雷达融合探测，视场角120°，探测距离0.5～2 km，目标检测概率与距离负相关。

实验参数设置：搜索区域分为10 km×10 km开阔海域与5 km×5 km岛礁海域（岛礁遮挡率25%），集群规模设为30艘，约束阈值为通信半径≥2 km、剩余电量≥15%、搜索路径重叠率≤20%。

3.2 实验分析

在设置的实验条件下，对本文提出的算法和其他3种算法进行对比，3种算法分别是传统MDP算法、基于一致性协议的分布式协同算法（Cons）以及混合整数规划集中式算法（MIP），对比指标包括算法收敛时间、多目标帕累托前沿（50次蒙特卡洛非支配解）与鲁棒性指标（通信中断率0%～30%下的搜索性能情况）。

图1为不同算法收敛时间的对比情况，本文MOC-MDP在500步内即将覆盖度拉升到0.63，显著领先传统MDP的0.54与一致性算法的0.47，且3000步后仍能以0.896的更高平台收敛，表明动态权重与分布式约束校验机制共同加速了探索并抑制了局部震荡，使集群在有限时间内获得更大搜索面积。

图 1 不同算法收敛时间的对比情况 Fig. 1 The comparison of convergence times of different algorithms

使用多目标帕累托前沿（50次蒙特卡洛非支配解）来的对本文算法进行评价，在“同时优化覆盖度上升、能耗下降、完成时间下降”这3个互相冲突的目标时，不存在一个解能让所有目标同时最优。帕累托前沿是所有“再也无法在不牺牲任一目标的前提下，再改进另一个目标”的解的集合，即多目标帕累托前沿是“最优折中面”。前沿上的点彼此互不支配，离前沿越近，方案越优秀。同时为了消除单次运行的随机偏差，对每一种算法都进行50次仿真（每次风、流、初始位置等随机）。把所有结果统一拿出来做非支配排序，最后只保留真正位于最外层的点，就得到“50次蒙特卡洛非支配解”。这些点代表算法在统计意义上能稳定达到的最优性能边界。图2为多目标帕累托前沿分析图，表明了MOC-MDP算法在多目标优化下的帕累托最优解分布，每个数据点代表一组覆盖度-完成时间的最优权衡方案，点的集合构成算法在统计意义上能稳定达到的最优性能边界。随着覆盖度由0.893降至0.747，完成时间从2280 s单调延长至3260 s，平均每降低0.01的覆盖度，任务时间延长约14 s；高覆盖方案均集中在2280～2400 s，表明MOC-MDP在保持0.87以上高覆盖的同时仍能实现较短任务周期。

图 2 多目标帕累托前沿分析图 Fig. 2 Multi-objective Pareto frontier analysis diagram

图3为不同通信中断率下多种算法搜索性能对比，在通信中断率从0%～30%，4种算法的搜索性能下降百分比均呈上升趋势，但本文提出的MOC-MDP算法始终位于最下方，下降幅度最小，曲线最为平缓；相比之下，传统MDP算法下降最快，中断30%时性能下降超过17%，而分布式一致性（Cons）和混合整数规划（MIP）算法介于两者之间。这表明MOC-MDP在面对通信链路不稳定时具有更强的鲁棒性和更优的搜索性能保持能力，验证了其在复杂海洋通信环境下的有效性和可靠性。

图 3 不同通信中断率下多种算法搜索性能对比 Fig. 3 Comparison of search performance of multiple algorithms under different communication interruption rates

4 结　语

1）本文提出的MOC-MDP算法收敛速度更优，3000时间步后以0.896的高覆盖度稳定收敛；

2）多目标折中性能突出，50次蒙特卡洛非支配解构成的帕累托前沿显示，其在0.87以上高覆盖度区间可维持2280～2400 s的短任务周期，覆盖度与时间的平衡效果优于对比算法；

3）鲁棒性更强，通信中断率0%～30% 范围内性能下降幅度最小，中断率30%时仍能保持稳定搜索能力，适配复杂海洋通信环境。

参考文献

[1]	李正阳, 梁洪瑜, 刘翔宇, 等. 面向舰船受限保障能力的舰基航空器运送任务规划方法[J]. 中国舰船研究, 2025, 10(7): 1-9.
[2]	顾兆军, 赵欢, 王家亮, 等. 基于马尔可夫决策的四轴飞行器自动着陆方法[J]. 航空学报, 2024, 45(15): 302-318.
[3]	李林桐, 蔡育炜, 陆屹, 等. 基于蒙特卡洛树搜索的机载雷达编队策略优化[J]. 飞机设计, 2023, 43(2): 44-48.
[4]	张会, 王安, 程健, 等. 舰船往返拦截搜索发现概率计算公式的推导、检验和修正[J]. 陆军工程大学学报, 2022, 1(1): 54-59.
[5]	朱梦圆, 吕娜, 陈柯帆, 等. 航空集群协同搜索马尔可夫运动目标方法[J]. 系统工程与电子技术, 2019, 41(9): 2041-2047.
[6]	杜永浩, 邢立宁, 陈盈果. 多平台海上协同搜索与路径优化策略研究[J]. 控制与决策, 2020, 35(1): 147-154.


舰船科学技术 2025, Vol. 47 Issue (19): 197-200 DOI: 10.3404/j.issn.1672-7649.2025.19.032	PDF