无人舰艇集群作为海洋领域多智能体系统的重要应用形式,当前在海洋搜救、海域监测、国防安全等领域的实际需求持续增长。其中协同搜索任务作为核心应用场景之一,需应对三重核心挑战:海洋环境的强不确定性,风场、流场的动态干扰会直接影响无人舰艇的运动轨迹与传感器探测精度;集群通信拓扑的动态变化,受通信距离、海洋环境噪声影响,单艇与集群中心或相邻艇的通信连接易出现中断风险,导致协同指令传输延迟或丢失;多目标优先级的动态调整,搜索任务中覆盖度、能耗、时效性等目标常存在冲突,需根据任务阶段与环境变化灵活适配优先级[1]。马尔可夫决策过程(MDP)因能通过状态转移概率建模动态决策过程,在多智能体规划领域具备天然优势,可有效处理决策的时序性与不确定性,但传统MDP模型缺乏对多目标优化与多约束条件的联合建模能力,无法直接适配无人舰艇集群协同搜索的复杂需求,亟需针对性改进以提升模型的场景适配性[2]。
当前无人舰艇集群协同搜索算法研究主要分为分布式与集中式两大方向,但均存在明显应用局限。分布式协同算法如一致性协议、拍卖算法,通过节点间局部信息交互实现协同决策,虽能降低对全局通信的依赖,但在多约束场景下难以平衡搜索效率与约束满足度[3 − 4]。集中式规划算法如混合整数规划、启发式算法,虽能通过全局信息优化搜索策略,保障多目标与多约束的协同性,但计算复杂度随集群规模呈指数级增长,在10艘以上无人舰艇的大规模集群场景下,规划耗时显著增加,难以满足搜索任务对实时性的要求,导致算法在实际应用中受限。
多目标约束MDP相关理论与应用研究已取得一定进展,为无人舰艇集群协同搜索规划提供了理论基础,但仍存在场景适配性不足的问题。在多目标MDP(MOMDP)领域,价值函数求解方法主要包括加权求和法与ε-约束法,其中加权求和法通过将多目标转化为单目标优化,计算效率较高但易受权重设置主观影响,难以覆盖帕累托最优解的全部分布[5];ε-约束法通过将部分目标转化为约束条件,能生成更全面的帕累托最优解[6]。本文在前人研究基础上提出一种面向无人舰艇集群协同搜索的多目标约束马尔可夫决策过程规划算法,设计多目标优先级自适应调整的价值函数,构建分布式约束校验迭代机制,降低集中式决策的计算开销。
1 多目标约束MDP的数学建模面向无人舰艇集群协同搜索的多目标约束马尔可夫决策过程(MOC-MDP),其核心优化目标为在满足多约束条件下实现多目标收益最大化,数学表达为:
| $ {\mathrm{max}}_{a\in A}E\left[{\displaystyle \sum _{t=0}^{\infty }{\gamma }^{t}}r({s}_{t},{a}_{t})\right]。$ | (1) |
且需满足约束条件:
| $ E\left[ {\sum\limits_{t = 0}^\infty {{\gamma ^t}} {c_i}({s_t},{a_t})} \right] \leqslant {C_i} ,(其中i=1,2,...,k)。$ | (2) |
式中:
上述优化目标中,期望
| $ P(s'|s,a) = Pr ({s_{t + 1}} = s'\mid {s_t} = s,{a_t} = a)。$ | (3) |
该概率需融合无人舰艇集群特性与海洋环境动态性构建,具体计算逻辑如下:
1)状态维度映射
s与s'均包含集群整体状态+个体舰艇状态,整体状态含搜索区域平均覆盖度、集群通信拓扑连通度,个体状态含单艇位置、剩余电量、传感器工作状态);s'是s在动作a作用下结合环境干扰的状态更新结果。
2)海洋环境干扰量化
引入环境干扰系数ω(由风场强度vω、流场速度vc拟合,ω=1−0.02vω−0.03vc,取值范围[0.5,1],干扰越强ω越小;当执行个体运动方向调整类动作时,单艇实际位置偏差服从
3)动作执行误差补偿
针对集群区域划分、传感器功率调节等动作,引入执行成功率
| $ {\eta _1} = {\text{ }}0.95{\text{ }} - {\text{ }}0.05\left( {1 - e/{e_0}} \right)。$ | (4) |
式中:e为当前电量;e0为满电量,若动作执行成功则按预设规则更新状态,失败则维持原状态,因此:
| $ P(s'|s,a) = \eta \cdot {P_{{\text{succ}}}}(s'|s,a) + (1 - \eta ) \cdot \mathbb{I}(s' = s)。$ | (5) |
式中:
4)拓扑动态性适配
当动作a包含通信频率调整时,拓扑连通度状态的转移概率需结合通信距离阈值d0计算−若两艇当前距离
为解决多目标(覆盖度、能耗、时效性)优先级动态变化问题,提出动态权重调整机制与改进价值迭代算法,实现帕累托最优解的高效求解。在多目标权重动态调整上,依据协同搜索的任务特性划分三阶段:初始探索阶段需快速扩大搜索范围,故赋予覆盖度0.6的最高权重,能耗与时效性分别为0.2;目标聚焦阶段需优先确认已发现目标区域,时效性权重提升至0.4,覆盖度与能耗均降至0.3;收尾补漏阶段需平衡剩余区域覆盖与能耗控制,两者权重均设为0.4,时效性降至 0.2。权重调整通过实时监测指标触发:当覆盖度达标率低于50%时维持初始阶段权重,达50%~80%自动切换至目标聚焦阶段,超80%进入收尾阶段;若通信中断频次每小时超3次,临时提升通信连通性隐性权重(占比0.1),从覆盖度或能耗权重中分摊,保障约束满足。
为验证上述权重与阶段阈值的稳健性,通过控制变量法开展敏感性测试:
1)权重参数:将3阶段核心权重(覆盖度、能耗、时效性)分别在±0.1范围内调整,结果显示覆盖度波动
2)阶段阈值:将覆盖度阈值(50%、80%)在±5%范围内调整,发现阈值提升5%时收尾阶段启动延迟,任务时间延长8%~10%;阈值降低5%时聚焦阶段过早启动,覆盖度下降2.5%~4%,当前阈值平衡了覆盖与效率。
3)通信中断阈值:将每小时中断频次阈值(3次)调整为2次或4次,结果显示阈值为2次时隐性权重触发频繁,能耗增加15%;阈值为4次时通信稳定性下降,解收敛率降低8%,当前阈值为实测场景下的最优平衡值。
在加权价值函数迭代计算中,改进传统价值迭代算法,主要改进点为:
初始化价值函数
| $ V_{k+1}(s)={\mathrm{max}_a}[w^{\mathrm{T}}r(s,a)+\gamma\sum\limits_{s'}^{ }P(s'|s,a)V_k(s')]。$ | (6) |
同时引入约束校验步骤,若动作a违反硬约束,直接排除该动作并赋予惩罚性奖励r=−10,避免无效迭代。基于压缩映射原理,定义价值函数空间V上的度量
| $ d(T({V_1}),T({V_2})) \leqslant \gamma d({V_1},{V_2}) ,0 < \gamma < 1。$ | (7) |
根据巴拿赫不动点定理:若(X,d)是完备度量空间,
为适配大规模集群实时决策需求,设计中心-局部” 分层架构与约束冲突消解策略,平衡全局优化与局部响应效率。集群分层决策架构中,中心节点(部署于集群指挥舰或岸基控制台)承担全局统筹角色:每1 min基于搜索区域目标概率密度、集群约束满足状态(如平均剩余电量、通信连通率)更新全局目标优先级与约束阈值,并将搜索区域划分为若干子区域分配至局部节点;局部节点(单艘无人舰艇)每10 s与邻域内3~5艘舰艇交互状态(位置、剩余电量、传感器检测结果),基于中心节点指令执行局部MOC-MDP 决策−通过邻域状态估算局部覆盖度与约束违反风险,筛选满足约束的动作集后求解加权价值函数,同时向中心节点反馈约束满足情况(如通信中断、电量不足等异常)。
在约束冲突消解上,遵循硬约束优先、软约束动态松弛原则:当通信约束与覆盖度目标冲突,中心节点立即调度其邻域内剩余电量≥30%的舰艇补位,通过调整补位舰艇运动路径维持通信连通,保障全局拓扑完整性;当能耗约束接近阈值,局部节点自动降低非核心区域的传感器采样频率,减少能耗消耗,同时保持核心区域采样频率不变,优先保障重点区域搜索精度。
3 实验验证与结果分析 3.1 实验环境搭建仿真平台集成ADCIRC海洋环流模型模拟风场(5~15 m/s)、流场(0.5~2 m/s)干扰,无人舰艇模型采用三自由度动力学方程,最大航速3 m/s,转弯半径5 m,传感器模型为声呐-雷达融合探测,视场角120°,探测距离0.5~2 km,目标检测概率与距离负相关。
实验参数设置:搜索区域分为10 km×10 km开阔海域与5 km×5 km岛礁海域(岛礁遮挡率25%),集群规模设为30艘,约束阈值为通信半径≥2 km、剩余电量≥15%、搜索路径重叠率≤20%。
3.2 实验分析在设置的实验条件下,对本文提出的算法和其他3种算法进行对比,3种算法分别是传统MDP算法、基于一致性协议的分布式协同算法(Cons)以及混合整数规划集中式算法(MIP),对比指标包括算法收敛时间、多目标帕累托前沿(50次蒙特卡洛非支配解)与鲁棒性指标(通信中断率0%~30%下的搜索性能情况)。
图1为不同算法收敛时间的对比情况,本文MOC-MDP在500步内即将覆盖度拉升到0.63,显著领先传统MDP的0.54与一致性算法的0.47,且
|
图 1 不同算法收敛时间的对比情况 Fig. 1 The comparison of convergence times of different algorithms |
使用多目标帕累托前沿(50次蒙特卡洛非支配解)来的对本文算法进行评价,在“同时优化覆盖度上升、能耗下降、完成时间下降”这3个互相冲突的目标时,不存在一个解能让所有目标同时最优。帕累托前沿是所有“再也无法在不牺牲任一目标的前提下,再改进另一个目标”的解的集合,即多目标帕累托前沿是“最优折中面”。前沿上的点彼此互不支配,离前沿越近,方案越优秀。同时为了消除单次运行的随机偏差,对每一种算法都进行50次仿真(每次风、流、初始位置等随机)。把所有结果统一拿出来做非支配排序,最后只保留真正位于最外层的点,就得到“50次蒙特卡洛非支配解”。这些点代表算法在统计意义上能稳定达到的最优性能边界。图2为多目标帕累托前沿分析图,表明了MOC-MDP算法在多目标优化下的帕累托最优解分布,每个数据点代表一组覆盖度-完成时间的最优权衡方案,点的集合构成算法在统计意义上能稳定达到的最优性能边界。随着覆盖度由0.893降至0.747,完成时间从
|
图 2 多目标帕累托前沿分析图 Fig. 2 Multi-objective Pareto frontier analysis diagram |
图3为不同通信中断率下多种算法搜索性能对比,在通信中断率从0%~30%,4种算法的搜索性能下降百分比均呈上升趋势,但本文提出的MOC-MDP算法始终位于最下方,下降幅度最小,曲线最为平缓;相比之下,传统MDP算法下降最快,中断30%时性能下降超过17%,而分布式一致性(Cons)和混合整数规划(MIP)算法介于两者之间。这表明MOC-MDP在面对通信链路不稳定时具有更强的鲁棒性和更优的搜索性能保持能力,验证了其在复杂海洋通信环境下的有效性和可靠性。
|
图 3 不同通信中断率下多种算法搜索性能对比 Fig. 3 Comparison of search performance of multiple algorithms under different communication interruption rates |
1)本文提出的MOC-MDP算法收敛速度更优,
2)多目标折中性能突出,50次蒙特卡洛非支配解构成的帕累托前沿显示,其在0.87以上高覆盖度区间可维持
3)鲁棒性更强,通信中断率0%~30% 范围内性能下降幅度最小,中断率30%时仍能保持稳定搜索能力,适配复杂海洋通信环境。
| [1] |
李正阳, 梁洪瑜, 刘翔宇, 等. 面向舰船受限保障能力的舰基航空器运送任务规划方法[J]. 中国舰船研究, 2025, 10(7): 1-9. |
| [2] |
顾兆军, 赵欢, 王家亮, 等. 基于马尔可夫决策的四轴飞行器自动着陆方法[J]. 航空学报, 2024, 45(15): 302-318. |
| [3] |
李林桐, 蔡育炜, 陆屹, 等. 基于蒙特卡洛树搜索的机载雷达编队策略优化[J]. 飞机设计, 2023, 43(2): 44-48. |
| [4] |
张会, 王安, 程健, 等. 舰船往返拦截搜索发现概率计算公式的推导、检验和修正[J]. 陆军工程大学学报, 2022, 1(1): 54-59. |
| [5] |
朱梦圆, 吕娜, 陈柯帆, 等. 航空集群协同搜索马尔可夫运动目标方法[J]. 系统工程与电子技术, 2019, 41(9): 2041-2047. |
| [6] |
杜永浩, 邢立宁, 陈盈果. 多平台海上协同搜索与路径优化策略研究[J]. 控制与决策, 2020, 35(1): 147-154. |
2025, Vol. 47
