2. 上海交通大学,上海 200437
2. Shanghai Jiao Tong University, Shanghai 200437, China
舰船占位是指在多艘舰船组成的系统中,依据航行任务,实现各舰船之间的协同占位或位置协调,确定各舰船需要占据的位置或区域[1];这种协同占位策略旨在优化舰船在特定区域内的分布和行动,例如在海洋资源勘探中,多舰船需要协同占位以覆盖更广的区域,提高资源勘探效率,并可在必要时根据环境变化和任务需求进行调整[2]。
舰船占位策略依赖于人工经验和规则,难以适应复杂多变的海洋环境,无法更好地完成航行任务,对此,范学满等[3]为保证多舰船的任务执行效果,设定任务循环机制,依据所设定机制进行任务分配,同时结合机制阈值,保证任务分配的合理性,并且通过群体寻优算法获取最佳分配方案;多智能体之间的通信和协同是该方法的关键部分,然而,在复杂的海洋环境中,通信受到干扰或延迟,从而影响任务分配的准确性和及时性。Akdag等[4]为保证舰船航行的合理决策,综合考虑海洋环境因素后,利用DCA风险评估方法建立动态安全域,并构建决策模型,利用多目标粒子群优化进行决策模型求解后获取Pareto前沿解,通过聚类对该解进行聚类,获取最合理的决策方案;该方法未考虑与其他船舶之间协同和干扰影响,导致决策方案无法完全适应动态变化的海洋环境。王子豪等[5]为实现多智能体之间的有效协同,以深度强化学习算法为核心,依据智能体的历史数据,进行多智能体同步且快速到达目标点的任务,以此保证智能体能够更好地适应复杂多变的环境;然而智能体间的通信是实现协同的关键,会带来额外的通信开销,在部分可观测的环境中,智能体需要频繁地交换信息以获取更全面的环境感知,增加通信负担和延迟,降低协同执行效率。褚晶等[6]为保证多智能体的协同编队效果,在考虑局部和全局2种规划目标下,依据航行区域的相关参数分别进行智能体的协同编队与避障,并利用寻优算法获取最佳编队方案;虽然该方法在动态复杂环境中表现出一定的实时响应能力,但在面对高度动态变化的障碍物和目标时,仍旧无法实现全部智能体的高效协同控制。
多智能体技术作为一种新兴的人工智能技术,具有分布式、协同性、灵活性和鲁棒性等优点,为舰船协同占位问题提供新的解决方案;将舰船视为独立的智能体,利用智能体的感知、决策和执行能力,可以实现舰船之间的信息共享和协同决策,从而优化占位策略;结合协同约束条件,保证占位为多智能体编队的一致性。因此,文中提出基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法的舰船多智能体协同占位方法,将该方法与舰船运动数学模型相结合后,构建占位优化决策模型,为舰船编队协同管理提供依据。
1 舰船多智能体协同占位方案数学建模优化 1.1 舰船多智能体协同占位模型构建舰船多智能体在进行任务执行时,需结合海洋实际环境情况进行编队,各个智能体在编队中的占位则尤为重要[7],合理占位能够避免各个舰船智能体之间发生碰撞的同步,能够更好获取目标信息。为保证舰船多智能体协同占位的合理性,将MADDPG(Multi-Agent Deep Deterministic Policy gradient)算法和舰船运动数学模型相结合,并在此基础上引入编队结构优化策略,更好地保证占位效果。该模型的整体结构如图1所示。
舰船多智能体协同占位模型整体可分为3个关键步骤,一是舰船运动数学模型分析、二是基于MADDPG算法的占位决策、三是编队结构优化。舰船运动数学模型的主要作用是分析各个舰船智能体的运动和航行状态,判断各个智能体的航行领域;依据运动和航行状态分析结果,通过MADDPG算法进行站位决策,在多智能联合空间内确定主舰船智能体和从舰船智能体的位置;对占位后的所有智能体的编队结构进行优化,以此保证各个舰船智能体在运行过程中的安全。
1.2 舰船多智能体运动数学模型舰船多智能体协同占位前,需充分掌握各个智能体的运动状态和运动领域,以此为后续占位决策提供依据。利用Nomoto三自由度模型构建舰船智能体的运动数学模型,该模型在构建时需充分利用各个智能体的基本参数和运行数据。
Nomoto三自由度模型方程表达式为:
$ \psi \tilde \omega + \omega = \xi \vartheta ,$ | (1) |
$ \tilde \kappa = \omega 。$ | (2) |
式中:
舰船初始航行时,
$ \omega = \xi \vartheta \left[ {1 - {e^{\left( { - \frac{t}{T}} \right)}}} \right] 。$ | (3) |
式中:
$ \kappa = \xi \vartheta \left[ {t - T + T \times {e^{\left( { - \frac{t}{T}} \right)}}} \right] 。$ | (4) |
分析舰船方向舵的特性,其公式为:
$ \left[ {\begin{array}{*{20}{c}} {\tilde \kappa } \\ {\tilde \omega } \\ {\tilde \vartheta } \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} \omega \\[-2pt] {\dfrac{{\xi \vartheta - \omega }}{T}} \\ [-1pt] {\dfrac{{\left( {{\vartheta _e} - \vartheta } \right)}}{{{T_e}}}} \end{array}} \right] 。$ | (5) |
式中:
分析舰船在航行过程中,各个舰船智能体的最近会遇距离
依据舰船运动数学模型确定各个舰船智能体最近会遇距离
舰船多智能体由多元组构成,用
$ f\left( {S,D,S} \right):{S_t} \times {D_t} \times {S_{t + 1}} \to \left[ {0,1} \right] 。$ | (6) |
式中:在
状态转移会影响各个智能体的奖励回报,同时
$ g_i^\chi = E\left[ {{g_{t + 1}}\left| {{S_t} = s,d_i^t = d} \right.} \right] 。$ | (7) |
式中:
各个智能体的策略函数计算公式为:
$ \chi \left( {S,d} \right):{S_t} \times d_i^t \to \left[ {0,1} \right] 。$ | (8) |
各个智能体的状态函数和位置函数的公式为:
$ p_i^\chi \left( s \right) = E_i^\chi \left[ {{g_{t + 1}} + p_i^\chi \left( {{S_{t + 1}},{D_{t + 1}}} \right)\left| {{S_t} = s,{D_t} = d} \right.} \right] 。$ | (9) |
依据
为保证其在复杂环境中的航行安全,文中引入同结构变换进行占位编队结构优化。在该过程中,主要以舰船占位队形中顶点凸包的大小实现,如果队形中智能体的质心顶点用
如果舰船多智能体编队优化变量用
$ l_j^i = c + \tilde k * \left( {\varphi ,l_j^i} \right),\forall j \in \left[ {1,n} \right] ,$ | (10) |
$ c_j^i = c + \tilde k * \left( {\varphi ,c_j^i} \right),\forall j \in \left[ {1,{n_i}} \right] 。$ | (11) |
式中:
如果编队结构用
$ V\left( {b,f} \right) = \left[ {v_1^f,v_2^f,\cdots ,v_n^f} \right] 。$ | (12) |
保证舰船多智能体的编队构形参数的一致性,以此完成舰船多智能体编队中每个个体的精准占位以及位姿状态的一致性。
2 结果分析以某海域进行海洋资源勘测的舰船编队为例,展开相关测试,共包含一艘主舰船智能体和4艘从舰船智能体,在主舰船智能体上使用MADDPG算法,优化整个编队的占位策略,与其他4艘从舰船智能体进行通信协调。该舰船编队的主要任务是实现深海域海洋资源勘探,在勘探过程中,需保证4艘从舰船智能体保持合理占位,并且编队跟随主舰船智能体,以此保证勘探结果的完整性和可靠性。
在测试开始前,所有舰船智能体进行系统检查,确保系统内各部分均处于正常工作状态。使用Ansys Fluent模拟软件创建一个与实际海域情况相似的仿真环境,参数设置为:初始航向角
4艘舰船多智能体的初始站位示意如图2所示;学习率为
在进行舰船多智能体协同站位时,依据各个智能体的运动数学模型,在小面积海域资源勘探时,保证勘探区域的覆盖率,完成舰船多智能体的协同占位,占位结果如图3所示。
对图3测试结果进行分析后得出:保证勘探区域覆盖率的前提下进行舰船多智能体的协同占位后,文中方法有效完成各个智能体的位置决策,并且确定的位置能够很好地覆盖整个勘探区域,保证勘探结果的全面性。
为分析文中方法的占位编队结构优化效果,在位置决策基础上,对各个舰船智能体进行占位编队结构优化,获取各个舰船智能体的位姿状态结果,如图4所示。
对图4测试结果进行分析后得出:依据位置决策结果进行舰船多智能体协同编队结构优化后,所有的从舰船智能体均跟随主舰船智能体,完成整体编队,并且能够跟随主舰船智能体的位姿进行调整,保证编队位姿状态的一致性。
为进一步验证文中方法的应用效果,测试文中方法在不同航行距离下,随着回转角度改变,整个舰船智能体编队位置和理想位置之间的误差结果(要求低于(5,5)m),如表1所示。
对表1测试结果进行分析后得出:随着航行距离的逐渐增加,在不同的回转角度下,整个舰船智能体编队位置和理想位置之间的误差均低于(5,5)m。因此,该方法能够在不同航行状态下均精准实现舰船多智能体占位,保证整体编队结构一致性。
3 结 语为保证舰船多智能体的任务执行效果,满足其在目标区域内的航行和任务执行需求,提出舰船多智能体协同占位方案数学模型优化方法,该方法以舰船多智能体运动数学模型为基础,构建其位置决策模型,在此基础上进行整体编队结构优化,使其在最佳的占位下完成任务执行。创新性地将舰船多智能体运动数学模型与MADDPG算法相结合后,不仅利用数学模型,完成了舰船运动规律的精确描述,还借助了MADDPG算法在多智能体协作与竞争环境中的强大学习能力,使得舰船能够根据实时的海洋环境、其他舰船的动态以及自身的航行需求,动态地调整航行策略,实现更加智能和灵活的航行位置决策。
[1] |
丁善婷, 王淼, 董正琼, 等. 基于多智能体的舰船装备健康状态仿真评估方法[J]. 中国机械工程, 2022, 33(10): 1169-1177. DING S T, WANG M, DONG Z Q, et al. A multi-agent-based simulation method for health state assessments of naval equipment[J]. China Mechanical Engineering, 2022, 33(10): 1169-1177. DOI:10.3969/j.issn.1004-132X.2022.10.005 |
[2] |
尹安. 基于墨子平台的水下多智能体协同占位决策算法设计[J]. 中国舰船研究, 2024, 19(S1): 109-114. YIN A. Design and research of underwater multi-agent cooperative getting-to-the-firing-position decision-making algorithm based on MoZi platform[J]. Chinese Journal of Ship Research, 2024, 19(S1): 109-114. |
[3] |
范学满, 王永洁, 田立业. 基于群体智能的多UUV动态任务分配方法[J]. 舰船科学技术, 2023, 45(1): 94-100. FAN X M, WANG Y J, TIAN L Y. A dynamic task assignment method based on swarm intelligence for multi-UUV[J]. Ship Science and Technology, 2023, 45(1): 94-100. DOI:10.3404/j.issn.1672-7649.2023.01.017 |
[4] |
AKDAG M, FOSSEN T I, JOHANSEN T A, et al. A decision support system for autonomous ship trajectory planning[J]. Ocean engineering, 2024, 292(1): 1.1−1.16.
|
[5] |
王子豪, 张严心, 黄志清, 等. 部分可观测下基于RGMAAC算法的多智能体协同[J]. 控制与决策, 2023, 38(5): 1267-1277. WANG Z H, ZHANG Y X, HUANG Z Q, et al. Multi-agent collaboration based on RGMAAC algorithm under partial observability[J]. Control and Decision, 2023, 38(5): 1267-1277. |
[6] |
褚晶, 李佩文, 岳颀. 基于约束优化的多智能体协同编队与避障[J]. 南京航空航天大学学报, 2024, 56(3): 545-560. CHU J, LI P W, YUE Q. Multi-agent collaborative formation with obstacle avoidance based on constrained optimization[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2024, 56(3): 545-560. |
[7] |
徐言民, 律建辉, 刘佳仑, 等. 基于CSSOA的多船智能避碰决策研究[J]. 中国舰船研究, 2023, 18(6): 88-96. XU Y M, LV J H, LIU J L, et al. Multi-vessel intelligent collision avoidance decision-making based on CSSOA[J]. Chinese Journal of Ship Research, 2023, 18(6): 88-96. |
[8] |
黄蓉, 周军, 黄浩乾. 基于内模原理的多智能体蜂拥编队跟踪控制[J]. 计算机仿真, 2022, 39(4): 375-380. HUANG R, ZHOU J, HUANG H Q. Multi-agent flocking formation and trajectory tracking control under internal model principle[J]. Computer Simulation, 2022, 39(4): 375-380. DOI:10.3969/j.issn.1006-9348.2022.04.073 |