舰船科学技术  2024, Vol. 46 Issue (24): 155-159    DOI: 10.3404/j.issn.1672-7649.2024.24.026   PDF    
舰船多智能体协同占位方案数学建模优化分析
孔令彦1, 郑小琪2, 蒋楠1     
1. 上海工程技术大学高等职业技术学院,上海 200437;
2. 上海交通大学,上海 200437
摘要: 为保证各舰船之间的协同占位或位置协调,确定各舰船需要占据的位置或区域,提出舰船多智能体协同占位方案数学建模优化方法。以舰船多智能体运动数学模型为基础,分析各个舰船智能体的运动和航行状态,判断各个智能体的航行领域,并确定舰船智能体的最近会遇距离;采用MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法结合该距离构建舰船多智能体多元组,以此获取舰船多智能体最佳的占位决策结果;在此基础上,引入同结构变换优化舰船多智能体占位编队结构,保证每个个体的精准占位以及位姿状态的一致性。测试结果表明,该方法能够有效完成各个智能体的位置决策,保证编队位姿状态的一致性,整个舰船智能体编队位置和理想位置之间的误差均低于(5, 5)m。
关键词: 舰船多智能体     协同占位方案     数学建模优化     位姿状态    
Mathematical modeling and optimization analysis of multi agent collaborative space allocation scheme for ships
KONG Lingyan1, ZHENG Xiaoqi2, JIANG Nan1     
1. Higher Vocational and Technical College, Shanghai University of Engincering Science, Shanghai 200437, China;
2. Shanghai Jiao Tong University, Shanghai 200437, China
Abstract: To ensure collaborative occupancy or position coordination among ships, determine the positions or areas that each ship needs to occupy, and propose a mathematical modeling optimization method for ship multi-agent collaborative occupancy scheme. Based on the mathematical model of ship multi-agent motion, analyze the motion and navigation status of each ship intelligent agent, determine the navigation domain of each intelligent agent, and determine the nearest encounter distance of the ship intelligent agent. Using the MADDPG (Multi Agent Deep Determining Policy gradient) algorithm combined with this distance to construct a multi-agent multi group for ships, in order to obtain the optimal occupancy decision results for ship multi-agent systems. On this basis, the same structure transformation is introduced to optimize the formation structure of ship multi-agent occupancy, ensuring accurate occupancy and consistency of pose state for each individual. The test results show that this method can effectively complete the position decision-making of various intelligent agents, ensure the consistency of the formation pose state, and the error between the position of the entire ship intelligent agent formation and the ideal position is less than (5, 5) m.
Key words: multi-intelligent agents for ships     collaborative occupancy plan     mathematical modeling optimization     pose state    
0 引 言

舰船占位是指在多艘舰船组成的系统中,依据航行任务,实现各舰船之间的协同占位或位置协调,确定各舰船需要占据的位置或区域[1];这种协同占位策略旨在优化舰船在特定区域内的分布和行动,例如在海洋资源勘探中,多舰船需要协同占位以覆盖更广的区域,提高资源勘探效率,并可在必要时根据环境变化和任务需求进行调整[2]

舰船占位策略依赖于人工经验和规则,难以适应复杂多变的海洋环境,无法更好地完成航行任务,对此,范学满等[3]为保证多舰船的任务执行效果,设定任务循环机制,依据所设定机制进行任务分配,同时结合机制阈值,保证任务分配的合理性,并且通过群体寻优算法获取最佳分配方案;多智能体之间的通信和协同是该方法的关键部分,然而,在复杂的海洋环境中,通信受到干扰或延迟,从而影响任务分配的准确性和及时性。Akdag等[4]为保证舰船航行的合理决策,综合考虑海洋环境因素后,利用DCA风险评估方法建立动态安全域,并构建决策模型,利用多目标粒子群优化进行决策模型求解后获取Pareto前沿解通过聚类对该解进行聚类,获取最合理的决策方案;该方法未考虑与其他船舶之间协同和干扰影响,导致决策方案无法完全适应动态变化的海洋环境。王子豪等[5]为实现多智能体之间的有效协同,以深度强化学习算法为核心,依据智能体的历史数据,进行多智能体同步且快速到达目标点的任务,以此保证智能体能够更好地适应复杂多变的环境;然而智能体间的通信是实现协同的关键,会带来额外的通信开销,在部分可观测的环境中,智能体需要频繁地交换信息以获取更全面的环境感知,增加通信负担和延迟,降低协同执行效率。褚晶等[6]为保证多智能体的协同编队效果,在考虑局部和全局2种规划目标下,依据航行区域的相关参数分别进行智能体的协同编队与避障,并利用寻优算法获取最佳编队方案;虽然该方法在动态复杂环境中表现出一定的实时响应能力,但在面对高度动态变化的障碍物和目标时,仍旧无法实现全部智能体的高效协同控制。

多智能体技术作为一种新兴的人工智能技术,具有分布式、协同性、灵活性和鲁棒性等优点,为舰船协同占位问题提供新的解决方案;将舰船视为独立的智能体,利用智能体的感知、决策和执行能力,可以实现舰船之间的信息共享和协同决策,从而优化占位策略;结合协同约束条件,保证占位为多智能体编队的一致性。因此,文中提出基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法的舰船多智能体协同占位方法,将该方法与舰船运动数学模型相结合后,构建占位优化决策模型,为舰船编队协同管理提供依据。

1 舰船多智能体协同占位方案数学建模优化 1.1 舰船多智能体协同占位模型构建

舰船多智能体在进行任务执行时,需结合海洋实际环境情况进行编队,各个智能体在编队中的占位则尤为重要[7],合理占位能够避免各个舰船智能体之间发生碰撞的同步,能够更好获取目标信息。为保证舰船多智能体协同占位的合理性,将MADDPG(Multi-Agent Deep Deterministic Policy gradient)算法和舰船运动数学模型相结合,并在此基础上引入编队结构优化策略,更好地保证占位效果。该模型的整体结构如图1所示。

图 1 舰船多智能体协同占位模型结构 Fig. 1 Structure of multi-agent collaborative occupancy model for ships

舰船多智能体协同占位模型整体可分为3个关键步骤,一是舰船运动数学模型分析、二是基于MADDPG算法的占位决策、三是编队结构优化。舰船运动数学模型的主要作用是分析各个舰船智能体的运动和航行状态,判断各个智能体的航行领域;依据运动和航行状态分析结果,通过MADDPG算法进行站位决策,在多智能联合空间内确定主舰船智能体和从舰船智能体的位置;对占位后的所有智能体的编队结构进行优化,以此保证各个舰船智能体在运行过程中的安全。

1.2 舰船多智能体运动数学模型

舰船多智能体协同占位前,需充分掌握各个智能体的运动状态和运动领域,以此为后续占位决策提供依据。利用Nomoto三自由度模型构建舰船智能体的运动数学模型,该模型在构建时需充分利用各个智能体的基本参数和运行数据。

Nomoto三自由度模型方程表达式为:

$ \psi \tilde \omega + \omega = \xi \vartheta ,$ (1)
$ \tilde \kappa = \omega 。$ (2)

式中:$ \psi $为惯性和阻尼这2种力矩的系数比;$ \xi $为偏航运行时的旋回性指数;$ \vartheta $为舵角;$ \tilde \kappa $为初始航向角;舰船在以该角度旋回时的角速度和加速度分别用$ \omega $$ \tilde \omega $表示。

舰船初始航行时,$ \omega = 0 $,其在航行过程中发生旋回时$ \omega $的计算公式为:

$ \omega = \xi \vartheta \left[ {1 - {e^{\left( { - \frac{t}{T}} \right)}}} \right] 。$ (3)

式中:$ T $为转头角速度向定常角速度趋近的周期;$ t $为从某一初始状态开始,到达某一特定旋回状态所用时间。

$ \omega $为舰船航向角$ \kappa $的导数,则$ \kappa $的计算公式为:

$ \kappa = \xi \vartheta \left[ {t - T + T \times {e^{\left( { - \frac{t}{T}} \right)}}} \right] 。$ (4)

分析舰船方向舵的特性,其公式为:

$ \left[ {\begin{array}{*{20}{c}} {\tilde \kappa } \\ {\tilde \omega } \\ {\tilde \vartheta } \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} \omega \\[-2pt] {\dfrac{{\xi \vartheta - \omega }}{T}} \\ [-1pt] {\dfrac{{\left( {{\vartheta _e} - \vartheta } \right)}}{{{T_e}}}} \end{array}} \right] 。$ (5)

式中:$ {\vartheta _e} $为指令舵角;$ {T_e} $为舵机时间常数。

分析舰船在航行过程中,各个舰船智能体的最近会遇距离$ {d_i} $,以此确定多智能体之间的安全距离,为后续占位决策提供依据。

1.3 协同占位决策方案 1.3.1 基于MADDPG算法的占位决策

依据舰船运动数学模型确定各个舰船智能体最近会遇距离$ {d_i} $,结合该距离确定所有智能体的联合动作位置空间,用$ D = \left[ {{d_1},{d_2},\cdots ,{d_N}} \right] $表示,确定联合动作位置空间后,利用MADDPG算法进行占位决策。在决策过程中,先进行主智能体位置决策,再进行从智能体的位置决策。

舰船多智能体由多元组构成,用$ \left( {S,D,G,\eta ,f} \right) $表示,其中,$ S $为舰船航行环境状态空间;$ G = \left[ {{g_1},{g_2},\cdots ,{g_N}} \right] $为所有智能体的联合奖励空间;$ \eta $为折扣因子;$ f $为多智能体联合状态转移函数。由于各个智能体的自身视野均会存在一定的感知限制,无法全面获取全局状态信息,因此,在进行占位决策时,仅能够依据局部的观测状态i进行位置决策[8]。多智能体则可通过信息交互联合输出全局位置决策结果,以此促使环境状态$ {S_t} $发生转移,则$ f $的计算公式为:

$ f\left( {S,D,S} \right):{S_t} \times {D_t} \times {S_{t + 1}} \to \left[ {0,1} \right] 。$ (6)

式中:在$ {D_t} $下,由状态$ {S_t} $转移至状态$ {S_{t + 1}} $的概率分布为$ \left[ {0,1} \right] $

状态转移会影响各个智能体的奖励回报,同时$ {D_t} $决定状态转移情况。基于此,设置各个智能体的奖励回报公式为:

$ g_i^\chi = E\left[ {{g_{t + 1}}\left| {{S_t} = s,d_i^t = d} \right.} \right] 。$ (7)

式中:$ \chi $为联合策略;$ E $为期望函数。

各个智能体的策略函数计算公式为:

$ \chi \left( {S,d} \right):{S_t} \times d_i^t \to \left[ {0,1} \right] 。$ (8)

各个智能体的状态函数和位置函数的公式为:

$ p_i^\chi \left( s \right) = E_i^\chi \left[ {{g_{t + 1}} + p_i^\chi \left( {{S_{t + 1}},{D_{t + 1}}} \right)\left| {{S_t} = s,{D_t} = d} \right.} \right] 。$ (9)

依据$ q_i^\chi \left( s \right) $$ p_i^\chi \left( s \right) $连进行多智能体的占位决策价值评估,以此获取舰船多智能体最佳的占位决策$ L = \left[ {l_1^i,l_2^i,\cdots ,l_n^i} \right] $n为总决策量。

1.3.2 占位编队结构优化

为保证其在复杂环境中的航行安全,文中引入同结构变换进行占位编队结构优化。在该过程中,主要以舰船占位队形中顶点凸包的大小实现,如果队形中智能体的质心顶点用$ \left\{ {c_1^i,c_2^i,\cdots ,c_n^i} \right\} $表示,依据各个智能体在编队中的$ L = \left[ {l_1^i,l_2^i,\cdots ,l_n^i} \right] $确定凸包,其包围全部的智能体,结合所有凸包构成整个编队的外部轮廓,则依据$ L = \left[ {l_1^i,l_2^i,\cdots ,l_n^i} \right] $和顶点生成舰船多智能体编队模型。

如果舰船多智能体编队优化变量用$ x = \left( {c,\tilde k,\varphi } \right) $表示。其中,$ c $为编队质心位置;$ \tilde k $为编队尺寸;$ \varphi $$ c $的旋转方向;则通过变量表示智能体的位置和编队顶点,其公式为:

$ l_j^i = c + \tilde k * \left( {\varphi ,l_j^i} \right),\forall j \in \left[ {1,n} \right] ,$ (10)
$ c_j^i = c + \tilde k * \left( {\varphi ,c_j^i} \right),\forall j \in \left[ {1,{n_i}} \right] 。$ (11)

式中:$ * $为旋转操作;j为智能体编号。

如果编队结构用$ f $表示,编队构型用$ b $表示,则可通过外部顶点集合进行两者描述,其公式为:

$ V\left( {b,f} \right) = \left[ {v_1^f,v_2^f,\cdots ,v_n^f} \right] 。$ (12)

保证舰船多智能体的编队构形参数的一致性,以此完成舰船多智能体编队中每个个体的精准占位以及位姿状态的一致性。

2 结果分析

以某海域进行海洋资源勘测的舰船编队为例,展开相关测试,共包含一艘主舰船智能体和4艘从舰船智能体,在主舰船智能体上使用MADDPG算法,优化整个编队的占位策略,与其他4艘从舰船智能体进行通信协调。该舰船编队的主要任务是实现深海域海洋资源勘探,在勘探过程中,需保证4艘从舰船智能体保持合理占位,并且编队跟随主舰船智能体,以此保证勘探结果的完整性和可靠性。

在测试开始前,所有舰船智能体进行系统检查,确保系统内各部分均处于正常工作状态。使用Ansys Fluent模拟软件创建一个与实际海域情况相似的仿真环境,参数设置为:初始航向角$ \tilde \kappa $为0°;主舰船智能体在以0°旋回时的角速度$ \omega $为2 rad/s;加速度$ \tilde \omega $为1 rad/s;水流速为5.6 km/h;转头角速度向定常角速度趋近的周期$ T $为30 s;风速为60 km/h。在该参数设置条件下,舰船编队可以正常进行工作。主舰船智能体根据勘探区域的地形和环境特点,结合算法规划出一条最优的勘探路径,将勘探任务分配给每艘从舰船智能体,并监控整个编队的状态。

4艘舰船多智能体的初始站位示意如图2所示;学习率为0.0001,折扣因子取值为0.95。

图 2 舰船多智能体的初始站位示意图 Fig. 2 Schematic diagram of initial positioning of ship multi-agent system

在进行舰船多智能体协同站位时,依据各个智能体的运动数学模型,在小面积海域资源勘探时,保证勘探区域的覆盖率,完成舰船多智能体的协同占位,占位结果如图3所示。

图 3 舰船多智能体的协同占位结果 Fig. 3 Collaborative occupancy results of multi-agent systems on ships

图3测试结果进行分析后得出:保证勘探区域覆盖率的前提下进行舰船多智能体的协同占位后,文中方法有效完成各个智能体的位置决策,并且确定的位置能够很好地覆盖整个勘探区域,保证勘探结果的全面性。

为分析文中方法的占位编队结构优化效果,在位置决策基础上,对各个舰船智能体进行占位编队结构优化,获取各个舰船智能体的位姿状态结果,如图4所示。

图 4 多智能体位姿状态的一致性测试结果 Fig. 4 Consistency test results of multi-agent posture states

图4测试结果进行分析后得出:依据位置决策结果进行舰船多智能体协同编队结构优化后,所有的从舰船智能体均跟随主舰船智能体,完成整体编队,并且能够跟随主舰船智能体的位姿进行调整,保证编队位姿状态的一致性。

为进一步验证文中方法的应用效果,测试文中方法在不同航行距离下,随着回转角度改变,整个舰船智能体编队位置和理想位置之间的误差结果(要求低于(5,5)m),如表1所示。

表 1 整个舰船智能体编队位置误差结果 Tab.1 Results of position error of the entire ship intelligent agent formation

表1测试结果进行分析后得出:随着航行距离的逐渐增加,在不同的回转角度下,整个舰船智能体编队位置和理想位置之间的误差均低于(5,5)m。因此,该方法能够在不同航行状态下均精准实现舰船多智能体占位,保证整体编队结构一致性。

3 结 语

为保证舰船多智能体的任务执行效果,满足其在目标区域内的航行和任务执行需求,提出舰船多智能体协同占位方案数学模型优化方法,该方法以舰船多智能体运动数学模型为基础,构建其位置决策模型,在此基础上进行整体编队结构优化,使其在最佳的占位下完成任务执行。创新性地将舰船多智能体运动数学模型与MADDPG算法相结合后,不仅利用数学模型,完成了舰船运动规律的精确描述,还借助了MADDPG算法在多智能体协作与竞争环境中的强大学习能力,使得舰船能够根据实时的海洋环境、其他舰船的动态以及自身的航行需求,动态地调整航行策略,实现更加智能和灵活的航行位置决策。

参考文献
[1]
丁善婷, 王淼, 董正琼, 等. 基于多智能体的舰船装备健康状态仿真评估方法[J]. 中国机械工程, 2022, 33(10): 1169-1177.
DING S T, WANG M, DONG Z Q, et al. A multi-agent-based simulation method for health state assessments of naval equipment[J]. China Mechanical Engineering, 2022, 33(10): 1169-1177. DOI:10.3969/j.issn.1004-132X.2022.10.005
[2]
尹安. 基于墨子平台的水下多智能体协同占位决策算法设计[J]. 中国舰船研究, 2024, 19(S1): 109-114.
YIN A. Design and research of underwater multi-agent cooperative getting-to-the-firing-position decision-making algorithm based on MoZi platform[J]. Chinese Journal of Ship Research, 2024, 19(S1): 109-114.
[3]
范学满, 王永洁, 田立业. 基于群体智能的多UUV动态任务分配方法[J]. 舰船科学技术, 2023, 45(1): 94-100.
FAN X M, WANG Y J, TIAN L Y. A dynamic task assignment method based on swarm intelligence for multi-UUV[J]. Ship Science and Technology, 2023, 45(1): 94-100. DOI:10.3404/j.issn.1672-7649.2023.01.017
[4]
AKDAG M, FOSSEN T I, JOHANSEN T A, et al. A decision support system for autonomous ship trajectory planning[J]. Ocean engineering, 2024, 292(1): 1.1−1.16.
[5]
王子豪, 张严心, 黄志清, 等. 部分可观测下基于RGMAAC算法的多智能体协同[J]. 控制与决策, 2023, 38(5): 1267-1277.
WANG Z H, ZHANG Y X, HUANG Z Q, et al. Multi-agent collaboration based on RGMAAC algorithm under partial observability[J]. Control and Decision, 2023, 38(5): 1267-1277.
[6]
褚晶, 李佩文, 岳颀. 基于约束优化的多智能体协同编队与避障[J]. 南京航空航天大学学报, 2024, 56(3): 545-560.
CHU J, LI P W, YUE Q. Multi-agent collaborative formation with obstacle avoidance based on constrained optimization[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2024, 56(3): 545-560.
[7]
徐言民, 律建辉, 刘佳仑, 等. 基于CSSOA的多船智能避碰决策研究[J]. 中国舰船研究, 2023, 18(6): 88-96.
XU Y M, LV J H, LIU J L, et al. Multi-vessel intelligent collision avoidance decision-making based on CSSOA[J]. Chinese Journal of Ship Research, 2023, 18(6): 88-96.
[8]
黄蓉, 周军, 黄浩乾. 基于内模原理的多智能体蜂拥编队跟踪控制[J]. 计算机仿真, 2022, 39(4): 375-380.
HUANG R, ZHOU J, HUANG H Q. Multi-agent flocking formation and trajectory tracking control under internal model principle[J]. Computer Simulation, 2022, 39(4): 375-380. DOI:10.3969/j.issn.1006-9348.2022.04.073