多智能体深度强化学习下多目标船舶避碰决策

引用本文

郭洪宇, 窦林涛, 贾贞, 顾浩. 多智能体深度强化学习下多目标船舶避碰决策. 舰船科学技术, 2025, 47(23): 71-77 复制到剪切板

GUO Hongyu, DOU Lintao, JIA Zhen, GU Hao. Multi objective ship collision avoidance decision-making under multi-agent deep reinforcement learning. Ship Science and Technology, 2025, 47(23): 71-77 复制到剪切板

多智能体深度强化学习下多目标船舶避碰决策

郭洪宇, 窦林涛, 贾贞, 顾浩

江苏自动化研究所，江苏连云港 222006

收稿日期: 2025-05-08.

作者简介: 郭洪宇（1996 – ），男，博士，工程师，研究方向为人工智能决策技术、容器调度

摘要: 交通密集水域航行船舶较多，交通组成复杂，通航密度较大，多船会遇情况下由于船舶操纵性不同，难以准确预判他船动态轨迹与自身航线的冲突点，导致避碰策略失效。因此，提出多智能体深度强化学习下多目标船舶避碰决策方法。首先，基于人工势场法计算船舶的碰撞危险度，以确定存在碰撞风险的船舶；其次，基于船舶的状态、动作和奖励函数来构建船舶多智能体避碰决策系统，并将船舶的航行目标和安全性目标引入奖励函数设计中；最后，利用深度强化学习算法获得系统中的最优避碰策略。实验结果表明，该方法能够有效评估船舶碰撞风险，且避碰效果好，避碰路径短，具有实际应用价值。

关键词: 多智能体深度强化学习碰撞危险度协同决策多目标船舶避碰

Multi objective ship collision avoidance decision-making under multi-agent deep reinforcement learning

GUO Hongyu, DOU Lintao, JIA Zhen, GU Hao

Jiangsu Automation Research Institute, Lianyungang 222006, China

Abstract: There are many ships sailing in densely populated waters, with complex traffic composition and high navigation density. In situations where multiple ships encounter different maneuverability, it is difficult to accurately predict the conflict points between the dynamic trajectory of other ships and their own route, resulting in the failure of collision avoidance strategies. Therefore, a multi-objective ship collision avoidance decision-making method based on multi-agent deep reinforcement learning is proposed. Firstly, the collision risk of ships is calculated based on the artificial potential field method to determine the ships with collision risks; Secondly, based on the state, actions, and reward functions of the ship, a multi-agent collision avoidance decision-making system for the ship is constructed, and the navigation and safety objectives of the ship are introduced into the design of the reward function; Finally, the optimal collision avoidance strategy in the system is obtained using deep reinforcement learning algorithms. The experimental results show that this method can effectively evaluate the risk of ship collision, and has good collision avoidance effect, short collision avoidance path, and practical application value.

Key words: multi agent deep reinforcement learning collision risk level collaborative decision-making multi target ship collision avoidance

0 引　言

由于全球贸易量与海上交通量的大幅度增加，船舶之间的碰撞风险也迅速上升。在船舶的实际运行过程中，繁忙的航道、狭窄的水道和复杂的天气状况均可能导致船舶发生碰撞^[1]。传统的船舶避碰方法通常依靠船员的航海经验与视觉判断，但在当今的海上交通环境中，这些方法已经无法满足逐步增长的安全需求。为了避免船舶航行过程中的碰撞，亟需从船舶避碰的基本理论和原则出发，对人工智能、大数据以及物联网等智能化避碰技术展开深入分析^[2]。

目前，众多学者对此进行了研究。宁君等^[3]方法先结合高斯位置变异方法和自适应策略改进粒子群算法，然后根据多目标优化方法设计目标函数，并通过模糊综合评价策略确定船舶碰撞危险度，最后利用改进的粒子群算法实现船舶避碰。但该方法中模糊综合评价策略容易受到噪声因素干扰，导致船舶碰撞风险评估效果较差。关巍等^[4]提出一种基于深度强化学习（DRL）算法的船舶智能避碰决策模型。该模型采用对抗双深度Q学习（Dueling-DDQN）并结合船舶领域模型，设计奖励函数时融入了COLREGs规则及船舶偏航等因素，以确保避碰决策的合规性与合理性。但该模型依赖离散时间步长进行决策，无法实时评估连续变化的碰撞风险。在高速航行或突发情况下，延迟的风险评估可能导致避碰动作滞后。张伟龙等^[5]先基于障碍物预测轨迹与权重系数对动态窗口法的距离评价函数展开优化，并根据COLREGS规则建立新的评价函数进一步约束无人水面艇的避碰动作，其次结合期望速度与航线，确定碰撞风险，最后利用优化的动态窗口法实现避碰。该方法中改进后的碰撞风险检测算法依赖期望速度和航向，但这些参数可能因环境变化（如他船行为突变）而滞后，进而导致船舶碰撞风险评估效果较差。谭智坤等^[6]先基于无人船的运动特点，将艏摇角速度和漂角引入速度选择中，然后利用障碍物搜索角分析障碍物对无人船运动的影响，最后利用速度障碍法和改进的动态窗口法评价函数实现无人船的快速避碰。但该方法中的障碍物搜索角可能无法全面覆盖所有潜在的碰撞风险区域，尤其是在障碍物密集或分布不规则的情况下，无法有效评估碰撞风险区域。

为了解决上述方法中存在的问题，提出多智能体深度强化学习应用下多目标船舶避碰决策研究。

1 船舶碰撞风险评估

通过人工势场法^{[7 − 8]}对海上航行的多个目标船舶的碰撞危险度展开计算，进而确定存在碰撞风险的船舶，以利于后续的船舶避碰决策。

生成函数是确定2艘船舶$ c $和$ o $的安全距离的关键，对于生成函数$ f(c,o) $的具体计算过程如下：

$ f(c,o) = 2Y - k(c,o) 。$

(1)

式中：$ Y $为船舶的半径；$ k(c,o) $为$ c $和$ o $的安全距离。

为了降低船见效应的干扰，需要构建船舶之间的斥力，通过斥力可以将船舶之间的距离控制在一个安全范围内，进而避免碰撞事件发生。因此建立船舶$ c $的排斥力函数$ {G_r}(c) $，对于$ {G_r}(c) $的具体描述如下：

$ {G_r}(c) = \sum {(f(c,o) - {f_{\min }}) \cdot \nabla f(c,o)}。$

(2)

式中：$ {f_{\min }} $为船舶$ c $和$ o $之间的最小安全距离；$ \nabla f(c,o) $为$ k(c,o) $的梯度；$ \sum ( \cdot ) $为对除$ c $之外的全部船舶展开求和。

为了使所有船舶均能按照规划的航线航行，有必要令船舶对周边环境形成吸引力，因此构建船舶$ c $对周边环境的吸引力$ {G_a}(c) $，对于$ {G_a}(c) $的具体描述如下：

$ {G_a}(c) = - {z_a} \cdot \nabla k(c,o)。$

(3)

式中：$ {z_a} $为吸引力常数；$ \nabla k(c,o) $为$ c $到目标位置的距离梯度。

为了确保设计的航线安全性最高，需确定船舶针对目标位置所产生的吸引力值，对于吸引力$ {G_g}(c) $的具体计算过程如下：

$ {G_g}(c) = - {z_g} \cdot \nabla k(c,v)。$

(4)

式中：$ {z_g} $为船舶$ c $的目标位置吸引力常数；$ \nabla k(c,v) $为$ c $到$ v $的距离梯度。

考虑船舶航行过程中产生的全部排斥力与吸引力，构建船舶$ c $的总势能$ I(c) $，对于$ I(c) $的具体描述如下：

$ I(c) = {I_r}(c) + {I_a}(c) + {I_g}(c)。$

(5)

式中：$ {I_r}(c) $为船舶$ c $和其他船舶之间的排斥势能，其通过对排斥力$ {G_r}(c) $展开积分操作获得；$ {I_a}(c) $为$ c $对周边环境产生的吸引势能，其通过对$ {G_a}(c) $展开积分操作获得；$ {I_g}(c) $为$ c $对目标位置产生的吸引势能，其通过对$ {G_g}(c) $展开积分操作获得。

根据总势能公式来构建船舶的碰撞危险度评价模型如下：

$ J(c) = \sum {I(c,o)}。$

(6)

式中：$ J(c) $为$ c $在当前位置的碰撞危险度。

设置碰撞危险度阈值$ \alpha $，若$ J(c) \geqslant \alpha $，表示船舶$ c $在当前位置存在碰撞风险，需对其采取避碰动作；反之，若$ J(c) \lt \alpha $，表示船舶$ c $无碰撞风险，则暂时无需对其展开避碰措施^[9]。

2 船舶多智能体系统构建及避碰决策制定

根据上述船舶碰撞风险评估结果，对于存在碰撞风险的船舶，需要展开避碰决策。首先根据该船和多艘目标船的状态以及动作构建船舶多智能体系统，并基于航行目标和安全性目标设计碰壁策略的奖励函数，然后通过深度强化学习获取船舶最优避碰策略。

2.1 考虑多目标的船舶多智能体系统构建

考虑多艘目标船的船舶多智能体系统^{[10 − 11]}构建包含状态空间、动作空间和奖励函数三部分。

1）状态空间

船舶的状态信息是智能体获得避碰决策的基础，状态空间描述了每个船舶智能体在特定时刻的局部观测信息，包括船舶自身的位置、航向、航速、目标点位置，以及其他船舶智能体的位置信息以及与这些船舶的相对位置。因此，需要根据船舶在海域的航行特性与目标构建其智能体的状态空间。假设$ p_u^i $表示第$ i $个船舶智能体在$ u $时刻的局部观测信息，$ A_u^i $为第$ i $个船舶智能体在$ u $时刻的位置，$ A_u^j $为其余船舶智能体$ j $的位置，对于$ p_u^i $的具体描述如下：

$ p_u^i = \left\{ {W,V_u^i,N_u^i,A_u^i,\left\| {{A^{{h_i}}} - A_u^i} \right\|,\left\| {A_u^j - A_u^i} \right\|} \right\}。$

(7)

式中：$ N_u^i $、$ V_u^i $分别为第$ i $个船舶智能体在$ u $时刻的航向、航速；$ {h_i} $为第$ i $个船舶智能体要到达的目标点；$ {A^{{h_i}}} $为$ {h_i} $的位置；$ \left\| {{A^{{h_i}}} - A_u^i} \right\| $、$ \left\| {A_u^j - A_u^i} \right\| $分别为第$ i $个船舶智能体和$ {h_i} $及其余船舶智能体的相对位置。

2）动作空间

根据船舶在海域中实际航行的连续性特点，建立具有连续性特点的船舶智能体动作空间。动作空间则定义了船舶智能体在每个时刻可以采取的航行动作。这些动作以二维向量的形式表示，分别对应于船舶在水平方向（$ x $轴）和垂直方向（$ y $轴）上的移动分量。通过这些分量，可以进一步转换为船舶的航向和航速变化，从而指导船舶的实际航行。假设$ d_u^i $表示第$ i $个船舶智能体在$ u $时刻的航行动作，将$ d_u^i $表示为$ (a,b) $，$ a $和$ b $分别为$ d_u^i $在$ x $轴和$ y $轴上的分量。由于$ d_u^i $中包含了第$ i $个船舶智能体在$ u $时刻的航向$ N_u^i $与航速$ V_u^i $，因此$ p_u^i $可作如下转换：

$ p_u^i = \left\{ {d_u^i,A_u^i,\left\| {{A^{{h_i}}} - A_u^i} \right\|,\left\| {A_u^j - A_u^i} \right\|} \right\} 。$

(8)

3）奖励函数

对于船舶多智能体系统的奖励函数可根据船舶在海域上的实际航行目标和避碰安全性目标展开设计。奖励函数用于评估船舶智能体在每个时刻采取的动作的好坏程度，并引导其朝着更优的航行策略学习。奖励函数的核心目标是引导船舶在动态海域中兼顾航行效率与避碰安全性。具体而言，需推动船舶快速靠近目标点，同时避免与其他船舶或固定障碍物发生碰撞。为实现这一目标，奖励函数被分解为3个部分：1）目标奖励，即船舶距离目标点越近，获得的奖励越高，以鼓励船舶高效航行；2）船舶间避碰奖励，若船舶与其他船舶发生碰撞，则给予较大负奖励以惩罚碰撞行为，若未发生碰撞，则根据船舶间距离给予较小正奖励以鼓励保持安全距离；3）船舶与固定障碍物避碰奖励，若船舶与障碍物发生碰撞，则给予较大负奖励，若未发生碰撞，则根据船舶与障碍物的距离给予较小正奖励以鼓励远离障碍物。最终奖励函数为上述三部分的组合，确保船舶在航行过程中同时关注目标与避碰。

首先，根据第$ i $个船舶智能体和其$ {h_i} $之间的距离构建第一个奖励值$ T_{u1}^i $，即第$ i $个船舶智能体和$ {h_i} $之间的距离越小。$ T_{u1}^i $值越大，第$ i $个船舶智能体和$ {h_i} $之间的距离越大；$ T_{u1}^i $值越小，以此推动船舶智能体航行至目标位置。目标导向奖励值$ T_{u1}^i $的设计旨在引导船舶智能体高效完成航行任务，其核心逻辑是通过量化船舶当前位置与目标点之间的距离，将距离的远近转化为奖励值的正负反馈。依据船舶航行的实际需求，当船舶距离目标点越近时，奖励值越大，激励智能体选择朝向目标点的动作；反之，距离越远时奖励值越小甚至为负，惩罚无效或偏离目标的动作。这种设计能够强化智能体对目标点的趋近行为，避免无意义的徘徊或偏离，从而确保船舶在复杂海域中高效、准确地到达目标位置。对于$ T_{u1}^i $的具体描述如下：

$ T_{u1}^i = - {\left\| {p_u^i{A^{{h_i}}} - A_u^i} \right\|_2}。$

(9)

其次，考虑到各船舶之间在海域上航行时的不碰撞目标，将出现碰撞的船舶智能体设置负数奖励值。船舶间避碰奖励值的设计核心是确保多船协同航行的安全性，其逻辑是通过实时监测船舶之间的距离，当距离小于安全阈值时给予负奖励（惩罚），激励智能体调整航向或航速以避免碰撞；反之，当距离大于安全阈值时给予正奖励（鼓励），奖励安全航行行为。依据船舶航行的安全约束，这种设计能够强化智能体对其他船舶的避碰意识，确保在动态环境中多船能够安全、有序地航行，避免因相互靠近或冲突导致的碰撞风险。基于船舶之间的不碰撞目标，对第$ i $个船舶智能体的第二个奖励值$ T_{u2}^i $展开设计如下：

$ T_{u2}^i = - S,S \in {\mathbb{R}^ + }。$

(10)

式中：$ - S $为船舶智能体间发生碰撞时的负奖励值；$ S $为未发生碰撞时的正奖励值。

最后，基于船舶智能体和固定障碍物之间不发生接触碰撞的目标，设计第3个奖励值$ T_{u3}^i $，船舶与固定障碍物避碰奖励值的设计目标是确保船舶在复杂海域中不与静态障碍物（如岛屿、礁石）发生碰撞，其逻辑是通过计算船舶与障碍物之间的距离，当距离小于安全阈值时给予负奖励（惩罚），激励智能体提前规划路径以避开障碍物；反之，当距离大于安全阈值时给予正奖励（鼓励），奖励安全航行行为。依据船舶航行的实际需求，这种设计能够强化智能体对固定障碍物的避碰能力，确保船舶在复杂海域中安全航行，避免因疏忽或路径规划不当导致的碰撞事故。对于$ T_{u3}^i $的具体描述为：

$ T_{u3}^i = - S，S \in {\mathbb{R}^ + }。$

(11)

式中：$ - S $为船舶智能体和固定障碍物发生碰撞时的负奖励值；$ S $为未发生碰撞时的正奖励值。

上述负奖励的绝对值需显著大于正奖励（通常为10倍以上），以确保智能体优先学习避碰策略。正奖励值不宜过大，否则可能导致智能体过于追求“无碰撞”而忽略目标导向性。负奖励值需足够大（通常为正奖励的10倍以上），以确保智能体优先学习避碰策略。具体数值通过实验进行测定。

综合上述3个奖励值，构建最终的船舶智能体奖励函数$ T_u^i $如下：

$ {T}_{u}^{i}=\left\{\begin{aligned}&{T}_{u1}^{i}+{T}_{u2}^{i}+{T}_{u3}^{i}，碰撞，\\ &{T}_{u1}^{i}，不碰撞。\end{aligned} \right.$

(12)

2.2 基于深度强化学习的避碰决策制定

为了实现多目标船舶避碰，利用深度强化学习算法中的深度神经网络^[12]根据船舶多智能体系统制定最优避碰决策。

在船舶多智能体系统中，船舶根据状态空间中的局部观测信息来选择下一时刻的动作策略，并将累积奖励作为动作调整的最终目标，即选取累积奖励最大时的动作策略。对于第$ i $个船舶智能体从$ u $时刻开始的累积奖励值$ H_u^i $的计算过程为：

$ H_u^i = T_u^i + \eta T_{u + 1}^i + \cdots = \sum\limits_{l = 0}^\infty {{\eta ^l}T_{u + l + 1}^i}。$

(13)

式中：$ \eta \in \left[ {0,1} \right] $为折扣因子，该值反映了船舶智能体下一时刻的奖励值对此刻动作的影响度，即$ \eta $值越大，船舶智能体下一时刻的奖励值对此刻动作产生越大的影响；$ l $为时间步参数。

考虑到船舶智能体的动作选取具有随机性，$ H_u^i $也会具有随机性，但平均期望是一个固定不变的值，为了判断第$ i $个船舶在$ u $时刻的状态好坏，提出船舶智能体的动作值函数$ {w_\varpi }(p) $与状态值函数$ {q_\varpi }(p) $，并通过$ {w_\varpi }(p) $与$ {q_\varpi }(p) $代替船舶智能体的累积奖励平均回报期望。对于$ {w_\varpi }(p) $与$ {q_\varpi }(p) $的具体描述为：

$ \left\{ \begin{gathered} {w_\varpi }(p) = {R_\varpi }\left[ {H_u^i\left| {{P_u} = p,{D_u} = d} \right.} \right]，\\ {q_\varpi }(p) = {R_\varpi }\left[ {H_u^i\left| {{P_u} = p} \right.} \right]。\\ \end{gathered} \right. $

(14)

式中：$ {R_\varpi } $为期望；$ \varpi $为船舶智能体根据状态$ p $采取行动$ d $的策略；$ {P_u} $为$ u $时刻船舶状态；$ {D_u} $为$ u $时刻船舶行动。

假设$ {w^ * }(p) $与$ {q^ * }(p) $分别为最优动作值函数与最优策略值函数，对于$ {w^ * }(p) $与$ {q^ * }(p) $的描述如下：

$ \left\{ \begin{gathered} {w^ * }(p) = \mathop {\max }\limits_\varpi {w_\varpi }(p,d)，\\ {q^ * }(p) = \mathop {\max }\limits_\varpi {q_\varpi }(p)。\\ \end{gathered} \right. $

(15)

将状态值函数公式代入最优策略值函数公式中，得到$ {q^ * }(p) $的迭代公式如下：

$ {q^ * }(p) = {R_\varpi }\left[ {{T_{u + 1}} + \eta \mathop {\max }\limits_\varpi {q^ * }(p')\left| {{P_u} = p} \right.} \right]。$

(16)

式中：$ p' $为船舶智能体在下一时刻的局部观测信息。

则最优策略$ {\varpi ^ * }(p) $的描述如下：

$ {\varpi ^ * }(p) = \frac{1}{n}\mathop {\max }\limits_\varpi {q^ * }(p)。$

(17)

基于均方误差最小化准则，通过深度神经网络^{[13 − 14]}对$ {q^ * }(p) $展开预测，预测目标$ {s_g} $如下：

$ {s_g} = {T_{u + 1}} + \eta \mathop {\max }\limits_{{\varpi ^ * }(p)} {q^ * }(p';{\mu _g})。$

(18)

式中：$ {\mu _g} $为深度神经网络第$ g $次训练的权重系数。

当深度神经网络预测出的最优策略函数$ {q^ * }(p) $满足式(17)时，表明$ {q^ * }(p) $对应的策略$ {\varpi ^ * }(p) $为最优避碰策略，并令船舶按照$ {\varpi ^ * }(p) $中的动作$ d $采取避碰措施，以此完成多智能体深度强化学习应用下多目标船舶避碰决策研究^[15]。

3 实验与分析

为了验证多智能体深度强化学习应用下多目标船舶避碰决策方法的整体有效性，需要对其展开测试。

构建多智能体深度强化学习系统，在该系统展开本次实验，并设置实验参数如下：船舶类型为小型船舶，排水量为3500 t；浪高为0.8 m；碰撞危险度阈值$ W' = 0.65 $；深度强化学习算法的学习率为0.001，训练次数为1000；本船的初始位置$ ({x_0},{y_0}) = ( - 2,2) $，船速$ {V_0} = 16\;{\rm{kn}} $，初始航向为45°；船舶最小安全距离$ {l_1} = 0.25\;{\rm{n\;mile}} $。环境浪高0.8 m；碰撞危险度阈值设为0.6，深度强化学习算法学习率0.001，训练次数1000次；实验中还设置了障碍物，包括静态障碍物和动态障碍物。静态障碍物共有4个，位置分别位于(1200,1000)、(1300,1700)、(2000,1800)、(1300,1600)m。动态障碍物2个的初始位置在(600,400)m和(200,700)m，航行速度为$ 18\;{\rm{kn}} $，初始航向为30°，会按照预先设定的路线进行运动。多智能体深度强化学习系统如图1所示。

图 1 多智能体深度强化学习系统 Fig. 1 Multi agent deep reinforcement learning system

1）碰撞危险度评估效果

对于船舶的避碰决策在各船舶碰撞危险度评估结果的基础上展开，因此各船舶的碰撞危险度评估效果直接影响着船舶的避碰效果。现利用多智能体深度强化学习应用下多目标船舶避碰决策方法、模糊综合评价方法对某海域上各船舶的碰撞危险度展开评估，危险度的评估值和实际值的对比如图2所示。

图 2 碰撞危险度 Fig. 2 Collision risk level

可知，所提方法对船舶的碰撞危险度评估值均分布在碰撞危险度实际值波动曲线上，而模糊综合评价方法对船舶的碰撞危险度评估值存在部分偏离危险度实际值波动曲线的情况，表明所提方法对船舶的碰撞危险度评估效果更好，更利于后续的船舶避碰决策。

2）避碰性能

为了比较多智能体深度强化学习应用下多目标船舶避碰决策方法、粒子群算法、APF方法的船舶避碰性能，现利用上述3种方法对海域上的同一艘船舶展开避碰决策，避碰结果如图3所示。

图 3 避碰结果 Fig. 3 Collision avoidance results

可得，在该船舶航行至目标点的路线上共存在4个障碍物，所提方法规划出的船舶航行路线能够完全避开4个障碍物，而粒子群算法、APF方法均出现船舶碰撞到障碍物的情况，表明所提方法具有更好的船舶避碰性能。

为了进一步验证多智能体深度强化学习应用下多目标船舶避碰决策方法的应用性能，设置动态障碍，动态障碍的路线如图4所示。

图 4 动态障碍路线 Fig. 4 Dynamic obstacle route

在图4动态障碍环境下，利用上述3种方法对海域上的同一艘船舶展开避碰决策，则不同方法的动态障碍避碰成功率结果如表1所示。

表 1 不同方法的动态障碍避碰成功率结果 Tab.1 Dynamic obstacle avoidance results using different methods

可知，在所有实验次数中，所提方法的避碰成功率均显著高于PSO和APF方法，平均成功率达到90.8%，而PSO和APF的平均成功率分别为73.2%和80%。这是由于所提方法基于多智能体深度强化学习，能够通过实时感知动态障碍物的状态（位置、速度、航向）并动态调整决策策略，适应复杂多变的航行环境。

3）避碰效率

为了进一步比较多智能体深度强化学习应用下多目标船舶避碰决策方法、粒子群算法、APF方法的船舶避碰效率，利用上述3种方法对存在碰撞风险的船舶展开避碰处理，并将规划出的避碰线路长度作为衡量避碰效率的指标，线路越短，表明船舶的避碰效率越高。不同方法下各船舶的避碰线路长度如图5所示。

图 5 避碰规划路径长度 Fig. 5 Collision avoidance planning path length

可知，对于同一艘船舶，所提方法规划出的避碰线路长度均低于粒子群算法、APF方法，其主要原因是因为所提方法将深度强化学习算法引入船舶多智能体系统中，通过深度神经网络的迭代优化搜索出最优的避碰线路，因此，所提方法具有更高的避碰效率。

4 结　语

为了降低船舶在复杂天气状况下的航行碰撞风险，需要对船舶展开避碰处理，目前的船舶避碰方法存在船舶碰撞危险度的评估效果较差、避碰性能和效率较低的问题。为了解决上述问题，提出一种多智能体深度强化学习应用下多目标船舶避碰决策方法，该方法先根据人工势场法展开船舶碰撞风险评估，然后构建船舶多智能体系统，最后利用深度强化学习算法实现船舶避碰决策。经验证，该方法具有较好的船舶碰撞风险评估效果，且能够有效提高船舶避碰性能和效率，为推动船舶智能化发展提供了科学依据。

参考文献

[1]	廖诗管, 翁金贤. 基于贝叶斯时空log-logistic模型的船舶碰撞频率[J]. 中国航海, 2023, 46(1): 24-29+38. LIAO S G, WENG J X. Ship collision frequency prediction with bayesian spatiotemporal log-logistic model[J]. Navigation of China, 2023, 46(1): 24-29+38. DOI:10.3969/j.issn.1000-4653.2023.01.004
[2]	杨琪森, 王慎执, 桑金楠, 等. 复杂开放水域下智能船舶路径规划与避障方法[J]. 计算机集成制造系统, 2022, 28(7): 2030-2040. YANG Q S, WANG S Z, SANG J N, et al. Path planning and real-time obstacle avoidance methods of intelligent ships in complex open water environment[J]. Computer Integrated Manufacturing Systems, 2022, 28(7): 2030-2040.
[3]	宁君, 黄寓旸, 尤恽, 等. 基于混合粒子群算法的船舶避碰决策[J]. 大连海事大学学报, 2023, 49(1): 34-43. NING J, HUANG Y Y, YOU Y, et al. Ship collision avoidance decision based on hybrid particle swarm algorithm[J]. Journal of Dalian Maritime University, 2023, 49(1): 34-43.
[4]	关巍, 王淼淼, 韩虎生, 等. 基于Dueling-DDQN的船舶智能避碰决策方法[J]. 大连海事大学学报, 2024, 50(4): 22-30. GUAN W, WANG M M, HAN H S, et al. Intelligent collision avoidance decision-making method for ships based on Dueling DDQN[J]. Journal of Dalian Maritime University, 2024, 50(4): 22-30.
[5]	张伟龙, 单梁, 常路, 等. 基于改进DWA的多无人水面艇分布式避碰算法[J]. 控制与决策, 2023, 38(4): 951-962. ZHANG W L, SHAN L, CHANG L, et al. Distributed collision avoidance algorithm for multiple unmanned surface vessels based on improved DWA[J]. Control and Decision, 2023, 38(4): 951-962.
[6]	谭智坤, 张隆辉, 刘正锋, 等. 融合改进动态窗口法与速度障碍法的无人船局部路径规划[J]. 船舶力学, 2023, 27(3): 311-322. TAN Z K, ZHANG L H, LIU Z F, et al. Local path planning for USVs based on the fusion algorithm of improved dynamic window approach and velocity obstacle algorithm[J]. Journal of Ship Mechanics, 2023, 27(3): 311-322. DOI:10.3969/j.issn.1007-7294.2023.03.001
[7]	王庆禄, 吴冯国, 郑成辰, 等. 基于优化人工势场法的无人机航迹规划[J]. 系统工程与电子技术, 2023, 45(5): 1461-1468. WANG Q L, WU F G, ZHENG C C, et al. UAV path planning based on optimized artificial potential field method[J]. Systems Engineering and Electronics, 2023, 45(5): 1461-1468.
[8]	郑维, 王昊, 王洪斌. 动态环境下基于自适应步长Informed-RRT和人工势场法的机器人混合路径规划[J]. 计量学报, 2023, 44(1): 26-34. ZHENG W, WANG H, WANG H B. Adaptive step size Informed-RRTand artificial potential field algorithm for hybrid path planning of robot[J]. Acta Metrologica Sinica, 2023, 44(1): 26-34. DOI:10.3969/j.issn.1000-1158.2023.01.05
[9]	张智超, 张景峰, 杨栋, 等. 基于目标失效概率的桥梁船撞风险及防撞水准论证[J]. 公路交通科技, 2023, 40(2): 72-80. ZHANG Z C, ZHANG J F, YANG D, et al. Demonstration of bridge-vessel collision risk and fortification criterion against vessel collision based on target failure probability[J]. Journal of Highway and Transportation Research and Development, 2023, 40(2): 72-80. DOI:10.3969/j.issn.1002-0268.2023.02.010
[10]	孔祥磊, 汪芳琴, 钟选明, 等. 具有方向约束的多智能体系统的反一致性研究[J]. 空间控制技术与应用, 2023, 49(1): 74-81. KONG X L, WANG F Q, ZHONG X M, et al. Inverse consensus of multi-agent systems with directional constraints[J]. Aerospace Control and Application, 2023, 49(1): 74-81.
[11]	丁伟, 明振军, 王国新, 等. 基于多层次LSTM网络的多智能体攻防效能动态预测模型[J]. 兵工学报, 2023, 44(1): 176-192. DING W, MING Z J, WANG G X, et al. Dynamic prediction model based on multi-level LSTM network for multi-agent attack and defense effectiveness[J]. Acta Armamentarii, 2023, 44(1): 176-192. DOI:10.12382/bgxb.2022.0192
[12]	田维青, 彭雪飞, 王成军, 等. 基于深度神经网络的电厂跑冒滴漏智能识别方法研究[J]. 电子器件, 2024, 47(2): 524-529. TIAN W Q, PENG X F, WANG C J, et al. Research on intelligent identification method of power plant leakage based on deep neural network[J]. Chinese Journal of Electron Devices, 2024, 47(2): 524-529. DOI:10.3969/j.issn.1005-9490.2024.02.035
[13]	杨茂桃, 梁爽, 易淼荣, 等. 基于深度神经网络的超声速隔离段湍流涡黏性系数辨识[J]. 航空动力学报, 2023, 38(2): 312-324. YANG M T, LIANG S, YI M R, et al. Identification of turbulence eddy viscosity coefficient in supersonic isolation section based on deep neural network[J]. Journal of Aerospace Power, 2023, 38(2): 312-324.
[14]	武晨雨, 陶银罗, 曾九孙. 引入注意力机制时空深度神经网络的再热器温度偏差预测方法[J]. 中国测试, 2024, 50(1): 151-159+192. WU C Y, TAO Y L, ZENG J S. Prediction method of reheater temperature deviation based on attention mechanism spatiotemporal deep neural network[J]. China Measurement & Test, 2024, 50(1): 151-159+192.
[15]	黄国良, 周毅, 郑坤, 等. 基于改进蚁群算法的全局船舶路径规划方法[J]. 船海工程, 2023, 52(2): 97-101+136. HUANG G L, ZHOU Y, ZHENG K, et al. Ship path planning and collision avoidance based on improved ant colony algorithm[J]. Ship & Ocean Engineering, 2023, 52(2): 97-101+136. DOI:10.3963/j.issn.1671-7953.2023.02.022


舰船科学技术 2025, Vol. 47 Issue (23): 71-77 DOI: 10.3404/j.issn.1672-7649.2025.23.011	PDF