由于全球贸易量与海上交通量的大幅度增加,船舶之间的碰撞风险也迅速上升。在船舶的实际运行过程中,繁忙的航道、狭窄的水道和复杂的天气状况均可能导致船舶发生碰撞[1]。传统的船舶避碰方法通常依靠船员的航海经验与视觉判断,但在当今的海上交通环境中,这些方法已经无法满足逐步增长的安全需求。为了避免船舶航行过程中的碰撞,亟需从船舶避碰的基本理论和原则出发,对人工智能、大数据以及物联网等智能化避碰技术展开深入分析[2]。
目前,众多学者对此进行了研究。宁君等[3]方法先结合高斯位置变异方法和自适应策略改进粒子群算法,然后根据多目标优化方法设计目标函数,并通过模糊综合评价策略确定船舶碰撞危险度,最后利用改进的粒子群算法实现船舶避碰。但该方法中模糊综合评价策略容易受到噪声因素干扰,导致船舶碰撞风险评估效果较差。关巍等[4]提出一种基于深度强化学习(DRL)算法的船舶智能避碰决策模型。该模型采用对抗双深度Q学习(Dueling-DDQN)并结合船舶领域模型,设计奖励函数时融入了COLREGs规则及船舶偏航等因素,以确保避碰决策的合规性与合理性。但该模型依赖离散时间步长进行决策,无法实时评估连续变化的碰撞风险。在高速航行或突发情况下,延迟的风险评估可能导致避碰动作滞后。张伟龙等[5]先基于障碍物预测轨迹与权重系数对动态窗口法的距离评价函数展开优化,并根据COLREGS规则建立新的评价函数进一步约束无人水面艇的避碰动作,其次结合期望速度与航线,确定碰撞风险,最后利用优化的动态窗口法实现避碰。该方法中改进后的碰撞风险检测算法依赖期望速度和航向,但这些参数可能因环境变化(如他船行为突变)而滞后,进而导致船舶碰撞风险评估效果较差。谭智坤等[6]先基于无人船的运动特点,将艏摇角速度和漂角引入速度选择中,然后利用障碍物搜索角分析障碍物对无人船运动的影响,最后利用速度障碍法和改进的动态窗口法评价函数实现无人船的快速避碰。但该方法中的障碍物搜索角可能无法全面覆盖所有潜在的碰撞风险区域,尤其是在障碍物密集或分布不规则的情况下,无法有效评估碰撞风险区域。
为了解决上述方法中存在的问题,提出多智能体深度强化学习应用下多目标船舶避碰决策研究。
1 船舶碰撞风险评估通过人工势场法[7 − 8]对海上航行的多个目标船舶的碰撞危险度展开计算,进而确定存在碰撞风险的船舶,以利于后续的船舶避碰决策。
生成函数是确定2艘船舶
| $ f(c,o) = 2Y - k(c,o) 。$ | (1) |
式中:
为了降低船见效应的干扰,需要构建船舶之间的斥力,通过斥力可以将船舶之间的距离控制在一个安全范围内,进而避免碰撞事件发生。因此建立船舶
| $ {G_r}(c) = \sum {(f(c,o) - {f_{\min }}) \cdot \nabla f(c,o)}。$ | (2) |
式中:
为了使所有船舶均能按照规划的航线航行,有必要令船舶对周边环境形成吸引力,因此构建船舶
| $ {G_a}(c) = - {z_a} \cdot \nabla k(c,o)。$ | (3) |
式中:
为了确保设计的航线安全性最高,需确定船舶针对目标位置所产生的吸引力值,对于吸引力
| $ {G_g}(c) = - {z_g} \cdot \nabla k(c,v)。$ | (4) |
式中:
考虑船舶航行过程中产生的全部排斥力与吸引力,构建船舶
| $ I(c) = {I_r}(c) + {I_a}(c) + {I_g}(c)。$ | (5) |
式中:
根据总势能公式来构建船舶的碰撞危险度评价模型如下:
| $ J(c) = \sum {I(c,o)}。$ | (6) |
式中:
设置碰撞危险度阈值
根据上述船舶碰撞风险评估结果,对于存在碰撞风险的船舶,需要展开避碰决策。首先根据该船和多艘目标船的状态以及动作构建船舶多智能体系统,并基于航行目标和安全性目标设计碰壁策略的奖励函数,然后通过深度强化学习获取船舶最优避碰策略。
2.1 考虑多目标的船舶多智能体系统构建考虑多艘目标船的船舶多智能体系统[10 − 11]构建包含状态空间、动作空间和奖励函数三部分。
1)状态空间
船舶的状态信息是智能体获得避碰决策的基础,状态空间描述了每个船舶智能体在特定时刻的局部观测信息,包括船舶自身的位置、航向、航速、目标点位置,以及其他船舶智能体的位置信息以及与这些船舶的相对位置。因此,需要根据船舶在海域的航行特性与目标构建其智能体的状态空间。假设
| $ p_u^i = \left\{ {W,V_u^i,N_u^i,A_u^i,\left\| {{A^{{h_i}}} - A_u^i} \right\|,\left\| {A_u^j - A_u^i} \right\|} \right\}。$ | (7) |
式中:
2)动作空间
根据船舶在海域中实际航行的连续性特点,建立具有连续性特点的船舶智能体动作空间。动作空间则定义了船舶智能体在每个时刻可以采取的航行动作。这些动作以二维向量的形式表示,分别对应于船舶在水平方向(
| $ p_u^i = \left\{ {d_u^i,A_u^i,\left\| {{A^{{h_i}}} - A_u^i} \right\|,\left\| {A_u^j - A_u^i} \right\|} \right\} 。$ | (8) |
3)奖励函数
对于船舶多智能体系统的奖励函数可根据船舶在海域上的实际航行目标和避碰安全性目标展开设计。奖励函数用于评估船舶智能体在每个时刻采取的动作的好坏程度,并引导其朝着更优的航行策略学习。奖励函数的核心目标是引导船舶在动态海域中兼顾航行效率与避碰安全性。具体而言,需推动船舶快速靠近目标点,同时避免与其他船舶或固定障碍物发生碰撞。为实现这一目标,奖励函数被分解为3个部分:1)目标奖励,即船舶距离目标点越近,获得的奖励越高,以鼓励船舶高效航行;2)船舶间避碰奖励,若船舶与其他船舶发生碰撞,则给予较大负奖励以惩罚碰撞行为,若未发生碰撞,则根据船舶间距离给予较小正奖励以鼓励保持安全距离;3)船舶与固定障碍物避碰奖励,若船舶与障碍物发生碰撞,则给予较大负奖励,若未发生碰撞,则根据船舶与障碍物的距离给予较小正奖励以鼓励远离障碍物。最终奖励函数为上述三部分的组合,确保船舶在航行过程中同时关注目标与避碰。
首先,根据第
| $ T_{u1}^i = - {\left\| {p_u^i{A^{{h_i}}} - A_u^i} \right\|_2}。$ | (9) |
其次,考虑到各船舶之间在海域上航行时的不碰撞目标,将出现碰撞的船舶智能体设置负数奖励值。船舶间避碰奖励值的设计核心是确保多船协同航行的安全性,其逻辑是通过实时监测船舶之间的距离,当距离小于安全阈值时给予负奖励(惩罚),激励智能体调整航向或航速以避免碰撞;反之,当距离大于安全阈值时给予正奖励(鼓励),奖励安全航行行为。依据船舶航行的安全约束,这种设计能够强化智能体对其他船舶的避碰意识,确保在动态环境中多船能够安全、有序地航行,避免因相互靠近或冲突导致的碰撞风险。基于船舶之间的不碰撞目标,对第
| $ T_{u2}^i = - S,S \in {\mathbb{R}^ + }。$ | (10) |
式中:
最后,基于船舶智能体和固定障碍物之间不发生接触碰撞的目标,设计第3个奖励值
| $ T_{u3}^i = - S,S \in {\mathbb{R}^ + }。$ | (11) |
式中:
上述负奖励的绝对值需显著大于正奖励(通常为10倍以上),以确保智能体优先学习避碰策略。正奖励值不宜过大,否则可能导致智能体过于追求“无碰撞”而忽略目标导向性。负奖励值需足够大(通常为正奖励的10倍以上),以确保智能体优先学习避碰策略。具体数值通过实验进行测定。
综合上述3个奖励值,构建最终的船舶智能体奖励函数
| $ {T}_{u}^{i}=\left\{\begin{aligned}&{T}_{u1}^{i}+{T}_{u2}^{i}+{T}_{u3}^{i},碰撞,\\ &{T}_{u1}^{i},不碰撞。\end{aligned} \right.$ | (12) |
为了实现多目标船舶避碰,利用深度强化学习算法中的深度神经网络[12]根据船舶多智能体系统制定最优避碰决策。
在船舶多智能体系统中,船舶根据状态空间中的局部观测信息来选择下一时刻的动作策略,并将累积奖励作为动作调整的最终目标,即选取累积奖励最大时的动作策略。对于第
| $ H_u^i = T_u^i + \eta T_{u + 1}^i + \cdots = \sum\limits_{l = 0}^\infty {{\eta ^l}T_{u + l + 1}^i}。$ | (13) |
式中:
考虑到船舶智能体的动作选取具有随机性,
| $ \left\{ \begin{gathered} {w_\varpi }(p) = {R_\varpi }\left[ {H_u^i\left| {{P_u} = p,{D_u} = d} \right.} \right],\\ {q_\varpi }(p) = {R_\varpi }\left[ {H_u^i\left| {{P_u} = p} \right.} \right]。\\ \end{gathered} \right. $ | (14) |
式中:
假设
| $ \left\{ \begin{gathered} {w^ * }(p) = \mathop {\max }\limits_\varpi {w_\varpi }(p,d),\\ {q^ * }(p) = \mathop {\max }\limits_\varpi {q_\varpi }(p)。\\ \end{gathered} \right. $ | (15) |
将状态值函数公式代入最优策略值函数公式中,得到
| $ {q^ * }(p) = {R_\varpi }\left[ {{T_{u + 1}} + \eta \mathop {\max }\limits_\varpi {q^ * }(p')\left| {{P_u} = p} \right.} \right]。$ | (16) |
式中:
则最优策略
| $ {\varpi ^ * }(p) = \frac{1}{n}\mathop {\max }\limits_\varpi {q^ * }(p)。$ | (17) |
基于均方误差最小化准则,通过深度神经网络[13 − 14]对
| $ {s_g} = {T_{u + 1}} + \eta \mathop {\max }\limits_{{\varpi ^ * }(p)} {q^ * }(p';{\mu _g})。$ | (18) |
式中:
当深度神经网络预测出的最优策略函数
为了验证多智能体深度强化学习应用下多目标船舶避碰决策方法的整体有效性,需要对其展开测试。
构建多智能体深度强化学习系统,在该系统展开本次实验,并设置实验参数如下:船舶类型为小型船舶,排水量为
|
图 1 多智能体深度强化学习系统 Fig. 1 Multi agent deep reinforcement learning system |
1)碰撞危险度评估效果
对于船舶的避碰决策在各船舶碰撞危险度评估结果的基础上展开,因此各船舶的碰撞危险度评估效果直接影响着船舶的避碰效果。现利用多智能体深度强化学习应用下多目标船舶避碰决策方法、模糊综合评价方法对某海域上各船舶的碰撞危险度展开评估,危险度的评估值和实际值的对比如图2所示。
|
图 2 碰撞危险度 Fig. 2 Collision risk level |
可知,所提方法对船舶的碰撞危险度评估值均分布在碰撞危险度实际值波动曲线上,而模糊综合评价方法对船舶的碰撞危险度评估值存在部分偏离危险度实际值波动曲线的情况,表明所提方法对船舶的碰撞危险度评估效果更好,更利于后续的船舶避碰决策。
2)避碰性能
为了比较多智能体深度强化学习应用下多目标船舶避碰决策方法、粒子群算法、APF方法的船舶避碰性能,现利用上述3种方法对海域上的同一艘船舶展开避碰决策,避碰结果如图3所示。
|
图 3 避碰结果 Fig. 3 Collision avoidance results |
可得,在该船舶航行至目标点的路线上共存在4个障碍物,所提方法规划出的船舶航行路线能够完全避开4个障碍物,而粒子群算法、APF方法均出现船舶碰撞到障碍物的情况,表明所提方法具有更好的船舶避碰性能。
为了进一步验证多智能体深度强化学习应用下多目标船舶避碰决策方法的应用性能,设置动态障碍,动态障碍的路线如图4所示。
|
图 4 动态障碍路线 Fig. 4 Dynamic obstacle route |
在图4动态障碍环境下,利用上述3种方法对海域上的同一艘船舶展开避碰决策,则不同方法的动态障碍避碰成功率结果如表1所示。
|
|
表 1 不同方法的动态障碍避碰成功率结果 Tab.1 Dynamic obstacle avoidance results using different methods |
可知,在所有实验次数中,所提方法的避碰成功率均显著高于PSO和APF方法,平均成功率达到90.8%,而PSO和APF的平均成功率分别为73.2%和80%。这是由于所提方法基于多智能体深度强化学习,能够通过实时感知动态障碍物的状态(位置、速度、航向)并动态调整决策策略,适应复杂多变的航行环境。
3)避碰效率
为了进一步比较多智能体深度强化学习应用下多目标船舶避碰决策方法、粒子群算法、APF方法的船舶避碰效率,利用上述3种方法对存在碰撞风险的船舶展开避碰处理,并将规划出的避碰线路长度作为衡量避碰效率的指标,线路越短,表明船舶的避碰效率越高。不同方法下各船舶的避碰线路长度如图5所示。
|
图 5 避碰规划路径长度 Fig. 5 Collision avoidance planning path length |
可知,对于同一艘船舶,所提方法规划出的避碰线路长度均低于粒子群算法、APF方法,其主要原因是因为所提方法将深度强化学习算法引入船舶多智能体系统中,通过深度神经网络的迭代优化搜索出最优的避碰线路,因此,所提方法具有更高的避碰效率。
4 结 语为了降低船舶在复杂天气状况下的航行碰撞风险,需要对船舶展开避碰处理,目前的船舶避碰方法存在船舶碰撞危险度的评估效果较差、避碰性能和效率较低的问题。为了解决上述问题,提出一种多智能体深度强化学习应用下多目标船舶避碰决策方法,该方法先根据人工势场法展开船舶碰撞风险评估,然后构建船舶多智能体系统,最后利用深度强化学习算法实现船舶避碰决策。经验证,该方法具有较好的船舶碰撞风险评估效果,且能够有效提高船舶避碰性能和效率,为推动船舶智能化发展提供了科学依据。
| [1] |
廖诗管, 翁金贤. 基于贝叶斯时空log-logistic模型的船舶碰撞频率[J]. 中国航海, 2023, 46(1): 24-29+38. LIAO S G, WENG J X. Ship collision frequency prediction with bayesian spatiotemporal log-logistic model[J]. Navigation of China, 2023, 46(1): 24-29+38. DOI:10.3969/j.issn.1000-4653.2023.01.004 |
| [2] |
杨琪森, 王慎执, 桑金楠, 等. 复杂开放水域下智能船舶路径规划与避障方法[J]. 计算机集成制造系统, 2022, 28(7): 2030-2040. YANG Q S, WANG S Z, SANG J N, et al. Path planning and real-time obstacle avoidance methods of intelligent ships in complex open water environment[J]. Computer Integrated Manufacturing Systems, 2022, 28(7): 2030-2040. |
| [3] |
宁君, 黄寓旸, 尤恽, 等. 基于混合粒子群算法的船舶避碰决策[J]. 大连海事大学学报, 2023, 49(1): 34-43. NING J, HUANG Y Y, YOU Y, et al. Ship collision avoidance decision based on hybrid particle swarm algorithm[J]. Journal of Dalian Maritime University, 2023, 49(1): 34-43. |
| [4] |
关巍, 王淼淼, 韩虎生, 等. 基于Dueling-DDQN的船舶智能避碰决策方法[J]. 大连海事大学学报, 2024, 50(4): 22-30. GUAN W, WANG M M, HAN H S, et al. Intelligent collision avoidance decision-making method for ships based on Dueling DDQN[J]. Journal of Dalian Maritime University, 2024, 50(4): 22-30. |
| [5] |
张伟龙, 单梁, 常路, 等. 基于改进DWA的多无人水面艇分布式避碰算法[J]. 控制与决策, 2023, 38(4): 951-962. ZHANG W L, SHAN L, CHANG L, et al. Distributed collision avoidance algorithm for multiple unmanned surface vessels based on improved DWA[J]. Control and Decision, 2023, 38(4): 951-962. |
| [6] |
谭智坤, 张隆辉, 刘正锋, 等. 融合改进动态窗口法与速度障碍法的无人船局部路径规划[J]. 船舶力学, 2023, 27(3): 311-322. TAN Z K, ZHANG L H, LIU Z F, et al. Local path planning for USVs based on the fusion algorithm of improved dynamic window approach and velocity obstacle algorithm[J]. Journal of Ship Mechanics, 2023, 27(3): 311-322. DOI:10.3969/j.issn.1007-7294.2023.03.001 |
| [7] |
王庆禄, 吴冯国, 郑成辰, 等. 基于优化人工势场法的无人机航迹规划[J]. 系统工程与电子技术, 2023, 45(5): 1461-1468. WANG Q L, WU F G, ZHENG C C, et al. UAV path planning based on optimized artificial potential field method[J]. Systems Engineering and Electronics, 2023, 45(5): 1461-1468. |
| [8] |
郑维, 王昊, 王洪斌. 动态环境下基于自适应步长Informed-RRT*和人工势场法的机器人混合路径规划[J]. 计量学报, 2023, 44(1): 26-34. ZHENG W, WANG H, WANG H B. Adaptive step size Informed-RRT*and artificial potential field algorithm for hybrid path planning of robot[J]. Acta Metrologica Sinica, 2023, 44(1): 26-34. DOI:10.3969/j.issn.1000-1158.2023.01.05 |
| [9] |
张智超, 张景峰, 杨栋, 等. 基于目标失效概率的桥梁船撞风险及防撞水准论证[J]. 公路交通科技, 2023, 40(2): 72-80. ZHANG Z C, ZHANG J F, YANG D, et al. Demonstration of bridge-vessel collision risk and fortification criterion against vessel collision based on target failure probability[J]. Journal of Highway and Transportation Research and Development, 2023, 40(2): 72-80. DOI:10.3969/j.issn.1002-0268.2023.02.010 |
| [10] |
孔祥磊, 汪芳琴, 钟选明, 等. 具有方向约束的多智能体系统的反一致性研究[J]. 空间控制技术与应用, 2023, 49(1): 74-81. KONG X L, WANG F Q, ZHONG X M, et al. Inverse consensus of multi-agent systems with directional constraints[J]. Aerospace Control and Application, 2023, 49(1): 74-81. |
| [11] |
丁伟, 明振军, 王国新, 等. 基于多层次LSTM网络的多智能体攻防效能动态预测模型[J]. 兵工学报, 2023, 44(1): 176-192. DING W, MING Z J, WANG G X, et al. Dynamic prediction model based on multi-level LSTM network for multi-agent attack and defense effectiveness[J]. Acta Armamentarii, 2023, 44(1): 176-192. DOI:10.12382/bgxb.2022.0192 |
| [12] |
田维青, 彭雪飞, 王成军, 等. 基于深度神经网络的电厂跑冒滴漏智能识别方法研究[J]. 电子器件, 2024, 47(2): 524-529. TIAN W Q, PENG X F, WANG C J, et al. Research on intelligent identification method of power plant leakage based on deep neural network[J]. Chinese Journal of Electron Devices, 2024, 47(2): 524-529. DOI:10.3969/j.issn.1005-9490.2024.02.035 |
| [13] |
杨茂桃, 梁爽, 易淼荣, 等. 基于深度神经网络的超声速隔离段湍流涡黏性系数辨识[J]. 航空动力学报, 2023, 38(2): 312-324. YANG M T, LIANG S, YI M R, et al. Identification of turbulence eddy viscosity coefficient in supersonic isolation section based on deep neural network[J]. Journal of Aerospace Power, 2023, 38(2): 312-324. |
| [14] |
武晨雨, 陶银罗, 曾九孙. 引入注意力机制时空深度神经网络的再热器温度偏差预测方法[J]. 中国测试, 2024, 50(1): 151-159+192. WU C Y, TAO Y L, ZENG J S. Prediction method of reheater temperature deviation based on attention mechanism spatiotemporal deep neural network[J]. China Measurement & Test, 2024, 50(1): 151-159+192. |
| [15] |
黄国良, 周毅, 郑坤, 等. 基于改进蚁群算法的全局船舶路径规划方法[J]. 船海工程, 2023, 52(2): 97-101+136. HUANG G L, ZHOU Y, ZHENG K, et al. Ship path planning and collision avoidance based on improved ant colony algorithm[J]. Ship & Ocean Engineering, 2023, 52(2): 97-101+136. DOI:10.3963/j.issn.1671-7953.2023.02.022 |
2025, Vol. 47
