舰船科学技术  2025, Vol. 47 Issue (24): 196-200    DOI: 10.3404/j.issn.1672-7649.2025.24.032   PDF    
基于深度学习的无人船动态路径规划方法
刘芳1, 冯睿智2     
1. 山西科技学院 大数据与计算机科学学院,山西 晋城 048011;
2. 太原科技大学 安全与应急管理工程学院,山西 太原 030024
摘要: 水域环境中障碍物分布呈非结构化,受自然因素干扰,生成的路径存在曲率突变、转折点密集的问题,导致无人船路径平滑性差、避障能力弱,故提出基于深度学习的无人船动态路径规划方法。通过栅格法离散化水域,构建无人船航行动态环境模型;结合深度强化学习的全局决策与动态窗口法的局部避障能力,实现路径动态规划,经速度空间约束与评价函数初步优化轨迹;通过贪心剪枝去除冗余节点简化路径,用三次B样条曲线平滑关键点。实验表明,该方法有效提升了路径规划的平滑性与安全性。
关键词: 栅格化环境建模     路径规划     三次B样条曲线    
Dynamic path planning method for unmanned ships based on deep learning
LIU Fang1, FENG Ruizhi2     
1. College of Big Data and Computer Science, Shanxi Institute of Science and Technology, Jincheng 048011, China;
2. School of Safety and Emergency Management Engineering, Taiyuan University of Science and Technology, Taiyuan 030024, China
Abstract: The distribution of obstacles in the water environment is unstructured and affected by natural factors, resulting in paths with abrupt curvature changes and dense turning points, leading to poor smoothness and weak obstacle avoidance ability of unmanned ships. Therefore, this study proposes a dynamic path planning method based on deep learning. Discretize the water area using the grid method and construct a dynamic environment model for unmanned ship navigation. By combining the global decision-making of deep reinforcement learning with the local obstacle avoidance capability of dynamic window method, dynamic path planning is achieved, and the trajectory is preliminarily optimized through velocity space constraints and evaluation functions. Simplify the path by removing redundant nodes through greedy pruning, and smooth the key points with cubic B-spline curves. The experiment shows that this method effectively improves the smoothness and security of path planning.
Key words: grid based environment modeling     path planning     cubic B-spline curve    
0 引 言

随着海洋资源开发与海上作战需求的增长,无人船在海洋测绘、搜救、巡逻等任务中凸显应用价值,动态路径规划作为无人船自主航行的核心技术,直接影响任务效率与安全性[1]。但复杂海洋环境下,传统方法难以满足实时避障与动态环境适应需求,因此,研究高效、可靠的无人船动态路径规划方法,对提升无人船智能化水平及保障航行安全具有重要意义。

为此,乔珍等[2]采用Canny算子结合灰度加权与高斯滤波提取环境边缘特征,以ginput函数获取坐标;基于MAKLINK图论构建航行环境模型,通过对比启发因子确定最优组合。之后引入角度优先机制与强化学习调节信息素浓度生成航行路径。然而,该方法计算复杂度较高,降低规划效率。林潭奇等[3]利用改进A*算法估价函数,引入避障与转向代价,通过逆向分段迭代生成路径。然后结合无人船旋回性能优化转向轨迹,生成平滑路径。然而,A*算法会因局部最优陷入避碰僵局,需进一步增强全局搜索能力。XIAO 等[4]基于Box2D构建物理仿真环境框架,设计以距离为主、势场为辅的奖励函数。然后采用PPO算法作为基线解决动力推进策略缺失问题,并提出基于Beta策略的分布式样本采集PPO算法,划分子区域并行采样平衡样本分布,优化全局路径规划效果。但该方法对极端复杂海况的泛化能力仍需提升。WU等[5]构建了稳定性模糊控制器与碰撞风险控制器,结合定义的比例因子对动态窗口法自适应控制,通过模糊逻辑改进避障阶段与整体路径规划。然而,该研究设计的控制器在极端密集海冰区响应速度受限,适应能力较弱。

基于上述分析,本文利用深度学习技术,提出了新的无人船动态路径规划方法。

1 动态水域环境建模 1.1 基于栅格法的动态水域环境建模

无人船在动态环境下的路径规划,环境建模是算法运行的基础。本文采用自适应分辨率的栅格法对环境进行离散化,根据障碍物密度动态调整栅格精度实时整合洋流、风浪等动态干扰因素,应用于无人船航行水域的动态环境建模。具体步骤如下:

步骤1 栅格法设计。栅格法的核心是将连续水域环境离散化为有限数量的栅格单元,通过二值化编码表示可行区域与障碍物区域[6 - 7]

将无人船实际航行环境划分为$ m \times n $个大小相同的栅格单元($ m $为行数,$ n $为列数),每个栅格单元$ a\left( {i,j} \right) $的状态通过二值变量$ a\left( {x,y} \right) $表示:

$ a\left(x,y\right)={\left\{ \begin{aligned}&0,无障碍物可通行,\\ &1,有障碍物可通行。\end{aligned}\right. }$ (1)

栅格化后的地图模型包含无人船、障碍物、起始点及目标点的位置信息。

步骤2 栅格粒度划分。栅格单元大小影响建模精度和算法效率。粒度过大,搜索快但精度低;粒度过小,精度高但计算复杂。选择栅格粒度需平衡无人船航行安全和路径规划精度。粒度应大于无人船领域半径,保证安全通行;同时小于安全会遇距离,确保路径规划精确。

栅格粒度确定后,对栅格单元实施编号与坐标映射。栅格单元编号$ i\left( {i = 1,2,3,...,m \times n} \right) $与坐标$ \left( {{x_i},{y_i}} \right) $的转换关系为:

$ \left\{ \begin{gathered} {x_i} = i + 0.5 - {\rm{ceil}}\left( {\frac{i}{m}} \right),\\ {y_i} = \text{mod} \left( {i,n} \right) - 0.5。\\ \end{gathered} \right. $ (2)

式中:$ \mathrm{ceil} $为向上取整函数;$ \text{mod} $为取模函数。栅格编号与坐标的映射关系如图1(a)所示。为便于路径搜索,需对每个栅格的8邻域栅格进行编号,编号规则如图1(b)所示。

图 1 栅格编号和邻域栅格编号示意图 Fig. 1 Schematic diagram of grid numbering and neighboring grid numbering

步骤3 障碍物膨化处理。由于实际水域中的障碍物形状不规则,可能占据部分栅格单元,为保证无人船航行安全并简化计算,对障碍物实施膨化处理。膨化规则为:

1)将被障碍物占据的栅格单元部分标记为障碍物单元($ {\rm{map}}\left[ i \right]\left[ j \right] = 1 $);

2)仅当栅格单元完全不涉及障碍物时,标记为可行单元($ {\rm{map}}\left[ i \right]\left[ j \right] = 0 $)。

步骤4 栅格矩阵化处理。为便于计算机存储与处理,将栅格地图转化为矩阵形式。栅格矩阵$ {\rm{map}}\left[ m \right]\left[ n \right] $的定义为:

$ {\rm{map}}\left[ m \right]\left[ n \right] = \left\{ {a\left( {i,j} \right),0 \leqslant i \leqslant m,0 \leqslant j \leqslant n} \right\}。$ (3)

式中:$ a\left( {i,j} \right) $为栅格单元的状态变量,其值由式(1)确定。

2 无人船动态路径规划

基于2.1节构建的栅格化动态水域环境模型,将动态窗口法(Dynamic Window Approach,DWA)[8]引入到基础的深度强化学习(Deep Q-Network,DQN)[9]中实现无人船局部路径规划。

2.1 基于DQN-DWA的无人船路径规划

基于DQN-DWA的无人船路径规划的步骤如下:

步骤1 DWA建模与优化

假设无人船为非全向移动模型,仅具备前进、左转、右转能力。在采样周期$ \Delta t $(毫秒级)内,位移增量可线性化投影至世界坐标系,计算式为:

$ \left\{ \begin{gathered} x = x + v\Delta t\cos \omega,\\ y = y + v\Delta t\sin \omega,\\ \omega = \omega \Delta t。\\ \end{gathered} \right. $ (4)

式中:$ v $为无人船的移动线速度,m/s;$ \omega $为其角速度,rad/s。

步骤2 速度空间约束

1)加速度约束

假设无人船电机的线速度为$ v $、角速度为$ \omega $,在$ \Delta t $时间内,考虑最大线加速度与角加速度,设定速度增量范围为:

$ \begin{aligned} &{V_d} = \{ \left( {v,\omega } \right)| v \in \left[ {{v_t} - {{\dot v}_ - }\Delta t,{v_t} + {{\dot v}_ + }\Delta t} \right],\\ &\omega \in \left[ {{\omega _t} - {{\dot \omega }_ - }\Delta t,{\omega _t} + {{\dot \omega }_ + }\Delta t} \right] \}\end{aligned} $ (5)

式中:$ {\dot v_ - }、{\dot v_ + } $$ {\dot \omega _ - }、{\dot \omega _ + } $分别为无人船可达到的最大加、减线速度和最大加、减角速度。

2)安全距离约束

为避免碰撞,速度需满足安全距离约束,计算式为:

$ {V_o} = \left\{ {\left( {v,\omega } \right)\left| {v \leqslant \sqrt {2{\rm{dist}}\left( {v,\omega } \right){{\dot v}_ - }} ,v \leqslant \sqrt {2{\rm{dist}}\left( {v,\omega } \right){{\dot \omega }_ - }} } \right.} \right\}。$ (6)

式中:$ \mathrm{dist}\left(v,\omega\right) $为当前速度下离障碍物的最短距离。

步骤3 轨迹生成与评价

为选择最优轨迹,设计加权评价函数为:

$ K\left( {v,\omega } \right) = \alpha H\left( {v,\omega } \right) + \beta D\left( {v,\omega } \right) + \gamma C\left( {v,\omega } \right) 。$ (7)

式中:$ \alpha 、\beta 、\gamma $为由DQN学习动态调整的权重系数;$ H\left( {v,\omega } \right)、D\left( {v,\omega } \right)、C\left( {v,\omega } \right) $分别为航向得分(与目标点方向夹角越小,得分越高)、距离得分(离目标点越近,得分越高)以及速度得分(速度越大,得分越高)。

步骤4 DQN与DWA的融合机制

将栅格地图中的障碍物信息与目标点距离作为状态输入,动作空间为速度空间$ V $中的离散采样点,每个动作对应一组$ \left( {v,\omega } \right) $。为优化避障与路径效率,设计分段奖励函数为:

$ \mathrm{Reward} = \left\{ \begin{aligned} & -1,CurDist \lt PreDist\cap\mathrm{dist}\left(v,\omega\right) \gt \tau, \\ & -10,CurDist \gt PreDist\cap\mathrm{dist}\left(v,\omega\right) \gt \tau, \\ & -1000,\mathrm{dist}\left(v,\omega\right) \lt \tau, \\ & 3000,到达目标点。\end{aligned}\right. $ (8)

式中:$ CurDist $为当前位置与目标点的距离,即动态窗口更新后的位置;$ PreDist $为更新前的位置与目标点的距离;$ \tau $为距离阈值,当无人船的速度和角速度导致与障碍物的碰撞风险很高时,即$ \mathrm{dist}\left(v,\omega\right) \lt \tau $,认为寻迹失败;若位置安全且未到达终点,即$ \mathrm{dist}\left(v,\omega\right) \gt \tau $,则奖励值设为负,防止陷入局部最优。

步骤5 动态贪婪策略

使用动态窗口法更新状态,并将动作、奖励和目标信息存储于缓存区。当缓存满时,每5次规划后学习一次,通过梯度下降调整权重。过程重复,直至到达终点或遇到障碍。在路径规划时,设置动态的贪婪系数$ \varepsilon $。每次选择动作时,若随机数$ \sigma \in \left[ {0,1} \right] \lt \varepsilon $,则随机选择动作;反之,基于当前迭代次数$ episode $,令$ \varepsilon = \varepsilon \cdot {\left( {0.99} \right)^{episode}} $,选择最优动作。贪婪系数$ \varepsilon $随迭代次数减少,初期避免局部最优,后期更倾向于最优解以快速到达终点。

2.2 路径平滑优化

2.1节生成的路径是一条由离散节点组成的路径,其中存在曲折性、冗余节点和动力学约束不足的问题,本文提出贪心剪枝[10]与三次B样条曲线平滑相结合的优化方法,通过减少冗余节点、平滑曲率突变,生成符合无人船动力学的连续路径。

首先,采用贪心剪枝策略剔除规划路径的冗余节点,减少路径曲折性,降低转向频率。

使用正向遍历,将起点$ q\mathrm{_{init}} $与终点$ q\mathrm{_{goal}} $相连,若路径可行(无碰撞)则直接得出结果;反之,跳过$ {q_1} $连接$ {q_2} $,若检测通过则剔除$ {q_1} $,否则连接$ {q_3} $展开检测;若$ {q_2} - {q_3} $路径检测失败,在$ {q_2} - {q_3} $间插入等分点$ {q_{i1}} $$ {q_{i2}} $,逐个检测连接点,取最后一个无碰撞点连接$ q_{\mathrm{init}} $。重复此过程,直至找到可直接连接终点的路径。流程如图2所示。

图 2 贪心剪枝策略 Fig. 2 Greedy pruning strategy

然后,实施三次B样条曲线平滑处理。由众多节点构成的折线路径是贪心剪枝的初始优化结果,并不符合运动学规则,需通过平滑处理进一步生成符合无人船动力学约束(最小转弯半径、惯性)的连续平滑轨迹。步骤如下:

步骤1 控制点生成

使用贪心剪枝优化后的$ n' + 1 $个节点序列Po(o=0, 1, 2 ...)作为B样条曲线的控制点。

步骤2 三次B样条曲线构造

基于控制点定义样条曲线的走向、界限范围,获取$ k $次B样条曲线的参数方程为:

$ P\left( u \right) = \sum\limits_{o = 0}^{n'} {{P_o}} {B_{o,k}}\left( u \right)。$ (9)

式中:$ {B_{o,l}}\left( u \right) $为控制点$ {P_o} $相对应的$ k $次B样条基函数,$ k \geqslant 1 $$ u $为自变量。

为保证曲线经过起点和终点,设两端节点重复度为$ k $,并调整节点向量以满足条件:

$ \left\{ \begin{gathered} {u_0} = {u_1} = ... = {u_k} ,\\ {u_{n'}} = {u_{n' + 1}} = ... = {u_{n' + k}} 。\\ \end{gathered} \right. $ (10)

式中:$ {u_o} = \left\{ {{u_0},{u_1},...,{u_k},{u_{k + 1}},...,{u_{n'}},{u_{n' + 1}},...,{u_{n' + k}}} \right\} $为连续变化的节点矢量为非递减序列,首末值设为0和1。

通过节点重复度与向量调整,三次B样条曲线实现了路径连续的条件,满足无人船航行动力学约束,缩短路径,并提升了航行效率与稳定性。

3 模拟分析

以Matlab 2018b为模拟凭条,设定实验环境:搭建模拟水域环境,水域范围设定为500 m×500 m的矩形区域,起始点坐标为[50 m, 50 m]。障碍物随机分布,数量为10~15个,形状为不规则多边形,尺寸在10 m×10 m~30 m×30 m。模拟无人船的初始线速度和角速度设为0.5 m/s和0.1 rad/s,上限分别为0.2 m/s2和0.05 rad/s2

模拟10组航行任务,设定所提2.1节路径规划方法(DQN-DWA)的采样周期为100 ms,线速度范围为0.2~1.5 m/s,角速度范围为−0.5~0.5 rad/s,初始贪婪系数为0.9,每次迭代减少0.01,直到0.1,基于该算法生成10组任务的原始规划路径,并展开2.2节的贪心剪枝与三次B样条曲线平滑处理,其中节点重复度设为4,以此生成优化后的路径,对比优化前后路径的累计转弯角度和最小转弯角度,评估优化效果。

对比图3可以发现,经所提方法优化后的路径在2个指标上均有明显改善。累计转弯角度大幅降低,最小转弯角度显著增大,更贴合无人船动力学约束。这表明所提路径优化方法能有效减少路径曲折,降低转向频率,提升航行效率与稳定性,有力验证了该方法在复杂水域动态路径规划中的实用性与优越性。

图 3 路径优化前后对比 Fig. 3 Comparison before and after path optimization

基于实验环境设定的起始点坐标(50 m, 50 m),设定一个目标终点为(350 m, 350 m),航行速度为10 m/s,生成理论航迹如图4(a)所示,通过障碍物模拟在无人船航行过程中遇到的障碍目标,在航行过程中,采用所提方法和2种对比方法分别展开路径规划,得到图4(b)~图4(d)所示的规划结果。

图 4 各方法路径规划结果 Fig. 4 Path planning results of various methods

图4显示,所提方法规划路径明显优于改进A*算法和DWA算法。改进A*算法规划路径转折多且曲折,贴近障碍物,增加了碰撞风险;DWA算法路径虽较平滑,但局部最优问题突出,常陷入局部陷阱,导致航行效率低。而所提方法规划路径平滑,转折少,有效避开障碍物,在动态水域中能高效稳定地引导无人船到达目标点。这得益于所提方法深度融合了深度强化学习的全局决策能力与动态窗口法的局部避障能力,这种融合策略使得无人船在复杂水域中既能高效规划出大致路径,又能实时调整以避开突发障碍物。同时,通过速度空间约束与评价函数优化轨迹选择,进一步提升了路径的平滑性和安全性。

为全面衡量上述3种方法的有效性,引入多种路径规划评估指标:最优路径长度、收敛迭代次数、路径拐点数、路径与障碍物最近点距离。模拟一个新的无人船航行任务,目标终点坐标为(50 m, 420 m),各方法规划路径后的各指标结果如表1所示。

表 1 各方法规划路径效果对比 Tab.1 Comparison of path planning effects of various methods

可知,所提方法在各项指标上表现最佳。其最优路径长度最短,收敛迭代次数少,说明规划效率高;路径拐点数少,路径更平滑;路径与障碍物最近点距离最大,安全性更高。改进A*算法路径长、拐点多且安全距离小;DWA算法存在局部最优,路径质量欠佳。因此,所提方法在复杂水域动态路径规划中,能高效规划出安全、平滑的路径,具有显著优势。这是因为所提方法不仅优化了路径长度和收敛迭代次数,还显著减少了路径拐点数,并增大了路径与障碍物的最近点距离。这得益于贪心剪枝与三次B样条曲线平滑技术的应用,有效简化了路径结构,平滑了曲率突变,使路径更符合无人船的动力学特性。

4 结 语

本文针对无人船在复杂水域环境中动态路径规划的难题,提出了基于深度学习的动态路径规划方法。通过栅格法构建结构化的无人船航行动态环境模型,结合深度强化学习与动态窗口法的优势,实现了全局决策与局部避障能力的有机融合,有效提升了路径规划的平滑性与安全性。此外,引入贪心剪枝与三次B样条曲线平滑技术,进一步简化了路径结构,平滑了曲率突变,生成了符合无人船动力学的连续平滑路径。

根据实验结果可知,该方法在复杂水域环境中具有显著优势,能够高效、稳定地引导无人船到达目标点。本研究不仅为无人船路径规划领域提供了新的思路和方法,也为提升无人船智能化水平及保障航行安全奠定了坚实基础,具有重要的学术价值和实际应用前景。

参考文献
[1]
李军涛, 侯星星, 茆俊亚, 等. 时变海流干扰下深远海渔业无人船多目标路径规划[J]. 上海海洋大学学报, 2023, 32(5): 1090-1098.
LI J T, HOU X X, MAO J Y, et al. Multi-objective path planning for unmanned vessels in deep-sea fisheries under time-varying current disturbance[J]. Journal of Shanghai Ocean University, 2023, 32(5): 1090-1098.
[2]
乔珍, 尹传忠, 仇鑫. 基于改进蚁群算法的长航程无人船路径规划[J]. 计算机工程与科学, 2024, 46(10): 1835-1842.
QIAO Z, YIN C Z, QIU X. Path planning of long-range unmanned ship based on improved ant colony algorithm[J]. Computer Engineering & Science, 2024, 46(10): 1835-1842.
[3]
林潭奇, 李存荣, 刘帅文. 基于改进A*算法的内陆湖无人船路径规划[J]. 大连海事大学学报, 2024, 50(3): 87-96.
LIN T Q, LI C R, LIU S W. Path planning of unmanned ships in inland lakes based on improved A* algorithm[J]. Journal of Dalian Maritime University, 2024, 50(3): 87-96.
[4]
XIAO Q, JIANG L, WANG M, et al. An improved distributed sampling ppo algorithm based on beta policy for continuous global path planning scheme[J]. Sensors, 2023, 23(13): 6101. DOI:10.3390/s23136101
[5]
WU H, WANG F, MEI X, et al. A novel fuzzy control path planning algorithm for intelligent ship based on scale factors[J]. The Journal of Supercomputing, 2024, 80(1): 202-225. DOI:10.1007/s11227-023-05438-2
[6]
姜龙腾, 迟瑞娟, 马悦琦, 等. 基于栅格法的农业机器人路径规划方法研究[J]. 农机化研究, 2024, 46(6): 19-24.
JIANG L T, CHI R J, MA Y Q, et al. Research on path planning method of agricultural robot based on grid method[J]. Journal of Agricultural Mechanization Research, 2024, 46(6): 19-24.
[7]
江坤颐, 孙世平, 蒋丙栋, 等. 基于导航雷达回波视频数据的占据栅格地图构建方法[J]. 中国舰船研究, 2025, 20(1): 96-106.
JIANG K Y, SUN S P, JIANG B D, et al. Method for constructing occupancy grid maps based on navigation radar echo video data[J]. Chinese Journal of Ship Research, 2025, 20(1): 96-106.
[8]
张伟龙, 单梁, 常路, 等. 基于改进DWA的多无人水面艇分布式避碰算法[J]. 控制与决策, 2023, 38(4): 951-962.
ZHANG W L, SHAN L, CHANG L, et al. Distributed collision avoidance algorithm for multiple unmanned surface vessels based on improved DWA[J]. Control and Decision, 2023, 38(4): 951-962.
[9]
张啸天, 陈熙源. 基于IRRT*和DWA的无人艇混合路径规划方法[J]. 传感技术学报, 2022, 35(11): 1469-1474.
ZHANG X T, CHEN X Y. Path planning method for unmanned surface vehicle based on IRRT*and DWA[J]. Chinese Journal of Sensors and Actuators, 2022, 35(11): 1469-1474.
[10]
杜传胜, 高焕兵, 侯宇翔, 等. 同根双向扩展的贪心RRT路径规划算法[J]. 计算机工程与应用, 2023, 59(21): 312-318.
DU C S, GAO H B, HOU Y X, et al. Greedy RRT path planning algorithm with same root bidirectional extension[J]. Computer Engineering and Applications, 2023, 59(21): 312-318.