舰船科学技术  2026, Vol. 48 Issue (3): 145-153    DOI: 10.3404/j.issn.1672-7649.2026.03.023   PDF    
干扰环境下DQN结合反步控制的无人船路径跟随
路春宇, 李震, 王楠, 王宇轩     
江苏科技大学 海洋学院,江苏 镇江 212003
摘要: 为了解决无人水面船(USV)在复杂海洋环境中路径跟随的控制问题,本文构建基于MAVLink的通信系统,实现领航船舶与受控船舶间的实时状态传输,确保受控船舶能够根据领航船舶的实时位置、速度等信息进行动态调整,并利用深度Q网络(Deep Q-Network,DQN)的学习方法使受控船舶能够自主学习最优的航行路径,从而提升跟随精度。在通信不稳定的条件下,采用反步控制(Backstepping Control,BC)进行状态预测并实时反馈补偿,从而确保受控船舶能够平稳跟随领航船舶,修正由于数据丢失造成的路径误差。结果表明,该方法在高干扰环境下,尤其在通信延迟和数据包丢失的情况下,仍能维持良好的路径跟随性能。与传统的控制方法相比,基于DQN和BC的混合控制策略显著提高了无人水面船舶的跟随精度和系统稳定性,具有较强的鲁棒性,能够在复杂和动态变化的海洋环境中有效运行。
关键词: 无人水面船     路径跟随     深度Q网络     反步控制     抗干扰     MAVLink协议    
Path-following of unmanned surface vessels based on DQN with backstepping control under interference
LU Chunyu, LI Zhen, WANG Nan, WANG Yuxuan     
Ocean College, Jiangu University of Science and Technology, Zhenjiang 212003, China
Abstract: In order to solve the problem of controlling the path following of unmanned surface vessels (USVs) in complex marine environments, the article constructs a communication system based on MAVLink to realize the real-time state transmission between the pilot vessel and the controlled vessel, and to ensure that the controlled vessel is able to dynamically adjust according to the real-time position, speed and other information of the pilot vessel.And the learning method of Deep Q-Network (DQN) is utilized to enable the controlled ship to learn the optimal sailing path independently, so as to improve the following accuracy.Under unstable communication conditions, Backstepping Control (BC) is used for state prediction and real-time feedback compensation, which ensures that the controlled vessel can follow the pilot vessel smoothly and corrects the path error caused by data loss.The results show that the method can still maintain good path following performance in high interference environments, especially under communication delay and packet loss.Compared with traditional control methods, the hybrid control strategy based on DQN and BC significantly improves the following accuracy and system stability of unmanned surface vessels with strong robustness, and is able to operate effectively in complex and dynamically changing marine environments.
Key words: USV     path following     deep Q-network     backstepping control     anti- interference     MAVLink protocol    
0 引 言

在海洋环境中,无人水面船(USV)的路径跟踪是一项具有挑战性的任务。随着海洋环境复杂化、作业需求多样化,单无人船的行动能力有限,多无人船则能覆盖更大的海域,执行更复杂的任务。为实现多无人船协同作业,可以采用领航跟随策略,使受控船舶紧随领航船舶执行复杂任务。

在现有研究中,Kapitanyuk等[1]利用导向向量场方法实现了非完整移动机器人的路径跟随控制。Fossen等[2]设计了一个基于USV相对速度的视线路径跟踪控制器,建立了一个运动学模型,以幅相形式生成相对速度,并利用水声测量将相对速度转换为绝对速度以实现控制。Khamseh等[3]建立了一个USV模型,基于线性二次型调节器对四轴飞行器和机械臂进行同步控制。Dong等[4]使用基于状态反馈的反步控制解决了曲线路径和直线路径的USV跟踪问题。

随着深度强化学习(Deep Reinforcement Learning, DRL)在谷歌DeepMind项目中的突破性进展[5],DRL技术凭借其在各种复杂动态环境强大的表征和控制能力,在机器人、工业自动化等领域得到广泛应用[69]。作为DRL的理论基础,强化学习(Reinforcement Learning, RL)。通过智能体与环境的交互式学习实现决策优化,深度Q网络(Deep Q-Network, DQN)作为DRL的经典算法,首次将深度神经网络与RL中的Q-Learning算法相结合[10],成功解决了传统Q-Learning在高维状态空间中难以收敛的问题。这种技术融合使得DRL能够以端到端式直接从原始传感器数据中学习控制策略,大幅降低了传统控制方法中依赖复杂数学建模的局限性[1112]

在具体应用层面,基于Q-Learning的强化学习模型已展现出潜力。例如,Li等[13]通过Q-Learning设计高速公路限速控制器,有效减少了交通瓶颈处的车辆通行时间。然而,经典Q-Learning仍存在训练效率低下、超参数敏感性高等固有缺陷,尤其在无人水面船(USV)路径跟踪等连续控制场景中,其稀疏奖励机制和状态离散化方法严重制约了性能提升。为此,DQN通过引入经验回放(Experience Replay)和目标网络冻结(Target Network Freezing)两大机制[1012],显著提升了Q值函数的逼近精度和训练稳定性,为构建高效DRL控制模型提供了新范式。目前,基于DQN的路径跟踪方法研究仍处于探索阶段,其相对于传统控制律的优越性亟待深入验证。

为实现领航船舶与受控船舶之间的通信,通常采用轻量级的MAVLink协议。然而,复杂的通信环境(如电磁干扰)可能导致数据丢包和延迟,影响控制效果。常见的优化策略包括状态预测和反馈补偿,确保受控船舶在数据丢失时仍能保持跟随。此外,通过调整奖励函数,受控船舶在高丢包和高延迟条件下优化跟随策略,提升性能。

本文提出一种结合通信和控制策略的混合控制方法,基于深度强化学习(DQN)与反步控制(BC)。在稳定通信条件下,DQN优化路径跟随控制性能;在通信不稳定时,反步控制提供实时补偿,并通过状态预测技术提高抗干扰能力。通过自适应调整DQN与BC的权重,确保系统在强干扰条件下稳定运行。

1 基于MAVLink的通信系统

MAVLink是一种轻量级的消息传输协议,广泛应用于无人机和无人船等自动化系统中,特别适合无人船的实时状态通信[14 - 15]。为实现领航船舶与受控船舶之间的信息传输,本文基于MAVLink设计了一套高效可靠的通信系统,领航船舶可以实时将自身的位置信息、姿态等状态数据传输给受控船舶,确保受控船舶能够跟随领航船舶的预定轨迹,完成路径跟随任务。MAVLink的通信系统流程如图1所示。

图 1 基于MAVLink的通信系统流程图 Fig. 1 Flow diagram of communication system based on MAVLink
1.1 领航船舶发送信息

在通信系统的设计中,作为发送模块,领航船舶定期发送包含位置信息(X, Y, Z)和姿态信息(横滚角、俯仰角、偏航角)的数据包。本文使用MAVLink协议,生成包含关键控制信息的Payload数据部分,确保数据的精度与有效性,以适应复杂的海洋环境。

1.2 WIFI协议仿真与发送

MAVLink是一个独立于物理层的上层通信协议。为了更加真实地反映电磁干扰对通信的影响,将MAVLink和物理层协议结合起来,模拟整个通信过程。

在完成MAVLink数据包的Payload编写后,发送模块通过WIFI协议进行数据的发送和接收。WIFI协议的仿真部分模拟了无线通信链路的实际传输特性,包括信道衰减、噪声干扰等。仿真过程还考虑了多种海面电磁信道的影响,使用了两径模型来模拟信号的反射和折射现象。这种仿真使得系统能够更好地评估通信过程中的丢包率和延迟情况。

1.3 电磁干扰的引入与控制

为了更真实地反映无人船通信系统在复杂环境下的表现,系统引入了可调节的电磁干扰模型。通过改变干扰的强度和噪声水平参数,可以测试系统在不同电磁环境中的通信能力。干扰的引入不仅影响数据的传输,还通过对WIFI协议进行干扰模拟,使得MAVLink数据包的接收和解码过程更加具有挑战性。丢包率的设置模拟了领航船舶在恶劣环境下无法准确传输数据的情况,而延迟模型则模拟了数据在传输过程中的延迟,可测试在不同延迟情况下控制系统的有效性。

1.4 受控船舶接收信息

受控船舶通过MAVLink解包流程提取领航船位置信息和姿态数据。异常数据被记录后反馈至运动控制算法,用于对抗干扰对运动控制的影响。

2 DQN算法理论

深度Q网络(Deep Q-Network, DQN)是深度强化学习中一种典型的值函数近似方法,其核心思想是将传统的Q-Learning算法与深度神经网络结合,用以处理连续状态空间下的动作价值函数逼近问题。

2.1 Q-learning基本原理

在标准Q-learning中,Q函数Q(s,a)表示在状态s下采取动作a所能获得的最大期望回报,其更新公式为:

$ Q\left({s}_{t},{a}_{t}\right)\leftarrow Q\left({s}_{t},{a}_{t}\right)+\alpha \left[{r}_{t}+\gamma \underset{{a}^{\prime}}{\max }Q\left({s}_{t+1},{a}^{\prime}\right)-Q\left({s}_{t},{a}_{t}\right)\right]。$ (1)

式中:$ \alpha $为学习率;$ \gamma $为折扣因子;$ {r}_{t} $为当前奖励;$ \underset{{a}^{\prime}}{\max }Q\left({s}_{t+1},{a}^{\prime}\right) $为下一状态的最大动作价值。

2.2 DQN结构与训练

在面对高维或连续状态空间时,传统Q-learning不再适用,DQN采用深度神经网络$ Q\left(s,a;\theta \right) $近似Q值函数,通过参数$ \theta $学习状态-动作映射。DQN包含当前Q网络(eval_net)和目标Q网络(target_net),两者初始参数一致,每隔固定步数同步一次。训练时,通过经验回放缓存收集样本$ \left(s,a,r,{s}^{\prime}\right) $,从中采样小批量数据构建损失函数:

$ L\left(\theta \right)=\frac{1}{N}\sum \limits_{i=1}^{N}\left[{r}_{i}+\gamma \underset{a'}{\max }{Q}_{\text{t}\arg \text{et}}\left(\text{s}_{\textit{i}}^{\prime},{a}^{\prime};{\theta }^-\right)-Q\left({s}_{i},{a}_{\mathrm{i}};\theta \right)\right]^{2}。$ (2)

式中:$ \theta $为当前网络参数;$ {\theta }^{-} $为目标网络参数。

动作选择采用$ \varepsilon - $贪婪策略,$ \varepsilon $随训练逐渐减小,实现探索与利用的平衡。

$ {a}_{t}=\left\{\begin{array}{ll}{\mathrm{random}}\left(A\right),概率\varepsilon,\\ \arg {\max }_{a}Q\left({s}_{t},a;\theta \right),概率1-\varepsilon。\end{array}\right. $ (3)
2.3 在路径跟随中的作用

在路径跟随任务中,DQN的输入为受控船舶与领航船舶之间的状态误差$ {{e}}_{t} $,网络输出控制动作索引$ {a}_{t} $,映射为控制指令$ \tau \_ dqn=\left[F,{\tau }_{\text{z}}\right] $。本文以最小化误差为目标,设计奖励函数。DQN网络通过不断优化奖励值,调整控制策略,使智能体逐渐学会如何追踪路径并尽量减少误差。

2.3.1 奖励函数的设计

通过计算受控船舶状态与领航船舶状态的差异来评估控制策略的效果,设计即时奖励和总奖励,评估回合内的整体控制效果。

$ rewar{d}_{state}=-\sum \limits_{k=0}^{2}{\left(nex{t}_{state}\left[k\right]\right)}^{2}。$ (4)

计算受控船舶状态与领航船舶状态差异的平方和,取负值。状态差异越小,奖励越高。即时奖励根据当前状态和目标状态差异计算,是每个时间步的核心反馈信号,直接用于Q学习更新。回合总奖励是所有时间步奖励的累加值,是单回合性能的全局指标,用于初步策略评估。

滑动平均奖励:通过计算一定数量的最近回合的总奖励的平均值,得到滑动平均奖励。它反映了模型在最近一段时间内的平均表现。

$ 滑动平均奖励=\frac{1}{N}\sum \limits_{{i}=1}^{N}总奖{励}_{{i}} 。$ (5)

式中:N为滑动窗口的大小,是第i个回合的总奖励。

滑动平均奖励通过计算最近N回合的总奖励平均值,平滑短期波动,帮助评估模型的收敛情况。

DQN通过持续学习-动作-回报之间的关系,生成近似最优的动作控制策略,用于无人船在干扰环境下的路径跟随控制。

3 船舶动力学模型建模 3.1 领航船舶动力学模型

领航船舶的动力学方程由惯性、科氏力、离心力以及阻尼力共同作用,方程形式如下:

$ {\boldsymbol{M}}\cdot \dot{v}+{\boldsymbol{C}}\left(v\right)\cdot v+{\boldsymbol{D}}\left(v\right)\cdot v=F。$ (6)

式中:$ {\boldsymbol{M}} $为惯性矩阵(包括附加质量效应);$ v $为广义速度矢量,包含线速度和角速度的所有分量;$ {\boldsymbol{C}}\left(v\right) $为科氏和离心力矩阵;$ {\boldsymbol{D}}\left(v\right) $为阻尼矩阵。

惯性矩阵$ {\boldsymbol{M}} $表达式为:

$ {\boldsymbol{M}}=\left[\begin{matrix}m-{X}_{\dot{u}} & 0 & 0\\ 0 & m-{X}_{\dot{u}} & m{X}_{g}-{Y}_{\dot{r}}\\ 0 & m{X}_{g}-{Y}_{\dot{r}} & {I}_{z}-{N}_{\dot{r}}\\ \end{matrix}\right]。$ (7)

式中:m为船舶质量;$ {X}_{\dot{u}} $$ {Y}_{\dot{r}} $$ {N}_{\dot{r}} $均为水动力附加质量系数;$ {X}_{g} $为船舶重心在船体坐标系中的位置;$ {I}_{z} $为船舶绕z轴的转动惯量。

科氏和离心力矩阵$ {\boldsymbol{C}}\left(v\right) $的表达式为:

${C(v) = \begin{bmatrix} 0 & 0 & -(mY_i)v - (mX_g - Y_i)r \\ 0 & 0 & (m - X_i)u \\ (m - Y_i)v + (mX_g - Y_i)r & -(m - X_i)u & 0 \end{bmatrix}}。$ (8)

式中:$ u $$ v $$ r $分别为船舶的纵向速度、横向速度和偏航角速度。

阻尼矩阵$ {\boldsymbol{D}}\left(v\right) $包括线性和非线性阻尼项,表达式为:

${D(v) = \begin{bmatrix} -X_{\lambda} - X_{uu}|u| - X_{uuu}u^2 & & 0 & & 0 \\ 0 & & -Y_v - Y_{vv}|v| - Y_{vrr}|r| & & -Y_r - Y_{vr}|v| - Y_{rrr}|r| \\ 0 & & -N_v - N_{vv}|v| - N_{vrr}|r| & & -N_r - N_{vr}|v| - N_{rrr}|r| \end{bmatrix}}。$ (9)

线性项(如$ {X}_{u} $)表示线性阻尼系数,描述速度与阻力之间的线性关系,非线性项(如$ {X}_{uu} $)表示非线性阻尼系数,描述速度平方或立方对阻力的影响。$ \left| u\right| $$ \left| v\right| $$ \left| r\right| $均为速度的绝对值,体现非线性阻力依赖于运动方向。

旋转矩阵$ R\left(\psi \right) $用来将船体坐标系下的速度转换到全局坐标系下,其表达式为:

$ R\left(\psi \right)=\left[\begin{matrix}\cos \left(\psi \right) & -\sin \left(\psi \right) & 0\\ \sin \left(\psi \right) & \cos \left(\psi \right) & 0\\ 0 & 0 & 1\\ \end{matrix}\right]。$ (10)

状态更新方程可以分为位置更新和速度更新。

位置更新(全局坐标系):

$ \dot{{\boldsymbol{p}}}=R\left(\psi \right)\cdot {\boldsymbol{V}}。$ (11)

式中:$ {\boldsymbol{p}}={\left[x,{y},\psi \right]}^{{\mathrm{T}}} $$ {\boldsymbol{V}}={\left[u,v,r\right]}^{\text T} $

速度更新(船体坐标系):

$ \dot{v}={M}^{-1}\left(\tau -C\left(v\right)\cdot v-D\left(v\right)\cdot v\right)。$ (12)

这个动力学模型描述了无人船在三自由度下的运动行为,包含惯性效应、科氏和离心力效应、阻尼效应对运动状态的影响,如图2所示。

图 2 船舶动力学模型 Fig. 2 Ship dynamics model
3.2 受控船舶动力学模型

受控船舶的动力学模型主要部分涉及姿态旋转和位移的更新。位置更新是通过对速度进行积分得到的,采用欧拉法进行数值积分:

$ {{{p}}}_{{\mathrm{new}}}={p}_{{\mathrm{old}}}+\Delta t\cdot {{R}}\left(\psi \right)\cdot v。$ (13)

式中:$ {\boldsymbol{p}}={\left[x,y,\psi \right]}^{\text T} $为位置向量;$ {\boldsymbol{V}}={\left[u,v,r\right]}^{\text T} $为速度向量;$ \Delta t $为时间步长。姿态旋转矩阵$ {{R}}\left(\psi \right) $ 被用来将速度$ \left[u,v,r\right] $映射到全局坐标系下,进而更新无人船的位置$ \left[x,y,\psi \right] $

速度更新公式:

$ {v}_{{\mathrm{new}}}={R}^{-1}\left(\psi \right)\cdot \dot{p}。$ (14)

速度是通过将全局坐标系中的位移变化$ \dot{x} $$ \dot{y} $$ \dot{\psi } $重新映射回船体坐标系下得到的。

受控船舶是一种需要控制力的轨迹控制模型,利用姿态旋转矩阵将速度转换到全局坐标系,更新位置。利用新的位置变化,重新计算船体坐标系下的速度。

4 无人船路径跟随任务

为实现通信干扰环境下的路径跟随控制,本文以领航船舶的预设路径为参考轨迹,受控船舶通过通信系统获取实时状态信息并计算状态差。在通信延迟与丢包的干扰下,引入干扰预测与补偿机制修正缺失或滞后的状态信息。通过融合DQN的优化能力与反步控制的反馈稳定性,构建混合控制策略,以最小化状态误差,动态调整受控船舶的位置、速度和航向,确保稳健地跟踪参考轨迹。

4.1 领航跟随法

图3图4所示,领航跟随法是一种常见的路径跟随策略,受控船舶通过不断调整其状态(位置、速度和航向角)来追随领航船舶的轨迹。领航船舶作为引导者,其预设路径为受控船舶提供了参考,而受控船舶则通过通信系统获取领航船舶的实时状态信息,并依此进行调整。

图 3 无人船路径跟随任务实现流程 Fig. 3 Unmannedvessel path-following task realization flow

图 4 领航跟随法示意图 Fig. 4 Schematic diagram of the pilot-following method
4.1.1 预设轨迹生成

领航船舶作为引导者,其预设路径为受控船舶提供参考,其运动满足以下旋转动态方程:

$ {\dot{x}}_{r}=0.1{y}_{r}\text{,}{\dot{y} }_{r}=-0.1{{x}}_{r}\text{,}{\dot{\psi }}_{r}=-0.1。$ (15)
4.1.2 状态误差定义

受控船舶通过通信系统获取行船舶的实时状态信息,并计算当前状态误差:

$ {e}_{t}={s}_{t}-{s}_{r,t}。$ (16)
4.1.3 干扰预测补偿

在通信收到干扰,信道不稳定,$ {s}_{r,t} $的获取出现延迟与丢包现象时,使控制策略使用错误或空缺的状态进行输入,动作输出误控。为解决这个问题,在误差建模中引入扰动补偿机制,即加入一个时间相关干扰项$ \xi \left({ t}\right) $,构造增强型误差表达:

$ e_{\text{t}}^{\prime}={s}_{t}-{s}_{r,t}-\xi \left(t\right)。$ (17)

扰动项$ \xi \left(\text{t}\right) $的设计采用周期函数近似状态变化趋势,其形式为:

$ \xi \left({t}\right)=\left[\begin{matrix}{x}\cdot \sin (0.1{t})\\ {y}\cdot \cos (0.1{t})\\ 0\\ ...\\ \end{matrix}\right]。$ (18)

在引入扰动项后的误差建模能有效缓解因通信异常造成的偏航波动与位置漂移,提高控制策略在干扰条件下的鲁棒性。

4.2 混合控制策略 4.2.1 DQN 控制策略

1)基于DQN的学习流程

DQN采用经验回放机制,$ \varepsilon - $贪婪动作选择策略与双网络结构,即当前Q网络(eval_net)和目标Q网络(target_net),主要学习过程如下:

步骤1 状态输入。当前状态误差$ {{e}}_{{t}} $输入Q网络。

步骤2 选择动作$ {a}_{t} $。以$ \varepsilon $的概率随机选择提个动作(探索,尝试新的动作);以1-$ \varepsilon $的概率选择当前Q值最大的动作。

步骤3 环境交互。执行动作$ {a}_{t} $,获得环境反馈的即时奖励$ {{r}}_{t} $,并进入下一状态$ {{s}}^{\prime} $

步骤4 经验存储。存储$ \left(s,a,r,{s}^{\prime}\right) $四元组到经验回放池。

步骤5 策略更新。从经验池中随机采样一个小批量样本,以目标网络估计下一个状态的最大奖励值,计算Q学习目标:

$ {y}={r}_{t}+\gamma \underset{{a}^{\prime}}{\max }{Q}_{{\mathrm{target}}}\left({s}_{t+1},{a}^{\prime}\right)。$ (19)

步骤6 用Huber损失最小化TD误差,更新Q网络参数。

步骤7 目标网络更新。以固定步长或周期对目标Q网络参数进行软更新,保持策略估计的平稳性,避免过拟合或震荡。

2)DQN的输入与输出

DQN以上述受控船舶与领航船舶间的状态误差$ {{e}}_{t} $为输入,并通过学习状态误差与累计奖励之间的关系,选择最优动作索引作为动作输出,目的是最小化与领航船舶之间的轨迹差异。所选动作经由该映射转为具体控制输入,参与控制融合为DQN学习策略输出的动作对应的控制输入$ \tau \_ \text{dqn} $,DQN输出的动作索引为$ a\in \left\{0,1,...,8\right\} $,每个动作与一组具体的推力与力矩组合相对应:

$ \tau \_ dqn=action\_ list\left[a\right]=\left[F,{\tau }_{z}\right]。$ (20)

例如,动作0对应无控制输出[0,0],动作1对应向前推力[2.0,0],动作3表示施加偏航力矩[0,1.0],其余动作组合推力与力矩调整。

4.2.2 引入反步控制的混合策略

为提高控制策略在训练初期不稳定、路径扰动剧烈情况下的响应能力,本文在 DQN 控制策略中引入反步控制器(Backstepping Controller, BC)作为短期动态补偿器。BC 能够根据状态误差进行层级递归控制设计,有效提升系统的鲁棒性和响应速度。

反步控制(BC)是一种递归设计控制器的方法,通过分解控制目标逐步逼近最终目标。引入BC后,DQN输出与BC控制结果相结合,BC平滑DQN动作选择,提升系统稳定性并缩短探索时间,尤其在训练早期效果显著。BC提供较强的动态稳定性,快速响应跟踪误差,修正路径偏差;DQN则捕捉路径的长期变化趋势。

1)反步控制算法(BC)设计

BC能够根据系统状态误差进行层级递归控制设计,有效提升系统的鲁棒性和响应速度。

领航船舶的预设轨迹为已知,状态为$ {s}_{r,t} $,构造一级误差项$ {z}_{1}=e_{{t}}^{\prime}={s}_{t}-{s}_{r,t}-\xi \left(t\right) $,其中$ \xi \left(t\right) $为干扰补偿项,用于对可能的数据延迟和通信丢包进行前馈预测补偿。

定义二级误差为速度跟踪误差:

$ {z}_{2}=v-{v}_{d}。$ (21)

式中:$ {{v}}_{d} $为通过一级误差稳定定律设计得到的虚拟速度项,可表示为:

$ {{v}}_{d}=-{K}_{1}{{z}}_{1}。$ (22)

结合动力学模型,设计反步控制律如下:

$ \tau \_ bc=M{\dot{v}}_{d}+C\left(\textit{v}\right){v}+Dv-{K}_{2}{z}_{2}。$ (23)

通过设定合适的正定矩阵$ {K}_{1} $$ {K}_{2} $,可保证状态误差逐步减小,从而使受控船舶路状态逐渐逼近领航船舶状态。

2)DQN与BC算法混合策略

最终控制输入,加权得出,计算式为:

$ \tau =a\cdot \tau \_ dqn+\left(1-a\right)\cdot \tau \_ bc。$ (24)

控制输入$ \tau $即为作用在受控船舶上的推力和力矩,其形式为:

$ \tau =\left[\begin{matrix}{\tau }_{{u}}\\ {\tau }_{{v}}\\ {\tau }_{r}\\ \end{matrix}\right]。$ (25)

DQN通过学习最小化状态误差进行输出控制动作索引,反步控制则对该误差进行动态补偿,两者结合形成“快速响应-缓慢学习”平衡,混合控制策略将基于船舶间的轨迹偏差与速度误差生成控制输入$ \tau $,调整船舶的推力与航向角,确保受控船舶跟随领航船舶的路径。其流程如图5所示。

图 5 混合控制策略流程图 Fig. 5 Flow chart of hybrid control strategy
5 模型训练与分析 5.1 无人船模型参数设置

在实验设置中,参考轨迹由参考船舶产生,其状态演化遵循圆形轨迹模型,使其以恒定速度和方向运动。受控船舶的控制目标是使自身状态逼近领航状态,从而实现路径跟随控制任务。仿真环境基于USV动力学模型,设置如表1所示。

表 1 无人船模型参数设置 Tab.1 Unmanned vessel model parameters settings
5.2 渲染窗口设置

图6所示,学习过程采用渲染窗口可视化,直观观察领航船舶与受控船舶的状态差异与控制策略执行与强化学习情况。

图 6 渲染窗口 Fig. 6 Rendering window

初期回合,在探索阶段受控船舶与领航船舶状态差异大,路径跟随偏移。随着训练回合增多,受控船舶状态之间逼近领航船舶状态,实现路径跟随。

5.3 训练结果 5.3.1 策略训练对比

图7(a)为通信系统没有额外干扰影响,图7(b)加入了10~20 s的随机延迟与20%左右的丢包率等不确定的电磁干扰因素模拟和复杂环境。可以观察到,在无干扰环境下,混合策略(蓝色曲线)相比DQN控制策略(红色曲线)表现出了更高的平均奖励值,且波动较小,控制过程更为稳定;而DQN控制策略的奖励值波动较大,并且需要更长时间才能达到与混合策略相似的奖励水平。混合策略使受控船舶在训练的早期就能实现较高精度的跟随,显著减少了训练时间。在有干扰环境下,混合策略的优势更加明显,奖励函数逐渐趋近于0,说明受控船舶的状态逐步接近领航船舶,路径跟随误差较小,反映出系统整体路径跟随精度的提升。这间接验证了混合策略具备更强的鲁棒性与适应性。

图 7 不同策略下奖励值曲线对比图 Fig. 7 Comparison of reward values under different strategies

表2表3可知,在电磁干扰环境下,混合策略表现出更强的抗干扰能力,能够在干扰环境中保持奖励值的平稳和较高的平均水平,而DQN控制策略的奖励值显著波动。混合策略在有干扰的情况下,仍然能保持较优的跟随精度,有效应对电磁干扰带来的不确定性。

表 2 无干扰情况下奖励值 Tab.2 Reward values without interference

表 3 有干扰情况奖励值 Tab.3 Reward values with interference
5.3.2 混合控制的输入权重

实验表明,当权重alpha=0.5时,训练效果最佳。训练初期,DQN需要大量探索,此时引入50%的BC控制性能有效减少波动,平滑奖励曲线,加快收敛速度。相比与alpha=0.7的DQN主导控制,alpha=0.5的权重平衡在初期显著降低DQN输出的不确定性,如图8所示。

图 8 不同权重下奖励值曲线与损失值曲线对比 Fig. 8 Comparison between the reward value line and the loss value line under different weights

后期训练中,DQN已经学习到有效策略,通过与BC融合,动作输出更稳定,偏离目标状态的风险降低,同时减小奖励和损失波动,增强模型的收敛性和稳定性。低权重(alpha<0.5)会削弱DQN的学习能力,导致面对复杂环境时缺乏灵活性;而高权重(alpha=0.7)则会导致DQN过于主导,控制波动加剧,在干扰环境下表现不稳健。不同干扰程度的最优奖励如表4表5所示。

表 4 低干扰程度 Tab.4 Low level of interference

表 5 高干扰程度 Tab.5 High level of interference

在不同干扰程度下的控制策略表现如图9所示,可以看到,即使在高干扰条件下,奖励曲线在初期表现出明显的振荡波动,但随着训练过程的进行,最终逐渐趋于平稳,接近低干扰条件下的奖励水平,并取得了较高的平均奖励值。这表明控制策略在干扰环境中具有较强的鲁棒性,即使在数据丢包率较高和延迟较大的情况下,系统仍然能够有效调节控制参数,保持路径跟随的稳定性,保障了船舶即使在存在严重丢包和延迟的情况下,也能紧贴预定轨迹运行。这一控制分配策略显著提升了整体路径跟随精度,是奖励值持续优化的重要机制支撑。

图 9 不同干扰程度下奖励值曲线对比 Fig. 9 Comparison of reward value curves under different interference levels
6 结 语

本文提出了一种通信与混合控制策略结合的无人船(USV)路径跟随方法,针对复杂海洋环境中的电磁干扰等问题,采用了基于深度强化学习(DQN)与反步控制(BC)的控制策略。该策略在通信条件良好时,通过深度Q网络实现路径跟随的优化控制,而在存在数据报丢失和通信延迟的高干扰条件下,通过反步控制进行实时反馈补偿,以保证系统的稳定性。此外,本文构建了基于MAVLink的通信系统,以实现领航船舶与受控船舶的状态信息同步传输。实验结果表明,所提出的控制策略在高干扰情况下表现出较强的鲁棒性,并通过状态预测和权重调整,使得USV在通信不可靠的情况下依然保持较高的路径跟随精度。

未来工作将进一步优化控制策略,包括提升深度强化学习模型的训练效率,优化奖励函数设计以更好的应对复杂干扰情况。同时,通信系统将引入更多的抗干扰优化措施,进一步增强USV在极端海洋环境下的鲁棒性和适应性,为多无人船编队控制和协同任务执行奠定基础。

参考文献
[1]
KAPITANYUK Y A, PROSKURNIKOV A V, CAO M. A guiding vector-field algorithm for path-following control of nonholonomic mobile robots[J]. IEEE Transactions on Control Systems Technology, 2017, 26(4): 1372-1385.
[2]
FOSSEN T I, LEKKAS A M. Direct and indirect adaptive integral line‐of‐sight path‐following controllers for marine craft exposed to ocean currents[J]. International Journal of Adaptive Control and Signal Processing, 2017, 31(4): 445-463. DOI:10.1002/acs.2550
[3]
KHAMSEH H B, JANABI-SHARIFI F. Ukf–based lqr control of a manipulating unmanned aerial vehicle[J]. Unmanned Systems, 2017, 5(3): 131-139. DOI:10.1142/S2301385017400015
[4]
DONG Z, WAN L, LI Y, et al. Trajectory tracking control of underactuated USV based on modified backstepping approach[J]. International Journal of Naval Architecture and Ocean Engineering, 2015, 7(5): 817-832. DOI:10.1515/ijnaoe-2015-0058
[5]
XU H, WANG N, ZHAO H, et al. Deep reinforcement learning-based path planning of underactuated surface vessels[J]. Cyber-Physical Systems, 2019, 5(1): 1-17. DOI:10.1080/23335777.2018.1540018
[6]
DAI J G, GLUZMAN M. Queueing network controls via deep reinforcement learning[J]. Stochastic Systems, 2022, 12(1): 30-67.
[7]
MANNUCCI T, VAN KAMPEN E J, DE VISSER C, et al. Safe exploration algorithms for reinforcement learning [controllers[J]. IEEE transactions on neural networks and learning systems, 2017, 29(4): 1069-1081.
[8]
MENDA K, CHEN Y C, GRANA J, et al. Deep reinforcement learning for event-driven multi-agent decision processes[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 20(4): 1259-1268.
[9]
MIAO J, SUN X, PENG C, et al. DOPH∞-based path-following control for underactuated marine vehicles with multiple disturbances and constraints[J]. Ocean Engineering, 2022, 266: 113160. DOI:10.1016/j.oceaneng.2022.113160
[10]
RUBÍ B, MORCEGO B, PÉREZ R. Deep reinforcement learning for quadrotor path following and obstacle avoidance[J]. Deep Learning for Unmanned Systems, 2021: 563−633.
[11]
FATHINEZHAD F, DERHAMI V, REZAEIAN M. Supervised fuzzy reinforcement learning for robot navigation[J]. Applied Soft Computing, 2016, 40: 33-41. DOI:10.1016/j.asoc.2015.11.030
[12]
LI Z, LIU P, XU C, et al. Reinforcement learning-based variable speed limit control strategy to reduce traffic congestion at freeway recurrent bottlenecks[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(11): 3204-3217. DOI:10.1109/TITS.2017.2687620
[13]
郭乃琨, 李修深, 杨继坤. 复杂电磁环境下船舶自动通信系统优化设计研究[J]. 舰船电子工程, 2023, 43(12): 80-85.
GUO N K, LI X S, YANG J K. Research on optimization design of ship automatic communication system under complex electromagnetic environment[J]. Ship Electronic Engineering, 2023, 43(12): 80-85. DOI:10.3969/j.issn.1672-9730.2023.12.016
[14]
张志柏. 应用于复杂电磁环境下的船舶自动通信系统研究[J]. 舰船科学技术, 2016, 38(6): 139-141.
ZHANG Z B. Research on the automatic communication system of ships in the complex electromagnetic environment[J]. Ship Science and Technology, 2016, 38(6): 139-141.
[15]
LI J, CHEN Y, ZHAO X N, et al. An improved DQN path planning algorithm[J]. The Journal of Supercomputing, 2022, 78(1): 616-639. DOI:10.1007/s11227-021-03878-2