舰船科学技术  2024, Vol. 46 Issue (10): 174-177    DOI: 10.3404/j.issn.1672-7649.2024.10.031   PDF    
深度学习技术在航迹控制系统中的应用
于雷     
吉林开放大学,吉林 长春 130022
摘要: 研究深度学习技术在航迹控制系统中的应用,实现航迹智能、精确控制,以适应复杂多变环境和任务需求。利用LOS算法确定船舶航行期望航向角、航迹误差,在融合船舶模型采集的船舶状态信息后,得到航迹跟踪控制的状态变量,将其输入到基于MDP模型的航迹控制器中,将最高长期累积回报作为目标,利用卷积神经网络对控制器训练,学习给定状态到执行动作之间的映射关系,以获得使船舶按照预定航迹行驶的最优舵角动作值,实现航迹精准跟踪控制。实验结果表明,该系统所用控制器经过150回合训练,即可实现航迹数据规律的精准捕捉,具有突出学习能力;干扰工况下,该系统也可使船舶沿期望航迹航行,航迹控制效果显著。
关键词: 深度学习     航迹控制     LOS算法     MDP模型     长期累积回报     卷积神经网络    
The application of deep learning technology in trajectory control systems
YU Lei     
The Open University of Jilin, Changchun 130022, China
Abstract: Research the application of deep learning technology in trajectory control systems to achieve intelligent and precise trajectory control, in order to adapt to complex and ever-changing environments and task requirements. Using the LOS algorithm to determine the expected heading angle and trajectory error of ship navigation, after fusing the ship state information collected by the ship model, the state variables of trajectory tracking control are obtained, which are input into the trajectory controller based on the MDP model. The highest long-term cumulative return is set as the target, and the controller is trained using convolutional neural networks to learn the mapping relationship between the given state and the executed action, in order to obtain the optimal rudder angle action value that enables the ship to travel along the predetermined trajectory and achieve precise trajectory tracking control. The experimental results show that the controller used in the system can achieve precise capture of trajectory data patterns after 150 rounds of training, and has outstanding learning ability; Under interference conditions, the system can also enable the ship to navigate along the desired trajectory, and the trajectory control effect is significant.
Key words: deep learning     track control     LOS algorithm     MDP model     long term cumulative returns     convolutional neural network    
0 引 言

当下船体大型化、高速化和技术复杂化,使得航迹控制问题中人为控制日益困难[1]。为提高航行效率、减少人为操作失误带来的损失,实现船舶自动航行控制成为现代航海技术发展的重要方向[2]

李诗杰等[3]研究自抗扰控制和无模型自适应控制技术,有效估计并补偿内外部扰动,实时辨识船舶航迹动态特性并自适应调整控制参数。此方法能智能适应船舶运行状态和外部环境变化,提升航行适应性。然而,无模型自适应控制的初始参数选择,对航迹控制效果有影响,如何优化参数整定效果,实现最佳航迹控制效果仍待解决。王潋等[4]设计的视线导引策略,可在无人艇航迹跟踪中,实时计算视线角和距离,实现精确跟踪。然而,面对复杂航迹(如曲线、折线),该策略可能因频繁切换视线角和目标点,而导致航迹跟踪效果不佳,航迹控制性能下降。因此,在复杂航迹条件下,视线导引策略的自适应能力优化和改进,是提升复杂航迹跟踪效果的关键。马天珩等[5]设计非线性模型预测控制(NMPC)方法,通过考虑无人船的非线性特性,获得描述其动态行为的准确模型。在每个控制周期,该方法利用模型预测无人船未来状态和控制信号,考虑当前状态、控制输入及外部扰动。基于这些预测信息,NMPC方法设计一个航迹控制优化问题并求解,以找到最优的航迹控制信号序列。但此方法需要建立系统的数学模型,对于复杂舰船系统而言,强大的海洋扰动,如海风、海浪和海流,会对舰船航迹产生显著影响,此时模型的建立会耗费过多时间,不利于航迹的实时控制。

深度学习算法擅长处理非线性、大规模和复杂数据,具备强大的自适应学习能力,能实时根据数据和环境变化调整控制参数,因此,在面临未知或多变的航行条件时,深度学习算法能更好地适应并优化航迹控制策略。本文研究深度学习技术在航迹控制系统中的应用,以优化航迹规划,增强系统对复杂环境的适应性。

1 船舶航迹控制 1.1 基于LOS的船舶航迹制导

航迹控制系统是一个复杂且关键的系统,它由船舶航向制导、航迹跟踪控制2个核心部分组成,前者是航迹控制系统的“大脑”,负责根据预定航迹和船舶当前状态确定期望航向角;后者是航迹控制系统的“执行者”,根据船舶航迹制导部分提供的指令,通过航迹控制器实现对船舶航行轨迹的精确控制。两者通过协同工作可确保船舶能够精确地按照预定航迹航行。图1为视线(LOS)制导原理图,该算法根据当下船舶位置与目标点之间的视线角(即LOS角)调整航向角,以实现精确的航迹跟踪。

图 1 视线(LOS)制导原理图 Fig. 1 Schematic diagram of line of sight (LOS) guidance
1.2 基于MDP的船舶航迹跟踪控制建模

本文对船舶航迹跟踪控制问题进行马尔可夫决策过程(Markov Decision Processes,MDP)建模,构建RL控制器,如图2所示。图中,船舶智能体在与航行环境交互过程中,不断从动作空间中选择一个动作执行,并根据所获奖励进行策略的调整,以期实现最高长期累积回报目标。在这个过程中,完全依靠船舶智能体与航行环境的交互实现航迹的智能学习,每当船舶采取一个动作并与航行环境交互后,会对其自身状态进行更新,同时得到一个与当前状态与动作相关的奖励,该奖励值是指导船舶智能体学习的重要反馈,船舶智能体通过不断尝试和学习,逐渐优化其选择动作的策略,这个策略是一个函数,它根据当前的状态来决定应该采取什么动作,通过优化这个函数,可使长期累积回报达到最高值。$ \gamma $定义为折扣因子,通过设定一个合适的$ \gamma $值,可以平衡立即回报和长期回报之间的关系,从而使船舶能够在考虑未来影响的同时做出正确决策。

图 2 基于MDP的船舶航迹跟踪控制建模 Fig. 2 Modeling of ship trajectory tracking control based on MDP
1.3 基于深度强化学习的船舶航迹控制系统

图3为基于深度强化学习的航迹控制系统基本结构图,首先在船舶航向制导部分将船舶当下航行位置坐标与预定航迹点作为依据,采用LOS算法对船舶航行的期望航向角进行运算,并求得航迹偏差后,将其与船舶模型采集的船舶状态信息进行融合,确定航迹跟踪控制状态向量,对航迹跟踪控制部分进行MDP建模,获得强化学习控制器,以航迹跟踪控制状态向量作为控制器的输入信息,控制器通过不断地尝试和学习,找到在给定状态向量下能够使船舶按照预定航迹行驶的最优舵角动作值,利用得到的当前状态与动作相关的奖励修正强化学习参数,实现航迹控制器决策能力的不断优化。

图 3 基于深度强化学习的航迹控制系统结构图 Fig. 3 Structural diagram of trajectory control system based on deep reinforcement learning
1.4 基于卷积神经网络的RL控制器训练

卷积神经网络(CNN)是一种特殊的深度学习网络结构,该网络具有权值共享特性,能够有效地提取输入数据的局部特征,并在多个层级上组合这些特征以形成对输入数据的高层次理解。本文通过卷积神经网络学习航迹跟踪控制状态到动作值的映射关系,使强化学习控制器能够根据当前状态选择最优动作。

1)输入层。将保存于经验池中的在船舶智能体与航行环境交互中生成的$ \left( {{z_t},{\delta _t},{G_t},{z_{t + 1}}} \right) $数据作为CNN网络的学习信息。

2)卷积层。该层通过一系列具有学习能力的卷积核处理网络输入信息,以获取输入数据局部特征。

3)池化层。采用与卷积层交替设计方式,共同完成输入数据特征的提取,通过对卷积层的特征处理结果作下采样,降低网络的复杂性等。为实现卷积层提取特征信息的最大化保留,本文选择最大池化处理方式。

4)全连接层。该层将卷积、池化后的特征映射到全局特征空间,以实现航迹控制状态到动作值的映射关系的捕捉。

5)输出层。该层包含与可能动作数量相等的神经元,输出结果为给定状态下执行不同动作的概率分布。这些概率分布构成了强化学习控制器的策略,指导智能体如何根据当前状态选择动作。

强化学习控制器训练过程具体为:

1)对船舶航行环境、CNN网络参数、经验池进行初始设定。

2)从经验池中获取船舶智能体与航行环境交互生成的$ \left( {{z_t},{\delta _t},{G_t},{z_{t + 1}}} \right) $数据,将其视作卷积神经网络的输入信息,用于航迹控制状态到动作值映射关系的学习,输出与控制状态对应的各动作概率分布结果。

3)以误差代价函数最低为优化目标实现CNN参数的修正,航迹跟踪控制偏差通过下式进行计算:

$ e = {2^{ - 1}}\sum\limits_{t = 1}^T {{{\left( {{Y_t} - {H_t}} \right)}^2}} = {2^{ - 1}}{\left\| {{Y_t} - {H_t}} \right\|^2}。$ (1)

其中:$ T $为航迹跟踪控制周期;Yt$ t $时刻的期望航迹;Ht为实际航迹跟踪结果。

通过反向传播求解训练误差关于网络权重参数的梯度,即网络权重${\kappa _{ij}}\left( n \right) $在第几次迭代时而更新量$\Delta {\kappa _{ij}}\left( n \right) $为:

$ \Delta {\kappa _{ij}}\left( n \right) = \frac{{ - \beta \times {G_t} \times \partial e\left( n \right)}}{{\partial {\kappa _{ij}}\left( n \right)}} 。$ (2)

其中,β为学习率。

权重参数通过下式进行修正:

$ {\kappa _{ij}}\left( {n + 1} \right) = \Delta {\kappa _{ij}}\left( n \right) + {\kappa _{ij}}\left( n \right)。$ (3)
2 仿真实验 2.1 实验设计

船舶智能操控仿真测试平台简称SIHC,是当下常用的航向自动控制和航迹自动控制性能分析工具,本文使用此平台作为实验平台,用于测试本文系统的使用效果。实验环境由主控台、目标船和智能本船三大服务器构成。采用六自由度船模技术,模拟舰船在复杂环境中的运动,并接入真实港口AIS数据,构建逼真实验场景。智能本船服务器负责自动化控制和决策,提升航行安全,本文系统主要部署于此服务器中;目标船服务器实时收集、处理航行数据,支持远程监控。主控台服务器作为中央管理节点,支持远程访问,确保实验稳定运行和数据实时采集。

2.2 结果分析 2.2.1 航迹控制器离线训练效果与分析

将本文系统的航迹控制器进行离线式训练学习,训练回合与各回合步长最大值分别是400、250。训练过程中,图4为不同训练回合条件下,航迹控制时航向误差的回报奖励变化。可知,训练回合为150回合时,控制器离线训练效果最佳,回报奖励值收敛于0值。这意味着经过150轮次的迭代学习,控制器已经有效地捕捉到航迹数据的内在规律和模式,并实现对控制任务的精准建模。说明本文系统所用控制器具有快速学习的能力,能够通过不断迭代和优化网络参数,快速适应不同航行环境和条件,实现对航迹的精确跟踪和控制。

图 4 航迹控制时航向误差变化 Fig. 4 Changes in heading error during trajectory control
2.2.2 无干扰工况中航迹控制效果与分析

在航迹参数设定界面,设定航向角是0°,则本文系统控制下,舰船航线与期望航线的跟踪效果如图5所示。可知,无干扰工况中本文系统控制下,舰船从起点出发后,顺着航线航行,在抵达目的地后,整段航迹均与期望航线匹配,未出现明显的航线偏离问题,且在直线式航线中航行平稳,拐弯式位置也航迹平滑,未曾出现异常航行偏离状态。

图 5 无干扰工况中航迹控制效果 Fig. 5 Track control effect in non-interference working conditions
2.2.3 有干扰工况中航迹控制效果与分析

设定随机干扰是正弦信号,幅值是1.5 m/s,干扰周期是300 ms,随机干扰设定为正弦信号时,意味着在舰船航行过程中,会存在一个周期性的、振幅恒定的干扰力,这个干扰力会影响舰船的实际航线,使其偏离期望的航线。则本文系统控制下,舰船航线与期望航线的跟踪效果如图6所示。可知,在有干扰工况中,本文系统控制下,舰船航迹未出现明显的异常变化,且仍然从起点位置,正常航行至目的地位置,航行路线与期望路线匹配,由此证明本文系统在受扰工况中,仍能有效控制舰船的航线。

图 6 有干扰工况中航迹控制效果 Fig. 6 Track control effect in interference conditions
3 结 语

本文深入研究深度学习技术在航迹控制系统中的应用,有助于系统更好地理解和适应复杂的舰船航行环境,制定出更加合理的航迹规划策略。经过实验测试,本文系统的使用效果得到验证,具体结论如下:

1)本文系统所用控制器具有快速学习的能力,仅经过150回合离线训练学习,便可有效捕捉到航迹数据的内在规律和模式,学习能力极强。

2)在无干扰、有干扰的工况中,本文系统的控制下,舰船航迹均与期望航线匹配,航线平稳准确,正常从起点航行至目的地。

参考文献
[1]
杨忠凯, 仲伟波, 冯友兵, 等. 基于改进的视线导引算法与自抗扰航向控制器的无人艇航迹控制[J]. 中国舰船研究, 2021, 16(1): 121-127+135.
YANG Zhongkai, ZHONG Weibo, FENG Youbing, et al. Unmanned surface vehicle track control based on improved LOS and ADRC[J]. Chinese Journal of Ship Research, 2021, 16(1): 121-127+135.
[2]
刘训文, 徐超, 陈再发. 事件触发的自适应PID海洋水面船舶航迹跟踪控制[J]. 上海海事大学学报, 2023, 44(2): 11-17.
LIU Xunwen, XU Chao, CHEN Zaifa. Event-triggered adaptive PID trajectory tracking control for marine surface vehicles[J]. Journal of Shanghai Maritime University, 2023, 44(2): 11-17.
[3]
李诗杰, 徐诚祺, 刘佳仑, 等. 船舶自抗扰无模型自适应航迹控制[J]. 中国舰船研究, 2024, 19(1): 280-289.
LI Shijie, XU Chengqi, LIU Jialun, et al. Tracking control of ships based on ADRC-MFAC[J]. Chinese Journal of Ship Research, 2024, 19(1): 280-289.
[4]
王潋, 李烨, 陈霄, 等. 基于视线导引策略的无人艇航迹跟踪控制算法[J]. 兵工学报, 2022, 43(S2): 20-25.
WANG Lian, LI Ye, CHEN Xiao, et al. USV trajectory tracking control algorithm of based on the line-of-sight guidance strategy[J]. Acta Armamentarii, 2022, 43(S2): 20-25.
[5]
马天珩, 宁杨阳. 基于非线性模型预测控制的无人船航迹跟踪控制方法[J]. 船舶工程, 2023, 45(2): 123-130+166.
MA Tianheng, NING Yangyang. Trajectory tracking control method of unmanned surface vehicles based on nonlinear model predictive control[J]. Ship Engineering, 2023, 45(2): 123-130+166.