Automatic landing control of carrier-based aircraft based on reinforcement learning and direct lift
-
摘要: 舰载机着舰过程是舰载机作业事故率最高的阶段,为实现舰载机高精度全自动着舰,提出了一种新的舰载机自动着舰控制方法,设计了基于直接升力的控制器与基于强化学习的纵向制导律。直接升力控制实现舰载机飞行状态之间的解耦,增强舰载机姿态角与气流角的稳定性。制导律通过深度强化学习算法训练的神经网络非线性拟合得到,提高了扰动情况下舰载机对理想下滑道的跟踪精度,同时避免了传统方法繁杂的参数整定工作以及对模型的依赖。通过对比仿真结果,在舰尾流扰动下,相比于滑模控制方法、预设性能控制方法、PID控制方法与基于径向基神经网络的自适应控制方法,本文方法具有更好的鲁棒性,增强了对舰尾流扰动的抑制能力,提高了着舰精度。Abstract: The landing of carrier-based aircraft is the stage with the highest accident rate. A novel control method for the automatic landing of carrier-based aircraft is proposed to realize high-precision automatic landing of carrier-based aircraft. This method includes a direct lift controller and a longitudinal guidance law based on reinforcement learning. The direct lift control decouples the flight states of the carrier-based aircraft, while the guidance law is derived through nonlinear fitting using a neural network trained by deep reinforcement learning algorithms. This approach improves the precision of the aircraft to the ideal glide path in the presence of disturbances and eliminates the need for complicated parameter tuning and model dependence typically associated with traditional control methods. Simulation results show that, in the presence of carrier air wake disturbance, the proposed method outperforms the sliding mode control method, PID control, and adaptive control based on a radial basis neural networks. This method demonstrates greater robustness, superior capability to restrict the effects of carrier air wake disturbance, and improved landing precision.
-
航母强大的海上作战能力主要取决于舰载机的作战效能,在舰载机作业过程中,着舰阶段是事故率最高的环节[1],高精度、强稳健的着舰系统可以极大提高航母的作战效率。着舰过程中舰载机受引导信号误差、甲板不规则运动、舰尾流干扰以及机载传感器测量误差等扰动的影响[2-3],为实现舰载机完成全天候着舰任务、减轻飞行员压力以及提高着舰成功率,美国于20世纪50年代提出了自动着舰系统(automatic carrier landing system, ACLS)[4-5]。
目前已经有多种控制方法应用于ACLS中,包括反步控制[6]、滑模控制[7]、自抗扰控制[8]、自适应控制[9]和模型参考自适应控制[10]。然而这些控制方法普遍采用油门控制迎角、升降舵控制高度的控制策略,这种控制策略通过改变舰载机姿态实现对下滑道跟踪,存在姿态角与轨迹角相互耦合以及轨迹误差修正速度慢的问题,降低舰载机的着舰精度。一种解耦思想是引入直接升力控制(direct lift control, DLC)策略,文献[11]表明在人工模式着舰时,通过加入直接升力控制使得着舰落点散布误差降低50%,但是没有实现全自动模式着舰。文献[12]针对舰载机纵向轨迹控制与姿态控制的解耦问题,提出了一种预设性能动态逆控制方法,对轨迹角指令具有更快的响应速度,然而,该方法未考虑舰尾流扰动的影响。文献[13]提出了一种基于动态逆的直接力与直接力矩的控制分配方法,实现航迹回路与姿态回路的解耦,仿真结果表明在舰尾流的扰动下仍然具有较高的着舰精度,然而该方法十分依赖于模型精度,鲁棒性较差。文献[14]针对执行器故障,设计了一种基于固定时间滑模的直接升力控制方法,增强了系统的鲁棒性,然而该方法存在大量的控制参数需要整定。文献[15]在直接升力控制的基础上,提出一种非奇异三维运动路径跟随制导律,同时考虑到存在舰尾流等扰动,设计了观测器进行估计补偿。上述介绍的控制方法都依赖于被控对象的数学模型,并且需要复杂的控制参数整定工作。基于强化学习(reinforcement learning, RL)的控制方法是一种无模型的且避免调参的智能控制方法,该方法依靠智能体与环境不断交互,逐步学习实现对控制策略的优化。文献[16]基于强化学习算法设计了AlphaGo,在复杂的围棋游戏对弈中胜率高达99.8%,并战胜了人类世界围棋冠军,自此强化学习引起众多学者的关注。由于强化学习可以利用神经网络强大的非线性拟合能力,通过设定奖励指标函数,训练得到最优控制策略,因此广泛应用于自动驾驶[17]、无人艇[18]、无人机[19]、机械臂[20]和无人水下航行器[21]等领域,并取得显著成果。在飞行控制领域,文献[22]基于深度确定策略梯度算法设计了旋翼无人机控制器,控制无人机俯仰角在60°~90°范围内顺利通过0.4 m的窄道。文献[23]针对固定翼飞机的传统姿态控制器响应滞后问题,提出了一种基于近端策略优化算法的姿态控制器,加快了控制器的响应速度并减小了动态误差。文献[24]考虑到传统控制方法需要人工调参,基于RL设计了6个单自由度子控制器,通过级联实现了不调参情况下优于比例−积分−微分控制器(proportional-integral-derivative controller, PID)的无人机控制。这些强化学习方法主要用于飞行器姿态控制,未考虑强扰动对飞行器航迹的影响。
针对存在舰尾流扰动情况下的舰载机精确着舰问题,本文提出了一种新型的纵向全自动着舰控制方法,设计了纵向制导律与控制器。传统的控制器主要包括升降舵控制器和动力补偿控制器,本文在此基础上增加了襟翼控制器,用于控制襟翼产生直接升力,实现舰载机纵向姿态控制与航迹控制的解耦,提高舰载机的响应速度,加快消除舰载机跟踪下滑道的误差。传统的制导律采用PID控制算法,以单一状态量做反馈,鲁棒性较差,本文使用全状态飞行数据,利用强化学习算法训练深度神经网络得到非线性纵向制导律,可以更好地模拟飞行员的决策过程,加强ACLS对舰尾流干扰的抑制能力,同时降低控制参数整定的复杂性。
1. 着舰问题描述
着舰任务要求舰载机精确降落在航母甲板的第二道阻拦索与第三道阻拦索中间固定位置,该位置被称为理想着舰点(ideal touchdown point, ITP)。舰载机通过跟踪理想下滑道进行着舰,理想下滑道是根据理想着舰点预先规划的一条固定角度的射线[25],如图1所示。其中
γ0 为定值,表示下滑道倾角。本文主要研究存在舰尾流扰动时舰载机的纵向自动着舰控制问题,因此建立舰载机纵向着舰模型以及舰尾流纵向模型。1.1 舰载机纵向模型
在航迹下建立舰载机纵向运动模型[26]为
{m˙v=Tcosα−D−mgsinγmv˙γ=Tsinα+L−mgcosγIy˙q=M˙θ=q˙h=vsinγ 式中:
m 表示舰载机的质量,v 表示舰载机的飞行速度,T 、D 、L 和M 分别表示发动机推力、阻力、升力和俯仰力矩,α 、θ 、γ 和q 分别表示迎角、俯仰角、航迹角和俯仰角速率,g 表示重力加速度,Iy 表示舰载机绕y 轴的转动惯量,h 表示舰载机高度。气动力与气动力矩的值分别为{T=fT(v,h,δT)D=fD(α,δe,δf)ˉqsL=fL(α,δe,δf)ˉqsM=fM(α,q,δe,δf)ˉqsˉc (1) 式中:
ˉq=ρv2/ρv222 ,ˉq 、ρ 、s 和ˉc 分别表示动压、空气密度、机翼参考面积和平均气动弦长,fT 、fD 、fL 和fM 分别表示推力函数、阻力系数函数、升力系数函数和俯仰力矩系数函数,δT 、δe 和δf 分别表示油门功率、升降舵偏转角度和襟翼偏转角度。考虑到实际控制系统无法获得飞机的真实飞行状态,因此建立传感器模型,输入为舰载机纵向运动模型的各仿真飞行数据,输出为相应传感器的模拟测量值。根据实际与工程要求,本文主要考虑了传感器的线性度、动态测量特性、测量误差等约束,传感器模型[27]公式表示为
˜y=f(y)⋅G(s)+n(σ) 式中:
y 表示舰载机的仿真飞行状态;˜y 表示传感器的测量值;n(σ) 表示均值为0、方差为σ 的白噪声;f(⋅) 是线性度,表示传感器输出与输入之间的线性程度;G(s) 是传感器模型的传递函数,用于表示传感器测量的动态特性,一般使用二阶模型表示。线性度与传递函数的计算公式为{f(y)=y+a⋅y2G(s)=ω2ns2+2ξωns+ω2n 式中:
a 表示非线性灵敏度,ωn 和ξ 分别表示传感器的固有频率与阻尼比。1.2 舰尾流纵向模型
在着舰最后进场阶段,舰尾流是影响舰载机最终着舰精度的主要因素之一,本节采用运用较多且精度较高的美国标准MIL-F-8785C中的舰尾流模型,该模型主要由4部分组成:随机自由大气紊流分量、舰船尾流稳态分量、舰船运动引起的周期性紊流分量和舰船尾流随机分量。使用
ui 和wi 分别表示舰尾流的纵向分量和垂向分量,i=1,2,3,4 分别表示以上4种分量[28],舰尾流纵向模型为{u=u1+u2+u3+u4w=w1+w2+w3+w4 2. 纵向着舰控制器设计
在内环控制器中引入直接升力控制,设计了迎角控制器、航迹控制器和速度控制器。在着舰控制系统中,外环纵向制导律通过高度误差信号生成舰载机航迹角制导信号。在人工着舰模式下,外环制导律信号由飞行员决策输出,在全自动着舰模式下,制导律通常采用传统的PID控制器。由于PID是单输入单输出的线性控制器,对于随机时变的舰尾流扰动的抑制能力较差,无法达到飞行员决策的效果。针对该问题,本文设计了基于强化学习的自动着舰纵向制导律。纵向自动着舰控制系统结构如图2所示。
2.1 直接升力控制设计
传统的纵向着舰系统为backside操纵模式,飞行员通过操作升降舵和油门分别控制迎角和下滑航迹。此模式下各个输入之间相互耦合,导致着舰精度较低[11]。本文设计了基于直接升力的内环控制器实现控制解耦,包括跟踪航迹角指令的襟翼控制器、稳定迎角的升降舵控制器和稳定速度的动力补偿控制器,其中襟翼控制器通过襟翼改变直接升力响应舰载机的下滑航迹角指令,升降舵控制器通过升降舵产生的俯仰力矩保持迎角稳定,动力补偿控制器通过控制油门功率保持舰载机的着舰速度[29]。
2.1.1 襟翼控制器设计
襟翼控制器通过控制襟翼改变舰载机的气动升力,由式(1)可以得到升力直接改变舰载机的航迹角速率,进一步积分改变舰载机的航迹角。控制器根据当前舰载机的飞行航迹角与理想航迹角的偏差输出襟翼偏转指令,采用PID控制器,控制律为
δf=KγP(γc−γ)+KγIs(γc−γ)+KγDs(γc−γ) 2.1.2 升降舵控制器设计
升降舵控制器通过保持迎角实现气流角与航迹角的解耦。舰载机跟踪理想下滑道时,襟翼舵面的偏转产生直接升力的同时产生了额外的俯仰力矩,该力矩会影响舰载机迎角,导致着舰稳定性下降,因此设计升降舵控制器以迎角作为反馈信号,对该力矩进行补偿,保持舰载机迎角始终在期望值。此外,在控制器内环引入俯仰角速率反馈量,增大舰载机的俯仰阻尼,提高姿态稳定特性。采用PID控制器,控制律公式为
δe=KqP(qc−q)+KqIs(qc−q)+KqDs(qc−q) qc=KαP(αc−α)+KαIs(αc−α)+KαDs(αc−α) 2.1.3 动力补偿控制器设计
动力补偿控制器通过控制油门功率保持速度,控制器根据当前舰载机的着舰速度与理想着舰速度的偏差值输出发动机油门功率,进而改变推力值,采用PID控制器,控制律为
δT=KvP(vc−v)+KvIs(vc−v)+KvDs(vc−v) 2.2 强化学习制导律设计
传统自动着舰系统纵向制导律采用PID控制方法,输入信号为高度偏差,输出信号为航迹角指令。该制导律基于单通道反馈设计,仅考虑了舰载机当前的高度偏差,并未考虑舰载机的姿态角和空速等飞行状态。当存在舰尾流扰动时,该制导方法下舰载机跟踪理想下滑道的误差较大,为提高舰载机对理想下滑道的跟踪精度,抑制舰尾流扰动,本节设计基于强化学习的纵向制导律。
2.2.1 原理介绍
本文采用双延迟确定策略梯度(twin delayed deep deterministic policy gradient algorithm, TD3)算法。在TD3算法中,经验池存储智能体与环境交互的经验,智能体存在2套结构一致的actor网络(main-actor网络和target-actor网络),4套结构一致的critic网络(2个main-critic网络和2个target-critic网络),2种网络分别用于生成策略和评价策略,TD3算法原理[30]如图3所示。main-actor网络与target-actor网络分别通过当前时刻状态
s 与下一时刻状态s′ 得到动作a 和a′ ,分别叠加噪声后,由critic网络拟合得状态−动作价值,计算时间差分(temporal difference, TD)误差δTD :δTD=q(s,a)−qt 式中:
qt 表示目标价值,qt=r+γq′(s′,a′) ,q′ 选取q′1 与q′2 中较小的,即q′(s′,a′)=min(q′1,q′2) ;r 表示奖励值;γ 是折扣因子,本文取值为γ=0.99 。TD3算法以均方误差(mean squared error, MSE)形式的损失函数最小化TD误差对main-critic网络进行训练,对
q 进行梯度上升训练main-actor网络,损失函数[31]公式为{lcritic=MSE(q1,qt)+MSE(q2,qt)lactor=−q 式中:
q=q1 ,负号表示梯度上升。在TD3算法中,main-actor网络更新速度慢于main-critic网络,本文选取
M=1 ,N=2 。最后使用main网络参数θm 对target网络参数θt 进行软更新,更新率用τ 表示,公式为θt=τθm+(1−τ)θt 2.2.2 基于TD3算法的制导律设计
纵向制导律是着舰系统的外环,用于模拟人工着舰模式下飞行员的决策,输入为舰载机着舰过程的各个飞行状态偏差信息,包括高度、迎角、速度以及俯仰角等偏差值,由于着舰控制器内环输入量为期望航迹角,所以外环制导律输出为期望航迹角,由此定义基于强化学习的外环制导律的状态空间为
S=[ΔhΔvΔαΔθΔγ] ,其中Δ 表示状态量与期望值的偏差,动作空间为A=[γc] ,γc 表示期望航迹角指令。设计基于TD3的纵向制导律如图4所示。在舰载机着舰控制系统中,外环制导律通过强化学习算法训练神经网络非线性拟合飞行员决策,输出期望航迹角指令γc ,并输入到内环,内环以舰载机的迎角、俯仰角速率、航迹角、速度等状态量为反馈量,经过PID控制器输出舵面偏转指令与油门指令,最终输入到舰载机模型中,控制舰载机跟踪理想下滑道。2.2.3 奖励函数设计
强化学习算法训练的最终目标是得到一个使得智能体获得最大累计奖励的策略网络,因此奖励函数的设计直接关系到训练的智能体在任务中的控制效果。仅通过对比实际着舰点与理想着舰点的误差构造的奖励函数属于稀疏奖励,不便于网络收敛,因此本文设计了一种引导式奖励函数,该奖励取决于舰载机高度与理想下滑道高度的误差值
Δh ,Δh 越小,智能体获得的奖励越大。奖励函数R 主要由2部分组成,R=Rs+Rb ,其中Rs 表示下滑道跟踪奖励函数,Rb 表示边界超越惩罚函数。下滑道跟随奖励函数
rs 选取反比例函数的形式,高度误差越小获得奖励越大,同时反比例函数具有较好的梯度,便于网络的训练,表达式为Rs=1‖ 当高度误差越接近0时,奖励函数梯度越大,此时智能体获得的奖励值增长越快,从而加快引导舰载机靠近理想下滑道。当高度误差小于0.05 m时,此时奖励值变化缓慢,当高度误差远小于0.05 m时,奖励值将会饱和,
{R_{\text{s}}} \approx 20 。这是考虑到高度误差小于0.05 m即可满足实际着舰需要,更小的仿真误差并不会产生实质性影响。此外在分母中加入0.05常数项,防止误差过小时奖励值大范围跳变或计算溢出,以便于网络的收敛。边界超越惩罚函数
{R_{\text{b}}} 表达式为R_{\text{b}}=\left\{\begin{gathered}0,\quad\boldsymbol{\boldsymbol{S{_{{\mathrm{min}}}\leqslant{\boldsymbol{S}}\leqslant{\boldsymbol{S}}_{\max}}}} \\ -1\ 000,\quad\boldsymbol{S} > \boldsymbol{S}_{\max}\; \text{or}\; \boldsymbol{S} < \boldsymbol{S}_{\min} \\ \end{gathered}\right. 式中
{{\boldsymbol{S}}_{\max }} 和{{\boldsymbol{S}}_{\min }} 分别表示舰载机状态空间的最大边界与最小边界,取值为\begin{gathered} {{\boldsymbol{S}}_{\max }} = \left[ {\begin{array}{*{20}{c}} {{{{\Delta }}_{h\max }}}&{{{{\Delta }}_{v\max }}}&{{{{\Delta }}_{\alpha \max }}}&{{{{\Delta }}_{q\max }}}&{{{{\Delta }}_{\theta \max }}}&{{{{\Delta }}_{\gamma \max }}} \end{array}} \right] =\\ \left[ {\begin{array}{*{20}{c}} {0.5\;{\text{m}}}&{3\;{{\text{m}} \mathord{\left/ {\vphantom {{\text{m}} {\text{s}}}} \right. } {\text{s}}}}&{0.5^\circ }&{1{^\circ \mathord{\left/ {\vphantom {^\circ {\text{s}}}} \right. } {\text{s}}}}&{0.5^\circ }&{0.5^\circ } \end{array}} \right] \\ {{\boldsymbol{S}}_{\min }} = \left[ {\begin{array}{*{20}{c}} {{{{\Delta }}_{h\min }}} & {{{{\Delta }}_{v\min }}} & {{{{\Delta }}_{\alpha \min }}} & {{{{\Delta }}_v}}&{{{{\Delta }}_{\theta \min }}} & {{{{\Delta }}_{\gamma \min }}} \end{array}} \right] = - {{\boldsymbol{S}}_{\max }} \\ \end{gathered} 边界超越惩罚函数
{R_{\text{b}}} 表示当舰载机的飞行状态超出状态空间边界范围时对智能体产生惩罚,避免智能体选择使得舰载机状态超越边界的动作。3. 仿真分析
本文在Python语言下利用OpenAI公开的Gym平台搭建了舰载机着舰环境,设置舰载机着舰标称飞行状态参数如表1所示。
表 1 舰载机着舰状态参数Table 1 Carrier aircraft parameters at landing状态量 数值 标称迎角/(°) 8.1 标称俯仰角/(°) 4.6 标称航迹角/(°) −3.5 标称速度/(m/s) 70 本文设置航母的速度为15 m/s,舰载机通常在距舰800 m时遭遇1.2节中的4种舰尾流分量的复合干扰,因此设置舰载机与航母的初始相对距离为800 m,在该初始条件下仿真时间约为15 s,此时舰载机相对于航母的高度为62.2 m。
根据2.1节搭建内环控制器,在PyTorch框架下搭建基于TD3强化学习算法的纵向外环制导律,其中TD3算法的超参数设置如表2所示。
表 2 TD3算法超参数设置Table 2 TD3 algorithm hyperparameter configurations超参数 值 批量大小 256 折扣因子 0.99 经验池尺寸 1 \times {10^6} Critic学习率 3 \times {10^{ - 4}} Actor学习率 3 \times {10^{ - 4}} 优化器 Adam 软更新率 0.005 3.1 内环控制器仿真分析
根据2.1节中介绍的内环迎角控制器、航迹角控制器与速度控制器设计方法建立内环控制器,并对各个控制器的PID参数进行整定,实现控制器对舰载机的航迹角、迎角和速度等飞行状态的稳定控制,各内环控制器对阶跃信号的响应曲线如图5所示。由于考虑了实际传感器存在线性度、动态测量特性、测量误差等约束,因此舰载机的航迹角、迎角和速度在稳态时存在小幅度的波动。
3.2 训练结果分析
为验证本文设计的基于强化学习的纵向制导律与基于直接升力的控制器在存在舰尾流扰动情况下依旧有较高的控制精度,本文对该算法进行训练验证。设置训练次数为1 000,训练过程智能体奖励值与平均奖励值如图6所示。图6中蓝线表示单次训练获得的奖励值,体现了此次训练得到的智能体性能,红线表示获得的平均奖励值,体现了智能体训练过程的变化趋势。可以看出智能体在前100次训练中处于随机探索状态,此时奖励值较低,在100~200次训练过程中智能体开始不断学习,奖励值逐步提高,控制效果逐步提升,高度误差变小。在200次以后,奖励值趋向稳定,平均奖励值稳定在
1.9 \times {10^4} 左右,此时智能体获得的奖励值较高,表示控制系统的性能较好,跟踪下滑道的高度误差小,此时该控制器能够在存在舰尾流时控制舰载机精确跟随理想下滑道进行着舰。在智能体训练初期、中期和后期控制器的控制效果如图7所示。对舰载机着舰不同训练时期的高度、俯仰角、迎角和速度等飞行状态的最大误差值进行统计,结果如表3所示。
表 3 不同训练时期状态量的最大误差Table 3 Maximum state errors of different training periods状态量 训练前期 训练中期 训练后期 高度误差/m 1.573 1.176 0.216 俯仰角误差/(°) 1.435 0.898 0.377 迎角误差/(°) 0.383 0.400 0.282 速度误差/(m/s) 0.100 0.090 0.076 由图7和表3可知,在存在舰尾流以及传感器约束时,本文设计的控制器通过不断训练,控制效果逐渐提升,舰载机各飞行状态的最大误差逐渐减小,表明控制器通过训练具有较高的控制精度。在训练前期,舰载机的高度以及俯仰角等飞行状态与期望值存在较大误差,控制不稳定。在训练中期,智能体通过学习,控制能力得到了加强。相比于初期训练阶段,最大高度误差降低了25%,最大俯仰角误差降低了37%,最大迎角误差相差不大,最大速度误差降低了10%,但是最大高度误差与最大俯仰角误差依旧较大,着舰精度较低,无法满足着舰要求。在训练后期,智能体训练完成,相比于训练中期阶段,最大高度误差降低81%,最大俯仰角误差降低了58%,最大迎角误差降低了22%,最大速度误差降低了15%,各状态量的误差范围较小,对舰尾流扰动有较好抑制效果,表明在舰尾流扰动下,舰载机依旧具有较好的进场着舰稳定性与较高的理想下滑道跟踪精度。
3.3 对比分析
为验证本文设计的基于强化学习的外环纵向制导律与直接升力内环控制器(RL+DLC)具有较好的舰尾流扰动抑制能力,本节对比了文献[32]中的滑模制导律与直接升力内环控制器(文献[32]+DLC),文献[33]中的基于预设性能函数的制导律与直接升力内环控制器(文献[33]+DLC),传统的基于PID控制算法的制导律与直接升力内环控制器(PID+DLC)以及基于径向基神经网络的自适应制导律与直接升力内环控制器(AC+DLC) 4种自动着舰方法。在存在舰尾流扰动以及传感器约束的情况下,不同方法对应着舰过程中舰载机的高度偏差、俯仰角、迎角以及速度等飞行状态的变化曲线如图8所示。
从图8可以看出在存在舰尾流扰动时,5种控制器对舰载机高度、俯仰角、迎角和速度等飞行状态都具备稳定的控制效果,本文设计的RL+DLC控制方法相对于文献[32]中的方法、文献[33]中的方法、传统的PID+DLC和AC+DLC控制方法,舰载机最大飞行高度误差分别降低了58%、80%、74%和65%,跟踪理想下滑道能力增强,提高了舰载机着舰精度;最大俯仰角误差分别降低了44%、62%、57%和52%,增强了舰载机的姿态保持能力,便于舰载机的尾钩精确钩挂拦阻索;同时迎角误差和飞行速度误差最小,增强了低动压情况下舰载机气流角和着舰速度的稳定性,提高了着舰系统对舰尾流扰动的抑制能力。通过对比分析,相较于另外4种方法,本文提出的方法对下滑道跟踪误差具有更快的修正能力,并提高了舰载机的姿态角、迎角和速度等飞行状态对舰尾流扰动的抑制能力,实现舰载机安全高精度着舰。
4. 结束语
针对舰尾流扰动下舰载机的全自动着舰问题,本文提出了一种基于直接升力的内环控制器,实现舰载机的迎角、航迹角和速度的解耦控制,仿真结果表明该控制器具有良好的稳态性能与动态性能。同时本文提出了一种基于强化学习的纵向外环制导律,实现无需模型情况下,利用神经网络拟合得到最优制导决策,通过训练保证了网络的收敛性,避免了传统控制算法参数的复杂整定工作。设计仿真实验验证了本文设计的控制方法的有效性,并与其他4种控制方法进行对比,结果表明在舰尾流扰动下,本文所提方法跟踪理想下滑道的高度偏差最小,提高了舰载机着舰精度。本文并未考虑着舰过程中甲板不规则运动对着舰精度的影响,在未来的研究中将在存在甲板不规则运动情况下,设计新的控制与制导方法,实现对舰尾流扰动的抑制以及对甲板运动的快速跟踪,提高舰载机着舰的准确性与可靠性。
-
表 1 舰载机着舰状态参数
Table 1 Carrier aircraft parameters at landing
状态量 数值 标称迎角/(°) 8.1 标称俯仰角/(°) 4.6 标称航迹角/(°) −3.5 标称速度/(m/s) 70 表 2 TD3算法超参数设置
Table 2 TD3 algorithm hyperparameter configurations
超参数 值 批量大小 256 折扣因子 0.99 经验池尺寸 1 \times {10^6} Critic学习率 3 \times {10^{ - 4}} Actor学习率 3 \times {10^{ - 4}} 优化器 Adam 软更新率 0.005 表 3 不同训练时期状态量的最大误差
Table 3 Maximum state errors of different training periods
状态量 训练前期 训练中期 训练后期 高度误差/m 1.573 1.176 0.216 俯仰角误差/(°) 1.435 0.898 0.377 迎角误差/(°) 0.383 0.400 0.282 速度误差/(m/s) 0.100 0.090 0.076 -
[1] WANG Lipeng, JIANG Xiangli, ZHANG Zhi, et al. Lateral automatic landing guidance law based on risk-state model predictive control[J]. ISA transactions, 2022, 128: 611−623. doi: 10.1016/j.isatra.2021.11.031 [2] URNES J M, HESS R K. Development of the F/A-18A automatic carrier landing system[J]. Journal of guidance, control, and dynamics, 1985, 8(3): 289−295. doi: 10.2514/3.19978 [3] 何杭轩, 段海滨, 张秀林, 等. 基于扩张鸽群优化的舰载无人机横侧向着舰自主控制[J]. 智能系统学报, 2022, 17(1): 151−157. doi: 10.11992/tis.202106035 HE Hangxuan, DUAN Haibin, ZHANG Xiulin, et al. Lateral automatic carrier landing control based on expanded pigeon inspired optimization[J]. CAAI transactions on intelligent systems, 2022, 17(1): 151−157. doi: 10.11992/tis.202106035 [4] HESS R A. Analysis of the aircraft carrier landing task, pilot + augmentation/automation[J]. IFAC-PapersOnLine, 2019, 51(34): 359−365. doi: 10.1016/j.ifacol.2019.01.017 [5] CRASSIDIS J L, MOOK D J, MCGRATH J M. Automatic carrier landing system utilizing aircraft sensors[J]. Journal of guidance, control, and dynamics, 1993, 16(5): 914−921. doi: 10.2514/3.21101 [6] YUAN Yang, DUAN Haibin, ZENG Zhigang. Automatic carrier landing control with external disturbance and input constraint[J]. IEEE transactions on aerospace and electronic systems, 2023, 59(2): 1426−1438. [7] ZHU Qidan, YANG Zhibo. Design of air-wake rejection control for longitudinal automatic carrier landing cyber-physical system[J]. Computers & electrical engineering, 2020, 84: 106637. [8] YU Yue, WANG Honglun, LI Na, et al. Automatic carrier landing system based on active disturbance rejection control with a novel parameters optimizer[J]. Aerospace science and technology, 2017, 69: 149−160. doi: 10.1016/j.ast.2017.06.026 [9] ZHEN Ziyang, YU Chaojun, JIANG Shuoying, et al. Adaptive super-twisting control for automatic carrier landing of aircraft[J]. IEEE transactions on aerospace and electronic systems, 2020, 56(2): 984−997. doi: 10.1109/TAES.2019.2924134 [10] MENG Yue, WANG Wei, HAN Hao. Flight control method using neural network in prediction for suppressing ship airwake impact in carrier landing[J]. IEEE aerospace and electronic systems magazine, 2023, 38(7): 20−32. doi: 10.1109/MAES.2023.3261313 [11] DENHAM J W. Project MAGIC CARPET: “advanced controls and displays for precision carrier landings” [C]//54th AIAA Aerospace Sciences Meeting. San Diego: AIAA, 2016: 1770. [12] WU Wenhai, SONG Liting, ZHANG Yang, et al. Nonlinear comprehensive decoupling controller based on direct lift control for carrier landing[J]. IEEE access, 2022, 10: 113875−113887. doi: 10.1109/ACCESS.2022.3212752 [13] 罗飞, 张军红, 王博, 等. 基于直接升力与动态逆的舰尾流抑制方法[J]. 航空学报, 2021, 42(12): 193−208. LUO Fei, ZHANG Junhong, WANG Bo, et al. Air wake suppression method based on direct lift and nonlinear dynamic inversion control[J]. Acta aeronautica et astronautica sinica, 2021, 42(12): 193−208. [14] 何胜涛, 江驹, 余朝军, 等. 基于自适应固定时间的直接升力着舰容错控制[J]. 电光与控制, 2023, 30(9): 29−35,98. doi: 10.3969/j.issn.1671-637X.2023.09.005 HE Shengtao, JIANG Ju, YU Chaojun, et al. Fault-tolerant control of direct lift carrier landing based on adaptive fixed time[J]. Electronics optics & control, 2023, 30(9): 29−35,98. doi: 10.3969/j.issn.1671-637X.2023.09.005 [15] GUAN Zhiyuan, LIU Hu, ZHENG Zewei, et al. Moving path following with integrated direct lift control for carrier landing[J]. Aerospace science and technology, 2022, 120: 107247. doi: 10.1016/j.ast.2021.107247 [16] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7676): 354−359. doi: 10.1038/nature24270 [17] ZHU Zeyu, ZHAO Huijing. A survey of deep RL and IL for autonomous driving policy learning[J]. IEEE transactions on intelligent transportation systems, 2022, 23(9): 14043−14065. doi: 10.1109/TITS.2021.3134702 [18] WANG Ning, GAO Ying, ZHANG Xuefeng. Data-driven performance-prescribed reinforcement learning control of an unmanned surface vehicle[J]. IEEE transactions on neural networks and learning systems, 2021, 32(12): 5456−5467. doi: 10.1109/TNNLS.2021.3056444 [19] LI Bo, GAN Zhigang, CHEN Daqing, et al. UAV maneuvering target tracking in uncertain environments based on deep reinforcement learning and meta-learning[J]. Remote sensing, 2020, 12(22): 3789. doi: 10.3390/rs12223789 [20] LU Yanqi, WU Chengwei, YAO Weiran, et al. Deep reinforcement learning control of fully-constrained cable-driven parallel robots[J]. IEEE transactions on industrial electronics, 2023, 70(7): 7194−7204. doi: 10.1109/TIE.2022.3203763 [21] WU Hui, SONG Shiji, YOU Keyou, et al. Depth control of model-free AUVs via reinforcement learning[J]. IEEE transactions on systems, man, and cybernetics: systems, 2019, 49(12): 2499−2510. doi: 10.1109/TSMC.2017.2785794 [22] WANG Zhikun, GROß R, ZHAO Shiyu. Aerobatic tic-toc control of planar quadcopters via reinforcement learning[J]. IEEE robotics and automation letters, 2022, 7(2): 2140−2147. doi: 10.1109/LRA.2022.3142730 [23] 付宇鹏, 邓向阳, 何明, 等. 基于强化学习的固定翼飞机姿态控制方法[J]. 控制与决策, 2023, 38(9): 2505−2510. FU Yupeng, DENG Xiangyang, HE Ming, et al. Reinforcement learning based attitude controller design[J]. Control and decision, 2023, 38(9): 2505−2510. [24] HAN Haoran, CHENG Jian, XI Zhilong, et al. Cascade flight control of quadrotors based on deep reinforcement learning[J]. IEEE robotics and automation letters, 2022, 7(4): 11134−11141. doi: 10.1109/LRA.2022.3196455 [25] 张志冰, 甄子洋, 江驹, 等. 舰载机自动着舰引导与控制综述[J]. 南京航空航天大学学报, 2018, 50(6): 734−744. ZHANG Zhibing, ZHEN Ziyang, JIANG Ju, et al. Review on development in guidance and control of automatic carrier landing of carrier-based aircraft[J]. Journal of Nanjing University of Aeronautics & Astronautics, 2018, 50(6): 734−744. [26] 夏桂华, 董然, 许江涛, 等. 考虑扰流的舰载机终端进场线性模型[J]. 航空学报, 2016, 37(3): 970−983. XIA Guihua, DONG Ran, XU Jiangtao, et al. Linearized carrier-based aircraft model in final approach phase with air turbulence considered[J]. Acta aeronautica et astronautica sinica, 2016, 37(3): 970−983. [27] 范彦铭. 飞行控制[M]. 北京: 航空工业出版社, 2021: 295−304. FAN Yanming. Flight control[M]. Beijing: Aviation Industry Press, 2021: 295−304. [28] ZHEN Ziyang, JIANG Shuoying, MA Kun. Automatic carrier landing control for unmanned aerial vehicles based on preview control and particle filtering[J]. Aerospace science and technology, 2018, 81(6): 99−107. [29] 吴文海, 汪节, 高丽, 等. MAGIC CARPET着舰技术分析[J]. 系统工程与电子技术, 2018, 40(9): 2079−2091. doi: 10.3969/j.issn.1001-506X.2018.09.26 WU Wenhai, WANG Jie, GAO Li, et al. Analysis on MAGIC CARPET carrier landing technology[J]. Systems engineering and electronics, 2018, 40(9): 2079−2091. doi: 10.3969/j.issn.1001-506X.2018.09.26 [30] FUJIMOTO S, VAN H V, MEGER D. Addressing function approximation error in actor-critic methods[C]//35th International conference on machine learning. San Diego: JMLR, 2018: 1587−1596. [31] CHU Zhenzhong, SUN Bo, ZHU Daqi, et al. Motion control of unmanned underwater vehicles via deep imitation reinforcement learning algorithm[J]. IET intelligent transport systems, 2020, 14(7): 764−774. doi: 10.1049/iet-its.2019.0273 [32] LEE S, LEE J, LEE S, et al. Sliding mode guidance and control for UAV carrier landing[J]. IEEE transactions on aerospace and electronic systems, 2019, 55(2): 951−966. doi: 10.1109/TAES.2018.2867259 [33] GUAN Zhiyuan, MA Yunpeng, ZHENG Zewei, et al. Prescribed performance control for automatic carrier landing with disturbance[J]. Nonlinear dynamics, 2018, 94(2): 1335−1349. doi: 10.1007/s11071-018-4427-3