舰船科学技术  2026, Vol. 48 Issue (6): 150-158    DOI: 10.3404/j.issn.1672-7649.2026.06.020   PDF    
基于旋转矩阵姿态表示的水下航行器自适应容错控制
刘葳兴1,2, 李晨1, 田仪凡2, 张之阳1     
1. 江苏海洋大学 海洋工程学院,江苏 连云港 222005;
2. 江苏海洋大学 马卡洛夫海洋工程学院,江苏 连云港 222005
摘要: 针对欧拉角和单位四元数在求解大角度旋转机动时表现出的奇点和解绕局限问题,本文研究自主水下航行器(Autonomous Underwater Vehicle, AUV)在六自由度下的无模型跟踪控制方案。通过构建基于旋转矩阵的动力学模型,提出将姿态误差从SO(3)空间转换为欧几里得空间。并建立了分层回声状态网络(Hierarchical Echo State, ESN)来估计水动力系数和执行器故障,辅以协同批评网络(Cooperative Critic Network, CCN)增强学习能力。在保证高跟踪性能的同时,系统鲁棒性得到显著增强。基于旋转矩阵和分层ESN的控制方案有效克服传统姿态表示局限,适合自主水下航行器大角度转动。
关键词: 自主水下航行器     旋转矩阵     回波状态网络     容错控制    
Adaptive fault-tolerant control of autonomous underwater vehicle with attitude representation based on rotation matrix
LIU Weixing1,2, LI Chen1, TIAN Yifan2, ZHANG Zhiyang1     
1. School of Ocean Engineering, Jiangsu Ocean University, Lianyungang 222005, China;
2. Makarov College of Marine Engineering, Jiangsu Ocean University, Lianyungang 222005, China
Abstract: To address the singularities and gimbal lock limitations of Euler angles and unit quaternions in solving large-angle rotational maneuvers, this paper investigates a model-free tracking control scheme for autonomous underwater vehicles in 6-DOF. By constructing a dynamics model based on rotation matrices, this study proposes converting attitude errors from SO(3) space to Euclidean space. A hierarchical echo state network (ESN) is established to estimate hydrodynamic coefficients and actuator faults, supplemented by a cooperative critic network (CCN) to enhance learning capability. While ensuring high tracking performance, the system′s robustness is significantly enhanced. The control scheme based on rotation matrices and hierarchical ESN effectively overcomes the limitations of traditional attitude representations, making it suitable for large-angle maneuvers of autonomous underwater vehicles.
Key words: autonomous underwater vehicles (AUVs)     rotation matrix     echo state network     fault-tolerant control    
0 引 言

在以往研究中,针对基于旋转矩阵姿态表示的AUV误差动力学,已提出一种应对外部干扰和模型不确定性的有限时间自适应滑模控制[1]。通过引入连续可导的反曲正切函数有效克服了传统终端滑模控制中因分段函数设计引发的奇异问题,同时避免了复杂的逻辑切换设计[2]。此外,设计的自适应律能够在线估计并补偿模型不确定性和外部时变干扰构成的集总干扰。虽然该算法从各个方面提高AUV控制系统的收敛时间和稳态性能,但控制器仍然直接或间接地需要部分模型参数信息,如模型的质量矩阵。为了设计完全独立于模型信息的控制器,一般采用自适应控制、迭代学习控制和强化学习控制[3]。神经网络因其对不确定性有着卓越的估计效果,被广泛运用到AUV的跟踪控制算法设计中[4]。然而,针对水下机器人跟踪控制任务的无模型方法仍然很少[5]。为了更好地保持系统的鲁棒性,在完全不利用模型信息的情况下构建AUV的跟踪控制器需要进一步研究[6]

在AUV的实际工程应用中,执行器故障是一个常见且严重的问题,会对系统的正常运行产生显著的不利影响[7]。在复杂海洋环境中执行任务,尤其是长期运行的情况下,执行器发生故障几乎不可避免[8]。鉴于此,容错控制(Fault Tolerant Control, FTC)技术受到广泛关注,并在近年来取得重要进展[9]。通常,FTC技术可以分为被动型和主动型两类。被动型控制策略将故障影响视为系统不确定性,采用自适应技术或神经网络逼近等方法来补偿未知的故障效应[10];而主动型控制策略则依赖于故障检测与诊断模块,在故障发生后主动对控制器进行重新配置[11]。2种方法各具优势,并在不同应用场景中展现了其有效性。从控制结构的角度来看,被动型 FTC相较于主动型 FTC具有更多限制性,但其优点在于结构相对简单且计算复杂度较低。

本文提出一种基于旋转矩阵姿态表示的容错控制算法,用于实现AUV任意六自由度大角度旋转,该算法结合了分层强化学习回声状态网络,以实时补偿集总不确定性和执行器故障的影响。

1 问题描述

本文主要面向基于旋转矩阵表示姿态的AUV,在考虑模型不确定性、外部时变干扰和执行器故障问题下,设计一个完全独立于模型信息的跟踪控制算法以实现AUV六自由度任意大角度旋转的机动。该算法旨在当出现执行器故障的时候,AUV依然能够准确按照预定轨迹运动,同时保证优良的跟踪性能。结合基于旋转矩阵表示姿态的AUV运动学和动力学模型的研究,考虑模型不确定性和外界干扰的AUV数学模型可以被描述为:

$ \left\{\begin{aligned} &\dot{\eta }={\boldsymbol{R}}\nu,\dot{{\boldsymbol{R}}}={\boldsymbol{R}}\omega ^\land,\\ &\boldsymbol{M}\dot{\boldsymbol{V}}+\boldsymbol{C}(\boldsymbol{V})\boldsymbol{V}+\boldsymbol{D}(\boldsymbol{V})\boldsymbol{V}+\boldsymbol{G}(\boldsymbol{R})={\tau }_{a}+{\tau }_{d}。\end{aligned}\right. $ (1)

式中:$ \eta ={[x,y,z]}^{\text{T}} $为AUV的位置坐标;$ R\in {\mathbb{R}}^{3\times 3} $为旋转矩阵,$ \nu ={[u,v,w]}^{\text{T}} $为线速度;$ \omega ={[p,q,r]}^{\text{T}} $为角速度;$ \boldsymbol{V}={[{{\nu }^{\text{T}}},{{\omega }^{\text{T}}}]}^{\text{T}} $为AUV线速度和角速度的集合;$ \boldsymbol{M}\in {\mathbb{R}}^{6\times 6} $为正定惯性矩阵;$ \boldsymbol{C}(\boldsymbol{V})\in {\mathbb{R}}^{6\times 6} $为科里奥利力向心力;$ \boldsymbol{D}(\boldsymbol{V})\in {\mathbb{R}}^{6\times 6} $为流体动力学阻尼项$ \boldsymbol{G}(\boldsymbol{R})\in {\mathbb{R}}^{6\times 1} $为包括重力和浮力在内的恢复力。在实际工程设计中,由于研究者无法精确地获得上述参数的具体数值,因此设计一种完全独立于模型信息的控制策略显得尤为重要,即所涉及的控制算法不涉及上述参数。$ {\tau }_{a}\in {\mathbb{R}}^{6\times 1} $为实际的控制输入;$ {\tau }_{d}\in {\mathbb{R}}^{6\times 1} $为 AUV运动中受到的外部干扰。

随之,位置误差$ {\eta }_{{e}} $和姿态误差$ {R}_{{e}} $可被设计为:

$ \left\{\begin{split}& {\eta }_{{e}}=\eta -{\eta }_{d},\\ &{\boldsymbol{R}}_{{e}}={\boldsymbol{R}}_{d}^{\text T}{\boldsymbol{R}}。\end{split}\right. $ (2)

显然,$ {\boldsymbol{R}}_{{e}} $也属于特殊正交群SO(3)。根据SO(3)的定义以及式(2),可推导出当AUV达到目标姿态配置时,即$ {\boldsymbol{R}}={\boldsymbol{R}}_{d} $,此时$ {\boldsymbol{R}}_{{e}} $满足$ {\boldsymbol{R}}_{{e}}={I}^{3\times 3} $

定义在参考坐标系中的$ {\nu }_{d}\in {\mathbb{R}}^{3} $$ {\omega }_{d}\in {\mathbb{R}}^{3} $分别为AUV的期望线速度和期望角速度。因此,基于旋转矩阵的AUV误差动力学方程为:

$ {\dot{\eta }}_{e}={\boldsymbol{R}}\nu -{\boldsymbol{R}}_{d}{\nu }_{d}={\boldsymbol{R}}{\nu }_{e}, $ (3)
${ {\dot {\boldsymbol{R}}_e} = - \omega _d^ \wedge {\boldsymbol{R}}_d^{\text{T}}{\boldsymbol{R}} + {\boldsymbol{R}}_d^{\text{T}}{\boldsymbol{R}}{\omega ^ \wedge } = {\boldsymbol{R}}_d^{\text{T}}{\boldsymbol{R}}{(\omega - {\boldsymbol{R}}_d^{\text{T}}{{\boldsymbol{R}}_d}{\omega _d})^ \wedge } = {{\boldsymbol{R}}_e}{\omega _e}。} $ (4)

式中:$ {\nu }_{e}=\nu -{\boldsymbol{R}}_{{e}}^{\text{T}}{\nu }_{d} $$ {\omega }_{e}=\omega -{\boldsymbol{R}}_{{e}}^{\text{T}}{\omega }_{d} $分别为运动坐标系B中描述的速度误差。式中,$ {\boldsymbol{R}}_{{e}}^{\text{T}}{\nu }_{d} $$ {\boldsymbol{R}}_{{e}}^{\text{T}}{\omega }_{d} $表示在参考坐标系中的期望线速度$ {\nu }_{d} $和期望角速度$ {\omega }_{d} $转换到运动坐标系。式(4)的推导主要借助于斜对称矩阵的计算性质。值得注意的是,姿态误差动力学中的$ {\dot{\boldsymbol{R}}}_{{e}} $是一个$ 3\times 3 $的矩阵,这会导致控制器设计的复杂化。为了保持和欧几里得空间相似的设计过程,将会引入一个可供替代的姿态误差向量$ {\sigma }_{e}\in {\mathbb{R}}^{3} $,通过一个$ 3\times 1 $的误差矢量代替$ 3\times 3 $的误差矩阵,将有效减少控制器设计的复杂性。

定义$ {\varpi }_{{e}}\in {\mathbb{R}}^{3} $为绕X轴旋转,则对任意的$ \left|\left|{\varpi }_{{e}}\right|\right|\leqslant {\text{π}} $都有$ {\varpi }_{{e}} $/$ \left|\left|{\varpi }_{{e}}\right|\right| $$ =[1,0,0] $。如图1(a)所示,过去研究的姿态误差向量$ \sigma _{e}^{*} $随着旋转向量$ \left|\left|{\varpi }_{e}\right|\right| $变大而变小[12-13]。这意味着大角度旋转的机动会对应较小的姿态误差,这会导致在设计控制器时使其产生的力不足。考虑到这一缺陷,构造了$ {\sigma }_{e}={(2\sqrt{1+tr({R}_{{e}})})}^{-1} ({R}_{{e}}-R_{{e}}^{\text{T}}) $的可供替代的新姿态误差向量去避免现象。通过图1(b)对$ {\sigma }_{e} $的描述可知,$ {\sigma }_{e} $$ \left|\left|{\varpi }_{e}\right|\right| $能够成正比,这可以保证当旋转角度在变大时控制器能够产生足够的力。此外,由于$ \left|\left|{\varpi }_{e}\right|\right| $的导数难以求解,这将加大跟踪误差动力学方程建立的难度。所以,本文构建了一个可供替代的误差向量$ {\sigma }_{e} $而不是直接采用旋转向量$ {\varpi }_{e} $

图 1 姿态误差向量和旋转向量的关系 Fig. 1 Relationship between rotation vector and attitude error vector

实际上,由于复杂的海洋环境,执行器常会出现效率下降和偏差故障。为了便于后续推导,实际的控制输入可表示为:

$ {\tau }_{a}=\boldsymbol{E}{\tau }_{\eta }+{\overline{\tau }}_{\eta }。$ (5)

式中:$ \boldsymbol{E}={\mathrm{diag}}\{{e}_{1},{e}_{2},\cdots ,{e}_{6}\}\in {\mathbb{R}}^{6\times 6} $为效率矩阵,具有$ 0 \leqslant {e}_{i} \leqslant 1 $$ {\tau }_{\eta }\in {\mathbb{R}}^{6\times 1} $为期望控制输入以及$ {\overline{\tau }}_{\eta }\in {\mathbb{R}}^{6\times 1} $意外的偏差故障。对于偏置故障,设计人员通常将其视为施加在AUV系统上的有界外部干扰。对于效能损失故障,若$ {e}_{i}=0 $条件成立,则表示有至少一个执行器存在完全故障。在这种情况下,AUV系统变得欠驱动,这超出了本文的研究范围。

近些年,神经网络由于其对非线性函数具有令人满意的逼近效果,被广泛运用在AUV的控制器设计中,对系统中存在的集总干扰进行补偿。相比于大多数传统的递归神经网络不同,例如径向基神经网络会在线更新所有连接权重,而回声状态网络则不需要更新隐藏层(即储备池)中的连接权重。相反,这些权重通常在训练过程中被随机初始化,并在训练过程中保持不变。只有输出权重通过线性回归方法或其他学习算法进行训练,这大大降低了计算负担并提高了收敛速度。从输入层整合的信号被储层中的神经元接收,并能以更高维形式表示,该状态更新式为:

$ h(k)={f}_{act}({W}_{{\mathrm{in}}}z(k)+Wh(k-1)+{W}_{fb}{y}_{{\mathrm{out}}}(k-1))。$ (6)

同时,回声状态网络(见图2)的输出可被计算为:

图 2 回声状态网络框图 Fig. 2 scheme diagrams of the echo state network
$ {y}_{{\mathrm{out}}}(k)={\boldsymbol{W}}_{{\mathrm{out}}}^{\text T}h(k) 。$ (7)

式中:k为时间步长;h为储层状态的矩阵;$ z\in {\mathbb{R}}^{M} $为回声状态网络的输入以及$ {y}_{{\mathrm{out}}}\in {\mathbb{R}}^{P} $是回声状态网络的输出。$ {f}_{act} $为神经网络的激活函数;$ {\boldsymbol{W}}_{{\mathrm{in}}}\in {\mathbb{R}}^{M\times N} $为从输入层到储备池的连接权重矩阵;$ {\boldsymbol{W}}\in {\mathbb{R}}^{N\times N} $为储层的链接权重矩阵;$ {\boldsymbol{W}}_{fb}\in {\mathbb{R}}^{P\times N} $为从输出层到储层的连接权重矩阵。其中,MNP分别为输入层、储层和输出层的单位数。值得注意的是,权重$ {\boldsymbol{W}}_{{\mathrm{in}}} $$ {\boldsymbol{W}} $$ {\boldsymbol{W}}_{fb} $是随机生成的,而输出权重$ {\boldsymbol{W}}_{{\mathrm{out}}} $则通过学习方法在线更新。

基于以上对于ESN结构的介绍,在提出控制框架之前,首先引入相关引理,便于后续对所提出的算法进行稳定性分析,相似的理论也有提出:

引理1 如果存在足够数量的神经元,神经网络的输出就能在紧集Ωz内以任意理想的精度ε > 0逼近任意给定的任意连续函数$ f(z) $$ {\mathbb{R}}^{n}\rightarrow \mathbb{R} $,从而满足以下条件:

$ {\sup }_{z\in {{\Omega }_{{z}}}}\left| f(z)-{y}_{{\mathrm{out}}}(z)\right| \leqslant \varepsilon。$ (8)

如此,函数$ f(z) $可以表示为:

$ f(z)=W_{{\mathrm{out}}}^{*\text T}h(z)+\varepsilon *,\forall z\in {\Omega }_{z} 。$ (9)

式中:$ \left| \varepsilon *\right| \leqslant \varepsilon $为最小逼近误差。$ {\boldsymbol{W}}_{{\mathrm{out}}}^{*{\mathrm{T}}}\in {\mathbb{R}}^{N} $为最优输出矩阵,可以最小化$ \varepsilon * $。基于以上分析,即有:

$ W_{{\mathrm{out}}}^{*}=\arg \underset{W_{{\mathrm{out}}}^{\text{T}}\in {\mathbb{R}}^{N}}{\min }\{{\sup }_{{{}_{z\in {{\Omega }_{z}}}}}\left| f(z)-W_{{\mathrm{out}}}^{*\text{T}}h(z)\right| \}。$ (10)
2 控制方案设计及稳定性分析 2.1 控制目标

本节致力于开发一种用于旋转矩阵姿态表示的AUV轨迹跟踪的自适应无模型容错控制算法,该算法可以在考虑集总干扰和执行器故障的情况下,使AUV的位置和姿态达到期望值,同时为了确保姿态误差在约束中演变,从而位置误差和姿态误差满足:

$ \underset{t\rightarrow \mathrm{\infty }}{\lim }\left|\left|{[{\eta _{e}^{\text{T}}},{\sigma _{e}^{\mathrm{T}}}]}^{\text{T}}\right|\right| \leqslant \Theta ,\left|\left|{\sigma }_{e}(t)\right|\right| \leqslant 1。$ (11)

式中:$ \forall t\in {\mathbb{R}}^{+}\cup +\mathrm{\infty } $$ \Theta $为一个正数。$ {\eta }_{{e}}=\eta -{\eta }_{{d}}\;{\eta }_{{e}} $为位置跟踪误差;$ {\sigma }_{e}={(2\sqrt{1+tr({R}_{{e}})})}^{-1}({R}_{{e}}-R_{{e}}^{\text{T}}) $为姿态跟踪误差,且$ {\dot{\sigma }}_{e}=E{\omega }_{e} $

2.2 基于旋转矩阵的自适应无模型参数容错控制方案设计

在实际控制算法设计中,研究者们往往无法精确得知控制参数的信息。所以与依赖模型的控制方法相比,本文通过采用滑模控制架构和分层回声状态网络建立无模型参数的控制策略。尽管水下航行器具有高度耦合的非线性特性,但仍能取得令人满意的性能。首先,设计如下的滑模信号:

$ s=\dot{e}+ke+{k}_{2}p({\sigma }_{e})。$ (12)

式中:$ e $为包含位置误差和姿态误差的集总误差,可表示为$ e={[{\eta _{e}^{\text{T}}},{\sigma _{e}^{\text{T}}}]}^{\text{T}} $$ {\boldsymbol{k}} $为正定对角矩阵。$ p({\sigma }_{e})=[{{0}^{1\times 3}}, {{(1-{{\sigma }_{e}}{{}^{\text{T}}}{{\sigma}_{e}})}^{-\text{T}}}{{\sigma}_{e}}{{}^{\text{T}}}]^{\text{T}} $用来保证姿态误差在约束$ \left|\left|{\sigma }_{e}(t)\right|\right| \leqslant 1 $中演变。同时,计算$ s $关于时间的导数为:

$ \dot{s}=\dot{\Lambda }\left[\begin{matrix}{\nu }_{e}\\ {\omega }_{e}\\ \end{matrix}\right]+\Lambda \left[\begin{matrix}{\dot{\nu }}_{e}\\ {\dot{\omega }}_{e}\\ \end{matrix}\right]+k\left[\begin{matrix}{\dot{\eta }}_{e}\\ {\dot{\sigma }}_{e}\\ \end{matrix}\right]+{{\boldsymbol{k}}}_{2}\dot{P}({\sigma }_{e})。$ (13)

式中:$ \Lambda =\left[\begin{matrix}{\boldsymbol{R}} & {0}_{3\times 3}\\ {0}_{3\times 3} & E\\ \end{matrix}\right] $

将相关公式代入得:

$ \dot{s} = \dot{\Lambda }\left[\begin{matrix}{\nu }_{e}\\ {\omega }_{e}\\ \end{matrix}\right] + \Lambda \left[\begin{matrix}\dot{\nu } - {\dot{R}}^{\text{T}}{R}_{d}{\nu }_{d} - {R}^{\text{T}}{R}_{d}{\dot{\nu }}_{d}\\ \dot{\omega } - {\dot{R}}^{\text{T}}{R}_{d}{\omega }_{d} - {R}^{\text{T}}{R}_{d}{\dot{\omega }}_{d}\\ \end{matrix}\right] + k\Lambda \left[\begin{matrix}{\nu }_{e}\\ {\omega }_{e}\\ \end{matrix}\right] + {k}_{2}\dot{P}({\sigma }_{e})。$ (14)

最后可得$ s $关于时间的导数为:

$ \dot{s}=\Lambda \left[\begin{matrix}\dot{v}\\ \dot{\omega }\\ \end{matrix}\right]+(\dot{\Lambda }+k\Lambda )\left[\begin{matrix}{v}_{{e}}\\ {\omega }_{e}\\ \end{matrix}\right] -\Lambda \left[\begin{matrix}\dot{{R}}_{e}^{\text{T}}{v}_{d}+{R}_{{e}}^{\text{T}}{\dot{v}}_{d}\\ \dot{{R}}_{{e}}^{\text{T}}{\omega }_{d}+{R}_{e}^{\text{T}}{\dot{\omega }}_{d}\\ \end{matrix}\right]+{k}_{2}\dot{P}({\sigma }_{e})。$ (15)

为了更好地实现分层回声状态网络估计的效果,首先要明确估计对象,将式(5)代入式(15)即有:

$ \dot{s}=\Lambda \boldsymbol{B}{\tau }_{\eta }+\boldsymbol{F},$ (16)
$ \begin{split}\boldsymbol{F}=&\Lambda {\boldsymbol{M}}^{-1}({\overline{\tau }}_{\eta }-\boldsymbol{C}(\boldsymbol{V})\boldsymbol{V}-\boldsymbol{D}(\boldsymbol{V})\boldsymbol{V} -\\ &\boldsymbol{G}(\boldsymbol{R})-{\tau }_{f})+(\dot{\Lambda }+{\boldsymbol{k}}\Lambda )\left[\begin{matrix}{v}_{e}\\ {\omega }_{e}\\ \end{matrix}\right]-\left[\begin{matrix}\dot{{R}}_{{e}}^{\text{T}}{v}_{d}+{R}_{{e}}^{\text{T}}{\dot{v}}_{d}\\ \dot{{R}}_{e}^{\text{T}}{\omega }_{d}+{R}_{{e}}^{\text{T}}{\dot{\omega }}_{d}\\ \end{matrix}\right]。\end{split} $ (17)

式中:$ \boldsymbol{B}={\boldsymbol{M}}^{-1}\mathbb{E} $为控制增益矩阵,$ \boldsymbol{F} $为集总干扰和执行器偏置故障。在这里,$ \boldsymbol{B} $$ \boldsymbol{F} $都不可精确测量,因此不能直接用于控制器的设计过程中。基于引理1的提出,以及归功于回声状态网络的估计能力,分别构造控制增益网络和关联搜索网络用以估计$ \boldsymbol{B} $$ \boldsymbol{F} $,其具体形式如下:

$ \boldsymbol{B}=\left[\begin{matrix}h_{{b}_{11}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b} & \cdots & h_{{b}_{1n}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b}\\ \vdots & \ddots & \vdots \\ h_{{b}_{n1}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b} & \cdots & h_{{b}_{nn}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b}\\ \end{matrix}\right]+{\varepsilon }_{b}({x}_{b}),$ (18)
$ \boldsymbol{F}=h_{f}^{\text{T}}({x}_{f})\boldsymbol{W}_{f}+{\varepsilon }_{f}({x}_{f}) 。$ (19)

式中:$ {h}_{{{b}_{ij}}}\in {\mathbb{R}}^{{{N}_{b}}} $$ {h}_{f}=[{h}_{f1},\cdots ,{h}_{f6}]\in {\mathbb{R}}^{{{N}_{f}}\times 6} $$ {h}_{f1}\in {\mathbb{R}}^{{{N}_{f}}} $$ i,j=1,\cdots ,6 $分别为控制增益网络和关联搜索网络的储层状态。$\boldsymbol{W}_{b}\in {\mathbb{R}}^{{{N}_{b}}} $$ \boldsymbol{W}_{f}\in {\mathbb{R}}^{{{N}_{f}}} $则是这2个网络未知的输出权重矩阵,分别可以用来最小化逼近误差$ {\varepsilon }_{b} $$ {\varepsilon }_{f} $$ {N}_{b} $$ {N}_{f} $分别为控制增益网络和综合搜索网络储层的维度。$ {x}_{b} $$ {x}_{f} $分别为这2个网络的输入信号。为了方便控制器的设计和稳定性的分析,定义如下等式:

$ {\boldsymbol{U}}_{b}(x,\boldsymbol{W}_{b})=\left[\begin{matrix}h_{{b}_{11}}^{\text{T}}\boldsymbol{W}_{b} & \cdots & h_{{b}_{1n}}^{\text{T}}\boldsymbol{W}_{b}\\ \vdots & \ddots & \vdots \\ h_{{b}_{n1}}^{\text{T}}\boldsymbol{W}_{b} & \cdots & h_{{b}_{nn}}^{\text{T}}\boldsymbol{W}_{b}\\ \end{matrix}\right]。$ (20)

如果存在一个向量$ \mu \in {\mathbb{R}}^{n} $满足:

$ {\boldsymbol{U}}_{b}(x,\boldsymbol{W}_{b})\mu ={P}_{b}(x,\mu )\boldsymbol{W}_{b}。$ (21)

根据式(20)和式(21),那么$ {P}_{b}(x,\mu ) $可以表示为:

$ {P}_{b}(x,\mu )=\left[\begin{matrix}h_{{b}_{11}}^{\text{T}}{\mu }_{1}+\cdots +h_{{b}_{1n}}^{\text{T}}{\mu }_{n}\\ \vdots \\ h_{{b}_{n1}}^{\text{T}}{\mu }_{1}+\cdots +h_{{b}_{nn}}^{\text{T}}{\mu }_{n}\\ \end{matrix}\right]。$ (22)

根据上述的讨论和定义,针对基于旋转矩阵表示姿态的AUV误差动力学,提出如下的自适应无模型容错控制策略:

$ {\tau }_{n}={\Lambda }^{-1}({\tau }_{1}-({\alpha }_{1}{\left|\left|{\tau }_{1}\right|\right|}^{2}+{\alpha }_{2}{\left|\left|{\tau }_{2}\right|\right|}^{2})s) ,$ (23)
$ {\tau }_{1}=\frac{{\mathrm{Adj}}({\boldsymbol{U}}_{b}({x}_{b},{\hat{W}}_{b})){\mathrm{Det}}({\boldsymbol{U}}_{b}({x}_{b},{\hat{W}}_{b}))}{{\mathrm{Det}}^{2}({\boldsymbol{U}}_{b}({x}_{b},{\hat{W}}_{b}))+\delta }{\tau }_{2},$ (24)
$ {\tau }_{2}=h_{f}^{{\mathrm{T}}}{\hat{W}}_{f}+\gamma s+{\alpha }_{3}s。$ (25)

式中:符号$ {\mathrm{Adj}}(\cdot ) $$ {\mathrm{Det}}(\cdot ) $分别为矩阵的伴随矩阵和行列式。$ {\alpha }_{1}、{\alpha }_{2}、{\alpha }_{3} $$ \gamma $分别为一些设定的正数。$ {\boldsymbol{U}}_{b}({x}_{b}, {W}_{b}) $$ h_{f}^{\text T}{\hat{W}}_{f} $分别被设计为控制增益网络和关联搜索网络,被用来估计$ \boldsymbol{B} $$ \boldsymbol{F} $$ \delta $为一个正数,用来减少控制中的抖振现象。

上述控制算法中的输出权重矩阵,满足如下更新规律:

$ {\dot{\hat{W} }}_{f}={h}_{f}L-{\beta }_{1}{\hat{W}}_{f} ,$ (26)
$ {\dot{\hat{W} }}_{b}=P_{b}^{\text{T}}({x}_{b},{\tau }_{1})s-{\beta }_{2}{\hat{W}}_{b},$ (27)
$ {\dot{\hat{W} }}_{c}=-{h}_{c}h_{f}^{\text{T}}{\hat{W}}_{f}-{\beta }_{3}{\hat{W}}_{c} 。$ (28)

式中:$ {\beta }_{1} \gt 1,0 \lt {\beta }_{2} \lt 1,{\beta }_{3} \gt 1 $。式(26)中设计自适应批评网络$ L=s+h_{c}^{\text T}{\hat{W}}_{c} $,是为了获取强化信号,进一步提升对集总干扰的逼近效果。与以往选择强化信号不同,将“1”作为成功的强化信号,将“0”作为失败的强化信号;神经网络的输出被视为评估和规范行动者神经网络性能的强化信号。本文训练一个内部连续时间的强化信号,该信号通过滑模控制(一次强化)和自适应批评网络输出(二次强化)相结合,得到一个信息量更大的强化信号。增强了控制系统的可靠性和精度。开发控制的原理如图3所示。所提出的控制器由3个神经网络组成,其中控制增益网络(CGN)用于估计时变且未知的控制增益矩阵,负责处理系统的集总不确定性并将其反馈给控制器的网络称为综合搜索网络(CSN),同时它通过由协同应批评网络(CCN)获得的增强信号进行调整。大多数强化学习方法通过智能体与动态环境的试错交互来学习其行为,而本文提出的方法则是通过从李雅普诺夫稳定性理论推导的更新律在线调整CGN、CCN和CGN的权重,这不仅可以显著缩短学习时间,同时还能保持系统的稳定性。

图 3 分层RL-ESN容错控制框架 Fig. 3 The block diagram of the Hierarchical RL-ESN fault-tolerant control framework

与以往研究不同,本文所开发控制策略的主要优点是不再需要详细和精确的模型参数,这意味着模型不确定性和非线性耦合的负面影响可被有效地抑制。反过来说,该方法将提高鲁棒性和对参数不确定性的适应性。

2.3 稳定性分析

在2.2节中,为基于旋转矩阵表示姿态的AUV,开发了一种基于强化学习和回声状态网络的自适应无模型容错控制发难,以应对AUV的未知模型参数和执行器故障问题。所设计的控制器借助回声状态网络和强化学习,提出了控制增益网络、关联搜索网络和自适应批评网络,其中控制增益网络实现对时变控制增益的实时估计,对于系统中的集总干扰进行逼近的关联搜索网络,自适应批评网络则是为了提升整体的逼近效果,从而使得设计者无法得知AUV精确模型参数和执行器存在故障问题下,实现AUV对期望轨迹的跟踪控制。本节对上文提出的控制目标进行总结,以及构建Lyapunov函数对控制算法进行稳定性分析,已验证所提出控制算法的有效性。

为了更好地进行稳定性分析,首先提出一些假设,然后将本文的主要结果总结为相应定理。

假设2.1 逼近误差$ {\varepsilon }_{b} $$ {\varepsilon }_{f} $是有界的,这意味着存在2个正数使得$ \left|\left|{\varepsilon }_{b}\right|\right| \leqslant {\varepsilon }_{bm} $$ ||{\varepsilon }_{f}|| \leqslant {\varepsilon }_{fm} $

假设2.2 权重矩阵的的范数$ ||{W}_{f}||,\left|\left|{W}_{b}\right|\right| $$ \left|\left|{W}_{c}\right|\right| $也是有界的,即满足$ ||{W}_{f}|| \leqslant {w}_{fm},\left|\left|{W}_{b}\right|\right| \leqslant {w}_{bm} $$ \left|\left|{W}_{c}\right|\right| \leqslant {w}_{cm} $,其中$ {W}_{fm}$$ {W}_{bm} $$ {W}_{cm} $是存在的某些正数。

假设2.3 定义$ {B}^{*}(\cdot )=({B}^{\text{T}}+B)/2 $,并且$ {B}^{*} $认定为一个正定矩阵,而不是一般性。因此,存在一个位置常数$ {b}_{0} \gt 0 $,满足$ 0 \lt {b}_{0} \lt \min \{e\mathrm{i}g({B}^{*})\} $

参考以往的工作,假设2.1和假设2.2被广泛的包含在最优误差和近似误差的研究中。此外,在文献中对假设2.3进行解释,以保证系统可控。基于以上分析,假设2.1~假设2.3合理。

定理2.1 针对一个全驱动旋转矩阵姿态表示的AUV系统,利用所制定的控制方案式(23)~式(25),自适应律式(26)~式(28)和强化信号。同时,以上所有假设都成立。该方法自适应地解决了基于旋转矩阵的带有执行器失效和未知动力学的跟踪误差动力学问题。这意味着控制目标$ \underset{t\rightarrow \mathrm{\infty }}{\lim }\left|\left|{[{\eta _{e}^{\text{T}}},{\sigma _{e}^{\text{T}}}]}^{\text{T}}\right|\right|=\Theta $$ \left|\left|{\sigma }_{e}(t)\right|\right| \lt 1, $$ \forall t\in {\mathbb{R}}^{+}\cup +\mathrm{\infty } $都可以实现。

证明:定理2.1的有效性将通过以下3个步骤来证明。首先,利用基于旋转矩阵的控制式(23)~式(25),得出滑模面s的稳定性。然后,推导出可供替代姿态误差向量始终保持在约束$ \left|\left|{\sigma }_{e}(t)\right|\right| \lt 1 $中演变。基于以上分析,可以验证位置跟踪误差$ {\eta }_{e} $和姿态跟踪误差$ {\sigma }_{e} $能够收敛至一个很小的区域内。

在上述背景下,为了证明s的渐近稳定性,选择如下Lyapunov函数:

$ {V}_{1}=\frac{1}{2}{s}^{\text{T}}s+\frac{1}{2}\tilde{W}_{f}^{\text{T}}{\tilde{W}}_{f}+\frac{1}{2}\tilde{W}_{b}^{\text{T}}{\tilde{W}}_{b}+\frac{1}{2}\tilde{W}_{c}^{\text{T}}{\tilde{W}}_{c}。$ (29)

式中:$ {\tilde{W}}_{f},{\tilde{W}}_{b} $$ {\tilde{W}}_{c} $为估计误差,表达为$ {\tilde{W}}_{f}= {W}_{f}-{\hat{W}}_{f}, {\tilde{W}}_{b}={W}_{b}-{\hat{W}}_{b} $$ {\tilde{W}}_{c}={W}_{c}-{\hat{W}}_{c} $。于是,基于RL-ESN观测器的s时间导数和期望的控制输入$ {\tau }_{d} $代入$ {V}_{1} $的一次导数,可得:

$ \begin{split}{\dot{V}}_{1}=&{s}^{\text{T}}(\boldsymbol{B}{\tau }_{1}+\boldsymbol{F})-\tilde{\boldsymbol{W}}_{f}^{\text{T}}{\dot{\hat{\boldsymbol{W}} }}_{f}-\tilde{\boldsymbol{W}}_{b}^{\text{T}}{\dot{\hat{\boldsymbol{W}} }}_{b} -\\ &\tilde{\boldsymbol{W}}_{c}^{\text{T}}{\dot{\hat{\boldsymbol{W}} }}_{c}-({\alpha }_{1}{\left|\left|{\tau }_{1}\right|\right|}^{2}+{\alpha }_{2}{\left|\left|{\tau }_{2}\right|\right|}^{2}){s}^{\text{T}}\boldsymbol{B}。\end{split} $ (30)

$ {\dot{V}}_{1} $进一步化简得到:

$ \begin{split} \dot{V}_1 =& -\gamma s^\text{T} s + s^\text{T} \varepsilon_f - \alpha_3 s^\text{T} s + \beta_1 \tilde{\boldsymbol{W}}_f^\text{T} \hat{\boldsymbol{W}}_f+ \\ & \beta_2 \tilde{\boldsymbol{W}}_b^\text{T} \hat{\boldsymbol{W}}_b + \beta_3 \tilde{\boldsymbol{W}}_c^\text{T} \hat{\boldsymbol{W}}_c + \tilde{\boldsymbol{W}}_c^\text{T} h_c \hat{\boldsymbol{W}}_f^\text{T} h_f - \\ & \tilde{\boldsymbol{W}}_f^\text{T} h_f h_{ac}^\text{T} \hat{\boldsymbol{W}}_{ac} - \alpha_1 \|\tau_1\|^2 s^\text{T} B s + \\ & \delta (Det^2(\boldsymbol{U}_b(x_b, \hat{\boldsymbol{W}}_b))) + \delta^{-1} s^\text{T} \tau_2 -\\ & \alpha_2 \|\tau_2\|^2 s^\text{T} B s + s^\text{T} \varepsilon_b \tau_1。\end{split} $ (31)

基于Young不等式和假设,将不等式进一步简化,可得$ {V}_{1} $$ {\dot{V}}_{1} $的关系:

$ \begin{split} {{\dot V}_1} \leqslant & - \gamma s{^2} - \frac{{{\beta _1} - 1}}{2}{{\tilde W}_f}{^2} - \frac{{{\beta _2}}}{2}{\tilde {\boldsymbol{W}}_b}{^2} + \\ & \frac{{{\beta _3} - 1}}{2}{\tilde {\boldsymbol{W}}_c}{^2} + \frac{{\varepsilon _{bm}^2}}{{4{\alpha _1}{b_0}}} + \frac{1}{{4{\alpha _2}{b_0}}} + \\ & \frac{{\varepsilon _{fm}^2}}{{4{\alpha _3}}} + \frac{1}{2}\left( {{\beta _1}w_{fm}^2 + {\beta _2}w_{bm}^2 + {\beta _3}w_{cm}^2} \right) + \\ & \frac{1}{2}{\left( {{h_f}{h_c}} \right)^2}\left( {w_{cm}^2 + w_{fm}^2} \right) \leqslant - {\kappa _1}{V_1} + \kappa_2,\end{split} $ (32)
$ \begin{split} k_2=&\frac{\varepsilon_{bm}^2}{4\alpha_1b_0}+\frac{1}{4\alpha_2b_0}+\frac{\varepsilon_{fm}^2}{4\alpha_3} + \\ & \frac{1}{2}\left(\beta_1w_{fm}^2+\beta_2w_{bm}^2+\beta_3w_{cm}^2\right) + \\ & \frac{1}{2}\left(\|h_f\|\left\|h_c\right\|\right)^2\left(w_{cm}^2+w_{fm}^2\right)。\end{split} $ (33)

式中:$ \kappa_1=\min (2\gamma ,{\beta }_{1}-1,{\beta }_{2},{\beta }_{3}-1) \gt 0 $。基于式(32)~式(33),易证得$ {V}_{1} $最终是一致有界的。此外,$ {V}_{1} $将会收敛至很小区域$ {V}_{1} \leqslant {\kappa }_{2}/\kappa_1 $。基于以上分析,可以推导出s将会收敛至如下一个范围:

$ \left|\left|s\right|\right| \leqslant \sqrt{\frac{2{\kappa }_{2}}{{\kappa }_{1}}}。$ (34)

通过以上证明过程,能够得出所提出控制方案的可行性和稳定性。参考前文对姿态误差$ {\sigma }_{e} $满足在约束中$ \{{\sigma }_{e}|\left|\left|{\sigma }_{e}\right|\right| \lt 1\} $的证明,为了进一步强化证明过程,首先定义一个李雅普诺夫函数:

$ {V}_{2}=\frac{1}{2}{\sigma }_{e}{}^{\text{T}}{\sigma }_{e}。$ (35)

上文关于滑模面$ s $中的$ k $是一个对角正定矩阵。为了证明过程简便,定义$ k={\mathrm{diag}}\{{k}_{4}, {k}_{5},{k}_{6}\} $。求$ {V}_{2} $关于时间的导数,即有:

$ \dot{V}_2 = \sigma_e^\text{T} \dot{\sigma}_e = \sigma_e^\text{T} \left( s - k \cdot \sigma_e - k_2 \left( 1 - \sigma_e^\text{T} \sigma_e \right)^{-\text{T}} \sigma_e^\text{T} \right)。$ (36)

基于Young不等式,将式(36)进一步化简,即有:

$ {\dot{V}}_{2} \leqslant \frac{-({k}_{2}+{s}^{\text{T}}s){\sigma }_{e}{}^{\text{T}}{\sigma }_{e}+{s}^{\text{T}}s}{1-{s}^{\text{T}}s} 。$ (37)

归功于 LaSalle 不变集定理,可知:

$ \left|\left|{\sigma }_{e}\right|\right| \leqslant \sqrt{\frac{{s}^{\text{T}}s}{4{k}_{2}+{s}^{\text{T}}s}} \lt 1。$ (38)

通过以上分析,只要滑模面$ s $是有界的,姿态误差$ {\sigma }_{e} $总能在约束$ \left|\left|{\sigma }_{e}\right|\right| \lt 1 $中演变。根据关于$ s $的结论,可以得出对$ {\sigma }_{e} $施加的约束并不会被违反。此时,控制目标式(11)中关于位置误差的收敛得到确认。

为了验证控制目标式(11)中关于姿态误差的收敛,将式(12)代入式(34)中,即有:

$ \left|\left|e\right|\right| \leqslant \sqrt{\frac{2{\kappa }_{2}}{{\kappa }_{1}\lambda _{\min }^{2}(k)}} 。$ (39)

其中,$ {\lambda }_{\min }(\cdot ) $$ k $最小的特征值。基于以上分析,位置误差$ {\eta }_{e} $和姿态误差$ {\sigma }_{e} $最终将会收敛至控制目标式(11)所示的一个小区域,即:

$ \Theta = \left\{ \left[ \eta_e^\text{T}, \sigma_e^\text{T} \right]^\text{T} \mid \left\| \left[ \eta_e^\text{T}, \sigma_e^\text{T} \right]^\text{T} \right\| \leqslant \sqrt{\frac{2 \kappa_2}{\kappa_1 \lambda_{\min}^2 (k)}} \right\}。$ (40)

本节,通过基于Lyapunov稳定性分析的方法,验证了所提出的控制方案能够有效实现基于旋转矩阵姿态表示的AUV跟踪控制。本节通过构建3个基于回声状态网络的观测器,包括对时变控制增益逼近的控制增益网络,对集总干扰和不确定性逼近的关联搜索网络以及针对关联搜索网络提供强化信号的自适应批评网络。通过这3个网络共同工作,以实现自适应无模型参数控制,同时将执行器故障情形考虑在内,进一步提升控制策略的鲁棒性。同时,本文所提出分层网络方案的控制增益参数如表1所示。

表 1 所提出的控制方案的参数 Tab.1 Parameters of the proposed control scheme
3 数值仿真

在前述理论分析中,提出一种自适应分层网络容错控制方案式(23)~式(25),旨在执行器存在故障的情况下,也能有效实现AUV的大角度旋转机动。区别于传统的姿态表示方法,基于旋转矩阵的误差动力学方法提供了全局唯一的姿态表示,同时引入可供替代的姿态误差矢量使控制器设计相对简化。与此同时,该分层网络框架包含3个关键组成部分:控制增益网络(CGN)、协作批评网络(CCN)和综合搜索网络(CSN)。其中,CGN负责估计时变的控制增益,CSN有效处理集总不确定性,而CCN则提供强化信号,以提升系统的整体学习能力。

为了评估所提出控制结构的效果,本文的具体模型参数参考文献[14]进行了2次针对使用旋转矩阵姿态表示方法的AUV仿真实验。第一次仿真展示了系统在正常执行器操作下对抗不确定性和外部干扰的鲁棒性,突出了控制策略的无模型优势。第二次仿真将执行器故障纳入考虑,主要是为了验证控制框架的容错能力。所提出的控制方案基于强化学习,已对CSN、CCN和CGN中的神经元数量进行了测试,设置为60个神经元。3个分层网络的输入权重$ {W}_{{\mathrm{in}}} $和反馈权重$ {W}_{fb} $在[−0.1,0.1]和[−0.01,0.01]内随机生成。$ {W}_{f}、{W}_{b} $$ Wc $的谱半径选为0.85。总仿真时间设定为50 s。为了更好地展示对外部干扰的鲁棒性,首先需要对施加于AUV的外部干扰进行建模。然而,需特别指出,这些预定义的不确定性模型并未直接用于控制器设计中。它们仅旨在提供一种更有效的手段来评估控制器性能。此外,鉴于文献[15-16],仿真中的外部干扰设计为:

$ \left\{\begin{split}&{\tau }_{d1}=2\sin (0.3t),\\ &{\tau }_{d2}=5\cos (0.3t)-2\sin (0.2t),\\ &{\tau }_{d3}=\sin (0.1t),\\ &{\tau }_{d4}=\sin (0.3t),\\ &{\tau }_{d5}=3\sin (0.5t)-\cos (0.1t),\\ &{\tau }_{d6}=6\sin (0.2t)。\end{split} \right.$ (41)
3.1 正常执行器

在本次仿真案例中,未考虑执行器故障。本仿真旨在展示使用旋转矩阵表示姿态的优越性,俯仰角的设计将超过$ \text π /2 $的范围。值得注意的是,$ R(0) $$ {R}_{d}(0) $分别为旋转向量,其中$ \varpi (0)={[0,0,0]}^{\text{T}} $$ {\varpi }_{d}(0)=\text π {[5/6,3/5,8/21]}^{\text{T}} $,即围绕$ {y} $轴的旋转角度大于$ \text π /2 $。正常执行器初始状态和参考轨迹如表2所示。

表 2 AUV的初始值和参考轨迹 Tab.2 The initial values of AUV and the reference trajectory

仿真结果展示了控制器在存在外部干扰情况下的性能,结果如图4图7所示。通过分析图4可知,可以推断即使存在外部干扰,控制效果依然稳定。此外,由于模型参数中的干扰和不确定性,分层网络自适应控制方案使AUV能够有效跟踪参考轨迹。图5图6显示了位姿跟踪和速度跟踪中均出现了抖振现象,但两者最终在25 s后收敛至0附近的一个有限范围内。抖振现象在早期阶段的主要原因是分层网络通过在线学习法则估算各种未知不确定性。

图 4 AUV三维轨迹跟踪 Fig. 4 3-D trajectory tracking of the AUV

图 5 位置跟踪误差和速度跟踪误差的时间响应 Fig. 5 Time responses of position tracking errors and attitude tracking errors

图 6 线速度和角速度跟踪误差的时间响应 Fig. 6 Time responses of linear velocity tracking errors and angular velocity tracking errors

图 7 控制信号的时间响应 Fig. 7 Time responses of control signal

图7为控制力矩关于时间的响应关系,进一步验证了分层网络架构的效率。

3.2 执行器故障

这里将执行器有效性损失故障和偏置故障纳入控制器设计中,将有效提高控制器的鲁棒性。执行器的有效性可设计为:

$ \mathbb{E}=\begin{cases} {{\mathrm{diag}}}\{1;1;1;1;1;1\},t \lt 2,\\ {\mathrm{diag}}\{0.7;0.7;0.7;0.7;0.7;0.7\},2 \leqslant t \lt 5,\\ {\mathrm{diag}}\{0.7;0.7;0.7;0.7;0.7;0.7\}+\\ \dfrac{7(t-2)}{2\;000}\text{diag}\{1;1;1;1;1;1\},5 \leqslant t \lt 8,\\ {\mathrm{diag}}\{0.5;0.5;0.5;0.5;0.5;0.5\},t\geqslant 8。\\ \end{cases} $ (42)

关于$ \mathbb{E} $的表达式表明,执行器的工作能力随着运行时间的增加而减小,不可避免的偏置故障也会影响执行机构的正常工作,其表达式为:

$ {\begin{split}&{\overline{\tau }}_{\eta }=[\sin (0.1t),\cos (0.2t),\sin (0.3t),\sin (0.7t),\\ &\qquad \cos (0.6t),\sin (0.5t){]}^{\text{T}}。\\ \end{split} }$ (43)

在第二个处理执行器故障的场景中,初始旋转矩阵$ {\boldsymbol{R}}(0) $$ \boldsymbol{R}_{d}(0) $可以从旋转向量$ \varpi (0)=\text π {[1/4,3/4,1/6]}^{\text{T}} $$ {\varpi }_{d}(0)=\text π {[0,0,0]}^{\text T} $推导得出。与欧拉角表示方法不同,这种姿态误差动力学的表述有效解决了与俯仰角相关的奇异性问题。此外,表3给出了AUV的初始状态以及期望轨迹,相应的仿真结果如图8图11所示。

表 3 AUV的初始状态以及期望轨迹 Tab.3 The initial state and desired trajectory of the AUV

图 8 AUV三维轨迹跟踪 Fig. 8 3-D trajectory tracking of the AUV

图 11 控制信号的时间响应 Fig. 11 Time responses of control signal

在执行器故障条件下,AUV在分层网络控制框架下仍能表现出对参考轨迹的良好跟踪性能, 如图8所示。此外,本研究提出的误差动力学使AUV能够执行任意大角度旋转机动。通过图9图10可得,与场景一无执行器故障类似,跟踪误差在前20 s内表现出抖振现象。随着自适应律作用,抖振现象在适宜值达到后逐渐减弱。

图 9 位置跟踪误差和姿态跟踪误差的时间响应 Fig. 9 Time responses of position tracking errors and attitude tracking errors

图 10 线速度跟踪误差和角速度跟踪误差的时间响应 Fig. 10 Time responses of linear velocity tracking errors and angular velocity tracking errors

图11为在执行器故障情况下的驱动力,展现出本文提出的分层网络在加速收敛方面的更高效率,凸显其在实时应用中的潜力。

4 结 语

本文面向旋转矩阵姿态表示的AUV运动学和动力学模型,提出了一种基于强化学习分层 ESN的无模型容错控制策略。区别于以往研究仍依赖部分模型参数信息的做法,该控制策略摆脱了对模型参数的依赖,借助回声状态网络与强化学习较强的学习能力和泛化能力,进一步减弱了模型不确定性对闭环系统性能的影响。同时,在模型不确定性和外部干扰共同存在的情况下,该策略仍表现出较强的执行器故障鲁棒性。

参考文献
[1]
崔健, 赵林, 于金鹏, 等. 多AUV系统的自适应有限时间一致性跟踪控制[J]. 中国海洋大学学报(自然科学版), 2019, 49(S1): 170-176.
CUI J, ZHAO L, YU J P, et al. Adaptive finite-time consensus tracking control for multi-AUV systems[J]. Journal of Ocean University of China (Natural Science Edition), 2019, 49(S1): 170-176.
[2]
伊戈, 刘忠, 张建强, 等. 基于改进终端滑模控制的USV航向跟踪控制方法[J]. 电光与控制, 2020, 27(10): 12-16+21.
YI G, LIU Z, ZHANG J Q, et al. USV heading tracking control method based on improved terminal sliding mode control[J]. Electronics Optics & Control, 2020, 27(10): 12-16+21. DOI:10.3969/j.issn.1671-637X.2020.10.003
[3]
李浩东. 基于深度强化学习的无人艇航迹控制的研究[D]. 镇江: 江苏科技大学, 2022.
[4]
CHAVEZ G J, LI J, CHAUDHARY A, et al. ASV station keeping under wind disturbances using neural network simulation error minimization model predictive control[J]. Journal of Field Robotics, 2024, 41(6): 1797-1813. DOI:10.1002/rob.22346
[5]
包涛, 陈卓, 周则兴, 等. 基于改进无模型自适应控制算法的无人艇路径跟随控制[J/OL]. 控制理论与应用, 2025,42(9): 1849−1857.
BAO T, CHEN Z, ZHOU Z X, et al. Path following control of unmanned surface vehicle based on improved model-free adaptive control algorithm [J/OL]. Control Theory & Applications, 2025,42(9): 1849−1857.
[6]
余文曌, 陈晓东, 徐海祥. 基于事件触发的水下机器人无模型悬停控制[J]. 华中科技大学学报(自然科学版), 2023, 51(11): 30-37.
YU W Z, CHEN X D, XU H X. Model-free hovering control of underwater robots based on event-triggered mechanism[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2023, 51(11): 30-37. DOI:10.13245/j.hust.230140
[7]
杨德智, 徐海祥, 余文曌, 等. 执行器故障下多无人艇固定时间协同包围容错控制[J]. 大连海事大学学报, 2025, 51(1): 21-30.
YANG D Z, XU H X, YU W Z, et al. Fixed-time cooperative encirclement fault-tolerant control for multiple unmanned surface vehicles under actuator failures[J]. Journal of Dalian Maritime University, 2025, 51(1): 21-30. DOI:10.16411/j.cnki.issn1006-7736.2025.01.003
[8]
王中, 温志文, 蔡卫军. 水下无人航行器编队协同搜索研究综述[J]. 舰船科学技术, 2024, 46(2): 57-62.
WANG Z, WEN Z W, CAI W J. A review of cooperative search studies for underwater unmanned vehicle formations[J]. Ship Science and Technology, 2024, 46(2): 57-62. DOI:10.3404/j.issn.1672-7649.2024.02.010
[9]
张恩华, 王巍凯, 苏玉民. 基于事件触发的水面无人艇无模型容错饱和控制[J]. 哈尔滨工程大学学报, 2024, 45(10): 1865-1872.
ZHANG E H, WANG W K, SU Y M. Model-free fault-tolerant saturated control for unmanned surface vehicles based on event-triggered mechanism[J]. Journal of Harbin Engineering University, 2024, 45(10): 1865-1872. DOI:10.11990/jheu.202206088
[10]
TABATABAEE N F S, MOOSAVIAN S A A, KHALAJI A K. Adaptive fault-tolerant control for an autonomous underwater vehicle[J]. Robotica, 2022, 40(11): 4076-4089. DOI:10.1017/S0263574722000765
[11]
朱可嘉, 周子天, 王友清. 网络环境下无人艇定位系统的主动容错控制[J]. 控制工程, 2023, 30(6): 969-980.
ZHU K J, ZHOU Z T, WANG Y Q. Active fault-tolerant control of unmanned surface vehicle positioning systems in networked environments[J]. Control Engineering of China, 2023, 30(6): 969-980. DOI:10.14107/j.cnki.kzgc.20200677
[12]
LEE T. Exponential stability of an attitude tracking control system on SO(3) for large-angle rotational maneuvers[J]. Systems & Control Letters, 2012, 61(1): 231-237.
[13]
ZHU C, JUN L, HUANG B, et al. Trajectory tracking control for autonomous underwater vehicle based on rotation matrix attitude representation[J]. Ocean Engineering, 2022, 252: 111206. DOI:10.1016/j.oceaneng.2022.111206
[14]
ANTONELLI G. On the use of adaptive/integral actions for six-degrees-of-freedom control of autonomous underwater vehicles[J]. IEEE Journal of Oceanic Engineering, 2007, 32(2): 300–312.
[15]
ZHU C, HUANG B, ZHOU B, et al. Adaptive model-parameter-free fault-tolerant trajectory tracking control for autonomous underwater vehicles[J]. ISA Transactions, 2021, 114: 57-71. DOI:10.1016/j.isatra.2020.12.059
[16]
LU Y, ZHANG G, SUN Z, et al. Adaptive cooperative formation control of autonomous surface vessels with uncertain dynamics and external disturbances[J]. Ocean Engineering, 2018, 167: 36-44. DOI:10.1016/j.oceaneng.2018.08.020