2. 江苏海洋大学 马卡洛夫海洋工程学院,江苏 连云港 222005
2. Makarov College of Marine Engineering, Jiangsu Ocean University, Lianyungang 222005, China
在以往研究中,针对基于旋转矩阵姿态表示的AUV误差动力学,已提出一种应对外部干扰和模型不确定性的有限时间自适应滑模控制[1]。通过引入连续可导的反曲正切函数有效克服了传统终端滑模控制中因分段函数设计引发的奇异问题,同时避免了复杂的逻辑切换设计[2]。此外,设计的自适应律能够在线估计并补偿模型不确定性和外部时变干扰构成的集总干扰。虽然该算法从各个方面提高AUV控制系统的收敛时间和稳态性能,但控制器仍然直接或间接地需要部分模型参数信息,如模型的质量矩阵。为了设计完全独立于模型信息的控制器,一般采用自适应控制、迭代学习控制和强化学习控制[3]。神经网络因其对不确定性有着卓越的估计效果,被广泛运用到AUV的跟踪控制算法设计中[4]。然而,针对水下机器人跟踪控制任务的无模型方法仍然很少[5]。为了更好地保持系统的鲁棒性,在完全不利用模型信息的情况下构建AUV的跟踪控制器需要进一步研究[6]。
在AUV的实际工程应用中,执行器故障是一个常见且严重的问题,会对系统的正常运行产生显著的不利影响[7]。在复杂海洋环境中执行任务,尤其是长期运行的情况下,执行器发生故障几乎不可避免[8]。鉴于此,容错控制(Fault Tolerant Control, FTC)技术受到广泛关注,并在近年来取得重要进展[9]。通常,FTC技术可以分为被动型和主动型两类。被动型控制策略将故障影响视为系统不确定性,采用自适应技术或神经网络逼近等方法来补偿未知的故障效应[10];而主动型控制策略则依赖于故障检测与诊断模块,在故障发生后主动对控制器进行重新配置[11]。2种方法各具优势,并在不同应用场景中展现了其有效性。从控制结构的角度来看,被动型 FTC相较于主动型 FTC具有更多限制性,但其优点在于结构相对简单且计算复杂度较低。
本文提出一种基于旋转矩阵姿态表示的容错控制算法,用于实现AUV任意六自由度大角度旋转,该算法结合了分层强化学习回声状态网络,以实时补偿集总不确定性和执行器故障的影响。
1 问题描述本文主要面向基于旋转矩阵表示姿态的AUV,在考虑模型不确定性、外部时变干扰和执行器故障问题下,设计一个完全独立于模型信息的跟踪控制算法以实现AUV六自由度任意大角度旋转的机动。该算法旨在当出现执行器故障的时候,AUV依然能够准确按照预定轨迹运动,同时保证优良的跟踪性能。结合基于旋转矩阵表示姿态的AUV运动学和动力学模型的研究,考虑模型不确定性和外界干扰的AUV数学模型可以被描述为:
| $ \left\{\begin{aligned} &\dot{\eta }={\boldsymbol{R}}\nu,\dot{{\boldsymbol{R}}}={\boldsymbol{R}}\omega ^\land,\\ &\boldsymbol{M}\dot{\boldsymbol{V}}+\boldsymbol{C}(\boldsymbol{V})\boldsymbol{V}+\boldsymbol{D}(\boldsymbol{V})\boldsymbol{V}+\boldsymbol{G}(\boldsymbol{R})={\tau }_{a}+{\tau }_{d}。\end{aligned}\right. $ | (1) |
式中:
随之,位置误差
| $ \left\{\begin{split}& {\eta }_{{e}}=\eta -{\eta }_{d},\\ &{\boldsymbol{R}}_{{e}}={\boldsymbol{R}}_{d}^{\text T}{\boldsymbol{R}}。\end{split}\right. $ | (2) |
显然,
定义在参考坐标系中的
| $ {\dot{\eta }}_{e}={\boldsymbol{R}}\nu -{\boldsymbol{R}}_{d}{\nu }_{d}={\boldsymbol{R}}{\nu }_{e}, $ | (3) |
| ${ {\dot {\boldsymbol{R}}_e} = - \omega _d^ \wedge {\boldsymbol{R}}_d^{\text{T}}{\boldsymbol{R}} + {\boldsymbol{R}}_d^{\text{T}}{\boldsymbol{R}}{\omega ^ \wedge } = {\boldsymbol{R}}_d^{\text{T}}{\boldsymbol{R}}{(\omega - {\boldsymbol{R}}_d^{\text{T}}{{\boldsymbol{R}}_d}{\omega _d})^ \wedge } = {{\boldsymbol{R}}_e}{\omega _e}。} $ | (4) |
式中:
定义
|
图 1 姿态误差向量和旋转向量的关系 Fig. 1 Relationship between rotation vector and attitude error vector |
实际上,由于复杂的海洋环境,执行器常会出现效率下降和偏差故障。为了便于后续推导,实际的控制输入可表示为:
| $ {\tau }_{a}=\boldsymbol{E}{\tau }_{\eta }+{\overline{\tau }}_{\eta }。$ | (5) |
式中:
近些年,神经网络由于其对非线性函数具有令人满意的逼近效果,被广泛运用在AUV的控制器设计中,对系统中存在的集总干扰进行补偿。相比于大多数传统的递归神经网络不同,例如径向基神经网络会在线更新所有连接权重,而回声状态网络则不需要更新隐藏层(即储备池)中的连接权重。相反,这些权重通常在训练过程中被随机初始化,并在训练过程中保持不变。只有输出权重通过线性回归方法或其他学习算法进行训练,这大大降低了计算负担并提高了收敛速度。从输入层整合的信号被储层中的神经元接收,并能以更高维形式表示,该状态更新式为:
| $ h(k)={f}_{act}({W}_{{\mathrm{in}}}z(k)+Wh(k-1)+{W}_{fb}{y}_{{\mathrm{out}}}(k-1))。$ | (6) |
同时,回声状态网络(见图2)的输出可被计算为:
|
图 2 回声状态网络框图 Fig. 2 scheme diagrams of the echo state network |
| $ {y}_{{\mathrm{out}}}(k)={\boldsymbol{W}}_{{\mathrm{out}}}^{\text T}h(k) 。$ | (7) |
式中:k为时间步长;h为储层状态的矩阵;
基于以上对于ESN结构的介绍,在提出控制框架之前,首先引入相关引理,便于后续对所提出的算法进行稳定性分析,相似的理论也有提出:
引理1 如果存在足够数量的神经元,神经网络的输出就能在紧集Ωz内以任意理想的精度ε > 0逼近任意给定的任意连续函数
| $ {\sup }_{z\in {{\Omega }_{{z}}}}\left| f(z)-{y}_{{\mathrm{out}}}(z)\right| \leqslant \varepsilon。$ | (8) |
如此,函数
| $ f(z)=W_{{\mathrm{out}}}^{*\text T}h(z)+\varepsilon *,\forall z\in {\Omega }_{z} 。$ | (9) |
式中:
| $ W_{{\mathrm{out}}}^{*}=\arg \underset{W_{{\mathrm{out}}}^{\text{T}}\in {\mathbb{R}}^{N}}{\min }\{{\sup }_{{{}_{z\in {{\Omega }_{z}}}}}\left| f(z)-W_{{\mathrm{out}}}^{*\text{T}}h(z)\right| \}。$ | (10) |
本节致力于开发一种用于旋转矩阵姿态表示的AUV轨迹跟踪的自适应无模型容错控制算法,该算法可以在考虑集总干扰和执行器故障的情况下,使AUV的位置和姿态达到期望值,同时为了确保姿态误差在约束中演变,从而位置误差和姿态误差满足:
| $ \underset{t\rightarrow \mathrm{\infty }}{\lim }\left|\left|{[{\eta _{e}^{\text{T}}},{\sigma _{e}^{\mathrm{T}}}]}^{\text{T}}\right|\right| \leqslant \Theta ,\left|\left|{\sigma }_{e}(t)\right|\right| \leqslant 1。$ | (11) |
式中:
在实际控制算法设计中,研究者们往往无法精确得知控制参数的信息。所以与依赖模型的控制方法相比,本文通过采用滑模控制架构和分层回声状态网络建立无模型参数的控制策略。尽管水下航行器具有高度耦合的非线性特性,但仍能取得令人满意的性能。首先,设计如下的滑模信号:
| $ s=\dot{e}+ke+{k}_{2}p({\sigma }_{e})。$ | (12) |
式中:
| $ \dot{s}=\dot{\Lambda }\left[\begin{matrix}{\nu }_{e}\\ {\omega }_{e}\\ \end{matrix}\right]+\Lambda \left[\begin{matrix}{\dot{\nu }}_{e}\\ {\dot{\omega }}_{e}\\ \end{matrix}\right]+k\left[\begin{matrix}{\dot{\eta }}_{e}\\ {\dot{\sigma }}_{e}\\ \end{matrix}\right]+{{\boldsymbol{k}}}_{2}\dot{P}({\sigma }_{e})。$ | (13) |
式中:
将相关公式代入得:
| $ \dot{s} = \dot{\Lambda }\left[\begin{matrix}{\nu }_{e}\\ {\omega }_{e}\\ \end{matrix}\right] + \Lambda \left[\begin{matrix}\dot{\nu } - {\dot{R}}^{\text{T}}{R}_{d}{\nu }_{d} - {R}^{\text{T}}{R}_{d}{\dot{\nu }}_{d}\\ \dot{\omega } - {\dot{R}}^{\text{T}}{R}_{d}{\omega }_{d} - {R}^{\text{T}}{R}_{d}{\dot{\omega }}_{d}\\ \end{matrix}\right] + k\Lambda \left[\begin{matrix}{\nu }_{e}\\ {\omega }_{e}\\ \end{matrix}\right] + {k}_{2}\dot{P}({\sigma }_{e})。$ | (14) |
最后可得
| $ \dot{s}=\Lambda \left[\begin{matrix}\dot{v}\\ \dot{\omega }\\ \end{matrix}\right]+(\dot{\Lambda }+k\Lambda )\left[\begin{matrix}{v}_{{e}}\\ {\omega }_{e}\\ \end{matrix}\right] -\Lambda \left[\begin{matrix}\dot{{R}}_{e}^{\text{T}}{v}_{d}+{R}_{{e}}^{\text{T}}{\dot{v}}_{d}\\ \dot{{R}}_{{e}}^{\text{T}}{\omega }_{d}+{R}_{e}^{\text{T}}{\dot{\omega }}_{d}\\ \end{matrix}\right]+{k}_{2}\dot{P}({\sigma }_{e})。$ | (15) |
为了更好地实现分层回声状态网络估计的效果,首先要明确估计对象,将式(5)代入式(15)即有:
| $ \dot{s}=\Lambda \boldsymbol{B}{\tau }_{\eta }+\boldsymbol{F},$ | (16) |
| $ \begin{split}\boldsymbol{F}=&\Lambda {\boldsymbol{M}}^{-1}({\overline{\tau }}_{\eta }-\boldsymbol{C}(\boldsymbol{V})\boldsymbol{V}-\boldsymbol{D}(\boldsymbol{V})\boldsymbol{V} -\\ &\boldsymbol{G}(\boldsymbol{R})-{\tau }_{f})+(\dot{\Lambda }+{\boldsymbol{k}}\Lambda )\left[\begin{matrix}{v}_{e}\\ {\omega }_{e}\\ \end{matrix}\right]-\left[\begin{matrix}\dot{{R}}_{{e}}^{\text{T}}{v}_{d}+{R}_{{e}}^{\text{T}}{\dot{v}}_{d}\\ \dot{{R}}_{e}^{\text{T}}{\omega }_{d}+{R}_{{e}}^{\text{T}}{\dot{\omega }}_{d}\\ \end{matrix}\right]。\end{split} $ | (17) |
式中:
| $ \boldsymbol{B}=\left[\begin{matrix}h_{{b}_{11}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b} & \cdots & h_{{b}_{1n}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b}\\ \vdots & \ddots & \vdots \\ h_{{b}_{n1}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b} & \cdots & h_{{b}_{nn}}^{\text{T}}({x}_{b}){\boldsymbol{W}}_{b}\\ \end{matrix}\right]+{\varepsilon }_{b}({x}_{b}),$ | (18) |
| $ \boldsymbol{F}=h_{f}^{\text{T}}({x}_{f})\boldsymbol{W}_{f}+{\varepsilon }_{f}({x}_{f}) 。$ | (19) |
式中:
| $ {\boldsymbol{U}}_{b}(x,\boldsymbol{W}_{b})=\left[\begin{matrix}h_{{b}_{11}}^{\text{T}}\boldsymbol{W}_{b} & \cdots & h_{{b}_{1n}}^{\text{T}}\boldsymbol{W}_{b}\\ \vdots & \ddots & \vdots \\ h_{{b}_{n1}}^{\text{T}}\boldsymbol{W}_{b} & \cdots & h_{{b}_{nn}}^{\text{T}}\boldsymbol{W}_{b}\\ \end{matrix}\right]。$ | (20) |
如果存在一个向量
| $ {\boldsymbol{U}}_{b}(x,\boldsymbol{W}_{b})\mu ={P}_{b}(x,\mu )\boldsymbol{W}_{b}。$ | (21) |
根据式(20)和式(21),那么
| $ {P}_{b}(x,\mu )=\left[\begin{matrix}h_{{b}_{11}}^{\text{T}}{\mu }_{1}+\cdots +h_{{b}_{1n}}^{\text{T}}{\mu }_{n}\\ \vdots \\ h_{{b}_{n1}}^{\text{T}}{\mu }_{1}+\cdots +h_{{b}_{nn}}^{\text{T}}{\mu }_{n}\\ \end{matrix}\right]。$ | (22) |
根据上述的讨论和定义,针对基于旋转矩阵表示姿态的AUV误差动力学,提出如下的自适应无模型容错控制策略:
| $ {\tau }_{n}={\Lambda }^{-1}({\tau }_{1}-({\alpha }_{1}{\left|\left|{\tau }_{1}\right|\right|}^{2}+{\alpha }_{2}{\left|\left|{\tau }_{2}\right|\right|}^{2})s) ,$ | (23) |
| $ {\tau }_{1}=\frac{{\mathrm{Adj}}({\boldsymbol{U}}_{b}({x}_{b},{\hat{W}}_{b})){\mathrm{Det}}({\boldsymbol{U}}_{b}({x}_{b},{\hat{W}}_{b}))}{{\mathrm{Det}}^{2}({\boldsymbol{U}}_{b}({x}_{b},{\hat{W}}_{b}))+\delta }{\tau }_{2},$ | (24) |
| $ {\tau }_{2}=h_{f}^{{\mathrm{T}}}{\hat{W}}_{f}+\gamma s+{\alpha }_{3}s。$ | (25) |
式中:符号
上述控制算法中的输出权重矩阵,满足如下更新规律:
| $ {\dot{\hat{W} }}_{f}={h}_{f}L-{\beta }_{1}{\hat{W}}_{f} ,$ | (26) |
| $ {\dot{\hat{W} }}_{b}=P_{b}^{\text{T}}({x}_{b},{\tau }_{1})s-{\beta }_{2}{\hat{W}}_{b},$ | (27) |
| $ {\dot{\hat{W} }}_{c}=-{h}_{c}h_{f}^{\text{T}}{\hat{W}}_{f}-{\beta }_{3}{\hat{W}}_{c} 。$ | (28) |
式中:
|
图 3 分层RL-ESN容错控制框架 Fig. 3 The block diagram of the Hierarchical RL-ESN fault-tolerant control framework |
与以往研究不同,本文所开发控制策略的主要优点是不再需要详细和精确的模型参数,这意味着模型不确定性和非线性耦合的负面影响可被有效地抑制。反过来说,该方法将提高鲁棒性和对参数不确定性的适应性。
2.3 稳定性分析在2.2节中,为基于旋转矩阵表示姿态的AUV,开发了一种基于强化学习和回声状态网络的自适应无模型容错控制发难,以应对AUV的未知模型参数和执行器故障问题。所设计的控制器借助回声状态网络和强化学习,提出了控制增益网络、关联搜索网络和自适应批评网络,其中控制增益网络实现对时变控制增益的实时估计,对于系统中的集总干扰进行逼近的关联搜索网络,自适应批评网络则是为了提升整体的逼近效果,从而使得设计者无法得知AUV精确模型参数和执行器存在故障问题下,实现AUV对期望轨迹的跟踪控制。本节对上文提出的控制目标进行总结,以及构建Lyapunov函数对控制算法进行稳定性分析,已验证所提出控制算法的有效性。
为了更好地进行稳定性分析,首先提出一些假设,然后将本文的主要结果总结为相应定理。
假设2.1 逼近误差
假设2.2 权重矩阵的的范数
假设2.3 定义
参考以往的工作,假设2.1和假设2.2被广泛的包含在最优误差和近似误差的研究中。此外,在文献中对假设2.3进行解释,以保证系统可控。基于以上分析,假设2.1~假设2.3合理。
定理2.1 针对一个全驱动旋转矩阵姿态表示的AUV系统,利用所制定的控制方案式(23)~式(25),自适应律式(26)~式(28)和强化信号。同时,以上所有假设都成立。该方法自适应地解决了基于旋转矩阵的带有执行器失效和未知动力学的跟踪误差动力学问题。这意味着控制目标
证明:定理2.1的有效性将通过以下3个步骤来证明。首先,利用基于旋转矩阵的控制式(23)~式(25),得出滑模面s的稳定性。然后,推导出可供替代姿态误差向量始终保持在约束
在上述背景下,为了证明s的渐近稳定性,选择如下Lyapunov函数:
| $ {V}_{1}=\frac{1}{2}{s}^{\text{T}}s+\frac{1}{2}\tilde{W}_{f}^{\text{T}}{\tilde{W}}_{f}+\frac{1}{2}\tilde{W}_{b}^{\text{T}}{\tilde{W}}_{b}+\frac{1}{2}\tilde{W}_{c}^{\text{T}}{\tilde{W}}_{c}。$ | (29) |
式中:
| $ \begin{split}{\dot{V}}_{1}=&{s}^{\text{T}}(\boldsymbol{B}{\tau }_{1}+\boldsymbol{F})-\tilde{\boldsymbol{W}}_{f}^{\text{T}}{\dot{\hat{\boldsymbol{W}} }}_{f}-\tilde{\boldsymbol{W}}_{b}^{\text{T}}{\dot{\hat{\boldsymbol{W}} }}_{b} -\\ &\tilde{\boldsymbol{W}}_{c}^{\text{T}}{\dot{\hat{\boldsymbol{W}} }}_{c}-({\alpha }_{1}{\left|\left|{\tau }_{1}\right|\right|}^{2}+{\alpha }_{2}{\left|\left|{\tau }_{2}\right|\right|}^{2}){s}^{\text{T}}\boldsymbol{B}。\end{split} $ | (30) |
将
| $ \begin{split} \dot{V}_1 =& -\gamma s^\text{T} s + s^\text{T} \varepsilon_f - \alpha_3 s^\text{T} s + \beta_1 \tilde{\boldsymbol{W}}_f^\text{T} \hat{\boldsymbol{W}}_f+ \\ & \beta_2 \tilde{\boldsymbol{W}}_b^\text{T} \hat{\boldsymbol{W}}_b + \beta_3 \tilde{\boldsymbol{W}}_c^\text{T} \hat{\boldsymbol{W}}_c + \tilde{\boldsymbol{W}}_c^\text{T} h_c \hat{\boldsymbol{W}}_f^\text{T} h_f - \\ & \tilde{\boldsymbol{W}}_f^\text{T} h_f h_{ac}^\text{T} \hat{\boldsymbol{W}}_{ac} - \alpha_1 \|\tau_1\|^2 s^\text{T} B s + \\ & \delta (Det^2(\boldsymbol{U}_b(x_b, \hat{\boldsymbol{W}}_b))) + \delta^{-1} s^\text{T} \tau_2 -\\ & \alpha_2 \|\tau_2\|^2 s^\text{T} B s + s^\text{T} \varepsilon_b \tau_1。\end{split} $ | (31) |
基于Young不等式和假设,将不等式进一步简化,可得
| $ \begin{split} {{\dot V}_1} \leqslant & - \gamma s{^2} - \frac{{{\beta _1} - 1}}{2}{{\tilde W}_f}{^2} - \frac{{{\beta _2}}}{2}{\tilde {\boldsymbol{W}}_b}{^2} + \\ & \frac{{{\beta _3} - 1}}{2}{\tilde {\boldsymbol{W}}_c}{^2} + \frac{{\varepsilon _{bm}^2}}{{4{\alpha _1}{b_0}}} + \frac{1}{{4{\alpha _2}{b_0}}} + \\ & \frac{{\varepsilon _{fm}^2}}{{4{\alpha _3}}} + \frac{1}{2}\left( {{\beta _1}w_{fm}^2 + {\beta _2}w_{bm}^2 + {\beta _3}w_{cm}^2} \right) + \\ & \frac{1}{2}{\left( {{h_f}{h_c}} \right)^2}\left( {w_{cm}^2 + w_{fm}^2} \right) \leqslant - {\kappa _1}{V_1} + \kappa_2,\end{split} $ | (32) |
| $ \begin{split} k_2=&\frac{\varepsilon_{bm}^2}{4\alpha_1b_0}+\frac{1}{4\alpha_2b_0}+\frac{\varepsilon_{fm}^2}{4\alpha_3} + \\ & \frac{1}{2}\left(\beta_1w_{fm}^2+\beta_2w_{bm}^2+\beta_3w_{cm}^2\right) + \\ & \frac{1}{2}\left(\|h_f\|\left\|h_c\right\|\right)^2\left(w_{cm}^2+w_{fm}^2\right)。\end{split} $ | (33) |
式中:
| $ \left|\left|s\right|\right| \leqslant \sqrt{\frac{2{\kappa }_{2}}{{\kappa }_{1}}}。$ | (34) |
通过以上证明过程,能够得出所提出控制方案的可行性和稳定性。参考前文对姿态误差
| $ {V}_{2}=\frac{1}{2}{\sigma }_{e}{}^{\text{T}}{\sigma }_{e}。$ | (35) |
上文关于滑模面
| $ \dot{V}_2 = \sigma_e^\text{T} \dot{\sigma}_e = \sigma_e^\text{T} \left( s - k \cdot \sigma_e - k_2 \left( 1 - \sigma_e^\text{T} \sigma_e \right)^{-\text{T}} \sigma_e^\text{T} \right)。$ | (36) |
基于Young不等式,将式(36)进一步化简,即有:
| $ {\dot{V}}_{2} \leqslant \frac{-({k}_{2}+{s}^{\text{T}}s){\sigma }_{e}{}^{\text{T}}{\sigma }_{e}+{s}^{\text{T}}s}{1-{s}^{\text{T}}s} 。$ | (37) |
归功于 LaSalle 不变集定理,可知:
| $ \left|\left|{\sigma }_{e}\right|\right| \leqslant \sqrt{\frac{{s}^{\text{T}}s}{4{k}_{2}+{s}^{\text{T}}s}} \lt 1。$ | (38) |
通过以上分析,只要滑模面
为了验证控制目标式(11)中关于姿态误差的收敛,将式(12)代入式(34)中,即有:
| $ \left|\left|e\right|\right| \leqslant \sqrt{\frac{2{\kappa }_{2}}{{\kappa }_{1}\lambda _{\min }^{2}(k)}} 。$ | (39) |
其中,
| $ \Theta = \left\{ \left[ \eta_e^\text{T}, \sigma_e^\text{T} \right]^\text{T} \mid \left\| \left[ \eta_e^\text{T}, \sigma_e^\text{T} \right]^\text{T} \right\| \leqslant \sqrt{\frac{2 \kappa_2}{\kappa_1 \lambda_{\min}^2 (k)}} \right\}。$ | (40) |
本节,通过基于Lyapunov稳定性分析的方法,验证了所提出的控制方案能够有效实现基于旋转矩阵姿态表示的AUV跟踪控制。本节通过构建3个基于回声状态网络的观测器,包括对时变控制增益逼近的控制增益网络,对集总干扰和不确定性逼近的关联搜索网络以及针对关联搜索网络提供强化信号的自适应批评网络。通过这3个网络共同工作,以实现自适应无模型参数控制,同时将执行器故障情形考虑在内,进一步提升控制策略的鲁棒性。同时,本文所提出分层网络方案的控制增益参数如表1所示。
|
|
表 1 所提出的控制方案的参数 Tab.1 Parameters of the proposed control scheme |
在前述理论分析中,提出一种自适应分层网络容错控制方案式(23)~式(25),旨在执行器存在故障的情况下,也能有效实现AUV的大角度旋转机动。区别于传统的姿态表示方法,基于旋转矩阵的误差动力学方法提供了全局唯一的姿态表示,同时引入可供替代的姿态误差矢量使控制器设计相对简化。与此同时,该分层网络框架包含3个关键组成部分:控制增益网络(CGN)、协作批评网络(CCN)和综合搜索网络(CSN)。其中,CGN负责估计时变的控制增益,CSN有效处理集总不确定性,而CCN则提供强化信号,以提升系统的整体学习能力。
为了评估所提出控制结构的效果,本文的具体模型参数参考文献[14]进行了2次针对使用旋转矩阵姿态表示方法的AUV仿真实验。第一次仿真展示了系统在正常执行器操作下对抗不确定性和外部干扰的鲁棒性,突出了控制策略的无模型优势。第二次仿真将执行器故障纳入考虑,主要是为了验证控制框架的容错能力。所提出的控制方案基于强化学习,已对CSN、CCN和CGN中的神经元数量进行了测试,设置为60个神经元。3个分层网络的输入权重
| $ \left\{\begin{split}&{\tau }_{d1}=2\sin (0.3t),\\ &{\tau }_{d2}=5\cos (0.3t)-2\sin (0.2t),\\ &{\tau }_{d3}=\sin (0.1t),\\ &{\tau }_{d4}=\sin (0.3t),\\ &{\tau }_{d5}=3\sin (0.5t)-\cos (0.1t),\\ &{\tau }_{d6}=6\sin (0.2t)。\end{split} \right.$ | (41) |
在本次仿真案例中,未考虑执行器故障。本仿真旨在展示使用旋转矩阵表示姿态的优越性,俯仰角的设计将超过
|
|
表 2 AUV的初始值和参考轨迹 Tab.2 The initial values of AUV and the reference trajectory |
仿真结果展示了控制器在存在外部干扰情况下的性能,结果如图4~图7所示。通过分析图4可知,可以推断即使存在外部干扰,控制效果依然稳定。此外,由于模型参数中的干扰和不确定性,分层网络自适应控制方案使AUV能够有效跟踪参考轨迹。图5和图6显示了位姿跟踪和速度跟踪中均出现了抖振现象,但两者最终在25 s后收敛至0附近的一个有限范围内。抖振现象在早期阶段的主要原因是分层网络通过在线学习法则估算各种未知不确定性。
|
图 4 AUV三维轨迹跟踪 Fig. 4 3-D trajectory tracking of the AUV |
|
图 5 位置跟踪误差和速度跟踪误差的时间响应 Fig. 5 Time responses of position tracking errors and attitude tracking errors |
|
图 6 线速度和角速度跟踪误差的时间响应 Fig. 6 Time responses of linear velocity tracking errors and angular velocity tracking errors |
|
图 7 控制信号的时间响应 Fig. 7 Time responses of control signal |
图7为控制力矩关于时间的响应关系,进一步验证了分层网络架构的效率。
3.2 执行器故障这里将执行器有效性损失故障和偏置故障纳入控制器设计中,将有效提高控制器的鲁棒性。执行器的有效性可设计为:
| $ \mathbb{E}=\begin{cases} {{\mathrm{diag}}}\{1;1;1;1;1;1\},t \lt 2,\\ {\mathrm{diag}}\{0.7;0.7;0.7;0.7;0.7;0.7\},2 \leqslant t \lt 5,\\ {\mathrm{diag}}\{0.7;0.7;0.7;0.7;0.7;0.7\}+\\ \dfrac{7(t-2)}{2\;000}\text{diag}\{1;1;1;1;1;1\},5 \leqslant t \lt 8,\\ {\mathrm{diag}}\{0.5;0.5;0.5;0.5;0.5;0.5\},t\geqslant 8。\\ \end{cases} $ | (42) |
关于
| $ {\begin{split}&{\overline{\tau }}_{\eta }=[\sin (0.1t),\cos (0.2t),\sin (0.3t),\sin (0.7t),\\ &\qquad \cos (0.6t),\sin (0.5t){]}^{\text{T}}。\\ \end{split} }$ | (43) |
在第二个处理执行器故障的场景中,初始旋转矩阵
|
|
表 3 AUV的初始状态以及期望轨迹 Tab.3 The initial state and desired trajectory of the AUV |
|
图 8 AUV三维轨迹跟踪 Fig. 8 3-D trajectory tracking of the AUV |
|
图 11 控制信号的时间响应 Fig. 11 Time responses of control signal |
在执行器故障条件下,AUV在分层网络控制框架下仍能表现出对参考轨迹的良好跟踪性能, 如图8所示。此外,本研究提出的误差动力学使AUV能够执行任意大角度旋转机动。通过图9和图10可得,与场景一无执行器故障类似,跟踪误差在前20 s内表现出抖振现象。随着自适应律作用,抖振现象在适宜值达到后逐渐减弱。
|
图 9 位置跟踪误差和姿态跟踪误差的时间响应 Fig. 9 Time responses of position tracking errors and attitude tracking errors |
|
图 10 线速度跟踪误差和角速度跟踪误差的时间响应 Fig. 10 Time responses of linear velocity tracking errors and angular velocity tracking errors |
图11为在执行器故障情况下的驱动力,展现出本文提出的分层网络在加速收敛方面的更高效率,凸显其在实时应用中的潜力。
4 结 语本文面向旋转矩阵姿态表示的AUV运动学和动力学模型,提出了一种基于强化学习分层 ESN的无模型容错控制策略。区别于以往研究仍依赖部分模型参数信息的做法,该控制策略摆脱了对模型参数的依赖,借助回声状态网络与强化学习较强的学习能力和泛化能力,进一步减弱了模型不确定性对闭环系统性能的影响。同时,在模型不确定性和外部干扰共同存在的情况下,该策略仍表现出较强的执行器故障鲁棒性。
| [1] |
崔健, 赵林, 于金鹏, 等. 多AUV系统的自适应有限时间一致性跟踪控制[J]. 中国海洋大学学报(自然科学版), 2019, 49(S1): 170-176. CUI J, ZHAO L, YU J P, et al. Adaptive finite-time consensus tracking control for multi-AUV systems[J]. Journal of Ocean University of China (Natural Science Edition), 2019, 49(S1): 170-176. |
| [2] |
伊戈, 刘忠, 张建强, 等. 基于改进终端滑模控制的USV航向跟踪控制方法[J]. 电光与控制, 2020, 27(10): 12-16+21. YI G, LIU Z, ZHANG J Q, et al. USV heading tracking control method based on improved terminal sliding mode control[J]. Electronics Optics & Control, 2020, 27(10): 12-16+21. DOI:10.3969/j.issn.1671-637X.2020.10.003 |
| [3] |
李浩东. 基于深度强化学习的无人艇航迹控制的研究[D]. 镇江: 江苏科技大学, 2022.
|
| [4] |
CHAVEZ G J, LI J, CHAUDHARY A, et al. ASV station keeping under wind disturbances using neural network simulation error minimization model predictive control[J]. Journal of Field Robotics, 2024, 41(6): 1797-1813. DOI:10.1002/rob.22346 |
| [5] |
包涛, 陈卓, 周则兴, 等. 基于改进无模型自适应控制算法的无人艇路径跟随控制[J/OL]. 控制理论与应用, 2025,42(9): 1849−1857. BAO T, CHEN Z, ZHOU Z X, et al. Path following control of unmanned surface vehicle based on improved model-free adaptive control algorithm [J/OL]. Control Theory & Applications, 2025,42(9): 1849−1857. |
| [6] |
余文曌, 陈晓东, 徐海祥. 基于事件触发的水下机器人无模型悬停控制[J]. 华中科技大学学报(自然科学版), 2023, 51(11): 30-37. YU W Z, CHEN X D, XU H X. Model-free hovering control of underwater robots based on event-triggered mechanism[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2023, 51(11): 30-37. DOI:10.13245/j.hust.230140 |
| [7] |
杨德智, 徐海祥, 余文曌, 等. 执行器故障下多无人艇固定时间协同包围容错控制[J]. 大连海事大学学报, 2025, 51(1): 21-30. YANG D Z, XU H X, YU W Z, et al. Fixed-time cooperative encirclement fault-tolerant control for multiple unmanned surface vehicles under actuator failures[J]. Journal of Dalian Maritime University, 2025, 51(1): 21-30. DOI:10.16411/j.cnki.issn1006-7736.2025.01.003 |
| [8] |
王中, 温志文, 蔡卫军. 水下无人航行器编队协同搜索研究综述[J]. 舰船科学技术, 2024, 46(2): 57-62. WANG Z, WEN Z W, CAI W J. A review of cooperative search studies for underwater unmanned vehicle formations[J]. Ship Science and Technology, 2024, 46(2): 57-62. DOI:10.3404/j.issn.1672-7649.2024.02.010 |
| [9] |
张恩华, 王巍凯, 苏玉民. 基于事件触发的水面无人艇无模型容错饱和控制[J]. 哈尔滨工程大学学报, 2024, 45(10): 1865-1872. ZHANG E H, WANG W K, SU Y M. Model-free fault-tolerant saturated control for unmanned surface vehicles based on event-triggered mechanism[J]. Journal of Harbin Engineering University, 2024, 45(10): 1865-1872. DOI:10.11990/jheu.202206088 |
| [10] |
TABATABAEE N F S, MOOSAVIAN S A A, KHALAJI A K. Adaptive fault-tolerant control for an autonomous underwater vehicle[J]. Robotica, 2022, 40(11): 4076-4089. DOI:10.1017/S0263574722000765 |
| [11] |
朱可嘉, 周子天, 王友清. 网络环境下无人艇定位系统的主动容错控制[J]. 控制工程, 2023, 30(6): 969-980. ZHU K J, ZHOU Z T, WANG Y Q. Active fault-tolerant control of unmanned surface vehicle positioning systems in networked environments[J]. Control Engineering of China, 2023, 30(6): 969-980. DOI:10.14107/j.cnki.kzgc.20200677 |
| [12] |
LEE T. Exponential stability of an attitude tracking control system on SO(3) for large-angle rotational maneuvers[J]. Systems & Control Letters, 2012, 61(1): 231-237. |
| [13] |
ZHU C, JUN L, HUANG B, et al. Trajectory tracking control for autonomous underwater vehicle based on rotation matrix attitude representation[J]. Ocean Engineering, 2022, 252: 111206. DOI:10.1016/j.oceaneng.2022.111206 |
| [14] |
ANTONELLI G. On the use of adaptive/integral actions for six-degrees-of-freedom control of autonomous underwater vehicles[J]. IEEE Journal of Oceanic Engineering, 2007, 32(2): 300–312.
|
| [15] |
ZHU C, HUANG B, ZHOU B, et al. Adaptive model-parameter-free fault-tolerant trajectory tracking control for autonomous underwater vehicles[J]. ISA Transactions, 2021, 114: 57-71. DOI:10.1016/j.isatra.2020.12.059 |
| [16] |
LU Y, ZHANG G, SUN Z, et al. Adaptive cooperative formation control of autonomous surface vessels with uncertain dynamics and external disturbances[J]. Ocean Engineering, 2018, 167: 36-44. DOI:10.1016/j.oceaneng.2018.08.020 |
2026, Vol. 48
