自动化学报  2018, Vol. 44 Issue (10): 1854-1863   PDF    
一类不确定非线性系统的重复学习控制
李鹤1, 孙明轩1, 张静1     
1. 浙江工业大学信息工程学院 杭州 310023
摘要: 针对一类在有限时间区间上重复作业的不确定非线性系统,本文提出一种重复学习控制方法,用于解决非参数不确定性问题.该方法采用死区修正学习律对期望控制输入与界函数进行估计,以避免参数的正向累加导致系统发散,并使该控制算法较少地依赖于系统信息,更方便于控制器的实现.基于Lyapunov方法所设计的控制器,保证了闭环系统所有信号的有界性,并使得跟踪误差收敛于死区界定的邻域.通过仿真算例及电机实验结果验证所提学习控制算法的有效性.
关键词: 重复学习控制     非参数不确定性     死区修正     Lyapunov方法    
Repetitive Learning Control for a Class of Uncertain Nonlinear Systems
LI He1, SUN Ming-Xuan1, ZHANG Jing1     
1. College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023
Manuscript received : December 4, 2016, accepted: August 17, 2017.
Foundation Item: Supported by National Natural Science Foundation of China (61174034, 61573320, 61374103)
Author brief: LI He  Ph. D. candidate at the College of Information Engineering, Zhejiang University of Technology. Her main research interest is learning control;
ZHANG Jing  Master student at the College of Information Engineering, Zhejiang University of Technology. Her main research interest is learning control.
Corresponding author. SUN Ming-Xuan  Professor at the College of Information Engineering, Zhejiang University of Technology. His main research interest is learning control. Corresponding author of this paper.
Recommended by Associate Editor WANG Cong
Abstract: This paper presents a repetitive learning control method to handle the nonparametric uncertain problem for a class of uncertain nonlinear systems performing a given repetitive task over a finite time interval. The learning laws with dead-zone modification are adopted to estimate the desired control input and bound functions, which avoids the divergency of estimates due to the ceaseless positive accumulation and facilitates the implementation of the controller with less knowledge about the system dynamics. The repetitive learning controller is designed in terms of Lyapunov synthesis, so as to guarantee the boundedness of all closed-loop signals while ensuring the tracking error to converge to the pre-specified neighbourhood. Numerical results for an inverted pendulum system and the AC motor experiment are conducted to testify the effectiveness of the proposed learning control scheme.
Key words: Repetitive learning control     nonparametric uncertainties     dead-zone modification     Lyapunov approach    

学习控制能够处理有限时间区间上重复作业的控制系统.这种控制算法通过每次实际运行结果修正控制输入, 随着迭代次数的增加不断提高控制性能, 因此在实际系统中得到了广泛应用, 如工业机器人、数控机床、硬盘驱动装置、化工间歇过程等[1-2].

近年来, 基于Lyapunov方法的迭代学习控制引起人们的关注[3-5].设计学习控制器时需要处理系统存在的不确定性, 通常包括参数不确定性与非参数不确定性.目前, 有许多关于工业机器人系统迭代学习控制的研究成果[6-9]; 文献[10]针对一类非线性系统, 采用自适应算法学习固定常值参数; 文献[11]针对工业机械臂, 通过一类自适应迭代学习控制算法估计不随迭代轴变化的时变参数; 文献[12]将高阶内模与学习控制算法相结合, 处理随迭代轴变化的时变参数; 文献[13]针对非线性参数不确定系统, 基于自适应重复学习控制算法学习周期参数; 文献[14]通过鲁棒自适应及Backstepping方法分别处理参数与非参数不确定性; 文献[15]采用神经网络及傅里叶级数逼近方法, 估计周期已知的时变参数; 文献[16]通过自适应迭代学习控制算法, 处理一类高阶非线性系统的参数不确定性与初值问题; 文献[17]针对具有未知控制方向的纯反馈非线性系统, 通过自适应迭代学习控制策略, 处理系统存在的参数不确定性; 文献[18]通过周期自适应学习控制方法, 解决了输入饱和非线性系统中含时滞的参数不确定性.此外, 文献[19]通过自适应迭代学习控制方法, 处理纯反馈非线性系统中的参数不确定性与非一致期望轨迹.可参数化的不确定系统, 通常要求参数为固定常值、周期或时变参数, 而实际系统的不确定性不仅仅包括可参数化情形, 因此人们开始研究非参数不确定性.文献[20]针对一类连续非线性系统, 通过迭代学习控制方法, 处理非参数不确定性; 文献[21]通过鲁棒自适应迭代学习控制方法, 解决了离散非线性系统中的参数与非参数不确定性; 文献[22]将迭代学习控制与模糊逼近相结合, 利用反步控制策略, 以处理纯反馈非线性系统的非参数不确定性; 文献[23]针对控制增益与状态有关的多输入多输出非线性系统, 通过迭代学习控制算法处理非参数不确定性; 文献[24]通过鲁棒迭代学习控制方法, 解决了一类连续非线性系统的非参数不确定性.文献[20, 23-24]均考虑控制增益与状态有关的控制系统, 并且非线性函数满足Lipschitz条件, 特别地, 所提出的控制方法, 需要已知的信息包括:控制输入增益的最小值与非线性函数的界函数, 然而实际系统中该界函数很难精确获得.

迭代学习控制算法要求每次迭代开始时保证严格的初始定位, 系统初态与参考轨迹的初值一致, 然而实际系统的复位精度有限, 往往会导致系统存在初始误差, 从而影响控制精度.因此, 为提高系统的控制性能, 解决初始定位问题是有意义的.重复学习控制, 要求系统每次迭代的初值与前一次迭代的终值相同, 且参考轨迹是封闭的, 有效回避了迭代学习控制的初始定位问题.与重复控制不同的是, 重复学习控制放宽了对周期的要求.文献[9]提出重复学习控制方法, 通过自适应重复学习机制处理机械臂系统的常参数不确定性.文献[25]考虑了迭代学习控制中5种不同的初始条件, 其中第5种情况与重复学习控制的初始条件相同.如何通过重复学习控制解决非线性系统的非参数不确定性问题, 是学习控制领域中一项重要的研究内容, 特别地, 对于未知界函数情况下的非参数不确定性, 目前几乎未有相关的研究成果.

基于以上讨论, 本文针对一类在有限时间区间上执行重复任务的不确定非线性系统, 提出一种用于解决满足Lipschitz条件非参数不确定性问题的控制方法.该方法采用带死区修正的学习律, 对期望控制输入与界函数平方进行估计, 以避免参数的正向累加导致系统发散.通过该学习律设计重复学习控制器, 采用带死区的Lyapunov函数, 保证了闭环系统所有信号的有界性, 并且实现了跟踪误差在有限时间区间上收敛于给定的邻域.此外, 所提出的控制方法能够处理与状态有关的非线性控制增益.与文献[20, 23-24]不同的是: 1)对于满足Lipschitz条件的非参数不确定系统, 本文并未假设其界函数已知.文中基于重复学习方法, 对该界函数的平方进行估计.在已发表的相关文献中, 这一做法尚未见报道; 2)本文设计带死区修正的学习律, 对该界函数的平方进行估计, 这不仅方便了收敛性分析, 并且避免了参数的正向叠加对系统收敛性能的影响, 同时, 利用带死区的Lyapunov函数, 以保证系统跟踪误差收敛于给定的邻域; 3)本文所设计的重复学习控制算法, 以尽可能少的系统模型信息(仅已知控制输入增益最小值$g_{{\rm min}}$)处理非参数不确定性, 从而较少地依赖于系统信息, 更方便于控制器的实现.进一步, 本文通过仿真与实验验证了所提控制方法的有效性.

1 问题描述

考虑一类不确定时变非线性系统

$ \begin{align} \label{eq.sys} \left\{ \begin{array}{l} \dot{x}_{i} = x_{i+1}, ~~i= 1, 2, \cdots, n-1 \\ \dot{x}_{n} = f({\pmb x}, t) + g({\pmb x}, t)u~~~~~~~~~~\\ \end{array} \right.\end{align} $ (1)

其中, $t\in[0, T]$, ${\pmb x} = [x_{1}, x_{2}, \cdots, x_{n}]^{\rm T}\in {\bf R}^n$为系统状态, $u \in {\bf R}$为控制输入, $f({\pmb x}, t), g({\pmb x}, t)$为未知连续非线性函数.

假设1.  控制输入增益函数$g({\pmb x}, t)$符号已知, 且存在常数$g_{\rm {min}}$满足$|g({\pmb x}, t)|\ge g_{\rm {min}} >0$, ${\pmb x}\in {\bf R}^n, t\in [0, T]$.

注1.  假设1中, 要求$g({\pmb x}, t)$为严格正的或者严格负的.不失一般性, 本文假定$g({\pmb x}, t)\ge g_{\rm {min}}>0$, ${\pmb x}\in {\bf R}^n, t\in [0, T]$, 其中$g_{\rm {min}}$为已知常数.

假设2.  非线性函数$f({\pmb x}, t), g({\pmb x}, t)$满足: $|f({\pmb x}_1, t)-f({\pmb x}_2, t)|\le l_f(t) |{\pmb x}_1-{\pmb x}_2|, |g({\pmb x}_1, t)-g({\pmb x}_2, t)|\le l_g(t) |{\pmb x}_1-{\pmb x}_2|$, ${\pmb x}_1, {\pmb x}_2\in {\bf R}^n, t\in[0, T]$, 其中, 定义Lipschitz系数(即时变函数$l_f(t), l_g(t)$)分别为非线性项$|f({\pmb x}_1, t)-f({\pmb x}_2, t)|, |g({\pmb x}_1, t)-g({\pmb x}_2, t)|$的界函数.

注2.  假设2中, $f({\pmb x}, t)$, $g({\pmb x}, t)$在有限时间区间上为Lipschitz连续, 且本文并未要求界函数$l_f(t), l_g(t)$已知.

本文采用重复学习控制算法, 受控系统应具有如下属性[9]:

属性1.  系统在有限时间区间上重复运行.

属性2.  期望状态是给定且封闭的.

属性3.  系统每次运行的初值与前一次运行的终值一致.

属性4.  被学习的时变参数与迭代轴无关.

属性5.  在所有作业区间中系统动态特性相同.

根据属性1~5, 系统$ (1)$在有限时间区间$[0, T]$上重复运行, 满足:

$ \begin{align} \label{sys2} \left\{ \begin{array}{l} \dot{x}_{k, i} = x_{k, i+1}, ~~i= 1, 2, \cdots, n-1 \\ \dot{x}_{k, n} = f({\pmb x}_k, t) + g({\pmb x}_k, t)u_k~~~~~~~~~~\\ \end{array} \right.\end{align} $ (2)

其中, $k= 0, 1, 2, \cdots$为迭代次数.

根据属性2和3知, 给定的期望状态${\pmb x}_d(t)$满足${\pmb x}_d(T)={\pmb x}_d(0)$, 系统实际状态满足${\pmb x}_k(0)={\pmb x}_{k-1}(T)$, $\forall k = 0, 1, 2, \cdots$.

本文控制目标为, 针对系统$ (2)$, 设计重复学习控制器$u_k(t)$, 使得系统状态${\pmb x}_k(t)$随着迭代次数$k$的增加, 在有限时间区间$[0, T]$上收敛于给定的期望状态${\pmb x}_d(t)$.

定义跟踪误差${\pmb e}_k = [e_{k, 1}, e_{k, 2}, \cdots, e_{k, n}]^{\rm T}= x_k-x_d$, 向量${\pmb\lambda} = [\lambda_1, \lambda_2, \cdots, \lambda_{n}]^{\rm T}$, 使得$p_{\lambda}(s) =s^n+ \lambda_{n}s^{n-1} + \lambda_{n-1}s^{n-2}+ \cdots + \lambda_1$为Hurwitz多项式.系统的误差动态方程描述为

$ \begin{align} \label{dek} \dot {\pmb e}_{k} =\,&A {\pmb e}_k + {\pmb b}[f({\pmb x}_k, t) + g({\pmb x}_k, t)u_k+\nonumber\\ &\lambda^{\rm T}{\pmb e}_k-\dot x_{d, n}] \end{align} $ (3)

其中,

$ \begin{align*} A &=& \left[\begin{array}{cccccc} 0& 1& 0& \cdots& 0& 0\\ 0& 0& 1& \cdots& 0& 0\\ \vdots& \vdots& \vdots&\ddots& \vdots&\vdots\\ 0& 0& 0& \cdots& 0& 1\\ -\lambda_1& -\lambda_2& -\lambda_3& \cdots& -\lambda_{n-1}& -\lambda_{n}\\ \end{array} \right]\end{align*} $
$ \begin{align*} {\pmb b}=[0~ 0~ \cdots~ 0~ 1]^{\rm T} \end{align*} $

未知期望控制输入$u_d$满足:

$ \begin{align} u_d = \frac{1}{g({\pmb x}_d, t)}\dot x_{d, n} -\frac{f({\pmb x}_d, t)}{g({\pmb x}_d, t)}\end{align} $ (4)

使得

$ \begin{align} \dot x_{d, n} = f({\pmb x}_d, t)+g({\pmb x}_d, t)u_d\end{align} $ (5)

$f_k=f({\pmb x}_k, t), g_k=g({\pmb x}_k, t), f_d=f({\pmb x}_d, t), g_d=g({\pmb x}_d, t)$, 整理误差动态特性为

$ \dot {\pmb e}_{k} = A{\pmb e}_k + {\pmb b}[f_k+g_ku_k-\nonumber\\ \ \ \ g_du_d-f_d+{\pmb\lambda}^{\rm T}{\pmb e}_k] $ (6)

加入辅助项$ (g_k-g_d)\hat u_k$, 整理式$ (6)$

$ \begin{align} \label{dot ek} \dot {\pmb e}_{k} =\,&A {\pmb e}_k + {\pmb b} [f_k-f_d + (g_k-g_d)\hat u_k +\nonumber\\ &g_d(\hat u_k-u_d)+ g_k (u_k - \hat u_k) +{\pmb \lambda}^{\rm T}{\pmb e}_k] \end{align} $ (7)

其中, $\hat u_k$为未知期望控制输入$u_d$的估计.

为了实现上述控制目标, 本文设计重复学习控制算法以处理式$ (7)$中的不确定性.文中对未知期望控制输入$u_d$进行估计, 得到$\hat u_k$; 分析非线性项$f_k-f_d, g_k-g_d$, 针对其界函数的平方$l_f^2, l_g^2$设计学习律, 以估计值$\hat {l}_{f, \, k}, \hat{l}_{g, \, k}$修正控制输入$u_k$.第2节设计重复控制算法, 给出该算法稳定性与收敛性分析; 第3节通过仿真算例及电机实验结果表明该控制算法的有效性.

2 RLC的设计与分析

针对系统$ (2)$, 设计带死区修正的学习律, 估计非线性不确定性的界函数, 进一步, 以获得的估计值设计重复学习控制器, 从而实现跟踪误差收敛于给定的邻域.

定义死区函数

$ \begin{align} \label{dk} d_k(t) = \left\{ \begin{array}{l} 1, ~~|{\pmb e}_k(t)|>\epsilon\\ 0, ~~|{\pmb e}_k(t)|\le\epsilon\\ \end{array} \right.\end{align} $ (8)

其中, $\epsilon$为给定常数.

考虑Lyapunov函数$V_k = \frac{1}{2}d_k{\pmb e}_k^{\rm T}P{\pmb e}_k$, 由于矩阵$A$稳定, 因此必然存在对称正定矩阵$P\in {\bf R}^{n\times n}$, 满足$A^{\rm T}P+PA=-Q$, 其中, $Q\in {\bf R}^{n\times n}$为给定的对称正定矩阵.根据式$ (7)$, 对$V_k$求导,

$\begin{align} \label{dot vk4} \dot V_k =\,&-\frac{1}{2}d_k{\pmb e}_k^{\rm T}Q{\pmb e}_k + d_k{\pmb b}^{\rm T}P{\pmb e}_k[f_k-f_d +\nonumber\\&(g_k-g_d)\hat u_k + g_d(\hat u_k -u_d)+\nonumber\\ &g_k (u_k- \hat u_k) +{\pmb\lambda}^{\rm T} {\pmb e}_k] \end{align} $ (9)

依据假设2, 整理式$ (9)$

$ \begin{align} \label{dot vk5} \dot{V}_k &\le -\frac{1}{2}d_k{\pmb e}_k^TQe_k + \bigg( d_kl_f|{\pmb b}^TP{\pmb e}_k||{\pmb e}_k| + \nonumber\\ &d_kl_g\hat u_k |{\pmb b}^TP{\pmb e}_k||{\pmb e}_k| +d_k {\pmb \lambda}^T|{\pmb b}^TP{\pmb e}_k||{\pmb e}_k|\bigg)+ \nonumber\\ & d_k{\pmb b}^TP{\pmb e}_kg_d(\hat u_k - u_d) + d_k{\pmb b}^TP{\pmb e}_kg_k(u_k-\hat u_k) \end{align} $ (10)

其中, $l_f, l_g$为未知参数.

基于式$ (10)$, 设计如下控制律

$ \begin{align} \label{ukd} u_k =\,&\hat u_k - \frac{1}{g_{\rm min}}\frac{9}{4\lambda_Q} \hat l_{f, k} {\pmb b}^{\rm T}P{\pmb e}_k- \nonumber\\&\frac{1}{g_{\rm min}}\frac{9}{4\lambda_Q} \hat l_{g, k}\hat u_k^2 {\pmb b}^{\rm T}P{\pmb e}_k- \frac{1}{g_{\rm min}}\frac{9}{4\lambda_Q}({\pmb \lambda}^{T})^2 {\pmb b}^{\rm T}P{\pmb e}_k\end{align} $ (11)

其中, $\hat u_k, \hat l_{f, k}, \hat l_{g, k}$分别为$u_d, l_f^2, l_g^2$的估计.

设计如下学习律

$ \hat u_{k} = \hat u_{k-1} - d_k\gamma_1{\pmb b}^{\rm T}P{\pmb e}_k\label{hat ukd} $ (12)
$ \hat l_{f, k} = \hat l_{f, k-1} + d_k\gamma_2\frac{9}{4\lambda_Q}({\pmb b}^{\rm T}P{\pmb e}_k)^2\label{lfk} $ (13)
$ \hat l_{g, k} = \hat l_{g, k-1} + d_k\gamma_3\frac{9}{4\lambda_Q}\hat u_k^2({\pmb b}^{\rm T}P{\pmb e}_k)^2\label{lgk} $ (14)

其中, $\gamma_1, \gamma_2, \gamma_3>0$为学习增益, $\hat u_{-1}=0, \hat l_{f, -1}=0, \hat l_{g, -1}=0$.

注3.  设计带死区修正的学习律(12)~(14), 1)避免了系统在有限时间运行后, 跟踪误差在零点附近不断累加导致被学习参数发散; 2)当跟踪误差${\pmb e}_k$进入误差带$\epsilon$后, $\hat u_k$, $\hat l_{f, k}$, $\hat l_{g, k}$将不再进行参数估计.

注4.  文献[20]中对于满足Lipschitz条件的非线性函数, 要求其界函数已知, 但实际系统往往难以精确获得其界函数, 这将影响系统的控制性能.本文通过带死区修正的学习律(13)和(14)对该界函数的平方进行估计, 使得所设计的控制算法较少地依赖于系统本身, 从而更适合应用于实际系统.

将式$ (11)$代入式$ (10)$得:

$ \begin{align} \label{dot vk6} \dot V_k \le& -\frac{1}{6}d_k{\pmb e}_k^{\rm T}Q{\pmb e}_k - d_k{\pmb b}^{\rm T}P{\pmb e}_kg_d\tilde u_k+\nonumber\\ &d_k\frac{9}{4\lambda_Q}\tilde l_{f, k}({\pmb b}^{\rm T}P{\pmb e}_k)^2 + d_k\frac{9}{4\lambda_Q}\tilde l_{g, k}\hat u_k^2({\pmb b}^{\rm T}P{\pmb e}_k)^2 \end{align} $ (15)

其中, $\tilde u_{k} = u_d -\hat u_k, \tilde l_{f, k} = l_f^2 -\hat l_{f, k}, \tilde l_{g, k} = l_g^2 -\hat l_{g, k}$分别为$u_d, l_f^2, l_g^2$的误差.

下面基于式$ (15)$, 分析重复学习控制算法的稳定性与收敛性, 并总结为如下定理.

定理1.  针对系统$ (2)$, 满足假设1和2, 选取控制律$ (11)$与学习律(12)~(14), 保证对所有$k=\{0, 1, 2, \cdots\}, $$\int_0^T \hat u_{k}^2(s){\rm d}s$, $\int_0^T \hat l_{f, k}^2(s){\rm d}s$, $\int_0^T \hat l_{g, k}^2(s){\rm d}s$有界, ${\pmb e}_k(t)$$t\in[0, T]$上有界, 且$\lim_{k\rightarrow \infty}d_k\|{\pmb e}_k\|^2ds=0$, ${\pmb e}_k(t)$收敛于$[-\epsilon, \ \epsilon]$.

证明  选取非负函数$L_k(t) = V_k(t) + \frac{1}{2\gamma_1} \int_0^t g_d\tilde u_k^2(s) {\rm d}s +\frac{1}{2\gamma_2} \int_0^t \tilde{l}_{f, k}^2(s) {\rm d}s + \frac{1}{2\gamma_3} \int_0^t \tilde{l}_{g, k}^2(s) {\rm d}s $.运用关系式$ (a-b)^2-(a-c)^2 = (b-c)(b+c-2a)$得,

$ \tilde u_k^2-\tilde u_{k-1}^2= -(\hat u_k - \hat u_{k-1})^2- 2(\hat u_k - \hat u_{k-1})\tilde u_k $ (16)
$ \tilde l_{f, k}^2-\tilde l_{f, k-1}^2=\nonumber\\ \ \ \ -(\hat l_{f, k} - \hat l_{f, k-1})^2-2(\hat l_{f, k} - \hat l_{f, k-1}) \tilde l_{f, k}\label{tilde lf} $ (17)
$\tilde l_{g, k}^2-\tilde l_{g, k-1}^2=\nonumber\\ \ \ \ -(\hat l_{g, k} - \hat l_{g, k-1})^2-2(\hat l_{g, k} - \hat l_{g, k-1})\tilde l_{g, k}\label{tilde lg} $ (18)

根据关系式(16)~(18), $L_k(t)$$L_{k-1}(t)$的差为

$ \begin{align} \label{delta Lk2} L_k(t) &- L_{k-1}(t)=\nonumber\\ & V_k(t) - V_{k-1}(t) - \int_0^t \bigg[\frac{1}{2\gamma_1}g_d (\hat u_{k}-\hat u_{k-1})^2+\nonumber\\ &\frac{1}{\gamma_1}g_d(\hat u_{k}-\hat u_{k-1})\tilde{u}_{k}+ \frac{1}{2\gamma_2} (\hat l_{f, k}-\hat l_{f, k-1})^2+\nonumber\\ &\frac{1}{\gamma_2}(\hat l_{f, k}-\hat l_{f, k-1})\tilde{l}_{f, k}+\frac{1}{2\gamma_3} (\hat l_{g, k}-\hat l_{g, k-1})^2+\nonumber\\ &\frac{1}{\gamma_3}(\hat l_{g, k}-\hat l_{g, k-1})\tilde{l}_{g, k}\bigg]{\rm d}s \end{align} $ (19)

根据式$ (15)$, 整理$V_k(t)$,

$ \begin{align} \label{vkd} V_k(t) &= V_k(0) + \int_0^t \dot V_k(s) {\rm d}s\le\nonumber\\ &V_k(0) - \int_0^t\Bigg[\frac{1}{6}d_k{\pmb e}_k^{\rm T}Q{\pmb e}_k - \nonumber\\ &d_k{\pmb b}^{\rm T}P{\pmb e}_kg_d\tilde u_k + d_k\frac{9}{4\lambda_Q}\tilde l_{f, k}({\pmb b}^{\rm T}P{\pmb e}_k)^2 +\nonumber\\ &d_k\frac{9}{4\lambda_Q}\tilde l_{g, k}\hat u_k^2({\pmb b}^{\rm T}P{\pmb e}_k)^2\Bigg]{\rm d}s \end{align} $ (20)

将式$ (20)$及学习律(12)~(14)代入式$ (19)$,

$ \begin{align} \label{Lkd} &L_k(t) - L_{k-1}(t) \le\nonumber\\ &\qquad V_k(0) - V_{k-1}(t) - \int_0^t \frac{\lambda_Q}{6}d_k \|{\pmb e}_k\|^2 {\rm d}s \end{align} $ (21)

由于$V_k(0) = V_{k-1}(T)$, 式$ (21)$中令$t=T$,

$ \begin{align} \label{LkTd} L_k(T) - L_{k-1}(T)\le\int _0^T -\frac{1}{6}d_k{\pmb e}_k^{\rm T}Q{\pmb e}_k{\rm d}s\end{align} $ (22)

由式$ (22)$知, 若$L_0(T)$有界, 则$L_k(T)$有界.

下面对$L_0(T)$的有界性进行分析.根据$L_k(t)$的定义知:

$ \begin{align} \label{L0} L_0(t) =\,&V_0(t) + \frac{1}{2\gamma_1}\int_0^t g_d\tilde u_{0}^2(s){\rm d}s+\nonumber\\ &\frac{1}{2\gamma_2}\int_0^t \tilde l_{f, 0}^2(s){\rm d}s +\nonumber\\ &\frac{1}{2\gamma_3}\int_0^t \tilde l_{g, 0}^2(s){\rm d}s\end{align} $ (23)

对式$ (23)$求导, 根据式$ (15)$得:

$ \begin{align} \label{dot L0} \dot L_0(t) =\,&\dot V_0(t) +\nonumber\\ &\frac{1}{2\gamma_1} g_d\tilde u_{0}^2(t)+\frac{1}{2\gamma_2} \tilde l_{f, 0}^2(t)+ \frac{1}{2\gamma_3}\tilde l_{g, 0}^2(t)\le\nonumber\\ & \frac{1}{2\gamma_1} g_d\tilde u_0^2(t)+\frac{1}{2\gamma_2} \tilde l_{f, 0}^2(t)+\frac{1}{2\gamma_3}\tilde l_{g, 0}^2(t)-\nonumber\\&\frac{1}{6}d_0{\pmb e}_0^{\rm T}Q{\pmb e}_0+ \frac{9}{4\lambda_Q}d_0\tilde l_{g, 0}\hat u_0^2({\pmb b}^{\rm T}P{\pmb e}_0)^2+ \nonumber\\ &\frac{9}{4\lambda_Q}d_0\tilde l_{f, 0}({\pmb b}^{\rm T}P{\pmb e}_0)^2+\nonumber\\&d_0{\pmb b}^{\rm T}P{\pmb e}_0g_d(\hat u_0 - u_d)\end{align} $ (24)

由式(12)~(14)知, $\hat u_0 = -d_0\gamma_1 {\pmb b}^{\rm T}P{\pmb e}_0$, $\hat l_{f, 0}=d_0\gamma_2\frac{9}{4\lambda_Q}({\pmb b}^{\rm T}P{\pmb e}_0)^2$, $\hat l_{g, 0}=d_0\gamma_3\frac{9}{4\lambda_Q}\hat u_0^2({\pmb b}^{\rm T}P{\pmb e}_0)^2$, 整理式$ (24)$得,

$ \begin{align} \dot L_0(t) \le& \frac{1}{2\gamma_{1}}g_du_d^2+\frac{1}{2\gamma_{2}}l_f^4 +\frac{1}{2\gamma_{3}}l_g^4\end{align} $ (25)

因此, $L_0(t)$$t\in [0, T]$上有界, 由式$ (22)$$L_k(T)$有界, 根据$L_k(t)$定义知$V_k(T)$, $\int_0^T \hat u_k^2 {\rm d}s$, $\int_0^T \hat l_{f, k}^2{\rm d}s$, $\int_0^T \hat l_{g, k}^2{\rm d}s$有界.由式$ (21)$知:

$ \begin{align} L_k(t) \le\,&V_k(0) + L_{k-1}(t) -V_{k-1}(t)\le\nonumber\\&V_{k-1}(T) + \frac{1}{2\gamma_1}\int_0^t g_d\tilde u_{k-1}^2(s){\rm d}s+\nonumber\\&\frac{1}{2\gamma_2}\int_0^t \tilde l_{f, k-1}^2(s){\rm d}s+\nonumber\\&\frac{1}{2\gamma_3}\int_0^t \tilde l_{g, k-1}^2(s){\rm d}s\end{align} $ (26)

因此, $\forall k=\{0, 1, 2, \cdots\}$, $L_k(t)$$t\in[0, T]$上有界; 由$L_k(t)$的定义知, $V_k(t)$$t\in[0, T]$上有界; 由$V_k(t)$的定义知, ${\pmb e}_k(t)$$t\in[0, T]$上有界.

由式$ (22)$知, 对于任意$K>1$,

$ \begin{align} \label{LKT} L_K(T) \le L_0(T)-\frac{\lambda_Q}{6}\sum\limits_{j=1}^K\int_0^T d_j\|{\pmb e}_j\|^2 {\rm d}s\end{align} $ (27)

由于$L_k(T), k=\{0, 1, 2, \cdots\}$有界, 因此当$k\rightarrow \infty$时, $\int_0^T d_k\|{\pmb e}_k\|^2{\rm d}s=0$, ${\pmb e}_k(t)$收敛于由死区界定的邻域$[-\epsilon, \epsilon]$.

注5.  定理1对界函数的平方$l_f^2, l_g^2$及期望控制输入$u_d$采用带死区修正的估计律, 设计重复学习控制器, 在仅仅已知$g_{\rm min}$的情况下, 实现了跟踪误差收敛于邻域$[-\epsilon, \ \epsilon]$.

3 仿真与实验

为了验证文中提出的控制算法的有效性, 第3.1节对小车倒摆系统进行仿真; 第3.2节在电机平台上实现该控制算法, 并给出实验结果.

3.1 仿真算例

小车倒摆系统可由系统$ (1)$描述, 其中

$ \begin{align*} f({\pmb x}, t)=\, &\dfrac{g_0 {\rm sin}(x_1)-\dfrac{m l x_2^2 {\rm sin}(2x_1)}{2(M+m)}}{l\left(\dfrac{4}{3}-\dfrac{m {\rm cos}^2(x_1)}{M+m}\right)}\nonumber\\ g({\pmb x}, t)=&\dfrac{\dfrac{{\rm cos}(x_1)}{M+m}}{l\left(\dfrac{4}{3}- \dfrac{m {\rm cos}^2(x_1)}{M+m}\right)} \end{align*} $

这里, $n=2$, $x_1$为倒摆杆的角位移, $x_2$为倒摆杆的角速度, $u$是控制输入; $g_0=9.8\, {\rm m/s}$为重力常数; $M=1.0\, {\rm kg}, m=0.1\, {\rm kg}$分别为小车和倒摆杆的质量; $l=0.5\, {\rm m}$为摆杆长度的一半.给定参考轨迹为$x_d(t)=0.1\, {\rm sin} (2\pi t)$, $\dot x_d(t)=0.2\pi {\rm cos} (2\pi t)$.系统初始状态设为$x_1(0)=0, x_2(0)=0.2\pi$, 非线性函数$g(x, t)$的下界为$g_{{\rm min}} =1.39$.分别选取矩阵$A, Q$

$ \begin{align*} \begin{aligned} A=\left[ \begin{array}{cc} 0&1\\ -10 &-1 \end{array} \right], \quad&Q=\left[ \begin{array}{cc} 10&0 \\ 0&5 \end{array} \right] \end{aligned} \end{align*} $

解Lyapunov方程$A^{\rm T}P+PA=-Q$得:

$ \begin{align*} P=\left[ \begin{array}{cc} 30.5&0.5 \\ 0.5&3 \end{array} \right] \end{align*} $

采用重复学习控制器$ (11)$, 学习律(12)~(14), 其中控制器参数分别为$\gamma_1=25, \gamma_2=10, \gamma_3=10, \epsilon = 10^{-4}$.定义性能指标$J_k=\max_{t\in[0, T]}|x_{d, 1}-x_{k, 1}|$.系统运行28个周期, 仿真结果如图 1~5所示. 图 1刻画了性能指标$J_k$, 由图 1知随着迭代次数的增加, 系统跟踪误差逐步收敛. 图 2给出第28次迭代的控制输入$u_k$. 图 3给出参考输入的估计$\hat u_k$的变化过程. 图 4图 5分别为界函数平方的估计$\hat l_{f, \, k}, \hat l_{g, \, k}$在28次迭代中的变化情况.

图 1 误差性能指标$J_k$ Figure 1 Error performance index $J_k$
图 2 第28次迭代的控制输入$u_k$ Figure 2 The control input $u_k$ at the 28th iteration
图 3 参考输入估计$\hat u_k$ Figure 3 Estimate $\hat u_k$
图 4 界函数估计$\hat l_{f, \, k}$ Figure 4 Estimate of the bound function $\hat l_{f, \, k}$
图 5 界函数估计$\hat l_{g, \, k}$ Figure 5 Estimate of the bound function $\hat l_{g, \, k}$
3.2 实验结果

交流电机实验平台, 包括旋转电机(APM-SBN01AGN, 额定功率100 W, 额定电压200 V, 额定转速3 000 r/s); 光电增量编码器(分辨率24 000线/转); 智能伺服驱动(ELMO HAR-5/60-3); DSP控制器(SEED-DEC2812V2.1开发板)及上位机(DELL计算机).上位机通过CCS STUDIO将编译好的程序下载至DSP开发板, 通过D/A模块转换为伺服驱动ELMO所需的模拟信号($\pm$10 V电压), 将该模拟信号传入ELMO驱动器获得PWM三相电压驱动电机, 同时ELMO通过光电增量编码器接收电机信号, 将该信号通过反馈通道输出至DSP开发板形成闭环控制系统.

给定参考轨迹

$ \begin{align} \label{syxd} x_d(t)=75^{\circ}\sin(4\pi t) \end{align} $ (28)

其中, 正弦信号的频率$f=2\, {\rm Hz}$.分别选取矩阵$A, Q$

$ \begin{align} \label{aq} A=\left[ \begin{array}{cc} 0& 1\\ -1&-5\\ \end{array} \right], ~~~~ Q=\left[ \begin{array}{cc} 0.01& 0\\ 0& 0.01\\ \end{array} \right]\end{align} $ (29)

解Lyapunov方程得:

$ \begin{align} \label{p} P=\left[ \begin{array}{cc} 0.027& 0.005\\ 0.005& 0.002\\ \end{array} \right]\end{align} $ (30)

采用控制律$ (11)$, 学习律(12)~(14), 其中参数分别为$\gamma_1=3, \gamma_2=10^{-12}, \gamma_3=10^{-12}, \epsilon = 0.3, 1/g_{\rm min}=0.001$, 采样时间$t=1\, \rm{ms}$.定义$e=[e_1~~ce_2]^{\rm T}$, 其中$c=0.01$.实验结果如图 6~11所示.

图 6 误差性能指标$J_k$ Figure 6 Error performance index $J_k$
图 7 位置跟踪误差$e_1$ Figure 7 Position tracking error $e_1$
图 8 控制输入$u_k$ Figure 8 Control input $u_k$
图 9 参考输入的估计$\hat u_k$ Figure 9 Control input $\hat u_k$
图 10 界函数估计$\hat l_{f, \, k}$ Figure 10 Estimate of the bound function $\hat l_{f, \, k}$
图 11 界函数估计$\hat l_{g, \, k}$ Figure 11 Estimate of the bound function $\hat l_{g, \, k}$

图 6刻画了位置跟踪误差的性能指标在17次迭代过程中的变化情况, 在第14次迭代以后误差保持在0.3邻域内. 图 7给出系统的位置跟踪误差. 图 8为控制输入$u_k$. 图 9描述了参考输入的估计$\hat u_k$, 由图 89知, 随着迭代次数的增加, $\hat u_k$逐步逼近控制输入$u_k$. 图 1011分别给出界函数平方的估计$\hat l_{f, \, k}$, $\hat l_{g, \, k}$.由实验结果知, 针对交流电机采用重复学习控制律, 随着迭代次数的增加, 能够保证跟踪误差收敛于死区界定的邻域.

为了进一步说明本文所提方法的有效性, 下面采用文献[20]中所提方法设计控制器$ (31)$, 并给出对比的实验结果.

$ \begin{align} \label{unon} u_k =\,&\hat u_k - \frac{1}{g_{\rm min}}\frac{9}{4\lambda_Q} l_{f}^2 ({\pmb b}^{\rm T}P{\pmb e}_k)^2-\nonumber\\& \frac{1}{g_{{\rm min}}}\frac{9}{4\lambda_Q} l_{g}^2\hat u_k^2 ({\pmb b}^{\rm T}P{\pmb e}_k)^2- \nonumber\\ &\frac{1}{g_{{\rm min}}}\frac{9}{4\lambda_Q}({\pmb \lambda}^{T})^2 ({\pmb b}^{\rm T}P{\pmb e}_k)^2\end{align} $ (31)

其中, $l_f^2$$l_g^2$为已知参数.

设计期望控制的学习律为

$ \begin{align} \label{bjhat ukd} \hat u_{k} = \hat u_{k-1} - \gamma {\pmb b}^{\rm T}P{\pmb e}_k\end{align} $ (32)

选用参考轨迹$ (28)$, 采样时间为$1\, {\rm ms}$.选取式$ (29)$中的矩阵$A, Q, $则矩阵$P$为式$ (30)$.

1) 选取不同的学习增益进行对比.控制器$ (31)$的参数为$\gamma=3, 4, 5, l_f^2=l_g^2=1.8, 1/g_{\rm min}=0.001$; 基于重复学习方法所设计的控制器$ (11)$的参数为$\gamma_1=3, \gamma_2=10^{-12}, \gamma_3=10^{-12}, \epsilon = 0.3, 1/g_{\rm min}=0.001$.实验结果如图 12~14所示.

图 12 误差性能指标$J_k$ (其中三条虚线为控制器(31)的实验结果, 实线为控制器(11)的实验结果 Figure 12 Error performance index $J_k$ (the three dotted lines are the result by controller (31), the solid line is the result by controller (11))
图 13 控制输入$u_k$ (其中三条虚线为控制器(31)的实验结果, 实线为控制器(11)的实验结果) Figure 13 Control input $u_k$ (the three dotted lines are the result by controller (31), the solid line is the result by controller (11))
图 14 参考输入的估计$\hat u_k$ (其中三条虚线为控制器(31)的实验结果, 实线为控制器(11)的实验结果) Figure 14 Control input $\hat u_k$ (the three dotted lines are the result by controller (31), the solid line is the result by controller (11))

2) 选取不同的$g_{\rm min}$进行对比.控制器$ (31)$的参数为$\gamma=3, l_f^2=l_g^2=1.8, g_{\rm min}=1\, 000$, 1 250, 1 500;基于重复学习方法所设计的控制器$ (11)$的参数为$\gamma_1=3, \gamma_2=10^{-12}, \gamma_3=10^{-12}, \epsilon = 0.3, 1/g_{\rm min}=1\, 000$.实验结果如图 15~17所示.

图 15 误差性能指标$J_k$ (其中三条虚线为控制器(31)的实验结果, 实线为控制器(11)的实验结果) Figure 15 Error performance index $J_k$ (the three dotted lines are the result by controller $ (31)$, the solid line is the result by controller $ (11)$)
图 16 控制输入$u_k$ (其中三条虚线为控制器(31)的实验结果, 实线为控制器(11)的实验结果) Figure 16 Control input $u_k$ (the three dotted lines are the result by controller (31), the solid line is the result by controller (11))
图 17 参考输入的估计$\hat u_k$ (其中三条虚线为控制器(31)的实验结果, 实线为控制器(11)的实验结果) Figure 17 Control input $\hat u_k$ (the three dotted lines are the result by controller (31), the solid line is the result by controller (11))

图 12图 15可以看出, 文献[20]所提的控制方法与本文所设计的控制方法, 均可用于处理非线性系统存在的非参数不确定性, 实现跟踪误差在有限时间区间上的收敛.本文所设计的控制器$ (11)$, 在仅已知$g_{\rm min}$的情况下, 并且不使用高控制增益与较大的先验值$g_{\rm min}$时, 与控制器$ (31)$相比, 具有较好的跟踪精度. 图 1314, 图 1617分别给出控制输入$u_k$及其估计$\hat u_k$的变化过程.由图 12图 15知, 当控制器$ (31)$的控制增益$\gamma$$g_{\rm min}$分别增大时, 其跟踪误差逐渐减小, 然而图 1314表明, 其控制输入逐渐发散.

实验结果表明, 本文给出的重复学习控制算法, 在仅已知控制输入增益的最小值$g_{\rm min}$的情况下, 尽可能少地依赖于系统模型, 并且获得了良好的控制性能, 这一结果进一步验证了该方法的有效性.

4 结论

本文研究一类不确定非线性系统的非参数不确定性问题, 并基于Lyapunov分析方法设计控制器.为了处理满足Lipschitz条件的非参数不确定性, 提出一种重复学习控制算法.该算法较少地依赖于系统模型, 在仅已知控制输入增益最小值$g_{\rm min}$的情况下, 通过对满足Lipschitz条件的界函数进行估计, 处理系统存在的非参数不确定性.文中采用带死区修正的学习律, 以避免参数的正向累加影响系统的收敛性.同时, 本文设计带死区的Lyapunov函数, 以保证跟踪误差收敛于给定的邻域及闭环系统所有信号的有界性.此外, 该控制方法能够处理与状态有关的非线性控制增益.进一步, 通过仿真与实验结果, 验证了本文所提控制方法的有效性.

参考文献
1
Arimoto S, Kawamura S, Miyazaki F. Bettering operation of robots by learning. Journal of Robotic Systems, 1984, 1(2): 123-140. DOI:10.1002/(ISSN)1097-4563
2
Mezghani M, Roux G, Cabassud M, Le Lann M V, Dahhou B, Casamatta G. Application of iterative learning control to an exothermic semibatch chemical reactor. IEEE Transactions on Control Systems Technology, 2002, 10(6): 822-834. DOI:10.1109/TCST.2002.804117
3
Tayebi A, Chien C J. A Unified adaptive iterative learning control framework for uncertain nonlinear systems. IEEE Transactions on Automatic Control, 2007, 52(10): 1907-1913. DOI:10.1109/TAC.2007.906215
4
Chien C J, Yao C Y. Iterative learning of model reference adaptive controller for uncertain nonlinear systems with only output measurement. Automatica, 2004, 40(5): 855-864. DOI:10.1016/j.automatica.2003.12.009
5
Xu J X. A survey on iterative learning control for nonlinear systems. International Journal of Control, 2011, 84(7): 1275-1294. DOI:10.1080/00207179.2011.574236
6
Norrlof M. An adaptive iterative learning control algorithm with experiments on an industrial robot. IEEE Transactions on Robotics and Automation, 2002, 18(2): 245-251. DOI:10.1109/TRA.2002.999653
7
Kuc T Y, Kwanghee N, Lee J S. An iterative learning control of robot manipulators. IEEE Transactions on Robotics and Automation, 1991, 7(6): 835-842. DOI:10.1109/70.105392
8
Choi J Y, Lee J S. Adaptive iterative learning control of uncertain robotic systems. IEEE Proceedings-Control Theory and Applications, 2000, 147(2): 217-223. DOI:10.1049/ip-cta:20000138
9
Sun M X, Ge S S, Mareels I M Y. Adaptive repetitive learning control of robotic manipulators without the requirement for initial repositioning. IEEE Transactions on Robotics, 2006, 22(3): 563-568. DOI:10.1109/TRO.2006.870650
10
French M, Rogers E. Non-linear iterative learning by an adaptive Lyapunov technique. International Journal of Control, 2000, 73(10): 840-850. DOI:10.1080/002071700405824
11
Tayebi A. Adaptive iterative learning control for robot manipulators. Automatica, 2004, 40(7): 1195-1203. DOI:10.1016/j.automatica.2004.01.026
12
Yin C K, Xu J X, Hou Z S. A high-order internal model based iterative learning control scheme for nonlinear systems with time-iteration-varying parameters. IEEE Transactions on Automatic Control, 2010, 55(11): 2665-2670. DOI:10.1109/TAC.2010.2069372
13
Sun M, Ge S S. Adaptive repetitive control for a class of nonlinearly parametrized systems. IEEE Transactions on Automatic Control, 2006, 51(10): 1684-1688. DOI:10.1109/TAC.2006.883028
14
Dong W J, Kuhnert K D. Robust adaptive control of nonholonomic mobile robot with parameter and nonparameter uncertainties. IEEE Transactions on Robotics, 2005, 21(2): 261-266. DOI:10.1109/TRO.2004.837236
15
Chen W S, Jiao L C. Adaptive tracking for periodically time-varying and nonlinearly parameterized systems using multilayer neural network. IEEE Transactions on Neural Networks, 2010, 21(2): 345-351. DOI:10.1109/TNN.2009.2038999
16
Lv Qing. Adaptive iterative learning control for inhibition effect of initial state random error. Acta Automatica Sinica, 2015, 41(7): 1365-1372.
( 庆吕庆. 抑制初态误差影响的自适应迭代学习控制. 自动化学报, 2015, 41(7): 1365-1372.)
17
Li D, Li J M. Adaptive iterative learning control for nonlinearly parameterized systems with unknown time-varying delay and unknown control direction. International Journal of Automation and Computing, 2012, 9(6): 578-586. DOI:10.1007/s11633-012-0682-9
18
Tao Hong-Feng, Xian Xue-Hui, Yang Hui-Zhong. Periodic adaptive compensating learning control of nonlinear systems with saturated input. Acta Automatica Sinica, 2014, 40(9): 1998-2004.
( 陶洪峰, 霰学会, 杨慧中. 输入饱和非线性系统的周期自适应补偿学习控制. 自动化学报, 2014, 40(9): 1998-2004.)
19
Zhang C L, Li J M. Adaptive iterative learning control of non-uniform trajectory tracking for strict feedback nonlinear time-varying systems. International Journal of Automation and Computing, 2014, 11(6): 621-626. DOI:10.1007/s11633-014-0819-0
20
Jin X, Huang D Q, Xu J X. Iterative learning control for systems with nonparametric uncertainties under alignment condition. In: Proceedings of the 51st Conference on Decision and Control (CDC). Maui, HI, USA: IEEE, 2012. 3942-3947
21
Yu M, Huang D Q, He W. Robust adaptive iterative learning control for discrete-time nonlinear systems with both parametric and nonparametric uncertainties. International Journal of Adaptive Control and Signal Processing, 2016, 30(7): 972-985. DOI:10.1002/acs.v30.7
22
Zhang C L, Li J M. Adaptive iterative learning control for nonlinear pure-feedback systems with initial state error based on fuzzy approximation. Journal of the Franklin Institute, 2014, 351(3): 1483-1500. DOI:10.1016/j.jfranklin.2013.11.018
23
Xu J X, Jin X, Huang D Q. Composite energy function-based iterative learning control for systems with nonparametric uncertainties. International Journal of Adaptive Control and Signal Processing, 2014, 28(1): 1-13.
24
Li X F, Huang D Q, Chu B, Xu J X. Robust iterative learning control for systems with norm-bounded uncertainties. International Journal of Robust and Nonlinear Control, 2016, 26(4): 697-718. DOI:10.1002/rnc.v26.4
25
Xu J X, Yan R. On initial conditions in iterative learning control. IEEE Transactions on Automatic Control, 2005, 50(9): 1349-1354. DOI:10.1109/TAC.2005.854613