广义随机仿射系统的线性二次控制

引用本文

朱怀念, 张成科, 曹铭, 宾宁. 广义随机仿射系统的线性二次控制[J]. 广东工业大学学报, 2016, 33(2): 24-30. DOI: 10.3969/j.issn.1007-7162.2016.02.005.

Zhu Huai-nian, Zhang Cheng-ke, Cao Ming, Bin Ning. Linear Quadratic Control of Continuous-time Singular Stochastic Affine Systems[J]. Journal of Guangdong University of Technology, 2016, 33(2): 24-30. DOI: 10.3969/j.issn.1007-7162.2016.02.005. 复制到剪切板

基金项目:

国家自然科学基金资助项目(71771061，11501129，71571053);广东省自然科学基金资助项目(2015A030310218, 2014A030310366)

作者简介:

朱怀念(1985-)，男，讲师，博士，主要研究方向为动态博弈理论及其应用。

文章历史

收稿日期：2015-09-17

Contents Abstract Full text Figures/Tables PDF

广义随机仿射系统的线性二次控制

朱怀念¹, 张成科¹, 曹铭², 宾宁²

1. 广东工业大学经济与贸易学院，广东广州 510520;
2. 广东工业大学管理学院，广东广州 510520

收稿日期：2015-09-17

基金项目：国家自然科学基金资助项目(71771061，11501129，71571053);广东省自然科学基金资助项目(2015A030310218, 2014A030310366)

作者简介：朱怀念(1985-)，男，讲师，博士，主要研究方向为动态博弈理论及其应用。

摘要: 研究了一类连续时间广义随机仿射系统的线性二次(Linear Quadratic, LQ)控制问题.在定义了广义随机系统稳定性的相关概念后，通过一个线性矩阵不等式(Linear Matrix Inequality, LMI)给出了系统稳定性的条件.然后，利用Riccati方程法分别研究了有限时间广义随机仿射系统的LQ问题和无限时间广义随机系统的LQ问题，得到了有限时间最优反馈控制的存在条件等价于一个推广的微分Riccati方程和一个推广的倒向微分方程存在解，而对应的无限时间最优反馈控制的存在条件等价于一个推广的代数Riccati方程存在解，同时给出了最优反馈控制的显式表达及最优性能指标值.

关键词: 广义随机仿射系统线性二次控制线性矩阵不等式 Riccati方程

Linear Quadratic Control of Continuous-time Singular Stochastic Affine Systems

Zhu Huai-nian¹, Zhang Cheng-ke¹, Cao Ming², Bin Ning²

1. School of Economics & Commence, Guangdong University of Technology, Guangzhou 510520, China;
2. School of Management, Guangdong University of Technology, Guangzhou 510520, China

Abstract: Linear quadratic control of a class of continuous-time singular stochastic affine systems is investigated. After establishing some concepts of the stability for stochastic singular systems, the condition of the stability is presented by means of a linear matrix inequality. Then, by utilizing Riccati equation approach, the existent conditions of optimal feedback control in finite horizon and infinite horizon are respectively obtained by means of a generalized differential Riccati equation or a generalized algebraic Riccati equation. And explicit expressions of the optimal feedback controls and optimal cost function are given.

Key words: singular stochastic affine systems linear quadratic control linear matrix inequality Riccati equation

广义系统^[1]是一类更一般化且具有广泛应用背景的动力系统，大量出现在许多实际的系统模型中，如电力系统、经济系统、受限机器人、电子网络和宇航系统等^[2]，所以对它的研究具有重要的理论意义和实用价值，迄今为止已取得了丰硕成果^[3-4].同时，现实世界中的许多系统都不可避免地存在不确定性，这些不确定性影响到人类为寻找最优结果而付出的努力，因而随机系统的研究也引起了学术界越来越多的关注^[5-10].

近年来，将两者结合起来的广义随机系统成为了控制领域的一大研究热点^[11-15].文献[11-12]分别讨论了连续时间广义混杂系统的稳定性和镇定性，文献[13]基于广义混杂系统的稳定性结果，提出了广义线性随机混杂系统均方稳定的判定定理，文献[14]对文献[13]的结果进行了改进，得到了连续时间和离散时间广义线性Itô随机系统稳定性的充分条件，文献[15]研究了连续时间广义线性Itô随机系统的稳定性和LQ控制问题.

纵观以上文献发现，广义随机系统的稳定性分析已经取得到较丰富的成果，但关于广义随机仿射系统LQ控制的研究还比较少.而随机仿射系统的LQ控制问题有着强大的应用背景，一个典型的例子就是基于随机LQ框架的连续时间均值－方差型投资组合选择问题，通过构造一个辅助问题，可以将该问题转化为求解一个随机仿射系统的LQ控制问题，详细分析见文献[8].另一个典型的应用就是主－从随机LQ微分博弈问题，详细分析见下一节的研究动机部分.此外，当利用随机线性系统的LQ控制去逼近求解随机非线性系统的最优控制策略时，随机仿射系统的LQ控制也发挥着重要的作用.

本文在文献[12]和[14]有关广义随机系统稳定性分析的基础上，研究广义随机仿射系统的LQ控制问题.一方面将文献[6]中正常线性Itô随机系统的LQ控制问题拓展到广义随机仿射系统的LQ控制中；另一方面将文献[15]中广义线性Itô随机系统LQ控制的相关结果推广至广义随机仿射系统中，同时也指出了文献[15]中有待改进的地方并给出了解释，因而本文的工作有着较好的理论意义和现实应用价值.

1 预备知识 1.1 研究动机

考虑有限时间广义主－从(leader-follower)随机LQ微分博弈问题，博弈系统的动态方程为

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{E}}{\rm{d}}\mathit{\boldsymbol{x}}\left( t \right) = \left[ {\mathit{\boldsymbol{A}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + {\mathit{\boldsymbol{B}}_1}\left( t \right){\mathit{\boldsymbol{u}}_1}\left( t \right) + {\mathit{\boldsymbol{B}}_2}\left( t \right){\mathit{\boldsymbol{u}}_2}\left( t \right)} \right]{\rm{d}}t + \\ \;\;\;\;\left[ {\mathit{\boldsymbol{C}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + {\mathit{\boldsymbol{D}}_1}\left( t \right){\mathit{\boldsymbol{u}}_1}\left( t \right) + {\mathit{\boldsymbol{D}}_2}\left( t \right){\mathit{\boldsymbol{u}}_2}\left( t \right)} \right]{\rm{d}}W\left( t \right),\\ \;\;\;\;t \in \left[ {0,T} \right],\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}. \end{array} \right. $

(1)

其中E是rank(E)=r≤n的n-阶常数矩阵；A(·)、B₁(·)、B₂(·)、C(·)、D₁(·)和D₂(·)是具有适当维数的有界矩阵；x(·)∈ℝⁿ为状态过程；u₁(·)和u₂(·)是两个容许控制过程，表示博弈人1(记为从者，follower)和2(记为主者，leader)的控制策略，其允许策略集合分别记为$ {{U}_{1}}[0, T]\triangleq L_{_{F}}^{^{2}}(0, T;{{\mathbb{R}}^{{{m}_{1}}}}) $和$ {{U}_{2}}\left[0, T \right]\triangleq L_{_{F}}^{^{2}}(0, T;{{\mathbb{R}}^{{{m}_{2}}}}) $；W(·)是定义在完备概率空间(Ω, F, {F_t}_t≥0, P)上的一维标准布朗运动.博弈人的性能指标定义为

$ \begin{array}{l} {J_i}\left( {{\mathit{\boldsymbol{x}}_0};{\mathit{\boldsymbol{u}}_i}\left( \cdot \right),{\mathit{\boldsymbol{u}}_j}\left( \cdot \right)} \right) = {\rm{E}}\left\{ {\int_0^{\rm{T}} {\left[ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{Q}}_i}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + } \right.} } \right.\\ \left. {\left. {\mathit{\boldsymbol{u}}_i^{\rm{T}}\left( t \right){\mathit{\boldsymbol{R}}_i}\left( t \right){\mathit{\boldsymbol{u}}_i}\left( t \right)} \right]{\rm{d}}t + {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( T \right){\mathit{\boldsymbol{H}}_i}\mathit{\boldsymbol{x}}\left( T \right)} \right\}. \end{array} $

(2)

其中${{\mathit{\boldsymbol{Q}}}_{i}}(\cdot )\in \mathcal{C}(0, T;\mathit{\boldsymbol{S}}_{_{+}}^{^{n}}) $，$ {{\mathit{\boldsymbol{R}}}_{i}}(\cdot )\in \mathcal{C}(0, T;{{\mathit{\boldsymbol{S}}}^{m}})$，H_i∈S₊ⁿ，i, j=1, 2, i≠j.

在广义主－从随机LQ微分博弈问题中，博弈人i的目标是通过选取控制策略u_i(·)∈U_i[0, T]使性能指标J_i(x₀; u_i(·), u_j(·))最小化.进一步，为了得到该博弈问题的均衡解，可将该问题转化为求解下述两个随机LQ问题来实现.

LQ问题1：给定博弈人2的控制策略u₂(·)∈U₂[0, T]，对于固定的x₀∈ℝⁿ，博弈人1选择u₁(·)∈U₁[0, T]，使得$ {{J}_{1}}({{\mathit{\boldsymbol{x}}}_{0}};\mathit{\boldsymbol{u}}_{_{1}}^{^{*}}\left( \cdot \right), {{\mathit{\boldsymbol{u}}}_{2}}\left( \cdot \right))=\underset{{{u}_{1}}\left( \cdot \right)\in {{U}_{1}}\left[0, T \right]}{\mathop{\rm{min}}}\, {{J}_{1}}({{\mathit{\boldsymbol{x}}}_{0}};{{\mathit{\boldsymbol{u}}}_{1}}\left( \cdot \right), {{\mathit{\boldsymbol{u}}}_{2}}\left( \cdot \right)) $.LQ问题2：当博弈人1选择了其最优策略u₁^*(·)后，博弈人2选择u₂(·)∈U₂[0, T]，使得

$ {{J}_{2}}({{\mathit{\boldsymbol{x}}}_{0}};\mathit{\boldsymbol{u}}_{_{1}}^{^{*}}\left( \cdot \right), \mathit{\boldsymbol{u}}_{_{2}}^{^{*}}\left( \cdot \right))=\underset{{{u}_{2}}\left( \cdot \right)\in {{U}_{2}}\left[0, T \right]}{\mathop{\rm{min}}}\, {{J}_{2}}({{\mathit{\boldsymbol{x}}}_{0}};\mathit{\boldsymbol{u}}_{_{1}}^{^{*}}\left( \cdot \right), {{u}_{2}}\left( \cdot \right)) $，此时的(u₁^*(·), u₂^*(·))即为该博弈的均衡解.因此在求解LQ问题1时，实际上在求解下述优化问题：

$ \begin{array}{l} \mathop {\min }\limits_{{\mathit{\boldsymbol{u}}_1}\left( \cdot \right) \in {\mathit{\boldsymbol{U}}_1}\left[ {0,T} \right]} {{\bar J}_1}\left( {{\mathit{\boldsymbol{x}}_0};{\mathit{\boldsymbol{u}}_1}\left( \cdot \right)} \right..\\ {\rm{s}}{\rm{.t}}{\rm{.}}\\ \left\{ \begin{array}{l} \mathit{\boldsymbol{E}}{\rm{d}}\mathit{\boldsymbol{x}}\left( t \right) = \left[ {\mathit{\boldsymbol{A}}\left( t \right)x\left( t \right) + {\mathit{\boldsymbol{B}}_1}\left( t \right){\mathit{\boldsymbol{u}}_1}\left( t \right) + } \right.\\ \;\;\;\;\left. {\mathit{\boldsymbol{f}}\left( t \right)} \right]{\rm{d}}t + \left[ {\mathit{\boldsymbol{C}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + {\mathit{\boldsymbol{D}}_1}\left( t \right){\mathit{\boldsymbol{u}}_1}\left( t \right) + } \right.\\ \;\;\;\;\left. {\mathit{\boldsymbol{g}}\left( t \right)} \right]{\rm{d}}W\left( t \right),\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}. \end{array} \right. \end{array} $

(3)

其中f(·)=B₂(·)u₂(·)，g(·)=D₂(·)u₂(·)，这是一个典型的广义随机仿射系统的LQ问题.当从者得到其最优控制策略后，将最优控制策略代回博弈系统的动态方程(1)，求解主者最优控制策略的LQ问题2也是一个广义随机仿射系统的LQ问题.当E=I时正常系统的主－从随机LQ微分博弈问题，详细分析见文献[16]，而一般系统的主－从随机微分博弈问题，见文献[17]的详细论述.

1.2 记号和一些有用的引理

令(Ω, F, {F_t}_t≥0, P)是一个完备概率空间，其上定义了一个标准布朗运动{W(t)}_t≥0，{F_t}_t≥0为{W(t)}_t≥0生成的自然信息流.对固定的T>0，定义下面的空间：

ℝⁿ：n-维欧氏空间，其上的Euclid范数记为‖·‖；

L_F²(0, T; ℝⁿ):={ϕ(·):F_t-适应的ℝⁿ-值可测过程，满足$ E\int_{0}^{\text{T}}{{{\left\| \phi (t) \right\|}^{2}}\text{d}t<\infty \}} $.

此外，为了表述的方便，在全文中引入下面记号：

M^T：矩阵或向量M的转置；Tr(M)：矩阵M的迹；det(M)：矩阵M的行列式；deg(f)：多项式f的次数；ℝ^n×m：n×m阶矩阵的全体；Sⁿ：n×n阶对称矩阵的全体；S₊ⁿ：n×n阶非负定对称矩阵的全体；Ŝ₊ⁿ：n×n阶正定对称矩阵的全体；$ \mathcal{C} $(0, T; X)：Banach空间上定义在[0, T]上X-值连续函数的全体.

考虑下式描述的广义随机系统

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{E}}{\rm{d}}\mathit{\boldsymbol{x}}\left( t \right) = \mathit{\boldsymbol{Ax}}\left( t \right){\rm{d}}t + \mathit{\boldsymbol{Fx}}\left( t \right){\rm{d}}W\left( t \right),\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}. \end{array} \right. $

(4)

其中x(·)∈ℝⁿ是系统的状态，x₀∈ℝⁿ是给定的初始值；W(·)是一维标准布朗运动；E, A, F∈ℝ^n×n是已知的常数矩阵，E是rank(E)=r≤n的n-阶常数矩阵.

为了保证系统(4) 解的存在唯一性，引入下面的引理.

引理1^[14] 如果存在一对非奇异矩阵M∈ℝ^n×n和N∈ℝ^n×n，使得对三元组(E, A, F)，下述至少一个条件成立时，则式(4) 存在唯一解.

$ \begin{array}{l} \left( {\rm{i}} \right)\mathit{\boldsymbol{MEN = }}\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{I}}_{{n_1}}}}&0\\ 0&\mathit{\boldsymbol{N}} \end{array}} \right],\mathit{\boldsymbol{MAN = }}\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{A}}_1}}&0\\ 0&{{\mathit{\boldsymbol{I}}_{{n_2}}}} \end{array}} \right],\\ \mathit{\boldsymbol{MFN = }}\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{F}}_1}}&{{\mathit{\boldsymbol{F}}_2}}\\ 0&0 \end{array}} \right], \end{array} $

其中N∈ℝ^n₂×n₂为幂零矩阵，F₁∈ℝ^n₁×n₁，F₂∈ℝ^n₁×n₂，n₁+n₂=n.

$ \begin{array}{l} \left( {{\rm{ii}}} \right)\mathit{\boldsymbol{MEN = }}\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{I}}_r}}&0\\ 0&0 \end{array}} \right],\mathit{\boldsymbol{MAN = }}\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{A}}_1}}&0\\ 0&{{\mathit{\boldsymbol{I}}_{n - r}}} \end{array}} \right],\\ \mathit{\boldsymbol{MFN = }}\left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{F}}_1}}&{{\mathit{\boldsymbol{F}}_2}}\\ 0&{{F_3}} \end{array}} \right], \end{array} $

其中A₁, F₁∈ℝ^r×r，F₂∈ℝ^r×(n－r)，F₃∈ℝ^{(n－r)×(n－r)}.

在控制理论中，系统的稳定性是一个非常重要的概念，它是系统能否正常工作的最基本条件，因而在研究广义随机仿射系统LQ控制问题之前，我们先给出有关系统稳定性的一些定义和引理.

定义1^[14] 对于系统(4)

(ⅰ) 如果存在常数s，使得det(sE－A)≠0，则称系统(4) 是正则的；

(ⅱ) 如果deg(det(sE－A))=rank(E)，则称系统(4) 是无脉冲的；

(ⅲ) 如果对于任意的允许初态x₀∈ℝⁿ，系统(4) 的解x(t)满足$\underset{t\to \infty }{\mathop{\rm{lim}}}\, \rm{E}\|\mathit{\boldsymbol{x}}\left( t \right){{\|}^{2}}=0 $，则称系统(4) 是渐近均方稳定的；

(ⅳ) 系统(4) 是渐近均方容许的，如果它是正则、无脉冲且渐近均方稳定的.

引理2^[18] 设一个n-维过程x(·)满足随机微分方程

$ {\rm{d}}\mathit{\boldsymbol{x}}\left( t \right) = \mathit{\boldsymbol{f}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right){\rm{d}}t + \mathit{\boldsymbol{g}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right){\rm{d}}W\left( t \right). $

给定V(t, x(t))∈$ \mathcal{C}^2 $([0, T]×ℝⁿ)，则有

$ \begin{array}{l} {\rm{d}}\mathit{\boldsymbol{V}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) = {\bf{\Gamma }}\mathit{\boldsymbol{V}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right){\rm{d}}t + \\ \mathit{\boldsymbol{V}}_x^{\rm{T}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right)\mathit{\boldsymbol{g}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right){\rm{d}}W\left( t \right), \end{array} $

其中

$ \begin{array}{l} {\bf{\Gamma }}\mathit{\boldsymbol{V}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) = {\mathit{\boldsymbol{V}}_t}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) + \mathit{\boldsymbol{V}}_x^{\rm{T}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right)\mathit{\boldsymbol{f}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) + \\ \frac{1}{2}{\rm{Tr}}\left[ {{\mathit{\boldsymbol{g}}^{\rm{T}}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right){\mathit{\boldsymbol{V}}_{xx}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right)\mathit{\boldsymbol{g}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right)} \right]. \end{array} $

下述引理给出了系统(4) 稳定的条件，同时修正了文献[15]中的定理3.1.

引理3 如果存在一个非奇异对称矩阵P，使得下述LMI成立

$ {\mathit{\boldsymbol{A}}^{\rm{T}}}\mathit{\boldsymbol{PE + }}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PA + }}{\mathit{\boldsymbol{F}}^{\rm{T}}}\mathit{\boldsymbol{PF < }}0, $

(5)

则系统(4) 是渐近均方容许的.

证明首先选取形如

$ \mathit{\boldsymbol{V}}\left( {\mathit{\boldsymbol{x}}\left( t \right)} \right) = {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^\mathit{\boldsymbol{T}}}\mathit{\boldsymbol{PEx}}\left( t \right) $

的Lyapunov函数V，然后采取文献[19]中的分析方法，不难得到系统(4) 满足正则、无脉冲和渐近均方稳定的条件，即系统(4) 是渐近均方容许的.引理1证毕.

注1 广义随机线性Itô系统的稳定性分析见文献[14]和[15]，值得注意的是，我们在引理3中得到的稳定性条件与文献[15]的定理3.1不同，咎其原因在于：对广义Itô随机系统，参照确定性广义系统稳定性分析选取Lyapunov函数V(x(t))=x^T(t)E^TPx(t)，其中E^TP=P^TE，已不再适用，因为当对V(x(t))进行Itô微分，就会发现下式最后一项中的dx(t)无法计算，

此时取而代之的V应该是

$ \mathit{\boldsymbol{V}}\left( {x\left( t \right)} \right) = {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^\mathit{\boldsymbol{T}}}\mathit{\boldsymbol{PEx}}\left( t \right). $

2 有限时间随机LQ问题 2.1 问题描述

考虑如下的广义受控系统：

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{E}}{\rm{d}}\mathit{\boldsymbol{x}}\left( t \right) = \left[ {\mathit{\boldsymbol{A}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + \mathit{\boldsymbol{B}}\left( t \right)\mathit{\boldsymbol{u}}\left( t \right) + \mathit{\boldsymbol{f}}\left( t \right)} \right]{\rm{d}}t + \\ \;\;\;\;\left[ {\mathit{\boldsymbol{C}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + \mathit{\boldsymbol{D}}\left( t \right)\mathit{\boldsymbol{u}}\left( t \right) + \mathit{\boldsymbol{g}}\left( t \right)} \right]{\rm{d}}W\left( t \right),\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}, \end{array} \right. $

(6)

其中E是rank(E)=r≤n的n-阶常数矩阵；x₀∈ℝⁿ是给定的初始状态；u(·)∈L_F²(0, T; ℝ^m)是一个容许控制过程，其允许策略空间记为U_ad.

对每一个(x₀, u(·))∈ℝⁿ×U_ad，引入经典的二次型性能指标：

$ \begin{array}{l} {J_T}\left( {{\mathit{\boldsymbol{x}}_0};\mathit{\boldsymbol{u}}\left( \cdot \right)} \right)\mathit{\boldsymbol{ = E}}\left\{ {\int_0^{\rm{T}} {\left[ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{Q}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + } \right.} } \right.\\ \left. {\left. {{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{R}}\left( t \right)\mathit{\boldsymbol{u}}\left( t \right)} \right]{\rm{d}}t + {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( T \right)\mathit{\boldsymbol{Hx}}\left( T \right)} \right\}. \end{array} $

(7)

方程(6) 的解x(·)称为控制u(·)∈U_ad的响应，(x(·), u(·))称为一个容许对.最优控制问题的目标是对任意给定的x₀∈ℝⁿ，通过寻找容许控制u(·)∈U_ad，最小化性能指标J_T(x₀; u(·)).

为了保证对任意u(·)∈U_ad，式(6) 存在唯一的解x(·)∈L_F²(0, T; ℝⁿ)，对式(6)~(7) 中的各系数做出限定：A(·), C(·)∈$ \mathcal{C} $(0, T; ℝ^n×n)，B(·), D(·)∈$ \mathcal{C} $(0, T; ℝ^n×m)，f(·), g(·)∈$ \mathcal{C} $(0, T; ℝⁿ)，Q(·)∈$ \mathcal{C} $(0, T; S₊ⁿ)，R(·)∈$ \mathcal{C} $(0, T; S^m)，H∈S₊ⁿ.从这一限定可以看出，式(7) 中的控制权矩阵R是任意取值的，可以正定，可以为0，甚至负定.

2.2 主要结果

首先引入一个关于P(·)的推广的微分Riccati方程

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot P}}\left( t \right)\mathit{\boldsymbol{E = }} - \left( {{\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E + }}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{A}}\left( t \right) + } \right.\\ \;\;\;\;\left. {{\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right) + \mathit{\boldsymbol{Q}}\left( t \right)} \right) + \left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{B}}\left( t \right) + } \right.\\ \;\;\;\;\left. {{\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right)} \right){\left( {\mathit{\boldsymbol{R}}\left( t \right) + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right)} \right)^{ - 1}} \times \\ \;\;\;\;\left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right)} \right),\\ {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( T \right)\mathit{\boldsymbol{E = H}},\\ \mathit{\boldsymbol{K}}\left( t \right) = \mathit{\boldsymbol{R}}\left( t \right) + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right) > 0,{\rm{a}}{\rm{.e}}{\rm{.}}\;\;\;t \in \left[ {0,T} \right]. \end{array} \right. $

(8)

和一个关于ϕ(·)的推广的倒向微分方程

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot \phi}} \left( t \right) = - \left( {{\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right) + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{f}}\left( t \right) + } \right.\\ \;\;\;\;\left. {{\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right) + \left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{B}}\left( t \right) + } \right.\\ \;\;\;\;\left. {{\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right)} \right)\left( {\mathit{\boldsymbol{R}}\left( t \right) + } \right.\\ \;\;\;\;{\left. {{\mathit{\boldsymbol{D}}^{\rm T}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)D\left( t \right)} \right)^{ - 1}} \times \left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right) + } \right.\\ \;\;\;\;\left. {{\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right),\\ {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( t \right) = 0. \end{array} \right. $

(9)

下述定理给出了有限时间随机LQ问题的主要结果.

定理1 若存在P(·)∈$ \mathcal{C} $(0, T; Sⁿ)和ϕ(·)∈$ \mathcal{C} $(0, T; Sⁿ)满足式(8) 和(9)，则有限时间随机LQ问题(6)~(7) 的最优反馈控制为

$ {\mathit{\boldsymbol{u}}^ * }\left( {t,x} \right) = - {\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\left[ {\mathit{\boldsymbol{L}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + \mathit{\boldsymbol{h}}\left( t \right)} \right]. $

(10)

其中L(t)=B^T(t)P(t)E+D^T(t)P(t)C(t)，h(t)=B^T(t)ϕ(t)+D^T(t)P(t)g(t)，最优性能指标为

$ \begin{array}{l} {J_T}\left( {{\mathit{\boldsymbol{x}}_0};{\mathit{\boldsymbol{u}}^ * }\left( \cdot \right)} \right) = \mathit{\boldsymbol{E}}\left\{ {\int_0^{\rm{T}} {\left[ { - {\mathit{\boldsymbol{h}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\mathit{\boldsymbol{h}}\left( t \right) + } \right.} } \right.\\ \left. {\left. {{\mathit{\boldsymbol{g}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right) + 2{\mathit{\boldsymbol{f}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right)} \right]{\rm{d}}t} \right\} + \\ \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( 0 \right)\mathit{\boldsymbol{E}}{\mathit{\boldsymbol{x}}_0} + 2\mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( 0 \right). \end{array} $

(11)

证明使用配方法证明，取

$ \mathit{\boldsymbol{V}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) = {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{Ex}}\left( t \right) + 2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right) + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( t \right), $

对x^T(t)E^TP(t)Ex(t)和2x^T(t)E^Tϕ(t)分别使用Itô公式，得

$ \begin{array}{l} {\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{Ex}}\left( t \right)} \right) = {\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}} \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{Ex}}\left( t \right) + \\ {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\rm{d}}\left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}}} \right)\mathit{\boldsymbol{x}}\left( t \right) + {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right){\rm{d}}\left( {\mathit{\boldsymbol{Ex}}\left( t \right)} \right) + \\ {\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}} \right)\mathit{\boldsymbol{P}}\left( t \right){\rm{d}}\left( {\mathit{\boldsymbol{Ex}}\left( t \right)} \right) = \left\{ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot P}}\left( t \right)\mathit{\boldsymbol{E}} + } \right.} \right.\\ \left. {{\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}} + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{A}}\left( t \right) + {\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right)} \right] \times \\ \mathit{\boldsymbol{x}}\left( t \right) + 2{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\left[ {\left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right)} \right) \times } \right.\\ \left. {\mathit{\boldsymbol{x}}\left( t \right) + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right] + {\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right) \times \\ \mathit{\boldsymbol{u}}\left( t \right) + 2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{f}}\left( t \right) + {\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right] + \\ \left. {{\mathit{\boldsymbol{g}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right\}{\rm{d}}t + \left\{ \cdots \right\}{\rm{d}}W\left( t \right). \end{array} $

(12)

$ \begin{array}{l} 2{\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( t \right)} \right) = 2{\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}} \right)\mathit{\boldsymbol{\phi}} \left( t \right) + 2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right) \times \\ {\rm{d}}\left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( t \right)} \right) = \left\{ {2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot \phi}} \left( t \right) + {\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right)} \right] + } \right.\\ \left. {2{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right) + 2{\mathit{\boldsymbol{f}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right)} \right\}{\rm{d}}t + \left\{ \cdots \right\}{\rm{d}}W\left( t \right). \end{array} $

(13)

将式(12) 和式(13) 相加，得

$ \begin{array}{l} {\rm{d}}\mathit{\boldsymbol{V}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) = \left\{ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)[{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot P }}\left( t \right)\mathit{\boldsymbol{E}} + {\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}} + } \right.\\ \left. {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{A}}\left( t \right) + {\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right)} \right]\mathit{\boldsymbol{x}}\left( t \right) + 2{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right) \times \\ \left[ {\left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right)} \right)\mathit{\boldsymbol{x}}\left( t \right) + \left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right) \times } \right.} \right.\\ \left. {\left. {\mathit{\boldsymbol{\phi}} \left( t \right) + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right)} \right] + {\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right) \times \\ \mathit{\boldsymbol{u}}\left( t \right) + 2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot \phi}} \left( t \right) + {\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right) + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{f}}\left( t \right) + } \right.\\ \left. {\left. {{\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right] + {\mathit{\boldsymbol{g}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right) + 2{\mathit{\boldsymbol{f}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right)} \right\} \times \\ {\rm{d}}t + \left\{ \cdots \right\}{\rm{d}}W\left( t \right). \end{array} $

(14)

式(14) 在[0, T]上积分，取数学期望，并结合式(7) 得

$\begin{array}{l} {J_T}\left( {{\mathit{\boldsymbol{x}}_0};\mathit{\boldsymbol{u}}\left( \cdot \right)} \right) = \mathit{\boldsymbol{{\rm E}}}\int_0^{\rm{T}} {\left\{ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot P}}\left( t \right)\mathit{\boldsymbol{E}} + } \right.} \right.} \\ {\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}} + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{A}}\left( t \right) + {\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right) + \\ \left. {\mathit{\boldsymbol{Q}}\left( t \right)} \right]\mathit{\boldsymbol{x}}\left( t \right) + 2{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\left[ {\left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)} \right.\mathit{\boldsymbol{E}}} \right. + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right) \times \\ \left. {\left. {\mathit{\boldsymbol{C}}\left( t \right)} \right)\mathit{\boldsymbol{x}}\left( t \right) + \left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right) + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right)} \right)} \right] + \\ {\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\left[ {\mathit{\boldsymbol{R}}\left( t \right) + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right)} \right]\mathit{\boldsymbol{u}}\left( t \right) + 2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right) \times \\ \left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot \phi}} \left( t \right) + {\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right) + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{f}}\left( t \right) + {\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right) \times } \right.\\ \left. {\left. {\mathit{\boldsymbol{g}}\left( t \right)} \right] + {\mathit{\boldsymbol{g}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right) + 2{\mathit{\boldsymbol{f}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right)} \right\}{\rm{d}}t + \\ \mathit{\boldsymbol{{\rm E}}}\left[ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( T \right)\left( {\mathit{\boldsymbol{H}} - {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( T \right)\mathit{\boldsymbol{E}}} \right)\mathit{\boldsymbol{x}}\left( T \right)} \right] + \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( 0 \right)\mathit{\boldsymbol{E}}{\mathit{\boldsymbol{x}}_0} + \\ 2\mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( 0 \right) = \end{array}$ $ \begin{array}{l} \mathit{\boldsymbol{{\rm E}}}\int_0^{\rm{T}} {\left\{ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot P}}\left( t \right)\mathit{\boldsymbol{E}} + {\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right) \times } \right.} \right.} \\ \mathit{\boldsymbol{E}} + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{A}}\left( t \right) + {\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{C}}\left( t \right) + \mathit{\boldsymbol{Q}}\left( t \right) - {\mathit{\boldsymbol{L}}^{\rm{T}}}\left( t \right) \times \\ \left. {{\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\mathit{\boldsymbol{L}}\left( t \right)} \right]\mathit{\boldsymbol{x}}\left( t \right) + \left[ {\mathit{\boldsymbol{u}}\left( t \right) + {\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\left( {\mathit{\boldsymbol{L}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + } \right.} \right.\\ {\left. {\left. {\mathit{\boldsymbol{h}}\left( t \right)} \right)} \right]^{\rm{T}}} \times \mathit{\boldsymbol{K}}\left( t \right)\left[ {\mathit{\boldsymbol{u}}\left( t \right) + {\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\left( {\mathit{\boldsymbol{L}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + } \right.} \right.\\ \left. {\left. {\mathit{\boldsymbol{h}}\left( t \right)} \right)} \right] + 2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left[ {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\dot \phi}} \left( t \right) + {\mathit{\boldsymbol{A}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right) + {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right) \times } \right.\\ \left. {\mathit{\boldsymbol{f}}\left( t \right) + {\mathit{\boldsymbol{C}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right) - {\mathit{\boldsymbol{L}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\mathit{\boldsymbol{h}}\left( t \right)} \right] - \\ {\mathit{\boldsymbol{h}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\mathit{\boldsymbol{h}}\left( t \right) + {\mathit{\boldsymbol{g}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right) + \\ \left. {2{\mathit{\boldsymbol{f}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right)} \right\}{\rm{d}}t + \mathit{\boldsymbol{{\rm E}}}\left[ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( T \right)\left( {\mathit{\boldsymbol{H}} - {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( T \right)\mathit{\boldsymbol{E}}} \right)\mathit{\boldsymbol{x}}\left( T \right)} \right] + \\ \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( 0 \right)\mathit{\boldsymbol{E}}{\mathit{\boldsymbol{x}}_0} + 2\mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( 0 \right). \end{array}$

(15)

显然，若P(·)∈$ \mathcal{C} $(0, T; Sⁿ)满足式(8) 和ϕ(·)∈$ \mathcal{C} $(0, T; Sⁿ)满足式(9)，且

$ \begin{array}{l} \mathit{\boldsymbol{K}}\left( t \right)\mathit{\boldsymbol{R}}\left( t \right) + {\mathit{\boldsymbol{D}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{D}}\left( t \right) > 0,\\ {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( T \right)\mathit{\boldsymbol{E}} = \mathit{\boldsymbol{H}},{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( t \right) = 0, \end{array} $

则最优反馈控制和最优性能指标分别为

$ \begin{array}{l} {\mathit{\boldsymbol{u}}^ * }\left( {t,x} \right) = - {\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\left[ {\mathit{\boldsymbol{L}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + \mathit{\boldsymbol{h}}\left( t \right)} \right].\\ {J_T}\left( {{\mathit{\boldsymbol{x}}_0};{\mathit{\boldsymbol{u}}^*}\left( \cdot \right)} \right) = \mathit{\boldsymbol{E}}\left\{ {\int_0^{\rm{T}} {\left[ { - {\mathit{\boldsymbol{h}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{K}}^{ - 1}}\left( t \right)\mathit{\boldsymbol{h}}\left( t \right) + } \right.} } \right.\\ \left. {\left. {{\mathit{\boldsymbol{g}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{g}}\left( t \right) + 2{\mathit{\boldsymbol{f}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{\phi}} \left( t \right)} \right]{\rm{d}}t} \right\} + \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( 0 \right)\mathit{\boldsymbol{E}}{\mathit{\boldsymbol{x}}_0} + \\ 2\mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( 0 \right). \end{array} $

将最优反馈控制u^*(t, x)代入式(6) 中得

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{E}}{\rm{d}}\mathit{\boldsymbol{x }}(t)= \left[ {\mathit{\boldsymbol{\bar A}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + \mathit{\boldsymbol{\bar f}}\left( t \right)} \right]{\rm{d}}t + \\ \;\;\;\;\left[ {\mathit{\boldsymbol{\bar C}}\left( t \right)\mathit{\boldsymbol{x}}\left( t \right) + \mathit{\boldsymbol{\bar g}}\left( t \right)} \right]{\rm{d}}W\left( t \right),\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}. \end{array} \right. $

其中，A=A－BK^－1L，C=C－DK^－1L，f=f－BK^－1h，g=g－DK^－1h.此方程是一个非齐次的线性随机微分方程，因P(·)∈$ \mathcal{C} $(0, T; Sⁿ)，K^－1(·)∈$ \mathcal{C} $(0, T; Ŝ₊ⁿ)，ϕ(·)∈$ \mathcal{C} $(0, T; Sⁿ)，f(·)∈$ \mathcal{C} $(0, T; ℝⁿ)和g(·)∈$ \mathcal{C} $(0, T; ℝⁿ)，故系数A(·)和C(·)∈$ \mathcal{C} $(0, T; ℝⁿ)，非齐次项f(·)和g(·)∈$ \mathcal{C} $(0, T; ℝⁿ)，从而该方程有且仅有一个解.

定理1得证.

注2 若E=I，随机LQ问题(6)~(7) 退化为一般意义下的线性Itô系统的随机LQ问题，该问题首次被Chen和Zhou^[6]讨论，因而定理1是文献[6]中Theorem 3.1的拓展.

注3 定理1是在假设式(6)-(7) 中各系数不包含ω时得到的，当它们包含ω时，即A(·)=A(·, ω)，…，定理1则不再成立.理由如下：当A(·)=A(·, ω)，…时，我们对V(t, x(t))需作下述形式的假设：

$ \mathit{\boldsymbol{V}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) = {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{Ex}}\left( t \right) + 2{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( t \right), $

其中的E^TP(t)E和E^Tϕ(t)满足下述随机微分方程

$ \begin{array}{l} {\rm{d}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}} = \mathit{\boldsymbol{Z}}\left( t \right){\rm{d}}t + \mathit{\boldsymbol{ \boldsymbol{\varLambda} }}\left( t \right){\rm{d}}W\left( t \right),{\rm{d}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{\phi}} \left( t \right) = \\ \mathit{\boldsymbol{ \boldsymbol{\varTheta} }}{\rm{d}}t + \mathit{\Psi }{\rm{d}}\mathit{W}\left( t \right),t \in \left[ {0,T} \right]. \end{array} $

此时仅对x^T(t)E^TP(t)Ex(t)进行Itô微分，就可发现式(16) 最后两项中的dx(t)无法计算，

$ \begin{array}{l} \;\;\;\;\;\;d\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{Ex}}\left( t \right)} \right) = \\ d\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}} \right)\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{Ex}}\left( t \right) + \\ {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\rm{d}}\left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}}} \right)\mathit{\boldsymbol{x}}\left( t \right) + \\ {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right){\rm{d}}\left( {\mathit{\boldsymbol{Ex}}\left( t \right)} \right) + \\ {\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)} \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}}{\rm{d}}\left( {\mathit{\boldsymbol{x}}\left( t \right)} \right) + \\ {\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)} \right){\rm{d}}\left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}}} \right)\mathit{\boldsymbol{x}}\left( t \right) + \\ {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\rm{d}}\left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}\left( t \right)\mathit{\boldsymbol{E}}} \right){\rm{d}}\left( {\mathit{\boldsymbol{x}}\left( t \right)} \right). \end{array} $

(16)

因而定理1不再成立.

3 无限时间随机LQ问题 3.1 问题描述

无限时间情形下广义系统的随机LQ问题在文献[15]的第4.2部分已经被讨论过，考虑到该文中的部分结果有表述不准确的地方(详见下文的分析)，在本部分仍考虑文献[15]描述的受控系统：

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{E}}{\rm{d}}\mathit{\boldsymbol{x}}\left( t \right) = \left[ {\mathit{\boldsymbol{Ax}}\left( t \right) + \mathit{\boldsymbol{Bu}}\left( t \right)} \right]{\rm{d}}t + \left[ {\mathit{\boldsymbol{Cx}}\left( t \right) + } \right.\\ \;\;\;\;\left. {\mathit{\boldsymbol{Du}}\left( t \right)} \right]{\rm{d}}W\left( t \right),\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}, \end{array} \right. $

(17)

其中E∈ℝ^n×n，且rank(E)=r≤n；A、C∈ℝ^n×n，B、D∈ℝ^n×m是给定的常数矩阵；u(·)∈L_F²(ℝ^m)是一个容许控制过程，其允许策略空间记为U(x₀).

对系统(17)，考虑下述形式的状态反馈控制

$ \mathit{\boldsymbol{u}}\left( {t,\mathit{\boldsymbol{x}}} \right) = \mathit{\boldsymbol{\hat Kx}}\left( t \right), $

(18)

其中$ \mathit{\boldsymbol{\hat{K}}} $∈ℝ^m×n是一个待定的常数矩阵.

将式(18) 代回式(17)，得到相应的闭环系统

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{E}}{\rm{d}}\mathit{\boldsymbol{x}}\left( t \right) = \left[ {\mathit{\boldsymbol{A}} + \mathit{\boldsymbol{B\hat K}}} \right]\mathit{\boldsymbol{x}}\left( t \right){\rm{d}}t + \\ \;\;\;\;\left[ {\mathit{\boldsymbol{C + D\hat K}}} \right]\mathit{\boldsymbol{x}}\left( t \right){\rm{d}}W\left( t \right),\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}. \end{array} \right. $

(19)

定义2 系统(17) 称为渐近均方稳定的，如果存在一个形如式(17) 的状态反馈控制，使得闭环系统(19) 是渐近均方稳定的.

对每一个(x₀, u(·))∈ℝⁿ×U(x₀)，相应的二次型性能指标为

$ \begin{array}{l} {J_\infty }\left( {{\mathit{\boldsymbol{x}}_0};\mathit{\boldsymbol{u}}\left( \cdot \right)} \right) = {\rm{E}}\left\{ {\int_0^\infty {\left[ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{Qx}}\left( t \right) + } \right.} } \right.\\ \left. {\left. {{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{Ru}}\left( t \right)} \right]{\rm{d}}t} \right\}. \end{array} $

(20)

其中Q∈Sⁿ，R∈S^m为已知的常数矩阵.再次强调，我们对式(20) 中的状态权矩阵Q和控制权矩阵R未做任何限定，即R是不定的.

注意到系统(17) 中的C≠0，D≠0，此时系统的扩散项中同时包含状态和控制，即噪声依赖于状态和控制，这在数理金融学中是常见的，尤其是基于随机LQ框架下的连续时间均值-方差型投资组合选择问题，见Zhou和Li^[8].而当C=D=0时，系统(17) 退化为一个确定性线性系统.我们知道，对于确定性系统的LQ问题，为了保证所研究问题的适定性，需要限定性能指标中的控制权矩阵R正定，状态权矩阵Q非负定，用数学语言描述即为：

$ \begin{array}{l} \mathop {\min }\limits_{u\left( \cdot \right) \in U\left( {{x_0}} \right)} {J_\infty }\left( {{\mathit{\boldsymbol{x}}_0};\mathit{\boldsymbol{u}}\left( \cdot \right)} \right) = \int_0^\infty {\left[ {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{Qx}}\left( t \right) + } \right.} \\ \left. {{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{Ru}}\left( t \right)} \right]{\rm{d}}t,\\ \mathit{\boldsymbol{Q}} = {\mathit{\boldsymbol{Q}}^{\rm{T}}} \ge 0,\mathit{\boldsymbol{R}} = {\mathit{\boldsymbol{R}}^{\rm{T}}} > 0,\\ {\rm{s}}{\rm{.t}}{\rm{.}}\;\;\;\left\{ \begin{array}{l} \mathit{\boldsymbol{E\dot x}}\left( t \right) = \mathit{\boldsymbol{Ax}}\left( t \right) + \mathit{\boldsymbol{Bu}}\left( t \right),\\ \mathit{\boldsymbol{x}}\left( 0 \right) = {\mathit{\boldsymbol{x}}_0}. \end{array} \right. \end{array} $

(21)

利用配方法，取V(t, x(t))=x^T(t)E^TPx(t)，其中P∈ℝ^n×n，满足E^TP=P^TE.V(t, x(t))对时间t求导得

$ \begin{array}{l} \mathit{\boldsymbol{\dot V}}\left( {t,\mathit{\boldsymbol{x}}\left( t \right)} \right) = \left( {{{\mathit{\boldsymbol{\dot x}}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}} \right)\mathit{\boldsymbol{Px}}\left( t \right) + \\ {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( {\mathit{\boldsymbol{E\dot x}}\left( t \right)} \right) = {\left( {\mathit{\boldsymbol{Ax}}\left( t \right) + \mathit{\boldsymbol{Bu}}\left( t \right)} \right)^{\rm{T}}}\mathit{\boldsymbol{Px}}\left( t \right) + \\ {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{P}}\left( {\mathit{\boldsymbol{Ax}}\left( t \right) + \mathit{\boldsymbol{Bu}}\left( t \right)} \right) = {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left( {{\mathit{\boldsymbol{A}}^{\rm{T}}}\mathit{\boldsymbol{P + PA}}} \right)\mathit{\boldsymbol{x}}\left( t \right) + \\ 2{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{Px}}\left( t \right). \end{array} $

上式先在[0, ∞)上积分，然后加到式(21) 的二次型指标中，经过运算得到下述受限的代数Riccati方程

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P = }}{\mathit{\boldsymbol{P}}^{\rm{T}}}\mathit{\boldsymbol{E}},\\ {\mathit{\boldsymbol{A}}^{\rm{T}}}\mathit{\boldsymbol{P + PA}} - {\mathit{\boldsymbol{P}}^{\rm{T}}}\mathit{\boldsymbol{B}}{\mathit{\boldsymbol{R}}^{ - 1}}{\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{P + Q = }}0. \end{array} \right. $

(22)

此时，LQ问题(21) 的可解性等价于式(22) 解的存在性，并且若式(22) 存在解P，则LQ问题(21) 的最优反馈控制u^*(t, x)=－R^－1B^TPx(t)，最优性能指标为x₀^TE^TPx₀.

注4 在推导式(22) 时，构造的V(t, x(t))与文献[12]研究连续时间混杂系统稳定性时构造的Lyapunov函数形式是一致的，且与文献[15]的式(25) 不同，在文献[15]中，V(t, x(t))=x^T(t)E^TPEx(t)，进而使得式(25) 和最优反馈控制均与奇异矩阵E有关，这也在一定程度上反映了随机系统和确定性系统之间的差别.

本部分考虑的最优控制问题是对任意给定的初始值x₀∈ℝⁿ，通过寻找容许控制u(·)∈U(x₀)，最小化性能指标J_∞(x₀; u(·)).

在给出主要结果之前，给出无限时间LQ问题的一个标准假设^[9]：

假设1 系统(17) 是均方能稳的.

3.2 主要结果

类似于上一节得到的有限时间随机LQ问题的相关结果，我们得到无限时间随机LQ问题的主要结果如下定理2所示.

定理2 在假设1成立的条件下，若下述推广的代数Riccati方程存在解P∈Sⁿ，

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{A}}^{\rm{T}}}\mathit{\boldsymbol{PE + }}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PA + }}{\mathit{\boldsymbol{C}}^{\rm{T}}}\mathit{\boldsymbol{PC + Q}} - \\ \;\;\;\;\left( {{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PB + }}{\mathit{\boldsymbol{C}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right){\left( {\mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right)^{ - 1}} \times \\ \;\;\;\;\left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{PE + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PC}}} \right) = 0,\\ \mathit{\boldsymbol{K}} = \mathit{\boldsymbol{R + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD > }}0. \end{array} \right. $

(23)

则无限时间随机LQ问题(17)-(20) 的最优反馈控制和最优性能指标分别为

(24)

$ {J_\infty }\left( {{\mathit{\boldsymbol{x}}_0};\mathit{\boldsymbol{u}}\left( \cdot \right)} \right) = \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PE}}{\mathit{\boldsymbol{x}}_0}. $

(25)

证明假设存在P∈Sⁿ满足式(23)，取V(t)=x^T(t)E^TPEx(t)，对V(t)使用Itô公式得

$ \begin{array}{l} {\rm{d}}\mathit{\boldsymbol{V}}\left( t \right) = {\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}} \right)\mathit{\boldsymbol{PEx}}\left( t \right) + \\ {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{P}}{\rm{d}}\left( {\mathit{\boldsymbol{Ex}}\left( t \right)} \right) + {\rm{d}}\left( {{\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{E}}^{\rm{T}}}} \right)\mathit{\boldsymbol{P}}{\rm{d}}\left( {\mathit{\boldsymbol{Ex}}\left( t \right)} \right) = \\ \left\{ {{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PDu}}\left( t \right) + {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right)\left( { - \mathit{\boldsymbol{Q + }}{\mathit{\boldsymbol{L}}^{\rm{T}}}{\mathit{\boldsymbol{K}}^{ - 1}}\mathit{\boldsymbol{L}}} \right)\mathit{\boldsymbol{x}}\left( t \right)} \right.\\ \left. {2{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\mathit{\boldsymbol{Lx}}\left( t \right)} \right\}{\rm{d}}t + \left\{ \cdots \right\}{\rm{d}}W\left( t \right), \end{array} $

(26)

其中L=B^TPE+D^TPC.

由假设1知Ε[V(∞)]=0，将式(26) 在[0, ∞)上积分，取数学期望，再结合式(20) 得

$ \begin{array}{l} {J_\infty }\left( {{\mathit{\boldsymbol{x}}_0};\mathit{\boldsymbol{u}}\left( \cdot \right)} \right) \equiv {J_\infty }\left( {{\mathit{\boldsymbol{x}}_0};\mathit{\boldsymbol{u}}\left( \cdot \right)} \right) + {\rm{E}}\left\{ {\int_0^\infty {{\rm{d}}\mathit{\boldsymbol{V}}\left( t \right) + } } \right.\\ \left. {\mathit{\boldsymbol{V}}\left( t \right)\left| {_0^\infty } \right.} \right\} = {\rm{E}}\int_0^\infty {\left\{ {{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right)\left( {\mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right)\mathit{\boldsymbol{u}}\left( t \right) + 2{\mathit{\boldsymbol{u}}^{\rm{T}}}\left( t \right) \times } \right.} \\ \left. {\mathit{\boldsymbol{Lx}}\left( t \right) + {\mathit{\boldsymbol{x}}^{\rm{T}}}\left( t \right){\mathit{\boldsymbol{L}}^{\rm{T}}}\left( {\mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right)\mathit{\boldsymbol{Lx}}\left( t \right)} \right\}{\rm{d}}t + \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PE}}{\mathit{\boldsymbol{x}}_0} = \\ {\rm{E}}\int_0^\infty {\left\{ {{{\left[ {\mathit{\boldsymbol{u}}\left( t \right)\left( {\mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right)\mathit{\boldsymbol{Lx}}\left( t \right)} \right]}^{\rm{T}}}\left( {\mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right) \times } \right.} \\ \left. {\left[ {\mathit{\boldsymbol{u}}\left( t \right) + \left( {\mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right)\mathit{\boldsymbol{Lx}}\left( t \right)} \right]} \right\}{\rm{d}}t + \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PE}}{\mathit{\boldsymbol{x}}_0}. \end{array} $

(27)

由式(27) 容易得到最优反馈控制和最优性能指标分别为

$ \begin{array}{l} {\mathit{\boldsymbol{u}}^ * }\left( {t,\mathit{\boldsymbol{x}}} \right) = \mathit{\boldsymbol{\hat Kx}}\left( t \right) = - {\left( {\mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \right)^{ - 1}}\left( {{\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{PE}} + } \right.\\ \left. {{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PC}}} \right)\mathit{\boldsymbol{x}}\left( t \right),{J_\infty }\left( {{\mathit{\boldsymbol{x}}_0};{\mathit{\boldsymbol{u}}^ * }\left( \cdot \right)} \right) = \mathit{\boldsymbol{x}}_0^{\rm{T}}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PE}}{\mathit{\boldsymbol{x}}_0}. \end{array} $

定理2得证.

注5 定理2中的式(23) 与文献[15]中的式(26) 是不同的，之所以这样是因为在结合式(17) 对V(t)使用Itô公式时，用的是[Cx(t)+Du(t)]^TP×[Cx(t)+Du(t)]，而文献[15]使用的是[Cx(t)+Du(t)]^TE^TPE[Cx(t)+Du(t)]，因而得到的代数Riccati方程和最优反馈控制均存在差别.

注6 根据LMI理论，式(23) 的解可通过求解一个等价的LMIs来得到

$ \left\{ \begin{array}{l} \left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{A}}^{\rm{T}}}\mathit{\boldsymbol{PE + }}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PA + }}{\mathit{\boldsymbol{C}}^{\rm{T}}}\mathit{\boldsymbol{PC + Q}}}&{{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PB + }}{\mathit{\boldsymbol{C}}^{\rm{T}}}\mathit{\boldsymbol{PD}}}\\ {{\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{PE + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PC}}}&{\mathit{\boldsymbol{R + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \end{array}} \right] \ge 0,\\ \mathit{\boldsymbol{R}} + {\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD > }}0. \end{array} \right. $

(28)

根据文献[7]的定理13，式(28) 等价于求解下述半定规划问题

$ \begin{array}{l} \max \;\;\;\;{\rm{Tr}}\left( \mathit{\boldsymbol{P}} \right);\\ {\rm{s}}{\rm{.t}}.\;\;\;\;\;\mathit{\boldsymbol{M}}\left( \mathit{\boldsymbol{P}} \right) \ge 0,\mathit{\boldsymbol{R + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD > }}0. \end{array} $

(29)

其中

$ \mathit{\boldsymbol{M}}\left( \mathit{\boldsymbol{P}} \right) = \left[ {\begin{array}{*{20}{c}} {{\mathit{\boldsymbol{A}}^{\rm{T}}}\mathit{\boldsymbol{PE + }}{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PA + }}{\mathit{\boldsymbol{C}}^{\rm{T}}}\mathit{\boldsymbol{PC + Q}}}&{{\mathit{\boldsymbol{E}}^{\rm{T}}}\mathit{\boldsymbol{PB + }}{\mathit{\boldsymbol{C}}^{\rm{T}}}\mathit{\boldsymbol{PD}}}\\ {{\mathit{\boldsymbol{B}}^{\rm{T}}}\mathit{\boldsymbol{PE + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PC}}}&{\mathit{\boldsymbol{R + }}{\mathit{\boldsymbol{D}}^{\rm{T}}}\mathit{\boldsymbol{PD}}} \end{array}} \right]. $

而上述半定规划问题在Matlab中已有现成的工具包可供使用，因而式(23) 是容易求解的.

4 结论

本文针对一类连续时间广义随机仿射系统讨论了其线性二次控制问题，在引入广义随机系统的稳定性概念后，通过一个LMI给出了广义随机系统的稳定性条件.然后，借助Riccati方程法得到了有限时间广义随机仿射系统LQ问题最优反馈控制的存在条件等价于一个推广的微分Riccati方程和一个倒向微分方程存在解，而对应的无限时间广义随机系统LQ问题最优反馈控制的存在条件等价于一个推广的代数Riccati方程存在解，并给出了最优反馈控制的显式表达及最优性能指标值.值得提出的是，本文一方面推广了文献[6]的相关结果，另一方面也通过几个注解指出了文献[15]研究中有待改善的地方并给出了解释.在接下来的研究中，希望能够利用本文得到的相关结果研究广义主-从随机LQ微分博弈问题，这也将充实随机微分博弈的相关研究.

参考文献

[1]	LEWIS F L. A survey of linear singular systems[J]. Circuits, Systems and Signal Processing, 1986, 5(1): 3-36. DOI: 10.1007/BF01600184.
[2]	DAI L. Singular Control Systems[M]. New York: Springer-Verlag, 1989.
[3]	HAIDAR A, BOUKAS E K. Exponential stability of singular systems with multiple time-varying delays[J]. Automatica, 2009, 45(2): 539-545. DOI: 10.1016/j.automatica.2008.08.019.
[4]	XU S, LAM J, ZOU Y, et al. Robust admissibility of time-varying singular systems with commensurate time delays[J]. Automatica, 2009, 45(11): 2714-2717. DOI: 10.1016/j.automatica.2009.07.014.
[5]	YONG J, ZHOU X Y. Stochastic Controls: Hamiltonian Systems and HJB Equations[M]. New York: Springer, 1999.
[6]	CHEN S, ZHOU X Y. Stochastic linear quadratic regulators with indefinite control weight costs. Ⅱ[J]. SIAM Journal on Control and Optimization, 2000, 39(4): 1065-1081. DOI: 10.1137/S0363012998346578.
[7]	AIT RAMI M, ZHOU X Y. Linear matrix inequalities, Riccati equations, and indefinite stochastic linear quadratic controls[J]. IEEE Transactions on Automatic Control, 2000, 45(6): 1131-1143. DOI: 10.1109/9.863597.
[8]	ZHOU X Y, LI D. Continuous-time mean-variance portfolio selection: A stochastic LQ framework[J]. Applied Mathematics & Optimization, 2000, 42(1): 19-33.
[9]	LI X, ZHOU X Y. Indefinite stochastic LQ controls with Markovian jumps in a finite time horizon[J]. Communications in Information and Systems, 2002, 2(3): 265-282. DOI: 10.4310/CIS.2002.v2.n3.a4.
[10]	ZHANG W, CHEN B S, TANG H, et al. Some remarks on general nonlinear stochastic H_∞control with state, control, and disturbance-dependent noise[J]. IEEE Transactions on Automatic Control, 2014, 59(1): 237-242. DOI: 10.1109/TAC.2013.2270073.
[11]	BOUKAS E K. Stabilization of stochastic singular nonlinear hybrid systems[J]. Nonlinear Analysis: Theory, Methods & Applications, 2006, 64(2): 217-228.
[12]	XIA Y, BOUKAS E K, SHI P, et al. Stability and stabilization of continuous-time singular hybrid systems[J]. Automatica, 2009, 45(6): 1504-1509. DOI: 10.1016/j.automatica.2009.02.008.
[13]	HUANG L, MAO X. Stability of singular stochastic systems with Markovian switching[J]. IEEE Transactions on Automatic Control, 2011, 56(2): 424-429. DOI: 10.1109/TAC.2010.2088850.
[14]	ZHANG W, ZHAO Y, SHENG L. Some remarks on stability of stochastic singular systems with state-dependent noise[J]. Automatica, 2015, 51(1): 273-277.
[15]	ZHANG Q, XING S. Stability analysis and optimal control of stochastic singular systems[J]. Optimization Letters, 2014, 8(6): 1905-1920. DOI: 10.1007/s11590-013-0687-5.
[16]	YONG J. A leader-follower stochastic linear quadratic differential game[J]. SIAM Journal on Control and Optimization, 2002, 41(4): 1015-1041. DOI: 10.1137/S0363012901391925.
[17]	BENSOUSSAN A, CHEN S, SETHI S P. The maximum principle for global solutions of stochastic stackelberg differential games[J]. Ssrn Electronic Journal, 2012, 53(4). DOI: 10.2139/ssrn.2413990.
[18]	ØKSENDALB. Stochastic differential equations: an introduction with applications[M]. 5th ed. New York: Springer-verlag, 1998.
[19]	XU S, VAN DOOREN P, STEFAN R, et al. Robust stability and stabilization for singular systems with state delay and parameter uncertainty[J]. IEEE Transactions on Automatic Control, 2002, 47(7): 1122-1128. DOI: 10.1109/TAC.2002.800651.