基于MDP的诊断策略构建方法

Download PDF 打印本文

文章快速检索

高级检索

引用本文

梁雅俊, 肖明清, 宋海方, 等. 基于MDP的诊断策略构建方法[J]. 北京航空航天大学学报, 2016, 42(4): 844-850 复制到剪切板

LIANG Y J, XIAO M Q, SONG H F, et al. Diagnostic strategy building method based on MDP[J]. Journal of Beijing University of Aeronautics and Astronsutics, 2016, 42(4): 844-850. 复制到剪切板

基于MDP的诊断策略构建方法

梁雅俊¹, 肖明清¹, 宋海方¹, 杨召¹, 梁鹏²

1. 空军工程大学航空航天工程学院, 西安 710038;
2. 95503部队, 重庆 402360

收稿日期: 2015-05-05; 录用日期: 2015-09-02; 网络出版时间: 2015-12-23 16:33

作者简介: 梁雅俊女,博士研究生。主要研究方向:机载武器装备测试、诊断自动化与智能化。 Tel.: 15691805351 E-mail: 1214102891@qq.com

通讯作者: 肖明清男,博士,教授,博士生导师。主要研究方向:航空武器综合保障。 Tel.: 13909285251 E-mail: xmqing@sohu.com

摘要: 针对传统方法忽略测试通过的不确定性因素,缺乏长周期寻优机制,难以在复杂测试系统中生成全局最优诊断策略的问题,提出了一种基于马尔可夫决策过程(MDP)的诊断策略构建方法。该方法将故障检测、隔离的过程表述为系统故障状态的马尔可夫过程,通过引入折扣因子与目标权重,构造了综合效用准则函数的无限折扣模型,并利用策略迭代算法求解出全局平稳最优诊断策略。实例表明,该方法充分考虑了测试通过的不确定性,可实现全局平稳策略寻优,能够有效地指导测试系统实现快速故障检测和隔离。

关键词: 诊断策略马尔可夫决策过程(MDP) 故障检测策略迭代算法策略优化

Diagnostic strategy building method based on MDP

LIANG Yajun¹, XIAO Mingqing¹ , SONG Haifang¹, YANG Zhao¹, LIANG Peng²

1. Aeronautics and Astronautics Engineering College, Air Force Engineering University, Xi'an 710038, China;
2. Unit 95503, Chongqing 402360, China

Received: 2015-05-05; Accepted: 2015-09-02; Published online: 2015-12-23 16:33

Corresponding author. Tel.: 13909285251 E-mail: xmqing@sohu.com

Abstract: Aiming at the problem that by the traditional method, it is difficult to get the global optimal diagnostic strategy of the complicated test system in fault detection for ignoring the uncertainty factors in the test execution and lacking of the long cycle optimization mechanism, a new diagnostic strategy building method based on Markov decision processes (MDP) is proposed. The process of fault detection and isolation is expressed as a Markov process; the unlimited discount model of the utility integrated criterion function is structured through the discount factor and objective weights; the global optimal diagnostic strategy is obtained with the policy iteration algorithm. The example shows that the test uncertainty factors are well considered, stable optimal strategy of overall situation can be achieved by this method, and the fast fault detection and isolation in the engineering practice can be guided effectively as well.

Key words: diagnostic strategy Markov decision processes (MDP) fault detection policy iteration algorithm strategy optimization

随着高新科技在现代战争中的不断应用,武器装备的结构越来越复杂化、精细化,战时环境及条件的恶劣程度也日益提升,对装备故障检测、诊断工作的效率、灵活性及可靠性也就提出了更高的要求。诊断策略是指结合约束、目标及其他相关要素优化实现系统故障诊断的一种方法^[1],GJB 2547A中将其定义为“综合考虑规定约定、目标和有关影响因素而确定的用于隔离产品故障的测试步骤或顺序”。诊断策略作为故障检测与诊断^[2]的重要组成部分,对提高测试系统故障检测率、隔离率和诊断效率,减少测试费用,进而提高装备可用度、降低装备全寿命周期费用具有十分重要的意义。

作为系统测试与诊断技术中的关键问题,诊断策略优化问题已被证明是一个典型的NP-Complete问题^[3]。Pattipati^[3]和Simpson^[4]等指出诊断策略优化问题是时间与费用的优化问题。诊断策略实际要解决的是序列决策问题:如何确定一组测试序列,以尽可能少的期望时间与费用完成故障隔离,并满足精度要求。

国内外学者研究诊断策略优化问题主要采用以下算法:基于信息启发的贪婪搜索算法^{[5, 6, 7]}和基于Rollout策略的一步向前回朔算法^[8],这2种方法简单、快速且计算量小,但只比较了一二步内的费效比,最优性较差^[9];基于最少测试费用启发式的与或图搜索(And-Or graph search,AO^*)算法^[2]能得到最优性较好的诊断策略,但其计算量大和存储量大,难以用于现场指导复杂系统的故障隔离过程^[10];邱静等^[11]提出采用双启发函数的准深度搜索方法,计算量远少于AO^*算法,最优性相近,具有很高的实用价值。但上述方法都未考虑实际检测中存在的测试不确定性因素的影响,且在军事装备战时保障等复杂、多干扰的情形下,要求在极限情况下快速可靠地检测出故障,所需诊断策略也应是全局最优、长周期内平稳的。

本文在分析测试系统故障检测、隔离过程的基础上,提出了一种基于马尔可夫决策过程(Markov Decision Processes,MDP)的诊断策略构建方法:首先,基于MDP理论模型,结合故障诊断原理构建了MDP故障诊断策略模型;兼顾测试费用及信息量效用准则,线性加权求得综合效用准则函数。然后,采用无限折扣效用准则模型,确保长周期内平稳寻优。最后,利用策略迭代算法快速求得最优策略。MDP当前时刻的决策只依赖于当前的状态与行动,与过去的历史无关^[12];这一特点使得该方法构建的诊断策略为长周期内平稳最优的,是独立于时间顺序的^[13]。工程实例也表明,该方法科学简单,最优性满足工程实际,能够指导测试系统构建出长周期最优诊断策略,尤其适用于测试资源缺失或需要人为选择测试内容等战地复杂情形。

1 MDP理论模型

MDP的核心要素包括:状态、行动、转移概率及报酬。考虑到实际工程应用中,故障诊断的决策时刻总是离散的,故本文所讨论的MDP都是离散时间的,即离散时间MDP(Discrete Time Markov Decision Processes,DTMDP)。

MDP模型可由以下五元组确定:

式中:i,j为状态；S为状态空间；A(i)为状态i处的可用行动集合；p_ij(a)为行动a后的状态转移概率；r(i,a)为状态i时采取行动a的报酬；V(i,π)为效用准则函数;π为马尔可夫策略(以下简称马氏策略),π=(w₁,w₂,…,w_t)(w_t∈W,t∈N),是一组马氏决策w_t构成的序列,有马氏策略空间Π;马氏决策w:S→A(i),决策空间W=S×A(i)，w为状态集S到行动集A(i)的映射,表示对每个i∈S,都有w(i)∈W;V(i,π)为策略π下的系统期望总报酬:

式中:i_n为n时刻的状态;a_n为n时刻采取的行动。定义最优函数^[12]:

MDP的最终目标是在策略空间Π中找出期望的最优策略π^*满足式(2)。马氏策略的最优策略及最优函数的存在性已被证明^[14],这里不再说明。

2 MDP故障诊断原理和策略模型 2.1 故障诊断原理

故障检测、隔离的基本原理可描述为故障隔离“推理机”^[11]:

由式(3)可知,测试t_j可将系统故障状态模糊集F_j划分为2个故障状态子集F_jp(测试项目通过后，系统表征出的故障状态)和F_jf(测试项目未通过，系统表征出的故障状态);且F_jp和F_jf只与当前的系统故障状态模糊集F_j相关,而与之前、之后的系统故障状态无关,具有典型的马尔可夫性。因此可将故障诊断隔离过程看作一个马尔可夫过程,应用MDP理论解决故障诊断策略寻优问题。式(3)中的b_ij可根据系统故障、测试的相关性矩阵FT=B_n×m=(b_ij)(n,m>0)来确定,故障树、仿真分析、信息流模型及多信号模型等方法^[11]都获得系统FT矩阵。

2.2 基于MDP的故障诊断策略模型

设F₁={f₁,f₂,…,f_m}(m≥1)为系统的初始故障状态模糊集,由故障“推理机”可得图 1所示的系统故障诊断策略树,所有可能的系统故障状态模糊集依次记为F₁,F₂,…,则有系统故障状态空间S={F₁,F₂,…,F_k}(k≥1);所有检测项目t₁,t₂,…,t_d(d≥1)构成测试集T或行动集A(i),即A(i)=T={t₁,t₂,…,t_n}(n≥1)。

图 1 系统故障诊断策略树 Fig. 1 System fault diagnosis strategy tree

图选项

对任意时刻的系统故障状态模糊集i_n=F_k∈S,都有测试决策w_n:F_k→a=t_d∈T来进一步推测系统可能的故障状态,最终将其隔离到子故障或现场可更换单元(Line Replaceable Unit,LRU)、车间可更换单元(Shop Replaceable Unit,SRU)。

在实际测试过程中,由于存在诸多不可控因素的干扰,测试t_d只能以一定的统计概率p_dp检测出故障f_m,即为系统故障状态F_k→F_kp的转移概率;则状态F_k→F_kf的转移概率为p_df=1-p_dp。

在测试诊断系统组建过程中,测试t_d执行后的测试费用及对系统后续故障诊断的影响都是极重要的考虑因素^[15]。因此定义2个即时报酬:测试费用r_c(i_n,a_n)和系统故障状态信息量r_i(i_n,a_n);测试系统的故障诊断策略π={w₁,w₂,…,w_n}(n≥1),w_n为n时刻的测试决策;所有可能的诊断策略构成策略空间Π;根据式(1),进而有测试系统诊断策略构建效用准则函数

综上,可确定基于MDP的测试系统诊断策略模型:

通过求解该模型,从策略空间Π中找到最优策略π^*,使其能对效用准则函数V_c(F₁,π)、V_i(F₁,π)同时满足式(2),则是生成测试系统最优策略的过程。这是个典型的多目标MDP(Multi-Objective Markov Decision Processes,MOMDP)^[14],可运用线性加权方法将其化归为综合效用准则函数,求解出满足综合效用准则的最优策略π^*。

2.3 模型求解

测试系统诊断策略寻优,期望获得测试周期内的最优决策,即考虑长周期的收敛解,因此选用无限折扣模型。考虑2个准则的期望时间周期相同,只需引入一个折扣因子β(β越接近于1,则期望周期越长),结合式(1)可得

式中:测试费用r_c(i_n,a_n)可由历史统计数据获得,并对其取负;r_i(i_n,a_n)可由信息熵求得

其中:P(F_k)、P(F_kp)和P(F_kf)为各故障状态模糊集中子故障发生的概率之和。

设测试费用与系统信息量的权重值分别为α、1-α,结合式(4)对2个效用准则函数线性加权,可得综合效用准则函数:

式中:r(i_n,a_n)=αr_c(i_n,a_n)+(1-α)r_i(i_n,a_n)。

由于测试费用已取负值,能获得的系统信息量越大越好,则有综合效用准则函数期望越大越好。则有最优值方程

通过求解式(6),求得使最优函数最小的各测试决策,进而得到最优策略。策略迭代算法是一种求解无限折扣模型MDP的高效、快速算法,可求解有限状态空间与行动空间集合的MDP,符合工程实际。策略迭代算法求解出最优策略π^*的具体计算步骤^[13]如下:

1) 任取π∈Π。

2) 求解效用函数

3) 改进每个状态对应的行动,使其满足

4) 如果π^*=π,则停止,V(s,π)=V(s,π^*)为最优值函数,并返回π;否则,策略更新为π=π^*,返回步骤2)。

步骤3)求得的π^*(s)为长周期内的最优平稳决策,据此可对策略π进行更新,进而可得出最优策略π^*。

3 诊断策略构建实例

现以某型战机悬挂及发射装置二线自动测试系统为例,对某型导弹发射架离位测试内容构建最优诊断策略。导弹发射装置是实现飞机与导弹之间的机械、电气、射频及气路连接的接口装置,对其测试主要是对电气参数的检测。分析发射架与导弹发动机点火电缆之间的信号,得出测试需求并确定其测试项目,依据多信号模型或信息流模型,由可达性分析得出其相关性矩阵,如表 1所示。

表 1 发射架点火电缆模块相关性矩阵、转移概率及测试费用 Table 1 Dependency matrix, transition probability and test expenses of launcher ignition cable module

FT	t₁	t₂	t₃	t₄	t₅	p(f_n)
f₁(射频接口)	0	0	0	0	0	0.01
f₂(燃气推进器)	0	1	0	0	1	0.02
f₃(发射电路盒)	0	0	1	1	0	0.05
f₄(发射控制电源盒)	1	0	0	1	1	0.03
f₅(挂弹信号组件)	1	1	0	0	0	0.09
f₆(同步机构)	1	1	1	1	0	0.10
p_np	0.81	0.92	0.87	0.89	0.75
r_c	1	1	1	1	1

表选项

为便于求解该测试系统的诊断策略,作如下补充:

1) p_np为测试t_n能确定检测、反映出导弹发射架故障f_m的概率,也就是系统故障状态发生转移的概率。因为在实际战地转场、内外场等恶劣的测试环境中存在多种外界因素,都会对测试效果造成一定的影响。

2) 考虑到测试设备的硬件架构已经搭建完成,不再讨论经济花费,所以表 1中的测试费用为测试时间成本的统计估计值,并作为费用报酬准则。

上述转移概率及测试费用均已在表 1中列出。

1) 确定折扣因子β。根据测试系统的可能检测周期,以及对诊断策略最优性的选取,折扣因子越接近1则策略长周期内的最优性越好,本例中确定0.80、0.95,并对比不同之处。

2) 确定准则权重。分析策略构建关键因素对测试效率、可靠性的影响,结合测试专家意见,给出测试费用和故障状态信息量的权重系数均为α=0.5;当检测偏向发生变化时,只需增加或减小权重值。

3) 根据表 1所示内容,按图 1所示构建出诊断策略树,可推出系统所有可能的故障状态模糊集,如表 2所示,进而得到故障状态空间S={F₁,F₂,…,F₂₇}，且系统的可用行动集A(i)={t₁,t₂,…,t₅}。

表 2 系统故障状态表 Table 2 Fault states table of system

故障状态	子故障	故障状态	子故障
F₁	f₁f₂f₃f₄f₅f₆	F₁₅	f₃
F₂	f₁f₂f₃	F₁₆	f₄
F₃	f₄f₅f₆	F₁₇	f₅f₆
F₄	f₁f₃f₄	F₁₈	f₄f₅
F₅	f₂f₅f₆	F₁₉	f₆
F₆	f₁f₂f₄f₅	F₂₀	f₅
F₇	f₃f₆	F₂₁	f₄f₆
F₈	f₁f₂f₅	F₂₂	f₁f₄
F₉	f₃f₄f₆	F₂₃	f₁
F₁₀	f₁f₃f₅f₆	F₂₄	f₃f₄
F₁₁	f₂f₄	F₂₅	f₂f₅
F₁₂	f₁f₃	F₂₆	f₁f₅
F₁₃	f₂	F₂₇	f₃f₆
F₁₄	f₁f₂

表选项

4) 根据表 2内容,结合表 1中所示的系统故障状态转移概率,可确定在采取测试t₁后系统的状态转移概率矩阵:

矩阵中元素E_1ij表示在测试t₁下系统可观测故障状态由F_i转移到F_j的概率,且只有数值:0,p_1f,p_1p,1,依次对应:没有转移关系、转移到测试不通过、测试通过的系统故障状态及状态不发生转移。同理,可求得测试t₂,t₃,t₄,t₅行动下的状态转移概率矩阵P₂,P₃,P₄,P₅。有必要说明的是,当执行测试t_n后系统故障状态不发生转移时,便视为以概率1回到原状态。

5) 根据表 1内容及式(3),可获得该测试系统3个报酬函数:

① 由表 1可知,测试费用报酬函数r_c(i_n,a_n)=r_c(a_n),a_n∈T,与系统所处状态无关,只取决于采取的测试行动。

② 由式(5)和状态转移概率矩阵,求得信息量报酬函数:

③ 已知准则权重α=0.5,综合a、b,进而得到综合报酬函数:

6) 式(9)代入式(6),得到该测试系统故障诊断策略构建的效用准则函数方程组:

最佳策略即是寻找使效用准则取最大值的诊断策略π^*,满足

。

7) 由于系统状态空间较大,本实例模型求解使用策略迭代算法,利用MATLAB中的MDP决策工具包编程可得结果,如图 2和图 3所示。图 3为2个折扣因子下各故障状态的效用准则值,可以看出由于本例的检测周期较短,2个折扣因子下的策略趋势是一致的。

图 2 最佳决策 Fig. 2 The best decisions

图选项

图 3 最佳策略效用准则值 Fig. 3 Utility values of criteria of the best strategy

图选项

从图 2中不难看出,系统故障状态对应的最佳决策在不同β下是不尽相同的。即当最优性的目标周期不同时,对应的最优策略可能不一致。本例以β=0.95的长周期最佳决策作为理想目标,可得到该测试系统从故障状态F₁开始的最佳决策为:F₁→t₄、F₈→t₂、F₉→t₁、F₂₅→t₅、F₂₁→t₅,则有系统故障诊断树如图 4所示。可以看到,没有进行测试t₃,被测对象的故障还是可以诊断、隔离出来,据此也可对行动集A(i)进行适当约减,进而可精简设计的测试项目。图 5和图 6分别给出了不同权重值下的最佳决策及效用准则值。权重α=0.4表示策略决策更偏向于期望测试费用更小;权重α=0.6则更倾向于每个测试决策所获得的系统故障状态信息量,以便快速检测出故障,即测试的快速性;权重α=0.5则是二者兼顾;从图 6中也不难看出,不同权重值下策略的效用准则值并不相同,但是利用该方法都可以找到长期最优平稳策略,而权重值的设置需要根据具体的设计需求进行确定。

图 4 系统故障诊断树 Fig. 4 Fault diagnosis tree of system

图选项

图 5 不同权重α下的最佳决策 Fig. 5 The best decisions under different α

图选项

图 6 不同权重α对应的策略效用准则值(β=0.95) Fig. 6 Utility values of criteria under different α (β=0.95)

图选项

综上可以看出,当检测环境复杂、测试资源有损毁时或检测人员可以确定故障的大致位置等情况下,可选择对应的故障状态的最佳决策生成一系列的不同初始状态的最优诊断策略。该方法应用到某型战斗机悬挂及发射装置二线自动测试系统,能够对某型导弹发射架进行快速有效的故障诊断,在导弹发射架全寿命周期的测试保障中节省大量的时间,并作为约简测试资源的依据,切实提高某型导弹发射架的保障效能,降低测试系统的设计成本。

4 结论

本文基于MDP理论,通过建立MDP折扣模型并求解该模型,得到理想诊断策略:

1) 该方法能够充分考虑测试通过中的不确定性因素的影响,提高诊断结果的准确性与可靠性。

2) 可实现长周期动态寻优,生成全局最优诊断策略。

实践表明,该方法能够有效指导战地转场等突发性复杂环境中的诊断策略构建,实现故障的快速检测与隔离。

参考文献

[1]	IEEE SCC20. IEEE trial-use standard for testability and diagnos ability characteristics and metrics:IEEE Std 1522-2004[S].Piscataway,NJ:IEEE Standards Press,2004:1-7.

[2]	杨海马,于小强, 杨晖,等.漏泄电缆自动检测系统研究[J].电子测量与仪器学报,2014,28(7):795-797. YANG H M,YU X Q,YANG H,et al.Research on automatic detection system of leaky cable[J].Journal of Electronic Measurement and Instrumentation,2014,28(7):795-797(in Chinese).
	Cited By in Cnki (2) \| Click to display the text
[3]	PATTIPATI K R, ALEXANDRIDIS M.Application of heuristic search and information theory to sequential fault diagnosis[J].IEEE Transactions on System,Man,and Cybernetics,1990,20(4): 872-887.
	Click to display the text
[4]	SIMPSON W R, SHEPPARD J W.The multicriterion nature of diagnosis[C]//Proceedings of the IEEE Systems Readiness Technology Conference.Piscataway,NJ:IEEE Press,1993:389-395.
	Click to display the text
[5]	JOHNSON R A. An information theory approach to diagnosis[J].IRE Transactions on Reliability and Quality Control,1960,RQC-9(1):35.
	Click to display the text
[6]	黎琼炜. 系统级BIT测试性设计技术及其在组合导航系统中的应用研究[D].长沙:国防科技大学,2001:34-57. LI Q W.Research on system level BIT design for testability technique and its application in integrated navigation system[D].Changsha:National University of Defense Technology,2001:34-57(in Chinese).

[7]	景小宁,李全通, 陈云翔,等.基于信息熵的最少测试费用故障诊断策略[J].计算机应用,2005,25(2):417-419. JING X N,LI Q T,CHEN Y X,et al.Fault diagnosis strategy with least test cost based on information entropy[J].Journal of Computer Applications,2005,25(2):417-419(in Chinese).
	Cited By in Cnki (20) \| Click to display the text
[8]	TU F,PATTIPATI K R. Rollout strategy for sequential fault diagnosis[J].IEEE Transactions on Systems,Man and Cybernetics,2003,33(1):86-99.
	Click to display the text
[9]	黄以锋,景博,喻彪, 等.基于概率阈的冗余多故障诊断策略[J].空军工程大学学报(自然科学版),2014,15(5):1-5. HUANG Y F,JING B,YU B,et al.Multiple fault diagnosis strategy for redundant system based on probability threshold[J].Journal of Air Force Engineering University (Natural Science Edition),2014,15(5):1-5(in Chinese).
	Cited By in Cnki
[10]	王红霞,叶晓慧, 田树新.基于广义AO^算法的测试序列问题研究[J].兵工学报,2010,31(2):204-209. WANG H X,YE X H,TIAN S X.Research on test sequencing problem based on generalized AO^ algorithm[J].Acta Armamentarii,2010,31(2):204-209(in Chinese).
	Cited By in Cnki (3)
[11]	邱静,刘冠军,杨鹏,等. 装备测试性建模与设计技术[M].北京:科学出版社,2012:316-319. QIU J,LIU G J,YANG P,et al.Equipment testability modeling and design technology[M].Beijing:Science Press,2012:316-319(in Chinese).

[12]	黎洁,刘羽西, 李奇越.基于隐马尔可夫模型的认知无钱频谱切换方法[J].电子测量与仪器学报,2014,28(1):69-74. LI J,LIU Y X,LI Q Y.Spectrum handoff and method based on hidden Markov model in cognitive radio network[J].Journal of Electronic Measurement and Instrumentation,2014,28(1):69-74(in Chinese).
	Cited By in Cnki (5) \| Click to display the text
[13]	RUSSELL S, NORVING P.Artificial intelligence:A modern approach[M].Beijing:Tsinghua University Press,2011:645-658.

[14]	刘克. 实用马尔可夫决策过程[M].北京:清华大学出版社,2004:34-45. LIU K.The utility of Markov decision processes[M].Beijing:Tsinghua University Press,2004:34-45(in Chinese).

[15]	李行善,左毅,孙杰. 自动测试系统集成技术[M].北京:电子工业出版社,2004:66-70. LI X S,ZUO Y,SUN J.Automatic test system integration technology[M].Beijing:Publishing House of Electronics Industry,2004:66-70(in Chinese).

http://dx.doi.org/10.13700/j.bh.1001-5965.2015.0277
北京航空航天大学主办。

文章信息

梁雅俊, 肖明清, 宋海方, 杨召, 梁鹏

LIANG Yajun, XIAO Mingqing, SONG Haifang, YANG Zhao, LIANG Peng

基于MDP的诊断策略构建方法

Diagnostic strategy building method based on MDP

北京航空航天大学学报, 2016, 42(4): 844-850

Journal of Beijing University of Aeronautics and Astronsutics, 2016, 42(4): 844-850.

http://dx.doi.org/10.13700/j.bh.1001-5965.2015.0277

文章历史

收稿日期: 2015-05-05

录用日期: 2015-09-02

网络出版时间: 2015-12-23 16:33

文章信息

文章历史

相关文章

工作空间