2. 青岛92001部队司令部, 山东 青岛 266011 ;
3. 海军工程大学 动力工程学院, 湖北 武汉 430033
2. Training Office of 92001 Troops Headquarters, Qingdao 266001, China ;
3. Naval University of Engineering, College of Naval Power Engineering, Wuhan 430033, China
随着舰船推进系统的复杂程度及相应的集成管理要求的不断提高,对集成管理中数据信息层次的提升越来越引起了人们的重视。基于知识的集成管理是实现系统智能化的关键,也是集成管理的发展趋势[1-3],这其中知识的获取是关键问题,所获取的知识可以以专家系统、智能程序等形式应用到集成管理的高级功能之中。
另一方面,新型舰船动力监控系统具备数据长时存储的能力,随着服役时间的增长,运行数据不断积累,这些实时/历史数据中保存了丰富的设备与系统的状态信息,是一个新的宝贵知识源泉。研究针对海量数据的合适的知识获取方法,提升数据的智能化程度,将各种数据转化为计算机可以理解的知识形式,是数据信息处理的研究热点[4-6]。使用数据挖掘算法,从历史运行数据中找出系统和设备的运行模式知识,是知识获取中的一个新途径,可以弥补以专家经验为主要来源的知识获取方式的不足。
本文针对舰船推进系统集成管理中的实船训练仿真建模与机械设备状态评估等高级应用功能对知识的需求,研究推进装置运行状态模式知识的内容与形式,以及数据挖掘算法的应用模式,并详细研究聚类分析算法在稳态运行工况基准模式识别中的应用,以及关联分析算法在运行状态特征模式识别中的应用。
1 集成管理中的知识挖掘模式集成管理中的知识主要应用于高级应用功能中,其基础是用合适的知识形式对推进系统所处的状态模式进行正确识别,即提取推进系统所处状态模式的量化特征,以及对推进系统状态模式的分类与预测。
在实船训练仿真建模中,随着设备运行时间的增长,设备特性也在变化。常规仿真模型中,所有的参数一旦确定后,很少改变,这样模型特性无法反映设备性能的时间衰减特性,对于实船训练来讲,模型精度和训练效果会下降,模型性能与实际系统的性能之间的偏差会越来越大。需要找出一个方法,从历史运行数据中识别出设备的当前状态基准模式知识,便于对相应的模型参数进行修正。
在机械设备健康状态监测中,需要发现设备健康状态的基准模式知识,以及健康状态下,系统与设备的特征模式知识,以此作为健康状态监测的标准。在机械设备故障预测和诊断中,同样的需要非健康状态下的系统与设备的特征模式知识,以及故障模式的分类匹配知识。此外,由于推进系统存在多种运行工况,所以需要从历史运行记录中找到运行工况的分类知识。通过对运行工况的模式识别,在线判断出推进系统的当前运行工况,便于调用相应工况下的健康状态监测知识规则和故障诊断知识规则,更好地进行知识推理。
综上所述,根据知识应用的需要,所需要挖掘的知识内容应包括:
①状态基准模式,包括设备与系统的运行参数基准值;
②状态特征模式,包括健康状态、故障状态、性能下降过程的特征;
③运行状态模式识别,包括故障分类、工况分类和性能状态分类等方面。
目前,主要有基于产生式规则、语义网络以及基于框架的知识表示方法,其中产生式规则具有统一的 IF-THEN 结构,符合思维的自然形式,易于实现控制与编程操作,还具有模块性的特点,给知识库的建立、扩展和维护提供了可管理性,是许多成功的专家系统所普遍采用的知识表示方法。基于产生式规则的知识表示中,知识库由若干条规则组成,一条规则通常包括前件(前提条件)和后件(结论):
<Rule> = IF <条件> THEN <结论>;
本文主要研究从运行数据集中通过数据挖掘技术获取规则形式的知识,其应用模式如图 1 所示。
监控系统积累的原始大数据通过数据转换进行预处理,去除噪音和异常数据,再根据不同的运行工况条件进行条件性拆分,得到不同工况的累积运行数据存储在数据仓库之中。在数据仓库的基础上,依据高级应用功能的需要,确定所需的知识模式类型,然后选取相应的挖掘算法进行知识发现。
2 聚类算法与稳态工况基准模式识别稳态工况基准模式是在正常使用情况下系统所应达到的目标状态,也可以认为这是一个标准无故障的健康状态,或者在运行优化中的状态标尺。它包括推进系统在各个稳态工况下,所有运行参数应达到的基准值。其中有的运行参数应达到的基准值可以根据车令表事前确定,如进行闭环控制的转速、桨角以及离合器状态等;而大多数运行参数的基准值是无法事先确定的,如某一稳态工况下的温度、压力等参数,需要根据实际运行状态从历史运行数据集中提取。
2.1 聚类算法聚类是将数据样本集 X {X1,X2,…,Xn} 按照某种相似性度量分成 k 簇 {C1,C2,…,Ck} 的过程[7-8],使同一个簇中的样本之间具有很高的相似度,而不同簇中的样本高度相异,即
数据样本 Xi 由 d 个属性值组成,Xi =(Xi1,Xi2,… Xid),其中 Xif 表示样本中的各属性,d 是样本或样本空间的维数(或属性个数)。这样,聚类的样本集可看成是一个 n × d(n 个样本 × d 个属性)的数据矩阵,如式(1)所示:
$ \left[ {\begin{array}{*{20}{c}} {{x_{11}}} & {......} & {{x_{1f}}} & {......} & {{x_{1d}}}\\ {} & . & . & . & .\\ {{x_{i1}}} & {......} & {{x_{if}}} & {......} & {{x_{id}}}\\ . & . & . & . & .\\ {{x_{n1}}} & {......} & {{x_{nf}}} & {...} & {{x_{nd}}} \end{array}} \right], $ | (1) |
簇的质心是簇的“中间值”,不需要是簇中实际点。令 ni 表示簇 Ci 中样本的数量,mi 表示对应样本的均值,则簇的质心满足:
$ {m_i} = \frac{1}{{{n_i}}}\sum\limits_{X \in {C_i}} X \,{\text {。}} $ | (2) |
簇的半径是簇中 2 个点间的均方差的平方根。
相异度是聚类的依据,根据样本属性值数据类型的不同有不同的描述形式。常见数据类型有连续型、二元变量、分类、序数以及比例标度变量,对于连续型变量,通常使用度量距离。
根据不同的聚类需求,发展出了许多聚类算法,算法的选择取决于数据的类型、聚类的目的和应用。
2.2 K-mean 算法k-mean 算法最早由 Lloyd 以及 MacQueen 提出,属于基于划分的方法,以距离值的平均值对聚类成员进行分配,它能较好的处理连续值属性的凸集聚类问题[9-10]。
k-mean 算法首先指定聚类数 k,随机选择 k 个对象,每个对象代表了一个簇的初始平均值。对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相似的簇,然后计算每个簇的新均值。这个过程循环进行,直到准则函数收敛时跳出循环。通常采用平方误差准则函数:
$ E = \sum\limits_{i = 1}^k {\sum\limits_{p \in {C_i}} {{{\left| {p-{m_i}} \right|}^2}} } , $ | (3) |
式中:E 为数据集中所有对象的平方误差和;p 为样本空间中的点;mi 为簇 Ci 的均值。对于每个簇中的每个样本,求样本到其簇中心距离的平方,然后求和。这个准则试图使生成的 k 个结果簇尽可能的紧凑和独立。
k-mean 算法的基本思想基于距离的概念,当状态变量为连续值时常使用 Lp-范数来度量距离:
$ d(i,j) \!\!=\!\! {\left( {{{\left| {{x_{i1}}\!-\! {x_{j1}}} \right|}^p}\! +\! {{\left| {{x_{i2}} \!-\! {x_{j2}}} \right|}^p} \!+ \! \cdots \! +\! {{\left| {{x_{in}} \!-\! {x_{jn}}} \right|}^p}} \right)^{1/p}}\!\!{\text {。}} $ | (4) |
当 p = 2 时,表示欧几里得距离(L2 范数);当 p = 1 时,表示曼哈顿距离(L1 范数)。还可对每个属性值根据其重要性人为的添加权重,成为加权 Lp-范数。
k-mean 算法对数据簇中的所有数据取平均值,这样导致如果存在个别距离过大的异常数据,则会对聚类中心造成很大影响,好的方面是如果异常数据反映故障状态,则通过 k-mean 算法可以比较明显地看出聚类中心的偏离,从而检测出故障的存在;不好的方面是如果异常数据只是干扰信号,则也会使聚类中心明显偏离,使人们对系统状态产生误判。所以 k-mean 算法对于异常点数据敏感,如果对待处理的数据集进行了较好的 ETL(抽取、转换、加载)的预处理,则可以发挥 k-mean 算法的优势,从数据集中抽取到真实的状态模式信息。
2.3 基准模式知识识别根据对推进系统工况划分的先验知识,各工况下的转速、螺距稳态值由控制器中所存储的车令表确定。所以在数据准备阶段,根据车令表对原始数据进行数据提取,汇总各个稳态工况下的历史运行数据,过滤其它工况下的运行数据。将提取的各个稳态工况下的运行数据以数据表的形式存入数据仓库中。包括不同的推进系统运行模式,以及各个运行模式下的所有运行工况。考虑到在实际过程中存在状态波动与测量误差,取提取条件为在已知的主机转速和调距桨螺距的基础上适当扩大。这样,从运行数据集中将符合提取条件的数据记录提取出来,保存到单独的数据表中。
对于各稳态工况下的数据集合,采用基于划分的 k-mean 算法对其中的连续状态进行聚类,得出相应的聚类中心,从而得到各稳态工况下的状态基准值。聚类中有 2 个问题对最终的聚类结果影响较大,一是参加聚类的状态参数的数目与种类,另一个是聚类簇的数目 K。
不同的状态参数数目,直接影响 k-mean 聚类算法中的计算过程,聚类结果也会不一样。在进行聚类时,一般按照物理原则和所分析问题的视角来划分子系统与设备,从而将状态参数划分种类,使所研究问题中存在耦合关系的参数尽量在一类中,而不同种类的参数之间耦合度尽量小。
算法中聚类簇数目 K 值的确定对于状态基准模式的准确识别很重要。因为通过提取得到的数据是一个在满足提取条件的区间范围内汇总的数据集合,虽然这一区间范围已经经过限制,但数据值还是存在相应的区间分布;另外,在数据集合中同时存在稳态与动态过程的状态点,仅依据主机转速和螺距这 2 个状态属性无法将稳态与动态状态完全区分。所以在初次聚类时,选择不同的 K 值分别计算状态基准值,与研究平台的稳态值相比较,选取最接近工况稳态值的簇中心点作为状态基准值,因为抽取的样本状态已经相对集中,所以 K 值不用取较大的测试值,在 5 以内即可。
经过聚类计算和筛选后,可以得到在各稳态工况下的推进系统动力学状态基准值,表 1 是某 CODAD 推进系统港内模式 1# 机工作时聚类基准值与工况稳态值的比较列表。
系统的稳定状态是一种理想情况,在实船稳态运行过程中,各参数实际上存在小范围波动,一般测量的瞬时稳态值难以代表长期的状态基准值,而采用聚类分析的手段能够较好的从运行数据集中提取出推进系统各稳定工作状态的基准值。采用聚类算法提取的状态基准值,相对精确地反映了设备与系统的当前状态,可以用于系统建模与模型修正。此外,还可以在状态监测中作为性能退化程度的标准值,当实际状态与该工况下的基准值之间的偏差大于一定程度时,认为系统处于故障状态,相应的启动报警和故障诊断模块。状态基准值同时在运行优化中可以作为管理者的目标值。
3 关联算法与状态特征模式识别状态特征模式是指在一定工况下,推进系统状态参数之间的一种特定量化关系,它通过定量的数值关系描述某一运行工况的特性。通过对特征模式的识别,可以建立各个运行工况和与之相应的特征模式之间一对一的映射关系。这样,可以根据状态特征模式推断推进系统的运行工况。
3.1 Apriori 关联算法从数学上看,关联是 2 个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联分析的目的是寻找数据集中数据项之间隐藏的关联关系,描述数据之间的密切度。关联算法的实施一般分 2 个步骤:第 1 步从数据集中搜索频繁项集;第 2 步在频繁项集的基础上归纳关联规则,其中频繁项集的计算是最主要的[11-13]。
Apriori 算法是 R.Agrawal 和 Srikant 于 1994 年提出的为布尔关联规则挖掘频繁项集的基本算法。它使用逐层搜索的迭代方法,通过侯选集产生频繁项集,首先通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁 1 项集的集合,记作 L1。然后由 L1 排列组合列出侯选 2 项集 C2,C2 是频繁 2 项集 L2 的超集,L2 是 C2 的子集。使用 Apriori 性质从 C2 中剪枝得到 L2。如此下去逐步搜索 L3和L4,直到不能再找到频繁 k 项集。
Apriori 算法的核心内容是提出了用于压缩搜索空间的 Apriori 性质:频繁项集的所有非空子集也必须是频繁的,即如果侯选集 I 不是频繁项集,则项 A 添加到项集 I 后的合项集(I∪U)也不是频繁项集。这一性质可以从较大的 C(k-1)快速提取L(k-1)。
一旦频繁项集迭代搜索完毕,就可以由得到的频繁项集产生出强关联规则(满足最小置信度和最小支持度)。具体步骤如下;
1)对于每个频繁项集 Li(1 < i ≤ k),产生 Li 的所有非空子集;
2)对于 Li 的每个非空子集 S,如果 confidence
置信度的计算公式:
$ \begin{aligned} confidence & (S \Rightarrow L_i-S) = P((Li-S)\left| S \right.) = \\ & \displaystyle\frac{{\sup port\_count(L_i)}}{{\sup port\_count(S)}} \end{aligned} $ |
即为频繁项集 Li 与 S 的支持度计数之比。
对于连续型变量,使用 Apriori 算法之前需要进行变量离散化。
3.2 特征模式识别对于子系统和设备的状态参数之间存在复杂映射关系的情况,使用关联算法从工况运行数据中提取知识规律具有独特的优势。如主机主轴承温度与主机工况之间的联系;齿轮箱支撑轴承温度、正倒车推力轴承温度与齿轮箱工况之间的关联情况;调距桨运行参数与调距桨工况间的关系等。识别出来的状态特征模式可以作为状态监测的知识储备。
以调距桨工况与正车推力轴承温度之间的联系为例,如果采用机理函数的思路描述两者之间的非线性映射关系,需要考虑复杂的影响因素,并且通过大量实际试验研究才能分析过程中的机理关系。而采用关联分析方法,不需要对物理过程的先验知识,可以直接从运行数据中快速的发现调距桨运行工况与齿轮箱正车推力轴承温度之间的关联关系。
选取正常每轴单机模式 1# 机工作时的各动态工况数据集,采用基于 Apriori 算法的关联算法进行计算。表 2 是从所有健康状态记录中提取的 9 条模式特征规则,(取规则的提取条件为概率大于 0.9,重要性大于 1.0)。它们反映调距桨转速、推力与正车推力轴承温度之间的复杂映射关系。令规则的前件为轴转速和螺旋桨推力,规则的后件为正车推力轴承温度,可以看出,当螺旋桨推力为负时,仍然可以从运行数据集中识别出相应的知识规则,根据知识规则查出正车推力轴承的正常温度范围。
由于运行数据包含正常每轴单机模式 1# 机驱动下的所有运行工况,数据分布的区间较宽,所以识别出来的关联知识规则中参数的数值分布也较宽。
算法中连续值属性的离散化方法对关联规则的产生有一定影响,可使用聚类算法对连续值属性进行离散化预处理。取不同的聚类数可以得到不同取值范围的关联规则,对于规则的敏感度与实用性影响较大。并不是每一条规则都有实用价值,存在规则筛选的问题。除了规则概率及重要性外,还要依据工况状态的先验知识进行分析筛选,更重要的是在应用过程中对规则的有效性进行检验。经过评估后得到的可靠特征模式规则,才能作为特征模式知识最终存入知识库。
从推进系统状态监测和故障诊断的角度来看,在运行数据集中最多的是系统在健康状态下的记录,所以可以首先将关联规则知识用于推进系统健康状态监测。在积累了一定程度的故障状态运行数据信息后,可以提取故障状态的特征模式,从而使用关联知识规则进行故障预警与故障诊断分析。
4 结 语在舰船推进系统的集成管理中,需要将数据信息提升到知识的层次。利用装置运行数据和信息作为监控管理工具是一个尚未充分开发的领域。
本文探讨了在推进系统集成管理中所需要的知识形式,数据挖掘技术在知识获取中的应用模式,以某型 CODAD 联合推进装置为对象,研究了数据挖掘技术在知识获取中的应用。为实现基于知识的舰船推进系统集成管理提供了研究基础。需要注意的是,数据挖掘所能够发现的知识模式是由数据集中所蕴涵信息所决定的。积累信息量充足的数据集是数据挖掘知识可用性的客观基础。
[1] | KIEHNE T. Co-simulation and dynamic assessment of thermal management strategies aboard naval surface ships[R]. Texas:Electric Ship Research and Development Consortium, University of Texas, 2014. |
[2] | PINHA D, AHLUWALIA R. Decision support system for production planning in the ship repair industry[J]. Industrial and Systems Engineering Review , 2014, 2 (1) :52–61. |
[3] | ELBASHIR M Z, COLLIER P A, SUTTON S G. The role of organizational absorptive capacity in strategic use of business intelligence to support integrated management control systems[J]. The Accounting Review , 2011, 86 (1) :155–184. DOI:10.2308/accr.00000010 |
[4] | SHEN Y, LI X W, GAO H J, et al. Data-based techniques focused on modern industry:an overview[J]. IEEE Transactions on Industrial Electronics , 2015, 62 (1) :657–667. DOI:10.1109/TIE.2014.2308133 |
[5] | Rotating machine condition monitoring-the state of the art[EB/OL].[2014-10-15]. http://www.users.aston.ac.uk:880/modiarot/. |
[6] | MITGMBH. DataEngine[EB/OL].[2014-10-15]. http://www.dataengine.de/english/sp/demos/english/dataengine.exe. |
[7] | VELMURUGAN T. Performance based analysis between k-Means and Fuzzy C-Means clustering algorithms for connection oriented telecommunication data[J]. Applied Soft Computing , 2014, 19 :134–146. DOI:10.1016/j.asoc.2014.02.011 |
[8] | CHATURVEDI A, GREEN P E, CARROLL J D. K-modes clustering[J]. Journal of Classification , 2001, 18 (5) :35–55. |
[9] | TZORTZIS G, LIKAS A. The MinMax k-means clustering algorithm[J]. Pattern Recognition , 2014, 47 (7) :2505–2516. DOI:10.1016/j.patcog.2014.01.015 |
[10] | CHAVES A A, LORENA L A N. Clustering search algorithm for the capacitated centered clustering problem[J]. Computers & Operations Research , 2010, 37 (3) :552–558. |
[11] | GHARIB T F, NASSAR H, TAHA M, et al. An efficient algorithm for incremental mining of temporal association rules[J]. Data & Knowledge Engineering , 2010, 69 (8) :800–815. |
[12] | WINARKO E, RODDICK J F. ARMADA-An algorithm for discovering richer relative temporal association rules from interval-based data[J]. Data & Knowledge Engineering , 2007, 63 (1) :76–90. |
[13] | ÁLVAREZV, VÁZQUEZJ M. An evolutionary algorithm to discover quantitative association rules from huge databases without the need for an a priori discretization[J]. Expert Systems With Applications , 2012, 39 (1) :585–593. |