2. 海军航空工程学院 基础部,山东 烟台 264001
2. Department of Basic, Naval Aeronautical and Astronautical University, Yantai 264001, China
近年来,国内外在故障模式识别方面成果显著,取得了很大的突破.应用较广泛的方法有神经网络识别法、专家系统方法、粗糙集法以及模糊诊断方法等.基于神经网络的故障诊断方法虽然能直接从样本获取规则知识,但训练模型繁杂、训练样本要求大等缺点使其应用范围大大缩小;专家诊断法则需要经常对数据库进行维护更新,随着信息化发展速度加快,维护专家系统的成本将成倍增加;而模糊诊断方法的模糊隶属度函数难以确定也限制了其应用[1].可拓学是广东工业大学蔡文教授提出的一种解决现实矛盾问题的有效学科体系,基元、可拓集合以及关联函数理论是其精髓所在.通过基元模型的建立,把现实问题形式化,且对问题有定性和定量方面的分析[2].基于可拓学理论的故障识别方法已有广泛的研究,将这种方法和数据挖掘技术结合起来,则为面对大量数据的故障诊断方法开辟了一条新的途径[3].
1 基于可拓数据挖掘的故障诊断技术可拓数据挖掘技术是将可拓学和数据挖掘技术相结合用于处理基于大量数据的故障诊断问题.基于可拓数据挖掘技术的故障识别方法基本流程依次为:数据预处理、特征提取、经典域,节域确定、权重确定、关联函数构建、综合判断故障模式。
1.1 数据预处理和特征提取分析数据预处理是将提取的原始数据样本进行清洗并转换成机器语言能够识别的数据形式.所谓数据清洗就是将不完整的、有噪声的和不一致的数据通过填充缺失值、平滑噪声和识别离群点等方式来纠正数据中的不一致情况.通过进一步对数据泛化、规范化以及属性的重新构造等方法将数据转换或者统一成适合数据挖掘的形式.
特征提取能约简模型中冗余的属性特征,提取出对可拓数据挖掘效果影响较明显的特征.同时选择的数据集的特征要为后续的数据挖掘功能服务.因为提取的数据集的特点不同对不同的数据挖掘算法的最终效果影响程度也是不同的.如提取的记录数、特征数会影响分类的精度和速度, 离群点分布的特点会影响聚类的效果等.常用的特征提取方法有主成分分析法,粗糙集算法等[4].
1.2 经典域、节域的确定可拓学的基础理论为物元模型的构建.物元M=(O, C, V),O代表物元的对象,C代表提取的特征,V代表与特征对应的取值范围.
在故障识别中不同的故障所对应的各个特征的取值范围为相应的故障模式对应的经典域.例如取第j类故障模式对应有n类特征,此种模式下各特征相应的取值范围Vjn=〈ajn, bjn〉,则故障模式j对应的经典域物元为
| $ {M_j} = \left[ \begin{array}{l} {O_j}, \;\;\;{C_1}, \;\;\;\;{V_{j1}}\\ \;\;\;\;\;\;\;\;{C_2}, \;\;\;\;{V_{j2}}\\ \;\;\;\;\;\;\;\;\;\; \vdots \;\;\;\;\;\;\; \vdots \;\;\\ \;\;\;\;\;\;\;\;{C_n}, \;\;\;\;{V_{jn}} \end{array} \right]{\rm{ = }}\left[ \begin{array}{l} {O_j}, \;\;\;{C_1}, \;\;\;\;\langle {a_{j1}}, {b_{j1}}\rangle \\ \;\;\;\;\;\;\;\;{C_2}, \;\;\;\;\langle {a_{j2}}, {b_{j2}}\rangle \\ \;\;\;\;\;\;\;\;\;\; \vdots \;\;\;\;\;\;\;\;\;\;\; \vdots \;\;\\ \;\;\;\;\;\;\;\;{C_n}, \;\;\;\;\langle {a_{jn}}, {b_{jn}}\rangle \end{array} \right]. $ |
OU表示故障类型的全体且VUn=〈aUn, bUn〉⊂Vjn,则故障模式对应的节域为
| $ {M_U} = \left[ \begin{array}{l} {O_U}, \;\;{C_1}, \;\;\;\;{V_{U1}}\\ \;\;\;\;\;\;\;\;{C_2}, \;\;\;\;{V_{U2}}\\ \;\;\;\;\;\;\;\;\;\; \vdots \;\;\;\;\;\;\; \vdots \;\;\\ \;\;\;\;\;\;\;\;{C_n}, \;\;\;\;{V_{Un}} \end{array} \right]{\rm{ = }}\left[ \begin{array}{l} {O_U}, \;\;{C_1}, \;\;\;\;\langle {a_{U1}}, {b_{U1}}\rangle \\ \;\;\;\;\;\;\;\;{C_2}, \;\;\;\;\langle {a_{U2}}, {b_{U2}}\rangle \\ \;\;\;\;\;\;\;\;\;\; \vdots \;\;\;\;\;\;\;\;\;\;\; \vdots \;\;\\ \;\;\;\;\;\;\;\;{C_n}, \;\;\;\;\langle {a_{Un}}, {b_{Un}}\rangle \end{array} \right]. $ |
令待测样本为Mx,
| $ {M_x} = \left( {{O_x}, C, x} \right) = \left[ \begin{array}{l} {O_x}, \;\;{C_1}, \;\;\;\;{x_1}\\ \;\;\;\;\;\;\;{C_2}, \;\;\;\;{x_2}\\ \;\;\;\;\;\;\;\;\;\; \vdots \;\;\;\;\;\; \vdots \;\;\\ \;\;\;\;\;\;\;{C_n}, \;\;\;\;{x_n} \end{array} \right], $ |
其中, x1, x2…xn为待检验样本的n个特征值.
经典域和节域边界的确定对故障识别的精确度有很大的影响,因此经典域和节域的确定显得尤为重要.传统的确定方法多采用统计学的方法,例如利用数据挖掘方法得出各个特征的均值μij和方差σij,根据正态分布理论中的3σ原理来构造相应的经典域,即处于正态分布中的99.7%的数据在<μij-3σij, μij+3σij>变化范围中[5].而物元模型的节域一般取特征对应的最大值和最小值边界,这种方法可以使同一模式的大部分数据落入所构建的经典域中,准确性较高.
1.3 权重的确定模型中不同特征的权重值反映了各个特征对最终的模式识别结果影响程度,即各个指标对结果的重要度.权重计算方法根据样本数据的有无可分为定性赋权法和定量赋权法.这两种方法各有利弊,定性赋权法易受主观因素的影响,而定量赋权法又需要标准的数据[6].常用的权值确定方法有专家评分法、二元排序对比法、层次分析法以及模糊统计法等.
基于粗糙集理论的权重确定方法,利用单个影响因素在全体特征集合中的重要度,确定指标的权重值,适用于大量的模糊数据的处理.粗糙集处理信息无需任何先验知识,避免了主观因素的影响.粗糙集和模糊集相结合还能对不完备数据信息进行说明,同时在数据分析方面粗糙集也是一个很好的数据处理工具.
在粗糙集理论中知识代表一种分类的能力.设R为U上一个等价的关系,知识就是R对U划分的结果.对于给定的知识库K=(U, R),对应的每个子集X⊆U及一个等价的关系集R∈ind(K),其中ind(K)代表K中的所有等价关系族[7].定义R的两个子集:
(1) R={X⊆U:R(X)⊆X}称为集合关于R的下近似集,表示所有那些被包含在U上的子集X中的基本集R的并.
(2) R={X⊆U:R(X)∩X=φ}叫做集合关于R的上近似集,表示所有与X的交非空的R基本集的并.
定义POSR(X)=R(X)为集合关于R的正区域.令S=(U, A, V, f)为一个知识表达系统,其中U表示总域,A=C∪D且C∩D=φ,f表示一种映射关系,C代表系统的条件属性集,而D表示决策属性集[8].条件属性集和决策属性集共同构成决策表,且决策属性对条件属性的依赖度定义为
| $ {\gamma _C}\left( D \right) = \left| {{\rm{PO}}{{\rm{S}}_C}\left( D \right)} \right|/\left| U \right|, $ |
表示D是k度依赖于C.
同理可以得到属性子集C′⊆C关于D的重要度定义为
| $ {\sigma _{CD}}\left( {C'} \right) = {\gamma _C}\left( D \right) - {\gamma _{C - C'}}\left( D \right). $ |
其中
对重要度进行归一化处理,得到第i个条件属性的权重系数值
| $ {\omega _i} = \frac{{{\sigma _{CD}}\left( {{C_i}} \right)}}{{\sum\limits_1^n {{\sigma _{CD}}\left( {{C_i}} \right)} }}. $ |
基于粗糙集的权重确定方法能在保留关键信息的前提下,对不确定信息进行分析,识别出信息之间的依赖关联关系,比传统的权重确定方法具有更高的客观性.
1.4 关联函数的构建[9]关联函数表示待测样本和已确定的模式之间的关联度,即确定待测样本和哪种模式更亲密,是整个模型建立的关键点.
对于确定的区间X0⊂X,令X0=〈a, b〉,X=〈c, d〉.
矩定义为ρ(x, X0)=
点x关于区间X0和X组成的区间套的位值,即x和区间X0和X的位置关系为
| $ \begin{array}{l} \;\;\;\;\;\;\;\;D\left( {x, {X_0}, X} \right) = \\ \left\{ \begin{array}{l} a - b, \rho \left( {x, {X_0}} \right) = \rho \left( {x, X} \right);\\ \rho \left( {x, {X_0}} \right) - \rho \left( {x, X} \right), \rho \left( {x, {X_0}} \right) \ne \rho \left( {x, X} \right), \mathit{x} \notin {\mathit{X}_0};\\ \rho \left( {x, {X_0}} \right) - \rho \left( {x, X} \right) + a - b, \rho \left( {x, {X_0}} \right) \ne \rho \left( {x, X} \right), \mathit{x} \in {\mathit{X}_0}. \end{array} \right. \end{array} $ |
则待测样本与各类的关联度K(最优点在区间中点)为
| $ K\left( x \right) = \left\{ \begin{array}{l} \frac{{\rho \left( {x, {X_0}} \right)}}{{D\left( {x, {X_0}, X} \right)}} - 1, \rho \left( {x, {X_0}} \right) = \rho \left( {x, X} \right);\\ \frac{{\rho \left( {x, {X_0}} \right)}}{{D\left( {x, {X_0}, X} \right)}}, {\rm{else}}. \end{array} \right. $ |
基于矩定义的关联函数的构建一般采用区间中点作为最优点,也可以根据实际情况选择端点或其他的区间点.
1.5 综合故障模式的判断计算待测样本Ox和每一类故障模式的经典域的关联度
| $ {K_j}\left( {{O_x}} \right) = \sum\limits_{i = 1}^n {{\omega _i}{k_j}\left( {{V_j}} \right), } $ |
其中, ωi为权重系数,且有
将关联度进行排序,对比关联值的大小,判断故障模式.
2 汽车发动机故障诊断笔者综合分析某型汽车发动机的工作状态及相应的特征数据,测试了发动机6个指标的状态数据,分别为发动机冷却液温度t1、发动机平均转速t2、喷油雾直径t3、进气口端最大压力t4、进气口的平均温度t5、节气门的开度最大值t6.同时对应的故障类型有4种,分别为Ⅰ发动机冷却系统故障,Ⅱ排气系统故障,Ⅲ气缸喷油嘴工作异常,Ⅳ机体本身故障[10].测得100组数据如表 1所示.
| 表 1 发动机原始状态数据 Table 1 Data of original engine state |
利用粗糙集算法对数据进行属性约简和权重计算[11].经计算,进气口最大压力和节气门的开度最大值两个特征与其他特征关联度大,为冗余特征, 被约简掉.约减后特征记为e1~e4.
利用粗糙集法对剩余特征进行权重计算,最后得到4个特征的权重值为
| $ \left\{ \begin{array}{l} {\omega _{t1}} = 0.337, \\ {\omega _{t2}} = 0.411, \\ {\omega _{t3}} = 0.186, \\ {\omega _{t5}} = 0.066. \end{array} \right. $ |
综合分析发动机的故障模式,建立物元模型为
| $ \begin{array}{l} \;\;\;\;\;\;\;\;M = \left( {O, C, V} \right) = \\ \left( \begin{array}{l} 发动机, \;\;\;\;冷却液速度, \;\;\;\;\;\;\;\;\;\;\;\;\;{V_1}\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;平均转速, \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{V_2}\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;喷油雾直径, \;\;\;\;\;\;\;\;\;\;\;\;\;{V_3}\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;进气口平均温度, \;\;\;\;\;\;\;{V_4} \end{array} \right). \end{array} $ |
对约简后的数据进行标准化(除以每一列的最大值),结果如表 2所示.
| 表 2 标准化后特征值数据 Table 2 Data of characteristic value after standardization |
根据正态分布的3σ原则确定4种故障状态的经典域,如表 3所示.
| 表 3 各故障模式经典域 Table 3 Classical domain of the fault modes |
根据关联函数的构建法则,构建样本与各个故障模式的关联函数.
取一个待测样本,标准化后为
| $ {M_x} = \left( {{O_x}, C, \mathit{x}} \right) = \left[ \begin{array}{l} {O_x}, \;\;\;\;\;\;{C_1}, \;\;\;\;\;0.87\\ \;\;\;\;\;\;\;\;\;\;\;{C_{2, }}\;\;\;\;\;\;0.85\\ \;\;\;\;\;\;\;\;\;\;\;{C_{3, }}\;\;\;\;\;\;0.95\\ \;\;\;\;\;\;\;\;\;\;\;{C_{4, }}\;\;\;\;\;\;0.94 \end{array} \right]. $ |
计算样本和各个故障模式的综合关联度,可得表 4.
| 表 4 综合关联度对比 Table 4 The comparison of comprehensive correlative degree |
由表 4可知,样本属于第3种故障即气缸喷油嘴工作异常,同时可以看到样本发动机的第二种故障模式的关联度为0.465,说明此样本也可能发生第二种故障,需进一步实验验证.
矩值距离法是通过比较待测样本和故障模式的距离来判断故障模式.上述的汽车发动机故障诊断模型的4个特征从不同的方面反映了发动机故障的特性.在固定的模式下各个特征是在一定的区间范围内变化,则取区间的均值可以代表这种故障的特点.经计算区间的均值点分别如表 5所示.
| 表 5 故障对应特征均值 Table 5 Characteristic means corresponding to different faults |
则待测样本和故障类型的距离定义为
| $ {\mathit{d}_i} = \sqrt {\sum\limits_{j = 1}^4 {{{\left( {{x_j} - {s_{ij}}} \right)}^2}} } , $ |
其中xj为待测样本,sij为不同模式对应的特征均值.
得到特测样本和4种故障的距离为
| $ {d_i} = \left\{ \begin{array}{l} 0.2062, \\ 0.1432, \\ 0.1020, \\ 0.3487. \end{array} \right. $ |
取di的最小值0.1020对应的故障类型,即为第3种故障.但观察di值可以发现第3和第2种距离值比较接近,这可能造成故障识别的不准确.
对比两种方法,虽然都是基于距离的故障诊断方法,但可拓学中的距离是基于矩和位值定义的点和经典域区间的距离.而基于矩值距离法则只是度量了点列和点列之间的欧氏距离.另一方面基于可拓学的故障诊断方法考虑了各个特征的权重,而基于矩的距离法则没有考虑这个因素.
3 基于可拓分类思想的故障预防可拓数据挖掘方法可以对故障模式进行判断并有针对性地进行维修.但如果可以把故障遏制在即将发生的状态,则可以大幅减少资源浪费,因此对故障的预防研究尤为重要.
3.1 基于可拓分类思想的故障预防原理可拓学的可拓分类思想不同于经典集合描述的确定性的分类,也不同于模糊集合描述的模糊性的分类.可拓分类描述的是事物的变化性.从而可以通过实施变换发现潜在的故障威胁,达到故障预防的目的.
设U为论域,u∈U,k是U到实数域I的一个映射,T=(Tu, Tk, Tu)是给定的变换,则
| $ \begin{array}{l} \;\;\;\;\;\;\;\tilde E\left( T \right) = \left\{ {\left( {u,y,y'} \right)\left| {u \in U,y = k\left( u \right)} \right.} \right. \in I;\\ \left. {{T_u}u \in {T_U}U,y' = {T_k}k\left( {{T_u}u} \right) \in I} \right\} \end{array} $ |
为论域U上的一个可拓集.
经典集与可拓集如图 1所示.和经典集相比可拓集多了经变换后的两个域.
|
图 2 经典集与可拓集 Figure 2 The classic set and extension set |
其中V~+为正可拓域,表示变换前不符合,但变换后符合要求的论域部分.V~-为负可拓域,表示变换前符合要求,但变换后不符合要求的论域部分.这种潜在的部分为故障的预防提供了一种思路.
在故障模式识别时,假定论域U为健康状态下对应的所有特征的状态值集合.经由某一变换,存在一个负可拓域V~-,其中的状态值对应的现存状态虽然是一个健康状态,但存在向故障状态转化的隐患.针对这种状态引入一个警戒值,即分析V~-中的状态值区间,确定出此区间内各个特征对应的特征值区间.当检测到状态值处于这个区间时,即采取措施有针对性地进行预防,以防止故障的发生[12].
3.2 故障预防实例验证在对汽车电喷发动机进行故障分析时,发现均速状态下,发动机转速处于1 000 r/min以下,冷却液在100 ℃以下时都可以正常工作.但实际上如果发动机转速和冷却液温度一直处在上限附近居高不下,就应该进行检查保养,避免出现故障.
记录多台发动机运行10 h相应的故障情况,结果如表 6所示.
| 表 6 故障测试结果 Table 6 Faults test results |
表 6中向量区间表示10 h内冷却液的最高温度在其区间内,时间代表处于对应的最高温度所持续的时间.1代表在横纵坐标条件下发生了故障,0代表未发生故障.由表 6可知若冷却液温度高于85℃时,发动机一定发生故障.在(80,85)温度区间内,若持续时间高于6 h,则也代表其发生了故障.在温度区间(80,85)内存在发生故障的风险,即为发生故障的负可拓域.定义区间(80,85)内的某个值为警戒值,当发动机长期处于此温度下时,则进行故障检验,预防故障的发生.
4 结语将可拓学数据挖掘技术应用于设备故障诊断,既能将问题定量化、形式化,又能解决大量的数据处理问题.采用粗糙集技术进行模型特征的属性约简,同时确定出各特征的权重值,保证了权值的客观性和稳定性.汽车发动机故障识别的实例验证了基于关联度故障诊断方法的有效性.最后对基于可拓分类思想的故障预防方法的探讨,为故障预防提供了一种思路.但由于数据可能存在的不稳定性,仅仅依靠统计学的方法确定模式的经典域,可能会导致计算有偏差,这也是今后要改进的一个方向.
| [1] |
邵晓非, 宁媛, 刘耀文, 等. 电力系统故障诊断方法综述与展望[J].
工业控制计算机, 2012, 12: 4-5.
Shao X F, Ning Y, Liu Y W, et al. Review and prospect of fault diagnosis in power system[J]. The Industrial Control Computer, 2012, 12: 4-5. |
| [2] |
Yang C Y, Cai W. Extenics: Theory, Method and Application[M]. Beijing: Science Press, 2013: 25-32.
|
| [3] |
杨春燕, 李卫华, 李小妹. 矛盾问题智能化处理的理论与方法研究进展[J].
广东工业大学学报, 2011, 28(1): 86-93.
Yang C Y, Li W H, Li X M. Recent research progress in theories and methods for the intelligent disposal of contradictorg problems[J]. Journal of Guangdong University of Technology, 2011, 28(1): 86-93. |
| [4] |
李兆飞. 振动故障分形特征提取及诊断方法研究[D]. 重庆: 重庆大学自动化学院, 2013.
http://cdmd.cnki.com.cn/Article/CDMD-10611-1013043718.htm
|
| [5] |
温树勇, 李卫华. 本体知识拓展分析树在可拓策略生成系统的应用[J].
智能系统学报, 2014, 12(3): 23-28.
Wen S Y, Li W H. Application of ontology knowledge expansion analysis tree in the extension strategy generation system[J]. CAAI Transanction on Intelligent System, 2014, 12(3): 23-28. |
| [6] |
谭宗凤. 基于粗糙集的权重确定方法研究[D]. 桂林: 广西师范大学计算机科学与信息工程学院, 2012.
http://cdmd.cnki.com.cn/Article/CDMD-10602-1012378048.htm
|
| [7] |
陈超, 陈性元, 汪永伟, 等. 基于粗糙集理论的冗余规则处理方法[J].
计算机工程与设计, 2014, 35(1): 21-27.
Chen C, Chen X Y, Wang Y W, et al. Processing method of redundant rules based on rough set theory[J]. Computer Engineering and Design, 2014, 35(1): 21-27. |
| [8] |
李辉. 基于粗糙集与模糊综合评价的供应商风险评价研究[D]. 武汉: 武汉科技大学管理学院, 2011.
http://cdmd.cnki.com.cn/article/cdmd-11915-1012267596.htm
|
| [9] |
杨春燕, 蔡文. 可拓集中关联函数的研究进展[J].
广东工业大学学报, 2012, 29(2): 7-14.
Yang C Y, Cai W. Recent research progress in dependent functions in extension sets[J]. Journal of Guangdong University of Technology, 2012, 29(2): 7-14. |
| [10] |
刘丽芳. 汽车发动机故障诊断系统[D]. 太原: 太原理工大学信息工程学院, 2012.
http://cdmd.cnki.com.cn/Article/CDMD-10112-1012380505.htm
|
| [11] |
杨帆, 葛金娟, 张彩丽. 基于主元分析的可拓诊断模型及其应用研究[J].
计算机测量与控制, 2009, 17(11): 2167-2169.
Yang F, Ge J J, Zhang C L. Research on component analysis based extensi on fault diagnose model and its application[J]. Computer Measurement and Control, 2009, 17(11): 2167-2169. |
| [12] |
赵燕伟, 苏楠.
可拓设计[M]. 北京: 科学出版社, 2010: 29-35.
|
2015, Vol. 32