2. 大连海事大学,辽宁 大连 116026
2. Dalian Maritime University, Dalian 116026, China
智能船舶已在航运业开始应用,但其发展仍处于初级阶段。作为航运大国,我国一直致力于推动智能船舶的发展。其中,实现船舶机械设备的实时状态评估对于智能船舶的发展至关重要,其可将传统的事后维护、定期维护模式转变为视情维护模式[1],既可避免船舶重大事故的发生,还可节省人力、物力以及时间。但由于船舶特殊性,实现机械设备的实时状态评估存在较多困难,如运行环境恶劣、故障种类多样、实际工程运行参数故障数据不易获得、数据结构非线性、数据种类多、数据量巨大以及噪声多等。
本文所采用的是核主成分分析法,在主成分分析法的基础上引入核函数,在保留主成分分析法能够有效获取输入数据的特征与结构、保留特征参数、去除冗余信息或不重要信息、降低计算复杂度[2]等优势的前提下,克服其无法准确处理非线性数据的劣势。同时,该方法基于过程中产生的正常运行数据即可建立状态评估模型,无需故障数据,非常适用于分析实际工程问题。作为一种特征提取方法,核主成分分析法被广泛运用于机械设备状态评估的原因,主要在于其降低数据维数和提取变量间相互关系的能力[3],且无需深入分析机械设备的结构和原理,但在船舶领域应用较少。孟程程等[4]提出利用核主成分分析方法对高炉冶炼过程中的故障进行检测,以适应高炉的非线性特征,实现对高炉故障的快速检测。武凯等[5]采用核主成分分析法对热连轧轧制过程中精轧机组相关数据进行监控,并对断带故障进行诊断。吴天昊等[6]提出将核主元分析法引入核电厂设备在线监测领域中,并设计了监测模型建设方法以及在线监测策略。荣智海等[7]提出了基于核主成分分析模型的在线油色谱装置异常状态快速识别方法,根据Hotelling-T2及Squared Prediction Error统计量快速识别异常数据,结合数据特征即可实现在线监测装置工作状态的快速辨识。石新发等[8]应用核主成分理论对以上油样原子发射光谱数据和直读铁谱数据进行特征提取,使原始信息从8维压缩至2维,建立了特征信息描述模型。孙宜权等[9]利用核主成分分析方法获得特征子集的主分量,选用极限学习机对主分量特征样本进行分类和测试,可有效地消除冗余信息,提高识别精度。
基于核主成分分析法的特征,将其应用于船舶机械设备的状态评估,以中央冷却器为例,利用正常运行数据建立核主成分评估模型,对异常运行数据进行分析评估。同时,将核主成分分析法与主成分分析法的评估结果进行对比,全面验证核主成分分析法用于实际工程中船舶机械设备状态评估的有效性。
1 核主成分分析法核主成分分析法由核函数和主成分分析法结合而来,是一种非线性主成分分析法,能有效消除数据之间的冗余和空间相关性,提取包含主要数据信息的非线性特征主成分[10]。其主要思想是利用核函数将非线性的原始空间投射至高维特征空间,原始空间数据的非线性结构在投影后的高维特征空间被转变为线性结构,在高维特征空间中采用主成分分析法寻找原始数据方差变化最大的投影方向,实现对高维特征空间中线性数据集的降维选取,最终选取出具有主要数据信息的特征集合。通过核映射变换的方法实现了对原始空间和高维特征空间的非线性映射,增强了非线性数据的处理能力[11]。该方法引入核函数,在保留常规主成分分析法优势的同时,克服了其无法准确处理非线性数据的劣势,更加适合用于实际工程问题的分析。
主成分分析法是多元统计中一个典型的特征提取方法,其基本思想是将高维数据空间通过线性变换投影到低维数据空间。在变换过程中,系统总方差不变,但重新分布。变换后空间中第一成分表示高维数据变动的总规模,而其余各成分则表示高维数据内部各方面的特征[12]。较大方差对应的成分基本描述了整个高维数据的特征与结构,即所谓的主成分。较小方差对应的成分通常为噪声信息,无法反映样本分类本质。每一主成分均能反映原始高维数据的大部分信息,且所含信息互不重复,克服了传统特征选择方法中,只单纯删除原始数据某些维数所带来的信息量不全的缺陷[13]。
设X是一个由不同样本的变量观测值组成的数据矩阵,它有n行m列,n行代表样本,m列代表变量。数据矩阵X能分解为m个向量的外积之和,即:
$ \boldsymbol{X}=\boldsymbol{t}_1\boldsymbol{p}_1^{\mathrm{T}}+\boldsymbol{t}_2\boldsymbol{p}_2^{\mathrm{T}}+\cdots+\boldsymbol{t}_m\boldsymbol{p}_m^{\mathrm{T}}=\boldsymbol{T}\boldsymbol{P}^{\mathrm{T}}。$ | (1) |
其中,Tn×m=[t1 t2···tm]是得分向量ti(n×1)组成的得分矩阵,ti由大到小排列。Pm×m=[p1 p2···pm]是负载向量pi(m×1)组成的负载矩阵,且各负载向量pi之间相互正交,模为单位1。将式(1)两边同时右乘pi,即可得到:
$ {\boldsymbol{X}}{{\boldsymbol{p}}_i} = {{\boldsymbol{t}}_1}{\boldsymbol{p}}_1^{\mathrm{T}}{{\boldsymbol{p}}_i} + {{\boldsymbol{t}}_2}{\boldsymbol{p}}_2^{\mathrm{T}}{{\boldsymbol{p}}_i} + \cdots + {{\boldsymbol{t}}_m}{\boldsymbol{p}}_m^{\mathrm{T}}{{\boldsymbol{p}}_i} \Rightarrow {\boldsymbol{X}}{{\boldsymbol{p}}_i} = {{\boldsymbol{t}}_i} 。$ | (2) |
其中,ti和pi为变换后空间中某一维度,pi为该维度的方向,即数据X变化的方向,ti为原始数据pi方向上覆盖程度。X的变化将主要体现在p1, p2 ··· pk等排列靠前的负载向量方向上,在pk+1 ··· pm(k远小于m)等排列靠后的负载向量方向上的投影会很小,通常是由测量噪声和模型误差因素的干扰引起的[14]。数据矩阵X可写成下列形式:
$ \boldsymbol{X}=\boldsymbol{X}_Z+\boldsymbol{E},$ | (3) |
$ \boldsymbol{X}_{\text{Z}}=\sum\limits_{i=1}^k\boldsymbol{t}_i\boldsymbol{p}_i^{\mathrm{T}},$ | (4) |
$ \boldsymbol{E}=\sum\limits_{i=k+1}^m\boldsymbol{t}_i\boldsymbol{p}_i^{\mathrm{T}}。$ | (5) |
其中,XZ为主成分矩阵,也叫主成分空间;E为残差矩阵,也叫残差空间。
基于以上原理,对原始数据X的协方差矩阵S进行特征值分解,得到矩阵的特征值和特征向量(即负载向量),进而求得得分矩阵,以及主成分空间和残差空间,即可构建评估模型进行分析评估。
为能够适用于非线性数据,引入核函数k,将原始数据X映射到高维特征空间,即x→φ(x)。核函数技术的核心在于通过引入适当的核函数,把非线性变化后目标数据在高维特征空间中的内积运算转变为原始输入空间核函数的计算,即通过式(6)来实现的。
$ \left\langle\varphi(\boldsymbol{x}_i),\varphi(\boldsymbol{x}_j)\right\rangle=\varphi(\boldsymbol{x}_i)^{\mathrm{T}}\cdot\varphi(\boldsymbol{x}_j)=k(\boldsymbol{x}_i,\boldsymbol{x}_j)。$ | (6) |
式中:i、j为数据序号。
该升维过程,只改变内积运算方式,算法的计算复杂性未增加,而且高维特征空间中算法的推广能力也不受影响。由于过程计算仅涉及到高维特征空间中样本点的内积,而该内积可以通过核函数的计算得到[15],因此具体的映射形式并不需要知道,整个过程计算量减小,避免“维数灾难”。
在高维特征空间F中,原始数据的协方差矩阵SF为:
$ \boldsymbol{S}_{\mathrm{\mathit{F}}}=\frac{1}{n}\sum\limits_{i=1}^n\varphi\left(\boldsymbol{x}_i\right)\varphi\left(\boldsymbol{x}_i\right)\mathrm{^{_T}}。$ | (7) |
对应的特征方程如下:
$ \lambda {p_{{F}}} = {S_{{F}}}{p_{{F}}} 。$ | (8) |
式中,特征值λ≥0,且pF为λ对应的特征向量。
根据再生核理论[16],对于任意λ≠0的特征向量pF,存在系数αi(i=1,2,...,n)使其表示如下:
$ \boldsymbol{p}_F=\sum\limits_{i=1}^n\alpha_i\varphi(\boldsymbol{x}_i)。$ | (9) |
定义核函数矩阵K:
$ \boldsymbol{K}_{ij}=\left\langle\varphi(\boldsymbol{x}_i),\varphi(\boldsymbol{x}_j)\right\rangle。$ | (10) |
式中:i、j为数据序号。
通常在实际应用中,特征空间内的输入数据不满足零均值的要求,需对核矩阵中心化修正处理,具体如下:
$ \mathop {\boldsymbol{K}}\limits^ - = {\boldsymbol{K}} - {{\boldsymbol{I}}_n}{\boldsymbol{K}} - {\boldsymbol{K}}{{\boldsymbol{I}}_n} + {{\boldsymbol{I}}_n}{\boldsymbol{K}}{{\boldsymbol{I}}_n} 。$ | (11) |
式中,In为系数1/n的n×n单位矩阵。
将式(8)两边乘以φ(x),代入式(9),可得:
$ n\lambda \alpha = \mathop {\boldsymbol{K}}\limits^ - \alpha 。$ | (12) |
求解式(12)即可得到高维特征空间内核矩阵的特征值λ和特征向量α(由αi构成的列向量)。
原始数据在高维特征空间中的第k个得分向量记为tk,pk是tk对应的特征向量且模为1,tk表示为:
$ {{\boldsymbol{t}}_k} = {{\boldsymbol{p}}_k} \cdot \phi (x) = \sum\limits_{i = 1}^n {\alpha _i^k} k({\boldsymbol{x}},{{\boldsymbol{x}}_i}) 。$ | (13) |
式中:αik为核矩阵
主成分个数d的确定需综合考虑2个方面,原始数据信息包含量和分析计算量。主成分太少,包含原始数据的信息不够多,评估模型不全面;主成分过多,数据量过大,计算量过大,且易包含无效信息,提升分析的计算量和复杂性,评估模型不准确。通常是利用主成分累计贡献率(Cumulative Percent Variance, CPV)确定主成分的个数,即当成分累计贡献率达到85%以上,可认为特征值所对应的主成分已包含了原始数据中足够多的信息。主成分累计贡献率CPV计算如下:
$ {\text{CPV}} = {{\displaystyle\sum\limits_{{{i}} = 1}^{{d}} {{\lambda _{{i}}}} }}\;\bigg/\;{{\displaystyle\sum\limits_{{{i}} = 1}^{{n}} {{\lambda _{{i}}}} }}。$ | (14) |
式中:λi为原始数据的协方差矩阵SF的特征值,由大到小排序。
至此,主成分空间和残差空间均已确定,即核主成分评估模型确定。
对于核主成分分析的状态分析评估,通常使用霍特林统计量(Hotelling’s T2)和平方预测误差(Squared Prediction Error,SPE)作为评判指标。
T2为数据在主成分空间的投影,反映数据在主成分空间中偏离正常的程度。
$ {{{T}}^2} = {\boldsymbol{t}}{\Lambda ^{ - 1}}{{\boldsymbol{t}}^{\mathrm{T}}} 。$ | (15) |
t为主成分的得分矩阵,由式(13)得到。Λ为主成分对应特征值构成的对角阵。
当T2过大时,表示运行过程出现异常。评估指标T2上限为:
$ T_{{\mathrm{max}}}^2 = \frac{{d\left( {{{n}} - 1} \right)}}{{{{n}}\left( {{{n}} - {{d}}} \right)}}{F_{{{d}},{{n}} - {{d}},\; \beta }}。$ | (16) |
式中:n为原始数据的个数;d为主成分个数;F对应于检验水平为β,自由度为(d,n-d)条件下F分布的临界值。
SPE表示数据在残差空间的投影,反映数据在残差空间中偏离正常的程度。
$ {{SPE}} = \sum\limits_{i = 1}^n {{t_i}^2} - \sum\limits_{i = 1}^d {{t_i}^2} 。$ | (17) |
当SPE过大时,表示运行过程出现异常。评估指标SPE上限为:
$ {{SPE}_{{\mathrm{max}}}} = g\chi _{{{h}},\theta }^2 。$ | (18) |
式中:g=b/2a为加权参数;χ2h,θ表示置信度为θ,自由度为h的卡方分布,h=2a2/b为自由度,且a为正常工况下SPE的均值,b为正常工况下SPE的方差[17]。
状态评估分为3种情况:
1)T2和SPE均超过上限,代表异常工况;
2)T2和SPE其中一个参数超过上限,代表可能存在异常;
3)T2和SPE均未超过上限,代表正常工况。
2 船舶中央冷却器状态评估中央冷却水系统是船舶重要系统,其中关键设备之一中央冷却器与海水直接接触,受环境影响较大,易发生故障,如污垢沉积、泄漏、堵塞、腐蚀等。本文选择中央冷却器作为研究对象,分别利用主成分分析法和核主成分分析法对其运行状态进行评估,通过评估结果的分析和对比,验证核主成分分析法的有效性。
某实验室中央冷却水系统的温度传感器、压力传感器记录某段运行时间中央冷却器的8个参数,包括高温海水和低温海水的进出口温度以及进出口压力,共50组数据,数据序号记为1~50,参数范围如表1所示。参数采集期间,中央冷却水系统所有设备运行正常,且工况稳定,中央冷却器在该运行时间能够满足系统散热需求,属于正常运行数据,可作为训练数据建立评估模型。
![]() |
表 1 正常数据 Tab.1 Normal data |
以上述数据为基础,形成训练数据集,列代表8个监测参数,行代表某一时刻采集的数据。对训练数据集进行z-score标准化预处理以消除不同量纲的影响,采用主成分分析法和以高斯核(核参数σ分别为10,30,50)为核函数的核主成分分析法,计算得到正常数据的T2和SPE,以及T2max和SPEmax,具体如图1和图2所示。
![]() |
图 1 基于主成分分析法的T2max、SPEmax、T2正常数据和SPE正常数据 Fig. 1 T2max、SPEmax、T2normal data and SPEnormal data based on principal component analysis |
![]() |
图 2 基于核主成分分析法的T2max、SPEmax、T2正常数据和SPE正常数据 Fig. 2 T2max、SPEmax、T2normal data and SPEnormal data based on kernel principal component analysis |
保持热源不变,在中央冷却系统运行较长时间后,由于中央冷却器低温侧直接接触外部海水,换热板之间逐渐积垢,对其进出口的温度、压力都造成一定影响,在该时间段定期记录中央冷却器8个参数的20组数据,数据序号记为51~70,记为异常数据,如表2所示。
![]() |
表 2 异常数据 Tab.2 Abnormal data |
对异常数据集进行z-score标准化预处理以消除不同量纲的影响,采用主成分分析法和以高斯核(核参数σ为30)为核函数的核主成分分析法,计算得到异常数据的T2和SPE,具体如图3和图4所示。
![]() |
图 3 基于主成分分析法的T2异常数据 Fig. 3 T2abnormal data based on principal component analysis |
![]() |
图 4 基于核主成分分析法的T2异常数据 Fig. 4 T2abnorma data based on kernel principal component analysis |
从图1可知,采用主成分分析法,基于正常数据建立的T2max和SPEmax几乎全部大于T2正常数据和SPE正常数据,即评估模型能准确识别中央冷却器的正常运行状态。
从图2可知,采用核主成分分析法,基于正常数据建立的T2max和SPEmax几乎全部大于T2正常数据和SPE正常数据,即评估模型能准确地识别中央冷却器的正常运行状态。但主成分分析和核主成分分析法相比较,在SPE正常数据超出SPEmax的个数方面,主成分分析法多于核主成分分析法,即在准确率上,核主成分分析法优于主成分分析法。
从图3可知,采用主成分分析法,计算得到的T2异常数据全部远低于T2max,少部分SPE异常数据高于SPEmax,说明主成分分析法无法正确识别出异常数据。
从图4可知,采用核主成分分析法,当核参数较小时,全部T2异常数据低于T2max,少部分SPE异常数据高于SPEmax,说明核主成分分析法无法正确识别部分异常数据;当核参数大于30,全部T2异常数据高于T2max,全部SPE异常数据高于SPEmax,说明核主成分分析法能够正确识别全部异常数据。
从图4(b)可以看出,在数据变化初始阶段,T2异常数据和SPE异常数据变化速率和变化幅度都较大,说明评估模型对异常所造成的变化非常敏感,这对于突发性故障的早期发现与识别具有重要意义。且随着数据的不断变化,T2异常数据和SPE异常数据的变化呈现倒V字型,具有明显的辨识度。
对于上述采集的数据,适当核参数的核主成分分析法在准确率方面优于主成分分析法,评估准确率统计如表3所示。
![]() |
表 3 评估准确率 Tab.3 Assessment accuracy |
为直观地看出核主成分分析法的有效性,对核主成分分析中正常数据、故障数据在特征空间中部分主成分上的分布进行展示。当核参数为30时,经核主成分分析法分析计算后,在特征空间中共有5个主成分,即原始数据在特征空间中变化最大的5个方向,正常数据、故障数据在部分主成分上的分布情况如图5所示。
![]() |
图 5 类别空间的数据分布 Fig. 5 Data distribution in category space |
可知:
1)正常数据呈球状分布,对应图2(b)中T2正常数据小于T2max,SPE正常数据小于SPEmax,且上下波动浮动较小;
2)异常数据远离正常数据所在球状区域,对应图4(b)中T2异常数据大于T2正常数据以及T2max,SPE异常数据大于SPE正常数据以及SPEmax。
3)异常数据呈条状U字型分布,对应图4(b)中T2异常数据、SPE异常数据的倒V字型分布。
基于上述分析评估及对比,在适当的核函数及核参数下,核主成分分析法能够实现非线性结构的正常数据与异常数据的分类,完成中央冷却器的状态评估,且评估结果准确率高,证明了该方法在实际工程应用的有效性。
3 结 语本文以中央冷却水系统的中央冷却器为研究对象,分别采用主成分分析法和以高斯核为核函数的核主成分分析法,利用正常运行数据建立评估模型,并用异常运行数据验证其有效性。评估结果表明,在合适的核参数下,核主成分分析法能够快速有效地区分非线性结构的正常运行数据和异常运行数据,即有效识别中央冷却器的正常工况和异常工况,其准确率优于主成分分析法,且其倒V字型的评估输出特性辨识度高,对微小故障较为敏感,非常适合用于突发性故障的早期识别,具有一定实际工程应用价值。
[1] |
吴小豪, 张跃文, 孙培廷, 等. 基于超球支持向量机的船舶高温淡水系统状态评估[J]. 船舶工程, 2017, 39(2): 49-52+93. WU X H, ZHANG Y W, SUN P T. State evaluation of ship high-temperature fresh water system based on hypersphere support vector machine[J]. Ship Enmineering, 2017, 39(2): 49-52+93. DOI:10.13788/j.cnki.cbgc.2017.02.049 |
[2] |
鲍中新, 文成林, 马雪. 一种基于数据变化率的预处理及主元分析故障诊断方法[J]. 电子学报, 2021, 49(11): 2234-2240. BAO Z H, WEN C L, MA X. Data preprocessing and PCA fault diagnosis method based on rate of change transformation[J]. Acta Electronica Sinica, 2021, 49(11): 2234-2240. DOI:10.12263/DZXB.20201225 |
[3] |
高亚娟. 基于全矢主成分分析的故障预测方法研究[D]. 郑州: 郑州大学, 2018.
|
[4] |
孟程程, 曾九孙, 李文军. 核主成分分析的高炉故障检测研究[J]. 中国计量学院学报, 2012, 23(4): 332-337. MENG C C, ZENG J S, LI W J. Blast furnace fault detection based on KPCA[J]. Journal of China University of Metrology, 2012, 23(4): 332-337. |
[5] |
武凯, 孙彦广, 张琳. 基于核主成分分析的热连轧断带故障诊断[J]. 中国冶金, 2020, 30(11): 60-65. WU K, SUN Y G, ZHANG L. Fault diagnosis of strip breaking in hot strip rolling based on kernel principal component analysis[J]. China Metallurgy, 2020, 30(11): 60-65. DOI:10.13228/j.boyuan.issn1006-9356.20200195 |
[6] |
吴天昊, 刘韬, 施海宁, 等. 基于核主元分析法的核电厂设备状态监测技术研究[J]. 核动力工程, 2020, 41(5): 132-137. WU T H, LIU T, SHI H N. Research on condition monitoring technology for nuclear power plant equipment based on kernel principal component analysis[J]. Nuclear Power Engineering, 2020, 41(5): 132-137. DOI:10.13832/j.jnpe.2020.05.0132 |
[7] |
荣智海, 齐波, 张鹏, 等. 基于核主成分分析的油色谱在线监测装置异常状态快速辨识[J]. 高电压技术, 2019, 45(10): 3308-3316. RONG Z H, QI B, ZHANG P, et al. Fast identification of abnormal state based on kernel principal component analysis for oil chromatography analysis on-line monitoring Device[J]. High Voltage Engineering, 2019, 45(10): 3308-3316. DOI:10.13336/j.1003-6520.hve.20190624006 |
[8] |
石新发, 贺石中, 谢小鹏, 等. 基于核主成分的船舶柴油机磨损信息特征提取方法研究[J]. 武汉理工大学学报(交通科学与工程版), 2022, 46(6): 1039-1043. SHI X F, HE S Z, XIE X P, et al. Research on feature extraction method of marine diesel engine wear information based on kernel principal component[J]. Journal of Wuhan University of Technology(Transportation Science & Engineering), 2022, 46(6): 1039-1043. |
[9] |
孙宜权, 张英堂, 李志宁, 等. 基于核主成分分析的柴油机技术状态评估[J]. 车用发动机, 2012(2): 89-92. SUN Y Q, ZHANG Y T, LI Z N, et al. Evaluation of diesel engine technical state based on KPCA[J]. Vehicle Engine, 2012(2): 89-92. DOI:10.3969/j.issn.1001-2222.2012.02.020 |
[10] |
张珂, 宋文丽, 石怀涛, 等. 基于改进核主元分析的故障检测方法研究[J]. 控制工程, 2017, 24(2): 418-424. ZHANG K, SONG W L, SHI H T, et al. Fault detection based on improved kernel principal component analysis[J]. Control Engineering of China, 2017, 24(2): 418-424. DOI:10.14107/j.cnki.kzgc.150512 |
[11] |
张小龙. 基于改进核主成分分析的航空液压管路-卡箍故障诊断研究[D]. 鞍山: 辽宁科技大学, 2023.
|
[12] |
高明. 基于主成分分析的综合评价研究及其应用[D]. 天津: 南开大学, 2006
|
[13] |
李智. 基于主元分析的故障诊断方法研究及应用[D]. 沈阳: 东北大学, 2012.
|
[14] |
董佳. 基于主元分析的多故障状态监测与诊断方法研究[D]. 沈阳: 东北大学, 2013.
|
[15] |
吴小豪. 基于超球支持向量机的船舶高温淡水系统状态评估[D]. 大连: 大连海事大学, 2017.
|
[16] |
邓乃扬, 田英杰. 支持向量机理论、算法与拓展[M]. 北京: 科学出版社, 2009.
|
[17] |
李贺. 基于核主元分析的风电机组变桨距系统故障诊断研究[D]. 沈阳: 沈阳工业大学, 2017.
|