2. 中船黄埔文冲船舶有限公司,广东 广州 510000
2. CSSC Huangpu Wenchong Shipbuilding Co., Ltd, Guangzhou 510000, China
永磁同步推进电机作为一种新型的电机,相对传统的同步电机长度和体积降低了40%,且因其具有高效率、高功率密度等优点,使得永磁同步电机的应用愈加广泛。电机在运行过程中一旦发生故障,会对设备的生产、安全等造成不同程度的影响,并产生难以估计的损失,因此开展其故障诊断研究工作具有重大意义[1]。永磁电机振动信号中蕴含大量特征信息,利用振动信号对电机进行故障诊断是目前的研究热点。
由于永磁电机运行环境包含诸多复杂多变的因素,采集到的振动信号往往是复杂的非周期、非线性信号,其信号随机性大,幅值波动性强,特征提取困难。对此近年来关于电机的特征提取与故障诊断已有较多研究,常用的方法可分为时域法[2]、频域法[3]及时频域法[4]。其中基于时域特征的故障诊断方法多利用智能化的方式来实现。Xu Tongle等[5]提出了一种基于局部均值分解(local mean decomposition,LMD)形态学滤波和最小二乘支持向量机(least square support vector machine,LS-SVM)的旋转机械故障诊断方法,对振动信号混合降噪,再用LMD分解得到的能量比特征作为故障特征,实现了轴承的故障诊断;陈勇等[6]用定子电流信号和振动信号的频谱特征融合作为匝间短路故障判断依据,结合改进小波包变换算法与快速傅里叶变换,实现了永磁电机匝间短路的故障检测;黄文静[7]提取原始信号的时域特征参数均值、标准差、峭度、偏度、样本熵,经LMD分解得到的能量特征来表征其轴承真实运行状态,用粒子群优化的BP神经网络得到了较好的诊断效果。尽管以上方法都取得了不错的诊断结果,但是并没有分析不同特征信息之间相互影响的作用,难免会丧失特征的部分信息,对故障分类会造成一定影响。较少的特征参数涵盖信息较少,较多的特征参数会增加诊断难度,选取合适的特征参数及从不同角度利用时域数据对特征进行提取是研究难点。实际工程中,故障信号的时域特征随着电机运行状态而变化。不同的故障类型、不同故障深度下的时域特征会有所重叠,会对分类精度产生影响[8]。
针对以上电机振动信号非周期、非线性、特征提取复杂且困难的问题,本文提出了一种主成分分析与随机森林的永磁电机故障诊断方法。首先采集了永磁电机原始时域振动位移信号,再将原始时域信号以15个转速周期分成若干段,分别提取每段共13个时域特征和数学统计特征,然后引入主成分分析法对特征信号进行降维去噪,最后将提取后的二维特征信号使用随机森林进行故障分类。
1 诊断模型理论基础 1.1 主成分分析法在用统计方法研究多变量问题时,变量个数太多会增加算法运算的复杂性。在很多情形,变量之间有一定的相关关系,当2个变量之间有一定相关关系时,可以解释为这2个变量之间具有重叠信息。为了解决该问题,设法将原来变量重新组合成一组新的互相无关的几个综合变量。引入主成分分析法(PCA)对信息进行处理,核心思想是将高维相关联系的特征减为少数不关联特征,同时尽可能多地反映原来的信息[9]。本文引入PCA方法对提取的13组特征数据进行降维去噪,具体方法如下。
假设输入的数组有m个特征,共有n组数据,输出得到二维的拓扑结构,输出的神经元个数为j,具体的向量过程如下。
1) 输入(n,m)特征矩阵。
$ {{\boldsymbol{X}}^{(0)}} = (x_{ij}^{(0)}) = \left( {\begin{array}{*{20}{c}} {x_{11}^{(0)}}&{x_{12}^{(0)}}& \cdots &{x_{1m}^{(0)}} \\ {x_{21}^{(0)}}&{x_{22}^{(0)}}&{}&{x_{2m}^{(0)}} \\ \vdots & \vdots & \cdots & \vdots \\ {x_{n1}^{(0)}}&{x_{n2}^{(0)}}& \cdots &{x_{nm}^{(0)}} \end{array}} \right) $ |
式中样本特征
2) 相关性分析。
$ \rho {\text{ = }}\dfrac{{\displaystyle\sum\limits_{i = 1}^n ( x_{ij}^{(0)} - \dfrac{1}{n}\displaystyle\sum\limits_{i = 1}^n {x_{ij}^{(0)})(x_{ij + \tau }^{(0)} - \dfrac{1}{n}\displaystyle\sum\limits_{i = 1}^n {x_{ij + \tau }^{(0)})} } }}{{\sqrt {\displaystyle\sum\limits_{i = 1}^n {(x_{ij}^{(0)} - \dfrac{1}{n}\displaystyle\sum\limits_{i = 1}^n {x_{ij}^{(0)}{)^2}} } } \sqrt {\displaystyle\sum\limits_{i = 1}^n {(x_{ij + \tau }^{(0)} - \dfrac{1}{n}\displaystyle\sum\limits_{i = 1}^n {x_{ij + \tau }^{(0)}{)^2}} } } }} $ |
式中
3) 标准化数据。
$ x_{ij}^{(1)} = \dfrac{{nx_{ij}^{(0)} - \displaystyle\sum\limits_{i = 0}^n {x_{ij}^{(0)}} }}{{\sqrt {\dfrac{1}{{n - 1}}\displaystyle\sum\limits_{i = 1}^n {{{(nx_{ij}^{(0)} - \displaystyle\sum\limits_{i = 1}^n {x_{ij}^{(0)}} )}^2}} } }} $ | (1) |
式中
4) 归一化处理。
$ {{\boldsymbol{X}}^{(1)}} = (x_{ij}^{(1)}) = \left( {\begin{array}{*{20}{c}} {x_{11}^{(1)}}&{x_{12}^{(1)}}& \cdots &{x_{1m}^{(1)}} \\ {x_{21}^{(1)}}&{x_{22}^{(1)}}& \cdots &{x_{2m}^{(1)}} \\ \vdots & \vdots & \cdots & \vdots \\ {x_{n1}^{(1)}}&{x_{n2}^{(1)}}& \cdots &{x_{nm}^{(1)}} \end{array}} \right) $ |
式中n和m是式(1)中标准化后的数据样本对应的维度。
5)求协方差矩阵。
$ {\boldsymbol{S}} = \frac{1}{{n - 1}}{{\boldsymbol{X}}^{(1)}}{{\boldsymbol{X}}^{(1)}}^{\text{T}} $ | (2) |
式中
6) 主成分计算。
$ {Z_k} = {({{\boldsymbol{u}}_k})^{\text{T}}}{{\boldsymbol{X}}^{(1)}} $ |
$ {v_k} = \frac{{{\lambda _k}}}{{\displaystyle\sum\limits_{k = 1}^m {{\lambda _k}} }} $ |
式中:
用方差Dvar来表示该成分所含信息的多少。在所有的线性组合中选取的F1方差最大,故称F1为第一主成分。如果第一主成分不足以代表原来特征的信息,再考虑选取F2即选第二个线性组合。为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分。依此类推可以构造出第三、第四,……,第Q个主成分[10]。通常用方差贡献率来表示各主成分的方差值占总方差值的比例,一般方差贡献率超过90%就代表该成分足以涵盖特征的大量信息。
1.2 随机森林模型随机森林算法是由Leo Breiman 和 Adele Cutle等提出[11-12]的,它结合了Breimans 的 Bootstrap aggregating和Tin Kam Ho的random decision forests方法,是一种由多棵决策树组成的集成分类器。由于随机森林算法的强抗噪能力,且能评估各个特征在分类问题上的重要性,常用于密码学[13]、生物信息学[14]、生态学[15]等领域。本文用随机森林算法来处理电机运行过程中振动信号的随机性强、噪音大等问题。
随机森林由多个决策树组成,每个决策树是一个树结构。其中每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个阈值上的输出,而每个节点存放一个类别。决策树一般模型如图1所示。
![]() |
Download:
|
图 1 决策图一般模型 |
随机森林是决策树基础上的衍生,首先输入数据集
1)从训练集样本中有放回地随机选取N个样本作为训练子集,且此训练子集约为原始训练集的三分之二[17],以此来训练一个决策树,作为决策树根节点处的样本。
2)若每个样本中含有U个属性,决策树的每个节点需要进行分裂时,随机的从这U个属性中选取出u个属性,且定义满足条件远小于U,防止局部最优。然后从这u个属性中采用某种策略来选择一个属性作为该节点的分裂属性。
3)决策树的形成过程中每个节点都按照步骤2)来分裂,直到不能分裂为止,且决策树形成过程没有剪枝。
![]() |
Download:
|
图 2 随机森林流程 |
每棵决策树都会产生一个决策,多棵决策树则会产生多个决策,被投票数最多的决策作为最终诊断结果。
2 实验介绍本文所用船舶电力推进系统永磁电机振动信号相关数据样本均出于推进电机性能综合实验室,实验台架如图3所示。
![]() |
Download:
|
图 3 实验台架 |
该永磁电机采用的是众联能创T系列电机,TZ205XS70K01型船用电动机和传感器相关参数如下:额定电压,DC350 V;输入电压,DC240~420 V;额定转速,3000 r/min;额定功率,55 kW;效率(额定功率时),大于等于95%;过载能力1,110%额定电流( T ≤60 s);过载能力2,150%额定电流( T ≤10 s);防护等级,IP44;冷却方式,水冷;旋向,逆时针;控制方向,矢量控制;体积,365×305×232 m3;流量,8~12 L/min;净质量,70 kg;传感器类型,压电式传感器;采样频率,20 kHz。现以20 kHz采集电机的一维振动信号,设置4种工况如下:G1为正常工况;G2为转子偏心;G3为定子短路;G4为轴承内圈故障。采用Matlab软件绘制时间与振动位移的关系如图4~7所示。通过实验台提取正常工况1000000个数据,转子偏心800000个数据,定子短路800000个数据,轴承内圈故障700000个数据。可见时域信号并无明显规律,无法直观地辨识正常工况和故障工况,需要通过智能算法进行辨识。
![]() |
Download:
|
图 4 正常工况 |
![]() |
Download:
|
图 5 转子偏心 |
![]() |
Download:
|
图 6 定子短路 |
![]() |
Download:
|
图 7 轴承内圈故障 |
由于电机运行环境复杂,且提取的振动信号的数据量大,且没有明显的周期性,难以进行常规诊断。对此运用PCA-RF方法对电机以时间序列运用数学处理方法进行特征提取、降维,进而进行故障诊断,基本流程如图8所示。
![]() |
Download:
|
图 8 PCA-RF流程 |
1)数据分段。电机额定转速为3000 r/min,采样频率为20 kHz,视每转为一个周期,每周期包含400个数据样本。为选择合适的时间长度来表征每段时域信息的特征,避免小周期信号波动的随机性,故选取15个周期作为1个数据样本。时域中的时间顺序将每6000个数据作为一个时间窗口,故正常工况数据中150段数据样本,共6000×150个数据;转子偏心含120段,共6000×120个数据;定子短路含120段,共6000×120个数据;轴承内圈含100段,共6000×100个数据。
2)特征提取。提取每6000个数据中的典型时域特征参数包括最大值(Pmax)、最小值(Pmin)、方差(Pvar)、标准差(Pstd)、均值(Pmean)、峰度(Pkurtosis)、偏度(Pskew);数学统计特征包括每6000个数据中前5%分位的数值(P5%)、前95%分位的数值(P95%)、前99%分位的数值(P99%)、中位数(Pmedian)、总数之和(Psum)、绝对值之和(Pabs_sum)、典型时域特征参数和数学统计特征共累计13个特征参数。
3)特征降维。将每段时域特征数据利用PCA降维去噪,将13个特征数据降为含有高度组合信息的2个主成分。
4)随机森林诊断。将PCA处理的2个主成分作为二维输入特征,实现了对数据的降维去噪,大大减少了算法诊断的复杂性。将二维数据引入随机森林模型,随机产生20%的测试集得出诊断结果。
3.1 数据分段电机运行包括正常工况、转子偏心、定子短路、轴承内圈故障共4个工况,以每6000个采样数据为时间窗口(490,6000)的数据矩阵,这490行数据的前150行为正常工况数据,命名为标签0,后续的120行、120行和100行分别为标签1、标签2和标签3,分别对应转子偏心、定子短路和轴承内圈故障等3种故障。取每种工况的首行数据如表1所示。
![]() |
表 1 原始数据矩阵 |
将原始一维数据以时间分段之后,形成490行、6000列时间矩阵,并以每行数据进行特征提取,与文献[18-19]有所不同,前人所做的研究更多的是将典型时域特征进行特征提取,本文将典型时域特征参数和数学统计特征参数作为PCA的降维去噪特征参数,把一维振动信号当作大量数字,从数学统计层面对数据进行信息挖掘,从而对数据进行更有效地特征提取。一维振动信号的数据共13个统计特征,组成(490,13) 的特征矩阵,列举正常工况下的前5行的特征数据,如表2所示。
由表2可见,正常工况下,即使是不同时间窗口下同种特征参数的数据差异也很小。可见选取涵盖了15个转速周期的数据样本,避免了只提取小周期信号波动对特征提取造成的影响,为故障模型的诊断降低了难度。
![]() |
表 2 特征矩阵部分数据 |
PCA方法经常用于基础数学的统计分析,对于以上13个时域特征和数学统计特征有很好的降维去噪作用。将13个数学统计特征进行主成分分析,得到第一成分方差贡献率(指各主成分的方差值占总方差值的比例)约为99.6%,第二成分方差贡献率约0.4%。一般认为第一主成分的方差贡献率超过90%,则经过降维去噪处理后的第一成分就可以涵盖大量信息。
将4种工况特征可视化,其特征为无量纲量,二维分类散点图如图9所示。可见经过PCA处理的特征具有明显区分度,为后面的诊断模型提供了可靠数据。
![]() |
Download:
|
图 9 4种特征可视化 |
将主成分分析后降维去噪的2个主成分作为含有大量信息的特征引入随机森林模型。其中构建的决策树个数为50个,4种工况下共490个故障类型,随机选取其中20%(98个类别)作为测试集。表3为输出分类器的混合矩阵。
![]() |
表 3 分类器输出的混合矩阵 |
由输出的混合矩阵可见故障得到了较准确分类,本案例中诊断精度高达98.97%。可以看出,本文运用PCA-RF方法对永磁电机的故障诊断有很高的诊断精度。
4.1 不同特征数量下的模型精度分析13个统计特征同时引用时可达到98.97%的准确率。为探寻特征提取个数以及数学统计特征对诊断精度的影响,只取7个典型时域特征进行降维带入随机森林模型,诊断精度为86.7%。将剩下的6个数学统计特征依次加入,诊断精度分别为88.7%、89.7%、93.8%、96.9%、97.9%和98.97%。
经分析可知,在常规时域特征不能很好地涵盖信息特征时,加入几个数学统计特征可以有效提高PCA-RF的诊断精度。因为主成分分析法本质上是一种数学统计方法,对数学统计特征参数有很好的识别作用,加入数学统计特征可从最大程度上保留原始信号的有效信息,以此全面反应电机的运行状态。
4.2 不同传统诊断方法的对比传统机器学习诊断方法大多将典型时域特征作为输入特征进行分类。传统机器学习算法虽然模型简单,但在面对大量多类特征或变量,且样本属性有关联时,对于非线性问题难以找到合适的参数。由于本文典型时域特征与数学统计特征涵盖的信息类型有所重叠或冲突,且13个特征数目较多,传统机器学习算法诊断准确率反而很低,降低特征数将典型时域特征作为输入特征能取得更好的诊断效果。现将PCA-RF算法与传统分类算法作对比,提取均值、最大值、最小值、标准差、方差、偏度和峰度7个典型时域特征作为特征输入,转子偏心为标签0,定子短路为标签1,轴承内圈故障为标签2,正常工况为标签3。与极限学习机(extreme learning machine,ELM)、概率神经网络(probabilistic neural network,PNN)、广义回归神经网络(generalized regression neural network,GRNN)诊断精度作对比,取420个样本为训练集,70个样本为测试集。诊断结果如图10~12所示。
![]() |
Download:
|
图 10 极限学习机准确度 |
![]() |
Download:
|
图 11 概率神经网络准确度 |
![]() |
Download:
|
图 12 广义回归神经网络准确度 |
传统算法ELM、PNN、GRNN的诊断精度分别为87.14%、95.71%、72.85%。由于不同算法适用的特点不同,导致不同的分类算法有不同的诊断精度,诊断效果并不能达到本文提出的PAC-RF算法98.97%的诊断精度。
本案例采用不同算法所用时间的对比如表4所示,可见在采用多特征时,PCA-RF诊断方法比传统机器学习方法诊断速度有了极大改善。
![]() |
表 4 不同算法在电机诊断中的时间对比 |
针对永磁电机振动信号特征提取困难且复杂、故障难以辨识的问题,本文利用电机实验平台,提取电机的正常和故障工况数据,提出了主成分分析法,并结合随机森林算法建立了PCA-RF的诊断模型。分析实验结果可得出:
1)引入PCA方法,克服了典型时域特征和数学统计特征对信息涵盖的重叠性以及单一特征的不充分性,实现了数据的最大化利用。
2)相较于传统分类算法ELM、PNN、GRNN等,PCA-RF的双去噪方法对电机故障有更高的诊断精度,更快的诊断速度。
3)本研究从数学统计层面对数据进行了进一步挖掘,拓宽了电机故障特征提取的研究思路,具有一定的工程应用前景。
[1] |
丁石川, 厉雪衣, 杭俊, 等. 深度学习理论及其在电机故障诊断中的研究现状与展望[J]. 电力系统保护与控制, 2020, 48(8): 172-187. (![]() |
[2] |
DU Yanping, ZHANG Wenjiao, ZHANG Yuan, et al. Fault diagnosis of rotating machines for rail vehicles based on local mean decomposition—energy moment—directed acyclic graph support vector machine[J]. Advances in mechanical engineering, 2016, 8(1): 1-6. (![]() |
[3] |
杜冬梅, 张昭, 李红, 等. 基于LMD和增强包络谱的滚动轴承故障分析[J]. 振动、测试与诊断, 2017, 37(1): 92-96. (![]() |
[4] |
卜勇霞. 基于时频分析方法的滚动轴承故障诊断研究[D]. 昆明: 昆明理工大学, 2015.
(![]() |
[5] |
XU Tongle, YIN Zhaojie, CAI Daoyong, et al. Fault diagnosis for rotating machinery based on Local Mean Decomposition morphology filtering and Least Square Support Vector Machine[J]. Journal of intelligent & fuzzy systems, 2017, 32(3): 2061-2070. (![]() |
[6] |
陈勇, 梁洪, 王成栋, 等. 基于改进小波包变换和信号融合的永磁同步电机匝间短路故障检测[J]. 电工技术学报, 2020, 35(S1): 228-234. (![]() |
[7] |
黄文静. 基于多特征量提取和PSO优化神经网络的轴承故障诊断[D]. 秦皇岛: 燕山大学, 2016.
(![]() |
[8] |
朱天煦, 臧朝平. 基于PCA-LMD的滚动轴承信号混合特征选取与故障诊断[J]. 航空发动机, 2020, 46(5): 14-21. (![]() |
[9] |
GALELLI S, HUMPHREY G B, MAIER H R, et al. An evaluation framework for input variable selection algorithms for environmental data-driven models[J]. Environmental modelling & software, 2014, 62: 33-51. (![]() |
[10] |
林海明, 杜子芳. 主成分分析综合评价应该注意的问题[J]. 统计研究, 2013, 30(8): 25-31. DOI:10.3969/j.issn.1002-4565.2013.08.004 (![]() |
[11] |
BREIMAN L. Random forests[J]. Machine learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324 (![]() |
[12] |
ALAM M S, VUONG S T. Random forest classification for detecting android malware[C]//Proceedings of 2013 IEEE International Conference on Green Computing and Communications and IEEE Internet of Things and IEEE Cyber, Physical and Social Computing. Beijing, China, 2013: 663–669.
(![]() |
[13] |
黄良韬, 赵志诚, 赵亚群. 基于随机森林的密码体制分层识别方案[J]. 计算机学报, 2018, 41(2): 382-399. DOI:10.11897/SP.J.1016.2018.00382 (![]() |
[14] |
赵东, 臧雪柏, 赵宏伟. 基于果蝇优化的随机森林预测方法[J]. 吉林大学学报(工学版), 2017, 47(2): 609-614. (![]() |
[15] |
WANG Li’ai, ZHOU Xudong, ZHU Xinkai, et al. Estimation of biomass in wheat using random forest regression algorithm and remote sensing data[J]. The crop journal, 2016, 4(3): 212-219. DOI:10.1016/j.cj.2016.01.008 (![]() |
[16] |
王奕森, 夏树涛. 集成学习之随机森林算法综述[J]. 信息通信技术, 2018, 12(1): 49-55. DOI:10.3969/j.issn.1674-1285.2018.01.009 (![]() |
[17] |
王亚芬, 姚建锋. 基于蒙特卡洛模拟的外汇最优策略选择[J]. 现代营销, 2016(12): 7-11. DOI:10.3969/j.issn.1009-2994.2016.12.005 (![]() |
[18] |
陈之恒, 宋冬利, 张卫华, 等. 基于EMD及改进PSO_BP的电机轴承故障诊断[J]. 测控技术, 2020, 39(11): 33-38, 125. (![]() |
[19] |
范春旸, 吴守鹏, 刘晓文, 等. 基于小波包变换与随机森林的滚动轴承故障特征分析方法[J]. 机械设计与制造, 2020(10): 59-63, 70. DOI:10.3969/j.issn.1001-3997.2020.10.014 (![]() |