基于随机森林方法的柴油机涡轮增压器故障诊断

引用本文

贾哲宇, 温华兵, 朱军超, 赵震宇. 基于随机森林方法的柴油机涡轮增压器故障诊断. 舰船科学技术, 2023, 45(6): 109-113 复制到剪切板

JIA Zhe-yu, WEN Hua-bing, ZHU Jun-chao, ZHAO Zhen-yu. Fault diagnosis of diesel engine turbocharger based on random forest method. Ship Science and Technology, 2023, 45(6): 109-113 复制到剪切板

基于随机森林方法的柴油机涡轮增压器故障诊断

贾哲宇, 温华兵, 朱军超, 赵震宇

江苏科技大学能源与动力学院，江苏镇江 212003

收稿日期: 2022-01-30.

作者简介: 贾哲宇(1997-)，男，硕士研究生，研究方向为柴油机故障诊断

摘要: 为了提高柴油机故障诊断的精度，针对柴油机涡轮增压器故障的问题，提出基于随机森林的柴油机涡轮增压器故障诊断方法。使用AVL Boost对柴油机建立故障仿真模型，并生成故障样本。对构建的涡轮增压器模型使用随机森林方法诊断。结果表明，采用随机森林算法的故障诊断模型可以有效对涡轮增压器的故障进行分类，分类准确率超过95%。可知，随机森林方法在涡轮增压器故障诊断领域中有良好的应用价值。

关键词: 涡轮增压器故障诊断随机森林

Fault diagnosis of diesel engine turbocharger based on random forest method

JIA Zhe-yu, WEN Hua-bing, ZHU Jun-chao, ZHAO Zhen-yu

School of Energy and Power, Jiangsu University of Science and Technology, Zhenjiang 212003, China

Abstract: In order to improve the accuracy of diesel engine fault diagnosis, aiming at the problem of diesel engine turbocharger fault, a diesel engine turbocharger fault diagnosis method based on random forest is proposed. AVL Boost is used to establish the fault simulation model of diesel engine and generate fault samples. The turbocharger model is diagnosed by random forest method. The results show that the fault diagnosis model using random forest algorithm can effectively classify the faults of turbocharger, and the classification accuracy is more than 95%. Therefore, the random forest method has good application value in the field of turbocharger fault diagnosis.

Key words: turbocharger fault diagnosis random forest

0 引　言

船舶的安全航行离不开柴油机等动力系统机器的稳定工作。而涡轮增压器作为柴油机中长期在高热、高速环境中运行的机械系统，工作环境恶劣、持续动力工作时间长，发生故障的可能性较大。一旦发生严重故障，会影响到整个柴油机动力装置的正常运行，造成重大事故，导致浪费大量人力财力，甚至危及人员安全。为了确保涡轮增压器正常工作，对增压器的故障诊断方法进行研究很有必要。

神经网络在涡轮增压器模块的故障诊断近年来逐步受到关注。姚荣荣^[1]提出了基于BP-GA的故障诊断方法；魏伟达^[2]提出了基于多变量灰色预测模型，引入神经网络和遗传算法优化预测模型，基于RBF神经网络进行故障诊断；Yi Wei^[3]提出了基于单类支持向量机（OSVM）、亲和传播（AP）和高斯混合模型（GMM）的无监督机器学习算法OAGFD进行故障诊断；孔祥鑫^[4]提出了振动分析法对增压器蜗壳转动失效进行诊断。实际应用中，由于柴油机涡轮增压器的样本数据较大且类别较多，很多故障识别方法分类时存在各自的局限性。随机森林（random forest, RF）秉承了Bagging方法的思想，适合处理高维度大数据，方便进行并行训练，能够有效提高故障分类准确率^[5]。张鹏^[6]研究了基于深度森林的无线传感器网络故障分类方法；尹际雄^[7]研究了基于随机森林的齿轮箱故障诊断方法；张利宏^[8]研究了基于会议制随机森林的电机滚动轴承故障诊断方法。

随机森林方法已经应用到多个领域且有较好的效果。因此，本文将随机森林模型应用到涡轮增压器故障诊断，对柴油机涡轮增压器的几种常见故障进行分析，并验证该方法应用在涡轮增压器故障诊断的有效性。

1 随机森林

融合Breimans的“Bootstrap aggregating”思想与Ho的“random subspace”，由Leo Breiman与Adele Cutler创造出的随机森林方法，是一种具有多个决策树的集成学习方法。由于使用随机的方式生成决策树，也称为随机决策树。随机森林之中的决策树与决策树没有相关性。

随机森林的工作原理是生成一些各自独立学习和预测的分类器，最后将这些结果结合起来进行预测，这比单个分类器或模型预测的结果更好。随机森林的基本元素是决策树，每棵树都作为一个分类模型，生成的最终结果就是各个树分类结果的投票总数。

图1为随机森林算法的基本流程。随机森林的表现由随机抽样与特征选择2个阶段起关键作用。确保每棵树彼此独立，随机森林不会简单进入局部过度严格，并且能稳定噪声干扰。

图 1 随机森林算法基本流程 Fig. 1 Basic flow of random forest algorithm

随机森林可以分析复杂交互的经典特征，具有非常强大的能力，可以稳定噪声数据，并具有更快的学习速度。该变量可用作为高阶原始数据选项的工具。近年来，被广泛应用于不同的分类、预测等问题中。

取CART方法并使用Gini系数最小的原则对各节点分散，故障分类流程如下：

步骤1　假设随机森林是由一系列的 $ {C_1}\left( x \right) $ ， $ {C_2}\left( x \right) $ ，…， $ {C_{\text{k}}}\left( x \right) $ 的决策树所构成的，则该随机森林的边缘函数可以表示为

$ mg\left( {X,Y} \right) = a{v_k}\left( {I\left( {{C_k}\left( X \right) = Y} \right) - \mathop {\max }\limits_{j \ne Y}^c a{v_k}\left( {I\left( {{C_k}\left( X \right) = j} \right)} \right)} \right)。$

(1)

其中： $ I\left( \cdot \right) $ 为示性函数；X为输入特征向量；Y为分类正确向量；j为分类错误向量； $ a{v_k}\left( \cdot \right) $ 为对其取平均值， $ a{v_k}\left( {I\left( {{C_k}\left( X \right) = Y} \right)} \right) $ 是模型正确分类数， $ \mathop {\max }\limits_{j \ne Y}^c a{v_k} \left( {I\left( {{C_k}\left( X \right) = j} \right)} \right) $ 是模型错误分类最大值。

步骤2　边缘函数表明正确的分类结果优于错误的最大分类结果。分类的结果随边缘函数的增大而更优。

利用bagging方法从原始样本集里随机选择N个步骤，并选择数据作为训练样本集。

然后，建立样本训练的决策树，在节点中随机选取d参数，并利用基尼系数选择最优树决策点参数。基尼系数表示为

$ Gini\left( S \right) = 1 - \sum_{i = 1}^d {{P_i}^2}，$

(2)

其中，样本集S中每个类别的概率表示为 $ {P_i} $ 。若将样本集S分为2个子集 $ {S_1} $ 和 $ {S_2} $ ，则Gini系数为

$ Gin{i_{split}}\left( S \right) = \frac{{\left| {{S_1}} \right|}}{{\left| S \right|}}Gini\left( {{S_1}} \right) + \frac{{\left| {{S_2}} \right|}}{{\left| S \right|}}Gini\left( {{S_2}} \right)。$

(3)

步骤3　按照顺序重复步骤1、步骤2创造多个决策树对测试集x分类，结果从众多决策树里的投票多少决定，其中确定类别的公式为

$ f\left( x \right) = majority \cdot vote\left( {{C_i}\left( x \right)} \right)_{i = 1}^{{N_{tree}}} 。$

(4)

其中：majority表示投票数量最多； $ {C_i}\left( x \right) $ 表示第i棵决策树； $ {N_{tree}} $ 为决策树的总数^[9]。

2 柴油机模型仿真

因为现实环境中利用实验得到涡轮增压器的故障数据非常困难，所以选择AVL Boost软件模拟涡轮增压器的各类故障。柴油机主要参数如表1所示。

表 1 柴油机主要参数 Tab.1 Main parameters of diesel engine

基于AVL Boost平台创建柴油机仿真模型，模型如图2所示。

图 2 柴油机仿真模型 Fig. 2 Diesel engine simulation model

利用构建的柴油机性能仿真数值模型，模拟计算柴油机额定工况下运行的主要性能参数。设置仿真模型的参数，如表2所示。

表 2 仿真模型主要参数 Tab.2 Main parameters of simulation model

通过对比额定功率、燃油消耗率及最高爆发压力等参数修正模型，使模型满足精度要求，对比结果如表3所示。

表 3 额定工况下实际值与模拟值的对比 Tab.3 Comparison between actual value and simulated value under rated working condition

额定工况下，建立的柴油机整机模型模拟计算的额定功率、燃油消耗率及最高爆发压力与实际数据偏差均在1％以内，故认为此模型能够达到模拟计算精度要求。据此进行模拟实验获取关联的数据。

分别设置温度降低（F1）、压气机故障（压气机效率降低）（F2）、中冷器气侧堵塞（中冷器压降过高）（F3）、中冷器水侧堵塞（中冷器效率降低）（F4）、曲轴箱窜气（F5）、涡轮喷嘴环脏堵（F6）、排气管脏堵（F7）、喷油延迟（F8）、涡轮前排气管堵塞（F9）、进气道漏气（F10）以及排气道漏气（F11）这11种故障状况。筛选压气机出口温度（S1）、气缸排气温度（S2）、涡轮后排气温度（S3）、涡轮前排气压力（S4）、涡轮增压器转速（S5）以及增压压力（S6）这6种热力学参数作为故障诊断的特征参数。根据故障仿真实验，获得规模为1007×6的柴油机涡轮增压器故障数据集。建立柴油机涡轮增压器的故障树如图3所示。

图 3 涡轮增压器故障树 Fig. 3 Turbocharger fault tree

3 基于随机森林的涡轮增压器故障诊断

数值实验的流程如图4所示。将故障原始数据按比例分为711×6的训练集和规模为296×15 的测试集，用测试集数据检测该模型的功能。

图 4 故障诊断流程 Fig. 4 Fault diagnosis process

3.1 故障诊断结果及分析

仿真获得的数据样本集包括105组环境温度降低、86组压气机故障、97组中冷器气侧堵塞、99组中冷器水侧堵塞、93组曲轴箱窜气、93组涡轮喷嘴环脏堵、90组排气管脏堵、93组喷油延迟、83组涡轮前排气管堵塞、84组进气道漏气、84组排气道漏气，总共1007组。

使用随机森林函数创建一个分类器。在构建随机森林分类器时，利用随机森林函数的功能对测试数据进行模拟。根据随机森林分类的结果分析，诊断准确率如表4所示。

表 4 随机森林方法故障诊断准确率 Tab.4 Table of fault diagnosis accuracy of random forest method

3.2 与决策树方法对比

为了验证随机森林方法能够有效提高故障诊断率，将整理后的数据集提供给决策树方法进行故障诊断。表5为决策树算法的诊断准确率，图5为2种分类算法各故障诊断率的对比。可以发现，决策树误诊断51个，综合准确率为82.77%。远低于随机森林的95.24%诊断率。因为决策树方法是单个分类器，但随机森林方法利用bootstrap重抽样方法将各种单一分类器组合，其中的训练数据选择各不一样，选择组合分类器的方法把各种分类器的处理结果结合，获得一个森林的处理结果。因此，与决策树方法相比，随机森林能够更准确识别柴油机涡轮增压器故障。

表 5 决策树方法故障诊断准确率 Tab.5 Table of fault diagnosis accuracy of decision tree method

图 5 随机森林方法与决策树方法诊断率对比图 Fig. 5 Comparison of diagnosis rate between random forest method and decision tree method

3.3 决策树棵数对诊断率的影响

结合随机森林的原理，决策树数量大小和集中特征数量有可能影响随机森林的效果，因此，首先保持集中特征数量值m（ $ m = \left\lfloor {\sqrt M } \right\rfloor $ ，M为总特征数量）不变为2，对随机森林中决策树的棵数选择多种值，从0～300每5个取一次，使用随机森林方法对故障样本进行故障诊断，随机森林决策树棵数对分类的作用如图6所示。

图 6 随机森林决策树棵数对分类的作用图 Fig. 6 Effect diagram of random forest decision tree number on classification

可知，决策树过少对故障诊断的影响较大，但取值超过50后，随机森林的诊断正确率并无明显变化，基本在95.5%小幅波动。

3.4 集中特征数量对诊断率的影响

首先保持随机森林中决策树的棵数不变为100，对集中特征数量值m进行多次取值，从1～6每1个取一次，使用随机森林方法对故障样本进行故障诊断，随机森林集中特征数量对分类的作用如图7所示。

图 7 随机森林集中特征数量对分类的作用图 Fig. 7 Effect diagram of feature number in random forest concentration on classification

可知，集中特征数量取值为2时，随机森林的准确率最高，因此设置随机森林的集中特征数量为2。

综合2种参数的影响规律，将随机森林的决策树棵树设置为150棵，集中特征数量设置为2，得到柴油机涡轮增压器故障96.28%的诊断率。

4 结　语

本文提出基于随机森林的故障诊断方法对柴油机涡轮增压器进行分析。基于AVL Boost构建仿真模型，选择该模型获得的柴油机各种工况状态中的数据，当做训练样本进行故障诊断，结果表明：

1）相比于决策树分类器这种单一分类器，随机森林方法准确率明显更高，证明其能够更准确识别柴油机涡轮增压器的故障，对提高柴油机涡轮增压器故障诊断的准确率有一定意义。

2）随机森林对柴油机涡轮增压器故障诊断的精度较高，在仿真模型的数据集上将随机森林的决策树数量设置高于50棵，集中特征数量为2时，能够达到更高的准确度。

参考文献

[1]	姚荣荣. 船机涡轮增压器故障诊断方法及系统研究[D]. 重庆: 重庆大学, 2016.
[2]	魏伟达. 柴油机增压器的故障预测与健康管理[D]. 大连: 大连理工大学, 2019.
[3]	WEI Yi, LIU Hai-long, CHEN Geng-xuan, et al. Fault diagnosis of marine turbocharger system based on an unsupervised algorithm[J]. Journal of Electrical Engineering & Technology, 2020, 15(1).
[4]	孔祥鑫, 刘峰春, 冀树德, 等. 柴油机增压器蜗壳转动失效振动分析研究[J]. 车用发动机, 2020(2): 49-54.
[5]	吕红燕, 冯倩. 随机森林算法研究综述[J]. 河北省科学院学报, 2019, 36(3): 37-41. DOI:10.16191/j.cnki.hbkx.2019.03.005
[6]	张鹏, 李志, 邸希元. 基于深度森林的无线传感器网络故障分类算法[J]. 计算机测量与控制, 2022, 30(1): 26-33.
[7]	尹际雄. 基于随机森林的齿轮箱故障诊断方法研究[D]. 沈阳:沈阳理工大学, 2021.
[8]	张利宏, 罗振鹏. 电机滚动轴承故障的会议制随机森林诊断方法[J]. 重庆理工大学学报(自然科学), 2021, 35(9): 109-115.
[9]	曹振, 崔路瑶, 雷斌, 等. 城轨列车滚动轴承智能诊断的特征降维与随机森林方法[J]. 吉林大学学报(工学版), 2022, 52(10): 2287-2293.


舰船科学技术 2023, Vol. 45 Issue (6): 109-113 DOI: 10.3404/j.issn.1672-7649.2023.06.020	PDF