船舶压载水系统是指为保持船舶稳定性、调整船舶吃水和航行平衡,而在船舶的压载舱内注入或排放水的系统。船舶通过压载水系统调节自身的重心,以应对海上航行中因货物装卸、船舶航行状态变化等原因带来的稳定性需求,其正常运行直接关系到航行安全和环境保护[1]。由于压载水系统故障发生频率相对较低,采集样本往往存在不均衡问题,导致模型对少数类样本的识别能力下降,出现误判或漏判的风险。因此,研究如何在不平衡数据下提高船舶压载水系统故障诊断的准确性,具有重要的实际应用价值和研究意义。
近年来,国内外学者在船舶机电系统故障诊断领域展开了广泛研究,并取得了多项成果。李伟真等[2]提出一种基于Ada-DBN模型的船舶柴油机故障诊断方法,有效提升了模型在不平衡数据下的泛化性能。王泷德等[3]结合SMOTE算法生成故障样本与Tomek Links算法剔除边界样本,提出一种支持在线更新的船舶发动机故障诊断模型。谢桦等[4]采用SMOTE算法和决策树方法,提出一种电力变压器状态评估的知识获取策略。黄英双等[1]针对支持向量机惩罚因子和核函数参数难以优化的问题,提出用改进人工蜂群算法(ABC)优化相关参数,并将其应用于船舶压载水系统故障诊断。张涛等[5]通过引入非线性收敛因子和平衡GWO全局与局部能力的Levy飞行策略,提出基于多维特征与改进灰狼优化算法(IGWO)优化支持向量机(SVM)的电机轴承故障诊断方法。李琨等[6]提出一种时移多尺度振幅感知排列熵用于提取液压泵振动信号中的非线性故障特征,并通过WOA算法优化核极限学习机(KELM)的关键参数,构建最终分类模型。
与SMOTE和SMOTETomek相比,ADASYN通过自适应生成合成样本,重点关注那些难分类的样本,能够更有效地解决类别不平衡问题,并且通过动态调整合成样本的数量来避免噪声样本的干扰。针对船舶压载水系统故障样本不均衡导致模型对少数故障样本的识别能力低,解决传统鲸鱼优化算法(WOA)易陷入局部最优,提高其全局搜索能力等问题,本文提出一种基于ADASYN,引入最优邻域扰动、融合自适应权重和变螺旋位置更新的改进鲸鱼优化算法(IWOA)优化的极限学习机(ELM)故障诊断方法。并将优化后的IWOA-ELM故障诊断模型与PSO-ELM、GWO-ELM和WOA-LEM分类模型进行对比测试。
1 相关理论介绍 1.1 ADASYNADASYN是一种处理不平衡数据的样本过采样技术。它的主要目标是通过生成少数类样本来平衡数据分布,从而提高分类器对少数类样本的识别能力,该方法由He等[7]在2008年提出。ADASYN通过自适应地生成少数类样本,与传统的SMOTE方法不同,在生成新样本时考虑了少数类样本的分布情况,从而更好地反映了实际数据的特征。
其基本过程包括以下步骤[8]:
步骤1 计算每个少数类样本的K近邻
对于每个少数类样本
步骤2 计算每个少数类样本的权重
对于每个少数类样本
| $ {\delta }_{i}\text{}=\frac{{{多数类样本数在}}\text{ }{x}_{i}\text{}\text{ }{的}\text{ }K\text{ }{近邻中}}{K} 。$ | (1) |
步骤3 确定需要生成的样本数
根据每个少数类样本的权重,确定需要生成的新样本数。总的生成样本数为
| $ G=\left({多数类样本数}-{少数类样本数}\right)\times \beta 。$ | (2) |
式中:
步骤4 生成新样本
对于每个少数类样本
| $ x_{\mathrm{new}}=x_i+\left({随机近邻}-x_i\right)\times r 。$ | (3) |
式中:
步骤5 合并数据
将生成的新样本与原始数据进行合并,得到一个平衡后的数据集。
1.2 极限学习机极限学习机(Extreme Learning Machine,ELM)是一种用于训练单隐层前馈神经网络的快速学习算法。与传统的神经网络训练算法(例如反向传播算法)不同,ELM具有随机生成隐藏层权重、只需一次求解线性方程的特点,因此计算速度快,且具有良好的泛化能力[9]。
ELM的关键思想是随机选择输入到隐含层的权重和阈值,并通过最小二乘法一次性计算出隐含层到输出层的权重。训练过程如下:
1)随机生成隐藏层参数
给定训练数据集
2)计算隐含层的输出
隐含层的输出通过激活函数
| $ {\boldsymbol{H}} = g(W{\boldsymbol{X}} + b)。$ | (4) |
式中:
3)计算输出层权重
ELM假设隐含层输出
| $ \boldsymbol{H}\beta=\boldsymbol{T}。$ | (5) |
式中:
| $ \beta = {{\boldsymbol{H}}^ + }{\boldsymbol{T}}。$ | (6) |
式中:
鲸鱼优化算法(Whale Optimization Algorithm,WOA)是一种基于自然界中鲸鱼捕食行为的群体智能优化算法。该算法通过模拟鲸鱼的气泡网捕食策略,来解决全局优化问题。鲸鱼捕食时,通常会围绕猎物游动并释放气泡网,通过缩小围捕范围来包围猎物[10]。鲸鱼优化算法主要基于3种行为来进行搜索和优化[11]:
1) 螺旋捕食行为
鲸鱼通过变螺旋轨迹围绕猎物,同时收缩包围圈,模仿这一行为来进行全局优化。该行为可以表示为:
| $ X(t+1)=D^*\cdot e^{bl}\cdot\mathrm{cos}(2{\text{π}} l)+X^*(t) 。$ | (7) |
式中:
2) 围绕猎物运动
鲸鱼围绕猎物并逐渐逼近,这种行为通过引入收缩包围机制来实现,公式为:
| $ X(t + 1) = {X^ * }(t) - A \cdot \left| {C \cdot {X^ * }(t) - X(t)} \right|。$ | (8) |
式中:
3) 探索阶段(随机搜索猎物)
为避免陷入局部最优解,鲸鱼优化算法会随机选择其他鲸鱼的位置进行搜索。这一阶段的公式为:
| $ X(t+1)=X_{\mathrm{rand}}-A\cdot\left|C\cdot X_{\mathrm{rand}}-X(t)\right| 。$ | (9) |
式中:
针对鲸鱼优化算法存在局部最优陷阱、收敛速度较慢、搜索精度不足等缺点,引入最优邻域扰动、自适应权重、变螺旋位置更新等有效的改进策略。这些措施可以增强WOA的全局搜索能力,加快收敛速度,并有效避免陷入局部最优[12]。
1)最优邻域扰动
引入最优邻域扰动的目的是通过对当前最优解的随机扰动,探索其邻域中潜在的更优解。该过程可以理解为在全局开发阶段的基础上增加局部探索,以更好地探索可能存在的局部最优。通过此扰动机制,算法不会过早集中于当前的最优解,而是会尝试在邻域内继续搜索,从而提高逃避局部最优的能力。
对于每一次迭代,以一定概率对最优解的位置进行扰动:
| $ {X_{{\text{new}}}}(t + 1) = \left\{ {\begin{aligned} &{{X^ * }(t) + 0.5 \cdot r(t) \cdot {X^ * }(t),p < 0.5},\\ &{{X^ * }(t),p \geqslant 0.5} 。\end{aligned}} \right. $ | (10) |
式中:
扰动后的鲸鱼位置
| $ {X_{{\text{new}}}}(t + 1) = \min (\max ({X_{{\text{new}}}}(t + 1),{{lb}}),{{ub}})。$ | (11) |
2)自适应权重
在WOA中,鲸鱼的搜索行为主要受2个参数控制:系数向量
自适应权重函数表示为:
| $ w(t) = 0.2 \cdot \cos \left( {\frac{{\text{π}} }{2} \cdot \left( {1 - \frac{t}{{{T_{\max }}}}} \right)} \right)。$ | (12) |
式中:
此权重随着迭代次数逐渐减小,使得搜索范围缩小,权重减少。
3)变螺旋位置更新
变螺旋位置更新通过调整鲸鱼在二维平面中变螺旋移动的方式,模拟鲸鱼从不同方向逼近猎物的过程。通过这一方式,算法可以在不同的区域进行搜索,有效避免陷入局部最优。
变螺旋位置更新公式为:
| $ b(t) = \exp \left( {5 \cdot \cos \left( {\frac{{\text{π}} }{2} \cdot \left( {1 - \frac{t}{{{T_{\max }}}}} \right)} \right)} \right),$ | (13) |
| $ {X(t + 1) = {D_{{\text{Leader}}}}(t) \cdot {e^{bl(t)}} \cdot \cos (2{\text{π}} l(t)) \cdot b(t) + w(t) \cdot {X^ * }(t) }。$ | (14) |
式中:
鲸鱼位置的更新根据不同的条件来决定是采用靠近/远离随机鲸鱼还是领头鲸鱼,或者采用螺旋捕猎行为。
位置更新公式:
| $ {X(t + 1) = \left\{ {\begin{aligned} &{w(t) \cdot {X_\mathrm{rand}}(t) - A(t) \cdot {D_\mathrm{rand}}(t),p < 0.5{\text{and}}\mid A(t)\mid \geqslant 1},\\ & {w(t) \cdot {X^ * }(t) - A(t) \cdot {D_\mathrm{Leader}}(t),p < 0.5{\text{and}}\mid A(t)\mid < 1} ,\\ & {{D_\mathrm{Leader}}(t) \cdot {e^{bl(t)}} \cdot \mathrm{cos}(2{\text{π}} l(t)) \cdot b(t) + w(t) \cdot {X^ * }(t),p \geqslant 0.5} 。\end{aligned}} \right. }$ | (15) |
式中:
本文使用6个基准函数来验证IWOA算法的性能,其中,F1~F3为单峰函数,主要用于测试优化算法的收敛速度与收敛精度;而F4~F6为多峰函数,评估优化算法的全局搜索能力及其避免陷入局部最优解的能力[13]。基准测试函数见表1。此外,选取GWO、PSO、WOA、ABC与IWOA进行对比测试。每种算法的种群数量设置为30,迭代次数设置为500,PSO算法的初始惯性权重设置为0.8,认知参数(c1,c2)均设置为2,取不同算法各自运行50次的平均值和标准差作为评价指标。
|
|
表 1 基准测试函数 Tab.1 Test function expression |
从图1和表2中测试结果来看,除F6基准函数外,IWOA在测试的所有函数上能够快速且稳定地找到接近最优的解,表现出强大的优化能力。对于基准函数F1和F2,IWOA表现出明显的收敛速度和收敛精度优势;而在F3和F5中,与其他算法相比,IWOA由于自适应权重的动态调整和在最优解附近进行局部扰动使得算法在早期更注重全局搜索,有效避免陷入局部最优,而在后期专注于局部搜索,从而迅速提升了收敛精度;对于基准函数F4,IWOA和WOA平均适应度值接近明显低于其他算法,而IWOA相比WOA标准差更小具有更好的稳定性。
|
图 1 F1~F6基准测试函数迭代曲线 Fig. 1 F1~F6 Iterative curve of benchmark test function |
|
|
表 2 不同优化算法迭代500次的寻优结果 Tab.2 Optimization results of 500 iterations of different optimization algorithms |
本文对船舶压载水系统不平衡故障数据集采用ADASYN均衡化处理,随后利用IWOA对ELM的超参数进行寻优。基于ADASYN-IWOA-ELM的故障诊断流程如下:
1)数据预处理
首先对船舶压载水系统不平衡数据集采用RF进行特征重要性排序并选择最优特征子集,然后使用ADASYN对故障数据的不平衡程度进行均衡化处理,最后使用7∶3的比例划分训练集和测试集并进行归一化等操作,确保不同特征具有相同的数值范围。
RF特征选择具体步骤[14]:
步骤1 构建包含13个特征参数的特征集合;
步骤2 对RF参数进行设置,生成RF模型,计算特征重要性并进行排序;
步骤3 设置训练子集为空集,重要性最高的特征加入训练子集,并构建相应测试子集,令k=1;
步骤4 基于训练子集构建ELM模型,计算故障诊断准确率;
步骤5 将剩余特征中重要性最高的特征加入训练子集,构建相应测试子集,K=K+1;
步骤6 重复步骤5和步骤6,直到K=13;
2)模型优化
为解决ELM的初始权重和阈值参数随机选择问题,使用IWOA对ELM的权值和阈值进行寻优,输入训练数据到ELM模型中进行训练。IWOA通过寻找ELM的最佳权值和阈值,使其在故障诊断任务中获得更好的分类性能。
3)模型测试
使用获得最佳参数组合的ELM模型建立最终的故障诊断模型。将测试集输入IWOA-ELM故障诊断模型进行分类,判断系统是否存在故障以及具体的故障类型。
4)模型评估
通过评估模型的分类准确率、标准差等有效指标,判断模型的诊断性能,并输出最终的诊断结果。比较不同优化算法优化ELM模型的性能,评估不同分类模型其在故障诊断中的优势。
故障诊断流程如图2所示。
|
图 2 故障诊断流程图 Fig. 2 Fault diagnosis flowchart |
本文以大连海事大学研发的轮机模拟器中集装箱船压载水系统为研究对象,选取系统正常运行状态和海底门滤器膨胀、压载水泵轴瓦磨损、阀门卡阻和管段泄漏四处常见故障,设置样本数量分别为120、40、40、40、40。首先对采集到的不平衡故障数据集采用RF算法进行特征重要性排序,设置RF的树数量为100,并根据输入特征个数与分类准确率的关系选择最优特征子集,采用5折交叉验证模型的分类准确率;其次对原始数据集进行Min-Max归一化并以7∶3的比例划分为训练集和测试集;最后使用ADASYN算法扩充少数类故障数据来训练ELM模型,设置ADASYN的参数K = 5。
通过计算每个特征的重要性来进行特征筛选。图3(a)为可视化后的特征参数的重要性大小排序,以更清楚地区分每个特征对标签的重要性。可以看出,第3、2、10号特征的权重较高,说明其对模型的影响较大,而第12、1、13号特征的权重较低。图3(b)为输入特征个数与故障诊断准确率之间的关系,输入特征逐渐增加到个数为10时对应的模型诊断准确率最高为91.15%,之后增加输入特征个数时,模型的分类准确率几乎趋于稳定,说明特征12、特征1和特征13对模型的贡献较小。因此,为了减少计算复杂度而不显著降低模型性能,本文选择前10个重要特征用于进一步分析。
|
图 3 RF特征重要性排序 Fig. 3 RF feature importance ranking |
表3为使用ADASYN算法对故障样本进行扩充之后的数据集划分情况。原始数据集中,不同故障类别存在数据不平衡问题。通过ADASYN有效处理后,所有类别的样本数量均为120,其中,训练集样本数量为84,测试集样本数量为36。这种数据均衡化处理能够提高模型在处理不平衡数据时的表现,使其在每个类别上都有更好的泛化能力。
|
|
表 3 ADASYN平衡后数据集划分 Tab.3 ADASYN balanced dataset partitioning |
本文将ADASYN扩充后的训练集输入ELM模型中进行训练,将余下的测试集输入训练好的ELM模型进行分类测试,将常用于分类任务的支持向量机(SVM)、K近邻算法(KNN)和极限梯度提升(XGBOOST)与本文采用的极限学习机(ELM)进行对比。SVM的惩罚因子设置为C = 10,核函数参数g = 0.1;RBF模型的扩展速度设置为20;XGBoost的树数量设置为100,最大深度为6,学习率为0.1;ELM模型的输入层和隐藏层节点数分别设置为10和20,使用Sigmoid函数作为ELM的激活函数。获取不同分类模型对于给定参数下30次运行的故障识别准确率,测试结果见表4。
|
|
表 4 ADASYN处理后测试结果 Tab.4 ADASYN processed test results |
可知,对于原始不平衡数据集4种不同分类算法的测试效果均不是很理想,表明模型对不平衡故障数据的识别能力较低。经过ADASYN均衡处理后,所有分类算法的测试准确率均有不同幅度的提升。其中,SVM和ELM的测试结果较理想分别为89.96%和91.15%,RBF和XGBOOST的测试精度分别为88.56%和85.44%,4种不同分类算法的测试精度分别提高了11.71%、6.71%、7.61%、6.47%,表明ADASYN对不平衡故障数据的处理有效地提高了分类模型的性能,在平衡数据集上,模型的分类效果更好。
4.3 IWOA-ELM模型验证为验证IWOA的优化性能,使用IWOA对ELM的权值和阈值进行参数寻优,提升ELM模型的故障识别能力,使用ADASYN处理后的均衡数据集构建IWOA-ELM船舶压载水系统故障诊断模型。设定鲸鱼种群数量为20,最大迭代次数为100,并和WOA算法进行优化对比测试,迭代优化结果如图4所示。
|
图 4 IWOA优化曲线 Fig. 4 IWOA optimization curve |
可知,随着迭代次数的增加,2种算法的适应度值都快速下降,说明它们在早期迭代时都能迅速找到较优的解。IWOA经过多次寻优,在第15次迭代中迅速收敛取得最优值,GWO则迭代24次取得最佳适应度值。在迭代前期,IWOA没有过早陷入局部最优值更注重于全局搜索,使得IWOA相较于WOA没有表现出明显的收敛精度优势,而在迭代后期,IWOA从全局搜索转移到局部快速收敛,便迅速取得最佳权值和阈值。由此可知,IWOA在前期更注重于全局搜索,并避免了陷入局部最优解的情况,后期更注重于局部快速收敛和提升收敛精度,有效提升了WOA的全局搜索能力和搜索精度,加快了其收敛速度。
构建基于IWOA优化的ELM故障诊断模型并进行30次测试,并与GWO-ELM、PSO-ELM、WOA-ELM进行结果对比。由图5可知,与未优化的ELM模型相比,IWOA优化后的ELM模型的诊断精度和鲁棒性均有显著提升。由图6可知,不同模型在类别4和类别5的故障识别能力较低,IWOA-ELM模型的平均分类准确率为96.22%,错误识别的样本数为6;优于GWO-ELM模型的93.33%、PSO-ELM模型的92.78%和WOA-ELM模型的95.00%。结果表明,IWOA通过优化ELM的权值和阈值所构建的故障诊断模型可以有效的提高船舶压载水系统的故障识别能力。
|
图 5 不同分类模型测试结果 Fig. 5 Test results of different classification models |
|
图 6 不同优化算法测试结果 Fig. 6 Test results of different optimization algorithms |
1)本文通过引入ADASYN数据过采样技术处理船舶压载水系统数据不平衡问题,实验结果表明,经过ADASYN数据均衡处理后,ELM模型的诊断精度有大幅的提升。与SVM、RBF和XGBOOST等常用分类模型对比,ELM模型在故障数据上的诊断性能相对其他分类算法更好。
2)通过寻优实验对比,证明通过引进最优邻域扰动、自适应权重、变螺旋位置更新等策略改进的WOA有效提高了其全局搜索能力,避免陷入局部最优。与GWO-ELM、PSO-ELM和WOA-ELM相比,本文提出的IWOA-ELM模型具有更高的故障诊断精度,证明了本文所提方法在处理船舶压载水系统不平衡故障数据时的有效性。
3)本文为基于不平衡数据的故障检测问题提供了新的解决思路。然而,未来的研究可以进一步探索这些方法在其他类型的数据集或任务中的适用性,并考虑引入其他先进的算法和不平衡数据处理方法,以进一步提升模型的泛化性。
| [1] |
黄英双. 基于优化支持向量机的压载水系统故障诊断研究[D]. 大连: 大连海事大学, 2020.
|
| [2] |
李伟真, 商蕾, 汪敏, 等. 基于不平衡数据与集成学习的柴油机故障诊断研究[J]. 武汉理工大学学报(交通科学与工程版), 2024, 48(4): 661−667. LI W Z, SHANG L, WANG M, et al. Research on diesel engine fault diagnosis based on unbalanced data and ensemble learning [J]. Journal of Wuhan University of Technology (Transportation Science and Engineering Edition), 2024, 48 (4): 661−667. |
| [3] |
王泷德, 曹辉, 魏来. 不平衡数据下船舶主机在线故障诊断研究[J]. 中国舰船研究, 2023, 18(5): 269−275. WANG L D, CAO H, WEI L. Research on online fault diagnosis of ship main engine under unbalanced data [J]. China Shipbuilding Research, 2023, 18 (5): 269−275. |
| [4] |
谢桦, 陈俊星, 赵宇明, 等. 基于SMOTE和决策树算法的电力变压器状态评估知识获取方法[J]. 电力自动化设备, 2020, 40(2): 137−142+1. XIE H, CHEN J X, ZHAO Y M, et al. Knowledge acquisition method for power transformer state assessment based on SMOTE and decision tree algorithm [J]. Power Automation Equipment, 2020, 40 (2): 137−142+1. |
| [5] |
张涛, 王朝阳, 吴鑫辉, 等. 基于多维特征与IGWO-SVM的电机轴承故障诊断[J]. 兵器装备工程学报, 2023, 44(9): 149−154+210. ZHANG T, WANG C Y, WU X H, et al. Fault diagnosis of motor bearings based on multidimensional features and IGWS-SVM [J]. Journal of Weapon Equipment Engineering, 2023, 44(9): 149−154+210. |
| [6] |
李琨, 张久亭. 基于TSMAAPE与WOA-KELM的液压泵故障诊断[J]. 机床与液压, 2022, 50(9): 201−209. LI K, ZHANG J T. Hydraulic pump fault diagnosis based on TSMAAPE and WOA-KELM [J]. Machine Tool and Hydraulic, 2022, 50 (9): 201−209. |
| [7] |
刘迪迪, 王洋, 刘辉乾, 等. 基于ADASYN平衡化数据集的POA-SVM变压器故障诊断[J]. 电网与清洁能源, 2023, 39(8): 36−44. LIU D D, WANG Y, LIU H Q, et al. POA-SVM transformer fault diagnosis based on ADASYN balanced dataset [J]. Power Grid and Clean Energy, 2023, 39 (8): 36−44. |
| [8] |
ADNAN R M, MOSTAFA R R, KISI O, et al. Improving streamflow prediction using a new hybrid ELM model combined with hybrid particle swarm optimization and grey wolf optimization [J]. Knowledge-Based Systems, 2021, 230.
|
| [9] |
李梦瑶, 周强, 于忠清. 基于KPCA和优化ELM的齿轮箱故障诊断[J]. 组合机床与自动化加工技术, 2021, (4): 87−90+95. LI M Y, ZHOU Q, YU Z Q. Fault diagnosis of gearbox based on KPCA and optimized ELM [J]. Combination Machine Tool and Automation Processing Technology, 2021, (4): 87−90+95. |
| [10] |
许德刚, 王再庆, 郭奕欣, 等. 鲸鱼优化算法研究综述[J]. 计算机应用研究, 2023, 40(2): 328−336. XU D G, WANG Z Q, GUO Y X, et al. A Review of Whale Optimization Algorithm Research [J]. Computer Application Research, 2023, 40 (2): 328−336. |
| [11] |
Yao F, Liu Q, Ji B, et al. Open circuit fault diagnosis of three‐phase inverter based on SR‐WOA‐ELM[J]. International Journal of Circuit Theory and Applications, 2023, 52(6): 2786−2802.
|
| [12] |
刘磊, 白克强, 但志宏, 等. 一种全局搜索策略的鲸鱼优化算法[J]. 小型微型计算机系统, 2020, 41(9): 1820−1825. LIU L, BAI K Q, DAN Z H, et al. A whale optimization algorithm with global search strategy [J]. Small Microcomputer System, 2020, 41 (9): 1820−1825. |
| [13] |
史俊冰, 赵如意, 王迎敏, 等. 基于变量优化和IWOA-LSTM的锅炉系统水冷壁温度预测[J]. 热能动力工程, 2023, 38(10): 103−112. SHI J B, ZHAO R Y, WANG Y M, et al. Prediction of water-cooled wall temperature in boiler system based on variable optimization and IWOA-LSTM [J]. Thermal Power Engineering, 2023, 38 (10): 103−112. |
| [14] |
杨雨亭. 基于RF特征优选的ISSA-SVM变压器故障诊断方法[D]. 南京: 南京邮电大学, 2023.
|
2025, Vol. 47
