郑州大学学报(理学版)  2025, Vol. 57 Issue (3): 19-27  DOI: 10.13705/j.issn.1671-6841.2024006

引用本文  

李国, 侯雪雪, 李静, 等. 面向时序SMART不平衡数据的硬盘故障预测算法[J]. 郑州大学学报(理学版), 2025, 57(3): 19-27.
LI Guo, HOU Xuexue, LI Jing, et al. Hard Disk Failure Prediction Algorithm for Time Series SMART Imbalanced Data[J]. Journal of Zhengzhou University(Natural Science Edition), 2025, 57(3): 19-27.

基金项目

国家自然科学基金项目(U2233214);天津市教委科研资助项目(2021KJ044)

通信作者

侯雪雪(1997—),女,硕士研究生,主要从事存储系统主动容错研究,E-mail: xuexueh120@163.com

作者简介

李国(1966—),男,教授,主要从事区块链和航空物联网研究,E-mail: liguotianjin@163.com

文章历史

收稿日期:2024-01-09
面向时序SMART不平衡数据的硬盘故障预测算法
李国1, 侯雪雪1, 李静1, 陈辉2    
1. 中国民航大学 计算机科学与技术学院 天津 300300;
2. 中国民用航空局空中交通管理局 航空气象中心 北京 100015
摘要:针对数据存储中心硬盘故障数据稀少造成的故障预测效果不佳的问题,面向自我检测分析与报告技术(self-monitoring analysis and reporting technology, SMART)数据信息的时序特征,提出一种通过数据增强解决不平衡问题的硬盘故障预测算法。该算法利用长短期记忆网络改进传统的生成对抗网络,生成包含故障恶化趋势信息的序列段数据,解决了数据集不平衡问题。同时,为进一步提高预测性能,预测模型融合了时序注意力机制和特征注意力机制,挖掘不同SMART特征和时间步对硬盘故障恶化过程的敏感程度。此外,在特征选择阶段结合了多种典型特征选择算法来选取关键特征。在真实硬盘数据集上进行了实验验证,结果表明,所提算法的准确率、召回率和F1值均有较大提升。
关键词不平衡数据    数据增强    硬盘故障预测    生成对抗网络    注意力机制    
Hard Disk Failure Prediction Algorithm for Time Series SMART Imbalanced Data
LI Guo1, HOU Xuexue1, LI Jing1, CHEN Hui2    
1. School of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China;
2. Aviation Meteorological Center, Air Traffic Management Bureau of Civil Aviation Administration of China, Beijing 100015, China
Abstract: In response to the issue of poor fault prediction caused by the scarcity of data center hard disk failure data, a hard disk failure prediction algorithm that could solve imbalance problems through data augmentation was proposed based on the temporal features of self-monitoring analysis and reporting technology (SMART) data information. The algorithm employed long short-term memory networks to improve traditional generative adversarial networks, and sequence segment data containing fault deterioration trend information was generated to address the imbalance problem in the dataset. Meanwhile, to further enhance predictive performance, the prediction model was integrated with temporal attention mechanism and feature attention mechanism, exploring the sensitivity of different SMART features and time steps to the deterioration process of hard disk failures. Additionally, various typical feature selection methods were combined in the feature selection stage to select key features. Experimental validation was conducted on a real hard disk dataset, and the results indicated that the accuracy, recall and F1 values of the proposed algorithm were significantly improved.
Key words: imbalanced data    data augmentation    hard disk failure prediction    generative adversarial network    attention mechanism    
0 引言

作为经济社会数字化转型的存储保障设施,云存储系统通过硬盘(hard disk drive, HDD)来提供数据存储服务[1]。在云存储系统运行过程中发生硬盘故障不可避免,硬盘故障将导致存储数据丢失甚至数据中心的严重瘫痪,造成极大的人力、物力损失[2]。为预防存储数据的丢失,传统的云存储系统采用基于副本的被动容错机制[3-4],但随着存储系统规模的增大,被动容错机制需要创建大量副本,严重消耗存储资源且无法满足数据中心的高可靠性和高服务性要求。因此,主动容错机制成为国内外学者的重点研究内容。

Back Blaze公司公布的硬盘自我检测分析与报告技术(self-monitoring analysis and reporting technology, SMART)日志数据与硬盘故障之间存在明显相关性,可以通过分析SMART数据实现硬盘故障的主动容错[5-11]。但硬盘在运行周期内大多处于正常状态,故障发生概率较小,SMART数据中健康样本、故障样本高度混合,造成了严重的正负样本数据不平衡问题。同时,在实际存储场景中,硬盘故障是从健康状态到故障状态的逐渐恶化,并非立即发生故障[12]。由于SMART数据仅在故障当天被标记为故障数据,造成故障前一段时间的恶化数据被错误标记为健康数据,加剧了样本数据不平衡问题。为解决数据不平衡问题,研究人员分别基于以下角度提出了有针对性的平衡方案。

基于数据的角度,研究者使用过采样或欠采样技术来平衡正负样本。Tanaka等[13]通过生成对抗网络(generative adversarial network,GAN)生成模拟数据,并在基准数据集上证明了生成数据的可靠性。据此,Shi等[14]将其应用于硬盘故障预测领域,利用GAN生成故障硬盘数据,并通过大量的实验证明了该方法对缓解数据不平衡问题的有效性。然而,使用传统GAN网络生成故障数据仅学习了故障当天的数据,无法捕获故障前的恶化信息。因此,采用传统GAN方法拟合样本特征得到的故障数据与真实的故障数据之间存在较大偏差,不利于硬盘故障预测模型的训练。

基于模型的角度,Santo等[15]提出基于长短期记忆网络(long short-term memory network,LSTM)的预测模型,使SMART特征中的上下文信息参与训练,预测硬盘剩余使用寿命,但不能应对数据不平衡问题。Ircio等[9]提出一种双轮学习方法,基于流式SMART数据构建两个分类器依次训练,虽有效缓解了数据不平衡问题,但由于现实数据中心的故障数据极少,仍无法提供充足的数据对第一分类器训练建模。

根据上述分析,本文提出一种可生成时间序列段数据的数据增强算法(LGAN),该算法在数据增强的同时实现了对SMART数据中故障趋势信息的保留。同时,根据SMART数据在特征维度和时序维度的动态变化,提出了一种融合时序注意力机制(time attention, TA)和特征注意力机制(feature attention, FA)的预测模型。为了在时间维度上对历史时间步与当前时间步进行关联分析,在时序注意力前后分别加入LSTM编码单元和LSTM解码单元,提高了模型预测的准确性。此外,在特征选择过程中设计了一种融合多算法的位置加权排序的特征选择——Q-sort算法,并通过实验验证了所提算法的有效性。

1 硬盘故障预测模型的设计与实现

故障预测算法框架如图 1所示。预测模型的部署由离线训练和在线预测两部分组成,融合双注意力机制的硬盘故障预测模型简称为TFA-LSTM。本文融合皮尔逊相关系数(Pearson correlation coefficient,PC) [16]、斯皮尔曼相关系数(Spearman′s rank correlation coefficient,SC)[17]、随机森林(random forest,RF)[18]、XGBoost[19]和Relief[14, 20]五种特征选择算法进行特征筛选。

图 1 故障预测算法框架 Fig. 1 Failure prediction algorithm framework

数据预处理后,对所有故障数据进行基于LGAN模型的数据增强,得到平衡数据集。然后,结合原始健康数据来共同训练TFA-LSTM。训练过程中,TFA-LSTM不断学习SMART数据的特征分布和时序依赖信息,并输出判别模型。

在线预测部分通过加载训练好的判别模型,对新产生的硬盘SMART数据进行判断,从而预测硬盘是否会产生故障趋势或发生故障。

1.1 故障硬盘SMART数据分析处理

分别对一块健康硬盘和一块故障硬盘的SMART特征随时间的变化趋势进行可视化,结果如图 2所示。可以看出,故障数据在接近真实故障的过程中,会产生越来越剧烈的波动,传统数据增强方法完全忽略该部分信息,仅依据故障当天的SMART值进行数据重构生成伪样本,不符合真实数据情况。

图 2 硬盘SMART数据随时间的变化趋势 Fig. 2 Trend of hard disk SMART data over time

结合实际运维工作的情况,将故障前一周的SMART数据标记为恶化趋势数据。基于此,融合了时序模型LSTM的LGAN数据增强算法通过提取所有的故障序列,学习时间序列数据中的恶化趋势信息和故障信息,从而创新性地重构出具有周期性和时间相关性的时序故障数据。

1.2 LGAN数据增强模型 1.2.1 LGAN结构设计

LGAN数据增强模型结构如图 3所示,主要由生成器(Generator,G)和鉴别器(Discriminator,D)两部分组成。其中,生成器G由编码器Enc1和解码器Dec1构成,Enc1通过两层LSTM网络实现,将输入的故障数据编码为隐空间的低维向量,进而学习原始故障数据中有价值的信息。Dec1与Enc1结构对称分布,将Enc1编码后的隐向量还原到初始表现形式。鉴别器D的主体为编码器Enc2,与Enc1结构相同,但其输出的是输入数据为真实数据的概率,从而完成对真实数据和生成数据的识别。

图 3 LGAN数据增强模型结构 Fig. 3 LGAN data-enhanced model structure
1.2.2 运用LGAN的硬盘故障数据增强

相较于传统GAN网络,LGAN将LSTM贯穿于整个模型,从而可执行基于时间序列的数据建模。在生成器G中,故障数据首先经Enc1编码,得到其在低维隐空间的编码向量V,然后Dec1以类似方式从隐空间将编码向量重构出原始输入,

$ e: h_t=\varphi\left(W_x+b\right), \boldsymbol{V}=h_t, $ (1)
$ r: \hat{x_t}=\varphi\left(W^{\prime} \boldsymbol{V}+b^{\prime}\right), $ (2)

其中:er分别为编码函数和解码函数(通过LSTM实现);φ为非线性激活函数;WxW′为待训练参数;bb′分别为编码器和解码器的偏置项。

训练博弈过程中,生成器G使Enc1和Dec1在数据重构损失LR最小的目标下得到隐空间的当前最优解,并固定最优解下的编码和解码参数。损失函数可表示为

$ L_R=E_{1: T \sim p}\left[\sum\limits_T\left\|h_t-\hat{x}_t\right\|_2\right] 。$ (3)

在当前最优解下,生成函数g继承于编码函数和解码函数,将随机噪声Z作为输入,重构生成故障样本$\hat{X}$

$ g: h_Z=e(Z), \hat{X}=r\left(h_Z\right) \text { 。} $ (4)

鉴别器D同样由LSTM编码,完成对输入的真实数据和生成数据的分类,返回分类结果Dt∈(0, 1),设置阈值为0.5。当Dt>0.5时,判断为真实数据;当Dt≤0.5时,判断为生成数据。在鉴别器D的训练优化过程中,通过使鉴别损失函数LU最小化,达到最大化鉴别精度的目的,

$ L_U=E_{1: T \sim p}\left[\sum\limits_T \log D_t\right]+E_{1: T \sim \hat{p}}\left[\sum\limits_T \log \left(1-D_t\right)\right] \text { 。} $ (5)

然后,固定当前鉴别器最优参数,进一步优化生成器G,反复迭代,直至达到G与D之间的纳什均衡,即D的最小鉴别损失为0.5,无法识别数据源是否为真实数据。G生成的数据极尽逼近真实故障数据,并保存和输出当前状态下的生成数据$\hat{X}$

1.3 基于TFA-LSTM的硬盘故障预测

数据不平衡问题使基于LSTM模型的预测能力一直未达到预期效果[12, 14]。使用LGAN完成了保留时序信息的数据增强工作,为LSTM等关注数据间关联关系的循环神经网络(RNN)模型提供了数据基础。基于此,为了充分学习和利用数据中的依赖信息,在LSTM模型上同时加入特征注意力机制和时序注意力机制[21],提出了一种融合双注意力机制的硬盘故障预测模型TFA-LSTM。

1.3.1 面向硬盘属性间关系的特征注意力机制

不同SMART属性对故障的表征能力各不相同。例如,smart_1(底层数据读取错误率)属性记录了存储器从某硬盘表面读取数据时的错误率,当该属性出现数值时,表示磁头已出现问题。因此,在训练过程中应着重关注该属性的变化情况。相比之下,smart_240(磁头飞行时间)、smart_9(通电时间)等属性值的变化会逐渐增加硬盘故障的概率,但不会直接预示故障。因此,在模型训练过程可将该类属性作为辅助分析因素,适当降低对其的关注程度。

面向硬盘属性间关系的特征注意力机制可以实现上述目标。特征注意力层是由n个神经元组成的神经网络,将特征集X=[x1, x2, …, xn](n为特征个数)输入其中后,使用式(6)得出样本各属性的权重系数αk,然后使用式(7)将权重系数与输入数据X融合得到特征加权数据αX,即

$ \alpha^k=\operatorname{Softmax}\left(W_e X^k+b_e\right), $ (6)
$ \alpha X=X \odot \alpha^k=\left[\alpha^1 x^1, \alpha^2 x^2, \cdots, \alpha^n x^n\right], $ (7)

其中:We为可训练权重;be为特征注意力机制的偏置项。

1.3.2 面向硬盘属性时序关系的时序注意力机制

SMART数据在时序上也存在依赖关系。例如,smart_5(重新分配扇区计数)记录了硬盘某扇区持续出现读/写校验错误时,将该地址重新定向到备用扇区进行数据转移的扇区数量。当该属性值不为零时,要密切注意其发展趋势。若其能长期保持稳定,则硬盘仍可正常运行;若数据值不断上升,说明不良扇区在增加,硬盘已处于不稳定状态,有极高的故障风险。因此,时序注意力机制通过记忆过往信息,完成对发生在该时间过程中的情况分析。本文利用卷积神经网络中的卷积核(kernel)提取当前时间步与历史数据之间的时序信息,具体步骤如下。

Step1   将特征加权数据αX输入LSTM编码单元,输入数据隐状态ht可表示为

$ \left\{\begin{array}{l} c_t=f_t \odot c_{t-1}+i_t \odot \tanh \left(W_c x_t+U_c h_{t-1}+b_c\right), \\ h_t=o_t \odot \tanh \left(c_t\right), \end{array}\right. $ (8)

其中:ctct-1分别为当前时刻和上一时刻的神经元状态;ftitot分别为遗忘门、输入门和输出门;WcUc分别为当前时刻和上一时刻的权重系数。

Step2   当前时间步的LSTM编码单元隐状态ht与先前时间步的LSTM解码单元隐状态dt-1共同构成分析矩阵H

$ \boldsymbol{H}=\left[d_{t-1}, h_t\right] \text { 。} $ (9)

H输入时序注意力机制模块,时序注意力机制配置l个(l为时序数据窗口大小)kernel,kernel沿H的行向量对时间窗口内的每个时间步进行卷积计算,并依次提取每个特征进行重复操作,最终得到时间模式矩阵HC

$ H C_i^j=\sum\limits_{l=1}^\omega H_l^j \times C_l, $ (10)

其中:HCij表示第i个kernel与第j个特征卷积作用的结果值。HC的每一行表示一个时间步信号,使用式(11)作为评分函数,计算每行HCiht的相关性得分, 并对其归一化,得到时序注意力权重,

$ \left\{\begin{array}{l} f\left(\boldsymbol{H C}_i, h_t\right)=\left(\boldsymbol{H C}_i\right)^{\mathrm{T}} \boldsymbol{W}_a h_t, \\ \boldsymbol{\beta}_i=\operatorname{sigmoid}\left(f\left(\boldsymbol{H C}_i, h_t\right)\right), \end{array}\right. $ (11)

其中:HCiHC的行向量;Wa为权重矩阵;βi为时序注意力权重。

Step3  对特征加权数据αX进行时序注意力加权得到βαX,并输入LSTM解码单元。同时,LSTM解码器读取标签yt。对输入数据进行解码,从而得到隐状态dt

$ d_t=f_1\left(y_t, \beta_t h_t^n, d_{t-1}\right) \text { 。} $ (12)

dt与下一时间步的解码单元ht+1构成分析矩阵H,再次输入时序注意力机制中。根据t时刻标签进行硬盘故障预测,

$ Y_T=v_y^T\left(W_y\left[d_T ; \beta^{t T} h_n^T\right]+b_w\right)+b_v, $ (13)

其中:Wybw将解码器中前后时刻的隐状态进行连接;υyT为带权重的线性函数;bv为偏差。预测结果表示为YT∈(0, 1),并设置阈值为0.5。当预测结果YT≤0.5时,认为硬盘处于健康状态;当预测结果YT>0.5时,则认为硬盘出现故障趋势或已发生故障,立刻发出故障预警。

2 数据集与预处理 2.1 数据集

实验采用Back Blaze云存储公司2021年的硬盘SMART数据,型号为希捷ST4000DM000硬盘。该型号硬盘年化故障率为1.80%,其中故障硬盘339块,健康硬盘18 611块。为保证实验数据的严谨性,仅保留完整运行一年的18 394块硬盘用于实验验证。

已有研究一般将评估数据随机划分来验证结果,未考虑事件发生的先后顺序。为保证实验过程的严谨性,依据时间特征将数据集划分为训练集、验证集、测试集,ST4000DM000硬盘数据见表 1。故障硬盘选取故障发生时间靠前的237块硬盘用于训练,其中200块作为训练集,37块作为验证集;故障发生时间靠后的102块硬盘用于测试集。而健康硬盘拥有整年的运行数据,因此将运行前8个月数据用于训练,其中前7个月数据作为训练集,剩余1个月数据作为验证集;将运行后4个月数据作为测试集。在真实的训练数据集中,健康硬盘与故障硬盘的数量比约为92 ∶1,正负样本严重失衡。

表 1 ST4000DM000硬盘数据 Tab. 1 ST4000DM000 hard disk data
2.2 数据预处理 2.2.1 融合多算法的加权平均特征选择

为避免只使用单一特征选择方法的不稳定性,融合5种典型特征选择算法提出了Q-sort二次排序加权平均特征选择。5种典型特征选择算法分析如下。

1) PC算法。该算法学习SMART特征与标签之间的线性关系,直接计算各特征对故障标签的表征能力。

2) SC算法。该算法计算SMART特征和故障标签之间的单调关系(不仅仅是线性关系)。

3) RF算法。不同于其他方法直接对各个特征进行判断, 该算法通过故障预测效果来间接评估特征的重要性,根据预测结果的误差大小选择最有价值的特征。

4) XGBoost选择算法。该算法直接对特征的重要性进行评估,将特征的重要性具象化为该特征在构建提升树时的作用。

5) Relief算法。该算法也直接对特征进行重要性评估,通过引入向量的方式来衡量特征重要性。

上述5种典型特征选择算法分别从不同的角度和规则进行筛选,具有一定的代表性。Q-sort特征选择算法流程设计如下。

Step1  特征重要性计算。基于5种典型特征选择算法,分别对数据集中特征的重要性打分,并进行首次排序得到5个特征重要性序列,即(a1, a2, a3, a4, a5)。

Step2  位置平均值计算。依据特征i首次排序时出现在各序列中的位置,计算该特征的位置平均值。由于特征在不同算法中的重要性得分不同,甚至相差悬殊,因此在计算位置平均值时,根据其重要性得分赋予权重。设定当特征得分的有效信息值出现在十分位时,该特征的位置权重为1;当有效信息值出现在百分位时,该特征的位置权重为2,依此类推。

假设特征i在第一种算法的重要性得分为0.045 7,则将该特征的位置权重赋值为2(有效信息值出现在百分位),即ω1=2。a1i为特征ia1序列中的位置值,则最终的加权位置xi

$ \bar{x}_i=\frac{\omega_1 a_{1 i}+\omega_2 a_{2 i}+\omega_3 a_{3 i}+\omega_4 a_{4 i}+\omega_5 a_{5 i}}{5} 。$ (14)

Step3  二次排序。根据特征的位置平均值大小对特征升序排序,得到序列a,则axi从小到大的排序结果。

根据Q-sort算法的二次排序结果,选定排名前7位的特征为最终特征选择结果,如表 2所示。

表 2 Q-sort算法的特征选择结果 Tab. 2 Selection results of the Q-sort algorithm
2.2.2 归一化

不同SMART特征的取值范围不同,为消除其影响,对每个SMART特征进行归一化,

$ x^{\prime}=\frac{x-x_{\min }}{x_{\max }-x_{\min }}, $ (15)

其中:xmin为样本数据的最小值;xmax为样本数据的最大值。

3 实验与分析 3.1 实验环境与设计

实验使用Intel i9-12900H CPU和NVIDIA GeForce 3060 GPU,于TensorFlow深度学习架构在Python 3.6环境中实现。采用准确率、召回率和F1值作为实验评价指标,其中,准确率表示预测的故障硬盘中真正即将故障的硬盘数量比例;召回率表示正确预测的故障硬盘占所有实际故障硬盘的比例;F1值表示准确率和召回率的调和平均。

为保证实验结果的稳定性,所示结果均取5次实验后的平均值。实验将分别针对特征选择、数据增强和TFA-LSTM故障预测模型3个模块的有效性进行验证。

3.2 特征选择算法对模型性能提升效果分析

为验证本文Q-sort算法对模型性能的提升效果,分别与PC、SC、RF、XGBoost、Relief、Pipeline[22]特征选择算法的预测结果进行对比,并将未进行特征选择的情况也加入对比,实验结果如表 3所示。

表 3 不同特征选择算法对模型性能提升效果对比 Tab. 3 Comparison of different feature selection algorithms for improving model performance  

表 3可以看出,本文Q-sort算法的召回率和F1值均达到了最佳效果,分别为69%和59%;准确率为56%,比取得最佳结果的PC算法(59%)略低,但PC算法的召回率和F1值并不理想,这验证了本文算法可以更好地识别出故障硬盘,同时也保证了良好的模型综合性能。SC和XGBoost算法虽然取得了较高的召回率,但是准确率较低,表明其所选特征使模型产生了较多的错误预测。总体而言,在对硬盘故障预测结果准确率和召回率之间的权衡中,Q-sort算法表现出色,有效提高了硬盘故障预测性能。

RF算法特征选择的每项指标均较低,这是由于RF算法是基于模型预测结果进行特征选择,所选特征只在RF预测模型中表现较优,而本文特征选择部分实验结果是基于TFA-LSTM预测模型得到的,因此模型间的差异造成了RF算法各项指标都很低。这也进一步说明了只选用一种特征选择算法的局限性,但为了保证Q-sort算法的健壮性,仍然保留了RF算法。

3.3 数据增强对模型性能提升效果分析 3.3.1 LGAN数据增强提升效果分析

为验证LGAN的数据增强提升效果,在原始故障数据的基础上,分别进行1倍、3倍、5倍、7倍、8倍、9倍、10倍、15倍的数据增强实验,数据增强程度对不同模型性能提升效果对比如图 4所示。可以看出,未进行数据增强或增强倍数很低时,传统的LSTM模型无法学习故障数据的有效信息,模型预测效果极差。随着数据增强程度的增加,各模型的评价指标均有不同程度的提升,但在基于深度学习的预测模型中提升效果更为显著,尤其是TFA-LSTM表现最好。分析原因,LGAN生成的具有时序特征的数据,满足了LSTM、CNN-LSTM[5]、TFA-LSTM模型对训练数据的要求,可充分学习该数据集信息并完成预测。

图 4 数据增强程度对模型性能提升效果对比 Fig. 4 Comparison of the effect of data augmentation on model performance improvement

当数据增强8倍后,各预测模型基本达到了饱和状态。随着数据增强程度的持续增加,预测结果虽有微弱上升,但均已接近各自的最佳状态。因此,后续实验中所示的结果均为数据增强8倍模式下得到的。

3.3.2 基于时序数据的LGAN数据增强消融实验

分别选择SVM、GBDT、RF机器学习模型,以及LSTM、CNN-LSTM和本文提出的TFA-LSTM深度学习模型作为基准模型,进行无数据增强、GAN数据增强和LGAN数据增强,消融实验结果如图 5所示。可以看出,LGAN在各个预测模型上表现出绝对的优势。在无数据增强的情况下,预测结果总体表现最差,这表明数据增强方案是十分有效的。

图 5 LGAN数据增强消融实验结果 Fig. 5 Ablation experiments results of LGAN data augmentation

基于SVM、GBDT、RF基准模型时,分别使用GAN和LGAN进行数据增强,各项指标的表现相差甚微。分析可知,传统机器学习模型通常基于一组规则或弱学习器的组合,无法捕获重要的上下文关联信息,因此LGAN生成的具有时间依赖关系的故障数据并未体现出其价值。然而,LGAN对深度学习模型的预测效果实现了更大幅度的提升。这验证了基于LGAN生成的故障数据具有时间依赖关系,使以时间序列结构展开训练的模型性能得以发挥到极致,从而得到了比使用GAN生成的数据更佳的结果,其中硬盘故障预测的准确率提高2~17个百分点,召回率提高2~12个百分点,F1值提高3~15个百分点。

3.4 LGAN-TFA-LSTM硬盘故障预测效果分析

为验证LGAN-TFA-LSTM算法的有效性,选取了具有权威性和代表性的相关研究成果作为基准对比模型,表 4展示了不同硬盘故障预测模型的结果。可以看出,LGAN-TFA-LSTM的准确率、召回率和F1值分别达到97%、96%和97%。其中,相较于CNN-LSTM模型,准确率提高3个百分点,召回率提高11个百分点,F1提高8个百分点;相较于MSGMD[16]模型,召回率提高17个百分点,F1提高20个百分点;相较于最新的StreamDFP[7]模型,准确率提升10个百分点,召回率提升21个百分点,F1值提升17个百分点。

表 4 不同硬盘故障预测模型的结果对比 Tab. 4 Comparison of results of different hard disk fault prediction models  

为进一步验证所提模型中LSTM的有效性,选择了RNN及其变体网络进行消融组合,LSTM有效性验证消融实验结果如表 5所示。可以看出,基于Transform的组合取得了比RNN和GRU(一种RNN变体)组合更优的效果。其中,Transform组合的准确率指标表现最优,而召回率和F1值略低于LSTM组合,二者之间总体效果相差甚微。但从模型训练角度分析,简洁轻量的LSTM组合更加符合实际预测场景的需要。

表 5 LSTM有效性验证消融实验结果 Tab. 5 Ablation experiment results of LSTM effectiveness validation  
4 结语

本文针对数据存储中心的硬盘故障预测算法效果不佳的问题,提出一种基于时序SMART不平衡数据的故障预测算法LGAN-TFA-LSTM,在特征选择阶段融合多种算法提取数据特征,有效提高了数据集在模型训练中的鲁棒性。通过LGAN生成包含故障趋势信息的时间序列段数据,解决了数据集不平衡问题。针对故障预测模型,在横向和纵向两个维度分别加入注意力机制,提升了模型性能。在实际硬盘数据集上进行预测性能对比实验,实验结果表明,所提算法在不平衡数据集上具有较好的准确率、召回率和F1值。接下来的工作将考虑模型预测的实时性,并进一步优化预测算法的性能。

参考文献
[1]
ZHANG Y Q, HAO W W, NIU B, et al. Multi-view feature-based SSD failure prediction: what, when, and why[C]//Proceedings of the 21st USENIX Conference on File and Storage Technologies. Berkeley: USENIX Association, 2023: 409-424. (0)
[2]
彭福康. 面向云数据中心磁盘时序数据的故障预测方法研究[D]. 郑州: 郑州大学, 2021.
PENG F K. Research on fault prediction method for disk time series data in cloud data center[D]. Zhengzhou: Zhengzhou University, 2021. (0)
[3]
李静, 罗金飞, 李炳超. 主动容错副本存储系统的可靠性分析模型[J]. 计算机应用, 2021, 41(4): 1113-1121.
LI J, LUO J F, LI B C. Reliability analysis models for replication-based storage systems with proactive fault tolerance[J]. Journal of computer applications, 2021, 41(4): 1113-1121. (0)
[4]
LI J, JI X P, JIA Y H, et al. Hard drive failure prediction using classification and regression trees[C]//Proceedings of the 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks. Piscataway: IEEE Press, 2014: 383-394. (0)
[5]
LU S D, LUO B, PATEL T, et al. Making disk failure predictions SMARTer![C]//Proceedings of the 18th USENIX Conference on File and Storage Technologies. Berkeley: USENIX Association, 2020: 151-168. (0)
[6]
LIU Y D, YANG H L, ZHAO P, et al. Multi-task hierarchical classification for disk failure prediction in online service systems[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2022: 3438-3446. (0)
[7]
HAN S J, LEE P P C, SHEN Z R, et al. StreamDFP: a general stream mining framework for adaptive disk failure prediction[J]. IEEE transactions on computers, 2023, 72(2): 520-534. DOI:10.1109/TC.2022.3160365 (0)
[8]
XIAO J, XIONG Z, WU S, et al. Disk failure prediction in data centers via online learning[C]//Proceedings of the 47th International Conference on Parallel Processing. New York: ACM Press, 2018: 1-10. (0)
[9]
IRCIO J, LOJO A, LOZANO J A, et al. A multivariate time series streaming classifier for predicting hard drive failures[J]. IEEE computational intelligence magazine, 2022, 17(1): 102-114. DOI:10.1109/MCI.2021.3129962 (0)
[10]
姜少彬, 杜春, 陈浩, 等. 一种硬盘故障预测的非监督对抗学习方法[J]. 西安电子科技大学学报, 2020, 47(2): 118-125.
JIANG S B, DU C, CHEN H, et al. Unsupervised adversarial learning method for hard disk failure prediction[J]. Journal of xidian university, 2020, 47(2): 118-125. (0)
[11]
ZHU B P, WANG G, LIU X G, et al. Proactive drive failure prediction for large scale storage systems[C]//IEEE 29th Symposium on Mass Storage Systems and Technologies. Piscataway: IEEE Press, 2013: 1-5. (0)
[12]
ZHAO Y Y, WANG Y X. Remaining useful life prediction via attention mechanism-based LSTM neural networks[C]//IEEE 9th Joint International Information Technology and Artificial Intelligence Conference. Piscataway: IEEE Press, 2020: 306-310. (0)
[13]
TANAKA F H K, ARANHA C. Data augmentation using GANs[EB/OL]. (2019-04-19)[2023-12-21]. https://doi.org/10.48550/arXiv.1904.09135. (0)
[14]
SHI J J, DU J, REN Y W, et al. Convolution-LSTM-based mechanical hard disk failure prediction by sensoring S.M.A.R.T. indicators[J]. Journal of sensors, 2022, 9756794. (0)
[15]
SANTO A, GALLI A, GRAVINA M, et al. Deep learning for HDD health assessment: an application based on LSTM[J]. IEEE transactions on computers, 2022, 71(1): 69-80. DOI:10.1109/TC.2020.3042053 (0)
[16]
WANG W, TANG X H, ZHOU B Y, et al. Improving disk failure detection accuracy via data augmentation[C]// IEEE/ACM 30th International Symposium on Quality of Service. Piscataway: IEEE Press, 2022: 1-10. (0)
[17]
SPEARMAN C. The proof and measurement of association between two things[J]. The American journal of psychology, 1987, 100(3/4): 441-471. DOI:10.2307/1422689 (0)
[18]
SHEN J, WAN J, LIM S J, et al. Random-forest-based failure prediction for hard disk drives[J]. International journal of distributed sensor networks, 2018, 14(11): 1-15. (0)
[19]
XU F, HAN S J, LEE P P C, et al. General feature selection for failure prediction in large-scale SSD deployment[C]// Proceedings of the 51st Annual IEEE/IFIP International Conference on Dependable Systems and Networks. Piscataway: IEEE Press, 2021: 263-270. (0)
[20]
PRAVEENA H D, SUBHAS C, NAIDU K R. Automatic epileptic seizure recognition using reliefF feature selection and long short term memory classifier[J]. Journal of ambient intelligence and humanized computing, 2021, 12(6): 6151-6167. DOI:10.1007/s12652-020-02185-7 (0)
[21]
冀源蕊, 康海燕, 方铭浩. 基于Attention与Bi-LSTM的谣言识别方法[J]. 郑州大学学报(理学版), 2023, 55(4): 16-22.
JI Y R, KANG H Y, FANG M H. Rumor recognition method based on Attention and Bi-LSTM[J]. Journal of Zhengzhou university (natural science edition), 2023, 55(4): 16-22. DOI:10.13705/j.issn.1671-6841.2022039 (0)
[22]
WANG J Y, ZHANG C P, ZHANG L J, et al. A novel aging characteristics-based feature engineering for battery state of health estimation[J]. Energy, 2023, 273: 127169. DOI:10.1016/j.energy.2023.127169 (0)