具有可解释性的DRWT-Trans轴承故障诊断方法

引用本文

刘晶, 王梓玄, 牛巍, 等. 具有可解释性的DRWT-Trans轴承故障诊断方法[J]. 郑州大学学报(理学版), 2026, 58(3): 25-32.

LIU Jing, WANG Zixuan, NIU Wei, et al. An Interpretable Bearing Fault Diagnosis Method Based on Adaptive Wavelet Denoising Network[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(3): 25-32.

基金项目

天津市制造业高质量发展专项资金项目(20232181)；天津市科技计划项目(21JCZXJC00050)

通信作者

季海鹏(1981—)，男，副研究员，主要从事工业人工智能研究，E-mail: haipeng@jingnuodata.com

作者简介

刘晶(1979—)，女，研究员，主要从事工业人工智能研究，E-mail: 88451500@qq.com

文章历史

收稿日期：2024-07-09

Contents Abstract Full text Figures/Tables PDF

具有可解释性的DRWT-Trans轴承故障诊断方法

刘晶^1,2,3, 王梓玄¹, 牛巍⁴, 季海鹏^2,3,5, 武优西¹

1. 河北工业大学人工智能与数据科学学院天津 300401;
2. 河北省数据驱动工业智能工程研究中心天津 300400;
3. 天津开发区精诺瀚海数据科技有限公司天津 300400;
4. 中信戴卡股份有限公司河北秦皇岛 066005;
5. 河北工业大学材料科学与工程学院天津 300401

收稿日期：2024-07-09

基金项目：天津市制造业高质量发展专项资金项目(20232181)；天津市科技计划项目(21JCZXJC00050)

作者简介：刘晶(1979—)，女，研究员，主要从事工业人工智能研究，E-mail: 88451500@qq.com.

通信作者：季海鹏(1981—)，男，副研究员，主要从事工业人工智能研究，E-mail: haipeng@jingnuodata.com.

摘要：基于深度学习的轴承故障诊断方法面对复杂噪声工况数据时，存在特征充分提取难以实现、决策过程缺乏可解释性的问题。针对上述问题，提出一种具有可解释性的轴承故障诊断方法。首先，提出自适应小波去噪特征融合网络模块，通过离散小波分解并引入软阈值机制，在实现滤波去噪的同时结合网络结构优势充分提取故障数据的局部和全局特征信息；其次，设计特征信息可解释模块，通过对模型的特征提取，决策过程进行可解释分析，提高了模型内部决策机制的透明性；最后，在凯斯西储大学数据集和某工厂减速机实际工况数据集上进行了验证。

关键词：轴承故障诊断噪声可解释特征提取深度学习

An Interpretable Bearing Fault Diagnosis Method Based on Adaptive Wavelet Denoising Network

LIU Jing^1,2,3, WANG Zixuan¹, NIU Wei⁴, JI Haipeng^2,3,5, WU Youxi¹

1. School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401, China;
2. Hebei Data Driven Industrial Intelligent Engineering Research Center, Tianjin 300400, China;
3. Tianjin Development Zone Jingnuo Data Technology Co., Ltd., Tianjin 300400, China;
4. CITIC Dicastal Co., Ltd., Qinhuangdao 066005, China;
5. School of Materials Science and Engineering, Hebei University of Technology, Tianjin 300401, China

Abstract: Deep learning-based bearing fault diagnosis methods often face challenges in extracting sufficient features from complex noisy operational data, and suffer from a lack of interpretability in their decision-making processes. To address these challenges, an interpretable DRWT-Trans method was introduced for bearing fault diagnosis, to overcomes challenges in feature extraction from noisy operational data and to enhance decision-making transparency. The DRWT-Trans module emploe discrete wavelet decomposition with soft thresholdto for noise reduction and feature extraction. An interpretable module was designed for model analysis increase the interpretability of the model decision. The method's validity was tested on the Case Western Reserve University dataset and a factory gearbox dataset.

Key words: bearing fault Diagnosis noise interpretability feature extraction deep learning

0 引言

轴承作为支撑机械设备安全运转的关键部件，其运行状态直接影响设备的使用寿命，及时有效识别和分类早期故障特征具有十分重要的意义^[1]。随着智能传感器和工业物联网的蓬勃发展，工业数据的快速积累促进了深度学习在智能故障诊断领域的研究^[2]。然而，实际设备往往在强噪声环境下运行，采集信号包含众多噪声分量。目前基于深度学习的智能诊断方法集中于提高模型的整体性能，忽略了模型从强噪声信号中提取特征的能力，且模型诊断过程多数采用黑盒形式进行，在实际应用场景中难以同时保证模型的准确性和可靠性。

近年来，为了提高模型在实际噪声工况环境下的准确性，一些学者致力于探索更有效的方法以提高模型对轴承故障特征的抽取能力。例如，He等^[3]提出MCNN轴承故障诊断方法，通过特征叠加拼接的方式来融合多尺度特征，提高了模型特征提取的感受野；孟博等^[4]通过改进变分模态分解和麻雀搜索算法进一步优化极限学习机，实现了诊断精度和效率的提升。为了充分提取原始噪声数据中的时频特征，刘晶等^[5]通过连续小波变换将机械振动信号转化为时频图，同时提取振动信号中的时域和频域特征，取得了良好的诊断效果。上述方法通过特征融合、信号处理和注意力等手段，提高了模型在噪声环境下的诊断效果，但由于CNN局部感知特性，模型难以学习数据中的长距离依赖关系，致使部分全局特征信息丢失。与CNN网络不同，Ashish等^[6]提出的Transformer模型是一种基于自注意力机制的模型，它在处理序列数据时能够捕获长距离依赖关系，同时还能并行处理序列中的所有元素，大大提高了模型的训练效率。Alexey等^[7]提出了Vision Transformer(ViT)，通过将图像块序列映射到语义标签来执行分类，获得了不错的诊断效果。然而振动信号是一维时域信号，原始振动信号经变换得到的二维图像不能完全反映原有的振动信息，这使得模型很难直接学习有意义的故障特征。

与此同时，随着深度学习的不断发展和应用，其黑盒特性也日益凸显，导致模型的可靠性受到严重影响，为了理解模型特征学习和决策机制，需要从模型内部结构或决策过程提供解释说明。Michal等^[8]设计了BBM-RS决策树模型，从模型内部结构保证了模型的解释性和鲁棒性；Bau等^[9]首次提出了类激活映射(CAM)方法，通过高亮输入图片里与预测结果最相关的区域来探索结果的决策原因。上述研究分别从模型内部结构和模型决策结果层面增强了可解释性，取得了较好的效果，但上述方法需要依赖特定的网络结构为基础，难以在实际复杂环境下应用。

基于以上分析，针对实际噪声工况条件下数据中的特征信息难以有效提取，且特征学习和决策过程缺乏可解释性问题，提出一种具有可解释性的DRWT-Trans轴承故障诊断方法。该方法包括自适应小波去噪特征融合网络模块和特征信息可解释模块。自适应小波去噪特征融合网络模块首先通过改进的自适应小波去噪卷积进行滤波去噪，充分学习故障数据的局部特征信息，其次通过构建Transformer网络对数据特征的全局上下文信息进行补充，从而解决了实际噪声数据下的特征提取难题。特征信息可解释模块通过对模型的特征数据和特征可视化图像进行可解释分析，实现了对模型的提取特征和决策过程的理解，不仅提高了模型的透明度和可靠性，还有助于发现模型在特定情况下的局限性或错误，并为进一步优化提供指导。最后在凯斯西储大学公开数据集以及某工厂减速机实际运行数据集上进行了验证，证明了本文方法的有效性。

1 具有可解释性的DRWT-Trans轴承故障诊断方法

具有可解释性的DRWT-Trans轴承故障诊断方法框架如图 1所示。该方法包括自适应小波去噪特征融合网络模块和特征信息可解释模块两部分。

图 1 具有可解释性的DRWT-Trans轴承故障诊断方法框架图 Fig. 1 Framework of the interpretable DRWT-Trans bearing fault diagnosis method

1.1 自适应小波去噪特征融合网络模块

自适应小波去噪特征融合(DRWT-Trans)网络轴承故障诊断方法如图 2所示。对于传感器采集到的实际振动信号数据，首先通过自适应小波去噪卷积(DRWT)层，实现对原始信号数据的高频滤波去噪和不同尺度上的故障特征提取，随后引入Transformer结构，利用全局自注意力机制捕获远距离特征，提高故障识别精度，最后将信号特征输入分类器得到故障信息的诊断结果。

图 2 自适应小波去噪特征融合网络模块框架图 Fig. 2 Diagram of the adaptive wavelet denoising feature fusion network module

噪声数据往往具有复杂的非线性结构和高度的随机性，而传统一维卷积模型对这种复杂的信号特征提取能力有限，因此本文提出自适应小波卷积(DRWT)代替传统卷积对故障信号特征进行自主学习。通过自适应小波阈值去噪滤除信号中的主要噪声信息，随后利用两种不同尺度的卷积核，丰富原始振动信号的表示特征，提高模型对故障特征信息的学习能力，同时该层通过卷积操作能够定位检测各频段故障信息，使模型具有良好的解释性。

小波变换是一种十分有效的信号处理工具，其中离散小波变换(DWT)被广泛用于信号分解，并通过信号重构实现信号去噪^[10]。在离散小波变换中，可以通过一对Hp和Lp小波滤波器来完成信号分解。该滤波器组可用小波基H(t)及其缩放函数G(t)来表示，即

$ \left\{\begin{array}{l} H(t)=\sqrt{2} \sum\limits_i h_i H(2 t-i) \\ G(t)=\sqrt{2} \sum\limits_i g_i H(2 t-i) \end{array}, \right. $

其中：h_i和g_i分别表示Hp和Lp滤波器的系数。由于故障信号通常包含瞬态特征和非平稳特性，因此在小波基的选取上使用在频域和时域都有较好局部化性质的Morlet小波基，有助于更好地识别轴承的故障特征。基于所生成的小波滤波器，可以获得信号的低频和高频分量的集合，即

$ \left\{\begin{array}{l} \mu_{j, i}=\sum\limits_m h_{m-2 i} \mu_{j+1, m} \\ \nu_{j, i}=\sum\limits_m g_{m-2 i} \mu_{j+1, m} \end{array}, \right. $

分别表示信号的低频近似分量和高频细节分量，而信号噪声主要存在于高频细节分量中，可以通过设置阈值进行阈值量化，从而降低信号中的噪声。受深度残差收缩网络^[11]启发，这里选择对高频细节分量进行软阈值化处理。相较于硬阈值，软阈值能够更好地保留那些刚好等于阈值的信号部分，使得信号看起来更加平滑，能最大限度地保留信号原始特性。随后可以通过相反的方式实现信号重构，其重构过程可表示为

$ \mu_{j+1, i}=\sum\limits_i \mu_{j, i} h_{m-2 i}+\operatorname{soft}\left(\sum\limits_i \nu_{j, i} h_{m-2 i}, \tau\right), $

其中：soft(·, τ)表示具有阈值τ的软阈值函数，定义为

$ \operatorname{soft}(x, \tau)=\left\{\begin{array}{lc} x+\tau, & x \leqslant-\tau \\ 0, & |x| \leqslant-\tau, \\ x-\tau, & x \geqslant-\tau \end{array}\right. $

阈值τ的初始值可以通过$\tau_j=\sqrt{\sigma(2 \log \nu)} $来计算，σ是噪声的标准偏差。由于后续难以计算阈值τ的合适值，因此将其设置为可学习的参数，使其自适应地从原始数据中学习。

图 3为适用于本模型的两级自适应小波阈值去噪(ADWT)框架图。从图 3中可以看出，原始信号x^j+1首先通过下采样被分解成a_u^j和a_v^j，对应于滤波器的Lp和Hp系数，之后，将获得的a_v^j再次分解为用于下一尺度的Lp和Hp的系数，相比于一轮分解，两级小波分解可以获取更加细节的噪声信息。随后，在对Hp系数进行软阈值化之后，可以通过前面步骤的逆变换来实现信号重构。

图 3 两级自适应小波阈值去噪框架图 Fig. 3 Diagram of the two-level adaptive wavelet threshold denoising

除此之外，卷积网络因局部感知特性，在特征提取的过程中过多关注局部特征，忽略了数据中的长距离依赖关系可能导致部分关键信息丢失，因此，本文基于Transformer结构，在DRWT层基础上构建全局感知网络，如图 2所示。本文Transformer网络分为三个阶段。通过词嵌入(Embedding)层将输入数据转换为连续的实值向量表示，随后通过位置编码确保模型能够理解输入序列中元素的顺序关系，并将其输入编码器(Encoder)层中，利用多头自注意力机制进行全局建模，提取数据中的全局特征信息。

1.2 特征信息可解释模块

在深度学习模型应用于实际问题时，不仅有较高的准确性，同时还要保证模型的可靠性、可解释性。为了提高模型的透明度和可信度，本文以理解模型的特征提取和决策过程为出发点，提出了一种结合平方包络变换和梯度类激活映射(Grad-CAM)的可解释性方法。

平方包络变换作为信号分析的常用工具，可用于获取信号数据中随时间变化的频率分量，从而实现振动信号的可视化。在轴承故障诊断中，只要找到轴承的故障特征频率(fr)就可以判断其故障类型^[12]，利用这一特点，可以对故障特征数据进行平方包络变换，通过分析包络谱图中的特征频率信息，对模型的提取特征进行可靠性验证。

平方包络变换也叫Hilbert解调，设x(t)为一维实时域特征信息数据，其Hilbert变换定义为

$ h(t)=\frac{1}{\mathsf{π}} \int_{-\infty}^{+\infty} \frac{x(\tau)}{t-\tau} \mathrm{d} \tau 。$

用原始一维实时域特征信息数据x(t)和Hilbert变换数据h(t)可以构建一个新的解析数据z(t)，

$ z(t)=x(t)+\mathrm{j} h(t)=\alpha(t) \mathrm{e}^{\mathrm{j} \varphi t}, $

其中：h(t)是解析数据z(t)的虚部系数。通过进一步对z(t)取模进而可以获得其幅值数据α(t)，

$ \alpha(t)=|z(t)|=\sqrt{x^2(t)+h^2(t)} 。$

对幅值数据α(t)进行傅里叶变换可得到原始特征信息数据所对应的包络谱图，即

$ F(t)=\int_{-\infty}^{+\infty} \alpha(t)[\cos (2 \mathsf{π} t \tau)-\mathrm{j} \sin (2 \mathsf{π} t \tau)] \mathrm{d} t_{\mathrm{o}} $

为了进一步优化模型决策过程的可解释性，在上述计算得到的包络数据基础上，引入梯度类激活映射(Grad-CAM)。Grad-CAM是一种用于可视化深度神经网络中特征对预测结果贡献程度的技术，它能够定位特定的关注区域，从而使神经网络的决策过程更具可解释性。

在本故障诊断分类问题中，设故障类别数为n，则相应故障类别x所获得的分数为

$ Y^x=\sum\limits_k w_k^x \sum\limits_i \sum\limits_j A_{i j}^k, $

式中：Y^x为故障类别x的得分值；w_k^x为第k个特征信息对故障类别x的权重；A_ij^k为第k个特征信息在(i, j)处的值。对于故障类别x，第k个特征信息的权重为

$ \alpha_k^x=\frac{1}{Z} \sum\limits_i \sum\limits_j \frac{\partial Y^x}{\partial A_{i j}^k}, $

式中：Z是激活图中的像素数，即图像尺寸。

将所有特征信息的权重和对应的特征信息加权求和，再通过ReLU函数进行激活获得对应包络数据的类激活映射图，即

$ L_{\text {Grad-CAM }}^x=\operatorname{ReLU}\left(\sum\limits_k \alpha_k^x A^k\right) 。$

(11)

2 实验及结果分析 2.1 数据集介绍

为了验证笔者提出方法的有效性，本文选择美国凯斯西储大学(Case Western Reserve University，CWRU)电气工程实验室的公开轴承故障数据集^[13]作为实验的基准数据集，同时在某工厂减速机故障数据集上进行泛化性验证。

CWRU公开轴承数据集包含正常轴承数据和故障轴承数据。实验样本选取驱动端0 hp负载条件下10种故障状态(包含一种正常状态)的振动信号，采样频率为12 kHz，被测轴承型号为SKF6205。采用重叠采样的方式对样本进行扩充，每段样本的采样数为864个点，每类样本有500条数据，以7 ∶3划分训练集与测试集，得到350张训练图像和150张测试图像。具体实验样本及标签划分信息见表 1。

表 1 CWRU实验样本信息 Tab. 1 Sample information of CWRU experiment

另一个数据集为某工厂CG26-112A-18.99-A型减速机故障数据。在蜗杆下径向方向设置加速度传感器，采集振动加速度信号，采样频率为20 kHz，输入轴转速为1 500 r/min，共获得高速轴松动、蜗杆划痕、中间轴窜动和正常4类数据，每类故障数据又分为有负载和无负载两种工况，选择无负载工况下的数据作为实验数据，最终采集4类样本数据。每类样本数量为300，单个样本长度为864个数据点，训练集与测试集之比为7∶3。具体实验样本及标签划分信息见表 2。

表 2 某工厂减速机故障实验样本信息 Tab. 2 Sample information of gearbox fault experiments in a factory

2.2 变噪声条件下对比实验验证

为了验证DRWT-Trans模型在噪声环境下的特征提取和分类能力，本节通过在原始实验数据中依次添加信噪比(SNR)为-4、-2、0、2、4、6 dB的高斯白噪声来模拟实际环境噪声影响，同时考虑模型的泛化能力，在CWRU数据集以及某工厂减速机数据集上与近几年主流深度学习模型进行对比。

MSACNN^[14]：将一维时间序列转化为二维图像作为模型输入，利用多尺度卷积结构拓宽网络来实现不同维度敏感特征的提取，并加入注意力机制优化特征关注度。

CNN-BiLSTM^[15]：以轴承原始振动加速度信号为输入，通过一维卷积神经网络提取短期空间特征，并使用BiLSTM捕捉信号数据中的空间特征信息，最后加权融合，实现特征提取。

CNN-VIT^[16]：通过连续小波变换将一维时间序列转化为时频图，经过CNN卷积池化操作提取全局特征，使用Transformer提取时序特征，最后进行特征增强融合。

网络模型代码基于PyTorch实现，训练和测试环境为Windows10操作系统、英伟达RTX-4060 GPU。选择Adam优化器优化网络参数，批次为16，训练轮数为100，学习率为0.001。选用CrossEntropyLoss交叉熵作为损失函数，同时，为了避免偶然误差，选择5次实验取平均值作为最后实验结果，如表 3所示。

表 3 CWRU数据集下变噪声故障诊断准确率 Tab. 3 The accuracy of fault diagnosis with varying noise levels in the CWRU dataset

从表 3可以看出，各模型诊断准确率随着信噪比强度的增加(噪声强度减弱)而增加，且本文的DRWT-Trans模型与其他模型相比，在诊断准确率上均有不同程度的提升。与CNN-VIT相比，DRWT-Trans在SNR为-4 dB时诊断准确率提升了3.6个百分点。随着信噪比的增加，DRWT-Trans与CNN-VIT相比，并未取得明显进步，说明在低信噪比时，DRWT-Trans对小波分解获得的高频信息进行软阈值去噪对模型训练效果提升显著，但随着信噪比增大，噪声的影响逐渐减小，模型的诊断准确率都接近无噪声信号水平，因此差距逐渐缩小。

为进一步观察DRWT-Trans的模型性能，以CWRU数据集SNR为-2 dB为例，图 4为各模型测试集诊断准确率关于训练轮次的结果。可以看到在强噪声下，模型性能均出现大幅度下降，其中MSACNN模型在40轮左右诊断准确率不再增长，平均诊断准确率达到86.8%。CNN-BiLSTM准确率升至85%左右便趋于平稳，且训练后期无明显提升，模型对噪声敏感、泛化能力弱。CNN-VIT和DRWT-Trans测试集的诊断准确率均在30轮次左右开始收敛, 其中DRWT-Trans最高，测试集的诊断准确率达到92.4%，且上下浮动较小，说明相较其他模型，DRWT-Trans在强噪声环境下具有更好的诊断效果。

图 4 SNR为-2 dB下四种实验模型训练结果 Fig. 4 The results of the four experimental models when SNR is -2 dB in the CWRU dataset

表 4为某工厂减速机数据集下4种模型的对比实验结果。由表 4可以看出，各模型随噪声强度增加而减弱的趋势。在SNR为6 dB条件下，即噪声强度很弱时，DRWT-Trans与MSACNN、CNN-BiLSTM、CNN-VIT相比，诊断准确率分别提高了0.6、0.7、0.3个百分点，说明在噪声影响较弱时，DRWT-Trans在诊断分类的性能上与当前主流方法基本一致。随着信噪比减小，DRWT-Trans在抗噪性方面的优势逐渐体现，在SNR为-4 dB时，DRWT-Trans比MSACNN、CNN-BiLSTM、CNN-VIT模型分别提升了5.3、6.3、3.4个百分点。从整体上来看，CNN-BiLSTM效果较差，主要原因在于普通一维卷积层提取的特征受到噪声干扰较大，导致BiLSTM无法捕获序列中的有效信息，进而影响了模型的性能。MSACNN和CNN-VIT选择将原始数据转化为时频图数据，同时捕获信号的频率特征和时域特征，结合多尺度提取和注意力机制，提高了噪声诊断准确率，但将信号转化为时频图的同时，原始信号细节信息的丢失同样会对诊断结果造成影响；而DRWT-Trans通过在原始一维信号上进行阈值去噪，同时关注数据的局部和全局多特征信息，在保留信号完整性的同时，实现信号特征的充分提取，因此具有更高的诊断准确率，进一步验证了DRWT-Trans模型在强噪声环境下具有优秀的特征提取和诊断分类能力。

表 4 某工厂减速机数据集下变噪声故障诊断准确率 Tab. 4 The accuracy of fault diagnosis with varying noise levels in the gearbox dataset from a factory

2.3 变噪声条件下消融实验验证

为了评估DRWT-Trans模型中各模块有效性，本节在CWRU数据集上进行消融实验，在原始数据集中加入-6~6 dB等不同程度高斯白噪声作为实验数据，数据集划分及实验参数设置同前，分别对自适应离散小波卷积模块、Transformer全局特征提取模块进行有效性验证，共得到DRWT、Transformer、CNN-Trans、DRWT-Trans 4种网络模型结构。其中DRWT没有使用Transformer进行全局特征信息补足；Transformer不进行任何卷积操作；CNN-Trans选择普通卷积操作并使用Transformer进行全局特征信息补足。实验结果见图 5。

图 5 变噪声条件下诊断准确率 Fig. 5 The recognition accuracy with varying noise conditions

当SNR≤0 dB，即在强噪声环境下，DRWT和DRWT-Trans模型诊断准确率明显高于Transformer和CNN-Trans模型，说明自适应离散小波卷积通过信号分解软阈值去噪后能显著提高模型在强噪声环境下的诊断分类效果。4种条件下，只使用Transformer结构的诊断准确率明显较低，可能原因是Transformer对全局上下文信息更敏感，振动信号数据更多依赖时间序列的局部特征或周期性变化，全局上下文信息相对较少。同时，DRWT模型比DRWT-Trans模型诊断准确率低了1.4个百分点，说明加入Transformer全局特征提取模块有益于提高模型整体的诊断性能。

2.4 模型可解释性分析

为了理解DRWT-Trans特征学习以及模型决策过程，本节以SNR为4 dB条件下的CWRU数据集为例，采用平方包络谱对故障提取信息进行解释和分析，并通过Grad-CAM来理解模型重点关注特征同模型决策之间的联系。

首先从数据集中取出外圈故障、内圈故障以及滚动体故障3种样本数据，并将样本输入训练好的模型中，之后通过平方包络将模型DRWT层在训练中学习的信息进行频域可视化，为了更清晰地显示关键频率段特征，截取0~400 Hz频段信息进行展示。同时，为了进一步观察模型决策时的特征关注度，利用模型训练得到的权重信息，通过Grad-CAM建立模型重点关注区域同特征图像的关联，最终得到图 6所示结果。

图 6 三种故障类型梯度类激活映射图 Fig. 6 Grad-CAM images for three types of faults

根据凯斯西储大学官方给出的设备零件信息，结合故障频率经验公式，计算得到外圈、内圈、滚动体的故障特征频率(fr)分别为108.3、162.4和68.2 Hz。每种故障的故障特征频率均已通过竖线标记。从图 6中可以看出，内圈和外圈故障特征十分明显，说明经过小波卷积进行软阈值去噪和信号重构之后，可以充分提取故障特征频率信息，滚动体故障虽然未在故障特征频率处达到最高波峰，但在故障特征频率附近同样有明显的变化。

在梯度类激活映射图像中，激活程度与模型决策的特征关注度相关联，激活度越高代表模型关注度越高。观察图 6可以发现，对于外圈故障，模型重点关注频率区间为100~150 Hz，且越接近实际故障特征频率，激活度越高；内圈故障的模型重点关注的频率区间为110~200 Hz，同样覆盖实际故障特征频率；在滚动体故障中，模型重点关注的频率区间为50~150 Hz，模型对于三种故障类型均关注了其实际故障特征频率。

为进一步探究模型决策同特征关注度的联系，图 7给出了模型训练结果的混淆矩阵，其中标签0代表正常数据，标签1~3为不同程度的滚动体故障数据，标签4~6为不同程度的外圈故障数据，标签7~9为不同程度的内圈故障数据。从混淆矩阵中可以看出，在模型训练过程中，存在将标签1和2误判为标签4的情况，即将滚动体故障归类为外圈故障。结合图 6发现，滚动体故障的部分最高激活区域与外圈故障的最高激活区域存在一定程度的重合关系，说明模型的误判与特征关注的偏移存在关联，可能与噪声干扰或两种故障类型在振动信号中具有较高特征相似性有关。对比直接使用CAM进行可视化的相关方法，本方法不仅给出了模型决策关注度，并且此基础上进一步分析了关注度的合理性。

图 7 SNR=4 dB时模型训练混淆矩阵 Fig. 7 Confusion matrix for model training at SNR=4 dB

从上述分析结果可知，即使在噪声因素影响下，DRWT-Trans模型仍能有效去除信号中的噪声成分且不丢失其中的关键特征信息，同时，通过Grad-CAM对模型决策信息进行可视化分析，为模型决策过程提供了理论依据，不仅证明了模型的可解释性，还为后续模型的优化工作提供了指导方向。

3 结语

针对在实际噪声工况条件下，数据中的特征信息难以有效提取并且特征学习和决策过程缺乏可解释性的问题，提出了一种具有可解释性的DRWT-Trans轴承故障诊断方法。该方法包括两部分，第一部分通过改进的自适应小波去噪卷积对原始噪声数据进行软阈值去噪，利用不同尺度的卷积结构对数据进行局部特征提取，并通过构建Transformer网络补足全局特征信息，实现了实际噪声环境下端对端的故障诊断；第二部分利用平方包络变换和Grad-CAM策略，对模型学习的特征信息和模型决策过程进行可视化分析，提高了模型的可解释性。实验结果表明，在不同强度噪声影响下，DRWT-Trans在两个数据集上比其他三种方法可获得更优的诊断效果，具有较高的抗噪性和良好的泛化性能，同时通过消融实验，证明了本方法各个模块的有效性。最后通过可解释性实验，证明了所提出的可解释性方法不仅在特征提取过程的可靠性验证上具有显著优势，同时可以通过解释分析准确了解模型的内部决策机制及其合理性，增强了模型的可信度，为深度学习在轴承故障诊断领域的应用提供了有力支持。

参考文献

[1]	XU L X. Towards green innovation by China's industrial policy: evidence from made in China 2025[J]. Frontiers in environmental science, 2022, 10: 924250. DOI:10.3389/fenvs.2022.924250 (0)
[2]	EREN L, DEVANEY M J. Bearing damage detection via wavelet packet decomposition of the stator current[J]. IEEE transactions on instrumentation and measurement, 2004, 53(2): 431-436. DOI:10.1109/TIM.2004.823323 (0)
[3]	HE J J, WU P, TONG Y Z, et al. Bearing fault diagnosis via improved one-dimensional multi-scale dilated CNN[J]. Sensors, 2021, 21(21): 7319. DOI:10.3390/s21217319 (0)
[4]	孟博, 郇战, 时文雅, 等. 基于VMD和优化SSA-ELM的齿轮箱故障诊断[J]. 郑州大学学报(理学版), 2024, 56(2): 80-86. MENG B, HUAN Z, SHI W Y, et al. Gearbox fault diagnosis based on VMD and optimized SSA-ELM[J]. Journal of Zhengzhou university (natural science edition), 2024, 56(2): 80-86. DOI:10.13705/j.issn.1671-6841.2022222 (0)
[5]	刘晶, 梁佳杭, 封晨, 等. 基于权重自适应特征融合的轴承故障诊断方法[J]. 郑州大学学报(理学版), 2023, 55(4): 54-60. LIU J, LIANG J H, FENG C, et al. Bearing fault diagnosis method based on adaptive weight feature fusion[J]. Journal of Zhengzhou university (natural science edition), 2023, 55(4): 54-60. (0)
[6]	ASHISH V, NOAM S, NIKI P, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30: 5998-6008. (0)
[7]	ALEXEY D, LUCAS B, ALEXANDER K, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2020-10-22)[2024-03-20]. https://doi.org/10.48550/arXiv.2010.11929. (0)
[8]	MICHAL M, YANG Y Y, KAMALIKA C. Conneting interpretability and robustness in decision trees through separation[EB/OL]. (2021-02-14)[2024-03-20]. https://doi.org/10.48550/arXiv.2102.07048. (0)
[9]	BAU D, ZHOU B L, KHOSLA A, et al. Network dissection: quantifying interpretability of deep visual representations[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 3319-3327. (0)
[10]	TANG L J, LIU X Q, WU X, et al. An acoustic emission event filtering method for low-speed bearing outer race defect localization[J]. IEEE sensors journal, 2022, 22(16): 16293-16305. DOI:10.1109/JSEN.2022.3189216 (0)
[11]	ZHAO M H, ZHONG S S, FU X Y, et al. Deep residual shrinkage networks for fault diagnosis[J]. IEEE transactions on industrial informatics, 2020, 16(7): 4681-4690. DOI:10.1109/TII.2019.2943898 (0)
[12]	XIN G, LI Z, JIA L M, et al. Fault diagnosis of wheelset bearings in high-speed trains using logarithmic short-time Fourier transform and modified self-calibrated residual network[J]. IEEE transactions on industrial informatics, 2022, 18(10): 7285-7295. DOI:10.1109/TII.2021.3136144 (0)
[13]	LI Y B, WANG X Z, SI S B, et al. Entropy based fault classification using the case western reserve university data: a benchmark study[J]. IEEE transactions on reliability, 2020, 69(2): 754-767. DOI:10.1109/TR.2019.2896240 (0)
[14]	丁雪, 邓艾东, 李晶, 等. 基于多尺度和注意力机制的滚动轴承故障诊断[J]. 东南大学学报(自然科学版), 2022, 52(1): 172-178. DING X, DENG A D, LI J, et al. Fault diagnosis of rolling bearing based on multi-scale and attention mechanism[J]. Journal of southeast university (natural science edition), 2022, 52(1): 172-178. (0)
[15]	FU G H, WEI Q J, YANG Y S, et al. Bearing fault diagnosis based on CNN-BiLSTM and residual module[J]. Measurement science and technology, 2023, 34(12): 125050. DOI:10.1088/1361-6501/acf598 (0)
[16]	TANG X Y, XU Z B, WANG Z G. A novel fault diagnosis method of rolling bearing based on integrated vision transformer model[J]. Sensors, 2022, 22(10): 3878. DOI:10.3390/s22103878 (0)