基于加权差分主元分析的化工过程故障检测

引用本文

郭金玉, 王鑫, 李元. 基于加权差分主元分析的化工过程故障检测[J]. 高校化学工程学报, 2018, 32(1): 183-192. DOI: 10.3969/j.issn.1003-9015.2018.01.025. 复制到剪切板

GUO Jin-yu, WANG Xin, LI Yuan. Fault Detection in Chemical Processes Using Weighted Differential Principal Component Analysis[J]. Journal of Chemical Engineering of Chinese Universities, 2018, 32(1): 183-192. DOI: 10.3969/j.issn.1003-9015.2018.01.025. 复制到剪切板

基金项目

国家自然科学基金重大项目（61490701）；国家自然科学基金（61673279）；辽宁省教育厅重点实验室项目（LZ2015059）；辽宁省自然科学基金（201602584）；辽宁省教育厅项目（L2016007，L2015432）。

通讯联系人

李元, E-mail:li-yuan@mail.tsinghua.edu.cn

作者简介

郭金玉(1975-), 女, 山东高唐人, 沈阳化工大学副教授, 博士。

文章历史

收稿日期：2017-06-11;
修订日期：2017-10-20。

Contents Abstract Full text Figures/Tables PDF

基于加权差分主元分析的化工过程故障检测

郭金玉, 王鑫, 李元

沈阳化工大学信息工程学院，辽宁沈阳 110142

收稿日期：2017-06-11；修订日期：2017-10-20。

基金项目：国家自然科学基金重大项目（61490701）；国家自然科学基金（61673279）；辽宁省教育厅重点实验室项目（LZ2015059）；辽宁省自然科学基金（201602584）；辽宁省教育厅项目（L2016007，L2015432）。

作者简介：郭金玉(1975-), 女, 山东高唐人, 沈阳化工大学副教授, 博士。

通讯联系人：李元, E-mail:li-yuan@mail.tsinghua.edu.cn

摘要：针对工业生产过程的多模态和非线性特性，提出了一种新的基于加权差分主元分析的故障检测算法。首先选取原始数据样本的最近邻x_f以及x_f的前k个近邻，分别计算出x_f的前j个近邻样本的均值m_j和权值w_j，利用加权差分的方法对原始数据进行预处理，剔除多模态和非线性特征；然后利用主元分析法（PCA）计算出负载矩阵P以及SPE和T²检测指标的控制限，建立PCA模型；最后将待检测数据运用加权差分法预处理后投影到PCA模型上计算检测指标，通过检测指标是否超过控制限进行故障检测。将该方法应用于数值例子和半导体生产过程来验证其有效性。

关键词：故障检测多模态非线性主元分析差分预处理加权差分主元分析

Fault Detection in Chemical Processes Using Weighted Differential Principal Component Analysis

GUO Jin-yu, WANG Xin, LI Yuan

College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, China

Abstract: A new fault detection algorithm based on weighted differential principal component analysis(PCA) was proposed for studying multimode and nonlinearity of industrial production processes. The closest neighbor x_f of the original data sample and the closest k points in front of x_f were first selected. The mean value m_j and the weighted value w_j of the j points in front of x_f were calculated. The weighted differential method was then used to preprocess the original data to eliminate multimodal and nonlinear characteristics. The principal component analysis algorithm was applied, and the loading matrix P and the control limits of detection indexes SPE and T² were calculated to establish the PCA model. Finally, the test data (after preprocessing based on weighted differential PCA) was projected onto the PCA model to calculate the detection index. Fault detection was carried out by detecting whether the detection index exceeded the control limit. The proposed method was applied for numerical examples and semiconductor manufacturing processes to verify its effectiveness.

Key words: fault detection multimode nonlinear principal component analysis differential preprocessing weighted differential principal component analysis

1 引言

目前随着现代自动化技术的发展，工业系统无论在规模、复杂程度还是一体化程度都在不断提高，但同时也造成故障发生的概率不断增加。近年来，故障检测技术不断发展，广泛应用于生产过程监视。基于数据驱动的故障检测技术受到学术界的广泛关注，以主元分析(principal component analysis, PCA)和独立元分析(independent component analysis，ICA)为代表的多元统计分析方法迅速发展，衍生出多种新的故障检测方法^[1~6]。

化工生产过程作为工业生产的重要领域之一，随着控制系统的渐趋复杂，越来越体现出非线性、多工况的特点。如何有效地提取化工生产过程中的有效信息，实现对非线性、多模态过程的故障检测受到越来越多的关注。针对工业生产过程数据大多具有动态和非线性的特性，王等^[7]提出了一种多动态核主元分析(kernel principal component analysis，KPCA)的检测方法，该方法突破了KPCA单模型、非动态的建模方式，构造了适合批量生产过程的多模型、非线性和动态的建模方法。为了解决实际化工过程监控数据具有非线性特征且易受随机噪声影响的问题，陈^[8]将KPCA方法与最大方差展开(maximum variance unfolding，MVU)特征提取算法相结合，提出一种基于KPCA-MVU的噪声环境下非线性过程故障检测新方法。Xiao等^[9]提出了核主元分析-独立元分析(kernel principal component analysis-independent component analysis，KPCA-ICA)的方法，利用KPCA对非线性数据进行降维，再利用ICA的方法提取特征信息，有效地对非线性数据进行了处理。为了能够加快提取数据的特征信息，Joseph等^[10]又提出了块增量核主元分析(chunk incremental kernel principal component analysis，CIKPCA)。工业过程往往运行于多个生产模态，针对多模态过程数据的空间分布特点，马等^[11]提出了一种新的基于样本距离空间统计量分析的故障检测方法(distance space statistics analysis，DSSA)。郭等^[12]提出一种不等长的多模态间歇过程故障检测方法。由于实际工业过程中存在多种工况的复杂情况，而过程的数据不完全服从高斯分布，为了能及时检测此类生产过程中的故障，刘等^[13]提出一种新的基于带宽可变的局部密度估计(local density estimation，LDE)的过程在线监控策略。传统的基于数据驱动的故障检测方法往往要假设过程数据是单个模态，针对多模态过程，Deng等^[14]提出了一种新的基于局部邻域相似性(local neighborhood similarity analysis，LNSA)的故障检测方法。在该方法中，参考数据集的构建只需要多模态操作数据而不需要先验知识。针对不等长的多模态问题，Guo等^[15]提出了一种基于局部近邻标准化矩阵(local neighbor normalized matrix，LNNM)的多模态故障检测方法。Yawei等^[16]提出了一种混合概率主元分析(aligned mixture probabilistic principal component analysis，AMPPCA)的多模态故障检测方法。Jiang等^[17]提出了将联合概率密度和双加权的独立分量分析结合(probability density and double-weighted independent component analysis，MDWICA)的方法对多模态过程进行故障检测。He^[18]提出了基于k近邻法则(k-nearest neighbor, kNN)的故障检测算法，该方法以kNN距离为检测指标，可以实现对多模态非线性数据的检测，但该算法对距离的求解计算量较大，而且也会受到离群样本的影响。为了解决离群点对故障检测的影响，提出了一种局部离群因子算法(local outlier factor, LOF)。为了监测多模态过程，马等^[19]提出了一种基于近邻标准化的LOF算法。传统的PCA算法可以有效地对工业过程中线性数据进行故障检测，但难以处理复杂的非线性、多模态过程。为了解决这一问题，本文提出了一种基于加权差分PCA (weighted differential principal component analysis，WDPCA)的故障检测算法，运用加权差分的方法对原始数据进行预处理，剔除原始数据的非线性和多模态特征，并将该方法应用于半导体工业过程。

2 基于加权差分主元分析算法的故障检测 2.1 主元分析算法

假设X是m×n维数据矩阵，m为样本数，n为变量数，数据X可分解为n个向量外积之和，即

$ \mathit{\boldsymbol{X}} = \mathit{\boldsymbol{T}}{\mathit{\boldsymbol{P}}^{\rm{T}}} = \sum\limits_{i = 1}^n {{\mathit{\boldsymbol{t}}_i}\mathit{\boldsymbol{p}}_i^{\rm{T}}} $

(1)

通常数据的变化主要体现在前l < n个负荷向量方向上，其他的主要是由测量噪声构成的，由残差矩阵E表示，因此矩阵X的主元分析可表示为：

$ \mathit{\boldsymbol{X}} = \sum\limits_{i = 1}^l {{\mathit{\boldsymbol{t}}_i}\mathit{\boldsymbol{p}}_i^{\rm{T}}} + \mathit{\boldsymbol{E}} $

(2)

其中t_i被称为得分(score)向量，p_i被称为载荷(loading)向量，X的得分向量也叫做X的主元。由t_i构成的矩阵T称为得分矩阵，由p_i构成的矩阵P称为载荷矩阵。

2.2 加权差分预处理算法

传统的PCA算法一般只适用于单模态线性数据的故障检测，对于多模态或非线性数据的处理效果不明显。为了提高PCA在多模态、非线性数据中的检测效果，本文提出一种加权差分的预处理算法，该方法可以有效处理离散程度差异不大的多模态过程，剔除原始数据中的多模态和非线性特征，然后再利用PCA的方法对经过预处理的数据进行故障检测，可以有效提高传统PCA在多模态、非线性数据中的检测性能。具体方法如下：

假设对于多模态数据，模态1内存在数据点x_a，首先找到x_a的第一近邻x_f，然后根据式(3)对该数据点进行差分预处理，式中m_j = mean[n₁(x_f), n₂(x_f), …, n_j(x_f)]为数据点x_a第一近邻x_f的前j个近邻样本的均值，其中n_j(x_f)为样本x_f的第j个近邻，j = 1, 2, …, k，k为所选近邻个数。

$ \mathit{\boldsymbol{x}}_a^k = {\mathit{\boldsymbol{x}}_a}-\sum\limits_{j = 1}^k {{w_j}{\mathit{\boldsymbol{m}}_j}} $

(3)

权值w_j(j = 1, 2, …, k)通过式(4)确定。

$ {w_j} = \frac{{\frac{1}{{d\left( {{\mathit{\boldsymbol{x}}_f}, {n_j}\left( {{\mathit{\boldsymbol{x}}_f}} \right)} \right)}}}}{{\sum\limits_{s = 1}^k {\frac{1}{{d\left( {{\mathit{\boldsymbol{x}}_f}, {n_s}\left( {{\mathit{\boldsymbol{x}}_f}} \right)} \right)}}} }} $

(4)

其中d(x_f, n_j(x_f))为数据点x_f到x_f的第j个最近邻点的欧式距离。值得注意的是，距离d(x_f, n_j(x_f))越小，权值越大，此时使用到邻域信息量越多；当距离足够大(两个数据点属于不同模态)时，权值很小，差分预处理样本使用的非本模态数据信息几乎为零，有利于改善数据的预处理效果。权值满足公式(5)的约束条件。

$ \sum\limits_{s = 1}^k {{w_s}} = 1 $

(5)

同理，建模样本集中其余数据点以及新来样本数据点也通过上述方法进行预处理。由于该方法权值w_j的选取与数据点x_a的第一近邻x_f和x_f的第j个近邻样本的距离有关，因此，各模态的离散程度会对权值的计算有所限制，通过使用加权差分方法对离散程度差异不大的多模态数据进行预处理，可以使处理后的数据近似服从高斯分布。

2.3 基于加权差分主元分析算法的故障检测

加权差分PCA算法可以对多模态或非线性过程进行故障检测，该检测过程分为两步：离线建模和在线检测。基于加权差分主元分析算法的故障检测流程图如图 1所示。

图 1 基于加权差分PCA的故障检测流程图 Fig.1 Flow chart of fault detection based on weighted differential PCA

离线建模过程如下：

(1) 收集正常操作时的历史数据集。假设有n个传感器，每个传感器分别有m个独立的采样。可以构造出一个测量数据矩阵$\mathit{\boldsymbol{X = }}{\left[ {{\mathit{\boldsymbol{x}}_1}, {\mathit{\boldsymbol{x}}_2}, \cdots, {\mathit{\boldsymbol{x}}_m}} \right]^{\rm{T}}} \in {R^{m \times n}}$，其中X的每一列代表一个测量变量，X的每一行代表一个测量样本。

(2) 利用加权差分法对X进行预处理，剔除非线性或多模态特征；

(3) 对预处理后的数据矩阵进行标准化处理，使其各列均值为0、方差为1，得到X₁；

(4) 求标准化后矩阵X₁的协方差矩阵，对协方差矩阵S进行特征值分解，计算出特征值和特征向量；

$ \mathit{\boldsymbol{S}} = {\mathop{\rm cov}} \left( \mathit{\boldsymbol{x}} \right) \approx \frac{1}{{m-1}}\mathit{\boldsymbol{X}}_1^{\rm{T}}{\mathit{\boldsymbol{X}}_1} $

(6)

(5) 选取主元个数l，由前l个特征向量构成的矩阵就是负载矩阵P_k；

(6) 利用(7)求出得分矩阵T；

$ \mathit{\boldsymbol{T}} = \mathit{\boldsymbol{XP}} $

(7)

(7) 重构后的数据矩阵为$\mathit{\boldsymbol{\hat X}} = \mathit{\boldsymbol{T}}{\mathit{\boldsymbol{P}}^{\rm{T}}}$，则残差矩阵$\mathit{\boldsymbol{E}} = \mathit{\boldsymbol{X}}-\mathit{\boldsymbol{\hat X}}$；

(8) 利用下列公式求出SPE和T²；

$ Q = \mathit{\boldsymbol{e}}{\mathit{\boldsymbol{e}}^{\rm{T}}} = \mathit{\boldsymbol{X}}\left( {I-{\mathit{\boldsymbol{P}}_k}\mathit{\boldsymbol{P}}_k^{\rm{T}}} \right){\mathit{\boldsymbol{X}}^{\rm{T}}} $

(8)

$ {T^2} = {\mathit{\boldsymbol{x}}^{\rm{T}}}{\mathit{\boldsymbol{P}}_k}{\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}^{-1}}\mathit{\boldsymbol{P}}_k^{\rm{T}}\mathit{\boldsymbol{x}} $

(9)

(9) 利用核密度估计法^{[20, 21]} (kernel density estimation，KDE)分别计算SPE和T²的控制限。

在线检测过程如下：

(1) 新来一个时刻数据x_new，利用加权差分法对x_new进行预处理得到x_new1，再利用建模数据的均值和方差将x_new1标准化得到x_new2；

(2) 将x_new2投影到PCA模型上，计算其检测指标SPE和T²；

(3) 根据SPE和T²是否超过建模控制限来判断该反应时刻的数据是否正常。若SPE或T²超过控制限，则该反应时刻数据样本故障；否则正常。

3 仿真结果与分析 3.1 数值仿真

本节给出了两个分别具有多模态和非线性特征的数值例子来说明加权差分PCA算法对多模态非线性数据进行故障检测的有效性。

3.1.1 多模态数值仿真

以Ge和Song设计的数值例子为例^[22]。该例子中包含5个变量，由以下模型产生：

$ \begin{array}{l} {x_1} = 0.5768{s_1} + 0.3766{s_2} + {e_1}\\ {x_2} = 0.7382s_1^2 + 0.0566{s_2} + {e_2}\\ {x_3} = 0.8291{s_1} + 0.4009s_2^2 + {e_3}\\ {x_4} = 0.6519{s_1}{s_2} + 0.2070{s_2} + {e_4}\\ {x_5} = 0.3972{s_1} + 0.8045{s_2} + {e_5} \end{array} $

(10)

其中e₁，e₂，e₃，e₄和e₅是服从[0，0.01]的白噪声。数据源s₁和s₂的变化可以改变操作条件，因此，通过改变数据源构造两种不同的操作模态。模态1：s₁服从[-10, -7]的均匀分布，s₂服从[-15, 1]的正态分布。模态2：s₁服从^{[2, 5]}的均匀分布，s₂服从^{[7, 1]}的正态分布。

每个模态产生400个样本，组成具有800个样本的多模态训练数据集。再在每个模态产生100个样本，组成具有200个样本的校验数据集。在模态1运行时，对变量x₁增加一幅值为0.02×(i-400)的故障，产生400个故障样本组成测试数据集。图 2为多模态数据分布散点图，横轴和纵轴分别表示变量4和变量5，其中图 2(a)为原始多模态数据分布散点图，可以看出原始数据有两个模态，图中“方块”代表第一模态数据，“圆圈”代表第二模态数据。图 2(b)为经过传统z-score方法标准化处理后的数据散点图，从图 2(b)可以看出，z-score方法不能剔除原始数据的多模态特性，只是对数据进行了量化处理。图 2(c)为加权差分算法对多模态建模数据的预处理结果，从图中可以看出，该方法可以有效剔除原始数据的多模态特征，使两个模态数据变为一个模态。以变量4为例，其在原始空间和经过加权差分预处理后的分布如图 3所示，从图 3(a)中可以看出，数据分布在两个模态，且不服从高斯分布，而由3(b)可看出，经过加权差分处理后的数据被剔除多模态特征且服从统一高斯分布。

图 2 多模态数据分布散点图 Fig.2 Scatter plots of multimodal data

图 3 变量4分布图 Fig.3 Distribution plots of variable x₄

将加权差分PCA算法用于该测试数据的故障检测，与传统的PCA算法进行对比。传统PCA算法和加权差分PCA算法对多模态数据的检测结果如图 4所示，选取主元数为3，图中实线代表 99%的控制限，虚线代表 95%的控制限，“星号”代表正常数据，“方块”代表故障数据。由图 4可知，PCA算法的T²和SPE检测指标只能检测出多模态数据的部分故障。加权差分PCA算法虽然出现部分误报，但和PCA算法的误报率相比并不明显，而且WDPCA可以检测出大部分故障样本。由此说明，与传统PCA算法相比，本文提出的算法对多模态数据的故障检测性能更好。

图 4 两种方法对多模态数据的检测结果 Fig.4 Detection results of two different methods for multimodal data

表 1为PCA算法和加权差分PCA算法对多模态数据的具体检测结果对比。从表 1可以看出加权差分PCA算法具有更好的检测效果，验证了该方法对多模态数据进行故障检测的有效性。

表 1 两种算法对多模态数据的检测结果对比 Table 1 Comparison of detection results using the two algorithms for multimodal data

3.1.2 非线性数值仿真

按下列模型构造非线性数值例子，该数据集由两个变量组成：

$ \begin{array}{l} {x_1} = t + {e_1}\\ {x_2} = {t^2} + {e_2} \end{array} $

(11)

其中t服从[-2, 2]的均匀分布，e₁和e₂为服从均值为0、标准差为0.01的正态分布的噪声。

按上述模型产生500组训练样本，构成训练数据集；产生100组正常样本作为校验数据；分别对变量1、2增加了1、0.5的阶跃故障，产生50组故障数据构成故障集。图 5为非线性数据分布散点图，横轴和纵轴分别表示变量1和变量2，其中图 5(a)为原始非线性数据分布散点图。图 5(b)为经过传统z-score方法标准化处理后的数据散点图，从图 5(b)中可以看出，z-score方法不能剔除原始数据的非线性特性，数据仍呈非线性分布。图 5(c)为加权差分算法对非线性建模数据的预处理结果，从图中可以看出，加权差分算法可以有效地剔除数据的非线性。以变量1为例，其在原始空间和经过加权差分预处理后的分布如图 6所示，从图 6(a)中可以看出，数据分布不服从高斯分布，而由图 6(b)可以看出，经过加权差分处理后的数据被剔除非线性特征且服从统一高斯分布。将加权差分PCA算法和PCA算法分别应用于该非线性数据的故障检测，并将二者进行对比。PCA算法和加权差分PCA算法对该非线性数值例子的检测结果如图 7所示，选取主元数为2，图中实线代表 99%的控制限，虚线代表 95%的控制限，“星号”代表校验数据，“方块”代表故障数据。

图 5 非线性数据分布散点图 Fig.5 Scatter plots of nonlinear data

图 6 变量1分布图 Fig.6 Distribution plots of variable x₁

图 7 两种方法对非线性数据的检测结果 Fig.7 Detection results of the two methods for nonlinear data

由图 7可以看出，PCA算法的SPE统计量和T²统计量均只检测出少量故障，而且有误报情况出现；而加权差分PCA算法的T²统计量可以有效地检测出大部分故障，SPE统计量的检测效果也明显好于PCA，而且完全无误报情况发生。因此可以看出，加权差分PCA算法对非线性数据的故障检测效果要明显优于PCA算法，验证了该算法在非线性数据故障检测中的有效性。

表 2为PCA算法和加权差分PCA算法对非线性数据的具体检测结果对比。从表 2可以看出加权差分PCA算法能在误报最低的情况下有最好的故障检测效果，验证了该方法对非线性数据进行故障检测的有效性。

表 2 两种算法对非线性数据的检测结果对比 Table 2 Comparison of detection results using the two algorithms for nonlinear data

3.2 工业过程仿真 3.2.1 半导体数据

本文采用半导体工业实例—A1堆腐蚀过程^[23~26]验证加权差分PCA算法的性能。半导体生产过程是一个典型的时变、非线性、多工况和多阶段的间歇过程。半导体工业数据由3个模态的108个正常硅片和21个故障硅片构成，由于两个批次反应过程中丢失大量的数据，所以实际可用的只有107个批次的正常数据和20个批次的异常数据。每个模态分别选取32个批次用于建模，其中1~34批次为第一模态，35~66批次为第二模态，71~107批次为第三模态，剩下的正常批次作为校验批次用来验证模型的准确性，因此建模批次为96个，正常校验批次为11个，故障批次为20个。从40个测量变量中选取17个作为检测变量，如表 3所示。

表 3 半导体生产过程所用的检测变量 Table 3 Detection variables used in semiconductor manufacturing processes

3.2.2 仿真结果与分析

将加权差分PCA算法应用于半导体生产过程，并与PCA^[27]、KPCA、ICA^[28]、kNN^[18]以及LOF^[19]五种算法进行比较。六种算法的主元数、独立元数或近邻数均为13。

图 8~13分别表示PCA、KPCA、ICA、kNN、LOF和WDPCA算法对半导体数据的故障检测结果。图中实线为统计量99%的控制限，虚线为统计量95%的控制限。“圆圈”代表建模批次数据、“星号”代表校验批次数据、“方块”代表故障批次数据。

图 8 PCA算法检测结果 Fig.8 Detection results of PCA algorithm

图 9 KPCA算法检测结果 Fig.9 Detection results of KPCA algorithm

图 10 ICA算法检测结果 Fig.10 Detection results of ICA algorithm

图 11 kNN算法检测结果 Fig.11 Detection results of kNN algorithm

图 12 LOF算法检测结果 Fig.12 Detection results of LOF algorithm

图 13 WDPCA算法检测结果 Fig.13 Detection results of WDPCA algorithm

在95%的控制限下，从图 8可以看出，PCA算法的SPE检测指标基本能检测出所有故障，但在第100个批次附近出现误报，而且误报批次较多；T²检测指标仅能检测出5个故障批次。从图 9可以看出，KPCA算法的SPE检测指标仅检测出2个故障；T²检测指标能检测出10个故障批次。从图 10可以看出，ICA算法的SPE检测指标可以检测出14个故障批次，但有2个批次出现误报；I_e²检测指标只检测到4个故障；I_d²检测指标检测到3个故障。从图 11可以看出，kNN算法无误报产生但只能检测出16个故障。从图 12可以看出，LOF算法没有误报但只能检测出11个故障。从图 13可以看出，WDPCA算法的SPE检测指标虽然第103个批次出现误报，但它能检测出全部故障批次；T²检测指标不仅无误报产生，而且能正确检测出14个故障批次。综上所述，与其他五种算法相比，WDPCA算法对半导体数据的故障检测效果最好，由此证明了该算法的有效性。该算法不仅能有效剔除数据的非线性还能处理多模态数据，有效改善了传统PCA算法对非线性多模态数据检测的不足。

六种算法在95%的控制限下对半导体数据的具体检测结果如表 4所示。由表 4可以看出，PCA算法和WDPCA算法的SPE检测指标均能检测出全部故障批次，但是PCA算法的误报率较高，因此导致错误率高。另外，加权差分PCA算法T²检测指标的故障检测效果明显优于PCA算法。KPCA算法的两个检测指标对半导体故障批次的检测效果明显不好，而且ICA算法的三个检测指标也并未检测出全部故障，错误率明显高于WDPCA。这是因为PCA、KPCA和ICA方法都不适用于对多模态数据的检测。kNN算法的误报检测率较低，但是未完全检测出全部的故障，这是由于kNN易受离群样本的影响。而LOF算法只是将离群点视作故障样本，虽无误报，但只能检测出部分故障。由表 4中的误报情况对比可以看出，WDPCA算法的误报也是较低的。综上所述，与其它五种算法对比，加权差分PCA算法在较低的误报情况下，错误率最低，故障检测效果最好，说明该方法对于多模态非线性数据的故障检测非常有效，验证了该算法的有效性和优越性。

表 4 在95%的控制限下六种算法对半导体数据的检测结果 Table 4 Detection results of six algorithms for semiconductor data within 95% control limits

Fault batch	PCA		KPCA		ICA			kNN	LOF	WDPCA
Fault batch	SPE	T²	SPE	T²	SPE	I_e²	I_d²	D²		SPE	T²
1	√				√			√	√	√	√
2	√			√	√			√		√
3	√									√
4	√	√	√	√	√	√	√	√	√	√	√
5	√									√
6	√									√
7	√	√		√	√	√	√	√	√	√	√
8	√			√	√			√		√
9	√									√
10	√				√			√	√	√	√
11	√				√			√		√	√
12	√	√	√	√	√	√	√	√	√	√	√
13	√	√		√	√	√		√	√	√	√
14	√				√			√	√	√	√
15	√							√	√	√	√
16	√			√	√			√	√	√	√
17	√							√		√	√
18	√	√		√	√			√	√	√	√
19	√			√	√			√	√	√	√
20	√			√	√			√		√	√
False alarm rate	72.73%	0	0	0	27.27%	0	0	0	0	0.93%	0
Missing alarm rate	0%	75%	90%	50%	30%	80%	85%	20%	45%	0%	30%
False rate	72.73%	75%	90%	50%	57.27%	80%	85%	20%	45%	0.93%	30%

表 4 在95%的控制限下六种算法对半导体数据的检测结果 Table 4 Detection results of six algorithms for semiconductor data within 95% control limits

4 结论

提出的基于加权差分主元分析的故障检测算法，可以实现对多模态和非线性过程数据进行故障检测。选取各个样本的最近邻，利用加权差分的方法对原始数据进行预处理，能有效剔除原始数据的多模态和非线性特征，改善传统PCA算法对多模态和非线性数据检测的不足。将该法应用于数值例子和实际的半导体生产过程中，通过仿真结果验证了该算法的优越性。

符号说明：

d(x_f_,n_j(x_f))	—数据点x_f到x_f的第j个最近邻点的欧式距离	T, t_i	—得分矩阵和得分向量
E, e	—分别为残差矩阵和残差向量	w_j, w_s	—设定的权值
j	— x_f的近邻样本序号	X, X₁, $\mathit{\boldsymbol{\hat X}}$	—分别为原始数据矩阵、预处理且标准化后的
k	— x_f的所选近邻样本个数		数据矩阵和重构后的数据矩阵
l, m	—分别为X的主元个数、样本个数	x, x_new	—分别为原始数据向量和新来时刻数据
m_j	— x_f的前j个近邻样本的均值	x_a	—模态1内数据点
n	—变量个数	x_a^k	—加权差分预处理后的样本点
n_j(x_f)	—样本x_f的第j个近邻	x_f	—原始数据最近邻本
P, P_k	—负载矩阵	x_new1	—加权差分预处理后的数据向量
*p_i*	—负载向量	x_new2	— x_new1经过标准化处理后的数据向量
S	—协方差矩阵	$\mathit{\Lambda }$	—特征值对角阵
s	— x_f的近邻样本序号

参考文献

[1]	ZHOU Dong-hua(周东华), LI Gang(李钢), LI Yuan(李元). Fault detection and diagnosis technology of industrial process based on data driven(数据驱动的工业过程故障检测与诊断技术)[M].Beijing(北京): Science Press(科学出版社), 2011: 1-76.
[2]	ZHANG Han-yuan(张汉元), TIAN Xue-min(田学民). A fault identification method based on asynchronous PCA(基于异步PCA的故障识别方法)[J]. Journal of Chemical Engineering of Chinese Universities(高校化学工程学报) , 2016, 30(3): 680-685.
[3]	Gueddi I, Nasri O, Benothman K, et al. Fault detection and isolation of spacecraft thrusters using an extended principal component analysis to interval data[J]. International Journal of Control Automation & Systems , 2017, 15(2): 1-14.
[4]	Hamadache M, Lee D. Principal component analysis based signal-to-noise ratio improvement for inchoate faulty signals:application to ball bearing fault detection[J]. International Journal of Control Automation & Systems , 2017, 15(2): 1-12.
[5]	Jaffel I, Taouali O, Harkat M F, et al. Kernel principal component analysis with reduced complexity for nonlinear dynamic process monitoring[J]. International Journal of Advanced Manufacturing Technology , 2016, 88(9-12): 1-15.
[6]	Adedigba S A, Khan F, Yang M. Dynamic failure analysis of process systems using principal component analysis and Bayesian Network[J]. Industrial & Engineering Chemistry Research , 2017, 56(8): 2094-2106.
[7]	WANG Ya-jun(王亚君), ZHOU Qi(周岐). Research on statistical process monitoring strategy based on multi-dynamic kernel PCA(基于多动态核PCA的统计过程监测策略研究)[J]. Journal of Liaoning University of Technology (Natural Science Edition)(辽宁工业大学学报(自然科学版)) , 2012, 32(5): 295-298.
[8]	CHEN Ru-qing(陈如清). Nonlinear process fault detection method under noise environment using KPCA and MVU(基于KPCA-MVU的噪声非线性过程故障检测方法)[J]. Chinese Journal of Scientific Instrument(仪器仪表学报) , 2014, 35(12): 2673-2680.
[9]	Xiao Y W, Zhang X H. Novel nonlinear process monitoring and fault diagnosis method based on KPCA-ICA and MSVMs[J]. Journal of Control, Automation and Electrical Systems , 2016, 27(3): 289-299. DOI:10.1007/s40313-016-0232-8.
[10]	Joseph A A, Tokumoto T, Ozawa S. Online feature extraction based on accelerated kernel principal component analysis for data stream[J]. Evolving Systems , 2016, 7(1): 15-27. DOI:10.1007/s12530-015-9131-7.
[11]	MA He-he(马贺贺), HU Yi(胡益), SHI Hong-bo(侍洪波). Unsupervised fault detection for multimode processes using distance space statistics analysis(基于距离空间统计量分析的多模态过程无监督故障检测)[J]. CIESC Journal(化工学报) , 2012, 63(3): 873-880.
[12]	GUO Jin-yu(郭金玉), YUAN Tang-ming(袁堂明), LI Yuan(李元). Fault detection method for uneven-length multimode batch processes(一种不等长的多模态间歇过程故障检测方法)[J]. CIESC Journal(化工学报) , 2016, 67(7): 2916-2924.
[13]	LIU Bang-li(刘帮莉), MA Yu-xin(马玉鑫), SHI Hong-bo(侍洪波). Multimode process monitoring based on local density estimation(基于局部密度估计的多模态过程故障检测)[J]. CIESC Journal(化工学报) , 2014, 65(8): 3071-3081.
[14]	Deng X G, Tian X M. Multimode process fault detection using local neighborhood similarity analysis[J]. Chinese Journal of Chemical Engineering , 2014, 22(11-12): 1260-1267. DOI:10.1016/j.cjche.2014.09.022.
[15]	Guo J Y, Yuan T M, Li Y. Fault detection of multimode process based on local neighbor normalized matrix[J]. Chemometrics & Intelligent Laboratory Systems , 2016, 1548: 162-175.
[16]	Yang Y W, Ma Y X, Song B, et al. An aligned mixture probabilistic principal component analysis for fault detection of multimode chemical processes[J]. Chinese Journal of Chemical Engineering , 2015, 23(8): 1357-1363. DOI:10.1016/j.cjche.2015.01.014.
[17]	Jiang Q C, Yan X F. Joint probability density and double-weighted independent component analysis for multimode non-gaussian process monitoring[J]. Industrial & Engineering Chemistry Research , 2014, 53(52): 20168-20176.
[18]	He Q P, Wang J. Fault detection using the k-nearest neighbor rule for semiconductor manufacturing processes[J]. IEEE Transactions on Semiconductor Manufacturing , 2007, 20(4): 345-354. DOI:10.1109/TSM.2007.907607.
[19]	Ma H H, Hu Y, Shi H B. Fault detection and identification based on the neighborhood standardized local outlier factor method[J]. Industrial & Engineering Chemistry Research , 2013, 52(6): 2389-2402.
[20]	Odiowei P P, Cao Y. Nonlinear dynamic process monitoring using canonical variate analysis and kernel density estimations[J]. Computer Aided Chemical Engineering , 2009, 27(1): 1557-1562.
[21]	Mori J, Yu J. Quality relevant nonlinear batch process performance monitoring using a kernel based multiway non-Gaussian latent subspace projection approach[J]. Journal of Process Control , 2014, 24(1): 57-71. DOI:10.1016/j.jprocont.2013.10.017.
[22]	Ge Z Q, Song Z H. Multimode process monitoring based on Bayesian method[J]. Journal of Chemometrics , 2009, 23(12): 636-650.
[23]	Wise B M, Gallagher N B, Butler S W, et al. A comparison of principal component analysis, multiway principal component analysis, trilinear decomposition and parallel factor analysis for fault detection in a semiconductor etch process[J]. Journal of Chemometrics , 1999, 13(3-4): 379-396. DOI:10.1002/(ISSN)1099-128X.
[24]	Lee S P, Chao A K, Tsung F, et al. Monitoring batch processes with multiple on-off steps in semiconductor manufacturing[J]. Journal of Quality Technology , 2011, 43(2): 142-157. DOI:10.1080/00224065.2011.11917852.
[25]	He Q P, Wang J. Fault detection using the k-nearest neighbor rule for semiconductor manufacturing processes[J]. IEEE Transactions on Semiconductor Manufacturing , 2007, 20(4): 345-354. DOI:10.1109/TSM.2007.907607.
[26]	Yu J. Fault detection using principal components-based Gaussian mixture model for semiconductor manufacturing processes[J]. IEEE Transactions on Semiconductor Manufacturing , 2011, 24(3): 432-444. DOI:10.1109/TSM.2011.2154850.
[27]	Yang J G, Zhang J, Yang J X, et al. A principal component analysis based fault detection method in etch process of semiconductor manufacturing[J]. Key Engineering Materials , 2012, 522: 793-798. DOI:10.4028/www.scientific.net/KEM.522.
[28]	Fan S K S, Huang S H. Full fault detection for semiconductor processes using independent component analysis[M]. Proceedings of the Institute of Industrial Engineers Asian Conference, 2013: 465-470.