2. 哈尔滨工程大学 核科学与技术学院,黑龙江 哈尔滨 150001;
3. 核反应堆系统设计技术重点实验室,四川 成都 610213
2. College of Nuclear Science and Technology, Harbin Engineering University, Harbin 150001, China;
3. Science and Technology on Reactor System Design Technology Laboratory, Nuclear Power Institute of China, Chengdu 610213, China
特征工程是一种工程化方法[1],该方法可以从原始数据集选择一组具有明显物理或统计意义的数据子集,并将该数据子集作为后续算法或模型的经验数据,为建立自动化的数据分析方法提供数据支持[2]。通常特征工程方法利用机器学习、随机信号、小波分析等算法最大限度的增强原始数据集中的有效数据特征,弱化或简化冗余的数据信息[3-5]。经该方法预处理后的数据集,可从源数据的角度优化和精简后续算法或模型的结构,提高算法或模型训练以及分析效率。
在核电站运行状态分析与预测方面,为准确判断核电站运行状态以及发生故障时诊断故障类型,核电站布置了大量的传感器实时监测各项瞬态运行参数。而种类多、总量大的瞬态运行参数在网络传输、数据存储和算法训练过程中,将导致数据传输速度慢,占据存储空间大,以及算法拓扑结构复杂、训练速度慢等问题。因此可利用特征工程技术压缩瞬态运行参数,提取数据特征并精简数据集。特征工程包括特征构建、特征提取和特征选择3个部分[6],但在数据分析过程中,可根据实际需求自由选择或组合的3种方法搭建特征工程分析模型。特征构建是指通过人工手段,利用物理、自然规律,人类知识和经验,从数据集中构建数据特征[7]。Zhang等[8]设计了一种蒙特卡洛与点核法耦合的计算模型,用于快速估计核电站退役设备的辐射剂量。该方法可平衡蒙特卡洛算法和点核法的计算结果,避免点核法对相邻源的计算缺陷;特征提取是指利用统计学习、时频分析等方法计算一组物理或统计意义明显,且数据非冗余的数据特征[9]。Wang等[10]利用卷积自编码器和长短期记忆神经网络设计了一种可用于预测核电站电动阀门剩余寿命的联合算法模型,该算法模型进一步提高了对电动阀门故障预测的准确率,从而有效减低核电系统运行成本和减少停机维护时间;特征选择是指剔除原始数据集中与目标问题不相关或冗余的数据特征[11]。Peng等[12]设计了一种核电站混合智能状态检测方法,该方法利用稀疏自编码器对运行数据进行降维和特征提取,利用孤立森林方法检测核电站异常运行状态,并通过对比实验证明混合智能状态检测方法可以有效提升核电站故障检测能力,进一步提升核电站的安全性。
综上所述,特征工程方法的应用目前主要集中在核电站事故分析与故障诊断领域,在数值分析的基础上配合特征工程方法,可有效提高核电站控制系统对设备状态和故障类型的感知能力,合理区分算法本身未知事故类型,进而保证核电站安全运行。
为了实现压缩和复原瞬态运行参数,本文基于特征工程方法建立了一种核电站瞬态运行参数数据压缩和数据复原方法。该方法利用主成分分析方法提取瞬态运行参数的特征向量,可最大限度保留原有数据特征,减少瞬态运行参数的数据维度;同时配合高斯过程回归方法可对降维后的瞬态运行数据实现高精度的复原。
1 特征工程特征工程由数据压缩和数据复原2个模块组成。数据压缩模块基于主成分分析(principal component analysis,PCA)方法,该方法通过提取瞬态运行数据中的特征向量组成新的数据组,从而可以最大限度保留瞬态运行数据中的数据特征。数据复原模块基于高斯过程回归(Gaussian process regression,GPR)方法,该方法利用压缩数据集中的数据特征复原核电站瞬态运行参数。
1.1 主成分分析原理概述令D为核电站正常运行时的瞬态运行参数数据集(以下简称运行数据集),D={Y,X}。其中Y为待分析的目标参数,X为目标参数对应的瞬态运行参数的参数矩阵。Y=[yi],且yi∈R;i=1,2,…,M。M为运行数据集D的瞬态运行参数的数据总量,且M∈N。X=[xij],且xij∈R;i=1,2,…,M;j=1,2,…,P。P为一组瞬态运行参数包含的核电站运行参数的种类数,P也为X的维度。
假设运行数据集降维后的维度为P′,PCA数据降维方法要求降维后的数据集D′和原运行数据集D 2个数据集之间,应当具有最大投影方差和最小重构代价。因此假设W为空间内的一组标准正交基向量,且S=[w1 w2 … wP′]T,‖S‖2=1;Z为运行参数矩阵X在P′维空间中的投影,且Z=[zij]。其中i=1,2,…,M;j=1,2,…,P′。则运行数据集D中的运行参数xi与其在P′维空间的投影x′i·之间的欧拉距离,以及D和D′之间的最大投影方差和最小重构代价的目标优化函数[13]为:
$ \begin{gathered} \sum\limits_{i=1}^{M}\left\|\sum\limits_{j=1}^{P^{\prime}}\left(z_{i j} w_{j}-x_{i j}\right)\right\| \propto-{\rm {tr}}\left(\boldsymbol{S}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{S}\right)=\boldsymbol{A} \\ \boldsymbol{A} \Rightarrow\left\{\begin{array}{l} \mathop {{\mathop{\rm maxtr}\nolimits} }\limits_\boldsymbol{w} \left(\boldsymbol{S}^{\mathrm{T}} \boldsymbol{X} \boldsymbol{X}^{\mathrm{T}} \boldsymbol{S}\right) \\ \text { s. t. } \boldsymbol{S}^{\mathrm{T}} \boldsymbol{S}=\boldsymbol{I} \end{array}\right. \end{gathered} $ | (1) |
利用等式(1)构造拉格朗日函数L(X, S, λ)=tr(STXXTS)-λ(I-STS)并求导可得:
$ \mathit{\boldsymbol{Z}} = \sqrt {{\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}_{{P^\prime }}}} \mathit{\boldsymbol{V}}_{{P^\prime }}^{\rm{T}} $ | (2) |
式中:ΛP′为协方差矩阵XXT的特征值矩阵,且ΛP′=diag(λ1,λ2,…,λP′);VP′T为ΛP′对应的特征向量。
因此通过计算协方差矩阵XXT的特征值ΛP′和特征向量VP′T,再将ΛP′和VP′T代入到等式(2)中,即可确定运行数据集D在P′维空间中的投影Z。Z也为运行数据集D经过PCA算法形成的P′维运行数据集D′。
1.2 高斯过程回归原理概述GPR是利用高斯过程拟合目标参数的机器学习算法。其本质是在连续域上利用无限多个高斯分布组成目标参数。高斯过程回归可分别从权重空间角度和函数空间角度进行推导,本节从权重空间角度说明GPR的原理。则计算GPR算法权值矩阵W=[wij]的概率表达式为[14]:
$ \begin{gathered} P\left(\boldsymbol{W} \mid D^{\prime}\right) \propto\left\{-\frac{\left(\boldsymbol{Y}-\boldsymbol{W}^{\mathrm{T}} \boldsymbol{X}^{\mathrm{T}}\right)(\boldsymbol{Y}-\boldsymbol{X} \boldsymbol{W})}{2 \sigma^{2}}-\boldsymbol{A}\right\} \\ \boldsymbol{A}=\boldsymbol{W}^{\mathrm{T}} \boldsymbol{\Sigma}_{p}^{-1} \boldsymbol{W} \end{gathered} $ | (3) |
式中:Σp-1为权值矩阵W先验概率分布P(W)的协方差矩阵,且p(W)~N(0,Σp)。
为了表征数据之间的非线性关系,可将瞬态运行参数X映射到高维空间Z,即X
$ p\left( {{\mathit{\boldsymbol{Y}}_*}\mid \mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}, {\mathit{\boldsymbol{X}}_*}, {\sigma ^2}} \right) = N\left( {\frac{{\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_*^{\rm{T}}{\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}^{ - 1}}\mathit{\Phi }\mathit{\boldsymbol{Y}}}}{{{\sigma ^2}}}, \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_*^{\rm{T}}{\mathit{\boldsymbol{ \boldsymbol{\varLambda} }}^{ - 1}}{\mathit{\Phi }_*}} \right) $ | (4) |
其中:Φ*=ϕ(X*);Λ=σ-2ϕ(X)ϕ(X)T+Σp-2。
根据核函数定义κ(X, X*)=σ-2ϕ(X)Tϕ(X*),等式(4)可改写为:
$ \begin{array}{l} p\left( {{\mathit{\boldsymbol{Y}}_*}\mid \mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}, {\mathit{\boldsymbol{X}}_{**}}, {\sigma ^2}} \right) = N(k\left( {{\mathit{\boldsymbol{X}}_*}, \mathit{\boldsymbol{X}}} \right)(K + \\ {\left. {\;\;\;\;\;\;\;\;\;\;\;{\sigma ^2}\mathit{\boldsymbol{I}}} \right)^{ - 1}}\mathit{\boldsymbol{Y}}, {\mathop{\rm cov}} \left( {{\mathit{\boldsymbol{Y}}_*}} \right)) \end{array} $ | (5) |
式中:cov(Y*)=-κ(X*, X)(K+σn2I)-1κ(X, X*)+κ(X*, X*);K为核矩阵;k(X*, X)和k(X, X*)分别为将测试瞬态运行数据代入核矩阵K后的计算结果。
综上所述,可利用PCA和GPR算法建立核电站瞬态运行参数数据压缩与复原模型。其中PCA方法用于数据压缩,提取运行数据集D中的有效数据特征,减少运行数据集D中的参数总量。GPR算法用于数据复原,即利用现有的数据特征计算各项瞬态运行参数,从而复原运行数据集D。
2 特征工程模型验证通过本文对PCA和GPR算法的理论分析,建立了可用于压缩和复原核电站瞬态运行参数的算法模型,并利用核电站瞬态运行参数对算法模型进行验证。
2.1 瞬态运行参数数据集的初步统计本文所采用的瞬态运行参数运行数据集来源于秦山300 MWe全范围仿真机,该仿真机主要用于模拟正常运行或事故工况下核电站的运行状态,并计算各个时刻各项瞬态运行参数[15]。若利用机器学习方法分析核电站稳态运行的测量数据时,模型的泛化性能较弱。因此本文运行数据集D所采用的数据来源于核电站降功率工况的瞬态运行参数。
瞬态运行数据集D降功率工况最终的目标功率和降功率速率划分为22个子数据集,每个子数据集的瞬态运行参数都是从降功率工况开始时刻起300 s内,仿真机计算的瞬态运行参数,且仿真机数据采样时间间隔为1 s。因此每个子数据集包括300组降功率工况的瞬态运行参数,而且每组瞬态运行参数包括反应堆堆芯功率、一回路冷却剂流量等25种参数值。运行数据集D共包括6 600组降功率工况的瞬态运行参数,其中5 000组运行参数作为训练样本,1 600组参数作为测试样本。对于超大瞬态运行参数的数据集而言,若对每组瞬态运行参数都进行数据压缩和复原的验证,工作量较大。因此,可通过计算运行数据集D中的协方差矩阵,选择协方差平均值最大和最小的瞬态运行参数作为验证对象。若PCA和GPR算法对上述2组瞬态参数的数据压缩和复原效果都较好,则可说明特征工程技术对数据集中其他瞬态运行参数进行压缩和复原同样有效。运行数据集D中第i个参数和第j个参数的协方差cij可表示为:
$ c_{i j}=\frac{1}{P-1} \sum\limits_{k=1}^{M}\left(x_{k i}-\bar{x}_{i}\right)\left(x_{k j}-\bar{x}_{j}\right) $ | (6) |
式中:M和P分别为运行数据集D的数据总量和维度;xki和xkj分别为第k组瞬态运行参数的第i个参数和第j个参数;xi和xj分别为第i个参数和第j个参数在运行数据集D中的平均值。
图 1为运行数据集D归一化后的协方差矩阵的热力图。图 1中颜色越深代表 2组瞬态运行参数相关性越强,颜色越浅代表相关性越弱。图中编号17对应蒸汽发生器主蒸汽管道蒸汽出口质量流速(以下简称蒸汽出口流速),其在25组瞬态运行参数中协方差的平均值最大,为0.625 2;编号25对应稳压器底部水温,其在25组瞬态运行参数中协方差的平均值最小,为0.002 3。因此选择蒸汽出口流速和稳压器底部水温作为数据压缩和复原的验证参数。
![]() |
Download:
|
图 1 运行数据集D协方差矩阵的热力图 Fig. 1 The heat map of the covariance matrix of the operation data set D |
由2.1节可知,利用主成分分析对运行数据集D数据压缩的实质是通过选择运行数据集D前P′个较大的特征值对应的特征向量,并组成P′维的运行数据集D′。通过对比等度量映射、自编码器等其他几个常用的数据降维方法,证明了主成分分析方法对运行数据集D的有效性。
图 2为当验证参数为蒸汽出口流速时,利用5种不同数据降维方法,先将运行数据集D降低到不同维度,再利用降维后的运行数据集D′训练4种机器学习回归算法模型,算法模型计算的蒸汽出口流速和原运行数据集D中蒸汽出口流速的均方根误差(mean square error,MSE)的对数值log(MSE)。
![]() |
Download:
|
图 2 4种回归模型对蒸汽出口流速的计算误差曲线 Fig. 2 The calculation error curves of the steam mass flow rate by four regression models |
在图 2和图 3中,4种回归算法包括高斯过程回归、前馈神经网络(deep feedforward neural network,DNN)、支持向量回归(support vector regression,SVR)和循环神经网络(recurrent neural network,RNN)。5种数据降维方法包括主成分分析(principal component analysis, PCA)、等度量映射(isometric mapping,Isomap)、局部线性嵌入(locally linear embedding,LLE)、自编码器(auto encoder,AE)和变分自编码器(variational auto encoder,VAE)。
![]() |
Download:
|
图 3 4种回归模型对稳压器底部水温的计算误差曲线 Fig. 3 The calculation error curves of the water temperature at the bottom of the pressurizer by four regression models |
图 3为当验证参数为稳压器底部水温时,4种回归模型在利用不同方法降维后的运行数据集训练时,算法模型计算的稳压器底部水温和原运行数据集D中稳压器底部水温的MSE的对数值log(MSE)。
通过将图 2(a)和图 3(a)与其他图进行对比可知,先利用PCA算法对运行数据集D进行降维,然后利用降维后的运行数据集D′训练GPR算法模型对运行数据集D进行数据复原的方法,蒸汽出口流速和稳压器水空间温度的计算值与运行数据集D中原值的MSE最小。当将运行数据集D的维度降低到20维时,GPR算法模型对蒸汽出口流速的计算误差与原数据集训练GPR算法模型的计算误差大致相同,降维后的运行数据集D′训练的GPR算法模型的计算值和原值MSE的对数值大约为-7,即计算值和原值的计算误差大约为10-9。而且即使PCA算法将运行数据集D的维度降低至4维时,计算值和原值MSE的对数值仍在-1左右,计算误差大约为0.1%。因此可以证明,PCA和GPR算法可以有效的对运行数据集D降维并复原,且复原后的瞬态运行参数和原数据之间的误差较小。
图 4和图 5分别为当利用PCA算法将运行数据集D降低到20维,运行数据集D中蒸汽出口流速和稳压器水空间温度的原值,GPR算法的复原值,以及二者之间的计算误差随时间变化曲线图。
![]() |
Download:
|
图 4 高斯过程回归模型计算蒸汽出口流速的复原值随时间变化曲线 Fig. 4 The changing curves of the restored values of the steam mass flow rate calculated by Gaussian process regression |
![]() |
Download:
|
图 5 高斯过程回归算法计算稳压器水空间温度的复原值随时间变化曲线 Fig. 5 The changing curves of the restored values of the water temperature of the pressurizer calculated by Gaussian process regression |
图 4和图 5中,实际值为运行数据集D中蒸汽出口流速和稳压器底部水温随时间变化曲线;复原值为GPR算法复原的蒸汽出口流速和稳压器底部水温随时间变化曲线。误差为复原值和运行数据集D中原值的误差曲线。
由图 4和图 5可知,GPR算法对蒸汽出口流速和稳压器水空间温度在各个时刻的复原值和原值的最大误差不超过0.000 002。因此可说明当利用PCA算法将运行数据集D的维度降低到20维后,GPR算法可有效的复原蒸汽出口流速和稳压器水空间温度。然后通过图 1和式(6)可知,在瞬态运行数据集D中,可利用PCA算法对瞬态运行参数进行压缩,减少数据体积;也可利用GPR算法对压缩后的数据进行复原,且复原值和原值的计算误差不超0.000 002。
综上所述,由PCA和GPR算法组成的算法组合,可实现对核电站瞬态运行参数数据集的数据压缩和数据复原,从而减少数据大小,提高数据传输效率,减少存储空间。同时PCA算法提取的数据特征可作为数据特征项加速各类机器学习算法模型训练速度,减少算法模型复杂度。
3 结论1) 当将具有25种瞬态运行参数的运行数据集的维度降低至20维和4维时,高斯过程回归算法对各项瞬态运行参数的复原值和运行数据集中原始值的误差分别不超过0.002%和0.1%。特征工况技术可有效降低核电站瞬态运行参数数据集的维度,并实现高精度的数据复原。
2) 在数据传输和存储过程中,计算机只需要传送和存储压缩后的数据,从而降低数据传输和存储量,提高数据传输效率,节约存储空间。
3) 当使用各瞬态运行参数时,可对压缩后的数据进行复原。同时主成分分析算法压缩后的数据也可作为数据特征补充核电站瞬态运行数据集,从而进一步增强数据集,为后续核电站故障诊断算法提供判断依据,提高故障诊断算法对故障的识别类型精度,从而进一步提升核电站运行的安全和可靠性。
[1] |
TURNER C R, FUGGETTA A, LAVAZZA L, et al. A conceptual basis for feature engineering[J]. Journal of systems and software, 1999, 49(1): 3-15. DOI:10.1016/S0164-1212(99)00062-X ( ![]() |
[2] |
杨立洪, 白肇强. 基于二次组合的特征工程与XGBoost模型的用户行为预测[J]. 科学技术与工程, 2018, 18(14): 186-189. YANG Lihong, BAI Zhaoqiang. User behavior prediction based on feature engineering of quadratic combination and XGBoost model[J]. Science technology and engineering, 2018, 18(14): 186-189. DOI:10.3969/j.issn.1671-1815.2018.14.033 ( ![]() |
[3] |
王宏禹, 邱天爽. 信号特征谱表示与平稳随机信号谱分解统一的研究[J]. 通信学报, 2018, 39(12): 1-9. WANG Hongyu, QIU Tianshuang. Unified study on characteristic spectrum representation of signals and spectral decomposition for stationary random signals[J]. Journal on communications, 2018, 39(12): 1-9. ( ![]() |
[4] |
GAO Tianyu, YANG Jingli, JIANG Shouda. A novel incipient fault diagnosis method for analog circuits based on GMKL-SVM and wavelet fusion features[J]. IEEE transactions on instrumentation and measurement, 2021, 70: 3502315. ( ![]() |
[5] |
BILAL M, SHAIKH F K, ARIF M, et al. A revised framework of machine learning application for optimal activity recognition[J]. Cluster computing, 2019, 22(S3): 7257-7273. DOI:10.1007/s10586-017-1212-x ( ![]() |
[6] |
XUE Bing, ZHANG Mengjie, BROWNE W N, et al. A survey on evolutionary computation approaches to feature selection[J]. IEEE transactions on evolutionary computation, 2016, 20(4): 606-626. DOI:10.1109/TEVC.2015.2504420 ( ![]() |
[7] |
PIRAMUTHU S, RAGAVAN H, SHAW M J. Using feature construction to improve the performance of neural networks[J]. Management science, 1998, 44(3): 416-430. DOI:10.1287/mnsc.44.3.416 ( ![]() |
[8] |
ZHANG Zehuan, SONG Yingming, MA Shaohang, et al. A rapid coupling method for calculating the radiation field in decommissioning nuclear power plants[J]. Annals of nuclear energy, 2021, 156: 108179. DOI:10.1016/j.anucene.2021.108179 ( ![]() |
[9] |
GUYON I, GUNN S, NIKRAVESH M, et al. Feature extraction: foundations and applications[M]. New York: Springer, 2006.
( ![]() |
[10] |
WANG Hang, PENG Minjun, MIAO Zhuang, et al. Remaining useful life prediction techniques for electric valves based on convolution auto encoder and long short term memory[J]. ISA transactions, 2021, 108: 333-342. DOI:10.1016/j.isatra.2020.08.031 ( ![]() |
[11] |
CHANDRASHEKAR G, SAHIN F. A survey on feature selection methods[J]. Computers & electrical engineering, 2014, 40(1): 16-28. ( ![]() |
[12] |
PENG Binsen, XIA Hong, MA Xintong, et al. A mixed intelligent condition monitoring method for nuclear power plant[J]. Annals of nuclear energy, 2020, 140: 107307. DOI:10.1016/j.anucene.2020.107307 ( ![]() |
[13] |
WOLD S, ESBENSEN K, GELADI P. Principal component analysis[J]. Chemometrics and intelligent laboratory systems, 1987, 2(1/2/3): 37-52. ( ![]() |
[14] |
QUIÑONERO-CANDELA J, RASMUSSEN C E. A unifying view of sparse approximate Gaussian process regression[J]. The journal of machine learning research, 2005, 6: 1939-1959. ( ![]() |
[15] |
QI Kelin, LI Qing, LIU Wei, et al. Qinshan 300Mwe NPP full scope simulator upgrade[R]. 2006.
( ![]() |