自动化学报  2018, Vol. 44 Issue (10): 1799-1811   PDF    
集成自编码与PCA的高炉多元铁水质量随机权神经网络建模
周平1, 张丽1, 李温鹏1, 戴鹏1, 柴天佑1     
1. 东北大学流程工业综合自动化国家重点实验室 沈阳 110819
摘要: 针对随机权神经网络(Random vector functional-link networks,RVFLNs)建模存在的过拟合和泛化能力差的问题,集成自编码(Autoencoder)和主成分分析(Principal component analysis,PCA)技术,提出一种新型的改进RVFLNs算法,即AE-P-RVFLNs算法,用于建立高炉多元铁水质量在线估计的NARX(Nonlinear autoregressive exogenous)模型.首先,为了尽可能挖掘实际复杂工业数据中的有用信息和充分揭示输入数据之间的内在关系,采用Autoencoder前馈随机网络技术训练建模输入数据,并将训练得到的输出权值作为后续RVFLNs的输入权值;然后,引入PCA技术对RVFLNs的高维隐层输出矩阵进行降维,避免隐层输出矩阵多重共线性问题,从而解决由于隐层节点过多导致模型过拟合的问题;最后,基于所提AE-P-RVFLNs算法建立某大型高炉多元铁水质量在线估计的NARX模型.工业实验和比较分析表明:采用本文算法建立的多元铁水质量在线估计模型可有效提高运算效率和估计精度,尤其是避免常规RVFLNs建模存在的过拟合问题.
关键词: 随机权神经网络     AE-P-RVFLNs     自编码     主成分分析     NARX建模     高炉炼铁     过拟合    
Autoencoder and PCA Based RVFLNs Modeling for Multivariate Molten Iron Quality in Blast Furnace Ironmaking
ZHOU Ping1, ZHANG Li1, LI Wen-Peng1, DAI Peng1, CHAI Tian-You1     
1. State Key Laboratory of Synthetical Automation for Process Industries, Northeastern University, Shenyang 110819
Manuscript received : June 5, 2017, accepted: August 29, 2017.
Foundation Item: Supported by National Natural Science Foundation of China (61473064, 61290323, 61333007, 61790572), the Fundamental Research Funds for the Central Universities (N160805001, N160801001), and the General Project on Scientiflc Research for the Education Department of Liaoning Province (L20150186)
Author brief: ZHANG Li  Master student at Northeastern University. She received her bachelor degree from Northeastern University in 2014. Her research interest covers data-driven modeling and control, and machine learning algorithm;
LI Wen-Peng  Master student at Northeastern University. He received his bachelor degree from YanTai University in 2016. His research interest covers data-driven modeling and control, and machine learning algorithm;
DAI Peng  Master student at Northeastern University. He received his bachelor degree from China Three Gorges University in 2015. His research interest covers data-driven modeling and control, and machine learning algorithm;
CHAI Tian-You  Academician of Chinese Academy of Engineering, professor at Northeastern University, IEEE Fellow, IFAC Fellow. He received his Ph. D. degree from Northeastern University in 1985. His research interest covers adaptive control, intelligent decoupling control, and integrated automation theory, method and technology of industrial process.
Corresponding author. ZHOU Ping  Professor at Northeastern University. He received his bachelor degree, master degree, and Ph. D. degree from Northeastern University in 2003, 2006 and 2013, respectively. His research interest covers operation feedback control of industrial process, data-driven modeling and control. Corresponding author of this paper.
Recommended by Associate Editor HE Wei
Abstract: Aiming at the problems of overfitting and poor generalization capability of the conventional random vector functional-link networks (RVFLNs), this paper proposes a novel improved RVFLNs algorithm, named AE-P-RVFLNs, by combining hybrid techniques of autoencoder and principal component analysis (PCA), and applies it to nonlinear autoregressive exogenous (NARX) modeling of blast furnace ironmaking process for online estimation of multivariable molten iron quality indices. First, in order to find the useful information from the complex real industrial data and reveal the underlying relationship of input variables, autoencoder is introduced to train the input data and then calculate the output weights, which are treated as the input weights of the RVFLNs model. Then, PCA is used to reduce the dimension of hidden layer output matrix so as to avoid the multicollinearity problem in calculation and reduce the number of hidden nodes, which simplifies the network structure and gets rid of the overfitting problem caused by too many hidden nodes. Finally, the proposed AE-P-RVFLNs algorithm is used to establish the NARX model for online estimation of multivariable molten iron quality indices in blast furnace ironmaking. Industrial test and comparative analysis show that the developed model can not only effectively improve the operation efficiency and estimation accuracy, but also effectively solve the overfitting problem in conventional RVFLNs modeling.
Key words: RVFLNs     AE-P-RVFLNs     autoencoder     principal component analysis (PCA)     NARX modeling     blast furnance     overfitting    

高炉炼铁是钢铁工业的重要生产环节.高炉炼铁时, 铁矿石、焦炭及溶剂按一定比例配成炉料, 从炉顶进料口加入到炉内.铁矿石在高温、高压下, 经过一系列复杂物理化学反应最终被还原成铁, 以铁水的形式从高炉出铁口流出.铁水的质量(铁水温度、硅含量等)对后续转炉炼钢影响很大, 因此有必要实时准确地监测高炉状态, 来保障高炉的平稳运行以生产出质量合格的铁水.然而高炉炼铁是一个包含气、固、液三相混合和耦合交错, 物理化学反应极其复杂的过程, 其炉内环境极其恶劣, 这些导致了操作人员难以对其内部运行状态的变化进行实时监测.因此有必要建立准确可靠的铁水质量模型来反映高炉当前和预期的内部温度和指标参数变化, 为现场操作人员提供炉况和铁水质量信息[1-4].

目前常见的铁水质量模型有机理模型、知识推理模型和数据驱动模型[1-11].机理模型主要依赖于高炉炼铁过程的内部机理, 从化学反应动力学和流体动力学的角度构建高炉内部的反应场, 对反应场内的温度分布、物料运动状态等进行仿真, 从而建立数学模型对高炉整个生产过程进行预测和控制[5-7].机理模型只能应用于相对平稳的炉况环境, 且基于机理模型的高炉往往需要在实际应用中配备先进的测量仪器.但高炉为一大型密闭炉体, 冶炼过程极其复杂, 工况变化较大, 现有检测设备水平有限, 炉内过程难以直接测量.且机理模型描述的是铁水质量的静态特性, 而高炉炼铁是一个极为复杂、大时滞、高度耦合的非线性动态时变系统, 因此机理模型难以准确应用到实际高炉生产中.知识推理模型在应用过程中, 完全依赖于系统集成的有限专家知识, 无法应对复杂多样的实际冶炼过程[8-10].我国中小高炉很多, 冶炼条件复杂多样, 因此推理模型在我国大部分高炉上难以取得有效应用.数据驱动的铁水质量参数建模方法, 不需要了解高炉内部发生的复杂变化, 仅通过数学工具和智能算法对过去时间的数据进行处理, 就可以建立铁水质量的预测模型, 因此数据驱动铁水质量建模成为近年高炉炼铁过程建模研究的热点[1-4, 11-20].

神经网络(Neural network, NN)是一种较为常见的数据驱动建模方法, 它是对人脑神经系统进行抽象、简化和模仿所得到的复杂信息处理系统, 具有能够以任意精度逼近连续函数的特性, 特别适用于处理多因素、不精确的复杂信息[14].而高炉炼铁系统内部反应极其复杂, 内部状态未知, 仅可获得过程的输入输出数据.因此NN作为一种"黑箱建模"方法很适合应用于高炉系统的建模研究, 即模型在构建时将仅依赖于系统的输入和输出数据, 并直接探寻输入输出之间的关系, 而不再关注高炉内部复杂的物理化学反应过程.常见的NN算法主要包括BP (Back propagation)神经网络和RBF (Radial basis function)神经网络[14-15], 但是这些算法普遍存在着"过拟合"、易陷入局部极小的问题.另外, 基于批学习的网络权值和偏差迭代调整造成网络训练时间长、网络学习前许多参数需要提前设定的问题[17].为此很多文献提出改进的神经网络建模方法, 如文献[14]采用遗传算法优化NN参数, 提高了模型精度并能避免算法陷入局部极小值, 但是算法收敛速度较慢且仍存在过拟合问题.

近年, 具有学习速度极快且泛化能力好的随机权神经网络(Random vector functional-link networks, RVFLNs)及其改进算法有效克服了传统神经网络的上述缺点, 被广泛用于高炉炼铁过程的建模与控制[3, 16-18].文献[16]采用经典RVFLNs算法对铁水质量进行建模, 大大加快了计算速度, 但是存在最优隐层节点数的选择问题, 且易出现过拟合问题; 文献[17]进一步采用在线序贯学习型RVFLNs实现多元铁水质量的在线软测量建模, 但是当隐层节点选择不当时, 会出现过拟合现象; 文献[18]提出的增量型RVFLNs一定程度解决隐层节点的选择问题和过拟合问题, 但是该方法中隐层节点数较多, 网络结构过于复杂, 计算效率低.毫无疑问, RVFLNs比BP等常规神经网络具有更高的计算效率, 且RVFLNs及其改进算法都具有较高的模型精度, 但这些算法仍然存在如下两方面问题:

问题 1. 传统RVFLNs的输入权值和隐层偏置在限定范围内随机选取, 完全独立于建模数据, 参数选取具有一定的盲目性, 不能有效反映和利用建模数据的特性和内在关系;

问题 2. 现有RVFLNs算法仍然存在过拟合问题.过拟合是指模型学习时结构过于复杂, 以至于模型对已知训练数据具有很好的学习效果, 而对未知数据表现较差.过拟合会导致模型泛化能力差、鲁棒性不足, 使模型在应用阶段不能很好地推广.

针对上述两方面问题, 集成自编码(Autoencoder)和主成分分析(Principle component analysis, PCA)技术[21-25], 提出一种新型的改进随机权神经网络算法, 即AE-P-RVFLNs算法, 并在此基础上建立高炉炼铁过程的NARX (Nonlinear autoregressive exogenous)模型, 用于对难测多元铁水质量进行在线、可靠估计.首先, 为了更好地揭示高炉炼铁过程的非线性动态特性以及更全面地反映铁水质量信息, 预测模型采用NARX多输出动态结构; 其次, 为了在RVFLNs建模时尽可能反映和利用建模数据的特性和内在关系, 引入Autoencoder前馈随机网络设计技术对输入数据进行训练, 得到充分包含输入数据特性信息的AE-P-RVFLNs输入权值; 然后, 利用PCA技术在保证不丢失原有大部分信息的前提下对AE-P-RVFLNs隐层输出矩阵进行降维, 去除网络中无用的隐层节点, 简化网络结构, 提高模型泛化性能和计算效率; 最后, 基于我国华南某大型高炉实际数据建立基于AE-P-RVFLNs的多元铁水质量NARX模型, 并和其他几类RVFLNs算法进行对比.结果表明, 相对于其他铁水质量RVFLNs软测量模型, 本文方法不仅具有更高的模型精度和更快的计算速度, 还解决了RVFLNs存在的过拟合和泛化性能差的问题.

1 集成Autoencoder与PCA的AE-P-RVFLNs算法

针对常规RVFLNs及其改进算法的上述缺点, 提出一种集成自编码和PCA技术的新型随机权神经网络算法, 即AE-P-RVFLNs算法.如图 1所示, AE-P-RVFLNs算法主要包括两个阶段: Autoencoder前馈随机网络对输入数据的训练阶段和PCA对隐层输出矩阵的降维阶段. 1)针对前述问题1, 采用Autoencoder前馈随机网络, 实现输入样本$X\to X$网络映射, 以此求得充分体现输入数据中特征信息和内在关系的$X\to X$网络输出权值$\beta$. 2)针对问题2, 在构造输入空间$X$到输出空间$Y$, 即$X\to Y$的RVFLNs网络时, 首先将${\beta}^{\rm T}$作为$X\to Y$映射RVFLNs网络的输入权值, 然后采用PCA技术在不丢失原有大部分信息的前提下对RVFLNs隐层输出矩阵$H$进行降维, 去除网络中无用隐层节点, 避免隐层输出矩阵多重共线性问题, 从而解决由于隐层节点过多导致模型过拟合和泛化能力差的问题; 原高维隐层输出矩阵$H$经PCA降维后得到降维后的隐层输出矩阵$H'$, 在此基础上计算输出矩阵降维后的输出权值${\beta}'$.

图 1 AE-P-RVFLNs结构 Figure 1 The structure of AE-P-RVFLNs
1.1 通过Autoencoder的随机权前馈网络设计求取RVFLNs输入权值

传统RVFLNs的输入权值和隐层偏置在限定范围内随机选取, 完全独立于建模数据, 因而参数选取具有一定盲目性, 不能有效反映和充分利用建模数据的有用信息.所提AE-P-RVFLNs将首先采用Autoencoder技术来确定网络的输入权值. Autoencoder最早由Rumelhart等于1986年提出, 之后被广泛应用于图像和语音识别等领域[21-23].经典Autoencoder是一种无监督学习方法, 通过反向传播算法让目标值等于输入值, 即Autoencoder尝试逼近一个恒等函数, 使得网络输出值等于输入值[21], 即Autoencoder将输入样本压缩到隐含层, 然后再在输出端重建样本, 并在需要的时候用信息损失尽量小的方式将数据恢复出来.实际上, 利用Autoencoder对无类标数据进行训练, 可有效提取样本中的有用信息, 显著改善后续计算效果.近年, 文献[23]改变传统基于反向传播计算权值的Autoencoder方法, 采用前馈随机网络设计思想, 提前固定输入权值和隐层偏置随机选择范围, 只需计算所构造网络的输出权值$\beta$即可.与传统神经网络的反向传播算法相比, Autoencoder的前馈随机网络设计避免大量重复的迭代训练, 加快训练速度, 其原理如图 2所示, 计算方法如下.

图 2 Autoencoder前馈随机网络结构 Figure 2 Autoencoder feedforward random network structure

给定$N$组任意样本集合$({\pmb x}_i, {\pmb y}_i), {{\pmb x}_i} =$ ${[{x_{i1}},{x_{i2}}, \cdots ,{x_{in}}]^{\rm{T}}} \in {{\bf{R}}^n},{\mathit{\boldsymbol{y}}_i} = {[{y_{i1}},{y_{i2}}, \cdots ,{y_{im}}]^{\rm{T}}} \in {{\bf{R}}^m},\;i = 1,2, \cdots ,N$.一个带有$L$个隐层节点, 以$\phi(x)$为激励函数的标准单隐层前馈神经网络可以表示为

$ \begin{equation}\label{1} {{f}_{L}}=\sum\limits_{j=1}^{L}{{{\pmb\beta }_{j}}}\phi ({{\pmb w}_{j}}{{{\pmb x}}_{i}}+{{b}_{j}}), \ i=1, \cdots , N \end{equation} $ (1)

式中, ${{\pmb{\omega}_j}}=[{{\omega_{j1}}, \cdots, {\omega_{jn}}}]$$b_{j}$图 2所示Autoencoder前馈随机网络的输入权值和隐层偏置, ${{\pmb{\beta} _j}} = {[{\beta _{j1}}, \cdots, {\beta _{jn}}]^{\rm{T}}}$图 2所示网络的输出权值.

${f_L}$以0误差逼近连续系统的$N$个样本时, 即$\sum\nolimits_{i = 0}^N {\left\| {{f_L} - {x_i}} \right\|} = 0$, 则式(1)可以写成:

$ \begin{equation}\label{2} \sum\limits_{j = 1}^L {{{\pmb{\beta}}_j}} \phi ({{\pmb w}_j}{{\pmb x}_i} + {b_j}) = {{x}_i} \end{equation} $ (2)

将式(2)写成矩阵形式:

$ \begin{equation}\label{3} {{H}_0}\beta = {X} \end{equation} $ (3)

其中

$ \begin{array}{l} {{H}_0} = \left[ {\begin{array}{*{20}{c}} {\phi ( \langle {{\pmb{w}}_1}, {{\pmb{x}}_1} \rangle + {b_1})}&\cdots \\ \vdots &\cdots \\ {\phi ( \langle {{\pmb{w}}_1}, {{\pmb{x}}_N} \rangle + {b_1})}&\cdots \end{array}} \right.\\ \qquad\qquad{\left. {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\phi ( \langle {{\pmb{w}}_L}, {{\pmb{x}}_1} \rangle + {b_L})} \end{array}}\\ {\begin{array}{*{20}{c}} \vdots \end{array}}\\ {\begin{array}{*{20}{c}} {\phi ( \langle {{\pmb{w}}_L}, {{\pmb{x}}_N} \rangle + {b_L})} \end{array}} \end{array}} \right]_{N \times L}} \end{array} $
$ {X} = {\left[ {\begin{array}{*{20}{c}} {{{\pmb{x}}_1}}\\ \vdots \\ {{{\pmb{x}}_N}} \end{array}} \right]_{N \times n}}, {\beta} = {\left[ {\begin{array}{*{20}{c}} {\pmb\beta}_1^{\rm{T}}\\ \vdots \\ {\pmb\beta}_L^{\rm{T}} \end{array}} \right]_{L \times n}} $

通常网络隐层节点数会比训练样本少很多, 从而${{H}_0}$不是方阵, 显然式(3)所示方程组没有解.为了选取最合适的${\beta}$尽量使式(3)成立, 那么就需要采用最小二乘的方法求解上述方程组, 如式(4)所示.

$ \beta ={{H}_{0}}^{\dagger }X $ (4)

式中, ${{H}_0}^\dagger $是根据Moore-Penrose方法计算得到${{H}_0}$的伪逆矩阵.

由式(4)可看出${\bf{\beta }}$包含建模输入数据的众多有用信息.因此, 输入数据经过Autoencoder的前馈随机网络训练, 并将得到的${\bf{\beta }}$作为后续随机网络的输入权值, 将有效改善后续网络的计算效果和性能.注意到无论隐层节点数$L$大于等于输入变量个数$n$ (即$L \ge n$), 还是$L < n$, 求出的${\bf{\beta }}$都可有效挖掘输入数据中的有用信息[24].最后, 将Autoencoder前馈随机网络求出的${\bf{\beta }}$作为最终AE-P-RVFLNs网络的输入权值, 用于后续计算.

1.2 基于PCA的RVFLNs隐层高维输出矩阵降维

在基本RVFLNs中, 由于输入权值和隐层偏置的随机性, 隐层输出矩阵可能出现多重共线性问题, 导致网络中存在很多无用神经元节点, 使网络结构变得复杂, 从而严重制约网络的计算效率.针对该问题, 基于文献[24]的思想, 采用PCA技术对隐层高维输出矩阵进行降维, 如图 3所示.

图 3 P-RVFLNs结构 Figure 3 The structure of P-RVFLNs

图 3所示, 基于PCA的RVFLNs输出矩阵降维基本思想是将原来高维隐层变量${{\pmb{h}}_1}, {{\pmb{h}}_2}, \cdots, {{\pmb{h}}_L}$重新组合成一组互不相关的低维隐层变量${\pmb{h}}{'_1}, {\pmb{h}}{'_2}, \cdots, {\pmb{h}}{'_D}$, $D<L$, 这些低维隐层变量尽可能多地反应原高维隐层变量所包含的信息, 并丢掉一些次要的信息, 从而在一定程度上经过隐层降维处理, 大大简化RVFLNs的网络结构, 提高计算效率.基于PCA的RVFLNs输出矩阵降维算法如下:

1) 计算原高维隐层输出矩阵${H}$的协方差矩阵:

$ R = \left[ {\begin{array}{*{20}{c}} {{r_{11}}}&{{r_{12}}}& \cdots &{{r_{1L}}}\\ {{r_{21}}}&{{r_{22}}}& \cdots &{{r_{2L}}}\\ \vdots&\vdots&\ddots&\vdots \\ {{r_{L1}}}&{{r_{L2}}}& \cdots &{{r_{LL}}} \end{array}} \right] $

式中, ${r_{ij}}~(i, j = 1, 2, \cdots, L)$是原变量${\pmb h}_{i}$${\pmb h}_{j}$的相关系数, 其计算公式如下:

$ \begin{equation}\label{5} {r_{ij}} = \frac{{\sum\limits_{k = 1}^N {({h_{ki}} - \overline {{h_i}} )({h_{kj}} - \overline {{h_j}} )} }}{{\sqrt {\sum\limits_{k = 1}^N {{{({h_{ki}} - \overline {{h_i}} )}^2}\sum\limits_{k = 1}^N {{{({h_{kj}} - \overline {{h_j}} )}^2}} } } }} \end{equation} $ (5)

显然, ${r_{ij}} = {r_{ji}}$.另外, 式(5)中, ${\overline{ h_j}}$是样本相量${h_j}$平均值, 通过${\overline{h_j}} = \frac{1}{N}\sum\nolimits_{k = 1}^N {{{\pmb h}_{jk}}} $求得:

2) 计算特征值${\lambda _i}$和特征向量${{\pmb{g}}_i}, i = 1, 2, \cdots, L$, 并根据特征值${\lambda _i}$大小按降序${\lambda _1} > {\lambda _2} > \cdots > {\lambda _L}$排列.

3) 计算主成分贡献率$\lambda {/_i}\sum\nolimits_{k = 1}^p {{\lambda _k}} $及累计贡献率$\sum\nolimits_{k = 1}^i {{\lambda _k}/\sum\nolimits_{k = 1}^p {{\lambda _k}} } $.

一般取累计贡献率达85%~95%的特征值${\lambda _1}, {\lambda _1}, \cdots, {\lambda _D}$所对应的$D$ $\left( {D \le L} \right)$个主成分, 如式(6)所示:

$ \begin{equation}\label{6} \left\{ {\begin{array}{*{20}{c}} {{\pmb{h}}{'_1} = {g_{11}}{{\pmb{h}}_1} + {g_{12}}{{\pmb{h}}_2} + \cdots + {g_{1L}}{{\pmb{h}}_L}}\\ {{\pmb{h}}{'_2} = {g_{21}}{{\pmb{h}}_1} + {g_{22}}{{\pmb{h}}_2} + \cdots + {g_{2L}}{{\pmb{h}}_L}}\\ \vdots \\ {{\pmb{h}}{'_D} = {g_{D1}}{{\pmb{h}}_1} + {g_{D2}}{{\pmb{h}}_2} + \cdots + {g_{DL}}{{\pmb{h}}_L}} \end{array}} \right. \end{equation} $ (6)

将上式表示成矩阵形式:

$ \begin{equation}\label{7} {H}' = {HG} \end{equation} $ (7)

式中, ${H}' = [{\pmb{h}}{'_1}, {\pmb{h}}{'_2}, \cdots, {\pmb{h}}{'_D}]$, ${H} = [{{\pmb{h}}_1}, {{\pmb{h}}_2}, \cdots {{\pmb{h}}_L}]$, 而${G} = \left[{\begin{array}{*{20}{c}} {{g_{11}}}&{{g_{22}}}&{\cdots}&{{g_{D1}}}\\ {{g_{12}}}&{{g_{22}}}&{\cdots}&{{g_{D2}}}\\ {\vdots}&{\vdots}& \ddots &{\vdots}\\ {{g_{1L}}}&{{g_{2L}}}&\cdots&{{g_{DL}}} \end{array}} \right]$为转移矩阵.

构造新的神经网络来实现$X\to Y$的映射.用前述Autoencoder前馈随机网络计算得到的${\beta ^{\rm{T}}}$作为映射网络的输入权值, 隐层偏置仍为$b_{j}$, 计算得到隐层输出矩阵${H}$:

$ \begin{equation}\label{8} \begin{array}{l} H= \left[ {\begin{array}{*{20}{c}} {\phi ( \langle {\pmb{\beta }}_1^{\rm{T}}, {{\pmb{x}}_1} \rangle + {b_1})} &\cdots \\ \vdots &\cdots \\ {\phi ( \langle {\pmb{\beta }}_1^{\rm{T}}, {{\pmb{x}}_N} \rangle + {b_1})} &\cdots \end{array}} \right.\\ \qquad\qquad{\left. {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\phi ( \langle {\pmb{\beta }}_L^{\rm{T}}, {{\pmb{x}}_1} \rangle + {b_L})} \end{array}}\\ {\begin{array}{*{20}{c}} \vdots \end{array}}\\ {\begin{array}{*{20}{c}} {\phi ( \langle {\pmb{\beta }}_L^{\rm{T}}, {{\pmb{x}}_N} \rangle + {b_L})} \end{array}} \end{array}} \right]_{N \times L}} \end{array} \end{equation} $ (8)

具有$L$个隐层节点的神经网络, 按上述PCA降维方法求取转移矩阵${G} \in {{\bf{R}}^{L \times D}}$, 则新的隐层输出矩阵为${H}' = {HG}, {H}' \in {{\bf{R}}^{N \times D}}$.经过PCA降维后, 新的隐层节点数由$L$变为$D$, 新网络的输入权值${\bf{\beta }}'$通过下式求取:

$ \begin{equation}\label{9} {\beta}' = {{H'}^{\bf{\dagger }}}{Y}, {\beta}' \in {{\bf{R}}^{D \times m}} \end{equation} $ (9)

注 1. 所提AE-P-RVFLNs算法, $X\to Y$网络中的输入权值不是随机产生, 而是由$X\to X$的Autoencoder前馈随机网络训练得到.因而, 相比于常规RVFLNs, AE-P-RVFLNs输入权值的选择更有依据性, 能更好地提取输入数据的有效信息.经PCA将隐层输出矩阵降维后, 去掉一些无用隐层节点, 简化了网络结构, 在不损失模型精度的前提下不但可提高计算效率, 更为重要的是可有效避免过拟合问题.

1.3 算法实现步骤

给定训练数据集$Z = \{ ({{\pmb{x}}_i}, {\pmb{y}_i})| {{\pmb{x}}_i} \in {{\bf{R}}^n}, {{\pmb{y}}_i} \in {{\bf{R}}^m}, i = 1, \cdots, N \}$, AE-P-RVFLNs算法实现步骤如下:

第一阶段(${X}\to{X}$):采用Autoencoder前馈随机网络设计完成输入样本训练, 得到AE-P-RVFLNs网络的输入权值${\beta}$:

1) 给定$X\to X$网络的输入权值为$w$、隐层偏置$b$、激活函数$\phi(x)$和隐层节点数$L$;

2) 计算${X}\to{X}$网络隐层输入矩阵${{H}_0}$;

3) 根据式(4)计算${X}\to{X}$网络权值矩阵${\bf{\beta}}$.

第二阶段(${X}\to{Y}$):基于PCA的AE-P-RVFLNs网络隐层输出矩阵降维:

1) 用第一阶段求得的${\beta}^{\rm{T}}$作为${X}\to{Y}$网络的输入权值, 隐层偏置仍为$b$, 据式(8)计算隐层输出矩阵$H$;

2) 根据式(5)~(7)计算转移矩阵$G$和降维后网络的隐层输出矩阵${H'}$;

3) 根据式(9)计算PCA降维后的网络隐层输出权值矩阵${\beta'}$.

2 基于AE-P-RVFLNs的多元铁水质量NARX建模 2.1 高炉炼铁过程及铁水质量建模的必要性

高炉炼铁工艺流程如图 4所示, 由炉喉、炉身、炉腰、炉腹、炉缸5部分组成.高炉炼铁时, 将矿石和焦炭按一定比例配成炉料, 从炉顶进料口加入炉内, 同时把煤粉和加热到1 200℃的富氧空气从炉腹底部的送风口鼓入炉内.在送风口附近, 煤粉和热空气在高温作用下反应生成大量还原性气体, 炽热的还原性气体在上升过程与下降铁矿石和焦炭在高温、高压作用下发生一系列复杂化学物理反应, 最终将铁从铁矿石中还原出来.铁以高温(1 500℃)铁水形式从出铁口流出, 铁矿石中的脉石、焦炭以及喷吹物中的灰分与石灰石等溶剂结合形成炉渣, 随铁水一同排出.大量还原性气体在上升过程中经过一系列复杂反应, 最终形成高炉煤气从炉顶回收, 经重力除尘后作为热风炉、加热炉、焦炉等的燃料[1-4].

图 4 高炉炼铁工艺示意图 Figure 4 Diagram of a typical BF ironmaking process

高炉炼铁的最终目的是高效率、低成本地生产出尽可能多的优质铁水.为了实现这一目标, 就应实时准确地监测高炉内部状态, 来保障高炉平稳运行, 以生产出质量合格的铁水.然而高炉炼铁中不仅存在着诸多的操作工序、数百项的影响参数, 且高炉内部环境极为恶劣, 气、固、液三相并存, 不同相态之间进行着复杂的动量、能量传递和复杂物理化学变化, 因此很难监测高炉内部状态和实现高炉优化控制.实际生产中, 通常采用铁水温度(Molten iron temperature, MIT)、硅含量([Si])、磷含量([P])和硫含量([S])来间接反映高炉内部状态和综合衡量铁水质量指标.铁水温度是表征高炉热状态、能量消耗和铁水质量的重要参数, 铁水[Si]是反映铁水化学热的重要指标, 而P和S是铁水中的有害元素.日常操作中应及时监测和掌握这4个质量指标数值及其变化趋势, 预见性地采取调控措施.这对于稳定高炉热制度和出铁指标、减少炉况波动, 提高生铁质量和降低焦比等都具有重要意义[1, 3].由于铁水质量指标难以直接在线检测且离线化验过程滞后, 必须建立铁水质量模型以实现铁水质量的在线软测量, 这也是实现高炉铁水质量控制与运行优化的关键.

2.2 多元铁水质量建模过程

为了实现多元铁水质量的准确估计, 提高模型泛化能力, 避免过拟合, 本文采用提出的AE-P-RVFLNs算法建立多元铁水质量的动态软测量模型.高炉系统是个大时滞、强耦合的复杂非线性动态系统, 常规的静态神经网络并不能很好地描述这一动态过程.由于NARX模型包含了输入输出变量的时序及时滞关系, 能更好地逼近高炉炼铁系统的非线性动态特性[3], 因此建立如下NARX模型:

$ \begin{equation}\label{10} \begin{array}{l} Y(t) = {f_{{\rm{NARX}}}}( X(t), \cdots , X(t - p), \\ \quad Y(t - 1), \cdots , Y(t - q)) \end{array} \end{equation} $ (10)

式中, $X$为建模输入变量集, $Y$为待估计的铁水质量指标集, $p$$q$分别为过程输入输出时序系数, 根据所研究的高炉炼铁过程时序和时滞关系以及大尺度的铁水质量采样频率值, 确定$p = 1, q= 1$.

采用我国华南某大型高炉2013年10月份的高炉本体数据与铁水质量数据(采样间隔为1 h)进行仿真实验, 根据该高炉炼铁工艺及相关仪器仪表设置, 确定影响多元铁水质量指标的16个关键过程变量为:富氧率、透气性、炉腹煤气指数、鼓风动能、送风比、阻力系数、理论燃烧温度、热风温度、热风压力、富氧流量、炉腹煤气量、鼓风湿度、冷风流量、设定喷煤量、实际风速、炉顶压力等.考虑上述16个变量间具有很强的相关性, 并且过多的建模变量会加大建模复杂度, 影响模型预测性能, 因此同样采用PCA技术对建模输入变量进行降维[14, 17], 计算分析结果如表 1所示.可以看出, 当选取累计方差贡献率大于98%为界限时, 前6项成份的累计方差贡献率为98.723%, 可以反映原来影响铁水质量指标的绝大部分信息, 因而选取该6项成分为主成分.

表 1 PCA求取的各主成分特征值、方差贡献率以及累积方差贡献率 Table 1 PCA to obtain the principal component eigenvalues, variance contribution rate and cumulative variance contribution rate

经PCA降维后得到的主成分是原始高维物理变量的综合函数, 没有实际物理意义, 因此降维得到的主成分不能用于实际高炉系统质量建模与控制.在PCA分析体系中, 因子载荷矩阵或正交旋转后的因子载荷矩阵反映了原始物理变量与各主成分的相互关系, 因子数值越大表示相关的密切程度越高.因此通过计算因子载荷矩阵可选取因子数值较大的几个物理变量作为最终建模输入变量.由表 2所示6个主成分的因子载荷矩阵可以确定选择炉腹煤气量${x_1}$ (kg/t)、热风温度${x_2}$ (℃)、热风压力${x_3}$ (kPa)、富氧率${x_4}$、鼓风湿度${x_5}$ (RH)和设定喷煤量${x_6}\, ({\rm{m}^{3}/h})$作为最终NARX建模的输入变量. NARX模型结构确定后, 采用提出的AE-P-RVFLNs算法训练式(10)所示多元铁水质量在线估计的NARX模型.

表 2 因子载荷矩阵(由PCA提取的6个主成分) Table 2 Factor load matrix (Six principal components extracted by PCA)
2.3 建模效果及过拟合测试

为了验证模型的可行性, 将建立的基于AE-P-RVFLNs的铁水质量模型在某大型高炉进行测试.图 5为所提方法在训练集上的建模效果, 可以看出基于实际数据, 建立的NARX模型取得良好的建模效果, 模型输出值与实际值拟合非常好, 且趋势基本一致.图 6为所提方法基于新的过程数据对多元铁水质量的在线效果.为了从直观上说明所提方法的优越性, 将其与其他类似方法进行对比研究.在这里, 选用常规RVFLNs算法、单纯采用Autoencoder前馈随机网络进行输入权值确定的AE-RVFLNs算法以及单纯采用PCA进行网络输出矩阵降维的P-RVFLNs算法, 进行相同数据集的预测对比实验, 且各算法网络隐层节点均限定为50, 并采用Sigmoidal函数作为激励函数.从图 6可以看出, 所提方法建立的模型在所有模型中获得了最好的预测结果和精确度, 同时相对于其他3种对比方法, 基于AE-P-RVFLNs的方法建立的模型预测曲线形状与实际曲线匹配最好, 并且趋势基本一致.

图 5 基于AE-P-RVFLNs的多元铁水质量NARX模型建模结果 Figure 5 Modeling results of multicomponent hot metal mass NARX model based on AE-P-RVFLNs
图 6 不同模型的多元铁水质量预测结果 Figure 6 Comparison of multicomponent hot metal quality for difierent models

基于工艺现场数据, 计算所提AE-P-RVFLNs算法及三种对比算法的运算效率, 并采用标准统计公式中的均方根误差(Root mean square error, RMSE)和平均绝对百分误差(Mean absolute percent error, MAPE)来对4种算法的估计性能和泛化性能进行定量评估, 结果如表 3所示.可以看出, 所提AE-P-RVFLNs算法由于对输入权值预计算和对隐层输出矩阵进行降维处理, 模型结构得到优化, 使得最终建立的AE-P-RVFLNs模型具有较好的运算效率和更高的估计精度.同时, 通过比较AE-P-RVFLNs、P-RVFLNs、AE-RVFLNs、RVFLNs 4种算法的运算效率, 可以看出通过引入PCA进行输出矩阵降维比通过采用Autoencoder进行输入权值确定更能改善RVFLNs算法的运算效率.

表 3 不同算法相关统计指标比较 Table 3 Comparison of statistical indicators for difierent algorithms

为了检验所提算法的泛化性能和解决过拟合问题的能力, 进一步研究在逐一增加隐层节点数时, 训练集和测试集均方根误差(RMSE)的变化情况, 如图 7所示.可以看到, 当刚开始增加网络隐层节点数时, 所提AE-P-RVFLNs算法的训练集和测试集RMSE均呈现明显下降趋势, 而当网络隐层节点数继续增加时, 训练集和测试集RMSE趋于平稳, 未出现明显曲线交叉的过拟合现象.作为对比, 本文又研究了常规RVFLNs算法以及AE-RVFLNs算法和P-RVFLNs算法的训练集和测试集RMSE随隐层节点数增加时的变化情况, 分别如图 8~10所示.可以看出, 随着隐层节点数的增加, 三种对比算法的训练集RMSE都呈现下降趋势, 而测试集RMSE则不同程度呈现上升趋势, 因此三种对比算法均出现不同程度过拟合现象, 即模型对已知训练数据具有较好的学习效果, 而对未知的测试数据表现较差.另外, 通过该三种对比算法的比较分析也可看出, 相对于常规RVFLNs算法和AE-RVFLNs算法, P-RVFLNs算法的过拟合问题最弱.实际上, P- RVFLNs算法只是在[P]建模时出现较明显过拟合和[Si]建模时出现轻微过拟合, 而对其他两个铁水质量指标建模未出现过拟合问题.这显然应该得益于P-RVFLNs算法引入的PCA技术降低了高维隐层输出矩阵, 避免隐层输出矩阵多重共线性问题.

图 7 逐一增加隐层节点数时所提AE-P-RVFLNs训练集和测试集RMSE变化曲线 Figure 7 The RMSE curve of the training set and test set of the proposed AE-P-RVFLNs when the number of hidden nodes is increased one by one
图 8 逐一增加隐层节点数时RVFLNs训练集和测试集RMSE变化曲线 Figure 8 The RMSE curve of training set and test set of RVFLNs when the number of hidden nodes is increased one by one
图 9 逐一增加隐层节点数时AE-RVFLNs训练集和测试集RMSE变化曲线 Figure 9 The RMSE curve of training set and test set of AE-RVFLNs when the number of hidden nodes is increased one by one
图 10 逐一增加隐层节点数时P-RVFLNs训练集和测试集RMSE变化曲线 Figure 10 The RMSE curve of training set and test set of P-RVFLNs when the number of hidden nodes is increased one by one

通过以上实验及其分析表明:所提AE-P-RVFLNs算法通过采用Autoencoder前馈随机网络对输入数据进行训练而获得优化的网络结构参数, 可最大程度提取和反应输入数据的特性信息; 进一步引入PCA技术对高维隐层输出矩阵进行降维, 避免隐层输出矩阵多重共线性问题, 大大降低网络中的无用隐层结点个数, 避免由于隐层节点过多导致模型过拟合和运算效率差的问题.即采用所提方法建立的模型具有较好的泛化性能、鲁棒性和运算效率, 能够较好地进行实际工程应用.

注 2. 注意到, 由于随机权神经网络隐层偏置等参数是在一定范围内随机选取的, 为了保证实验结果更具说服力, 以上对比实验的结果都是取10次实验的平均值作为最终的结果.另外, 在研究RVFLNs和AE-RVFLNs的隐层节点与训练集RMSE、测试集RMSE的关系试验中, 隐层节点增加到200时, 测试集的RMSE过大导致图 8图 9不能很清楚的展示训练集误差的变化情况, 因此在这两个试验中(对应图 8图 9)将最大隐层节点个数减小为100.

3 结论

为了解决传统RVFLNs建模存在的过拟合和泛化能力差的问题, 并在网络输入权值确定时充分利用建模输入数据信息, 本文集成Autoencoder和PCA技术, 提出一种新型的AE-P-RVFLNs算法, 用于建立高炉炼铁过程多元铁水质量在线估计的动态NARX模型.相对于常规RVFLNs, 所提AE-P-RVFLNs算法实现时增加了两个关键设计步骤, 即采用Autoencoder前馈随机网络对输入数据的训练阶段和采用PCA对隐层输出矩阵的降维阶段.所提算法的网络参数由于充分利用了输入数据信息、并显著优化网络结构, 因而能够在保证模型精度的同时, 有效提高网络运行效率.更为重要的是, 所提AE-P-RVFLNs算法有效避免了RVFLNs存在的过拟合问题和多重共线性问题, 因而基于所提方法建立的模型泛化性能好、鲁棒性强, 能够在实际炼铁生产中进行工程应用.

参考文献
1
Song He-Da, Zhou Ping, Wang Hong, Chai Tian-You. Nonlinear subspace modeling of multivariate molten iron quality in blast furnace ironmaking and its application. Acta Automatica Sinica, 2016, 42(21): 1664-1679.
( 宋贺达, 周平, 王宏, 柴天佑. 高炉炼铁过程多元铁水质量非线性子空间建模及应用. 自动化学报, 2016, 42(21): 1664-1679.)
2
Jian L, Gao C H, Xia Z H. Constructing multiple kernel learning framework for blast furnace automation. IEEE Transactions on Automation Science and Engineering, 2012, 9(4): 763-777. DOI:10.1109/TASE.2012.2211100
3
Zhou P, Lv Y B, Wang H, Chai T Y. Data-driven robust RVFLNs modeling of a blast furnace iron-making process using Cauchy distribution weighted M-estimation. IEEE Transactions on Industrial Electronics, 2017, 64(9): 7141-7151. DOI:10.1109/TIE.2017.2686369
4
Jiang Zhao-Hui, Dong Meng-Lin, Gui Wei-Hua, Yang Chun-Hua, Xie Yong-Fang. Two-dimensional prediction for silicon content of hot metal of blast furnace based on bootstrap. Acta Automatica Sinica, 2016, 42(5): 715-723.
( 蒋朝辉, 董梦林, 桂卫华, 阳春华, 谢永芳. 基于Bootstrap的高炉铁水硅含量二维预报. 自动化学报, 2016, 42(5): 715-723.)
5
de Castro J A, Nogami H, Yagi J I. Three-dimensional multiphase mathematical modeling of the blast furnace based on the multifluid model. ISIJ International, 2002, 42(1): 44-52. DOI:10.2355/isijinternational.42.44
6
Cui Gui-Mei, Sun Tong, Zhang Yong. Application of support vector machine (SVM) in prediction of molten iron temperature in blast furnace. Control Engineering of China, 2013, 20(5): 809-812, 817.
( 崔桂梅, 孙彤, 张勇. 支持向量机在高炉铁水温度预测中的应用. 控制工程, 2013, 20(5): 809-812, 817. DOI:10.3969/j.issn.1671-7848.2013.05.005)
7
Chu Man-Sheng, Wang Hong-Tao, Liu Zheng-Gen, Tang Jue. Research progress on mathematical modeling of blast furnace ironmaking process. Iron and Steel, 2014, 49(11): 1-8.
( 储满生, 王宏涛, 柳政根, 唐珏. 高炉炼铁过程数学模拟的研究进展. 钢铁, 2014, 49(11): 1-8.)
8
Lvanov E B, Klimovitskii M D, Anisimov E F. Expert system for blast-furnace operators. Metallurgist, 2011, 54(11-12): 730-736. DOI:10.1007/s11015-011-9366-x
9
Liu J K, Wang S Q. Construction of the inference engine of blast furnace expert system. Journal of Iron & Steel Research (International), 1998, 5(2): 22-27.
10
Zarandi M H F, Ahmadpour P. Fuzzy agent-based expert system for steel making process. Expert Systems with Applications, 2009, 36(5): 9539-9547. DOI:10.1016/j.eswa.2008.10.084
11
Cai J H, Zeng J S, Luo S H. A state space model for monitoring of the dynamic blast furnace system. ISIJ International, 2012, 52(12): 2194-2199. DOI:10.2355/isijinternational.52.2194
12
Bhattacharya T. Prediction of silicon content in blast furnace hot metal using partial least squares (PLS). ISIJ International, 2005, 45(12): 1943-1945. DOI:10.2355/isijinternational.45.1943
13
Gao C H, Ge Q H, Jian L. Rule extraction from fuzzy-based blast furnace SVM multiclassifier for decision-making. IEEE Transactions on Fuzzy Systems, 2014, 22(3): 586-596. DOI:10.1109/TFUZZ.2013.2269145
14
Yuan M, Zhou P, Li M L, Li R F, Wang H, Chai T Y. Intelligent multivariable modeling of blast furnace molten iron quality based on dynamic AGA-ANN and PCA. Journal of Iron and Steel Research, International, 2015, 22(6): 487-495.
15
Chen J. A predictive system for blast furnaces by integrating a neural network with qualitative analysis. Engineering Applications of Artificial Intelligence, 2001, 14(1): 77-85.
16
Zhou P, Yuan M, Wang H, Chai T Y. Data-driven dynamic modeling for prediction of molten iron silicon content using ELM with self-feedback. Mathematical Problems in Engineering, 2015, 2015: Article No.326160.
17
Zhou P, Yuan M, Wang H, Wang Z, Chai T Y. Multivariable dynamic modeling for molten iron quality using online sequential random vector functional-link networks with self-feedback connections. Information Sciences, 2015, 325: 237-255. DOI:10.1016/j.ins.2015.07.002
18
Zhang L, Zhou P, Song H D, Yuan M, Chai T Y. Multivariable dynamic modeling for molten iron quality using incremental random vector functional-link networks. Journal of Iron and Steel Research, International, 2016, 23(11): 1151-1159.
19
Zhao J, Wang W, Liu Y, Pedrycz W. A two-stage online prediction method for a blast furnace gas system and its application. IEEE Transactions on Control Systems Technology, 2011, 19(3): 507-520.
20
Wang Wei, Chen Wei-Lin, Ye Yong, Xu Zhi-Hui, Jia Bin. Application of neural network to predict sulphur content in hot metal. Iron and Steel, 2016, 41(10): 19-22.
( 王炜, 陈畏林, 叶勇, 徐智慧, 贾斌. 神经网络在高炉铁水硫含量预报中的应用. 钢铁, 2016, 41(10): 19-22. DOI:10.3969/j.issn.1672-5115.2016.10.008)
21
Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors. Nature, 1986, 323(6088): 533-536. DOI:10.1038/323533a0
22
Vincent P, Larochelle H, Lajoie I, Bengio Y, Manzagol PA. Stacked denoising Autoencoders:learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research, 2010, 11(12): 3371-3408.
23
Kasun L L C, Zhou H M, Huang G B, Vong C. Representational learning with extreme learning machine for big data. IEEE Intelligent Systems, 2013, 28(6): 31-34.
24
Zhang H G, Yin Y X, Zhang S. An improved ELM algorithm for the measurement of hot metal temperature in blast furnace. Neurocomputing, 2016, 174: 232-237. DOI:10.1016/j.neucom.2015.04.106
25
Good R P, Kost D, Cherry G A. Introducing a unified PCA algorithm for model size reduction. IEEE Transactions on Semiconductor Manufacturing, 2010, 23(2): 201-209. DOI:10.1109/TSM.2010.2041263