基于非负绞杀的稀疏化ONLSTM及其工业软测量建模

郭迎宸; 隋璘; 熊伟丽

doi:10.11992/tis.202502004

基于非负绞杀的稀疏化ONLSTM及其工业软测量建模

doi: 10.11992/tis.202502004

郭迎宸^1,,
隋璘^1,,
熊伟丽^{1, 2, ,}

1.
江南大学物联网工程学院, 江苏无锡 214122;
2.
江南大学轻工过程先进控制教育部重点实验室, 江苏无锡 214122

基金项目: 国家自然科学基金项目(61773182)；江南大学“轻工技术与工程”双一流学科与支撑学科协同发展支持计划(QGJC20230203).

详细信息

作者简介:
郭迎宸，硕士研究生，主要研究方向为机器学习、软测量建模。E-mail：guoyingchen25@163.com;

隋璘，博士研究生, 主要研究方向为机器学习、软测量建模。E-mail：suilin359@163.com;

熊伟丽，教授，博士生导师，主要研究方向为智能软测量技术、过程监测。主持国家自然科学基金面上项目、国家自然科学基金青年项目、江苏省产学研等省部级以上项目15项；获得江苏省科学技术奖二等奖1项；发表学术论文近百篇，获发明专利授权26项，其中国际专利3项。E-mail：greenpre@163.com.

通讯作者:
熊伟丽. E-mail：greenpre@163.com.

中图分类号: TP274
出版历程
- 收稿日期: 2025-02-18
- 录用日期: 2025-10-05
- 网络出版日期: 2025-10-10

Sparse ONLSTM and non-negative constrained industrial soft sensing modeling

GUO Yingchen^1,,
SUI Lin^1,,
XIONG Weili^{1, 2, ,}

1.
School of Internet of Things Engineering, Jiangnan University, Wuxi 214122, China;
2.
Key Laboratory of Advanced Process Control for Industry (Ministry of Education), Jiangnan University, Wuxi 214122, China

摘要

摘要: 实际工业过程往往具有多变量、非线性和动态性等特点，建模数据包含过多冗余信息和时序依赖特征，从而导致建模复杂度增加和模型性能下降。因此，提出一种基于非负绞杀的稀疏化有序神经元长短时记忆网络(ordered neurons long short-term memory，ONLSTM)用于工业软测量建模。将非负绞杀收缩系数嵌入ONLSTM输入层权重矩阵，对其进行收缩绞杀，剔除冗余输入节点的同时实现变量选择。将非负绞杀收缩系数与ONLSTM隐藏层权重矩阵相结合，根据不同隐藏神经元重要性设计权重分配规则，剔除网络隐藏层冗余节点及其对应的信息传递通路，进行网络结构稀疏优化。通过数值仿真验证了所提算法的有效性，并将其应用于某火电厂烟气脱硫过程排放净烟气SO₂浓度预测。实验结果表明所提算法能有效实现变量选择，并在保证预测性能的前提下，使模型结构得到稀疏优化，展现出比较广阔的应用前景。
- 软测量 /
- 长短时记忆网络 /
- 有序神经元 /
- 非负绞杀 /
- 冗余信息 /
- 变量选择 /
- 稀疏优化 /
- 深度学习
Abstract: Industrial processes often exhibit characteristics such as multivariable interactions, nonlinear behaviors, and time-varying changes. Thus, the resulting modeling data contain excessive redundant information and complex time-dependent patterns, which increase modeling complexity and degrade the model performance. To address these challenges, an ordered neurons long short-term memory (ONLSTM) network integrated with non-negative garrote-based regularization is proposed herein for industrial soft sensor modeling. First, the shrinkage coefficients of the non-negative garrote are embedded into the weight matrix of the ONLSTM input layer to eliminate redundant input nodes and enable variable selection. Second, these coefficients are integrated into the weight matrix of the ONLSTM hidden layer to assign weights based on the importance of hidden neurons. Consequently, redundant nodes and their corresponding information pathways are pruned, achieving sparse optimization of the network structure. The proposed method is validated via numerical simulations and subsequently employed to predict the SO₂ concentration in flue gas emissions from a desulfurization process in a thermal power plant. Experimental results demonstrate that the algorithm effectively selects variables and sparsely optimizes the model structure while maintaining high predictive performance, offering promising prospects for broader industrial applications.
- soft sensor /
- long short-term memory networks /
- ordered neurons /
- non-negative strangulation /
- redundant information /
- variable selection /
- sparse optimization /
- deep learning

HTML全文

随着工业智能化的不断推进，工业生产的复杂程度与信息化水平日益提升。为提高产品质量，需要对某些难以直接或实时采集但与产品质量密切相关的质量变量进行实时监测^[1-3]。软测量技术通过构建易于获取的辅助变量与质量变量之间的数学模型来有效预测相关质量变量，已被广泛应用于工业过程监测和控制领域^[4-6]。

为提升工业过程监测与控制精度，更高效且鲁棒性更强的软测量建模算法是关键。人工神经网络凭借其强大的非线性映射能力与无需依赖先验知识的学习能力成为软测量领域的研究热点^[7-9]。近年来，以长短期记忆(long short-term memory，LSTM)网络为代表的门控循环神经网络，通过其独特的门控结构控制信息流动，更好地捕捉了数据中的长期依赖关系^[10-12]。文献[13]通过构建联合LSTM网络与卷积网络的特征提取模型，并利用LSTM实现特征融合，进而利用全连接模块构建预测模型。文献[14]通过构建一个结合LSTM模块和全连接模块的骨干网络，并将物理退化属性集成到迁移学习框架中，提出一种物理引导的Transfer Learning-LSTM网络用于锂离子电池的退化轨迹预测。文献[15]以逻辑方式指导预训练的LSTM网络而获得LogicLSTM，进行具有逻辑推理能力的时态数据处理，以提高分类的预测准确性和可解释性。

然而，LSTM网络隐藏层神经元相互独立，未考虑神经元之间的序列层次信息，导致不同神经元可能学到相同特征信息^[16]。有序神经元长短时记忆网络(ordered neurons long short-term memory，ONLSTM)通过对LSTM内部隐藏神经元进行重要性排序并引入层级概念，新增主遗忘门与主输入门以分区更新的方式对特征信息进行选择^[17]，提高了模型对长期依赖关系的捕捉能力，引起了众多学者的广泛关注。文献[18]提出一种带自注意力机制的卷积ONLSTM网络时序预测模型，通过卷积神经网络降低特征维度，并引入自注意力机制以动态调整特征权重。文献[19]提出一种具有注意力引导的ONLSTM网络，通过对齿轮健康特征信息进行层次划分实现了齿轮的剩余寿命预测。文献[20]提出一种基于时序迁移的双流加权ONLSTM模型，采用双流结构精确控制信息流传递，并将模型内嵌于时序迁移框架以解决时间协变量移位问题。

基于深度网络的软测量建模过程中，建模数据质量及网络结构合理性同样是不可忽视的关键影响因素。然而，实际工业过程数据中包含过多冗余变量，导致模型需要更复杂的结构与更多参数学习数据特征，进而使建模难度增加与性能下降^[21]。因此，降低模型复杂度并有效提取数据中的关键信息也是软测量建模领域亟待解决的科学难题^[22]。稀疏模型通过去除冗余信息，保留模型中最重要的信息流，可以在有效解决工业数据集数据冗余问题的同时稀疏化模型结构^[23]。非负绞杀(nonnegative garrote，NNG)是一种经典的模型稀疏化方法，常用以对输入变量进行选择压缩^[24]。其基本思想是在回归模型中引入非负约束，保持模型预测能力的同时降低模型复杂度。文献[25]利用NNG对人工神经网络的输入权重进行精确收缩，剔除了冗余输入变量，与其他先进方法相比，所提方法在选择的变量较少的情况下表现出更好的模型准确性。文献[26]结合非平稳干扰提出一种自适应偏最小二乘NNG方法，降低了输入维度，实现动态过程的高效在线应用，用于高炉炉膛壁的温度预测和蒸馏塔的杂质成分估计。文献[27]提出一种基于注意力机制与非负绞杀的门控循环单元，不仅剔除了无关输入变量，还在保证模型预测精度的同时对模型结构进行稀疏。

综上所述，面向实际工业过程的多变量、非线性和动态性等特点，提出基于非负绞杀的结构稀疏化ONLSTM工业软测量模型。一方面利用ONLSTM自动学习层级结构信息对数据进行充分的利用以实现建模；另一方面通过NNG算法在ONLSTM模型的输入层中引入非负约束，在保证模型预测能力的前提下，剔除冗余输入变量。同时考虑到ONLSTM网络结构复杂度相较LSTM有所增加，因此在其隐藏层加入NNG算法，以减少模型计算量并剔除网络模型的冗余节点，以实现模型的稀疏化。最后基于数值仿真和火电厂脱硫过程的生产实际数据，建立相对应的软测量模型，并与不同软测量算法进行性能对比，验证了算法的有效性。

1. ONLSTM神经网络

ONLSTM在LSTM的基础上增添了主遗忘门和主输入门对隐藏层神经元进行排序，进而引入信息层级概念。ONLSTM通过主遗忘门和主输入门将输入信息分割为3部分，即主遗忘通路、主输入通路和信息重叠通路，分别计算后合并为输出。其结构如图1所示，图中灰色部分为传统LSTM网络结构，彩色部分为ONLSTM新增结构。传统LSTM门控单元计算过程为

图 1 ONLSTM网络结构

Fig. 1 ONLSTM network structure

下载: 全尺寸图片

$$ {{\boldsymbol{f}}_{{t}}} = \sigma ({{\boldsymbol{x}}_{{t}}}{{\boldsymbol{W}}_{{{xf}}}} + {{\boldsymbol{h}}_{{{t}} - 1}}{{\boldsymbol{W}}_{{{hf}}}} + {{\boldsymbol{b}}_{{f}}}) $$

(1)

$$ {{\boldsymbol{i}}_{{t}}} = \sigma ({{\boldsymbol{x}}_{{t}}}{{\boldsymbol{W}}_{{{xi}}}} + {{\boldsymbol{h}}_{{{t}} - 1}}{{\boldsymbol{W}}_{{{hi}}}} + {{\boldsymbol{b}}_{{i}}}) $$

(2)

$$ {{\boldsymbol{o}}_{{t}}} = \sigma ({{\boldsymbol{x}}_{{t}}}{{\boldsymbol{W}}_{{{xo}}}} + {{\boldsymbol{h}}_{{{t}} - 1}}{{\boldsymbol{W}}_{{{ho}}}} + {{\boldsymbol{b}}_{{o}}}) $$

(3)

$$ {\hat{\boldsymbol{c}}_{{t}}} = \tanh ({{\boldsymbol{x}}_{{t}}}{{\boldsymbol{W}}_{{{xc}}}} + {{\boldsymbol{h}}_{{{t}} - 1}}{{\boldsymbol{W}}_{{{hc}}}} + {{\boldsymbol{b}}_{{c}}}) $$

(4)

式中：$ {{\boldsymbol{f}}_{{t}}} $、$ {{\boldsymbol{i}}_{{t}}} $、$ {{\boldsymbol{o}}_{{t}}} $、$ {\hat{\boldsymbol{c}}_{{t}}} $分别为遗忘门、输入门、输出门与候选单元状态的输出；$ {{\boldsymbol{x}}_{{t}}} $表示当前时刻的输入；$ {{\boldsymbol{h}}_{{{t}} - 1}} $表示前一时刻的隐含状态；$ {{\boldsymbol{W}}_{{{x*}}}} $和$ {{\boldsymbol{W}}_{{{h*}}}} $分别表示输入权重与隐藏层权重；$ {{\boldsymbol{b}}_*} $为对应的偏置；$ \sigma ( \cdot ) $表示Sigmoid激活函数；$ \mathrm{tanh}( \cdot ) $表示双曲正切激活函数。LSTM中隐含状态和单元状态的更新计算过程为

$$ {{\boldsymbol{C}}_{{t}}} = {{\boldsymbol{f}}_{{t}}} \odot {{\boldsymbol{C}}_{{{t}} - 1}} + {{\boldsymbol{i}}_{{t}}} \odot {\hat{\boldsymbol{c}}_{{t}}} $$

(5)

$$ {{\boldsymbol{h}}_{{t}}} = {{\boldsymbol{o}}_{{t}}} \odot \tanh ({{\boldsymbol{C}}_{{t}}}) $$

(6)

式中：$ {{\boldsymbol{C}}_{{t}}} $和$ {{\boldsymbol{h}}_{{t}}} $为更新后的单元状态和隐含状态，$ \odot $为向量点乘运算。ONLSTM在此基础上引入了一个新的激活函数，其新增参数更新计算过程为

$$ {\text{cumax}}( \cdot ) = {\text{cumsum}}({\mathrm{Softmax}}( \cdot )) $$

(7)

$$ {{\tilde{\boldsymbol f}}_{{t}}} = {\text{cumax}}({{\boldsymbol{x}}_{{t}}}{{\boldsymbol{W}}_{{{x\tilde f}}}} + {{\boldsymbol{h}}_{{{t}} - 1}}{{\boldsymbol{W}}_{{{h\tilde f}}}} + {{\boldsymbol{b}}_{{\tilde{ f}}}}) $$

(8)

$$ {{\tilde{\boldsymbol i}}_{{t}}} = 1 - {\text{cumax}}({{\boldsymbol{x}}_{{t}}}{{\boldsymbol{W}}_{{{x\tilde i}}}} + {{\boldsymbol{h}}_{{{t}} - 1}}{{\boldsymbol{W}}_{{{h\tilde i}}}} + {{\boldsymbol{b}}_{{\tilde{ i}}}}) $$

(9)

$$ {{\boldsymbol{w}}_{{t}}} = {{\tilde{\boldsymbol f}}_{{t}}} \odot {{\tilde{\boldsymbol i}}_{{t}}} $$

(10)

$$ {{\boldsymbol{w}}_1} = {{\tilde{\boldsymbol f}}_{{t}}} - {{\boldsymbol{w}}_{{t}}} $$

(11)

$$ {{\boldsymbol{w}}_2} = {{\tilde{\boldsymbol i}}_{{t}}} - {{\boldsymbol{w}}_{{t}}} $$

(12)

$$ {{\boldsymbol{C}}_{{t}}} = {{\boldsymbol{w}}_1} \odot {{\boldsymbol{C}}_{{{t}} - 1}} + {{\boldsymbol{w}}_{{t}}} \odot ({{\boldsymbol{f}}_{{t}}} \odot {{\boldsymbol{C}}_{{{t}} - 1}} + {{\boldsymbol{i}}_{{t}}} \odot {{\hat{\boldsymbol{c}}}_{{t}}}) + {{\boldsymbol{w}}_2} \odot {{\hat{\boldsymbol{c}}}_{{t}}} $$

(13)

$$ {{\boldsymbol{h}}_{{t}}} = {{\boldsymbol{o}}_{{t}}} \odot \tanh ({{\boldsymbol{C}}_{{t}}}) $$

(14)

式中：cumax(·)函数由cumsum和Softmax函数嵌套组成，是ONLSTM新增主遗忘门的激活函数；1−cumax(·)为反向的cumax函数，是ONLSTM新增主输入门的激活函数；$ {{\boldsymbol{w}}_{{t}}} $表示$ {{\tilde{\boldsymbol f}}_{{t}}} $和$ {{\tilde{\boldsymbol i}}_{{t}}} $的信息重叠部分，对应信息重叠通路；$ {{\boldsymbol{w}}_1} $表示$ {{\tilde{\boldsymbol f}}_{{t}}} $中高于$ {{\boldsymbol{w}}_{{t}}} $的部分，对应主遗忘通路；$ {{\boldsymbol{w}}_2} $表示$ {{\tilde{\boldsymbol i}}_{{t}}} $中低于$ {{\boldsymbol{w}}_{{t}}} $的部分，对应主输入通路。

ONLSTM隐藏神经元顺序被定义为信息层级，其中高层级神经元存储长期保持的长期信息，而低层级神经元存储可以快速忘记的短期信息^[17]。式(10)~(12)对应的3条通路对信息流中的长期信息与短期信息进行划分提取，式(13)表示$ {{\boldsymbol{C}}_{{t}}} $的更新逻辑，直观地显示不同通路的融合计算过程。ONLSTM可在不同层级上分别处理信息流向，进而实现更好的模型预测效果。

2. 非负绞杀算法

非负绞杀(NNG)算法是一种基于约束函数的嵌入式模型优化算法，能将信息节点选择与权重系数的优化过程相结合，最初被用以解决线性优化问题^[24]。相较于过滤式与包裹式的特征选择方法，NNG算法将特征选择过程与模型训练过程相融合，同时实现了效率与性能之间的有效权衡^[28]。NNG算法的基本原理是在最小二乘算法的基础上添加一个约束函数，构造成一个带有限制条件的非线性函数，然后求得该函数的极值以获取在该限制条件下参数的最优解。以线性模型为例：

$$ {\boldsymbol{y}} = {\boldsymbol{\beta x}} + {\boldsymbol{\varepsilon }} $$

(15)

式中：$ {\boldsymbol{x}} = \left[ {{{\boldsymbol{x}}_1}\;\;{{\boldsymbol{x}}_2}\;\; \cdots \;\;{{\boldsymbol{x}}_p}} \right] $和y分别表示输入和输出变量，$ {\boldsymbol{\beta }} = \left[ {{\beta _1}\;\;{\beta _2}\;\; \cdots \;\;{\beta _p}} \right] $表示系数，p为输入维度，ε是随机误差。令$ {\boldsymbol{X}} \in {\bf{R}}^{n \times p} $为输入矩阵，n为样本总数；$ {\boldsymbol{Y}} \in {\bf{R}}^n $为输出矩阵。令$ \hat{\boldsymbol{\beta}} $表示系数估计，得到带有限制条件的非线性函数：

$$ \begin{gathered} {{\boldsymbol{\theta }}^*}(S) = {\text{argmin}}\sum\limits_{\forall ({\boldsymbol{x}},{\boldsymbol{y}}) \in \{ {\boldsymbol{X}},{\boldsymbol{Y}}\} } {\{ {{({\boldsymbol{y}} - ({\boldsymbol{\theta }} \odot \hat {\boldsymbol{\beta }}){{\boldsymbol{x}}_{{i}}})}^2}\} } \\ {\mathrm{s.t.}}\;\; {\text{ }}{\theta _i} \geqslant 0,\sum\limits_{i = 1}^p {{\theta _i} \leqslant S} \end{gathered} $$

(16)

式中：S为绞杀超参数；$ {\boldsymbol{\theta }} = \left[ {{\theta _1}\;\;{\theta _2}\;\; \cdots \;\;{\theta _p}} \right] $为收缩向量；$ {\theta _i} $为对应的收缩系数。求解式(16)可得收缩向量$ {{\boldsymbol{\theta }}^*} = \left[ {\theta _1^*\;\;\theta _2^*\;\; \cdots \;\;\theta _p^*} \right] $，将$ {{\boldsymbol{\theta }}^*} $代入式(15)即可获得更新后的系数：

$$ {\tilde{\boldsymbol \beta }} = {{\boldsymbol{\theta }}^*} \odot {\boldsymbol{\hat \beta }} $$

(17)

则优化后得到的输出为

$$ {\tilde{\boldsymbol y}} = {\tilde{\boldsymbol \beta} x} $$

(18)

算法通过绞杀超参数对收缩向量进行约束，以在约束条件下取得最优解。在寻优过程中，绞杀超参数越小，则约束越大，其收缩系数更趋于0。当收缩系数趋于0时，则对应系数估计也将趋于0，即对应输入变量被删除。

3. DNNG-ONLSTM算法设计

3.1 模型架构

尽管ONLSTM能更为有效地捕捉时序数据中的长期依赖信息。但其性能易受建模数据质量和其固有网络结构的影响。因此，提出了一种基于非负绞杀的稀疏化ONLSTM软测量算法(double NNG-ONLSTM，DNNG-ONLSTM)，该算法实现了模型输入变量选择和网络结构的同步优化，解决了输入变量和隐藏神经元节点的冗余问题，其架构如图2所示。

图 2 基于非负绞杀的稀疏化ONLSTM网络结构

Fig. 2 Structure of sparse ONLSTM network based on non-negative strangulation

下载: 全尺寸图片

DNNG-ONLSTM算法的搭建主要通过网络预训练和非负绞杀收缩系数嵌入两个步骤实现。第1步通过超参数寻优获得训练结果良好的初始ONLSTM网络模型。第2步将非负绞杀的收缩系数依次分别嵌入ONLSTM输入和隐藏层权重矩阵中，获得基于非负绞杀的稀疏化ONLSTM网络。其内部详细拓扑结构如图3所示。

图 3 基于非负绞杀的稀疏化ONLSTM网络内部结构

Fig. 3 Internal structure of sparse ONLSTM network based on non-negative strangulation

下载: 全尺寸图片

3.2 基于NNG的变量选择

预训练阶段，采用Adam算法训练ONLSTM网络，并选取训练结果良好的模型作为初始模型。此时模型输出可以表示为

$$ {{\boldsymbol{y}}_{{t}}} = {{\mathrm{g}}} ({{\boldsymbol{W}}_{{y}}}({{\boldsymbol{o}}_{{t}}} \odot \tanh ({{\boldsymbol{C}}_{{t}}}) + {{\boldsymbol{b}}_{{y}}}) $$

(19)

式中：$ \mathrm{g}( \cdot ) $表示全连接层的激活函数；$ {{\boldsymbol{W}}_{{y}}} $和$ {{\boldsymbol{b}}_{{y}}} $分别是全连接输出层的学习权重矩阵和偏差向量。

再训练阶段，为避免耦合冗余数据影响，将NNG算法收缩向量α嵌入ONLSTM输入权重矩阵，实现输入变量选择并削弱变量耦合对模型预测性能的影响。此时算法输出更新为

$$ \begin{gathered} {\boldsymbol{y}}_{{t}}' = {{\mathrm{g}}} ({{\boldsymbol{W}}_{{y}}}({\boldsymbol{o}}_{{t}}' \odot \tanh ({{\boldsymbol{C}}_{{{t}} - 1}} \odot ({\boldsymbol{f}}_{{t}}' \odot {\boldsymbol{\omega }}_{{t}}' + {\tilde{\boldsymbol f}}_{{t}}' - {\boldsymbol{\omega }}_{{t}}') + \\ {\text{ }}{\boldsymbol{\hat c}}_{{t}}' \odot ({\boldsymbol{i}}_{{t}}' \odot {\boldsymbol{\omega }}_{{t}}' + {\tilde{\boldsymbol i}}_{{t}}' - {\boldsymbol{\omega }}_{{t}}'))) + {{\boldsymbol{b}}_{{y}}}) \end{gathered} $$

(20)

式中：各个门的更新过程为

$$ {\boldsymbol{f}}_{{t}}' = \sigma \left(\sum\limits_{i = 1}^p {x_i^t} ({\alpha _i} \odot W_{ik}^{xf}) + \sum\limits_{j = 1}^q {h_j^{t - 1}W_{jk}^{hf}} + b_j^f\right){\text{ }} $$

(21)

$$ {\boldsymbol{i}}_{{t}}' = \sigma \left(\sum\limits_{i{ = }1}^p {x_i^t} {(}{\alpha _i} \odot W_{ik}^{xi}) + \sum\limits_{j = 1}^q {h_j^{t - 1}W_{jk}^{hi}} + b_j^i\right) $$

(22)

$$ {\boldsymbol{o}}_{{t}}' = \sigma \left(\sum\limits_{i = 1}^p {x_i^t} ({\alpha _i} \odot W_{ik}^{xo}) + \sum\limits_{j = 1}^q {h_j^{t - 1}} W_{jk}^{ho} + b_j^o\right) $$

(23)

$$ {{\boldsymbol{\hat c}}'}_{{t}} = \tanh \left(\sigma \left(\sum\limits_{i = 1}^p {x_i^t} ({\alpha _i} \odot W_{ik}^{xc}) + \sum\limits_{j = 1}^q {h_j^{t - 1}W_{jk}^{hc}} + b_j^c\right)\right) $$

(24)

$$ {\tilde{\boldsymbol f}}_{{t}}' = {\text{cumax}}\left(\sigma \left(\sum\limits_{i{ = }1}^p {x_i^t} ({\alpha _i} \odot W_{ik}^{x\tilde f}) + \sum\limits_{j = 1}^q {h_j^{t - 1}} W_{jk}^{h\tilde f} + b_j^{\tilde f}\right)\right) $$

(25)

$$ \begin{gathered} {\tilde{\boldsymbol i}}_{{t}}' = 1 - \\ {\text{cumax}}\left(\sigma \left(\sum\limits_{i{ = }1}^p {x_i^t} \left({\alpha _i} \odot W_{ik}^{x\tilde i}\right) + \sum\limits_{j = 1}^q {h_j^{t - 1}W_{jk}^{h\tilde i}} + b_j^{\tilde i}\right)\right) \end{gathered} $$

(26)

$$ \begin{gathered} {\boldsymbol{C}}_{{t}}' = {{\boldsymbol{C}}_{{{t}} - 1}} \odot ({\boldsymbol{f}}_{{t}}' \odot {\boldsymbol{w}}_{{t}}' + {\tilde{\boldsymbol f}}_{{t}}' - {\boldsymbol{w}}_{{t}}') + {\text{ }}{\boldsymbol{\hat c}}_{{t}}' \odot ({\boldsymbol{i}}_{{t}}' \odot {\boldsymbol{w}}_{{t}}' + {\tilde{\boldsymbol i}}_{{t}}' - {\boldsymbol{w}}_{{t}}') \end{gathered} $$

(27)

式中：k=1,2,…,q，p和q分别为输入变量维度与模型隐藏层节点数。收缩系数${\alpha _i}$确定了输入变量${x_i}$的收缩程度，通过将其限制在[0，1]范围内增强了模型系数估计的可解释性。具体来说，${\alpha _i} = 1$表示${x_i}$完全保留，而${\alpha _i} = 0$表示${x_i}$被完全删除。最佳收缩向量α求解式：

$$ \begin{gathered} {\boldsymbol{\alpha }} = {\text{argmin}}\sum\limits_{\forall ({\boldsymbol{x}},{\boldsymbol{y}}) \in \{ {\boldsymbol{X}},{\boldsymbol{Y}}\} } \left[ ({\boldsymbol{y}} - {{\mathrm{g}}}\left({{\boldsymbol{W}}_{{y}}}\left({\boldsymbol{o}}_{{t}}' \odot \tanh ({\boldsymbol{C}}_{{t}}') + {{\boldsymbol{b}}_{{y}}}\right)\right)^2\right] \\ {\mathrm{s.t.}}\;\; {\text{ }}0 \leqslant {\alpha _i} \leqslant 1,\sum\limits_{i = 1}^p {{\alpha _i} \leqslant {S_1}} \end{gathered} $$

(28)

显然，式(28)是一个带有边界约束和线性约束的非线性不等式最优化问题。对于给定的绞杀超参数S₁，可通过COBYLA (constrained optimization by linear approximation)算法计算模型在S₁条件下的最优解，其通过构造目标函数和约束的连续线性逼近，并在每一步的信赖区域中优化这些逼近进行求解。

在NNG对ONLSTM权重系数进行收缩时，其通过L1约束迫使冗余特征对应权重趋近于0，从而剔除无效输入变量。该机制可有效降低输入维度与输入层参数规模，在实现变量选择的同时显著减少模型计算量。式(28)将模型的预测输出嵌入NNG算法以扩展其应用范围至非线性最优求解问题，能有效剔除无关变量，稀疏模型结构。将α代入式(21)~(26)可得到一组新的权重矩阵：

$$ {\tilde{{\boldsymbol{W}}}}_{{{i*}}}^{{{x*}}}={\alpha }_{i}\odot {{\boldsymbol{W}}}_{{{i*}}}^{{{x*}}}\text{，}i=1,2, \cdots p $$

(29)

NNG算法嵌入输入层强制其权重非负，增强了输入特征可解释性，有效缓解模型过拟合，提升了模型泛化能力。

3.3 基于NNG的结构优化

除了建模数据，模型本身的结构同样会影响模型性能。因此本文所提网络在进行变量选择的同时，对ONLSTM结构进行稀疏优化。图4给出了模型的结构稀疏化过程。

图 4 模型结构稀疏过程

Fig. 4 Model structure sparsity process

下载: 全尺寸图片

如图4所示，算法将优化的收缩系数α与模型输入矩阵点乘，绞杀系数为零的输入节点权重置零，其所对应输入节点及其信息通路被删除，实现变量选择。同时，收缩系数β与模型隐藏层输入矩阵点乘，将部分隐藏层节点的输入权重归零，实现模型结构稀疏化，更新后算法的前向计算过程为

$$ \begin{gathered} {\boldsymbol{y}}_{{t}}^{\prime \prime} = {{\mathrm{g}}} ({{\boldsymbol{W}}_{{y}}}({\boldsymbol{o}}_{{t}}^{\prime \prime} \odot \tanh ({{\boldsymbol{C}}_{{{t}} - 1}} \odot ({\boldsymbol{f}}_{{t}}^{\prime \prime} \odot {\boldsymbol{\omega }}_{{t}}^{\prime \prime} + {\tilde{\boldsymbol f}}_{{t}}^{\prime \prime} - {\boldsymbol{\omega }}_{{t}}^{\prime \prime}) + \\ {{\hat {\boldsymbol{c}}}}_{{t}}^{\prime \prime} \odot ({\boldsymbol{i}}_{{t}}^{\prime \prime} \odot {\boldsymbol{\omega }}_{{t}}^{\prime \prime} + {\tilde{\boldsymbol i}}_{{t}}^{\prime \prime} - {\boldsymbol{\omega }}_{{t}}^{\prime \prime}))) + {{\boldsymbol{b}}_{{y}}}) \end{gathered} $$

(30)

此时，各个门的更新过程为

$$ {\boldsymbol{f}}_{{t}}^{\prime \prime} = \sigma \left(\sum\limits_{i = 1}^p {x_i^t} \tilde W_{ik}^{xf} + \sum\limits_{j = 1}^q {h_j^{t - 1}({\beta _j} \odot W_{jk}^{hf})} + b_j^f\right) $$

(31)

$$ {\boldsymbol{i}}_{{t}}^{\prime \prime} = \sigma \left(\sum\limits_{i{ = }1}^p {x_i^t} \tilde W_{ik}^{xi} + \sum\limits_{j = 1}^q {h_j^{t - 1}({\beta _j} \odot W_{jk}^{hi})} + b_j^i\right) $$

(32)

$$ {\boldsymbol{o}}_{{t}}^{\prime \prime} = \sigma \left(\sum\limits_{i = 1}^p {x_i^t} \tilde W_{ik}^{xo} + \sum\limits_{j = 1}^q {h_j^{t - 1}} ({\beta _j} \odot W_{jk}^{ho}) + b_j^o\right) $$

(33)

$$ {\boldsymbol{\hat c}}_{{t}}^{\prime \prime} = \tanh \left(\sigma \left(\sum\limits_{i = 1}^p {x_i^t} \tilde W_{ik}^{xc} + \sum\limits_{j = 1}^q {h_j^{t - 1}({\beta _j} \odot W_{jk}^{hc})} + b_j^c\right)\right) $$

(34)

$$ {\tilde{\boldsymbol f}}_{{t}}^{\prime \prime} = {\text{cumax}}\left(\sigma \left(\sum\limits_{i = 1}^p {x_i^t} \tilde W_{ik}^{x\tilde f} + \sum\limits_{j = 1}^q {h_j^{t - 1}} ({\beta _j} \odot W_{jk}^{h\tilde f}) + b_j^{\tilde f}\right)\right) $$

(35)

$$ \begin{gathered} {\tilde{\boldsymbol i}}_{{t}}^{\prime \prime} = 1 - {\text{cumax}}\left(\sigma \left(\sum\limits_{i = 1}^p {x_i^t} \tilde W_{ik}^{x\tilde i} + \sum\limits_{j = 1}^q {h_j^{t - 1}({\beta _j} \odot W_{jk}^{h\tilde i})} + b_j^{\tilde i}\right)\right) \end{gathered} $$

(36)

$$ \begin{gathered} {\boldsymbol{C}}_{{t}}^{\prime \prime} = {{\boldsymbol{C}}_{{{t}} - 1}} \odot ({\boldsymbol{f}}_{{t}}^{\prime \prime} \odot {\boldsymbol{w}}_{{t}}^{\prime \prime} + {\tilde{\boldsymbol f}}_{{t}}^{\prime \prime} - {\boldsymbol{w}}_{{t}}^{\prime \prime}) + \\ {\boldsymbol{\hat c}}_{{t}}^{\prime \prime} \odot ({\boldsymbol{i}}_{{t}}^{\prime \prime} \odot {\boldsymbol{w}}_{{t}}^{\prime \prime} + {\tilde{\boldsymbol i}}_{{t}}^{\prime \prime} - {\boldsymbol{w}}_{{t}}^{\prime \prime}) \end{gathered} $$

(37)

可获得最佳收缩向量β：

$$ \begin{split} &{\boldsymbol{\beta }} = {\text{argmin}}\sum\limits_{\forall ({\boldsymbol{x}}{,}{\boldsymbol{y}}) \in \{ {\boldsymbol{X}},{\boldsymbol{Y}}\} } [ ({\boldsymbol{y}} - {{\mathrm{g}}}{({{\boldsymbol{W}}_{{y}}}({\boldsymbol{o}}_{{t}}^{\prime \prime} \odot \tanh ({\boldsymbol{C}}_{{t}}^{\prime \prime}) + {{\boldsymbol{b}}_{{y}}}))^2}] \\ &\qquad\qquad\qquad {\mathrm{s.t.}}\;\; {\text{ }}{\beta _j} \geqslant 0,\sum\limits_{j = 1}^q {{\beta _j} \leqslant {S_2}} \\[-1pt] \end{split}$$

(38)

式(38)将NNG算法嵌入模型的前向计算过程中，其中S_*值的大小决定了算法约束程度。具体而言，当S_*不小于对应节点数时，算法的绞杀能力无效，即所有待绞杀节点均可保留；当S_*逐渐减小时，算法的绞杀能力随之增强，更多节点的系数将被压缩至0，实现网络的结构稀疏化处理。因此，可以通过调整S_*值来改变算法的绞杀强度，从而控制删除的冗余输入变量与冗余隐藏神经元的个数。通过网格搜索法选择最优绞杀超参数，并采用COBYLA算法求解式(38)。将β代入方程(31)~(36)可得到一组新的权重矩阵：

$$ {\tilde{{\boldsymbol{W}}}}_{{{j*}}}^{{{h*}}}={\beta }_{j}\odot {{\boldsymbol{W}}}_{{{j*}}}^{{{h*}}}\text{，}j=1,2, \cdots ,q $$

(39)

${\beta _i} = 0$表示从模型中删除递归隐藏神经元$ {\boldsymbol{h}}_{{j}}^{{{t}} - 1} $和候选状态。NNG算法嵌入隐藏层权重矩阵，使神经元间时序传递方向明确化。通过压缩冗余循环连接，剔除无效隐藏神经元，降低时序迭代计算成本。同时，强化关键时序神经元作用，结合ONLSTM的有序神经元结构，更精准捕捉工业过程多时间尺度滞后特性，提升模型对时变特性的适配性。

3.4 算法流程

DNNG-ONLSTM网络的建立过程分为两步。首先通过网格搜索法进行超参数寻优，同时使用Adam算法^[29]进行模型训练以获得预训练结果良好的ONLSTM网络，利用其引入的层级概念对隐藏层神经元进行分级排序。其次引入两组NNG算法，分别设置关于输入和隐藏神经元输出的约束函数，将求解NNG算法得到的收缩向量α和β分别嵌入ONLSTM输入权重矩阵与隐藏层权重矩阵，得到基于非负绞杀的稀疏化ONLSTM网络。NNG算法求解得到两组收缩向量α和β，分别实现变量选择与结构优化功能，从而实现模型的结构稀疏化。

DNNG-ONLSTM预测模型算法流程描述如下。

1) 数据预处理：对数据进行归一化、扩维等处理，使其适应算法的输入要求；将数据的前80%划分为训练集，用以进行模型超参数调优和模型初始化训练；后20%划分为测试集，用以评估模型的预测性能。

2) 设置一系列的网络超参数组合，在相同的实验环境下分别进行网络训练并重复多次，以实现超参数寻优并生成初始ONLSTM网络；

3) 根据输入维度与模型隐藏节点数确定绞杀超参数的理论上限值，在实际取值中往往取上限的1/4~1/2，根据网格搜索法首先以较大的网格间距初步筛选，在初筛出的网格区间内进行更细致的筛选，最终找出最优绞杀超参数S_*；

4) 根据寻得的最优绞杀超参数S_*，设置合适的收缩系数初始值，分别求解非线性不等式约束优化表达式(28)和式(38)得出优化收缩向量；

5) 将求得的优化收缩向量嵌入预训练完成的ONLSTM网络权重矩阵，得到基于非负绞杀的稀疏化ONLSTM网络；

6) 将测试集数据输入模型中得到预测结果，并进行结果评估并与其他先进模型进行比较。

4. 数值仿真验证与分析

4.1 数值仿真

为验证算法的有效性，本节模拟复杂工业过程非线性、动态性及变量冗余等特点，构建了一个基于弗里德曼数据集构建的数值示例^[30]。该数据集每个输入变量都是分布在[0，1]的随机数。

$$ \begin{gathered} {\boldsymbol{X}}_1^{{t}} = 0.4{\boldsymbol{x}}_1^{{t}} + 0.6{\left( {{\boldsymbol{x}}_2^{{{t}} - 1}} \right)^2} + {\boldsymbol{e}}_1^{{t}}, \\ {\boldsymbol{X}}_2^{{t}} = 0.8{\boldsymbol{x}}_1^{{{t}} - 1} - 0.3{\boldsymbol{x}}_2^{{{t}} - 2} + 0.5{\boldsymbol{x}}_3^{{{t}} - 3} + {\boldsymbol{e}}_2^{{t}}, \\ {\boldsymbol{X}}_3^{{t}} = 0.2{\left( {{\boldsymbol{x}}_3^{{t}}} \right)^2} + 0.6{\boldsymbol{x}}_4^{{{t}} - 3} + {\boldsymbol{e}}_3^{{t}}, \\ {\boldsymbol{X}}_4^{{t}} = 0.6{\boldsymbol{x}}_4^{{{t}} - 1} + 0.2{\boldsymbol{x}}_3^{{{t}} - 1} + 0.2{\boldsymbol{x}}_3^{{{t}} - 2} + {\boldsymbol{e}}_4^{{t}}, \\ {\boldsymbol{X}}_5^{{t}} = 0.3{\boldsymbol{x}}_5^{{t}} + 0.5{\boldsymbol{x}}_5^{{{t}} - 4} + 0.2{\left( {{\boldsymbol{x}}_5^{{{t}} - 9}} \right)^2} + {\boldsymbol{e}}_5^{{t}}, \\ {\boldsymbol{y}} = 10\sin \left( {\text{π} {\boldsymbol{X}}_1^{{t}}{\boldsymbol{X}}_2^{{t}}} \right) + 20{\left( {{\boldsymbol{X}}_3^{{t}} - 0.5} \right)^2} + 10{\boldsymbol{X}}_4^{{t}} + 5{\boldsymbol{X}}_5^{{t}} + {\boldsymbol{e}}_{{y}}^{{t}} \end{gathered} $$

(40)

式中：$ {{\boldsymbol{x}}_*} $和y分别为输入变量和输出变量，${\boldsymbol{e}}_{{*}}^{{t}}$是均值为零、标准差为0.01的高斯噪声。仿真实验通过式(40)生成数据，数据中共有30个输入变量与一个目标变量，输入变量中仅有5个变量与目标变量相关，共生成2000组样本数据。

4.2 模型性能评价指标

将仿真数据集以4∶1的比例划分为训练集和测试集，通过超参数调优搭建软测量模型，并通过测试集验证模型性能。采用以下参数作为算法性能的评价指标。

1) 模型输入规模(model input size，MIS): 模型有效输入变量的个数。其计算公式为

$$ {{\text{M}}_{{\text{IS}}}} = \sum\limits_{i = 1}^n {{V_i}} ,\;\; {V_i} = \left\{ {\begin{array}{*{20}{l}} {1,\;\;{\lambda _i} \geqslant 0.05} \\ {0,\;\;{\lambda _i} < 0.05} \end{array}} \right. $$

(41)

式中：V_i代表输入变量x_i是否为模型有效输入，n为输入变量的个数，λ_i为输入变量所对应的系数。

2) 正选率(correct selection ratio，CSR)：模型有效输入变量中相关变量所占比例。其计算公式为

$$ {{{\mathrm{C}}} _{{\mathrm{SR}}}} = \frac{{{n_r}}}{{{{{\mathrm{M}}} _{{\mathrm{IS}}}}}} \times 100{\text{%}} $$

(42)

式中：n_r为模型有效输入变量中相关变量的个数。

3) 决定系数R²：用以衡量模型输出与真实值的拟合程度，表示模型对数据的拟合程度，值越接近1表示模型拟合得越好。其计算公式为

$$ {{{R}}^2} = 1 - \frac{{\displaystyle\sum\limits_{i = 1}^n {{{({y_i} - {{\hat y}_i})}^2}} }}{{\displaystyle\sum\limits_{i = 1}^n {{{({y_i} - \bar y)}^2}} }} $$

(43)

式中：n为测试集样本总数，y_i是测试集样本输出的实际值，$ \hat{{y}} $_i是模型的输出预测值，$ \bar{{y}} $是y_i的平均值。

4) 均方误差(mean square error，MSE)：反映估计量与被估计量之间的差异程度，是预测值与真实值之差的平方和的平均值。MSE可以将模型预测的准确性进行量化，从而判断模型的拟合程度。MSE值越小，表示模型的预测能力越强，反之则说明模型存在较大的预测误差。其计算公式为

$$ E_{{{\mathrm{MS}}}} = \frac{1}{n}\sum\limits_{i = 1}^n {{{({y_i} - {{\hat y}_i})}^2}} $$

(44)

5) 平均绝对误差(mean absolute error，MAE)：衡量预测值与真实值之间的差异，是预测值与实际值之间偏差的绝对值之和的平均值。MAE的值越小，说明模型的预测结果越接近真实值，预测性能越好。其计算公式为

$$ E_{{{\mathrm{MA}}}} = \frac{1}{n}\sum\limits_{i = 1}^n {\left| {{y_i} - {{\hat y}_i}} \right|} $$

(45)

4.3 仿真实验设置与结果分析

为确保实验设计的严谨性，本文在相同的数据集和仿真环境下，对所提出的算法以及各对比算法进行多轮次重复运行。为更好地验证所提算法的优势，将其与LSTM、ONLSTM、STA-LSTM (spatiotemporal attention-based lstm)^[31]、SA-CNN-ONLSTM (self-attention-convolutional neural networks-onlstm)^[18]算法的性能进行对比。为消除单次实验带来的偶然性影响，结合多次实验的结果获取更为准确和可靠的评估，选择统计结果中的最优值作为衡量模型性能的指标。表1是不同算法在多次实验后所得到的最优仿真结果汇总。

表 1 数值仿真实验结果

Table 1 Numerical simulation results

模型	MIS	CSR/%	MSE	MAE	R²
LSTM	30	16.67	4.6843	1.6490	0.7071
ONLSTM	30	16.67	4.3624	1.6020	0.7282
STA-LSTM	30	16.67	4.3901	1.6280	0.7255
SA-CNN-ONLSTM	30	16.67	4.3731	1.6075	0.7266
NNG-ONLSTM	13	38.46	4.2312	1.6161	0.7354
DNNG-ONLSTM	13	38.46	3.8432	1.5116	0.7651

由表1结果可知，在进行对比分析的6种算法中，所提算法展示出明显优势。具体而言，该算法有着最小的模型输入规模MIS，这正体现了其在处理复杂系统时的精简性；最高的正选率CSR，误差评价指标MSE、MAE与决定系数R²优于其他算法，充分验证了算法的有效性和优越性。

为更直观地评估DNNG-ONLSTM网络的性能，图5和图6分别给出了不同算法数值仿真的预测结果散点图和预测误差箱线图。从图中可以看出，DNNG-ONLSTM网络预测结果最优，其误差波动最小，预测精度最高。

图 5 仿真预测结果散点图

Fig. 5 Scatter plot of simulation prediction results

下载: 全尺寸图片

图 6 仿真预测结果误差箱线图

Fig. 6 Box plot of simulation prediction result errors

下载: 全尺寸图片

此外，为量化分析非负绞杀与稀疏化对模型性能的优化提升，图7将DNNG-ONLSTM算法的候选输入变量收缩系数进行统计并绘图，其中前5个变量为相关变量。

图 7 数值仿真候选输入变量收缩系数统计

Fig. 7 Numerical simulation candidate input variable contraction coefficient statistics

下载: 全尺寸图片

5. 工业实例验证与分析

本节以某燃煤电厂烟气脱硫工艺过程的实际生产数据为研究对象，将所提算法应用于脱硫过程排放的SO₂浓度的软测量建模预测，并与其他算法进行对比，验证了所提算法的优越性。

5.1 研究对象

该燃煤电厂在烟气脱硫工艺过程中，选用双吸收塔结构和石灰石−石膏湿法技术，这一技术以其反应迅速、脱硫高效以及成本低廉等特点而受到广泛采用，是大规模火电厂烟气脱硫的主流工艺。其基本工作原理是基于石灰石浆液中的CaCO₃与烟气中的SO₂发生化学反应，生成石膏，以实现烟气脱硫的目标^[32]。完整的脱硫工艺系统由多个子系统组成，如图8所示。其中，烟气吸收系统是整个流程的核心，其决定了脱硫效率的高低。

图 8 烟气脱硫系统工艺流程图

Fig. 8 Process flow diagram of flue gas desulfurization system

下载: 全尺寸图片

5.2 实验设置

通过对该燃煤电厂在烟气脱硫工艺过程的研究以及初步的数据筛选分析，确定了由30个过程变量和1个质量变量组成的数据集。数据集包含2676个样本，包括炉原烟气SO₂浓度、一级吸收塔出口烟气SO₂浓度、出口烟气温度、机组脱硫效率中间值等30个过程变量以及质量变量排放的SO₂浓度。训练集和测试集数据分别取全部样本的前80%和后20%。选取模型输入规模MIS、均方误差MSE、平均绝对误差MAE和决定系数R²作为模型性能评价指标。同时，为进一步验证DNNG-ONLSTM网络的预测性能优势，本文将其与LSTM、ONLSTM、STA-LSTM及SA-CNN-ONLSTM神经网络在相同的实验环境下的预测结果进行对比分析。

5.3 实验结果与分析

6种网络模型对应的4种仿真指标结果如表2所示。各网络的基本结构及超参数设置如表3所示。如表2所示，与LSTM和ONLSTM算法相比，引入注意力机制的STA-LSTM和SA-CNN-ONLSTM算法与引入变量选择机制的NNG-ONLSTM和DNNG-ONLSTM算法的MSE和MAE相对较小，决定系数R²更接近1，表明对不同的输入变量予以正确区分能有效提高模型预测精度。NNG-ONLSTM与DNNG-ONLSTM通过对输入变量进行合理地取舍，不仅有效地降低了无关变量对预测结果的影响，而且显著提升了网络的预测性能。其中，DNNG-ONLSTM算法所选择的关键生产参数最少，同时其性能评价指标更优，具体而言，MSE和MAE最低，决定系数也明显高于其他算法，这一结果充分验证了DNNG-ONLSTM算法的有效性。

表 2 SO₂浓度预测结果

Table 2 Prediction results of SO₂ concentration

模型	MIS	MSE	MAE	R²
LSTM	30	4.9280	1.7296	0.7591
ONLSTM	30	4.8116	1.6426	0.7648
STA-LSTM	30	4.8294	1.7529	0.7639
SA-CNN-ONLSTM	30	4.6217	1.7490	0.7741
NNG-ONLSTM	12	3.2953	1.4651	0.8389
DNNG-ONLSTM	12	3.2086	1.4600	0.8431

表 3 不同网络基本结构及超参数设置

Table 3 Different network basic structure and hyperparameter settings

参数名称	LSTM	STA-LSTM	SA-CNN-ONLSTM	ONLSTM	NNG-ONLSTM	DNNG-ONLSTM
输入维度	30	30	30	30	30	30
隐藏层数	1	1	1	1	1	1
隐藏节点数	36	36	36	36	36	36
初始学习率	0.01	0.001	0.005	0.005	0.01	0.01
时间步长	2	2	2	2	2	2
输出维度	1	1	1	1	1	1
最大迭代数	1700	1000	1700	1000	1700	1700

不同算法的预测性能有所差异，为更好地凸显这种差异，本文给出了不同算法的脱硫工艺预测结果曲线和预测误差频率分布直方图，分别如图9和图10所示。

图 9 不同模型下脱硫工艺预测结果曲线

Fig. 9 Prediction curves of desulfurization process under different models

下载: 全尺寸图片

图 10 不同模型下脱硫工艺预测误差分布直方图

Fig. 10 Histogram of prediction error distribution of desulfurization process under different models

下载: 全尺寸图片

由图9可以看出，相比于其他算法，DNNG-ONLSTM算法在数据拟合方面展现出最优性能，能更精确地捕捉SO₂浓度的细微波动和变化趋势。

由图10可知，DNNG-ONLSTM算法在预测误差分布方面展现出了卓越的稳定性，其标准差σ值与其他算法相比最小，表明该算法的预测结果更加可靠和准确，具有高预测精度和强稳定性，有助于更好地实现对实际生产过程中脱硫工艺输出的实时监测与控制。

如表4所示，模型训练时间与复杂度公式呈现一致性趋势，尽管NNG算法增加了模型在训练阶段的计算量，但由于模型训练为离线进行，因此不会影响模型的实时检测性能。此外，所提算法通过对模型结构进行稀疏优化，提高了模型预测阶段的响应效率。从表中可以看出，DNNG-ONLSTM算法预测时间为5.984 ms，优于其他对比模型，满足工业场景毫秒级响应需求。

表 4 模型复杂度与训练预测时间

Table 4 Model complexity and training prediction time

模型	模型训练复杂度	训练时间/s	预测时间/ms
LSTM	O(4nh+h+4h²)	35.158	8.310
ONLSTM	O(6nh+h+6h²)	29.264	9.983
STA-LSTM	O(2n²+4nh+2h+7h²)	39.645	13.631
SA-CNN-ONLSTM	O(3n²+r₁r₂₊6nh+h+6h²)	50.438	23.554
NNG-ONLSTM	O((6+k₁)nh+h+6h²)	63.513	6.489
DNNG-ONLSTM	O((6+k₁)nh+h+(6+k₂)h²)	94.216	5.984

绞杀超参数决定了所提算法的绞杀强度，为确定不同绞杀超参数对模型性能的影响。图11分别给出了不同绞杀超参数在变量选择与结构优化过程中对模型预测性能的影响。

图 11 不同绞杀超参数下的模型性能

Fig. 11 Model performance under different strangulation hyper parameters

下载: 全尺寸图片

图11中S₁和S₂分别对应变量选择与结构优化的绞杀超参数。在变量选择过程中，模型性能随绞杀超参数呈非单调波动，当S过小时，绞杀强度过大，导致部分相关信息被删除；当S过大时，则会导致冗余信息保留，影响模型性能。如图11所示，在S₁=4.8时，模型性能最佳。在结构优化过程中，当S₂=11.9时，相邻区间内性能波动幅度较小，R²稳定于0.82~0.83，体现模型的鲁棒性。

此外，DNNG-ONLSTM算法所选择的输入变量与实际生产过程中的工艺机理和专家经验基本一致。本文根据不同候选输入变量的收缩系数大小，对其进行了重要性排序（结果保留2位小数），如图12所示。其中，θ值大于0.05的变量有12个，变量3和变量12分别为一级吸收塔出口处烟气SO₂浓度和总煤量，两者所对应θ值均大于0.8，表明其对目标变量至关重要。这一结果与文献[33-34]中所分析的影响工艺输出的关键生产参数相一致。变量2为炉原烟气SO₂浓度，变量20为机组脱硫效率中间值，显然其直接与净烟气SO₂浓度相关。变量4为一级吸收塔石膏浆液pH值，侧面反映了浆液对SO₂的吸收程度。变量10为吸收塔入口烟气温度，变量19为炉原烟气O₂浓度，变量21为二级吸收塔出口温度1，变量22为二级吸收塔出口压力，均影响了脱硫过程中发生的化学反应，与最终排放烟气中的SO₂浓度有所关联。

图 12 候选输入变量收缩系数统计

Fig. 12 Statistics of shrinkage coefficients of candidate input variables

下载: 全尺寸图片

图13给出了算法各隐藏层神经元节点所对应的收缩系数的数值统计（保留2位小数），结合图中数据与表3的算法预测结果可以得出，所提算法可在保证模型预测精度的前提下对网络结构进行优化。

图 13 结构优化系数

Fig. 13 Structural optimization factor

下载: 全尺寸图片

综上所述，所提算法可以有效降低建模所需数据维度、提取关键输入变量，并在保证预测精度的前提下对模型隐藏神经元进行稀疏优化。

6. 结束语

本文提出一种基于非负绞杀的稀疏化ONLSTM工业软测量算法，以解决实际工业软测量建模数据冗余及模型复杂度增加的问题。所提算法通过剔除冗余输入变量与隐藏神经元，以实现变量选择并降低模型复杂度，在保证模型预测精度的同时实现其结构稀疏化，使模型能够更高效地捕捉关键信息。通过数值仿真和某火电厂烟气脱硫过程实际生产数据的模型预测结果表明，相较于其他算法，所提算法能有效提高模型预测精度，降低模型输入维度，剔除模型中的冗余隐藏神经元。此外，算法所选择的烟气脱硫过程中的相关生产参数与专家经验相符，验证了所提算法在真实场景下的可行性，表明算法可以为烟气脱硫过程的控制与监测提供有力的支持。

图 1 ONLSTM网络结构

Fig. 1 ONLSTM network structure

下载: 全尺寸图片

图 2 基于非负绞杀的稀疏化ONLSTM网络结构

Fig. 2 Structure of sparse ONLSTM network based on non-negative strangulation

下载: 全尺寸图片

图 3 基于非负绞杀的稀疏化ONLSTM网络内部结构

Fig. 3 Internal structure of sparse ONLSTM network based on non-negative strangulation

下载: 全尺寸图片

图 4 模型结构稀疏过程

Fig. 4 Model structure sparsity process

下载: 全尺寸图片

图 5 仿真预测结果散点图

Fig. 5 Scatter plot of simulation prediction results

下载: 全尺寸图片

图 6 仿真预测结果误差箱线图

Fig. 6 Box plot of simulation prediction result errors

下载: 全尺寸图片

图 7 数值仿真候选输入变量收缩系数统计

Fig. 7 Numerical simulation candidate input variable contraction coefficient statistics

下载: 全尺寸图片

图 8 烟气脱硫系统工艺流程图

Fig. 8 Process flow diagram of flue gas desulfurization system

下载: 全尺寸图片

图 9 不同模型下脱硫工艺预测结果曲线

Fig. 9 Prediction curves of desulfurization process under different models

下载: 全尺寸图片

图 10 不同模型下脱硫工艺预测误差分布直方图

Fig. 10 Histogram of prediction error distribution of desulfurization process under different models

下载: 全尺寸图片

图 11 不同绞杀超参数下的模型性能

Fig. 11 Model performance under different strangulation hyper parameters

下载: 全尺寸图片

图 12 候选输入变量收缩系数统计

Fig. 12 Statistics of shrinkage coefficients of candidate input variables

下载: 全尺寸图片

图 13 结构优化系数

Fig. 13 Structural optimization factor

下载: 全尺寸图片

表 1 数值仿真实验结果

Table 1 Numerical simulation results

模型	MIS	CSR/%	MSE	MAE	R²
LSTM	30	16.67	4.6843	1.6490	0.7071
ONLSTM	30	16.67	4.3624	1.6020	0.7282
STA-LSTM	30	16.67	4.3901	1.6280	0.7255
SA-CNN-ONLSTM	30	16.67	4.3731	1.6075	0.7266
NNG-ONLSTM	13	38.46	4.2312	1.6161	0.7354
DNNG-ONLSTM	13	38.46	3.8432	1.5116	0.7651

表 2 SO₂浓度预测结果

Table 2 Prediction results of SO₂ concentration

模型	MIS	MSE	MAE	R²
LSTM	30	4.9280	1.7296	0.7591
ONLSTM	30	4.8116	1.6426	0.7648
STA-LSTM	30	4.8294	1.7529	0.7639
SA-CNN-ONLSTM	30	4.6217	1.7490	0.7741
NNG-ONLSTM	12	3.2953	1.4651	0.8389
DNNG-ONLSTM	12	3.2086	1.4600	0.8431

表 3 不同网络基本结构及超参数设置

Table 3 Different network basic structure and hyperparameter settings

参数名称	LSTM	STA-LSTM	SA-CNN-ONLSTM	ONLSTM	NNG-ONLSTM	DNNG-ONLSTM
输入维度	30	30	30	30	30	30
隐藏层数	1	1	1	1	1	1
隐藏节点数	36	36	36	36	36	36
初始学习率	0.01	0.001	0.005	0.005	0.01	0.01
时间步长	2	2	2	2	2	2
输出维度	1	1	1	1	1	1
最大迭代数	1700	1000	1700	1000	1700	1700

表 4 模型复杂度与训练预测时间

Table 4 Model complexity and training prediction time

模型	模型训练复杂度	训练时间/s	预测时间/ms
LSTM	O(4nh+h+4h²)	35.158	8.310
ONLSTM	O(6nh+h+6h²)	29.264	9.983
STA-LSTM	O(2n²+4nh+2h+7h²)	39.645	13.631
SA-CNN-ONLSTM	O(3n²+r₁r₂₊6nh+h+6h²)	50.438	23.554
NNG-ONLSTM	O((6+k₁)nh+h+6h²)	63.513	6.489
DNNG-ONLSTM	O((6+k₁)nh+h+(6+k₂)h²)	94.216	5.984

参考文献(34)

[1]	DAI Wei, ZHOU Xinyu, LI Depeng, et al. Hybrid parallel stochastic configuration networks for industrial data analytics[J]. IEEE transactions on industrial informatics, 2022, 18(4): 2331−2341. doi: 10.1109/TII.2021.3096840
[2]	YUAN Xiaofeng, WANG Yalin, YANG Chunhua, et al. Weighted linear dynamic system for feature representation and soft sensor application in nonlinear dynamic industrial processes[J]. IEEE transactions on industrial electronics, 2018, 65(2): 1508−1517. doi: 10.1109/TIE.2017.2733443
[3]	杜康萍, 隋璘, 熊伟丽. 基于自适应稀疏宽度学习系统的软测量建模[J]. 系统仿真学报, 2025, 37(6): 1449−1461. DU Kangping, SUI Lin, XIONG Weili. Soft sensor modeling based on adaptive sparse broad learning system[J]. Journal of system simulation, 2025, 37(6): 1449−1461.
[4]	CHEN Hongtian, HUANG Biao. Fault-tolerant soft sensors for dynamic systems[J]. IEEE transactions on control systems technology, 2023, 31(6): 2805−2818. doi: 10.1109/TCST.2023.3287758
[5]	YAO Le, GE Zhiqiang. Industrial big data modeling and monitoring framework for plant-wide processes[J]. IEEE transactions on industrial informatics, 2020, 17(9): 6399−6408.
[6]	YUAN Xiaofeng, OU Chen, WANG Yalin, et al. A layer-wise data augmentation strategy for deep learning networks and its soft sensor application in an industrial hydrocracking process[J]. IEEE transactions on neural networks and learning systems, 2019, 32(8): 3296−3305.
[7]	YAN Aijun, GUO Jingcheng, WANG Dianhui. Robust stochastic configuration networks for industrial data modelling with Student’s-t mixture distribution[J]. Information sciences, 2022, 607: 493−505. doi: 10.1016/j.ins.2022.05.105
[8]	GAO Yunlong, LIN Tingting, PAN Jinyan, et al. Fuzzy sparse deviation regularized robust principal component analysis[J]. IEEE transactions on image processing, 2022, 31: 5645−5660. doi: 10.1109/TIP.2022.3199086
[9]	GENG Zhiqiang, CHEN Zhiwei, MENG Qingchao, et al. Novel Transformer based on gated convolutional neural network for dynamic soft sensor modeling of industrial processes[J]. IEEE transactions on industrial informatics, 2022, 18(3): 1521−1529. doi: 10.1109/TII.2021.3086798
[10]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735−1780. doi: 10.1162/neco.1997.9.8.1735
[11]	YUAN Xiaofeng, LI Lin, WANG Yalin. Nonlinear dynamic soft sensor modeling with supervised long short-term memory network[J]. IEEE transactions on industrial informatics, 2019, 16(5): 3168−3176.
[12]	SUI Lin, SUN Wenxin, LIU Wentao, et al. A sparse regularized soft sensor based on GRU and self-interpretation double nonnegative garrote: from variable selection to structure optimization[J]. Control engineering practice, 2024, 153: 106074. doi: 10.1016/j.conengprac.2024.106074
[13]	张凯, 王亚礼, 张晓雯, 等. 基于特征融合的粗轧出口温度建模方法与应用[J/OL]. 控制理论与应用, 2024, DOI: 10.7641/CTA.2024.40252. ZHANG Kai, WANG Yali, ZHANG Xiaowen, et al. A feature fusion-based rough rolling exit temperature modeling method and its applications[J/OL]. Control theory & applications, 2024, DOI: 10.7641/CTA.2024.402 52.
[14]	LIU Qingqiang, SHANG Zhiqing, LU Shixiang, et al. Physics-guided TL-LSTM network for early-stage degradation trajectory prediction of lithium-ion batteries[J]. Journal of energy storage, 2025, 106: 114736. doi: 10.1016/j.est.2024.114736
[15]	HOGEA E, ONCHIŞ D M, YAN Ruqiang, et al. LogicLSTM: logically-driven long short-term memory model for fault diagnosis in gearboxes[J]. Journal of manufacturing systems, 2024, 77: 892−902. doi: 10.1016/j.jmsy.2024.10.003
[16]	YAN Haoran, QIN Yi, XIANG Sheng, et al. Long-term gear life prediction based on ordered neurons LSTM neural networks[J]. Measurement, 2020, 165: 108205. doi: 10.1016/j.measurement.2020.108205
[17]	SHEN Yikang, TAN Shawn, SORDONI A, et al. Ordered neurons: integrating tree structures into recurrent neural networks[C]//Proceedings of the 7th International Conference for Learning Representations. New Orleans: ICLR, 2019.
[18]	李祥宇, 隋璘, 熊伟丽. 基于自注意力机制与卷积ONLSTM网络的软测量算法[J]. 智能系统学报, 2023, 18(5): 957−965. LI Xiangyu, SUI Lin, XIONG Weili. Soft sensor algorithm based on self-attention mechanism and convolutional ONLSTM network[J]. CAAI transactions on intelligent systems, 2023, 18(5): 957−965.
[19]	XIANG Sheng, QIN Yi, ZHU Caichao, et al. LSTM networks based on attention ordered neurons for gear remaining life prediction[J]. ISA transactions, 2020, 106: 343−354. doi: 10.1016/j.isatra.2020.06.023
[20]	李祥宇, 隋璘, 马君霞, 等. 基于时序迁移与双流加权的ONLSTM软测量建模[J]. 化工学报, 2023, 74(11): 4622−4633. LI Xiangyu, SUI Lin, MA Junxia, et al. ONLSTM soft sensor modeling based on time series transfer and dual stream weighting[J]. CIESC journal, 2023, 74(11): 4622−4633.
[21]	ZHANG Haoran, ZHAO Chunhui. Stable transfer learning-based control: an off-dynamics adaptive approach for unknown nonlinear systems[J]. Neurocomputing, 2025, 616: 128951. doi: 10.1016/j.neucom.2024.128951
[22]	CHIPLUNKAR R, HUANG Biao. Siamese neural network-based supervised slow feature extraction for soft sensor application[J]. IEEE transactions on industrial electronics, 2020, 68(9): 8953−8962.
[23]	刘建伟, 崔立鹏, 刘泽宇, 等. 正则化稀疏模型[J]. 计算机学报, 2015, 38(7): 1307−1325. LIU jianwei, CUI lipeng, LIU zeyu, et al. Survey on the regularized sparse models[J]. Chinese journal of computers, 2015, 38(7): 1307−1325.
[24]	YUAN Ming, LIN Yi. On the non-negative garrote estimator[J]. Journal of the royal statistical society series B: statistical methodology, 2007, 69(2): 143−161. doi: 10.1111/j.1467-9868.2007.00581.x
[25]	SUN Kai, LIU Jialin, KANG Jialin, et al. Development of a variable selection method for soft sensor using artificial neural network and nonnegative garrote[J]. Journal of process control, 2014, 24(7): 1068−1075. doi: 10.1016/j.jprocont.2014.05.010
[26]	WANG Jianguo, JANG Shishang, WONG D S H, et al. Soft-sensor development with adaptive variable selection using nonnegative garrote[J]. Control engineering practice, 2013, 21(9): 1157−1164. doi: 10.1016/j.conengprac.2013.05.006
[27]	隋璘, 马君霞, 熊伟丽. 基于注意力绞杀的门控循环单元网络及其工业软测量应用[J/OL]. 控制理论与应用, 2024, DOI: 10.7641/CTA.2024.305 65. SUI Lin, MA Junxia, XIONG Weili. Gated recurrent unit network based on attention garrote and its application for industrial soft sensors[J/OL]. Control theory & applications, 2024, DOI: 10.7641/CTA.2024.305 65.
[28]	SUI Lin, SUN Kai, MA Junxia, et al. Input variable selection and structure optimization for LSTM-based soft sensor with a dual nonnegative garrote approach[J]. IEEE transactions on instrumentation and measurement, 2023, 72: 1−11.
[29]	KINGMA D P, BA J . Adam: a method for stochastic optimization[C]//Proceedings of the 3rd International Conference for Learning Representations. San Diego: ICLR, 2015.
[30]	FRIEDMAN J H. Multivariate adaptive regression splines[J]. The annals of statistics, 1991, 19(1): 1−67.
[31]	YUAN Xiaofeng, LI Lin, SHARDT Y A W, et al. Deep learning with spatiotemporal attention-based LSTM for industrial soft sensor model development[J]. IEEE transactions on industrial electronics, 2020, 68(5): 4404−4414.
[32]	SUN Kai, WU Xiuliang, XUE Jingyu, et al. Development of a new multi-layer perceptron based soft sensor for SO₂ emissions in power plant[J]. Journal of process control, 2019, 84: 182−191. doi: 10.1016/j.jprocont.2019.10.007
[33]	周祖飞, 金新荣. 影响湿法烟气脱硫效率的因素分析[J]. 浙江电力, 2001, 20(3): 42−45. ZHOU Zufei, JIN Xinrong. Analysis of factors affecting the efficiency of wet flue gas desulfurization[J]. Zhejiang electric power, 2001, 20(3): 42−45.
[34]	钟毅, 高翔, 骆仲泱等. 湿法烟气脱硫系统脱硫效率的影响因素[J]. 浙江大学学报: 工学版, 2008, 42(5): 890−894. ZHONG Yi, GAO Xiang, LUO Zhongyang, et al. Factors influencing desulfurization efficiency of wet flue gas desulfurization system[J]. Journal of Zhejiang University(engineering science), 2008, 42(5): 890−894.

点击查看大图

图(13) / 表(4)

摘要

基于非负绞杀的稀疏化ONLSTM及其工业软测量建模

doi: 10.11992/tis.202502004

通讯作者: 熊伟丽. E-mail：greenpre@163.com.

出版历程

Sparse ONLSTM and non-negative constrained industrial soft sensing modeling

1. ONLSTM神经网络

2. 非负绞杀算法

3. DNNG-ONLSTM算法设计

3.1 模型架构

3.2 基于NNG的变量选择

3.3 基于NNG的结构优化

3.4 算法流程

4. 数值仿真验证与分析

4.1 数值仿真

4.2 模型性能评价指标

4.3 仿真实验设置与结果分析

5. 工业实例验证与分析

5.1 研究对象

5.2 实验设置

5.3 实验结果与分析

6. 结束语

出版历程

目录

通讯作者:
熊伟丽. E-mail：greenpre@163.com.