舰船科学技术  2025, Vol. 47 Issue (20): 132-139    DOI: 10.3404/j.issn.1672-7649.2025.20.020   PDF    
基于北斗卫星的船舶燃气轮机双尺度丢包插补
吴迪1, 栾宏洋1, 苏鹏2     
1. 哈尔滨理工大学 自动化学院,黑龙江 哈尔滨 150080;
2. 中国船舶集团有限公司第七〇一研究所,湖北 武汉 430064
摘要: 由于北斗卫星短报文通信技术存在数据包丢失,在对船舶燃气轮机远程态势感知时,面临信息不完整、数据挖掘困难等问题。针对统计学丢失包插补存在的缺陷,提出了一种多元变量两阶段燃气轮机丢失包智能插补算法。在时间尺度上设计了具有交叉索引机制的双向门控循环单元,通过交叉索引来有效规避已丢失的数据包,同时在属性尺度上建立了高斯聚合去相关自编码器,利用燃气轮机运行过程中的多元变量高斯特性,引入高斯聚合因子来优化去相关自编码器的重构误差,实现了北斗卫星通信链路波动下的远程燃气轮机数据包丢失插补。仿真实验结果验证了所提插补算法应用于燃气轮机远程态势感知的有效性。
关键词: 燃气轮机     北斗卫星通信     丢失包插补     交叉索引     高斯聚合    
Dual-scale packet loss interpolation of ship gas turbine based on beidou satellite
WU Di1, LUAN Hongyang1, SU Peng2     
1. School of Automation, Harbin University of Science and Technology, Harbin 150080, China;
2. The 701 Research Institute of CSSC, Wuhan 430064, China
Abstract: Due to packet loss in BeiDou satellite short message communication technology, remote situational awareness of gas ship turbines faces issues such as incomplete information and difficulty in data mining. A multi variable two-stage intelligent imputation algorithm for gas turbine missing packets is proposed to address the shortcomings of statistical missing packet imputation. A BiGRU with cross indexing mechanism was designed on the time scale to effectively avoid lost data packets. Meanwhile, a Gaussian Polymerization TRAE was established on the attribute scale, effectively utilizing the multivariate Gaussian characteristics during the operation of gas turbines. The Gaussian Polymerization factor was introduced to optimize the reconstruction error of the decorrelation autoencoder, achieving remote gas turbine data packet loss imputation under fluctuations in the Bei Dou satellite communication link. The simulation experimental results validate the effectiveness of the proposed imputation algorithm applied to remote situational awareness of gas turbines.
Key words: gas turbine     BeiDou satellite communication     lost packet imputation     cross indexing     gaussian polymerization    
0 引 言

船舶燃气轮机远程态势感知是一种通过经验知识来融合燃气轮机数据,并将关键性信息传输至远程控制中心,进而保障燃气轮机整体性能的新技术。燃气轮机作为极其复杂且先进的动力装备,常配备于海上油气平台、中西部沙漠等无移动信号覆盖的区域,以至于无法采用常规通信手段进行态势感知[1]。北斗卫星短报文通信技术为之提供了新手段,其具备自主可控性强、通信价格低廉、双向定义报文等优势,但北斗报文存在数据包丢失现象,完整的监控数据可以提高船舶燃气轮机态势感知的可靠性,对燃气轮机正向设计提供重要实验数据支撑[23]

态势感知丢失包插补技术有统计分析法和机器学习法。统计分析法以矩阵模型为核心来计算多元变量数据间的相似性和规律性,CHEN 等[4]利用非负矩阵来分解非线性不等式约束,设计了基于迭代投射相关基跟踪的重构残差方程。WANG等[5]采用Hankel矩阵分解有效解决了电网停电后的数据不完备问题,但统计分析法存在计算量大、可靠性差的问题[6]。机器学习法通过黑箱或灰箱模型来建立输入输出变量间的潜在关系,应用于丢失包插补的主要算法有自动编码器[7]、长短期记忆网络[8]、门控递归单元[9]、生成对抗网络[10]等。LUO 等[11]设计了考虑数据分布特性的双编码器对抗结构,解决了北斗环境监测数据丢失的问题。ZHANG等[12]采用LSTM和注意力机制融合的算法,引入自适应滑动窗口来增加训练样本多样性。AWAN和WANG 和ZHOU 等[1315]分别基于生成对抗机制设计了CGAIN、PC-GAIN和联合GAN等方法,实现了深度学习在丢失包插补领域的前沿创新。但是,上述研究仅在时间尺度研究了数据特征,没有考虑属性尺度下燃气轮机多元变量间的潜在映射关系,无法对丢失数据进行深入理解和感知。此外,为保障燃气轮机发电量保持基本恒定,态势感知系统可主动调节控制参数,进而导致监控变量在一年中存在显著的季节特性[16]

基于以上分析,本文提出了一种多元变量两阶段燃气轮机丢失包智能插补算法,在时间尺度上设计了具有交叉索引机制的双向门控循环单元,在属性尺度上建立了高斯聚合去相关自编码器,提高了北斗卫星丢失数据插补的精度,实现了高性能船舶燃气轮机远程态势感知。

1 燃气轮机态势感知系统 1.1 系统构架及原理

船舶燃气轮机远程态势感知系统由燃气轮机现场端、北斗卫星空间段、远程态势感知中心组成。燃机载荷传感器负责采集现场燃机排气温度、机壳振动、润滑油压、燃气流量等数据,将数据打包编译成北斗4.0协议报文,利用北斗卫星数传终端发送数据至北斗卫星空间段。

由于现场端与远程态势感知中心不被同一颗卫星覆盖,需要通过上行链路、星间链路、下行链路进行中继传输,图1中链路编号代表数据中继传输顺序,北斗三代卫星系统中仅14颗具备通信能力,图中以黑色实心球标注,且依照我国北斗卫星短报文通信管规定,所有短报文需经过北斗卫星导航系统的运营控制中心(BOCC)转发。在燃机数据以电磁波方式在空间传输时,不可避免出现数据包丢失情况,远程态势感知中心则负责执行本文所提两阶段智能插补模型,分别在时间和属性尺度挖掘多元数据间的潜在逻辑,保障船舶燃气轮机态势感知数据的完整性。

图 1 燃气轮机远程态势感知系统 Fig. 1 Gas turbine remote situational awareness system
1.2 多元变量双尺度相关性分析

时间尺度:对于船舶燃气轮机远程态势感知系统而言,以北斗卫星固定的60 s通信频率进行交互,但受短报文信号衰减和恶劣天气等因素影响,实测的链路数据丢失率可达5%~15%。以$t$时刻数据包丢失分析,由于燃气轮机持续运行过程中的多元时序具备趋势性,利用$t - 1$$t + 1$时刻接收的数据来插补丢失的数据包是态势感知系统的关键。

属性尺度:燃气轮机是由压气机、燃烧室、涡轮等关键部件组成的精密设备,配备有上百个传感器变量,如:压缩机排气压力(CDP)、燃气轮机排气压力(GTEP)、涡轮后温度(TAT)、涡轮产生能量(TEY)、涡轮进口温度(TIT)、氮氧化物排放(NOx)、环境温度(AT)、环境湿度(AH)、空气过滤器压差(AFDP)、一氧化碳(CO)等,采用皮尔森相关系数来量化多元变量间的相关性,筛选出敏感变量和相关度矩阵用于支撑后续属性尺度上的插补[17],计算式为:

$ Pearso{n_{ii'}} = \frac{{\displaystyle\sum\limits_{{x_j}} {\left( {{x_{ij}} - {{\bar x}_i}} \right)\left( {{x_{i'j}} - {{\bar x}_{i'}}} \right)} }}{{\sqrt {\displaystyle\sum\limits_{{x_j}} {{{\left( {{x_{ij}} - {{\bar x}_i}} \right)}^2}} } \cdot \sqrt {\displaystyle\sum\limits_{{x_j}} {{{\left( {{x_{i'j}} - {{\bar x}_{i'}}} \right)}^2}} } }} 。$ (1)

式中:${\bar x_i}$${\bar x_{i'}}$为变量$i$$i'$的平均值;${x_{ij}}$为变量$i$$j$时刻的监测值。$Pearso{n_{ii'}} \in \left[ { - 1,1} \right]$$Pearso{n_{ii'}} = \pm 1$为2个变量完全正/负相关。本文以10个燃气轮机性能参数为研究对象,绘制了多元变量的皮尔森相关系数热力图,2个变量的相关性与灰度值成正比,如图2所示。

图 2 燃气轮机多元变量Pearson热力图 Fig. 2 Pearson heat map of a gas turbine with multiple variables

可以发现AFDP与GTEP间的相关系数高达0.9846,其次是TEY和GTEP之间的0.9775,且GTEP与TIT、TAT、CDP间都呈现显著关联,相关性均大于0.8,CO、AT、AH之间相关性小于0.2。NOx排放程度也与上述变量有很强的相关性,这是由于燃机工作过程中产生NOx含量与运行负荷及燃烧温度密切相关,NOx与其他变量间的相关性也较为显著。因此,筛选出CDP、GTEP、TAT、TEY、TIT、NOx进行研究,当其中任一丢失时,采用其他5种变量来恢复丢失值,可以进一步提高时间尺度数据挖掘的精确度。

2 多元变量两阶段智能插补模型 2.1 交叉索引双向门控循环单元

交叉索引双向门控循环单元(Cross Index BiGRU,CI-BiGRU) 是一种基于传统双向门控循环单元(BiGRU)结构的变体,结合了交叉索引(Cross Index)的机制。假设燃气轮机变量$i$的序列长度为$p$,属性为$q,\left( {i = 1,2, \cdots ,p} \right)$,则完整数据集可用$ \left\{ {{x_{ij}}} \right\} \in {X_\Sigma } \in {\mathbb{R}_{q \times p}},\left( {j = 1,2, \cdots ,q} \right) $表示,定义$\left\{ {{m_{ij}}} \right\} \in {M_{q \times p}}$${{\boldsymbol{X}}_C}$$ {{\boldsymbol{X}}_M} $分别为未丢失和已丢失的数据包矩阵,则$ {{\boldsymbol{X}}_C} = M \circ {X_\Sigma } $。考虑北斗卫星通信频度固定,定义$ \left\{ {{v_i}} \right\} \in V \in \mathbb{R} $来表示单次短报文通信的时间戳,${\varsigma _{ij}}$为正常传输与出现单次丢包的时间间隔,则有:

$ {\varsigma _{ij}} = \left\{ \begin{aligned} &{v_i} - {v_{i - 1}} + {\varsigma _{\left( {i - 1} \right)j}}{\text{,}}{x_{ij}} \in {{\boldsymbol{X}}_C},\\ &{v_i} - {v_{i - 1}}{\text{,}}{x_{ij}} \in {{\boldsymbol{X}}_M} 。\end{aligned} \right. $ (2)

定义燃气轮机丢失包插补的目标函数$\ell $,多元变量两阶段智能插补模型的输出$ \left\{ {{y_{ij}}} \right\} \in {Y_\Sigma } \in {\mathbb{R}_{q \times p}} $,将$i$时刻$j$变量完整数据和丢失数据的插补损失值定义为$ {e_C}\left( {{x_{ij}},{y_{ij}}} \right) $$ {e_M}\left( {{x_{ij}},{y_{ij}}} \right) $,则有:

$ \begin{split} &{\min \ell = \min \left( {\displaystyle\sum\limits_{i = 1}^p {\sum\limits_{j = 1}^q {{e_C}\left( {{x_{ij}},{y_{ij}}} \right)} } + \displaystyle\sum\limits_{i = 1}^p {\sum\limits_{j = 1}^q {{e_M}\left( {{x_{ij}},{y_{ij}}} \right)} } } \right)= }\\ &{\min \left( {\dfrac{{\dfrac{1}{2}\displaystyle\sum\limits_{i = 1}^p {\displaystyle\sum\limits_{j = 1}^q {{m_{ij}}{{\left( {{x_{ij}} - {y_{ij}}} \right)}^2}} } }}{{\displaystyle\sum\limits_{i = 1}^p {\displaystyle\sum\limits_{j = 1}^q {{m_{ij}}} } }} + \dfrac{{\dfrac{1}{2}\displaystyle\sum\limits_{i = 1}^p {\displaystyle\sum\limits_{j = 1}^q {\left( {1 - {m_{ij}}} \right){{\left( {{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{x} }_{ij}} - {y_{ij}}} \right)}^2}} } }}{{\displaystyle\sum\limits_{i = 1}^p {\displaystyle\sum\limits_{j = 1}^q {\left( {1 - {m_{ij}}} \right)} } }}} \right) 。} \end{split} $ (3)

式中:$ {\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{x} _{ij}} $为高斯聚合后的中间变量。

CI-BiGRU结构如图3左侧所示,核心是将燃机变量$\left\{ {{x_{ij}}} \right\}$在时间尺度上展开,但由于$j$时刻丢失包在数据库中呈现为$NAN$未知状态,${x_{ij}}$无法引入BiGRU的双向迭代机制[18],故提出交叉索引机制来避免该情况。定义${\tilde x_{ij}} = {\Psi _i}\left( {{X_\Sigma } - {x_{ij}}} \right)$为已接收数据包的插补输出值,${{\boldsymbol X}_{ij}} = \left[ {{x_{ij}},{m_{ij}},{\varsigma _{ij}}} \right]$是该结构${\Psi _i}$的输入矩阵,则CI-BiGRU结构的表达式如下:

图 3 多元变量两阶段智能插补模型 Fig. 3 Multivariate two-stage intelligent imputation model
$ \overleftarrow {{u_{ij}}} = \sigma \left( {\overleftarrow {W_i^u} \overleftarrow {{h_{i\left( {j + 1} \right)}}} + \overleftarrow {V_i^u} {{\boldsymbol X}_{i\left( {j + 1} \right)}} + \overleftarrow {b_i^u} } \right),$ (4)
$ \overleftarrow {{r_{ij}}} = \sigma \left( {\overleftarrow {W_i^r} \overleftarrow {{h_{i\left( {j + 1} \right)}}} + \overleftarrow {V_i^r} {{\boldsymbol X}_{i\left( {j + 1} \right)}} + \overleftarrow {b_i^r} } \right),$ (5)
$ \begin{split} \overleftarrow {{h_{ij}}} =& \overleftarrow {{u_{ij}}} \circ \rho \left( {\overleftarrow {W_i^h} \left( {\overleftarrow {{r_{ij}}} \circ \overleftarrow {{h_{i\left( {j + 1} \right)}}} } \right) + \overleftarrow {V_i^h} {{\boldsymbol X}_{i\left( {j + 1} \right)}} + \overleftarrow {b_i^h} } \right) + \\ &\left( {1 - \overleftarrow {{u_{ij}}} } \right) \circ \overleftarrow {{h_{i\left( {j + 1} \right)}}},\end{split} $ (6)
$ \overrightarrow {{u_{ij}}} = \sigma \left( {\overrightarrow {W_i^u} \overrightarrow {{h_{i\left( {j - 1} \right)}}} + \overrightarrow {V_i^u} {{\boldsymbol X}_{i\left( {j - 1} \right)}} + \overrightarrow {b_i^u} } \right),$ (7)
$ \overrightarrow {{r_{ij}}} = \sigma \left( {\overrightarrow {W_i^r} \overrightarrow {{h_{i\left( {j - 1} \right)}}} + \overrightarrow {V_i^r} {{\boldsymbol X}_{i\left( {j - 1} \right)}} + \overrightarrow {b_i^r} } \right),$ (8)
$ \begin{split} \overrightarrow {{h_{ij}}} =& \overrightarrow {{u_{ij}}} \circ \rho \left( {\overrightarrow {W_i^h} \left( {\overrightarrow {{r_{ij}}} \circ \overrightarrow {{h_{i\left( {j - 1} \right)}}} } \right) + \overrightarrow {V_i^h} {{\boldsymbol X}_{i\left( {j - 1} \right)}} + \overrightarrow {b_i^h} } \right) + \\ &\left( {1 - \overrightarrow {{u_{ij}}} } \right) \circ \overrightarrow {{h_{i\left( {j - 1} \right)}}} ,\end{split} $ (9)
$ {{\tilde x}_{ij}} = \left( {{O_i}\left[ {\overrightarrow {{h_{ij}}} ;\overleftarrow {{h_{ij}}} } \right] + b_j^o} \right) = \eta \left( {\overrightarrow {{O_i}} \overrightarrow {{h_{ij}}} + \overleftarrow {{O_i}} \overleftarrow {{h_{ij}}} + b_j^o} \right)。$ (10)

式中:$ \overrightarrow {W_i^u} 、\overrightarrow {V_i^u} 、\overrightarrow {b_i^u} 、\overrightarrow {W_i^r} 、\overrightarrow {V_i^r} 、\overrightarrow {b_i^r} 、\overrightarrow {W_i^h} 、\overrightarrow {V_i^h} 、\overrightarrow {b_i^h} $分别为前向递归过程的节点权重矩阵和偏置值;$ \overleftarrow {W_i^u}、\overleftarrow {V_i^u}、\overleftarrow {b_i^u} 、\overleftarrow {W_i^r}、\overleftarrow {V_i^r}、\overleftarrow {b_i^r} 、\overleftarrow {W_i^h} 、\overleftarrow {V_i^h}、\overleftarrow {b_i^h} $为对应的后向递归参数;$ {O_i}、b_j^o $直接影响输出$ {\tilde x_{ij}} $,将$ \sigma 、\rho 、\eta $全部定义为RuLU激活函数。

2.2 高斯聚合去相关自编码器

高斯聚合去相关自编码器(Gaussian Polymerization Track-removed Autoencoder,GP-TRAE)是一种新型的自编码器模型,将筛选出的6种多元变量为输入,当某一变量数据丢失后,利用其他5种变量来插补丢失值。定义$j = 1,2, \cdots ,q$$q$为燃气轮机变量属性总和,$i = 1,2, \cdots ,p$$p$为时间尺度,则形成属性尺度上的高斯聚合矩阵$\left\{ {{g_{ij}}} \right\} \in G \in {\mathbb{R}_{q \times p}},{g_{ij}} \in \left[ {0,1} \right]$,且燃气轮机多元变量具有不同的归一化${g_{ij}}$函数值,定义${\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{x} _{ij}}$为GP-TRAE结构的输入值,则:

$ {\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{x} _{ij}} = {g_{ij}}{x_{ij}} + \left( {1 - {g_{ij}}} \right){\tilde x_{ij}}。$ (11)

定义函数${\Phi _j}$为属性尺度下的丢失包插补函数,且考虑到${x_{ij}}$数据已丢失,故采用${y_{ij}} = {\Phi _j}\left( {{X_\Sigma } - {x_{ij}}} \right)$来表示排除未知属性$j$后的插补输出值。令第$j$个变量属性到第$r$神经层权重系数为${\omega _{jr}}$$r = 1,2, \cdots h$,隐层与输出层权重为$ {v_{rj}} $$ \upsilon $$ \theta $为激活函数,${b_r}$${b_j}$为神经元阈值,则可得GP-TRAE隐层和输出层函数:

$ {h_{rj}} = \upsilon \left( {\sum\limits_{k = 1,k \ne j}^q {{\omega _{kr}}\left( {{g_{ik}}{x_{ik}} + \left( {1 - {g_{ik}}} \right){{\tilde x}_{ik}}} \right) + {b_r}} } \right),$ (12)
$ {y_{ij}} = \theta \left( {\sum\limits_{r = 1}^h {{v_{rj}}{h_{rj}} + {b_j}} } \right)。$ (13)

分析上式,$k \ne j$体现出已丢失得第$j$个燃气轮机属性不参与第$k$个神经元迭代。GP-TRAE的收敛误差计算公式:

$ {\ell _i} = \frac{1}{2}\left( {{{\sum\limits_{{x_{ij}} \in {X_C}} {\left( {{x_{ij}} - {y_{ij}}} \right)} }^2} + {{\sum\limits_{{x_{ij}} \in {X_M}} {\left( {{{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{x} }_{ij}} - {y_{ij}}} \right)} }^2}} \right)。$ (14)

将式(11)带入后可得到:

$ {{\ell _i} = \displaystyle\frac{1}{2}\left( {{{\displaystyle\sum\limits_{{x_{ij}} \in {X_C}} {\left( {{x_{ij}} - {y_{ij}}} \right)} }^2} + } {{\text{ }}{{\displaystyle\sum\limits_{{x_{ij}} \in {X_M}} {\left( {{{\tilde x}_{ij}} + {g_{ij}}\left( {{x_{ij}} - {{\tilde x}_{ij}}} \right) - {y_{ij}}} \right)} }^2}} \right) 。} $ (15)

初始时刻的高斯聚合因子${g_{ik}}$由指定函数表示,迭代过程中结合输入层、隐层、输出层间的权重系数和神经元阈值,在时间尺度$i$下定义向量$F = [ {\omega _{jr}}, {v_{rj}}, {b_r},{b_j},{g_{ij}} ]$,则GP-TRAE更新法则有[19]

$ F^{\mathrm{new}}=F^{\mathrm{old}}+\alpha\left(F^{\mathrm{old}}-F^{\mathrm{old}-1}\right)-\beta\frac{\mathrm{d}\ell_i}{\mathrm{d}F^{\mathrm{old}}} 。$ (16)

式中:$\alpha $为动量因子;$\beta $为学习率;$ F^{\mathrm{new}}=[\omega_{jr}^{\mathrm{new}},v_{rj}^{\mathrm{new}}, b_r^{\mathrm{new}},b_j^{\mathrm{new}},g_{ij}^{\mathrm{new}}] $为迭代后的模型参数;$ F^{\mathrm{old}} $$ F^{\mathrm{old}-1} $为倒数第一、第二次的参数输出向量。

第二阶段GP-TRAE的插补误差$ {\ell _i} $对于模型参数${\omega _{jr}}、{v_{rj}}、{b_r}、{b_j}、{g_{ij}}$的偏导数更新规则如下:

$ \frac{{\partial {\ell _i}}}{{\partial {v_{rj}}}} = \frac{{\partial {\ell _i}}}{{\partial {b_j}}} \cdot {h_{rj}},$ (17)
$ \frac{{\partial {\ell _i}}}{{\partial {b_r}}} = \sum\limits_{k = 1}^q {\left( {\frac{{\partial {\ell _i}}}{{\partial {b_k}}} \cdot v_{rk}^{{\rm{old}}} \cdot \frac{{\partial {h_{rk}}}}{{\partial {b_r}}}} \right)},$ (18)
$ {\dfrac{\partial\ell_i}{\partial\omega_{jr}}=\left\{\begin{aligned} & \sum\limits_{k=1,k\ne j}^q\left(\frac{\partial\ell_i}{\partial b_k}\cdot v_{rk}^{\mathrm{old}}\cdot\frac{\partial h_{rk}}{\partial b_r}\right)\cdot x_{ij},\text{ }\text{ }x_{ij}\in X_C,\\ & \sum\limits_{k=1,k\ne j}^q\left(\frac{\partial\ell_i}{\partial b_k}\cdot v_{rk}^{\mathrm{old}}\cdot\frac{\partial h_{rk}}{\partial b_r}\right)\left(\tilde{x}_{ij}+g_{ij}^{\mathrm{old}}\left(x_{ij}-\tilde{x}_{ij}\right)\right),\\ & \qquad\qquad\text{ }x_{ij}\in X_M。\end{aligned}\right. }$ (19)
$ \begin{split}\frac{\partial\ell_i}{\partial g_{ij}}= & \sum\limits_{r=1}^h\left(\sum\limits_{k=1,k\ne j}^q\left(\frac{\partial\ell_i}{\partial b_k}\cdot v_{rk}^{\mathrm{new}}\cdot\frac{\partial h_{rk}}{\partial b_r}\right)\cdot\omega_{jr}^{\mathrm{new}}\right)+ \\ & \left(\tilde{x}_{ij}+g_{ij}^{\mathrm{old}}\left(x_{ij}-\tilde{x}_{ij}\right)-y_{ij}\right)。\end{split} $ (20)

式中:$ \upsilon $为Sigmoid函数为$ {h_{rj}} $激活函数。

结合第一阶段时间尺度下CI-BiGRU的插补结果$\left\{ {{\Psi _i}} \right\}_{i = 1}^q$,以及第二阶段属性视角下GP-TRAE模型输出$\Phi _j^{}$,多元变量两阶段智能插补模型目标方程:

$ {\begin{gathered} \Phi _j^*,\left\{ {\Psi _i^*} \right\}_{i = 1}^q = \\ \mathop {\arg \min }\limits_{\Psi _i^{},\Phi _j^{}} \ell \left( {\left\{ {{\Phi _j}\left( {\left\{ {{x_{ij}},{\Psi _i}\left( {\left\{ {{x_{i\tau }},{m_{i\tau }},{\varsigma _{i\tau }}} \right\}_{\tau = 1}^p} \right),{m_{ij}},{g_{ij}}} \right\}_{i = 1}^q} \right)} \right\}_{j = 1}^p,{X_\Sigma }} \right) 。\end{gathered} }$ (21)

通过求解最小化目标方程,当燃机任一变量丢失时,利用筛选出的强相关性变量,实现属性尺度丢包插补。

3 实例验证与结果分析 3.1 燃气轮机数据统计特性分析

本文利用公开的土耳其发电厂燃气轮机数据集来验证算法性能。该数据集共采集了从2011年1月—2015年12月的5年10种传感器测量数据,一共包含实测404063个可用的燃气轮机数据点,以CDP、GTEP、TAT、TEY、TIT、NOx进行实验,如图4所示。

图 4 燃气轮机多元变量数据 Fig. 4 Multivariate data of a gas turbine

使用80%完整数据来训练网络模型,数据集剩余部分则标记为测试。实验设置丢失率在5%~20%,并分别利用随机丢失、连续丢失和间歇丢失来模拟不同的北斗卫星通信链路波动场景,依次对应北斗短报文单包丢失、多包丢失和混合丢失3种真实情景。单包丢失是指丢失单一时刻的某一个变量,多包丢失是指丢失单一时刻的多个变量,间歇丢失则是同时出现单包丢失和多包丢失的情况,属性尺度插补也因上述真实情景而具备研究价值。

设置$\beta = 0.03,\alpha = 0.1$,GP-TRAE隐层神经元10个,最大迭代不超过5000次。采用平均绝对百分比误差(MAPE)和均方根误差(RMSE)来衡量燃气轮机数据插补效果[20],计算式为:

$ {\text{MAPE}} = \frac{1}{{{N}}}\sum\limits_{i,j} {\left| {{{\left( {{y_{ij}} - {x_{ij}}} \right)} \mathord{\left/ {\vphantom {{\left( {{y_{ij}} - {x_{ij}}} \right)} {{{\text{x}}_{{\text{ij}}}}}}} \right. } {{{{x}}_{{{ij}}}}}}} \right|},$ (22)
$ {\text{RMSE}} = \sqrt {\frac{1}{{{N}}}\sum\limits_{i,j} {{{\left( {{{\left( {{y_{ij}} - {x_{ij}}} \right)} \mathord{\left/ {\vphantom {{\left( {{y_{ij}} - {x_{ij}}} \right)} {{x_{ij}}}}} \right. } {{x_{ij}}}}} \right)}^2}} }。$ (23)

采用Knn、SSIM[12]、BRITS[21]、GAIN[22]作为对照组,来评价本文多元变量两阶段智能插补模型的有效性,表1是上述算法训练模型所需时间,可以发现本文所提算法训练时间较好,两阶段叠加虽然影响了其快速性,但与Knn相比的性能提升显著。

表 1 模型训练时间对比 Tab.1 Comparison of model training time
3.2 复杂场景下的插补效果

实验前需要计算第二阶段高斯聚合因子的初始值,绘制累计分布函数和概率分布密度,如图5所示。

图 5 燃气轮机多元变量概率密度分布函数 Fig. 5 Gas turbine multivariate probability density distribution function

可以发现在每年不同季节下的燃气轮机多元变量具备不同的高斯分布特性,对于CDP、GTEP、TIT而言,存在2~3个显著峰值,且1~3月的变量数值明显高于其他季节。对于TEY、NOx而言,变量的分布特性波动较小且NOx的季节特性显著。TAT无论在何种季节,均保持非常稳定的涡轮后排放温度。

为分析两阶段燃气轮机数据插补的效果,模拟仅考虑时间尺度和双尺度联合考虑的插补实验,如表2所示。可以发现,无论是随机、连续、间歇丢失场景,双尺度联合考虑的燃气轮机多元变量插补效果均更加满意。

表 2 双尺度联合插补的性能表现 Tab.2 Performance of dual-scale joint imputation

表3表5验证了对于不同燃气轮机变量,本文算法与对照算法的插补性能表现,通过单独分析每种变量的插补误差来分析变量间关联度。分析表3可知,除NOx外,本文算法均取得了最好的插补效果,TEY的插补误差仅为0.028,与效果最差的统计学Knn算法的误差0.160相比,可达超过5倍的显著优势。进一步分析NOx在GAIN算法下去的最佳效果的原因,这是由于燃气轮机NOx变量在时间和属性尺度上最复杂,潜在特征不显著,其值大小受燃机所有关键性部件影响,GAIN在训练时具备拟合和生成未知曲线特性的能力,故更适用于NOx此类受耦合变量影响显著的数据。

表 3 随机丢失场景下性能验证 Tab.3 Performance verification in random loss scenarios

表 5 间歇丢失场景下性能验证 Tab.5 Performance verification in intermittent loss scenarios

表4是燃气轮机多元变量连续丢失场景下的性能表现,可以发现,所有算法插补效果在连续丢失下均劣于随机丢失,这是由于连续丢失在一段时间内失去了正确值校正,迭代过程中累计误差在完整数据部分才具备收敛能力。同时,燃机CDP、TAT、TIA、GTEP、TEY数据应用本文算法的插补效果最好,特别是TEY插补误差仅为0.072,这是由于该电厂一年四季中的发电需求基本保持强规律性,挖掘此类变量的历史值和趋势值更为容易。SSIM仅考虑北斗短报文丢失之前获得的正常数据,未能充分利用丢失包后的数据部分,BRITS是一种仅在时间尺度研究数据特征的算法,进而浪费了多元耦合变量间的属性特征,本文算法有效规避了上述算法的潜在缺陷,取得了最好的综合性能表现。

表 4 连续丢失场景下性能验证 Tab.4 Performance verification in continuous loss scenarios

对于表5间歇丢失场景而言,存在北斗卫星短报文随机和连续丢失交叉混合的情况,此场景也更加适用于模拟真实的态势感知系统,Knn依旧取得了最不理想的性能,其次分别是SSIM、GAIN、BRITS,验证了本文算法处理燃气轮机多元变量的有效性和可靠性。

3.3 整体插补效果

图6绘制了间歇丢失场景下燃机多元变量的插补效果,表6则是3种北斗卫星短报文丢失场景下,应用本文算法的燃气轮机多元变量插补效果,连续丢失用于模拟北斗天线长时间被遮挡物覆盖的情形,随机丢失用于模拟单包受多径效应、电磁干扰等因素丢失的情形。可以发现,本文算法取得了最低的插补误差,SSIM和BRITS仅考虑了单一的时间或属性尺度,而GAIN作为图形生成对抗的先进算法,并没有在燃气轮机态势感知中取得最好的效果。

图 6 燃机多元变量插补效果 Fig. 6 Multivariate interpolation effect of gas turbines

表 6 燃机多元变量插补效果 Tab.6 Multivariate interpolation effect of gas turbines
4 结 语

1)燃气轮机CDP、TAT、TIA、GTEP、TEY、NOx等多元变量之间存在一定的关联性,且每种变量具备显著的混合高斯分布特性,体现在不同的概率密度分布情况;

2)提出时间尺度、属性尺度联合的两阶段燃气轮机丢失包智能插补模型,以此来提高多元变量的潜在耦合关系,随机、连续、间歇丢失场景下两阶段插补误差分别降低42.9%、19.7%、32.4%,均方根误差降低30.9%、25.2%、34.5%;

3)将CI-BiGRU和GP-TRAE联合模型在三种场景下,与Knn、SSIM、BRITS、GAIN算法对比发现,本文模型整体插补效果最好,插补MAPE=0.092,RMSE=0.118,依次取得较好效果的分别是GAIN、BRITS、SSIM、Knn;

4)两阶段模型以一定的计算成本为代价来保证低误差,GAIN以特有的生成对抗机制,在NOx变量插补时获得了最好的性能表现,但本文模型的综合性能最好,可有效应用于船舶燃气轮机远程态势感知。

参考文献
[1]
柯涛, 宋佳, 吴俭, 等. 基于多元信息融合的无人艇自主航行环境态势智能感知方法及验证[J]. 舰船科学技术, 2022, 44(24): 76-80.
KE T, SONG J, WU J, et al. Intelligent perception method and verification of the environment situation of autonomous navigation of unmanned vehicles based on multiple information fusion[J]. Ship Science and Technology, 2022, 44(24): 76-80. DOI:10.3404/j.issn.1672-7649.2022.24.016
[2]
LIU S, WU D, SUN H, et al. A novel beidou satellite transmission framework with missing package imputation applied to smart Ships[J]. IEEE Sensors Journal, 2022, 22(13): 13162-13176. DOI:10.1109/JSEN.2022.3177167
[3]
周春荣, 蒋郑红. 考虑随机因素的舰船网络态势预测模型[J]. 舰船科学技术, 2020, 42(18): 130-132.
ZHOU C R, JIANG Z H. A ship network situation prediction model considering stochastic factors[J]. Ship Science and Technology, 2020, 42(18): 130-132.
[4]
CHEN B, YE W. Low-error data recovery based on collaborative filtering with nonlinear inequality constraints for manufacturing processes[J]. IEEE Transactions on Automation Science and Engineering, 2020, 18(4): 1602-1614.
[5]
WANG L, WU S, WU T, et al. HKMF-T: Recover from blackouts in tagged time series with hankel matrix factorization[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 33(11): 3582-3593.
[6]
HEMANTH G, RAJA C. Proposing suitable data imputation methods by adopting a stage wise approach for various classes of smart meters missing data–practical approach[J]. Expert Systems with Applications, 2022, 187: 115911. DOI:10.1016/j.eswa.2021.115911
[7]
YIN M, CHEN R, LIN R, et al. Multi-SSALvcAE: Self-supervised adversarial learning-based view-common latent auto encoders for multiview clustering[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2024, 54(9): 5456-5467. DOI:10.1109/TSMC.2024.3405944
[8]
YUAN Z, LIU J, LIU Y, et al. A multi-task analysis and modelling paradigm using LSTM for multi-source monitoring data of inland vessels[J]. Ocean Engineering, 2020, 213: 107604. DOI:10.1016/j.oceaneng.2020.107604
[9]
HANG H, LIN L, ZHAO L, et al. TSHNN: Temporal-spatial hybrid neural network for cognitive wireless human activity recognition[J]. IEEE Transactions on Cognitive Communications and Networking, 2024, 10(6): 2088-2101. DOI:10.1109/TCCN.2024.3414390
[10]
ZHANG Y, CHEN J, LIU L, et al. Generating imperceptible and cross-resolution remote sensing adversarial examples based on implicit neural representations[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62.
[11]
LUO X, WANG A, ZHAN C, et al. Latraivf: An infrared and visible image fusion method based on latent regression and adversarial training[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1-16.
[12]
ZHANG Y, THORBURN P, XIANG W, et al. SSIM—A deep learning approach for recovering missing time series sensor data[J]. IEEE Internet of Things Journal, 2019, 6(4): 6618-6628. DOI:10.1109/JIOT.2019.2909038
[13]
AWAN S, BENNAMOUN M, SOHEL F, et al. Imputation of missing data with class imbalance using conditional generative adversarial networks[J]. Neurocomputing, 2021, 453: 164-171. DOI:10.1016/j.neucom.2021.04.010
[14]
WANG Y, LI D, LI X, et al. PC-GAIN: Pseudo-label conditional generative adversarial imputation networks for incomplete data[J]. Neural Networks, 2021, 141: 395-403. DOI:10.1016/j.neunet.2021.05.033
[15]
ZHOU X, LIU X, LAN G, et al. Federated conditional generative adversarial nets imputation method for air quality missing data[J]. Knowledge-Based Systems, 2021, 228: 107261. DOI:10.1016/j.knosys.2021.107261
[16]
NGUYEN B L, DOAN A D, CHIN T J, et al. Sensor allocation and online-learning-based path planning for maritime situational awareness enhancement: a multi-agent approach[J]. IEEE Transactions on Intelligent Transportation Systems, 2024, 25(9): 11635-11647. DOI:10.1109/TITS.2024.3363716
[17]
ZHAO Q, ZHANG Y, ZHAO Z, et al. A joint inversion approach of electromagnetic and acoustic data based on pearson correlation coefficient[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 25: 11635-11647.
[18]
徐杨, 廖小琴. 融合双向门控循环单元和卷积神经网络的歧视性言论鉴别[J]. 武汉大学学报(理学版), 2020, 66(2): 111-116.
[19]
LAI X, WU X, ZHANG L, et al. Imputations of missing values using a tracking-removed autoencoder trained with incomplete data[J]. Neurocomputing, 2019, 366: 54-65. DOI:10.1016/j.neucom.2019.07.066
[20]
彭维仕. 高超声速飞行器命中精度高准确度评估[J]. 北京航空航天大学学报, 2022, 48(11): 2130-2137.
[21]
CAO W, WANG D, KI J, et al. Brits: bidirectional recurrent imputation for time series[J]. Advances in Neural Information Processing Systems, 2018, 31.
[22]
ZHU B, LAM J, SHEN J, et al. Input-output gain analysis of linear discrete-time systems with cone invariance[J]. IEEE Transactions on Automatic Control, 2024, 69(12): 8751-8757. DOI:10.1109/TAC.2024.3412010