融合双注意力机制的GNN多维时间序列预测

范航舟 梅红岩 赵勤 张兴 程耐

范航舟, 梅红岩, 赵勤, 等. 融合双注意力机制的GNN多维时间序列预测 [J]. 智能系统学报, 2024, 19(5): 1277-1286. doi: 10.11992/tis.202305020
引用本文: 范航舟, 梅红岩, 赵勤, 等. 融合双注意力机制的GNN多维时间序列预测 [J]. 智能系统学报, 2024, 19(5): 1277-1286. doi: 10.11992/tis.202305020
FAN Hangzhou, MEI Hongyan, ZHAO Qin, et al. Multivariate time series forecasting with a graph neural network and dual attention mechanism [J]. CAAI Transactions on Intelligent Systems, 2024, 19(5): 1277-1286. doi: 10.11992/tis.202305020
Citation: FAN Hangzhou, MEI Hongyan, ZHAO Qin, et al. Multivariate time series forecasting with a graph neural network and dual attention mechanism [J]. CAAI Transactions on Intelligent Systems, 2024, 19(5): 1277-1286. doi: 10.11992/tis.202305020

融合双注意力机制的GNN多维时间序列预测

doi: 10.11992/tis.202305020
基金项目: 辽宁省教育厅科学研究项目(JZL202015404,LJKZ0625,JYTMS20230869)..
详细信息
    作者简介:

    范航舟,硕士研究生,主要研究方向为时序序列预测、大数据分析、深度学习。E-mail:fanhangzhou@163.com;

    梅红岩,教授,博士,中国计算机学会会员,主要研究方向为深度学习、数据挖掘与大数据分析、网络服务。发表学术论文40余篇。E-mail:715014795@qq.com;

    赵勤,硕士研究生,主要研究方向为时序序列预测、深度学习。E-mail:1139574265@qq.com.

    通讯作者:

    梅红岩. E-mail:715014795@qq.com.

  • 中图分类号: TP391

Multivariate time series forecasting with a graph neural network and dual attention mechanism

  • 摘要: 针对现有多维时间序列数据(multivariate time series, MTS)预测中变量间依赖关系捕获能力不足和时间序列数据多通道信息利用不充分的问题,提出一种融合双注意力机制的多维时间序列预测模型(feature fusion and dual attention mechanism based GNN, FFDA-GNN)。该模型将图神经网络与空间注意力机制融合,用于增强多变量之间依赖关系捕获能力;利用并行的多层膨胀卷积和通道注意力机制,对时间序列数据进行多通道的特征提取,实现对时间序列数据多通道信息的充分利用,从而提升预测性能。在经济、电力、交通3个领域数据集上与基准模型进行对比实验,该模型预测精度优于其他基准方法,有良好的可行性。

     

    Abstract: To address the issues of insufficient capture of dependency relationships between variables and inadequate utilization of multichannel temporal information in multivariate time series, a forecasting model fused with a dual attention mechanism (FFDA-GNN) is proposed. This model integrates a graph neural network with a spatial attention mechanism to enhance the capture of dependencies among multiple variables. Additionally, parallel multilayer inflation convolution and channel attention mechanisms are used for multi-channel feature extraction from temporal data. This approach fully utilizes multi-channel information and enhances forecasting performance. Comparative experiments conducted on datasets from the fields of economics, electric power, and traffic show that the proposed model achieves better prediction accuracy than other benchmark methods and demonstrates superior feasibility.

     

  • 时间序列数据在电力[1-2]、金融[3]、交通[4-5]等多个行业中有广泛应用。时间序列预测,能够根据过去一组恒定间隔的数据序列,通过挖掘其潜在的规律,对未来的决策提供前沿性的指导意见。但该任务中存在一些相互关联的变量,使得模型不能对时间序列进行准确的预测,因而这类预测任务也被称作多变量的时序预测任务。

    解决多维时序预测问题的关键在于如何处理好多变量之间的依赖关系,只有准确清晰地表达各个变量之间的相互影响,才能实现好的预测效果。传统的时序预测的一些方法仅仅关注单变量对预测结果的影响。最常见的单变量平稳模型是自回归模型(autoregression, AR)[6]、滑动平均模型(moving average, MA)[7]、自回归滑动平均混合模型(autoregressive moving average, ARMA)[8]。在非平稳时序预测中,一个典型的模型是差分整合移动平均自回归模型(autoregressive integrated moving average, ARIMA)[9],该模型可以通过差分实现非平稳的序列平稳化,之后通过ARMA模型拟合。在多维的时序预测方法中,高斯过程(Gaussian process, GP)[10]和支持向量机(support vector machines, SVM)[11]模型为典型的基线方法。此后又有学者针对AR模型对单变量时序数据进行预测的问题,提出向量自回归模型(vector auto regression, VAR)[12],广泛应用于多维时序预测中。传统的时序预测方法虽然取得不错效果,但仍存在很多问题。在深度学习时序预测中,循环神经网络(recurrent neural network, RNN)[13]广泛应用于多维时序预测中,但是由于RNN存在梯度消失或梯度爆炸的问题,学者研究出RNN的2种常用变体,分别是长短期记忆网络(long short-term memory networks, LSTM)[14]和门控循环单元(gated recurrent unit, GRU)[15],这2个变体引入门机制,有效地缓解了上述的问题。随后学者将循环神经网络与注意力机制融合,提出基于循环神经网络的双阶注意力网络(dual-stage attention based recurrent neural network, DA-RNN)[16],该网络能够自适应地选择最相关的输入特征,捕捉时间序列的长期时间依赖性。又有学者在结合CNN和LSTM基础上,提出长期和短期时间序列网络(long and short-term time-series network, LSTNet)[17],该模型使用CNN来捕捉序列间的短期局部依赖关系,使用RNN来发现序列间的长期依赖关系,并且与传统的自回归模型相融合,取得了很好的预测效果。文献[18]利用并行卷积和注意力机制,并融合传统自回归模型,提出适用于动态周期序列或非周期序列的DSANet(dual self-attention network)。文献[19]提出时间卷积网络(temporal convolutional networks, TCN),它通过结合因果卷积、残差卷积和膨胀卷积等,增大时域感受野,在时序预测问题上效果更好。此后,文献[20]提出的SCINet (sample convolution and interaction network)通过多分辨率样本卷积和交互进行时间建模,有效增强对复杂时间动态序列的可预测性。另一方面,由于Transformer[21]在机器翻译领域的良好效果,Transformer也很快被应用到时间序列预测任务上。文献[22]尝试将Transformer结构应用在时间序列预测任务中并取得较好效果。但同时 Transformer也存在诸如计算时间长、内存占用高等方面问题,使其无法直接应用于更长时间序列预测任务当中。文献[23]针对计算开销大的问题,提出LogSparse Transformer结构,将Transformer模型的计算复杂度从$ O({L^{\text{2}}}) $降低到$ O(L\log L) $。Informer[24]主要针对长序列预测,提出ProbSparse self-attention结构,降低了注意力层的时间和空间复杂度,同时通过生成式解码器直接产生长期预测序列,避免在使用单步前向预测进行长期预测时出现累积误差,提高长序列预测的效率。此外有学者针对频域自注意力机制时序建模,提出Autoformer[25],设计了一种短期趋势分解架构,能够更为准确分解时态数据的趋势和季节成分,使模型能够比标准注意力更好地学习时间依赖性。FEDformer (frequency enhanced decomposed transformer)[26]通过傅里叶变换和小波变换,提出了一种在频域应用注意力机制的模型结构,以增加对噪声的鲁棒性。然而在多维时序预测中,由于其只关注数据的时序特征,现有方法无法完全利用变量之间的潜在空间依赖性。近年来,图神经网络(graph neural networks, GNN)[27],成为对图结构数据中的复杂模式进行建模的一种成功方法。文献[28]提出了一种图神经网络架构Graph WaveNet,主要用于解决时空建模问题上图结构具有不确定性的问题,通过自适应的可学习的邻接矩阵从数据中自动学习图结构,从而精确地捕获数据中隐藏的空间依赖关系,同时采用一维膨胀因果卷积来替代RNN,提升对时序数据长期关系的提取能力。文献[29]提出一种新的联合推断和利用时序关系的图推理方法,该方法推断出一个潜在的全连接图来对时间序列之间的相互作用进行建模,将图模型中复杂程度由$O({N^2})$降低为$O(NK)$,实现精度和计算复杂度之间的平衡。随后,为了更好地建模多变量时间序列数据中成对变量之间的潜在空间依赖,文献[30]提出了一种为多元时间序列数据设计的通用图神经网络模型,取得不错效果。

    经过上述分析,多维时间序列预测研究已经取得一定的成果,但仍存在一些不足:1) 不同通道的时间序列呈现不同走势,其对应的不同通道特征对预测发挥着不同程度的作用,但上述模型没有很好地利用时序数据多通道的特征信息。2) 仍然存在时序数据空间依赖关系捕获不足的问题。

    为了实现对多维时间序列准确和稳健的预测,本文将空间注意力机制和通道注意力机制引入到多维时序预测问题中,通过多个并行的多层膨胀卷积和通道注意力机制挖掘多通道时序特征信息,空间注意力机制增强图卷积空间依赖特征,提出一种新的基于双注意力机制的网络结构,该网络能够在解决多维数据空间依赖不足和多通道信息利用不足问题的基础上提高预测的效果。本文主要贡献为:

    1) 通过空间注意力机制对时序数据空间依赖特征进行提取,空间依赖特征与图卷积特征融合,增强变量间依赖关系,主要解决变量间依赖关系捕获能力不足的问题。

    2) 利用膨胀卷积和通道注意力机制,对时序数据进行多通道的特征提取,解决了时序数据多通道信息利用不充分的问题。

    多维时间序列表示由多个相关的单维时间序列构成,接下来的研究方法,主要聚焦于多变量的时序预测的任务,具体可表示为如下定义:

    时间序列是指由一组时间间隔固定且按有序的时间顺序组成的观测值序列$ \boldsymbol{X}^{(i)}=\left[x_1^{(i)}\ x_2^{(i)}\ \cdots\ x_T^{(i)}\right] $,其中$ i\in\left\{1,2,\cdots,D\right\} $$ x_T^{(i)} $表示在$T$时刻记录第$ i $个观测值。多变量时间序列表示为$ \boldsymbol{X}=\left[\boldsymbol{X}^{(1)}\ \boldsymbol{X}^{(2)}\ \cdots\ \boldsymbol{X}^{(D)}\right] $$ \boldsymbol{X}\in\boldsymbol{\mathrm{\mathbf{R}}}^{D\times T} $,其中$D$表示多维变量的维度,$T$为输入的时间步总数。

    多维时间序列预测表示有一组时序数据$ \boldsymbol{X}=\left[\boldsymbol{X}_1\ \boldsymbol{X}_2\ \cdots\ \boldsymbol{X}_T\right] $,目标是预测${{\boldsymbol{X}}_{T + h}}$,其中${{\boldsymbol{X}}_T}$表示$T$时刻的记录,$T$表示序列长度,$h$表示未来预测的步长,${{\boldsymbol{X}}_T}$表示为

    $$ \boldsymbol{X}_T=\left[\begin{array}{*{20}{c}}x_1^{(1)}\ x_2^{(1)}\ \cdots\ x_T^{(1)} \\ x_1^{(2)}\ x_2^{(2)}\ \cdots\ x_T^{(2)} \\ \vdots\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vdots\ \ \\ x_1^{(D)}\ x_2^{(D)}\ \cdots\ x_T^{(D)}\end{array}\right] $$

    本文采用滚动预测的方式进行多变量时间序列预测,即基于$ \left[\boldsymbol{X}_{1+k}\ \boldsymbol{X}_{2+k}\ \cdots\ \boldsymbol{X}_{T+k}\right] $,预测未来的、的值${{\boldsymbol{X}}_{T + h + k}}$,其中$k$为滑动值且$ k\in\mathrm{\mathbf{R}}^+ $

    本文基于图神经网络和双注意力机制,提出一种针对多变量的时间序列数据的预测模型,简记为FFDA-GNN,其整体的模型结构如图1所示。FFDA-GNN模型由图学习层、$m$个时序卷积模块(temporal convolution module, TCM)、$m$个图卷积模块、空间注意力模块(spatial attention module, SAM)和输出部分共5个部分组成。

    图  1  FFDA-GNN模型结构
    Fig.  1  Architecture of FFDA-GNN
    下载: 全尺寸图片

    给定样本$ \boldsymbol{X}\in\boldsymbol{\mathrm{\mathbf{R}}}^{D\times T} $,模型FFDA-GNN首先对每个变量进行节点嵌入表示,图学习层根据多维时序数据计算余弦相似度来学习图的邻接矩阵。同时样本${\boldsymbol{X}}$经过一维卷积,映射为对应的三维特征$ \boldsymbol{F}_0\in\boldsymbol{\mathrm{\mathbf{R}}}^{D\times T'\times C} $,其中$C$为特征通道数,$T'$为卷积之后的时序特征长度。之后将${{\boldsymbol{F}}_0}$输入到时序卷积模块中,经过时序卷积模块获取多维时序数据的多个通道特征。将经过图学习层学习的邻接矩阵和时序卷积模块输出特征输入到图卷积模块中,通过图卷积模块来获取多维时序数据之间的空间依赖特征$ \boldsymbol{H}_{\text{out}}\in\boldsymbol{\mathrm{\mathbf{R}}}^D $。同时将样本${\boldsymbol{X}}$输入到空间注意力机制中,得到特征权重$ \boldsymbol{S}_{\text{out}}\in\boldsymbol{\mathrm{\mathbf{R}}}^D $,最后将图卷积结果与空间注意力机制结果相加得到整个模型的预测值$ \boldsymbol{\hat{X}}_{T+h}\in\mathbf{\mathbf{\boldsymbol{\mathrm{\mathbf{R}}}}}^D $

    图学习层的主要作用是能够根据每个节点生成的节点嵌入,学习图结构的时间序列数据之间的隐含关系。每个节点则代表预测任务中的每一个变量。本文采用余弦相似度来评估2个向量的相似程度。当余弦相似度的值为0时,代表2个向量无相似性,当值为1的时候表示2个向量最相似。具体的方法公式为

    $$ {{\boldsymbol{C}}}_{ij}=\frac{{{\boldsymbol{E}}}_{i}\cdot {{\boldsymbol{E}}}_{j}^{{\mathrm{T}}}}{{\Vert {{\boldsymbol{E}}}_{i}\Vert }_{2} \cdot {\Vert {{\boldsymbol{E}}}_{j}\Vert }_{2}} $$
    $$ {\boldsymbol{A}} = {{\mathrm{ReLU}}} \left( {{\text{tanh}}\left( {{\boldsymbol{C}} - {\boldsymbol{I}}} \right)} \right) $$ (1)
    $$ {{\boldsymbol{A}}_{ij}} = \left\{ {\begin{array}{*{20}{c}} 1, &{j \in {{\mathrm{argtopk}}} \left( {{\boldsymbol{A}}[i,:]} \right)} \\ 0, &{j \notin {{\mathrm{argtopk}}} \left( {{{\boldsymbol{A}}}[i,:]} \right)} \end{array}} \right. $$ (2)

    式中:${\boldsymbol{C}}$表示2个矩阵的余弦相似度矩阵,${{\boldsymbol{C}}_{ij}}$为第$i$节点和第$j$个节点的余弦相似值,${{\boldsymbol{E}}_i}$${{\boldsymbol{E}}_j}$分别表示在第$i$个节点和第$j$个节点的节点嵌入,${\boldsymbol{I}}$表示单位矩阵。${{\mathrm{argtopk}}} \left( {{\boldsymbol{A}}[i{\text{,}}:]} \right)$表示第$i$行中向量的前$k$个最大值的索引集合。该模块通过式(1)利用${{\mathrm{ReLU}}} $激活函数实现邻接矩阵的归一化处理。式(2)得到稀疏邻接矩阵同时减少图卷积的计算成本,${{\boldsymbol{A}}_{ij}}$表示第$i$节点和第$j$节点对应的特征矩阵的值,这里选择节点的前$k$个最近邻节点作为邻居,并将其未连接的节点权重置为$0$

    时序卷积模块主要解决没有充分利用多维时序数据多通道信息的问题。FFDA-GNN模型的时序卷积模块由不同尺寸大小卷积核的一维膨胀卷积和通道注意力机制组成,用于对多维时序数据进行多通道的时序特征提取。时序卷积模块参考MTGNN模型[30],共有5层,每一层都会使用尺寸为$1 \times 2$$1 \times 3$$1 \times 6$$1 \times 7$的4种卷积核进行卷积操作。首层膨胀卷积的膨胀系数为$q = 1$,随着隐藏层数目的增加,膨胀系数会以$q$的指数倍速率增长,其对应网络的感受野大小也会以$q$的速率呈指数增加。因此,使用这种策略可以捕获更长的序列。给定第$i$层的输入特征为$ \boldsymbol{F}_{\text{in}}^{(i)}\in\boldsymbol{\mathrm{\mathbf{R}}}^{D\times T'\times C} $,特征提取过程公式为

    $$ {d_i} = {q^{i - 1}} $$

    式中${d_i}$表示第$i$层的膨胀率。对于计算变量的隐状态,公式为

    $$ {{\boldsymbol{h}}^n} = {\boldsymbol{F}}_{\rm{in}}^{(i)}\left( n \right) $$

    式中${{\boldsymbol{h}}^n}$表示第$n$个变量的隐状态。对于计算表示第$i$层对第$n$个变量$t$时刻的隐状态,公式为

    $$ {\boldsymbol{F}}_{1 \times k}^{(i)}\left( {n,t,{d_i}} \right) = \sigma \left( {\sum\limits_{s = 0}^{k - 1} {{ {f}}_{1 \times k}^{(i)}(s){\boldsymbol{h}}_{t - {d_i}s}^n} } \right) $$

    式中:$ { {f}}_{1 \times k}^{(i)} $表示第$i$层尺寸为$1 \times k$的膨胀卷积核,$ {\boldsymbol{F}}_{1 \times k}^{(i)} $表示第$i$层对第$n$个变量$t$时刻的隐状态,$\sigma \left( \cdot \right)$为激活函数。

    通道注意力机制结构如图2所示,首先将各个卷积核卷积运算结果经过拼接操作得到特征$ \boldsymbol{F}^{(i)}\in\boldsymbol{\mathrm{\mathbf{R}}}^{D\times T'\times C} $,通过平均池化层和最大池化层将特征${{\boldsymbol{F}}^{(i)}}$的各个通道时序信息进行压缩,生成2组特征$ \boldsymbol{F}_{\max}^{(i)},\boldsymbol{F}_{\mathrm{avg}}^{(i)}\in\boldsymbol{\mathrm{\mathbf{R}}}^C $,之后将2组特征相加,经过处理之后由${{\mathrm{Sigmoid}}} $函数获取通道注意力的权重。通道注意力机制的公式为

    图  2  通道注意力机制结构
    Fig.  2  Structure of the channel mechanism
    下载: 全尺寸图片
    $$ {{\boldsymbol{C}}^{(i)}}{ { = }}\sigma \left( {{\boldsymbol{F}}_{{{\mathrm{chan}}} }^{(i)}\left( {{{\mathrm{AvgPool}}} \left( {{{\boldsymbol{F}}^{(i)}}} \right) + {{\mathrm{MaxPool}}} \left( {{{\boldsymbol{F}}^{(i)}}} \right)} \right)} \right) $$

    式中:$ {{\mathrm{AvgPool}}} \left( \cdot \right) $$ {{\mathrm{MaxPool}}} \left( \cdot \right) $分别表示对时序特征的平均池化和最大池化操作,$ {{\boldsymbol{C}}^{(i)}} $表示第$i$层的通道注意力权重矩阵,$ {\boldsymbol{F}}_{{{\mathrm{chan}}} }^{(i)} $表示第$ i $层进行卷积和${{\mathrm{ReLU}}} $激活函数计算的输出,公式为

    $$ {\boldsymbol{F}}_{{{\mathrm{chan}}} }^{(i)} = {\boldsymbol{W}}_{{{\mathrm{chan}}} 1}^{(i)}\left( {\sigma \left( {{\boldsymbol{W}}_{{{\mathrm{chan}}} 2}^{(i)}\left( {{{\boldsymbol{F}}^{(i)}}} \right)} \right)} \right) $$

    式中$ {\boldsymbol{W}}_{{{\mathrm{chan}}} 1}^{(i)} $$ {\boldsymbol{W}}_{{{\mathrm{chan}}} 2}^{(i)} $分别表示参数矩阵。经过通道注意力权重与输入特征相乘生成时序卷积模块的输出$ \boldsymbol{F}_{\text{tout}}^{(i)}\in {\bf{R}}^{D\times T'\times C} $

    图卷积模块主要作用是根据图学习层的邻接矩阵和时序卷积模块传递过来的多通道的时序特征$ {{\boldsymbol{F}}}_{\text{tout}}^{(i)} $,提取数据中的空间依赖关系。图卷积模块[30]由2个混合跳传播层组成,第1个用于处理经过每个节点的流入信息,第2个用于处理节点的流出信息。之后将2层的输出相加得到最终流入信息。图3分别显示了图卷积模块整体结构和混合跳传播层的结构。图3(a)中的${\boldsymbol{A}}$为学习到的邻接矩阵,$ {{\boldsymbol{A}}^{\text{T}}} $为邻接矩阵的转置矩阵。图3(b)为混合跳传播层的网络结构。混合跳传播层由信息传播和信息选择2个步骤组成。

    图  3  图卷积和混合跳传播层
    Fig.  3  Graph convolution and mix-hop propagaion layer
    下载: 全尺寸图片

    混合跳传播层的信息传播过程公式为

    $$ {{\boldsymbol{H}}^{(k)}} = \beta {{\boldsymbol{H}}_{{\text{in}}}} + \left( {1 - \beta } \right){{\tilde {\boldsymbol{A}}}}{{\boldsymbol{H}}^{(k - 1)}} $$

    式中:$\beta $是一个超参数,控制着根节点保持原始状态的比例。$k$为传播的深度,${{\boldsymbol{H}}_{{\text{in}}}}$表示由前一层输出的输入隐藏状态,${{\boldsymbol{H}}^{(0)}} = {{\boldsymbol{H}}_{{\text{in}}}}$${{\tilde {\boldsymbol{A}}}} = {{{\tilde {\boldsymbol{D}}}}^{ - 1}}({\boldsymbol{A}} + {\boldsymbol{I}})$${{{\tilde {\boldsymbol{D}}}}_{ii}} = 1 + \displaystyle\sum_j {{{\boldsymbol{A}}_{ij}}} $。混合跳传播层的信息选择过程公式为

    $$ {{\boldsymbol{H}}_{{{\mathrm{Gout}}}}} = \sum\limits_{i = 0}^{{K}} {{{\boldsymbol{H}}^{(i)}}{{\boldsymbol{W}}^{(i)}}} $$

    式中:$ {{\boldsymbol{H}}_{{{\mathrm{Gout}}}}} $表示图卷积当前层的输出;$ {{\boldsymbol{W}}}^{(i)} $表示参数矩阵,当图结构没有空间依赖时,将$ {{\boldsymbol{W}}^{(i)}} = 0 $仅保留初始节点信息。在本文提出的传播层中,水平方向为信息传播的过程,垂直方向为信息选择的过程。经过2个混合跳传播层处理,第$i$层图卷积模块最终输出$ \boldsymbol{H}_{\mathrm{GCN}}^{(i)}\in\boldsymbol{\mathrm{\mathbf{R}}}^{D\times T'\times C} $

    空间注意力模块主要是针对空间依赖关系捕获不足的问题,用于增强空间依赖特征。该模块参考CBAM[31]的空间注意力模块部分,由2个卷积核大小为$3 \times 3$的卷积神经网络层、非线性激活函数${{\mathrm{ReLU}}} $${{\mathrm{Sigmoid}}} $层组成。首先,将样本${\boldsymbol{X}}$的多维时序数据作为输入数据,经过空间注意力机制模块的首个$3 \times 3$卷积运算,提取时序数据在空间上的特征,之后经过${{\mathrm{ReLU}}} $激活函数处理,将处理后的特征再次经过卷积核大小为$3 \times 3$的卷积运算,生成各个变量中每个元素的重要程度,最后,由${{\mathrm{Sigmoid}}} $激活函数生成在空间上对应的权重矩阵,经过全连接层得到$ \boldsymbol{S}_{\text{out}}\in\boldsymbol{\mathrm{\mathbf{R}}}^D $

    在FFDA-GNN模型的预测输出阶段,主要是将图卷积输出的结果${\boldsymbol{H}}_{{{\mathrm{GCN}}}}^{(i)}$经过跳跃连接组合相加,与空间注意力机制输出的结果${{\boldsymbol{S}}_{{{\mathrm{out}}}}}$进行和运算作为最终的预测结果。图卷积层输出结果${\boldsymbol{H}}_{{{\mathrm{GCN}}}}^{(i)}$,经过激活函数ReLU、卷积核大小为$1 \times 1$的卷积运算,将输入的通道维度转为所需的输出维度,再组合跳跃连接,得到输出特征$ \boldsymbol{H}_{\mathrm{out}}\in\boldsymbol{\mathrm{\mathbf{R}}}^D $,然后将其与空间注意力机制模块输出${{\boldsymbol{S}}_{{{\mathrm{out}}}}}$进行相加运算,得到该模型的最终预测结果$ \hat{\boldsymbol{X}}_{T+h}\in\mathrm{\boldsymbol{\mathbf{R}}}^D $,公式为

    $$ {{\boldsymbol{\hat X}}_{T + h}} = {{\boldsymbol{S}}_{{{\mathrm{out}}}}} + {{\boldsymbol{H}}_{{{\mathrm{out}}}}} $$

    实验内容参考同类实验[11-22],选取加州大学欧文分校 (UCI)机器学习库中真实存在的原始数据集。分别为电量数据集(electricity)、汇率数据集(exchange-rate)和交通数据集(traffic)。

    电量数据集 包含321个葡萄牙用户自2012年到2014年的每小时电力消耗数据。

    汇率数据集 包含8个国家从1990年到2016年的每日汇率数据。

    交通数据集 来自加州交通部2015年到2016年共计48个月的数据,数据记录了高速公路上862个传感器每小时测量的道路占用率,数据值介于0和1之间。

    在本文进行的实验中,所有的数据集按时间顺序分为训练集(60%)、验证集(20%)和测试集 (20%)。为了避免数据尺度对实验结果的影响,数据集训练之前会采用最大最小值归一化(min-max normalization)的方法进行数据预处理。

    本文模型同样是沿用了LSTNet和MTGNN实验所使用的评价指标,即相对平方误差(relative squared error, RSE)和经验相关系数(empirial correlation coefficient, CORR)这2个常用评估指标。RSE是均方根差(root mean square error, RMSE)的一个变体,其针对模型中预测变量的数量进行调整,用于评估模型预测结果与真实值的误差,对于RSE,值越低表示预测模型的性能越好,其公式为

    $$ {{{E}}_{\rm RSE}} = \frac{{\sqrt {\displaystyle\sum_{(i,j) \in {\Omega _{{\text{Test}}}}} {{{\left( {{{\boldsymbol{Y}}_{it}} - {{{\boldsymbol{\hat Y}}}_{it}}} \right)}^2}} } }}{{\sqrt {\displaystyle\sum_{(i,j) \in {\Omega _{{\text{{\rm T}est}}}}} {{{\left( {{{\boldsymbol{Y}}_{it}} - {{\mathrm{mean}}} \left( {\boldsymbol{Y}} \right)} \right)}^2}} } }} $$

    CORR是通过评估真实值与预测值的相关情况来评估模型效果,CORR的取值范围是0~1,当CORR为0,表示模型预测不准确,当CORR为1,表示预测效果非常好,即CORR值越大说明模型的预测效果越好,其公式为

    $$ {{ {E}}_{{\text{CORR}}}} = \frac{1}{D}\sum\limits_{i = 1}^D {\frac{{\displaystyle\sum_{ { {t}}} {\left( {{{\boldsymbol{Y}}_{it}} - {\rm mean} \left( {{{\boldsymbol{Y}}_i}} \right)} \right)\left( {{{{\boldsymbol{\hat Y}}}_{it}} - {\rm mean} \left( {{{{\boldsymbol{\hat Y}}}_i}} \right)} \right)} }}{{\sqrt {\displaystyle\sum_{ {t}} {{{\left( {{{\boldsymbol{Y}}_{it}} - {\rm mean} \left( {{{\boldsymbol{Y}}_i}} \right)} \right)}^2}{{\left( {{{{\boldsymbol{\hat Y}}}_{it}} - {\rm mean} \left( {{{{\boldsymbol{\hat Y}}}_i}} \right)} \right)}^2}} } }}} $$

    式中${\boldsymbol{Y}}$${\boldsymbol{\hat Y}}$分别是真实值和模型的预测结果。

    本次实验在Python3.8环境下实现,使用PyTorch深度学习框架完成。模型实验运行在Ubuntu操作系统,所用GPU为NVIDIA RTX A5000 24 GB。同时实验采用滑动窗口(sliding window)的预测方法,预测未来步长的数据。针对本次实验所使用的超参数,参考同类的深度学习模型参数设置相关参数范围。

    表1为参数范围和调优的具体参数设置,另外,epoch为100。

    表  1  模型主要参数设置
    Table  1  Model main parameter settings
    参数名 参数取值
    激活函数 {Sigmoid, ReLU}, ReLU, Sigmoid
    优化器 {SGD, Adagrad, Adam}, Adam
    学习率 {0.000 1, 0.000 5, 0.001}, 0.001
    损失函数 $\{ {L_1},{L_2}\} ,{L_1}$
    参数丢弃系数 {0.1, 0.2, 0.5, 0.6, 0.8}, 0.8
    窗口大小 32
    预测步长 {3, 6, 12, 24}
    图卷积模块数

    5
    每个图卷积模块层数 2
    梯度裁剪数 5
    批处理大小 {16, 32, 64, 128, 256}, 32
    空间注意力卷积核数 3
    空间注意力卷积步长

    1
    2.4.1   对比实验

    为了验证模型的有效性,实验选择7种深度学习中主流的时序预测模型作为对比模型,分别为:

    AR[6],一种单变量平稳自回归模型;

    VARMLP[32],一种向量自回归模型和多层感知器的组合模型;

    GP[10],一种为时序数据设计的高斯过程;

    RNN-GRU[33],一种循环神经网络使用GRU作为隐层的时间序列预测模型;

    MTGNN[30],一种为多维时间序列数据设计的通用图神经网络模型;

    LSTNet-skip[17],一种结合卷积神经网络和长短期记忆网络的时序预测模型;

    AttnAR[34],一种基于注意力和自回归的多维时间序列预测模型。

    表2~4为本文模型与对应的几种对比方法在测试集上的RSE和CORR的评估结果。其中,输入时序数据的窗口大小为32,预测未来步长的取值为{3,6,12,24},分别表示数据集exchange-rate的第3、6、12、24天,数据集electricity和traffic的第3、6、12、24小时的预测结果,这里将产生的指标数据默认保存小数点后3位。在实验结果上,本文提出的模型在指定的3种数据集(exchange、electricity和traffic)上RSE指标相对最低,CORR指标相对最高,说明该模型的预测性能优于其他基准模型,在指定数据集进行预测任务时有很好的预测效果。

    表  2  在exchange-rate数据集预测结果对比
    Table  2  Comparison of prediction results in the exchange-rate dataset
    模型 指标 预测步长
    3 6 12 24
    AR RSE 0.022 8 0.027 9 0.035 3 0.044 5
    CORR 0.973 4 0.965 6 0.952 6 0.935 7
    VARMLP RSE 0.026 5 0.039 4 0.040 7 0.057 8
    CORR 0.860 9 0.872 5 0.828 0 0.767 5
    GP RSE 0.023 9 0.027 2 0.039 4 0.058 0
    CORR 0.871 3 0.819 3 0.848 4 0.827 8
    RNN-GRU RSE 0.019 2 0.026 4 0.040 8 0.062 6
    CORR 0.978 6 0.971 3 0.953 1 0.922 3
    LSTNet-skip RSE 0.022 6 0.028 0 0.035 6 0.044 9
    CORR 0.973 5 0.965 8 0.951 1 0.935 4
    MTGNN RSE 0.019 4 0.025 9 0.034 9 0.045 6
    CORR 0.978 6 0.970 8 0.955 1 0.937 2
    AttnAR RSE 0.024 0 0.033 6 0.044 8
    CORR 0.967 2 0.953 6 0.924 8
    FFDA-GNN RSE 0.015 7 0.023 7 0.028 5 0.044 2
    CORR 0.981 3 0.973 0 0.959 4 0.937 5
    表  3  在electricity数据集预测结果对比
    Table  3  Comparison of prediction results in the electricity dataset
    模型 指标 预测步长
    3 6 12 24
    ARRSE0.099 50.103 50.105 00.105 4
    CORR0.884 50.863 20.859 10.859 5
    VARMLPRSE0.139 30.162 00.155 70.127 4
    CORR0.870 80.838 90.819 20.867 9
    GPRSE0.150 00.190 70.162 10.127 3
    CORR0.867 00.833 40.839 40.881 8
    RNN-GRURSE0.110 20.114 40.118 30.129 5
    CORR0.859 70.862 30.847 20.865 1
    LSTNet-skipRSE0.086 40.093 10.100 70.100 7
    CORR0.928 30.913 50.907 70.911 9
    MTGNNRSE0.074 50.087 80.091 60.095 3
    CORR0.947 40.931 60.927 80.923 4
    AttnARRSE0.087 10.094 20.098 9
    CORR0.916 00.910 80.908 9
    FFDA-GNNRSE0.074 20.087 20.091 20.100 3
    CORR0.950 10.931 70.928 10.919 5
    表  4  在traffic数据集预测结果对比
    Table  4  Comparison of prediction results in the traffic dataset
    模型 指标 预测步长
    3 6 12 24
    AR RSE 0.599 1 0.621 8 0.625 2 0.630 0
    CORR 0.775 2 0.756 8 0.754 4 0.751 9
    VARMLP RSE 0.558 2 0.657 9 0.602 3 0.614 6
    CORR 0.824 5 0.769 5 0.792 9 0.789 1
    GP RSE 0.608 2 0.677 2 0.640 6 0.599 5
    CORR 0.783 1 0.740 6 0.767 1 0.790 9
    RNN-GRU RSE 0.535 8 0.552 2 0.556 2 0.563 3
    CORR 0.851 1 0.840 5 0.834 5 0.830 0
    LSTNet-skip RSE 0.477 7 0.489 3 0.495 0 0.497 3
    CORR 0.872 1 0.869 0 0.861 4 0.858 8
    MTGNN RSE 0.416 2 0.475 4 0.446 1 0.453 5
    CORR 0.896 3 0.866 7 0.879 4 0.881 0
    AttnAR RSE 0.428 7 0.437 0 0.439 6
    CORR 0.886 5 0.881 9 0.880 0
    FFDA-GNN RSE 0.415 6 0.472 5 0.445 4 0.454 7
    CORR 0.896 9 0.866 9 0.879 2 0.878 9

    表2可知,对exchange-rate数据集进行预测时,本文模型相对MTGNN模型在不同预测步长下的RSE误差分别降低了19.07%、8.49%、18.33%、3.07%。对比早期的AR模型效果提升较大,原因是统计方法AR模型无法捕获多维时序数据的非线性关系;VARMLP和RNN-GRU模型只能捕获单一变量的时序特征,无法对多变量特征依赖关系进行提取,导致误差相对较大;而LSTNet只能处理定长的短期和长期特征,无法很好处理时序数据的多通道特征;此外虽然AttnAR引入注意力机制,但只关注时序维度特征,忽略空间维度,对预测效果提升有限。从表3可知,对electricity数据集进行预测时,当预测步长为3时,该模型比MTGNN模型在评价指标CORR提升明显,当预测步长为6时,模型在该评价指标有部分提升。总体来说,当预测步长为3、6、12时,该模型的预测效果最好,说明当预测步长为3、6和12时,通道注意力模块能够对时序数据的每个通道特征进行进一步捕获,并且经过空间注意力机制的特征融合,该模型能够更好地利用多维的空间依赖关系提升预测精度。从表4可知,traffic数据集中该模型预测效果提升并不显著,原因在于模型在traffic数据集中提取时序特征方面并不具有良好的表现。针对3种数据集,当预测步长为3、6和12时,该模型的性能是逐渐变差的,说明该数据集时间分布特征非常明显,对于短期预测性能较好。当预测步长为24时,模型预测效果最低,说明本文模型对于长期预测的能力相对较低。综上,该模型双注意力机制在多变量的时间序列预测问题上有良好的可靠性。

    2.4.2   消融实验

    由1.2节内容可知,FFDA-GNN模型包括时序卷积模块和空间注意力模块。为了验证各部件在该模型中的有效性,本文设计如下网络:1) Base;2) Base+TCM;3) Base+SAM;4) FFDA-GNN。其中,Base模型为在FFDA-GNN模型的基础上除去TCM和SAM模块;Base+TCM为在Base模型的基础上添加时序卷积模块TCM;Base+SAM为在Base模型的基础上添加空间注意力模块SAM。选取有代表性的2个数据集exchange-rate和electricity进行消融实验。

    针对exchange-rate数据集实验结果如图4所示。实验结果表明,在exchange-rate数据集中,添加空间注意力机制SAM模块的模型,在预测步长为3、6和12时,其评价指标RSE分别降低了18.69%、13.10%和5.86%。主要原因是空间注意力机制SAM模块准确地挖掘了多个变量之间的关联关系,增强了由图卷积模块生成的多变量之间依赖关联程度。对于增加了时序卷积模块TCM的模型,在不同的预测步长下,CORR评估指标分别提高了0.000 7、0.000 3、0.000 1,表明通道注意力机制对多个通道的时序特征进行了聚焦,提高了模型的预测能力。

    图  4  在exchange-rate数据集消融实验对比
    Fig.  4  Comparison of ablation study in the exchange-rate dataset
    下载: 全尺寸图片

    而在electricity数据集上,通过表5可得,添加TCM和SAM 2个模块后,本文提出的FFDA-GNN模型在RSE和CORR 2个指标上取得了最好的效果。相比Base模型,FFDA-GNN模型在不同的预测步长上RSE评估指标分别降低了15.39%、13.27%、11.74%。综上,在Base模型的基础增加了基于通道注意力机制的TCM和基于空间注意力的SAM模块后模型达到了最好的结果,注意力机制的添加提升了模型整体的预测能力。

    表  5  在electricity数据集消融实验对比
    Table  5  Comparison of ablation study in the electricity dataset
    模型 指标 预测步长
    3 6 12
    BaseRSE0.087 70.119 00.126 0
    CORR0.925 40.895 60.885 4
    Base+TCMRSE0.089 90.122 70.125 8
    CORR0.925 80.902 70.893 6
    Base+SAMRSE0.087 00.113 70.125 5
    CORR0.926 10.899 60.886 0
    FFDA-GNNRSE0.074 20.103 20.111 2
    CORR0.950 10.931 70.928 1

    本文提出了一种基于图神经网络和双注意力机制的混合网络模型。该模型利用多个卷积核的一维膨胀卷积提取多维时序数据多个范围的时序特征,通过增加通道注意力机制,捕获多通道的时序数据特征,经图卷积神经网络提取多维时间序列变量之间的空间依赖关系特征,同时利用空间注意力机制进一步提取多变量之间的空间依赖关系,然后融合多维时间序列的变量间依赖关系特征进行预测。在经济、电力和交通等领域的数据集上的实验结果表明,FFDA-GNN在相对平方误差RSE和经验相关系数CORR2种指标上取得了较好的预测结果,且优于其他基准模型,更加适合解决多变量时间序列预测任务。未来的工作重点将集中在如何使用更优的算法来自适应地学习图的邻接矩阵,进一步挖掘时间序列数据之间的隐含关系,同时在模型超参数优化方面做进一步探究。

  • 图  1   FFDA-GNN模型结构

    Fig.  1   Architecture of FFDA-GNN

    下载: 全尺寸图片

    图  2   通道注意力机制结构

    Fig.  2   Structure of the channel mechanism

    下载: 全尺寸图片

    图  3   图卷积和混合跳传播层

    Fig.  3   Graph convolution and mix-hop propagaion layer

    下载: 全尺寸图片

    图  4   在exchange-rate数据集消融实验对比

    Fig.  4   Comparison of ablation study in the exchange-rate dataset

    下载: 全尺寸图片

    表  1   模型主要参数设置

    Table  1   Model main parameter settings

    参数名 参数取值
    激活函数 {Sigmoid, ReLU}, ReLU, Sigmoid
    优化器 {SGD, Adagrad, Adam}, Adam
    学习率 {0.000 1, 0.000 5, 0.001}, 0.001
    损失函数 $\{ {L_1},{L_2}\} ,{L_1}$
    参数丢弃系数 {0.1, 0.2, 0.5, 0.6, 0.8}, 0.8
    窗口大小 32
    预测步长 {3, 6, 12, 24}
    图卷积模块数

    5
    每个图卷积模块层数 2
    梯度裁剪数 5
    批处理大小 {16, 32, 64, 128, 256}, 32
    空间注意力卷积核数 3
    空间注意力卷积步长

    1

    表  2   在exchange-rate数据集预测结果对比

    Table  2   Comparison of prediction results in the exchange-rate dataset

    模型 指标 预测步长
    3 6 12 24
    AR RSE 0.022 8 0.027 9 0.035 3 0.044 5
    CORR 0.973 4 0.965 6 0.952 6 0.935 7
    VARMLP RSE 0.026 5 0.039 4 0.040 7 0.057 8
    CORR 0.860 9 0.872 5 0.828 0 0.767 5
    GP RSE 0.023 9 0.027 2 0.039 4 0.058 0
    CORR 0.871 3 0.819 3 0.848 4 0.827 8
    RNN-GRU RSE 0.019 2 0.026 4 0.040 8 0.062 6
    CORR 0.978 6 0.971 3 0.953 1 0.922 3
    LSTNet-skip RSE 0.022 6 0.028 0 0.035 6 0.044 9
    CORR 0.973 5 0.965 8 0.951 1 0.935 4
    MTGNN RSE 0.019 4 0.025 9 0.034 9 0.045 6
    CORR 0.978 6 0.970 8 0.955 1 0.937 2
    AttnAR RSE 0.024 0 0.033 6 0.044 8
    CORR 0.967 2 0.953 6 0.924 8
    FFDA-GNN RSE 0.015 7 0.023 7 0.028 5 0.044 2
    CORR 0.981 3 0.973 0 0.959 4 0.937 5

    表  3   在electricity数据集预测结果对比

    Table  3   Comparison of prediction results in the electricity dataset

    模型 指标 预测步长
    3 6 12 24
    ARRSE0.099 50.103 50.105 00.105 4
    CORR0.884 50.863 20.859 10.859 5
    VARMLPRSE0.139 30.162 00.155 70.127 4
    CORR0.870 80.838 90.819 20.867 9
    GPRSE0.150 00.190 70.162 10.127 3
    CORR0.867 00.833 40.839 40.881 8
    RNN-GRURSE0.110 20.114 40.118 30.129 5
    CORR0.859 70.862 30.847 20.865 1
    LSTNet-skipRSE0.086 40.093 10.100 70.100 7
    CORR0.928 30.913 50.907 70.911 9
    MTGNNRSE0.074 50.087 80.091 60.095 3
    CORR0.947 40.931 60.927 80.923 4
    AttnARRSE0.087 10.094 20.098 9
    CORR0.916 00.910 80.908 9
    FFDA-GNNRSE0.074 20.087 20.091 20.100 3
    CORR0.950 10.931 70.928 10.919 5

    表  4   在traffic数据集预测结果对比

    Table  4   Comparison of prediction results in the traffic dataset

    模型 指标 预测步长
    3 6 12 24
    AR RSE 0.599 1 0.621 8 0.625 2 0.630 0
    CORR 0.775 2 0.756 8 0.754 4 0.751 9
    VARMLP RSE 0.558 2 0.657 9 0.602 3 0.614 6
    CORR 0.824 5 0.769 5 0.792 9 0.789 1
    GP RSE 0.608 2 0.677 2 0.640 6 0.599 5
    CORR 0.783 1 0.740 6 0.767 1 0.790 9
    RNN-GRU RSE 0.535 8 0.552 2 0.556 2 0.563 3
    CORR 0.851 1 0.840 5 0.834 5 0.830 0
    LSTNet-skip RSE 0.477 7 0.489 3 0.495 0 0.497 3
    CORR 0.872 1 0.869 0 0.861 4 0.858 8
    MTGNN RSE 0.416 2 0.475 4 0.446 1 0.453 5
    CORR 0.896 3 0.866 7 0.879 4 0.881 0
    AttnAR RSE 0.428 7 0.437 0 0.439 6
    CORR 0.886 5 0.881 9 0.880 0
    FFDA-GNN RSE 0.415 6 0.472 5 0.445 4 0.454 7
    CORR 0.896 9 0.866 9 0.879 2 0.878 9

    表  5   在electricity数据集消融实验对比

    Table  5   Comparison of ablation study in the electricity dataset

    模型 指标 预测步长
    3 6 12
    BaseRSE0.087 70.119 00.126 0
    CORR0.925 40.895 60.885 4
    Base+TCMRSE0.089 90.122 70.125 8
    CORR0.925 80.902 70.893 6
    Base+SAMRSE0.087 00.113 70.125 5
    CORR0.926 10.899 60.886 0
    FFDA-GNNRSE0.074 20.103 20.111 2
    CORR0.950 10.931 70.928 1
  • [1] GASPARIN A, LUKOVIC S, ALIPPI C. Deep learning for time series forecasting: The electric load case[J]. CAAI transactions on intelligence technology, 2022, 7(1): 1−25. doi: 10.1049/cit2.12060
    [2] 王锋华, 成敬周, 文凡. 快速双非凸回归算法及其电力数据预测应用[J]. 智能系统学报, 2018, 13(4): 665−672. doi: 10.11992/tis.201708033

    WANG Fenghua, CHENG Jingzhou, WEN Fan. Fast double nonconvex regression algorithm for forecast of electric power data[J]. CAAI transactions on intelligent systems, 2018, 13(4): 665−672. doi: 10.11992/tis.201708033
    [3] 程鹏超, 杜军平, 薛哲. 基于多路交叉的用户金融行为预测[J]. 智能系统学报, 2021, 16(2): 378−384. doi: 10.11992/tis.202006054

    CHENG Pengchao, DU Junping, XUE Zhe. Prediction of user financial behavior based on multi-way crossing[J]. CAAI transactions on intelligent systems, 2021, 16(2): 378−384. doi: 10.11992/tis.202006054
    [4] FANG Weiwei, ZHUO Wenhao, YAN Jingwen, et al. Attention meets long short-term memory: a deep learning network for traffic flow forecasting[J]. Physica A: statistical mechanics and its applications, 2022, 587: 126485. doi: 10.1016/j.physa.2021.126485
    [5] 李伯涵, 郭茂祖, 赵玲玲. 基于分割注意力机制残差网络的城市区域客流量预测[J]. 智能系统学报, 2022, 17(4): 839−848. doi: 10.11992/tis.202202014

    LI Bohan, GUO Maozu, ZHAO Lingling. Passenger flow prediction in urban areas based on residual networks with split attention mechanism[J]. CAAI transactions on intelligent systems, 2022, 17(4): 839−848. doi: 10.11992/tis.202202014
    [6] YULE G U. On a method of investigating periodicities disturbed series, with special reference to Wolfer's sunspot numbers[J]. Philosophical transactions of the royal society of London series A, containing papers of a mathematical or physical character, 1927, 226(1): 267−298.
    [7] WALKER G T. On periodicity in series of related terms[J]. Proceedings of the royal society of London series A, containing papers of a mathematical and physical character, 1931, 131(818): 518−532. doi: 10.1098/rspa.1931.0069
    [8] JENKINS G M, BOX G E P. Time series analysis: forecasting, and control[J]. Journal of time, 1976, 31(2): 238−242.
    [9] 杨海民, 潘志松, 白玮. 时间序列预测方法综述[J]. 计算机科学, 2019, 46(1): 21−28. doi: 10.11896/j.issn.1002-137X.2019.01.004

    YANG Haimin, PAN Zhisong, BAI Wei. Review of time series prediction methods[J]. Computer science, 2019, 46(1): 21−28. doi: 10.11896/j.issn.1002-137X.2019.01.004
    [10] 陈艳, 王子健, 赵泽, 等. 传感器网络环境监测时间序列数据的高斯过程建模与多步预测[J]. 通信学报, 2015, 36(10): 252−262. doi: 10.11959/j.issn.1000-436x.2015247

    CHEN Yan, WANG Zijian, ZHAO Ze, et al. Gaussian process modeling and multi-step prediction for time series data in wireless sensor network environmental monitoring[J]. Journal on communications, 2015, 36(10): 252−262. doi: 10.11959/j.issn.1000-436x.2015247
    [11] LI Peixian, TAN Zhixiang, YAN Lili, et al. Time series prediction of mining subsidence based on a SVM[J]. Mining science and technology (China), 2011, 21(4): 557−562. doi: 10.1016/j.mstc.2011.02.025
    [12] GOSSÉ J B, GUILLAUMIN C. L’apport de la représentation VAR de Christopher A. Sims à la science économique[J]. L’économique en perspective, 2014, 89(4): 305−319.
    [13] ELMAN J L. Finding structure in time[J]. Cognitive science, 1990, 14(2): 179−211. doi: 10.1207/s15516709cog1402_1
    [14] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735−1780. doi: 10.1162/neco.1997.9.8.1735
    [15] CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL]. (2014−12−11)[2023−05−20]. https://arxiv.org/abs/1412.3555.
    [16] QIN Yao, SONG Dongjin, CHEN Haifeng, et al. A dual-stage attention-based recurrent neural network for time series prediction[EB/OL]. (2017−04−07)[2023−05−20]. https://arxiv.org/abs/1704.02971.
    [17] LAI Guokun, CHANG Weicheng, YANG Yiming, et al. Modeling long and short-term temporal patterns with deep neural networks[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. Ann Arbor: ACM, 2018: 95−104.
    [18] HUANG Siteng, WANG Donglin, WU Xuehan, et al. DSANet: dual self-attention network for multivariate time series forecasting[C]//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. Beijing: ACM, 2019: 2129−2132.
    [19] BAI Shaojie, KOLTER J Z, KOLTUN V, et al. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[EB/OL]. (2018−03−04)[2023−05−20]. https://arxiv.org/abs/1803.01271.
    [20] LIU Minhao, ZENG Ailing, CHEN Muxi, et al. SCINet: Time series modeling and forecasting with sample convolution and interaction[J]. Advances in neural information processing systems, 2022, 35: 5816−5828.
    [21] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. California: ACM, 2017: 6000–6010.
    [22] WU N, GREEN B, BEN Xue, et al. Deep transformer models for time series forecasting: the influenza prevalence case[EB/OL]. (2020−01−23)[2023−05−20]. https://arxiv.org/abs/2001.08317.
    [23] LI Shiyang, JIN Xiaoyong, XUAN Yao, et al. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting[EB/OL]. (2019−07−29)[2023−05−20]. https://arxiv.org/abs/1907.00235.
    [24] ZHOU Haoyi, ZHANG Shanghang, PENG Jieqi, et al. Informer: beyond efficient transformer for long sequence time-series forecasting[J]. Proceedings of the AAAI conference on artificial intelligence, 2021, 35(12): 11106−11115. doi: 10.1609/aaai.v35i12.17325
    [25] WU Haixu, XU Jiehui, WANG Jianmin, et al. Autoformer: decomposition transformers with auto-correlation for long-term series forecasting[J]. Advances in neural information processing systems, 2021, 34: 22419−22430.
    [26] ZHOU Tian, MA Ziqing, WEN Qingsong, et al. FEDformer: frequency enhanced decomposed transformer for long-term series forecasting[EB/OL]. (2022−01−30)[2023−05−20]. https://arxiv.org/abs/2201.12740.
    [27] 吴博, 梁循, 张树森, 等. 图神经网络前沿进展与应用[J]. 计算机学报, 2022, 45(1): 35−68. doi: 10.11897/SP.J.1016.2022.00035

    WU Bo, LIANG Xun, ZHANG Shusen, et al. Advances and applications in graph neural network[J]. Chinese journal of computers, 2022, 45(1): 35−68. doi: 10.11897/SP.J.1016.2022.00035
    [28] WU Zonghan, PAN Shirui, LONG Guodong, et al. Graph WaveNet for deep spatial-temporal graph modeling[EB/OL]. (2019−05−31)[2023−05−20]. https://arxiv.org/abs/1906.00121.
    [29] SATORRAS V G, RANGAPURAM S S, JANUSCHOWSKI T. Multivariate time series forecasting with latent graph inference[EB/OL]. (2022−03−07)[2023−05−20]. https://arxiv.org/abs/2203.03423.
    [30] WU Zonghan, PAN Shirui, LONG Guodong, et al. Connecting the dots: multivariate time series forecasting with graph neural networks[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Virtual Event: ACM, 2020: 753−763.
    [31] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//Lecture Notes in Computer Science. Cham: Springer, 2018: 3−19.
    [32] ZHANG G P. Time series forecasting using a hybrid ARIMA and neural network model[J]. Neurocomputing, 2003, 50: 159−175. doi: 10.1016/S0925-2312(01)00702-0
    [33] JIA Pengtao, LIU Hangduo, WANG Sujian, et al. Research on a mine gas concentration forecasting model based on a GRU network[J]. IEEE access, 2020, 8: 38023−38031. doi: 10.1109/ACCESS.2020.2975257
    [34] YOO J, KANG U. Attention-based autoregression for accurate and efficient multivariate time series forecasting[C]//Proceedings of the 2021 SIAM International Conference on Data Mining. Philadelphia: Society for Industrial and Applied Mathematics, 2021: 531−539.
WeChat 点击查看大图
图(4)  /  表(5)
出版历程
  • 收稿日期:  2023-05-20
  • 网络出版日期:  2024-08-28

目录

    /

    返回文章
    返回