2. 郑州市区块链与数据 智能重点实验室 河南 郑州 450002;
3. 交通运输部科学研究院 北京 100029;
4. 综合交通运输大数据应用技术交通运输行业重点实验室 北京 100029
2. Zhengzhou Key Laboratory of Blockchain and Data Intelligence, Zhengzhou 450002, China;
3. China Academy of Transportation Sciences, Beijing 100029, China;
4. Key Laboratory of Transport Industry of Big Data Application Technologies for Comprehensive Transport, Beijing 100029, China
随着我国经济的不断发展,货物运输需求不断增加,其中公路货运在货运体系中持续占据重要地位。据国家统计局统计,2022年公路货运量达到371.2×108 t,占当年总货物运输量的72.04%[1]。由此可见,公路货运在综合交通系统中持续占据重要地位,迫切需要合理且先进的货运管理与规划来提升公路货运效率。相较于当前广泛使用的GPS轨迹数据,门架信息具有数据准确不会产生定位漂移、门架分布广泛、数据量大等优点。因此,分析基于门架数据的高速公路货车流量数据并准确地预测货运流量对于提升高速公路货运效率具有重要意义。
在短时流量预测方面,国内外学者提出了大量预测方案。传统的短时交通流量预测方法有ARIMA模型[2]、卡尔曼滤波模型[3]等参数模型,K最近邻模型[4]、高斯过程模型[5]等非参数模型及TVF-EMD-ARIMA[6]等混合预测模型。然而由于难以满足实时性要求以及精度不高的问题,现在的短时交通流量预测工作中已经很少用到传统的预测模型。
随着深度学习的发展,许多学者将深度学习技术用于短时流量预测任务,例如支持向量机模型、随机森林模型等。深度学习技术在短时流量预测方面表现突出,例如长短期记忆(LSTM)网络、门控循环单元(GRU)、时间卷积网络(TCN)等模型常用于短时交通流量预测任务。Ma等[7]基于LSTM和Bi-LSTM模型提出了改进的LSTM_BILSTM方法,其准确率和稳定性均优于LSTM和Bi-LSTM模型。Shu等[8]采用一种改进的双向正负反馈GRU预测模型Bi-GRU完成短期交通流预测任务。叶景等[9]用CNN进行特征提取并提出一种经果蝇算法优化参数的XGBoost模型用于交通流量预测。Zheng等[10]提出了一种结合基于注意力机制的Conv-LSTM和Bi-LSTM的预测模型。Guo等[11]提出基于注意力的时空图卷积网络(ASTGCN)模型来解决交通流预测问题。
但现有的研究还存在着以下问题:
1) 由于交通流数据收集成本较高且大多数数据不公开,训练数据难以获取。以往的训练真实数据较少,导致模型在真实场景下预测能力较差。现有的流量预测模型大多针对客车进行研究,所提出的模型对货车适用度不高。
2) 交通系统中位置之间的相关性是高度动态的,它们受出行模式和意外事件的影响而随时间变化,但现有方法主要以静态方式(预定义或自学习)建模空间相关性,这限制了学习动态交通模式的能力。
3) 现有的基于GCN的流量预测模型,需预定义邻接矩阵来进行图卷积运算,得出的预定义图不能包含有关空间依赖性的完整信息,与预测任务也没有直接关联,可能会导致较大的偏差。若缺少相关领域知识,这些方法便无法迁移至其他领域,泛化能力不强。
针对以上问题,本文采用真实门架数据信息,提出了基于注意力机制的时空残差长短期记忆(ASTResLSTM)的货车流量短时预测模型,采用AGCN提取门架数据中的空间动态相关性,避免了权重参数过大无法优化和过拟合的问题,实现对高速公路货车流量的多步预测,从而提升模型的预测准确度。
1 模型方法本文提出的ASTResLSTM网络模型结合了ResNet、AGCN和Attention-LSTM。其中,AGCN用于提取高速公路货车数据中的空间相关性,Attention-LSTM用于提取高速公路货车数据的时间相关性。ResNet用来解决深层神经网络中的梯度消失和模型退化问题。
1.1 残差神经网络由于一些神经网络的深度较深,在训练过程中可能会出现梯度消失或梯度爆炸等问题,He等[12]提出残差神经网络,解决了模型退化问题,极大提高了有效训练的网络深度,
$ \boldsymbol{x}_{l+1}=\boldsymbol{x}_l+F\left(\boldsymbol{x}_l, \boldsymbol{W}_l\right), $ | (1) |
式中:x l和 x l+1分别为第l个单元的输入和输出;F为残差函数。具体网络结构见图 1。
![]() |
图 1 改进的残差块结构 Fig. 1 Improved residual block structure |
Bai等[13]提出了两个自适应模块,用于增强GCN的新功能:
1) 节点自适应参数学习(NAPL)模块,用于捕获特定于节点的模式;
2) 数据自适应图生成(DAGG)模块,自动推断不同流量系列之间的相互依赖关系。
1.2.1 节点自适应参数学习模块由于时间序列数据的动态特性以及影响交通的节点因素的多样性,不同交通序列之间的模式可能不同甚至相反。因此,仅捕获所有节点间的共享模式不足以进行准确的流量预测,有必要为每个节点维护唯一的参数空间以学习每个节点的特定模式。
然而,对于一个包含N个相关单变量时间序列的大流量序列 X,X ∈ R N×C和 Z ∈ R N×F为GCN层的输入与输出,每个节点维护参数空间会导致要学习的权重参数 Θ ∈ R N×C×F过大而无法优化,并且会导致过拟合问题。为解决此问题,本文使用了NAPL模块增强传统的GCN。
NAPL通过学习两个较小的参数矩阵来解决过拟合问题,即节点嵌入矩阵和权重池 W G∈ R d×C×F。因此NAPL增强型GCN可表述为
$ \boldsymbol{Z}=\left(\boldsymbol{I}_N+\boldsymbol{D}^{-\frac{1}{2}} \boldsymbol{A} \boldsymbol{D}^{-\frac{1}{2}}\right) \boldsymbol{X} \boldsymbol{E}_G \boldsymbol{W}_G+\boldsymbol{W}_G \boldsymbol{b}_G, $ | (2) |
式中:
现有的基于GCN的流量预测模型,需要预定义邻接矩阵A来进行图卷积运算。目前的研究中主要利用距离函数或相似度函数等直观方法来预先计算图,得出的预定义图可能会导致较大的偏差。
使用DAGG模块自动从数据中推断出隐藏的相互依赖关系。DAGG模块首先为所有节点随机初始化一个可学习的节点嵌入字典 E A∈ R N×d,其中:E A的每一行表示节点的嵌入;d表示节点嵌入的维度。与通过节点相似度定义图类似,通过 E A和 EAT相乘来推断每对节点之间的空间依赖关系,即
$ \boldsymbol{D}^{-\frac{1}{2}} \boldsymbol{A} \boldsymbol{D}^{-\frac{1}{2}}=\operatorname{softmax}\left(\operatorname{ReLU}\left(\boldsymbol{E}_A \cdot \boldsymbol{E}_A^{\mathrm{T}}\right)\right), $ | (3) |
式中:softmax用于对自适应矩阵进行归一化。在训练过程中,E A会自动更新,以学习不同流量序列之间隐藏的依赖关系,并获得图卷积的自适应矩阵。DAGG增强型GCN可以表述为
$ \boldsymbol{Z}=\left(\boldsymbol{I}_N+\operatorname{softmax}\left(\operatorname{ReLU}\left(\boldsymbol{E}_A \cdot \boldsymbol{E}_A^{\mathrm{T}}\right)\right)\right) \boldsymbol{X} \boldsymbol{\Theta}_{\circ} $ | (4) |
为了捕获之前网络层提取特征的不同权重,本文在模型中引入了注意力长短期记忆网络。传统的注意力长短期记忆网络模型往往根据时间步长的远近分配权重参数,为相距较近的时间步长分配的权重参数较重,为相距较远的时间步长分配的权重参数较轻。但交通流量会受到网络拓扑结构、车辆进出流量等多种因素的共同影响,预测模型比较复杂,分配权重参数仅仅基于距离难以满足预测需求。基于Wu等[14]设计全连接神经网络来学习权重的方法,用全连接网络根据LSTM的输出进行评分并获得权重,
$ \boldsymbol{A}=f(\boldsymbol{W} \circ \boldsymbol{O} \boldsymbol{u} \boldsymbol{t}+\boldsymbol{b}), $ | (5) |
$ \boldsymbol{Out} { }^{\prime}=\boldsymbol{A} \circ \boldsymbol{O} u \boldsymbol{t}, $ | (6) |
式中:Out ∈ R m×n为长短期记忆网络模型的输出,m表示时间步长,n表示每个时间步长的特征数量;A是与Out形状相同的权重矩阵;º表示Hadamard积;f表示全连接层;W是f的权重矩阵。
2 货车短时流量预测本文提出的ASTResLSTM模型,结构如图 2所示。该模型由三部分组成。
![]() |
图 2 ASTResLSTM模型 Fig. 2 The ASTResLSTM model |
1) 数据预处理。对输入的门架数据进行清洗,去除原始数据中的异常值并筛选出货车数据,按照近邻周期、日周期进行数据切片,最后进行数据归一化。
2) 时空特征提取。通过ResNet和基于注意力机制的LSTM提取货车流量数据的时间特征,通过AGCN提取高速公路货车数据中的空间特征。
3) 特征融合输出。对提取出的时空特征进行融合,得到最终的货车流量预测结果。
2.1 数据预处理 2.1.1 数据清洗数据质量是影响模型预测效果的关键因素,结合门架数据的特点,对输入的数据进行操作。
1) 异常数据清洗。门架数据中存在同一辆货车在很短时间内连续通过同一个门架的错误记录,通过对门架数据进行分析,设置15 min的阈值,删除15 min内同一辆车连续通过同一门架的错误数据。
2) 冗余数据清洗。针对同一货车在同一时间内有多条重复的门架记录,可通过删除重复数据来清除冗余数据。
3) 筛选货车数据。门架数据中除了货车数据,还有客车数据,根据门架表中的车型代码字段筛选出货车数据。
2.1.2 数据切片由于门架数据具有时间周期性,为有效提取其周期性特征,将数据沿时间轴截取一定长度,得到近邻序列 I c和日序列 I d。对于特征矩阵 X t∈ R n×m,n为高速门架数,m为节点的特征数量。
预测窗口的近邻周期序列 I c、日周期序列 I d计算为式(7)、(8),时间序列图见图 3,
$ \boldsymbol{I}_c=\left(\boldsymbol{X}_{t_0-c x_{o+1}}, \cdots, \boldsymbol{X}_{t_0-o+o}\right), $ | (7) |
$ \boldsymbol{I}_d=\left(\boldsymbol{X}_{t_0-d \times q+1}, \cdots, \boldsymbol{X}_{t_0-q+p}\right) \circ $ | (8) |
![]() |
图 3 时间序列图 Fig. 3 Time sequence diagram |
其中:t0是预测点对应的编号;o为一小时中的数据点个数;q为一天中的数据点个数(q=24×o)。
2.1.3 数据归一化为消除数据间的量纲影响,在模型训练前对数据进行归一化处理。本文采用反正切函数归一化,归一化后的数据区间为[0, 1]。
$ x^*=\frac{a \tan (x) \times 2}{\mathsf{π}}, $ | (9) |
式中:x为待归一化的数据;x*为归一化后的数据。
2.2 时空特征提取在时间序列中,路网中的信息一直在动态变化,所以在不同的时间点,路网的各个节点的关注权重也不同,可能会逐渐丢失节点信息。因此使用注意力机制从不同时间点的路网信息中自适应地衡量各个节点的重要程度,用分配概率方法取代原来的随机分配,通过结合多种结构有效挖掘数据间的内在规律,增强节点的关键信息。节点注意力单元的计算为
$ \boldsymbol{e}_t=\operatorname{ReLU}\left(\sum\limits_{i=1}^N \boldsymbol{W} \boldsymbol{o}_{t, i}^{\prime}\right), $ | (10) |
$ \boldsymbol{\alpha}_t=\operatorname{softmax}\left(\tanh \left(\boldsymbol{o}_t^{\prime} \boldsymbol{W}_o+\boldsymbol{W}_e \boldsymbol{e}_t+\boldsymbol{b}_s\right) \boldsymbol{U}_s+\boldsymbol{b}_u\right), $ | (11) |
$ \boldsymbol{o}_t=\boldsymbol{o}_t^{\prime}+\boldsymbol{\alpha}_t \odot \boldsymbol{o}_t^{\prime}, $ | (12) |
式中:o′ t, i表示t时刻路网上第i个节点的隐含状态;e t表示t时刻所有节点的信息聚合;W,W o,W e,U s,b s,b u为可训练的参数;α t为所有节点的注意力分数。
通过使用注意力机制将时刻所有节点信息进行汇总,再通过全连接层,从而得到各个节点相对于全部节点的注意力权重,增强了关键节点的信息,更好提取门架数据中的时间特征。
对于门架数据的空间特征提取,采用AGCN实现。首先为每个样本构建和学习独特的残差拉普拉斯矩阵,将学得的残差图拉普拉斯算子添加到初始图中;然后学习共享的最优距离度量参数,图的拓扑结构随着网络的训练而更新;最后通过全连接层,提取门架数据的空间特征。
2.3 特征融合输出特征融合是指将不同来源或不同层次的特征信息合并在一起,以提高模型的表达能力和预测精度。
本文采用矩阵融合和注意力融合方式获得融合后的特征数据。矩阵融合是将不同来源或不同层次的特征向量通过矩阵乘法进行融合,融合方法如式(13)所示。注意力融合是根据注意力权重对不同来源或不同层次的特征进行加权融合。综合利用矩阵融合和注意力融合方法可以获得更充分融合的交通网络特征数据。
$ \hat{\boldsymbol{Y}}=\boldsymbol{W}_c \odot \hat{\boldsymbol{Y}}_c+\boldsymbol{W}_d \odot \hat{\boldsymbol{Y}}_d+\boldsymbol{W}_G \odot \hat{\boldsymbol{Y}}_G, $ | (13) |
式中:⊙为Hadamard乘积;W c,Wd,W G分别为近邻周期、日周期和拓扑结构分支的权重参数;权向量 W中的值在训练前随机初始化,并随着反向传播过程更新。
3 实验部分 3.1 实验设置本文所用数据源于河南省高速公路门架数据,门架数据时间为2023年3月6日—12日,数据规模约5.2亿条,门架数据结构如表 1所示,门架分布情况如图 4所示。
![]() |
表 1 门架数据表 Tab. 1 Gantry traffic data sheet |
![]() |
图 4 门架数据分布图 Fig. 4 Gantry data distribution map |
观察分布图可得,从整体来看门架数据分布广泛且较为均匀,从局部来看道路交叉节点门架较为密集,有利于精准识别车辆去向,减少流量预测误差。
本次实验采用Python3.7编程语言实现,并在Windows 10操作系统下运行。在训练模型的过程中,采用Adam梯度优化算法,学习率为0.001。模型最小预测时长为1 h,最大预测时长为3 h。为对比实验结果,采用平均绝对误差(MAE)、均方根误差(RMSE)作为误差分析指标,即
$ \begin{aligned} M A E & =\frac{1}{n} \sum\limits_{i=1}^n\left|\hat{y}_i-y_i\right|, \\ R M S E & =\sqrt{\frac{1}{n} \sum\limits_1^n\left|\hat{y}_i-y_i\right|^2}, \end{aligned} $ |
式中:yi表示第i个门架数据样本的实际货车流量;
本次实验采用LSTM、时空神经网络(STNN)两种模型作为对比模型。
1) LSTM:适合处理和预测时间序列中间隔和延迟非常长的重要事件,用来解决一般的循环神经网络(RNN)存在的长期依赖问题。
2) STNN[15]:主要通过一个隐藏动态组件,使用观测数据进行预测,学习整个序列的从属关系。相比RNN,STNN观测序列的动态行为完全由隐状态决定,没有受到任何外部输入的影响,从而提高交通预测的准确性。
3.2 数据分析首先对门架数据进行分析,通过代码统计每个门架一周内通过的货车流量,并绘制出热力图,热力图颜色的深浅表示该门架货车的流量大小,部分门架货车流量热力图如图 5所示。
![]() |
图 5 门架货车流量热力图 Fig. 5 Thermal diagram of gantry traffic flow |
观察热力图可以发现,门架通行流量分布呈点状集中,在图 5中所示区域通行流量由西北到东南递增,并存在三个流量集中区域,流量分布呈现出较强的空间相关性。
3.3 实验结果为了测试ASTResLSTM模型的效果,本文采用不同的时间尺度进行预测,包括1 h、2 h和3 h。通过在这些不同的时间间隔上进行预测,验证模型在不同尺度下的性能表现,预测结果使用MAE和RMSE与LSTM、STNN模型进行对比。对比实验结果如表 2所示。
![]() |
表 2 对比实验结果 Tab. 2 Comparison experimental results |
观察表 2可知,当预测时长为1 h时,ASTResLSTM的MAE较LSTM下降了36.99%,较STNN下降了15.32%。可以发现,LSTM能够有效学习时间维度的趋势规律,却无法提取空间维度的趋势。相比LSTM,STNN观测序列的动态行为完全由隐状态决定,没有受到任何外部输入的影响,从而提高交通预测的准确性。相比之下,ASTResLSTM不仅采用时间和空间两个维度学习特征后融合的方式,还采用自适应图卷积来提高泛化能力。因此,随着预测时长的增加,三种模型的误差均呈上升趋势,而ASTResLSTM模型在各个预测时长和评价指标上预测结果均优于其他模型,误差结果对比见6。
![]() |
图 6 预测误差对比图 Fig. 6 Comparison chart of prediction error |
从图 6中可知,随着预测时间增长,ASTResLSTM相较于LSTM和STNN模型误差增长幅度更小。实验结果表明,所提出的模型在短时高速公路货车流量预测任务上的准确度得到了稳定的提升。
为进一步展示ASTResLSTM模型的预测结果,对STNN以及ASTResLSTM模型进行了三步预测,并通过可视化方式呈现预测结果。选择其中一个门架的节点进行货车流量短时预测分析,图 7表示模型在1 h、2 h和3 h三个时间尺度下的预测图像。可以明显看出,ASTResLSTM模型由于使用了自适应图卷积,可以同时捕捉多个节点之间的关系,对于这种具有空间依赖性的客流数据更为适用,流量预测结果比较准确,拟合效果较好,明显优于STNN模型预测结果。
![]() |
图 7 预测结果图 Fig. 7 Graph of prediction result |
本文基于真实门架数据信息,提出了一种结合ResNet、AGCN和Attention-LSTM的货车流量短时预测模型,通过与LSTM、STNN等基线模型作对比,发现ASTResLSTM模型预测的准确率更高。
由于本文中的AGCN模型引入了节点自适应参数学习模块和数据自适应图生成模块,因此我们的模型避免了权重参数过大无法优化和过拟合的问题,并且具有较强的泛化能力。
除本文考虑的因素外,还有交通事故、货运需求、快递中转站地理分布等因素与货车流量相关,后续工作中将对高速公路货车流量预测问题进行更全面的考虑,进一步提升模型性能。
[1] |
国家统计局. 国家数据货运量[ EB/OL]. (2022-02-23)[2023-11-13]. https://data.stats.gov.cn/easyquery.htm?cn=C01. National Bureau of Statistics. National data freight volume[EB/OL]. (2022-02-23)[2023-11-13]. https://data.stats.gov.cn/easyquery.htm?cn=C01. ( ![]() |
[2] |
AHMED M S, COOK A R. Analysis of freeway traffic time-series data by using box-jenkins techniques[M]. Washington: Transportation Research Board, 1979.
( ![]() |
[3] |
杨高飞, 徐睿, 秦鸣, 等. 基于ARMA和卡尔曼滤波的短时交通预测[J]. 郑州大学学报(工学版), 2017, 38(2): 36-40. YANG G F, XU R, QIN M, et al. Short-term traffic volume forecasting based on ARMA and Kalman filter[J]. Journal of Zhengzhou university (engineering science), 2017, 38(2): 36-40. ( ![]() |
[4] |
ZHANG L, LIU Q C, YANG W C, et al. An improved K-nearest neighbor model for short-term traffic flow prediction[J]. Procedia-social and behavioral sciences, 2013, 96: 653-662. ( ![]() |
[5] |
XIE Y C, ZHAO K G, SUN Y, et al. Gaussian processes for short-term traffic volume forecasting[J]. Transportation research record, 2010(2165): 69-78. ( ![]() |
[6] |
陈萱, 康杰, 张文轩, 等. 基于TVF-EMD和ARIMA模型的短时交通量预测研究[J]. 交通技术, 2023, 12(3): 188. CHEN X, KANG J, ZHANG W X, et al. Research on short-term traffic flow forecasting based on TVF-EMD and ARIMA model[J]. Open journal of transportation technologies, 2023, 12(3): 188. ( ![]() |
[7] |
MA C X, DAI G W, ZHOU J B. Short-term traffic flow prediction for urban road sections based on time series analysis and LSTM_BILSTM method[J]. IEEE transactions on intelligent transportation systems, 2022, 23(6): 5615-5624. ( ![]() |
[8] |
SHU W N, CAI K, XIONG N N. A short-term traffic flow prediction model based on an improved gate recurrent unit neural network[J]. IEEE transactions on intelligent transportation systems, 2022, 23(9): 16654-16665. ( ![]() |
[9] |
叶景, 李丽娟, 唐臻旭. 基于CNN-XGBoost的短时交通流预测[J]. 计算机工程与设计, 2020, 41(4): 1080-1086. YE J, LI L J, TANG Z X. Short-term traffic flow forecasting based on CNN-XGBoost[J]. Computer engineering and design, 2020, 41(4): 1080-1086. ( ![]() |
[10] |
ZHENG H F, LIN F, FENG X X, et al. A hybrid deep learning model with attention-based Conv-LSTM networks for short-term traffic flow prediction[J]. IEEE transactions on intelligent transportation systems, 2021, 22(11): 6910-6920. ( ![]() |
[11] |
GUO S N, LIN Y F, FENG N, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 922-929.
( ![]() |
[12] |
HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[C]//European Conference of Computer Vision. Cham: Springer International Publishing, 2016: 630-645.
( ![]() |
[13] |
BAI L, YAO L N, LI C, et al. Adaptive graph convolutional recurrent network for traffic forecasting[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems. New York: ACM Press, 2020: 17804-17815.
( ![]() |
[14] |
WU Y K, TAN H C, QIN L Q, et al. A hybrid deep learning based traffic flow prediction method and its understanding[J]. Transportation research part C: emerging technologies, 2018, 90: 166-180. ( ![]() |
[15] |
ZIAT A, DELASALLES E, DENOYER L, et al. Spatio-temporal neural networks for space-time series forecasting and relations discovery[C]//IEEE International Conference on Data Mining. Piscataway: IEEE press, 2017: 705-714.
( ![]() |