基于多信息注意力对抗图卷积的公交车客流预测

引用本文

颜建强, 赵仁琪, 高原, 等. 基于多信息注意力对抗图卷积的公交车客流预测[J]. 郑州大学学报(理学版), 2026, 58(2): 17-24.

YAN Jianqiang, ZHAO Renqi, GAO Yuan, et al. Bus Passenger Flow Prediction Based on Multiple Information Attention and Adversarial Graph Convolution[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(2): 17-24.

作者简介

颜建强(1980—)，男，正高级工程师，主要从事人工智能和智能信息处理研究，E-mail: yanjq@nwu.edu.cn

文章历史

收稿日期：2024-07-04

Contents Abstract Full text Figures/Tables PDF

基于多信息注意力对抗图卷积的公交车客流预测

颜建强¹, 赵仁琪¹, 高原², 曲博婷²

1. 西北大学信息科学与技术学院陕西西安 710127;
2. 西北大学经济与管理学院陕西西安 710127

收稿日期：2024-07-04

作者简介：颜建强(1980—)，男，正高级工程师，主要从事人工智能和智能信息处理研究，E-mail: yanjq@nwu.edu.cn.

摘要：针对公交车客流预测中时空依赖关系难以有效利用的问题，提出一种基于多信息注意力机制的动态自适应对抗图卷积网络客流预测模型。首先，利用时间特征编码器捕获不同时段客流之间的相似性，引入公交车站点的兴趣点(point of interest，POI)信息以辅助模型捕捉更多的节点特征。其次，采用动态建模时空依赖关系的方法完成对非欧几里得关系的建模，利用SimAM注意力模块捕获不同站点客流数据之间的整体差异性。在真实公交车客流数据集上的实验结果表明，相比最优基线模型，所提模型在预测未来12个时间步时的平均MAE和RMSE分别降低了0.34和0.33，展现了其在公交车客流预测中的有效性和优越性。

关键词：智能公交客流预测图卷积网络注意力机制时空依赖

Bus Passenger Flow Prediction Based on Multiple Information Attention and Adversarial Graph Convolution

YAN Jianqiang¹, ZHAO Renqi¹, GAO Yuan², QU Boting²

1. School of Information Science and Technology, Northwest University, Xi′an 710127, China;
2. School of Economics and Management, Northwest University, Xi′an 710127, China

Abstract: Aiming at the difficulty of utilizing spatiotemporal dependence relationship in bus passenger flow prediction effectively, a prediction model of passenger flow based on multiple information attention and dynamic adaptive adversarial graph convolutional network was proposed. Firstly, the time feature encoder was used to capture the similarity between passenger flows at different time periods, and point of interest (POI) information of bus stations was incorporated to enhance node feature extraction. Secondly, the dynamic modeling of spatiotemporal dependence was adopted to complete the modeling of non-Euclidean relationships, and the SimAM attention module was utilized to capture the overall differences in passenger flow data at different stations. The experimental results on real bus passenger flow data showed that compared with the best baseline model, the proposed model reduced the average MAE and RMSE of the next 12 time steps by 0.34 and 0.33, respectively, demonstrating its effectiveness and superiority in predicting bus passenger flow.

Key words: intelligent public transportation passenger flow prediction graph convolution network attention mechanism spatiotemporal dependence

0 引言

公交车客流预测在城市交通规划和管理中起着至关重要的作用。随着城市化进程的加速和公共交通系统的发展，如何准确、高效地预测公交车客流成为当前交通领域亟待解决的问题之一。公交车客流预测任务大多使用时空图神经网络架构，该架构融合了空间学习模块和时间学习模块，以捕获不同节点之间的复杂时空依赖关系。然而，一些影响公交车客流的外部因素以及其本身潜在的依赖关系在预测未来客流时也是至关重要的^[1]。通过对车站和不同时间段的客流序列皮尔逊相关系数的分析，发现它们之间存在着很大的拓扑相关性。同时，通过对公交车站每天的客流分布情况进行分析，发现不同车站的客流量存在较大差异。结合这些信息，客流预测仍面临着以下挑战：如何将不同车站之间的客流相似性，以及不同时间段客流的内在相似性特征有效地应用到模型中；在预测多个车站的客流时，如何捕获不同车站客流量的差异性，并挖掘其内在的模式。

为了更有效地整合现实世界中与客流预测相关的模式与外部信息，Jiang等^[2]引入了动态自适应对抗图卷积网络(dynamic adaptive and adversarial graph convolutional network, DAAGCN)模型。该模型结合了图卷积网络(graph convolution network, GCN)与生成对抗网络(generative adversarial network, GAN)，通过动态自适应图生成来捕获交通系统中的动态时空依赖性。此外，DAAGCN模型采用对抗性训练的图卷积循环神经网络来建模复杂的时间相关性。与其他流量预测方法相比，DAAGCN模型在多个流量预测数据集上表现出更好的鲁棒性和多功能性^[3]。

为了充分利用外部信息以及公交车客流的时间相关性和空间差异性，本文在DAAGCN模型的基础上进行了改进，提出了一种基于多信息注意力机制的动态自适应对抗图卷积网络(multiple information attention based dynamic adaptive and adversarial graph convolutional network，MIADAAGCN)客流预测模型。该模型引入了一个客流时间分类器来学习不同时段客流之间的时间相关性，在客流预测中添加公交车站点的兴趣点(point of interest，POI)信息，辅助模型捕捉到更多的节点信息，并利用SimAM注意力模块^[4]捕获不同站点客流数据之间的空间差异性。在真实公交车客流数据集上的实验结果表明，所提模型能够有效提升公交车站点客流预测的准确性。

1 相关工作

研究人员提出了许多方法来解决公交车客流预测问题，包括时间序列分析方法、机器学习和深度学习技术等。时间序列分析方法如ARIMA模型^[5]、指数平滑方法^[6]和回归分析^[7]等，通常利用历史客流数据建立数学模型来预测客流量。但这些方法忽略了城市交通网络的复杂性和时空相关性，导致预测精度有限。随着机器学习和深度学习技术的发展，支持向量回归^[8]等机器学习方法逐渐应用于客流预测中。而深度学习技术特别是循环神经网络^[9]和门控循环神经网络^[10]，能够有效捕捉时空特征，在客流预测中也取得了一定的成果。

近年来，图神经网络作为一种新兴的技术也被应用于客流预测中。通过建模城市交通网络的拓扑结构和节点关系，图神经网络能够更好地捕捉城市交通网络的时空相关性，提高客流预测的准确性和可靠性^[11]。Yu等^[12]提出了时空图卷积网络，由多个“三明治”结构的时空卷积块组成，以利用交通数据中的空间和时间依赖性。Guo等^[13]提出了基于注意力的时空图卷积网络，引入了交通流的最近周期、每日周期和每周周期依赖性，并在三个组件中使用注意力机制和时空卷积来捕获流量数据中的动态相关性。Li等^[14]提出了一种交互图网络来进行车站级别的客流预测，构建了连通性、相似性和时间相关性三种站间交互图来对这些站间交互关系进行建模，捕获车站之间的非欧几里得关系。田钊等^[15]将空气质量等天气因素的影响考虑在内，并利用长短期记忆网络从中提取特征，结合注意力机制、图卷积网络与卷积神经网络对地铁乘客流量进行预测，取得了较高的准确度。Liu等^[16]提出了一个时空自动编码器，旨在从交通流数据中学习内在模式，通过将当前隐藏状态投影到未来隐藏状态，然后使用经过训练的自动编码器重建未来流量来进行预测，有效地整合了交通流中固定的空间分布、拓扑相关性和时间周期性等内在模式特征。

然而，上述模型主要关注图邻接矩阵的构建及空间依赖关系的捕获，较少考虑流量数据的潜在依赖关系和外部影响因素。相比之下，流量数据本身的空间和时间依赖关系更易获得且更可靠。因此，有必要进一步挖掘流量数据本身的潜在依赖关系。本文提出的MIADAAGCN客流预测模型针对客流数据的潜在相似性特征和不同车站客流量的差异性，利用基于多信息注意力机制的动态自适应对抗图卷积网络对公交车客流预测进行建模。

2 模型设计

MIADAAGCN客流预测模型由基于多信息的动态自适应图生成(multiple information and dynamic adaptive graph generation，MIDAGG)模块和带有注意力机制的对抗训练图卷积(简称为AAGC-GRU)模块两部分组成。MIDAGG模块用于从数据中自动捕获动态的空间依赖关系，挖掘客流数据的内在模式；AAGC-GRU模块则建模不同站点客流的差异性及时间相关性，并保持预测序列与真实时间序列的全局属性一致。所提模型的整体架构见图 1。

图 1 所提模型的整体架构 Fig. 1 The overall architecture of the proposed model

2.1 问题定义

公交路网结构可看作一个拓扑图$\mathcal{G}=(V, E)$，各公交站点构成图中的节点集合V，E表示站点之间的连接的集合。V的模等于公交站点的数量，即$|V|=N$，站点之间的连接及其强度通过邻接矩阵$\boldsymbol{A} \in \mathbf{R}^{N \times N}$表示。由于本文主要解决给定观测历史时间序列的多步客流预测问题，因此定义这些时间序列为$\boldsymbol{X}^{1: T}=\left\{x^{1}, x^{2}, \cdots, x^{s}, \cdots, x^{s}\right\} \in \mathbf{R}^{s \times N \times C}$，其中$x^{s} \in \mathbf{R}^{N \times C}$表示N个节点在时间步s的C个特征维度的观测值。

公交车客流预测问题可以定义为：给定一个图$\mathcal{G}$，从过去S个时间步的历史公交车客流数据中学习一个能够预测未来H个时间步的公交车客流的函数f，映射关系可表示为

$ \begin{equation*} \left[\boldsymbol{X}^{T-S: T}, \mathcal{G}\right] \xrightarrow{f} \boldsymbol{X}^{T+1: T+H}, \end{equation*} $

(1)

其中：$\boldsymbol{X}^{T-S: T} \in \mathbf{R}^{N \times S} ; \boldsymbol{X}^{T+1: T+H} \in \mathbf{R}^{N \times H}$。

2.2 基于多信息的动态自适应图生成(MIDAGG)模块 2.2.1 客流时间特征编码器

将时间段信息纳入公交车客流预测模型，利用神经网络构建一个公交车客流分类器，其结构见图 2。该分类器将公交车客流数据按照运营时间段进行分类，一天被划分为8个2 h的运营时间段。

图 2 客流分类器结构 Fig. 2 The structure of the passenger flow classifier

分类模型由多个全连接层和ReLU激活函数构成，输出层采用Softmax函数。训练模型后，删除最后几层得到每个时间段的客流时间特征编码器(passenger flow classify encoder，PFCEncoder)，并将其作为时间信息嵌入公交车客流预测模型中，

$\begin{equation*} \boldsymbol{X}^{T-S: T}=F C\left(P F C E n \operatorname{coder}\left(\boldsymbol{X}^{T-S: T}\right)\right) 。\end{equation*} $

(2)

在基于图卷积的流量预测模型中，应用MIDAGG模块自动地捕获不同节点之间的动态空间依赖关系，即邻接矩阵$\boldsymbol{A}$。使用内积来表示不同特征之间信息的交互，第i个和第j个节点之间的动态空间依赖关系表示为

$ \begin{align*} & \boldsymbol{A}_{i j}=\boldsymbol{E}_{\text {node }}^{i} \cdot \boldsymbol{E}_{\text {node }}^{j}+\boldsymbol{E}_{\text {node }}^{i} \cdot \boldsymbol{E}_{\text {time }}^{t}+ \\ & \boldsymbol{E}_{\text {node }}^{j} \cdot \boldsymbol{E}_{\text {time }}^{t}+\boldsymbol{E}_{\text {time }}^{t} \cdot \boldsymbol{E}_{\text {time }}^{t}, \end{align*} $

(3)

其中：$\boldsymbol{E}_{\text {node }}^{i} \cdot \boldsymbol{E}_{\text {node }}^{j} 、\boldsymbol{E}_{\text {time }}^{t} \cdot \boldsymbol{E}_{\text {time }}^{t}$表示同源信息项之间的交互；$\boldsymbol{E}_{\text {node }}^{i} \cdot \boldsymbol{E}_{\text {time }}^{t} 、\boldsymbol{E}_{\text {node }}^{j} \cdot \boldsymbol{E}_{\text {time }}^{t}$表示异源信息项之间的交互；$\boldsymbol{E}_{\text {node }}^{i}$和$\boldsymbol{E}_{\text {time }}^{t}$分别为第i个节点嵌入和时间步t的时变嵌入。

具体来说，利用MIDAGG模块随机初始化一个可学习的节点嵌入$\boldsymbol{E}_{\text {node }} \in \mathbf{R}^{N \times d}$，一个可学习的时变嵌人$\boldsymbol{E}_{\mathrm{time}} \in \mathbf{R}^{N \times d}$。其中：$\boldsymbol{E}_{\text {node }}$的每一行表示每个节点的嵌入；$\boldsymbol{E}_{\text {time }}$的每一行表示每个时间步的嵌入；d为时变嵌入的隐藏维数。

2.2.2 外部特征融合

公交车客流与站点的位置密切相关，因此公交车站点的POI信息对于公交车客流预测的准确性具有较大影响。在分析公交车客流数据的时间和空间特征时，有必要结合这些外部影响因素，以便更准确地预测客流量。

通过百度地图接口获取了公交车站点在半径1 km内的POI信息，并按一级行业分为18个类别，计算各个类别的POI数量与站点客流量的相关性，结果如图 3所示，其中购物类别对应的Spearman相关系数为0。

图 3 POI数量与站点客流量的相关性 Fig. 3 The correlation between the number of POIs and passenger flow at stations

本文筛选了Spearman相关系数大于0.15的教育培训、医疗、旅游景点、酒店、生活服务、休闲娱乐、文化传媒、政府机构、房地产、金融、运动健身、丽人共计12个类别的POI信息，将其表示为向量$\boldsymbol{O}_{t} \in \mathbf{R}^{N \times \mathcal{Q}}$，其中$\mathcal{Q}=12$。对其进行标准归一化操作后，作为网络节点特征的辅助信息。

为了加强模型对节点特征的提取能力，使用一个级联操作将POI信息加入模型中，并使用一个全连接层对其进行处理，

$ \begin{equation*} \boldsymbol{E}_{\text {node }}=F C\left({Concat}\left(\boldsymbol{E}_{\text {node }}, \boldsymbol{O}_{t}\right)\right) \text { 。} \end{equation*} $

(4)

2.2.3 图卷积操作

采用节点自适应参数学习模块增强的GCN^[17]，使用一阶切比雪夫多项式展开来近似具有节点感知参数的图卷积运算，MIDAGG模块可表示为

$ \begin{equation*} \boldsymbol{Z}=\left(\boldsymbol{I}_{N}+\operatorname{Softmax}(\boldsymbol{A})\right) \boldsymbol{X} \boldsymbol{E}_{\text {node }} \boldsymbol{W}+\boldsymbol{E}_{\text {node }} \boldsymbol{b}, \end{equation*} $

(5)

其中：$\boldsymbol{W} \in \mathbf{R}^{d \times C} ; \boldsymbol{b} \in \mathbf{R}^{d}$。利用Softmax函数对自适应矩阵$\boldsymbol{A}$进行归一化，在训练过程中更新$\boldsymbol{E}_{\text {node }}$和$\boldsymbol{E}_{\text {time }}$，以学习每个时间步不同节点之间的动态时空依赖关系。

2.3 带有注意力机制的对抗训练图卷积(AAGC-GRU)模块 2.3.1 基于能量函数的注意力机制模块SimAM

为了不引入额外的参数，同时能够在预测中获取模型对不同节点的关注度，采用无参数注意力模块SimAM^[4]来计算注意力图。SimAM注意力机制使用神经科学中的能量函数为不同的空间位置分配权重，能量函数将特征图的每个节点视为一个神经元，神经元的最小能量可表示为

$ \begin{equation*} e_{t}^{*}=\frac{4\left(\sigma^{2}+\lambda^{*}\right)}{(w-\mu)^{2}+2 \sigma^{2}+2 \lambda^{*}}, \end{equation*} $

(6)

其中：$\mu=\frac{1}{M} \sum\limits_{i=1}^{M} w_{i}$和$\sigma^{2}=\frac{1}{M} \sum\limits_{i=1}^{M}\left(w_{i}-\mu\right)^{2}$分别是通道中除目标神经元w外的所有神经元的平均值和方差，i是空间维度上的索引，w_i是同一通道中的其他神经元，M是通道中神经元的数量；λ ^*是超参数，将其设置为0.000 1。空间抑制神经元与其他神经元较低的相似性与较高的线性可分离性导致w和μ存在显著偏差，从而导致较低的e_t^*。式(6)表明，能量e_t^*越低，神经元w与周围神经元的区别越明显。因此，每个神经元的权重可根据e_w^*计算出来。SimAM注意力机制的优化阶段通过缩放算子得到，即

$ \begin{equation*} \tilde{\boldsymbol{F}}=\operatorname{Sigmoid}\left(\frac{1}{\boldsymbol{E}^{*}}\right) \cdot \boldsymbol{F}, \end{equation*} $

(7)

其中：$\boldsymbol{F}$和$\tilde{\boldsymbol{F}}$分别是输入特征图和输出特征图。$\boldsymbol{E}^{*}$表示将所有e_t^*在空间和通道维度上进行汇总，各个神经元的重要性$\frac{1}{e_{t}^{*}}$组成$\frac{1}{E^{*}}$，通过Sigmoid激活函数得到每个神经元的置信度。该模块基于神经科学理论，通过优化能量函数评估神经元的重要性，并且不需要额外的参数设置。

将MIDAGG模块替换门控循环单元(gated recurrent unit, GRU)中的全连接层，并堆叠多个GRU层，然后通过线性变换多层感知机(multilayer perceptron，MLP)网络投影GRU的输出，从而实现序列到序列的多步流量预测，形式上可表示为

$ \boldsymbol{z}^{(t)}=\operatorname{Sigmoid}\left(G\left(\left[\boldsymbol{X}^{(t)}, \boldsymbol{h}^{(t-1)}\right] ; \Theta_{z}\right)\right), $

(8)

$ \boldsymbol{r}^{(t)}=\operatorname{Sigmoid}\left(G\left(\left[\boldsymbol{X}^{(t)}, \boldsymbol{h}^{(t-1)}\right] ; \Theta_{r}\right)\right), $

(9)

$\boldsymbol{c}^{t}=\tanh \left(G\left(\left[\boldsymbol{X}^{(t)}, \boldsymbol{r}^{(t)} \odot \boldsymbol{h}^{(t-1)}\right] ; \Theta_{c}\right)\right), $

(10)

$ \boldsymbol{h}^{(t)}=\boldsymbol{z}^{(t)} \odot \boldsymbol{h}^{(t-1)}+\left(1-\boldsymbol{z}^{(t)}\right) \odot \boldsymbol{c}^{t}, $

(11)

$\hat{\boldsymbol{X}}^{T+1: T+H}=\operatorname{SimAM}\left(\boldsymbol{h}^{(T)} \boldsymbol{W}+\boldsymbol{b}\right), $ $$

(12)

其中：$\boldsymbol{X}^{(t)}$和$\boldsymbol{h}^{(t)}$分别表示时间步$t$的输入和输出；$\boldsymbol{z}^{(t)}$和$\boldsymbol{r}^{(t)}$分别表示时间步t的重置门和更新门；G代表具有可学习参数$\Theta_{z} 、\Theta_{r}$和$\Theta_{c}$的MIDAGG模块。

2.3.2 损失函数

使用对抗性训练来确保预测的H个时间步序列在序列和图级别上具有与真实数据相同的全局属性，将MIDAGG与AAGC-GRU结合作为生成器，并引入两个判别器与序列级别(D_s)和图级别(D_g)上的真实值对齐，判别器由三个全连接的线性层和LeakReLU函数组成。

判别器的损失函数表示为

$ L_{D_{s}}=-E_{x_{r}^{1} \sim P}\left[\log \left(D_{s}\left(\boldsymbol{x}_{r}^{s}\right)\right)\right]- \\ E_{x_{f}^{1} \sim Q}\left[\log \left(1-D_{s}\left(\boldsymbol{x}_{f}^{s}\right)\right)\right], $

(13)

$ L_{D_{g}}=-E_{x_{r}^{2} \sim P}\left[\log \left(D_{g}\left(\boldsymbol{x}_{r}^{g}\right)\right)\right]- \\ E_{x_{f}^{2} \sim Q}\left[\log \left(1-D_{g}\left(\boldsymbol{x}_{f}^{g}\right)\right)\right] 。$

(14)

生成器的损失函数表示为

$ \begin{align*} & L_{G}=\lambda_{1}\left(-E_{x_{r}^{1} \sim P}\left[\log \left(1-D_{s}\left(\boldsymbol{x}_{r}^{s}\right)\right)\right]-\right. \\ & \left.E_{x_{f}^{1} \sim Q}\left[\log \left(1-D_{s}\left(\boldsymbol{x}_{f}^{s}\right)\right)\right]\right)+ \\ & \lambda_{2}\left(-E_{x_{r}^{2} \sim P}\left[\log \left(1-D_{g}\left(\boldsymbol{x}_{r}^{g}\right)\right)\right]-\right. \\ & \left.E_{x_{f}^{2} \sim Q}\left[\log \left(1-D_{g}\left(\boldsymbol{x}_{f}^{g}\right)\right)\right]\right), \end{align*} $

(15)

其中：λ₁和λ₂分别为L_{D_s}和L_{D_g}的权重。

序列级别和图级别的真实值和预测值通过如下式子构建：

$ \begin{gather*} \boldsymbol{x}_{r}^{s}=\left[\boldsymbol{X}^{T-S: T}, \boldsymbol{X}^{T+1: T+H}\right], \\ \boldsymbol{x}_{f}^{s}=\left[\boldsymbol{X}^{T-S: T}, \hat{\boldsymbol{X}}^{T+1: T+H}\right], \end{gather*} $

(16)

$ \begin{gather*} \boldsymbol{x}_{r}^{g}=\operatorname{Softmax}\left(\left(\boldsymbol{X}^{T+1: T+H}\right)^{\mathrm{T}} \boldsymbol{X}^{T+1: T+H}\right), \\ \boldsymbol{x}_{f}^{g}=\operatorname{Softmax}\left(\left(\hat{\boldsymbol{X}}^{T+1: T+H}\right)^{\mathrm{T}} \hat{\boldsymbol{X}}^{T+1: T+H}\right), \end{gather*} $

(17)

其中：$\boldsymbol{x}_{r}^{s}$和$\boldsymbol{x}_{r}^{g}$分别表示从分布P中采样的序列级别和图级别的真实值；$\boldsymbol{x}_{f}^{s}$和$\boldsymbol{x}_{f}^{g}$分别表示从分布Q中采样的序列级别和图级别的预测值。

总体损失利用L1损失作为训练目标，并与生成器的对抗训练损失联合优化以进行多步预测，总体损失可以表示为

$ \begin{equation*} L=L_{p}(\Theta)+L_{G}, L_{p}(\Theta)=\sum\limits_{t=T+1}^{T+H}\left|\boldsymbol{X}^{t}-\hat{\boldsymbol{X}}^{t}\right|, \end{equation*} $

(18)

其中：$\boldsymbol{X}^{t}$和$\hat{\boldsymbol{X}}^{t}$分别表示时间步t时所有节点的真实值和预测结果；Θ是生成器中的所有可学习参数。整体训练算法如算法1所示。

算法1 MIADAAGCN模型训练算法

输入：训练数据X ，训练次数Epoch，学习率η，训练好的客流时间编码器模型PFCEncoder。

输出：生成器参数Θ。

1) 初始化生成器参数Θ和两个判别器参数θ₁和θ₂；

2) For e=1 to Epoch do：

3) 从训练数据 X 中随机采样$\left[\boldsymbol{X}^{T-S: T}\right.$，$\left.\boldsymbol{X}^{T+1: T+H}\right] ;$

4) 利用客流时间编码器模型PFCEncoder获取客流的时段信息；

5）融合节点POI信息$\boldsymbol{O}_{t}$，通过式（3）生成具有节点嵌入$\boldsymbol{E}_{\text {node }}$和时变嵌入$\boldsymbol{E}_{\text {time }}$的动态自适应图；

6）使用MIDAGG模块通过式（5）捕获所有节点之间的动态空间依赖关系；

7）使用SimAM注意力模块获取不同站点的重要性特征图；

8）捕获时间相关性，并使用AAGC－GRU模块根据式（11）、（12）生成多步预测$\hat{\boldsymbol{X}}^{T+1: T+H}$；

9）通过式（16）、（17）从序列级别（$\boldsymbol{x}_{r}^{s}$和$\boldsymbol{x}_{f}^{s}$）和图级别（$\boldsymbol{x}_{r}^{g}$和$\boldsymbol{x}_{f}^{g}$）构建真实时间序列和预测时间序列；

10）通过式（13）、（14）计算两个判别器损失$L_{D_{s}}$和$L_{D_{g}}$，通过式（15）计算生成器损失$L_{G}$，通过式（18）计算总训练损失$L$；

11）通过最小化损失$L$来更新生成器参数$: \Theta \leftarrow \Theta-\eta \frac{\partial L}{\partial \Theta}$；

12）通过最小化损失$L_{D_{s}}$和$L_{D_{g}}$来更新两个判别器参数：

$ \theta_{1} \leftarrow \theta_{1}-\eta \frac{\partial L_{D_{s}}}{\partial \theta_{1}}, \theta_{2} \leftarrow \theta_{2}-\eta \frac{\partial L_{D_{g}}}{\partial \theta_{2}} ; $

13）End

14）返回生成器参数$\Theta$。

3 实验验证 3.1 数据集

使用西安市2023年3月3日至9日的公交车刷卡数据测试模型性能，数据集包含约1 392万条刷卡记录。选取220个公交站点作为实验目标，涉及约290条线路，车站位置分布覆盖西安市主城区。根据各公交路线的正常运营时间，排除6:00之前和22:00之后的数据，并以10 min为间隔统计不同时段各公交车站的乘车人数，最终得到157 080条记录。

3.2 评价指标

为了测试所提模型的性能，评价指标采用平均绝对误差(MAE)和均方根误差(RMSE)，其计算公式为

$ \begin{align*} M A E =\frac{1}{n} \sum\limits_{i=1}^{n}\left|\hat{X}^{i}-X^{i}\right| \end{align*} $

(19)

$ \begin{align*} R M S E =\sqrt{\frac{1}{n} \sum\limits_{i=1}^{n}\left(\hat{X}^{i}-X^{i}\right)^{2}} \end{align*} $

(20)

其中：$\hat{X}^{i}$和$X^{i}$分别为预测值和观测值。

3.3 实验设置

将数据集按6∶2∶2的比例划分为训练集、验证集和测试集，使用历史12个时间步的数据预测未来12个时间步(未来2 h)的数据(H=12)。使用PyTorch构建网络模型，训练次数为200，batchsize为64，λ₁=0.01，λ₂=1，学习率为0.005。

3.4 实验分析

选取的7种基线模型如下。

1) AGCRN^[17]：自适应图卷积循环网络，其通过设计两种基于参数分解的自适应模块，并利用两种模块和循环网络自动捕获流量序列中的细粒度空间和时间相关性。

2) ASTGCN^[13]：基于时空注意力机制的图卷积网络模型，其利用时空注意力模块聚焦数据中的重要信息，并结合图卷积和传统卷积模块提取交通数据中的时空特征，提升交通预测的准确性。

3) DAAGCN^[2]：动态自适应对抗图卷积网络，其将图卷积网络与生成对抗网络结合起来进行流量预测。

4) STGNCDE^[18]：采用神经控制微分方程分别处理时间和空间维度的依赖关系，通过神经微分方程恢复因间隔采样而丢失的时间连续性。

5) STSGCN^[19]：采用一种独特的局部时空图来捕获时空异质性，并通过多个图卷积层对同步时空关系进行建模。

6) ST-AE^[16]：时空自动编码器，用于从交通流数据中学习内在模式，并将当前交通流信息编码为低维表示，将当前隐藏状态投影到未来隐藏状态，然后使用经过训练的自动编码器对未来流量序列进行预测。

7) DDGCRN^[20]：用于流量预测的分解动态图卷积循环网络，其将动态图卷积循环网络与基于RNN的模型相结合，根据时变交通信号生成动态图，从而可以提取空间和时间特征。

不同模型在公交车客流预测12个时间步时的平均预测结果对比见表 1。可以看出，MIADAAGCN模型能够有效捕捉公交线路间时空关系，其平均MAE、RMSE相比最优基线模型分别降低了0.34和0.33。

表 1 不同模型的平均预测结果对比 Tab. 1 Comparison of average prediction results of different models

7种基线模型在同等环境下进行对比，输入历史12个时间步的数据，不同模型在12个时间步时的预测结果对比见图 4。可以看出，MIADAAGCN模型整体表现最优，在预测1和2个时间步时，模型精度在RMSE指标上比一些基线模型略差；ST-AE模型整体表现最差，这可能是因为其设计的捕获时空依赖关系的编码器模型不能很好地捕获不同站点客流之间的时空相关性；STGNCDE模型采用非线性微分方程来描述节点特征在时间和空间上的连续动态演化，虽然在预测最近的时间步时表现优越，但在后期预测精度逐渐下降；ASTGCN模型作为一种典型的基于GCN的交通流预测方法，在客流预测上表现较差；AGCRN和DAAGCN模型总体预测精度相似，它们都使用自适应的图学习策略，表明了自适应的图学习策略在客流预测中的有效性；STSGCN模型使用时空图来捕获时空依赖的异质性，相比其他模型表现较好，表明对时空异质性的关注是有必要的；DDGCRN模型虽然也使用动态的图构建方式，但在对客流数据时空相关性的捕捉上明显不足，导致预测结果较差。

图 4 不同模型在12个时间步时的预测结果对比 Fig. 4 Comparison of prediction results of different models across 12 horizons

MIADAAGCN模型和DAAGCN模型在训练过程中损失值对比见图 5。可以看出，在加入SimAM注意力机制和时间编码器以及节点POI信息后，训练损失得到明显的降低，模型收敛速度也有所提升。

图 5 训练过程中损失值对比 Fig. 5 Comparison of loss values during training

3.5 消融实验

为了进一步验证MIADAAGCN模型的有效性，在数据集上进行消融实验，仍然使用过去的12个时间步来预测未来的12个时间步。将删除不同组件的模型命名如下。1) w/o poi information：从模型中删除外部因素，即删除POI信息。2) w/o time classify encoder：从模型中删除客流时间特征编码器。3) w/o SimAM：从模型中删除SimAM注意力机制模块。消融实验结果见图 6。

图 6 消融实验结果 Fig. 6 Results of ablation experiments

从图 6可以看出，POI信息在提高客流预测准确性方面起着关键作用。客流时间特征编码器主要影响未来90 min左右的客流预测，这表明捕捉客流时段相似性对于长期客流的预测至关重要。此外，与DAAGCN模型的对比实验结果也验证了MIADAAGCN模型的有效性。

4 结语

为了提升公交车客流预测的准确性，本文提出了一种基于多信息注意力机制的动态自适应对抗图卷积网络模型，更有效地利用了公交车客流的时间和空间特征。在时间特征提取方面，使用时间特征编码器以增强模型对不同时段客流相似性的捕捉能力；在空间特征提取方面，嵌入节点的POI位置信息，并利用SimAM注意力机制对卷积后的特征图进行加权。实验结果表明，所提模型显著提高了公交车客流预测的精度。然而，公交车客流受到多种因素的影响，未来可进一步分析站点天气信息、节假日等外部因素对公交车客流预测的影响。

参考文献

[1]	TAO S M, ZHANG H Y, YANG F, et al. Multiple information spatial-temporal attention based graph convolution network for traffic prediction[J]. Applied soft computing, 2023, 136: 110052. DOI:10.1016/j.asoc.2023.110052 (0)
[2]	JIANG J Y, WU B P, CHEN L, et al. Dynamic adaptive and adversarial graph convolutional network for traffic forecasting[EB/OL]. (2022-08-05)[2024-03-12]. https://arxiv.org/pdf/2208.03063v1. (0)
[3]	LUO X L, ZHU C J, ZHANG D T, et al. STG4Traffic: a survey and benchmark of spatial-temporal graph neural networks for traffic prediction[EB/OL]. (2023-07-02)[2024-03-12]. https://arxiv.org/pdf/2307.00495. (0)
[4]	YANG L, ZHANG R Y, LI L, et al. SimAM: a simple, parameter-free attention module for convolutional neural networks[C]//Proceedings of the International Conference on Machine Learning. New York: ACM Press, 2021: 11863-11874. (0)
[5]	YANG J, ZHU J W, LIU B, et al. Short-term passenger flow prediction for urban railway transit based on combined model[J]. Journal of transportation systems engineering and information technology, 2019, 19(3): 119-125. (0)
[6]	YANG H F, DILLON T S, CHANG E, et al. Optimized configuration of exponential smoothing and extreme learning machine for traffic flow forecasting[J]. IEEE transactions on industrial informatics, 2019, 15(1): 23-34. DOI:10.1109/TII.2018.2876907 (0)
[7]	LIPPI M, BERTINI M, FRASCONI P. Short-term traffic flow forecasting: an experimental comparison of time-series analysis and supervised learning[J]. IEEE transactions on intelligent transportation systems, 2013, 14(2): 871-882. DOI:10.1109/TITS.2013.2247040 (0)
[8]	LI C, WANG X D, CHENG Z W, et al. Forecasting bus passenger flows by using a clustering-based support vector regression approach[J]. IEEE access, 2020, 8: 19717-19725. DOI:10.1109/ACCESS.2020.2967867 (0)
[9]	VLAHOGIANNI E I, KARLAFTIS M G, GOLIAS J C. Optimized and meta-optimized neural networks for short-term traffic flow prediction: a genetic approach[J]. Transportation research part C: emerging technologies, 2005, 13(3): 211-234. DOI:10.1016/j.trc.2005.04.007 (0)
[10]	ZHANG D, KABUKA M R. Combining weather condition data to predict traffic flow: a GRU-based deep learning approach[J]. IET intelligent transport systems, 2018, 12(7): 578-585. DOI:10.1049/iet-its.2017.0313 (0)
[11]	JIANG W W, LUO J Y, HE M, et al. Graph neural network for traffic forecasting: the research progress[J]. ISPRS international journal of geo-information, 2023, 12(3): 100. DOI:10.3390/ijgi12030100 (0)
[12]	YU B, YIN H T, ZHU Z X. Spatio-temporal graph convolutional networks: a deep learning framework for traffic forecasting[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Piscataway: IEEE Press, 2018: 3634-3640. (0)
[13]	GUO S, LIN Y, FENG N, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 922-929. (0)
[14]	LI P, WANG S, ZHAO H T, et al. IG-net: an interaction graph network model for metro passenger flow forecasting[J]. IEEE transactions on intelligent transportation systems, 2023, 24(4): 4147-4157. DOI:10.1109/TITS.2023.3235805 (0)
[15]	田钊, 程钰婕, 张乾钟, 等. 基于ASTLSTM的地铁乘客流量短时预测[J]. 郑州大学学报(理学版), 2024, 56(5): 55-61. TIAN Z, CHENG Y J, ZHANG Q Z, et al. Short-term forecast of subway passenger flow based on ASTLSTM[J]. Journal of Zhengzhou university (natural science edition), 2024, 56(5): 55-61. DOI:10.13705/j.issn.1671-6841.2023040 (0)
[16]	LIU M Z, ZHU T Y, YE J C, et al. Spatio-temporal AutoEncoder for traffic flow prediction[J]. IEEE transactions on intelligent transportation systems, 2023, 24(5): 5516-5526. DOI:10.1109/TITS.2023.3243913 (0)
[17]	BAI L, YAO L, LI C, et al. Adaptive graph convolutional recurrent network for traffic forecasting[J]. Advances in neural information processing systems, 2020, 33: 17804-17815. (0)
[18]	CHOI J, CHOI H, HWANG J, et al. Graph neural controlled differential equations for traffic forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2022: 6367-6374. (0)
[19]	SONG C, LIN Y F, GUO S N, et al. Spatial-temporal synchronous graph convolutional networks: a new framework for spatial-temporal network data forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 914-921. (0)
[20]	WENG W C, FAN J, WU H F, et al. A decomposition dynamic graph convolutional recurrent network for traffic forecasting[J]. Pattern recognition, 2023, 142: 109670. DOI:10.1016/j.patcog.2023.109670 (0)