文章快速检索  
  高级检索
基于双层K近邻算法航站楼短时客流量预测
邢志伟1,2, 何川1,2, 罗谦2,3, 蒋祥枫2, 刘畅2, 丛婉2     
1. 中国民航大学 电子信息与自动化学院, 天津 300300;
2. 中国民用航空局第二研究所, 成都 610041;
3. 民航成都信息技术有限责任公司, 成都 611430
摘要: 航站楼离港客流量在短时期内呈现准周期性规律变化,易受航班计划、天气等多种因素影响,表现出复杂的非线性特点。为了实现航站楼短时客流量的准确预测,在传统K近邻(KNN)算法基础上增加了航班计划状态模式匹配方法,以航班计划包含的多维属性作为特征选取相似历史运营日作为预测基准向量,建立基于航站楼短时客流量预测的双层K近邻模型。通过实例分析,与ARIMA模型和传统K近邻模型等进行比较,证明双层K近邻模型预测误差更小,精度更高,模型拟合度相对传统K近邻模型提高了8%~10%,为航站楼短时客流量精确预测提供了一种新的解决思路。
关键词: 航站楼客流量     短时预测     模式匹配     预测模型     双层K近邻    
Terminal building short-term passenger flow forecast based on two-tier K-nearest neighbor algorithm
XING Zhiwei1,2, HE Chuan1,2, LUO Qian2,3, JIANG Xiangfeng2, LIU Chang2, CONG Wan2     
1. Electronic Information and Automation Institute, Civil Aviation University of China, Tianjin 300300, China;
2. The Second Research Institute of Civil Aviation Administration of China, Chengdu 610041, China;
3. Civil Aviation Information Technology Co., Ltd., Chengdu 611430, China
Received: 2018-05-07; Accepted: 2018-07-28; Published online: 2018-08-22 20:29
Foundation item: National Natural Science Foundation of China (U1533203); Safety Capacity Constructing Funds Project of CAAC (FDSA0032); Science and Technology Support Program of Sichuan Province (2016GZ0068); Strategic Emerging Product R & D Subsidy Project of Chengdu (2015-CP01-00158-GX)
Corresponding author. LUO Qian, E-mail: luoqian@caacetc.com
Abstract: Outbound passenger flow of terminal building shows the quasi-periodic variation in a short period of time and also shows complex nonlinear characteristics because of many factors such as flight schedule and weather. In order to accurately predict the short-term passenger flow of terminal building, the flight schedule state pattern matching procedure is added on the basis of the traditional K-nearest neighbor (KNN) algorithm. The flight schedule including multi-dimensional attributes is taken as a feature to select historical similar operation days as forecast reference vectors. The two-tier K-nearest neighbor model based on terminal building short-term passenger flow forecast is built. Through instance analysis and comparison with ARIMA model and traditional K-nearest neighbor model, it is proved that two-tier K-nearest neighbor model has smaller prediction error and higher precision, and the model fitting degree increases by 8%-10% compared with traditional K-nearest neighbor model. Thus the model provides a new solution for accurately forecasting terminal building short-term passenger flow.
Keywords: passenger flow of terminal building     short-term forecast     pattern matching     forecast model     two-tier K-nearest neighbor    

近年来中国民航业高速发展,民航旅客运输量逐年递增,2016年全国旅客吞吐量首次突破10亿人次,比2015年增长11.1%。航站楼传统的资源配置方式已不能满足机场客流量增长的需求。全国各大机场不同程度地出现了旅客排队时间长、旅客服务质量下降等现象。国内外学者力图通过研究航站楼旅客服务流程优化与航站楼资源配置优化问题来提高旅客服务效率与质量。其中,航站楼客流量预测是航站楼旅客服务流程优化的关键核心问题,其预测精度的高低直接影响了上述难题的破解效果。

Grosche等[1]采用重力学模型方法,将经济增长趋势与机场吞吐量相结合,建立了相关联的机场吞吐量重力学模型,该模型能对新建机场及已建机场的吞吐量做出较为准确的预测。Letavkova等[2]结合小波变换和时间序列模型提出了一个机场吞吐量预测新方法,很好地预测了奥斯特拉瓦和蒙特利尔机场的旅客流量。黄飞虎等[3]利用民航旅客订座数据分析了航空旅客群体移动的特性,发现吞吐量具有一定的周期性,易受节假日的影响,且与其相互通航的城市数量有很大关系。上述研究都属于机场宏观客流量的预测范畴,其颗粒度较大,无法指导机场每天甚至每小时资源精细化的配置。在微观客流量预测方面,Ashford和Ndoh[4]提出了一种基于概率密度函数的航站楼短时客流量预测方法,证明离港旅客从出发到抵达航站楼的行程时间是随机变量,该方法需建立概率密度函数,花费大量时间确定与调节参数。Kim等[5]将离港旅客到达航站楼的行程时间按长短分为12个组,12个概率密度函数分别属于正态或Pearson Type Ⅲ分布,从而计算出不同目标时刻航站楼离港旅客数量,该方法在旅客到达人数少的情况下预测精度不高。邢志伟等[6-7]从人类行为动力学出发,以单航班离港旅客为研究对象,证明了单航班离港旅客抵达航站楼受航班离港时刻驱动对泊松特性的偏离且服从重尾分布,但仅以单航班作为研究对象,若将单航班客流量叠加预测多航班客流量,则会造成较大误差,对误差修正需花费大量时间。针对非线性时间序列的预测,田中大、李树江等[8-12]采用组合预测法,成功对混沌时间序列[8]、风速[9]、网络流量[10-12]进行预测,并取得了良好的预测效果。受此启发,本文拟借鉴组合预测思想研究航站楼短时客流量预测问题。由于航站楼短时客流量受如航班计划、天气等多种因素的影响呈现出复杂的非线性特点,基于确定数学模型的预测方法在模型构建和求解上都存在困难,同时,这类方法参数调整上需花费大量时间,难以满足航站楼资源配置优化实时性的需要。K近邻算法(K-Nearest Neighbor,KNN)[13-14]是另一类无数学模型的预测算法,不需要任何的先验知识,其具备良好的移植与数据挖掘性能,新的数据可以方便地加入到模型中,符合航站楼短时客流量复杂的非线性特点。

但传统K近邻算法在预测场景中的精度并不高,多数学者针对不同预测场景做了相应的算法改进[15-20],并取得了良好的预测效果。受文献[3, 7, 21]研究启发,具有相似航班计划的运营日,同一个目标时刻上的客流量变化波动具有相似的特征,以相似特征日作为基准向量用K近邻算法进行预测,模型精度将会提高。

综上,为了有效应对航站楼短时客流量准确预测,本文在传统K近邻算法基础上增加了航班计划状态模式匹配步骤,选取具有航班计划特征的相似历史运营日作为预测基准向量,建立基于航站楼短时客流量预测的双层K近邻模型。通过实例分析,与ARIMA算法[12]和传统K近邻算法等进行比较,证明双层K近邻模型预测误差更小,精度更高,模型拟合度相对传统K近邻模型提高了8%~10%,平均拟合度高达90%,为机场资源的动态分配提供了指导性的意见。

1 K近邻模型 1.1 数据来源与算法构造

本文选取某航空公司离港旅客自助值机数据作为历史数据库。旅客进入航站楼后在完成值机、安检业务之前往往带有一定的焦虑心理,因此极少旅客会在值机之前在机场逗留。而自助值机时间通常在1 min之内完成,且排队时间较短,因此可将自助值机时间近似看作旅客到达时间。

航站楼客流量预测分为短期、中期、长期,认为预测单位小于1天为短期预测,以天和周为预测单位为中期预测,以季度和年为预测单位为长期预测。根据实际业务情况,飞机起飞前1 h对航站楼值机柜台、安检口、登机口等资源的需求几乎已经确定,不能再更改,因此以1 h为预测时间间隔更具有实际意义,但为了进一步验证算法的鲁棒性,综合考虑,选择更小的30 min为时间间隔。

选取2016-03-26—2016-10-26期间旅客自助值机数据,将测试数据与预测数据之前的数据作为历史数据库,以30 min为间隔,一天分为48个时段。建立异常数据识别标准,对必要冗余数据剔除,这样便完成了历史数据库的建立。

构建大容量且包含了客流量变化趋势和典型规律历史数据库后,再设定K近邻非参数回归模型中状态向量、距离度量准则、近邻K值的取值及预测算法等相关要素,从历史数据库中找到与预测日相匹配的近邻。

通过上述相关要素近邻匹配,假设在历史数据库中找到K个近邻,实际数据和这K个近邻的距离为di(i=1, 2, …, K), 设p为客流量,则p(t)为第t时刻客流量,p(t+1)为第t+1时刻客流量,这些近邻所对应的历史时刻航站楼旅客到达客流量为phi(t)(i=1, 2, …, K)。再利用预测算法,便可得到预测日各个时段的客流量。

等权重的预测算法采用如下形式:

(1)

带权重的预测算法采用如下形式:

(2)

采用带权重的预测算法认为距离小的近邻在预测值中占有更大的权重,该算法符合人们的一般认知,更能体现出航站楼旅客到达状况变化趋势,因此本文采取带权重的预测算法。该算法流程可以简要表述为图 1

图 1 K近邻算法流程 Fig. 1 Flowchart of KNN algorithm
1.2 结果分析

在对K近邻模型的相关要素定义完成后,通过K近邻算法对预测日各个时段的客流量进行预测。随机抽取连续5天(2016-09-09—2016-09-13)作为预测日,选择预测日的前一天作为预测基准向量,并选择相应基准向量前半部分运营日作为历史数据库,其中K=7;选择3个评价指标:平均绝对误差MAE、均方误差MSE、拟合优度R2来评价本文所有实验的预测精度,MAE、MSE与R2的定义式分别为

(3)
(4)
(5)

式中:yi为真实值;为预测值;y为平均值。

预测精度评价指标如表 1所示,其预测结果如图 2所示。

图 2 K近邻模型预测值与真实值对比 Fig. 2 Comparison of predictive value of KNN model with true value
表 1 K近邻模型预测精度分析 Table 1 KNN model prediction accuracy analysis
日期 MSE MAE R2/%
2016-09-09 351.893 0 11.451 1 83.65
2016-09-10 386.675 2 12.254 9 82.33
2016-09-11 345.365 1 10.931 5 89.31
2016-09-12 342.478 3 10.547 2 89.54
2016-09-13 411.579 2 13.367 3 79.14

表 1图 2可以看出,传统K近邻模型在机场场景中直接使用的缺点明显,预测精度变化波动较大,其中2016-09-11—2016-09-13这3日的预测精度相差了近10%,说明其不具备良好的鲁棒性。这是因为传统K近邻模型单纯选择预测日的前一天作为预测基准向量,并没有考虑到影响旅客到达航站楼规律的因素。在机场项目中,影响旅客流量的主要因素有天气、航班计划、节假日、突发事件和机场周围交通状况。对于不同的两日,若其特征因子差异过大,则两日中目标时刻上航站楼客流量大小也会有较大差异,从历史数据库中选取K个近邻日, 利用加权平均得出短时客流量的预测值则会与预测日有较大的误差。综上,传统K近邻模型不适合在机场短时客流量预测场景中直接使用。

基于相似日的预测算法[21]起源于电力系统短期负荷预测,是电力负荷预测的基本方法之一。在电力系统短期负荷预测中,通常认为在气象状况、日类型等影响因素相似的2天,负荷也比较接近。若以历史上相似日为预测基准向量进行预测,再根据相似日的负荷加以修正,则可以很好地预测结果。

借鉴电力系统的预测方法,考虑各个运营日的特征属性,将历史运营日的特征与预测日的特征进行匹配,选取相似历史运营日内各个时刻客流量的测定序列作为训练序列来对预测日目标时刻的客流量进行预测有望解决此难题。然而,如何确定一个运营日的特征属性及如何选取与预测日相似的历史运营日是一个关键的问题。

根据文献[7]可知,旅客出行受到航班离港时刻的强制约束,会在航班起飞前一段时间密集到达