随着我国“智慧交通”建设的不断推进和IC卡在城市公共交通领域的大规模应用,目前大部分公交车上均装有刷卡终端,这样既避免了乘客上车找零的麻烦,又为公交运营企业的结算带来便利,同时也为公交调度管理、优化公交线网和交通辅助决策提供了重要的数据依据. 但是当前我国大部分公交车采用的是一票制,即在IC卡刷卡消费信息中只有交易时间、消费金额、IC卡卡号等信息,不包含上车地点信息. 由于缺乏站点上车人数的信息,从而无法提前预知各站点乘客荷载量的真实需求,因此即使在增加公交数量之后上下班高峰期依然会出现上车难的现象[1-3].
近年来,国内外学者基于公交IC卡数据推算上车站点开展了大量研究工作. 在国外,蒙特利尔大学的研究人员Morency等[4]首次将数据挖掘技术应用到公交卡交易数据分析中;Barry等[5]将IC卡数据和GPS数据进行融合,得到公交车行驶日志后利用行驶日志并融合数据推算出上车站点. 然而,国内公交车并非全部装有GPS系统,难以获得准确和全面的数据,即使配备了GPS设备,在车辆实际运行过程中仍然会出现位置漂移,从而无法做到数据之间的精准匹配. 在国内,针对一票制且无GPS数据的公交车上车站点推算问题,郭婕等[6-9]首先对上车站点进行聚类分析,再侧重分析了相邻车站之间的时间间隔,但是在部分数据缺失的情况下难以得到保证结果的准确性. 因此建立一种基于IC卡的海量数据分析方法,用于推测乘客上车地点,这对于促进“智慧交通”建设有重要的意义.
因此本文利用海量的IC卡刷卡数据,在对交易时间上进行聚类分析的基础上,以交易次数较多的卡号为主,结合公交车调度信息、公交站点分布等信息,建立了一种新的推算上车站点的方法,通过建模的结果提出公交站点优化方案.
1 数据的采集与预处理 1.1 数据采集过程本次研究所用的数据(公交IC卡数据)是通过如图1所示的流程进行采集,具体流程如下. (1) 数据的产生过程:乘客在乘坐公交时IC卡与车载终端进行感应,逻辑卡号、车载终端号、交易金额等信息被记录并保存在车载终端内;(2) 数据的传递过程:公交车进入车场时,通过无线传输等方式送至分管清算中心;(3) 数据的接收过程:数据分管中心通过数据通讯方式传送到总的数据库中[10−11].
![]() |
图 1 数据(公交IC卡数据)采集流程[10] Figure 1 Data(Bus IC card data) acquisition process |
本次研究所用的数据(公交IC卡数据)为广州市内某繁忙路段所有公交终端内记载的数据(时间段为2014年10月至2015年01月),经过简单的数据预处理整理得到了符合分析要求的的80多万条数据记录,所得的IC卡交易数据结构包括线路ID、刷卡终端号码、逻辑卡号、刷卡地、交易金额交易时间和卡类型等信息,其中本次研究所用的数据如表1所示.
![]() |
表 1 公交IC卡刷卡数据(部分字段) Table 1 Bus IC card data |
为更好地提高数据分析结果的准确度,本研究需对1.1节中采集到的大量数据进行清洗、变换、融合等预处理操作[12]. 其中因为一些不可控的原因(刷卡动作、终端环境等)会造成公交IC数据发生异常,这些异常数据可能影响到分析结果的准确性,因此必须进行清洗. 本研究分析了如下4类异常数据[13]. (1) 错误的数据:由于卡片和终端感应过程中断或错误而产生字段错配的数据;(2) 冗余的数据:由于数据采集过程中重复操作所产生的多余数据;(3) 不完整的数据:由于外部原因所产生的部分关键字段内容不完整、不能确保真实性的数据;(4) 其他异常数据:由于外部原因导致的极少数与整体趋势相差较多的数据(此类数据可进行单独分析).
其次,本次研究为了描述直观、简单,将工作日的6:00~23:00时划分为17个时间段,如表2所示.
![]() |
表 2 时间段与具体时间的对应关系 Table 2 The relation of the time slot andthe specific time |
最后,为了绘图时表达得更加简明清晰,本研究将采用A、B、C等大写英文字母代替该线路上的各站点名称.
2 工作日公交客流分布特性分析经研究可知,城市公交工作日客流具有一定的随机性和规律性,和天气状况、节假日、道路状态、社会活动等各种因素密切相关,客流分布特性将从时间(工作日和非工作日)、卡片类型(普通卡和非普通卡)素等方面进行研究分析. 本次研究通过以1 h为间隔内所采集公交IC卡刷卡数据为基础,经过数据处理后计算出对应时间段的持卡出行人数,描绘出行人数的变化趋势图.
为突出本研究的代表性,本次研究的数据来自于典型的公交线路,是经过广州市区人口较为密集的城区,日均客流量达2 000人次,从中选取了2014年10月到2014年12月中连续10个星期四的数据,其客流分布特征如图2所示.
![]() |
图 2 连续10个星期四各时间段客流量 Figure 2 The different weekday(Thursday) passenger flow trend |
由图2可知,该线路连续10个周四的客流规律基本保持一致:(1) 7:00~10:00出现早高峰,其中客流峰值在时间段8(即8:00~9:00),该时段的特点是客流大且集中,同时增加或减少的过程比较急剧;(2) 16:00~19:00出现晚高峰,其中客流峰值在时间段17(即17:00~18:00),该时段的特点为客流分布比较均匀且变化较为缓和,同时峰值比早高峰期低. 通过分析可以得到结论为:工作日的早上乘客出行时间比较集中,晚上返程时间则相对分散[14].
为了优化城市公共交通布局,研究上下班高峰期各站点的上车人数,可为公交公司和城市管理部门提供一种新的思路,具有十分积极的意义.
3 上车站点客流的推断方法研究通过对IC卡数据的统计分析,可以得到各站点的上车人数,上车站点人数的推断对于城市交通组织设计和综合交通规划具有重要的意义. 目前大部分城市的公交线路采用的一票制模式,这种刷卡方式的确能有效提高上车刷卡效率,但是又正是因为这样,使得无法通过这些刷卡数据直接获取上车站点信息,从而无法掌握和统计各站点的上车人数. 因此,在这种情况下,本研究为了提取刷卡数据背后所隐藏的出行规律,采用了聚类分析方法来推断站点上车人数.
3.1 聚类分析法由前面分析可知,从IC卡刷卡数据是不能直接获取上车站点信息,但是可以对IC卡数据中的时间属性进行聚类分析,因为在同一个站点成功上车刷卡的时间会集中在某一个时间点. 其基本思路是将刷卡数据中的交易时间根据时间间隔归类[15],具体的流程如图3所示.
![]() |
图 3 IC卡数据聚类分析法 Figure 3 The cluster analysis of IC card data |
其中时间距离阈值的选择十分关键,因为阈值过小或者过大都会造成很大的计算误差. 经研究,通常最佳阈值的选择会根据公交的平均行驶速度和站点间距确定,计算公式为
${T_{\rm b}} = \frac{{\min ({D_{i,i + 1}})}}{v}.$ | (1) |
式(1)中:Tb为时间距离的最佳阈值;Di, i+1(i=1,2,···,n)为站点距离;n为公交线路站点数;v为平均运行速度.
在确定时间距离的最佳阈值之后,接下来采用聚类分析法将刷卡数据分类的具体步骤为:(1) 对同一班次公交的IC卡刷卡数据按照交易时间进行排序;(2) 计算相邻两条数据交易时间,判断两类之间的最小时间差是否大于通过上述公式计算得到的最佳阈值Tb;(3) 若结论为“否”,则将距离最小的两类归为一类,重复步骤(2),若结论为“是”,则聚类结束.
通过最短距离的聚类分析后,能够分离出各个站点的刷卡数据,但是由于部分站点可能存在没有乘客上车刷卡的个别现象,因此必须通过采集足够多的数据,将个别的情况加以排除,由此经过多次对比,在误差最小化的前提下合并多天数据.
3.2 上车站点推算方法经过上述聚类分析法已将刷卡数据分离之后,接着计算始发站和各站点的时间差Ti(i=1,2,···,n)以及公交线路的上下行方向,再根据如图4所示的流程推断上车站点,具体步骤为:(1) 输入3.1中聚类分析所得某类中的一个IC卡号,若该卡号在同一公交线路3个月内的使用次数大于20次,则执行步骤(2),若为否,则出错退出;(2) 若该卡号在工作日上班高峰期有刷卡记录,则执行步骤(3),若为否,则出错退出;(3) 导出该卡号在3个月内同时间点(10 min内,根据各公交线路发车时间间隔来规定)刷卡终端号;(4) 计算该时间点与每一个终端最早刷卡数据中的交易时间进行比较,得出最大的时间差ΔT;(5) ΔT与Ti进行匹配,判断该时间点的上车站点.
![]() |
图 4 上车站点推断流程图 Figure 4 The inferring flow chart of boarding station |
注意:其中ΔT选择原则是不得超过该公交线路始发站与终点站的时间差.
4 基于站点的客流量分析研究最佳阈值是根据公交线路的站点分布和平均行驶速度,并结合式(1)计算得到,计算过程为
${T_{\rm b}} = \frac{{\min ({D_{i,i + 1}})}}{v} = \frac{{340\;{\rm{m}}}}{{333\;{\rm{m}}/\min }} \approx 1\;{\rm{min}} = 60\;{\rm{s}}.$ |
同时,利用公交站点分布、平均行驶速度和通过聚类分析所得到的分类结果,可以推断上行和下行各站点与始发站之间的时间差
![]() |
表 3 各站点与始发站之间的时间差1) Table 3 The time difference betweenstations and departure station |
得到以上数据之后,再利用上一节图4中所提出的方法,即可推断上下班高峰期各站点的上车人数. 经聚类对比,得出4组数据对比如图5所示,分别为上班高峰期上下行各站点上车人数、下班高峰期上下行各站点上车人数.
![]() |
图 5 上下班高峰期上下行各站点上车人数 Figure 5 The up-line and doun-line number of passengers during morning and evening rush hour |
![]() |
图 6 |
分析4组数据发现,上下班高峰期该公交线路各站点上行站点人数比较多的站点为A、D、F、G、H、I、J、K、L、R和S,上车人数较多的区间为D~L;而下行站点人数较多的站点为F、G、H、I、J、K、L、P、R、S、X、Y和Z,上车人数较多的区间为F~L. 其中H和I两个站点在上下班高峰期上下行的上车人数较多,这是与这两个站点周边存在地铁始发站和客运汽车站有直接的关系.
因此根据上述结果,能够给出2个优化公交线路的方案:(1) 在上下班高峰期开通站点D~L区间车,能够一定程度上缓解乘客乘车难、车内拥堵等问题;(2) 在上下班高峰期开通A、D、I、P、S和Z的大站快车,同样能够缓解早晚高峰乘客乘车难的现象.
5 结论本文首先简单分析了工作日某公交线路的客流量,发现早晚两个高峰期,并针对高峰期的数据进行了分析. 对交易时间进行了最短距离聚类分析,并结合公交车调度信息及站点分布情况推算出上下行线路各站点与始发站的时间差,和聚类分析中交易次数较多卡号为准的交易时间进行匹配推导出上车站点及该站点的上车人数.
本研究还可以综合考虑广州市区内多条公交线路的上下班高峰期各站点上车人数,通过分析可以更加全面地对广州市区内公交线路进行优化;还可以根据公交GPS信息和GIS信息推断乘客的下车地点,结合上下车地点能够更好地对优化公交线路提出建议.
[1] |
谢振东, 方秋水, 徐锋等. 城市交通一卡通技术与应用[M]. 北京: 人民交通出版社, 2014: 17-20.
|
[2] |
吴金成, 谢振东, 伍冠桦, 等. 基于交通一卡通数据的交通状态分析及动态控制研究[J].
广东工业大学学报, 2017, 34(3): 77-82.
WU J C, XIE Z D, WU G H. A study of traffic status and dynamic control based on IC card data[J]. Journal of Guangdong University of Technology, 2017, 34(3): 77-82. DOI: 10.12052/gdutxb.170010. |
[3] |
LAMOND B, STEWARD N F. Bergman S balancing method[J].
Transportation Research Part B: Methodological, 1981, 15(4): 239-248.
DOI: 10.1016/0191-2615(81)90010-2. |
[4] |
TREPANIER M, MORENCY C. Calculation of transit performance measures using smart card data[J].
Journal of Public Transportation, 2009, 12(1): 79-96.
DOI: 10.5038/2375-0901. |
[5] |
BARRY J J, FREIMER R, SLAVIN H L. Use of entry-only automatic fare collection data to estimate linked transit trips in New York city[J].
Transportation Research Record Journal of the Transportation Research Board, 2009(2112): 53-61.
|
[6] |
郭婕, 陈学武. 公交IC卡乘客上车站点确定方法及其应用[C]//第一届中国智能交通年会论文集. 上海: 同济大学出版社, 2005:195-201.
|
[7] |
于勇, 邓天民, 肖裕民. 一种新的公交乘客上车站点确定方法[J].
重庆交通大学学报(自然科学版), 2009, 28(1): 121-125.
YU Y, DENG T M, XIAO Y M. A new method for determining the arrival site of bus passengers[J]. Journal of Chongqing Jiaotong University(Natural Science), 2009, 28(1): 121-125. |
[8] |
蔡圻钊. 基于智能公交信息服务的网络安全接入与数据分析研究[D]. 广州: 广东工业大学自动化学院, 2016.
|
[9] |
戴霄, 陈学武, 李文勇. 公交IC卡信息处理的数据挖掘技术研究[J].
交通与计算机, 2006, 24(1): 40-42.
DAI X, CHEN X W, LI W Y. Study on data mining technique for bus intelligent card data processing[J]. Traffic and Computer, 2006, 24(1): 40-42. DOI: 10.3963/j.issn.1674-4861.2006.01.012. |
[10] |
刘雪琴. 基于交通一卡大数据的公客流分析与预测[D]. 广州: 广东工业大学自动化学院, 2016.
|
[11] |
陈学武, 戴霄, 陈茜. 公交IC卡信息采集、分析与应用研究[J].
土木工程学报, 2004, 37(2): 105-110.
CHEN X W, DAI X, CHEN Q. Approach on the information collection, analysis and application of bus intelligent card[J]. China Civil Engineering Journal, 2004, 37(2): 105-110. DOI: 10.3321/j.issn:1000-131X.2004.02.020. |
[12] |
罗强, 何利力, 王晓菲. 数据仓库中数据清洗技术分析机[J].
电脑编程技巧与维护, 2015(2): 61-61.
LUO Q, HE L L, WANG X F. Data cleaning technology in data warehouse[J]. Computer Programming Skills and Maintenance, 2015(2): 61-61. DOI: 10.3969/j.issn.1006-4052.2015.02.022. |
[13] |
谢振东, 吴金成, 刘雪琴. 基于交通一卡通的城市老年人出行行为特征的分析研究[J].
金卡工程, 2015(10): 18-20.
XIE Z D, WU J C, LIU X Q. Study on the characteristics of urban elderly travel behavior based on traffic card[J]. Golden Card Project, 2015(10): 18-20. |
[14] |
谢振东, 刘雪琴, 吴金成, 等. 公交IC卡数据预测模型研究[J].
广东工业大学学报, 2018, 35(1): 16-22.
XIE Z D, LIU X Q, WU J C. A study of passenger flow prediction based on IC card data[J]. Journal of Guangdong University of Technology, 2018, 35(1): 16-22. DOI: 10.12052/gdutxb.170143. |
[15] |
谢振东, 李之明, 徐锋等. 城市交通一卡通大数据应用[M]. 北京: 人民交通出版社, 2016: 171-188.
|