测绘地理信息   2023, Vol. 48 Issue (1): 68-72
0
北京市出租车载客热点路段挖掘及分析[PDF全文]
孟妮娜1, 李金秋1, 高晨博1, 王正阳1    
1. 长安大学地质工程与测绘学院,陕西 西安,710054
摘要: 从出租车轨迹数据中挖掘载客热点路段,能够为城市交通道路的规划和出租车的运营管理提供重要依据。以北京市出租车原始轨迹数据为基础,设计并建立了出租车载客行驶的载客数据模型,利用该模型对相似的载客轨迹信息进行了挖掘,结合时空信息提取并分析了不同时段的热点路段。通过北京市交通发展年度报告验证了该模型和挖掘方法的正确性和有效性。
关键词: 出租车轨迹    载客数据模型    路网匹配    最长公共子序列(longest common subsequence,LCSS)方法    热点路段    
Excavation and Analysis of Hot Sections for Taxi to Carry Passengers in Beijing
MENG Ni'na1, LI Jinqiu1, GAO Chenbo1, WANG Zhengyang1    
1. School of Geoengineering and Mapping, Chang'an University, Xi'an 710054, China
Abstract: The mining of the hot sections for taxi to carry passengers from trajectory data of taxis can provide an important basis for urban traffic road planning and taxi operation and management. Based on the original trajectory data of taxis in Beijing, we design and build a passenger data model of taxi carrying passengers. We use the model to mine similar passenger carrying trajectory information, and extract and analyze the hot sections in different time periods by combining spatiotemporal information. Finally, we use the annual report of Beijing transportation development to verify the correctness and effectiveness of the proposed model and mining method.
Key words: taxi trajectories    passenger data model    road network matching    longest common subsequence (LCSS) method    hot section    

出租车是城市居民重要的出行方式之一,以出租车GPS轨迹数据为基础,通过空间统计分析和可视化技术可以挖掘城市居民出行的时空分布特征,发现整体的运动趋势[1]。热点路段通常指出租车频繁经过的路线[2],能在很大程度上反映车辆的移动模式、居民的出行规律及城市交通状况。目前热点路段的提取方法主要有基于道路连通性的高流量路径分析、轨迹相似性度量等[3, 4]。常用的轨迹相似性度量方法有欧氏距离法[5]、动态时间规划(dynamic time warping,DTW)方法[6]和最长公共子序列(longest common subsequence,LCSS)方法。欧氏距离法要求两条轨迹长度相同,应用场景受限。DTW方法可被用于点数不同的轨迹,但对噪声非常敏感[7]。LCSS方法最早被用于计算两个字符串的公共子序列,后被用于度量两个序列的相似性[8],该方法可以跳过一些噪声点[9],且适用于点数不同的轨迹。

因此,本文拟选用LCSS方法从轨迹相似性角度来挖掘出租车载客热点路段。首先建立出租车的载客数据模型,把一次完整的载客认定为“上客-载客-下客”过程,将每条载客行驶轨迹存储为一个序列,通过路网匹配赋予轨迹数据路网语义信息,得到具有路网信息的载客数据模型数据库;然后基于该数据库,使用轨迹间最小距离判断轨迹间是否有交集,筛选有交集的轨迹,利用LCSS方法度量出租车载客行驶轨迹相似性,得到相似的轨迹集合,提取出租车载客行驶的热点路段,对不同时间段的热点路段的异同进行分析与展示;最后根据北京市交通发展年度报告检验提取结果。

1 出租车载客数据模型建立 1.1 载客数据模型的建立

本文原始数据为2017年北京市14 140 700条出租车轨迹数据,包含的字段主要有车辆ID(ID_ CAR)、触发事件(EVENT)、运营状态(STATE)、GPS时间(GPSTIME)、GPS经度(LONGITUDE)、GPS纬度(LATITUDE)、GPS速度(SPEED)、GPS方向(DIRECTION)、GPS状态(GPSSTATE)。

出租车的触发事件和运营状态各有5个值,分别代表不同的事件和状态,运营状态大多是载客行驶和空载行驶,而只有载客行驶过程可以反映真正的热点路段与居民出行规律。因此,本文建立了如图 1所示的出租车载客数据模型。单个一次载客过程只包括出租车上客、载客行驶和下客状态,每个状态的判断条件如下:①出租车开始载客状态:EVENT=1且STATE=1;②出租车载客行驶状态:EVENT=4且STATE=1;③出租车下客状态:EVENT=0且STATE=0。

图 1 出租车载客数据模型 Fig.1 Data Model for Taxi to Carry Passeng

根据每条数据EVENT和STATE的数值,运用if条件语句和for循环进行判断,将满足载客数据模型的数据存储到新文件中,筛选得到334 650条出租车载客轨迹数据记录。

1.2 道路语义属性匹配

原始轨迹数据没有道路语义信息,不能直接反映车辆与路网的相对位置关系[10]。需要建立轨迹数据与道路网络的关联,赋予车辆轨迹数据完整的路网语义信息[11],得到具有路网信息的出租车载客数据模型数据库。

根据出租车载客数据模型,在使用常规的最短距离原则进行路网匹配的基础上,综合几何信息(GPS点与道路的距离)和GPS轨迹点之间的关联性(GPS方向等)来精确路网匹配结果。本文用到的路网底图数据是在OpenStreetMap下载的北京市路网数据,有道路ID及道路名称等属性。

出租车GPS轨迹点与路网的匹配算法如下:

1)加载出租车GPS轨迹数据及路网基础数据,并设定角度阈值γη

2)读取GPS轨迹数据文件中的一行记录,记为P1,查找离此点最近的路网线段,判断车辆GPS方向,记为η1,再计算轨迹点GPS方向,查得路网夹角β1

3)将下一个轨迹点记为P2,重复步骤2),得到方向η2和夹角β2。先计算并判断η1η2间的差值,若小于η,则判定车辆还处于同一方向的道路中;再判断β1β2的差值是否小于γ,若小于,则判定GPS轨迹点属于查询得到的最近路网线段,保存路网ID信息至GPS轨迹点数据,若差值大于γ,则视为异常的GPS轨迹数据,将其删除,并返回本步骤。

4)若η1η2之间的差值大于设定的角度阈值η,则判定车辆已转向,返回步骤2)。

5)判断轨迹点数据文件是否读完,若未读完,则返回步骤2)。

6)输出已完成路网匹配的出租车GPS轨迹点数据到新文件中。

经过路网匹配处理操作后,每个GPS轨迹点都对应一个道路名称属性。最终匹配得到322 436条出租车载客轨迹数据记录,匹配正确率为96.35%。

2 基于LCSS方法的热点路段挖掘

1)输入出租车一次载客轨迹集合C,设定最小距离阈值α和轨迹相似性阈值θ

2)将两条轨迹点数分别为mn的轨迹表示为Ci ={r1r2,…,rm}和Cj ={s1s2,…,sn}。Ciε邻域内的所有轨迹的集合为Ci (ε),CjCi (ε) 的单条轨迹。

3)计算Ci中轨迹点与Cj中轨迹点间的最小距离Dmin,比较Dminα的大小,若Dminα,返回本步骤;若Dmin < α,则CiCj有交集。Dmin计算公式如下:

$ {D_{\min }} = \min _{{r_p} \in {C_i}, {C_i}, {s_q} \in {C_j}}^{d\left( {{r_r}, {s_q}} \right)} $ (1)

4)计算有交集的两条轨迹CiCj所有轨迹点的距离差Dij,判断Dij小于阈值α的轨迹点对数是否大于$\frac{1}{2} $min (mn),若大于,则将两条轨迹放入可能相似的轨迹集合Ci (Msim);若小于,则两条轨迹不相似,返回步骤3)。

5)判断轨迹集合Ci (ε) 中的轨迹Cj是否读取并处理完毕,处理完毕得到与轨迹Ci可能相似的所有轨迹集合Ci (Msim);若未处理完成,则返回步骤3)。

6)对于初步判定为相似的轨迹Ci和轨迹集合Ci (Msim) 中的Ce,使用LCSS方法计算轨迹的最长公共子序列的长度[12]

$ \begin{gathered} \operatorname{LCSS}\left(C_i, C_e\right)= \\ \left\{\begin{array}{l} 0, C_i=\varnothing \cup C_e=\varnothing \\ 1+\operatorname{LCSS}\left(r_{p-1}, s_{k-1}\right), d\left(r_p, s_k\right)<\delta \\ \max \left(\operatorname{LCSS}\left(r_{p-1}, s_k\right), \operatorname{LCSS}\left(r_p, s_{k-1}\right)\right), \text { 其他 } \end{array}\right. \end{gathered} $ (2)

式中,δ是判断轨迹点对是否相似的阈值;rpsk分别为CiCe中的点,p = 1,2,…,mk = 1,2,…,n

7)两条轨迹的最长公共子序列长度与其轨迹点数的比值P (0 < P < 1) 越大,则两条轨迹越相似。用轨迹相似性阈值θ判断其相似性,若Pθ,将两条轨迹放入相似轨迹集合Cisim;若P < θ,返回步骤6)。

8)判断轨迹集合Ci (Msim) 中的轨迹是否处理完,处理完毕得到Cisim,未处理完则返回步骤6)。

9)判断轨迹集合C中的轨迹是否全部处理,处理完毕得到相似轨迹集合Csim,否则返回步骤2)。

10)结合路网信息,在相似轨迹集合中提取热点路段,输出相似轨迹集合、比值P和出租车载客行驶热点路段。

3 实验及分析 3.1 实验及结果

本文所用数据为北京市2017-11-17—2017-11-30的出租车轨迹数据,涉及工作日与休息日,对工作日和休息日两个高峰时段的热点路段进行挖掘。北京市核心区东城区道路的平均宽度为10.93 m;西城区主干道宽度为44.27 m,次干道宽度为21.1 m,街坊路宽度9.9 m。包括小区道路在内,北京市的城市道路平均宽度为14.64 m,因此最小距离阈值α取14 m。阈值δθ的大小会影响相似轨迹的提取结果,经多次实验,本文取δ =5 m,θ =0.7。

本文以工作日早高峰时段(07:00~09:00)的轨迹数据为例进行热点路段的提取,共24 180个轨迹点数据记录,490条出租车载客行驶轨迹,工作日早高峰路段热点程度见图 2。工作日和休息日不同高峰时段出租车载客行驶热点路段的数量见表 1

图 2 工作日早高峰路段热点程度 Fig.2 Hot Spot Degree of Sections During Morning Peak Hours on Weekdays

表 1 出租车载客行驶热点路段提取结果 Tab.1 Extraction Results of Hot Sections for Taxi to Carry Passengers

3.2 高热点路段比较与分析

1)工作日不同时段高热点路段。工作日早高峰和晚高峰高热点路段分布如图 3(a)图 3(b)所示。将早高峰与晚高峰中均有的高热点路段定义为工作日持续性高热点路段,如图 3(c)所示,北京市工作日持续性高热点路段共9条,包括首都机场高速公路、朝阳北路、北三环、西二环、西三环等路段,其中环线路段7条,主要集中在四环路以内,连通了北京市几个重要商圈,包括公主坟、丽泽、三元桥、朝阳公园、金融街、东直门、燕莎、中关村和亚奥商圈等。图 3(c)还展示了工作日早高峰和晚高峰高热点路段的差异,其中,红色路段表示早高峰独有的7条高热点路段,包括朝阳路、复兴路、北四环东路、西四环南路等,其中环线路段有5条,经过的商圈主要有五棵松、公主坟、科技园区、对外经贸、工人体育场、建国门、北京站和CBD商圈等。而蓝色路段代表晚高峰独有的7条高热点路段,包括北三环西路等4条环线以及G6辅路、京藏高速和定泗路,连接了清河、沙河、北七家、亚奥、望京、小西天、科技园区等商圈。

图 3 工作日高热点路段对比 Fig.3 Comparison of Hot Sections on Weekdays

2)休息日不同时段高热点路段。休息日两个高峰时段的高热点路段如图 4(a)图 4(b)所示。将休息日午高峰和夜高峰中均有的高热点路段称为休息日持续性高热点路段,由图 4(c)可看出,仅有广安路、西三环和首都机场高速公路3条。而休息日午高峰和夜高峰独有的高热点路段差异较大,休息日午高峰独有的高热点路段主要是南北走向的西环线道路及玉泉路、苏州街、马家堡东路、学院路和西土城路,而夜高峰独有的高热点路段则为东环线道路及东西走向的杏石口路、紫竹院路、阜石路、复兴路、朝阳北路和朝阳路。因为居民周末出行会选择距离住宅较近的商场进行购物、娱乐或聚餐,因此,休息日持续性高热点路段较少,而午高峰和夜高峰的高热点路段连接了各区域的住宅区和娱乐商圈、购物中心及休闲广场。午高峰的高热点路段主要连接中关村商圈、动物园、丰台体育馆、亚奥商圈及西五环周边景区等地方,夜高峰主要连接望京住宅区、五棵松商圈、东直门商圈、王府井商圈、朝外商圈等。

图 4 休息日高热点路段对比 Fig.4 Comparison of Hot Sections on Rest Days

3)工作日与休息日高热点路段对比与分析。图 5展示了工作日和休息日的高热点路段以及工作日和休息日的相同高热点路段。工作日和休息日的相同高热点路段共12条,包含首都机场高速公路、朝阳北路、朝阳路、复兴路以及北三环、西二环、西四环中路等,环线路段占8条。工作日独有的高热点路段有11条,包括南二环、东四环北路等8条环线路段以及定泗路、G6辅路、京藏高速;而休息日独有14条高热点路段,包括西五环、西四环北路、西三环北路和杏石口路、阜石路、广安路等。

图 5 工作日与休息日高热点路段对比 Fig.5 Comparison of Hot Sections on Weekdays and Rest Days

北京市一周内的持续性高热点路段基本靠近首都国际机场以及北京市的核心商圈,即金融街、CBD、中关村、望京、燕莎、亚奥、丽泽商圈,每个商圈都有各自的侧重区域,但它们都聚集了北京市各个行业的核心企业和各类商场。工作日独有的高热点路段分散到五环周围及其以外的北京市大型社区,如天通苑、回龙观、燕郊、上地、望京等居住社区,符合城市居民的通勤线路。而休息日独有的高热点路段集中在城市西部,乘客主要往返于各大购物中心、休闲广场之间,包括新中关购物中心、五道口购物中心、住总万科广场、西单大悦城等,表明除北京市核心商圈外,北京市居民在休息日更加注重游玩、购物与聚餐等休闲娱乐活动。

3.3 结果验证

选取北京市一周内的持续性高热点路段为验证对象,结合2018年北京市交通发展年度报告第七章中的典型道路流量,对提取的出租车载客行驶高热点路段进行检验。图 6为北京交通发展研究中心发布的主要道路高峰小时交通流量以及出租车的占比数据[13]。北京市交通发展年度报告中出租车行驶较多的高流量环线路段有东三环、北三环、西二环、东二环、北二环、北四环、南三环和西三环。

图 6 2017年道路核查线交通流量及出租车占比数据 Fig.6 Traffic Flow and Taxi Proportion of Road Verification Lines in 2017

出租车载客行驶的持续性高热点路段的提取结果见表 2。结合图 6表 2可知,环线路段包括北三环、西三环、西二环、东二环、东三环、北四环中路及西四环,与北京市交通发展年度报告中出租车行驶较多的环线路段吻合度达到75%,说明利用本文方法提取的热点路段可信度高。

表 2 出租车载客行驶持续性高热点路段 Tab.2 Continuous Hot Sections for Taxi to Carry Passengers

4 结束语

本文基于建立的出租车载客数据模型,结合时空信息,用LCSS方法提取了不同时段出租车载客行驶的热点路段,分析并比较了工作日和休息日不同时间段的热点路段,发现了北京市居民工作日和休息日出行规律的异同。并利用北京市交通发展年度报告对热点路段进行验证,提取的热点路段与北京市高流量路段高度吻合,表明本文方法合理有效。下一步将探索出租车司机的路径选择行为,将出租车的路径选择经验服务于公众出行的路径选择。

参考文献
[1]
龚希, 陈占龙, 谢忠. 出租车轨迹数据的地域间移动模式分析[J]. 武汉大学学报·信息科学版, 2018, 43(10): 1595-1602.
[2]
杨晞. 大连城市交通拥堵的治理对策研究[D]. 大连: 大连海事大学, 2015
[3]
Li X L, Han J W, Lee J G, et al. Traffic DensityBased Discovery of Hot Routes in Road Networks[C]. Proceedings of the 10th International Conference on Advances in Spatial and Temporal Databases, Boston, MA, USA, 2007
[4]
陈继东, 孟小峰, 赖彩凤. 基于道路网络的对象聚类[J]. 软件学报, 2007, 18(2): 332-344.
[5]
Chen L, Özsu M T, Oria V. Robust and Fast Similarity Search for Moving Object Trajectories[C]. International Conference on Management of Data and Symposium on Principles Database and Systems, Baltimore, USA, 2005
[6]
Berndt D J, Clifford J. Using Dynamic Time Warping to Find Patterns in Time Series[C]. Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining, Seattle, WA, USA, 1994
[7]
Dodge S, Weibel R, Laube P. Trajectory Similarity Analysis in Movement Parameter Space[C]. 19th GIS Research UK Annual Conference, Portsmouth, UK, 2011
[8]
Vlachos M, Kollios G, Gunopulos D. Discovering Similar Multidimensional Trajectories[C]. Proceedings of 18th International Conference on Data Engineering, San Jose, CA, USA, 2002
[9]
张厚禄, 唐云祁, 王兴. 基于LCSS的异常轨迹检测算法[J]. 中国人民公安大学学报(自然科学版), 2021, 27(1): 96-102.
[10]
Quddus M A, Ochieng W Y, Noland R B. Current Map-Matching Algorithms for Transport Applications: State-of-the Art and Future Research Directions[J]. Transportation Research Part C: Emerging Technologies, 2007, 15(5): 312-328. DOI:10.1016/j.trc.2007.05.002
[11]
张校慧, 孙凯, 职保平, 等. 针对复杂道路网络的车辆轨迹地图匹配算法[J]. 测绘科学, 2018, 43(8): 110-115.
[12]
Marascu A, Khan S A, Palpanas T. Scalable Similarity Matching in Streaming Time Series[C]. Advances in Knowledge Discovery and Data Mining, Kuala Lumpur, Malaysia, 2012
[13]
北京交通发展研究中心. 2018北京市交通发展年度报告[R]. 北京: 北京交通发展研究中心, 2018