基于智能卡数据的地铁周边职住用地识别与分析

引用本文

曹瑞, 涂伟, 巢佰崇, 罗年学, 周檬, 李清泉. 基于智能卡数据的地铁周边职住用地识别与分析[J]. 测绘地理信息, 2016, 41(3): 74-78. DOI:10.14188/j.2095-6045.2016.03.018 复制到剪切板

CAO Rui, TU Wei, CHAO Baichong, LUO Nianxue, ZHOU Meng, LI Qingquan. Identification and Analysis of Home and Work Regions in the Vicinity of Metro Stations Using Smart Card Data[J]. Journal of Geomatics 2016, 41(3): 74-78. DOI:10.14188/j.2095-6045.2016.03.018 复制到剪切板

基于智能卡数据的地铁周边职住用地识别与分析

[PDF全文]

曹瑞¹, 涂伟^2,3, 巢佰崇¹, 罗年学¹, 周檬⁴, 李清泉^2,3

1. 武汉大学测绘学院，湖北武汉，430079;
2. 深圳大学土木工程学院空间信息智能感知与服务深圳市重点实验室，广东深圳，518060;
3. 深圳大学海岸带地理环境监测国家测绘地理信息局重点实验室，广东深圳，518060;
4. 香港浸会大学地理系，香港九龙

收稿日期: 2015-08-02

基金项目: 国家自然科学基金项目(41401444,41371377)；深圳市战略性新兴产业发展专项资金项目(JCYJ20121019111128765)；中国博士后基金面上项目(2014M560671)

第一作者简介: 曹瑞，硕士生，主要研究方向为GIS与智能交通等

E-mail: cr@whu.edu.cn

通讯作者: 涂伟，讲师，主要研究方向为时空大数据分析

摘要: 针对地铁系统，本文利用智能卡的地铁刷卡时空数据，重建了地铁站点客流量的时间分布，在此基础上进行聚类分析，识别了地铁站点周边的职住用地，并利用GIS手段进行了空间可视化分析，最后采用详细建筑GIS数据进行了验证。实验结果表明。地铁站点周边的土地利用类别对居民地铁出行需求有重要影响。本研究为理解城市土地利用和交通系统的互动提供了新途径。

关键词: 智能卡地铁 GIS 时空数据分析聚类分析土地利用交通

Identification and Analysis of Home and Work Regions in the Vicinity of Metro Stations Using Smart Card Data

CAO Rui¹, TU Wei^2,3, CHAO Baichong¹, LUO Nianxue¹, ZHOU Meng⁴, LI Qingquan^2,3

1. School of Geodesy and Geomatics，Wuhan University，Wuhan 430079，China;
2. Shenzhen Key Laboratory of Spatial Smart Sensing and Services，Shenzhen University,Shenzhen 518060，China;
3. Key Laboratory for Geo-Environmental Monitoring of Coastal Zone of the NASG, Shenzhen University, Shenzhen 518060，China;
4. Department of Geography，Hong Kong Baptist University, Kowloon Tong，Hong Kong，China

Corresponding author: TU Wei, lecturer, main research direction for Spatial-temporal Data Modeling, Analysis and Optimization

Foundation support:The National Natural Science Foundation of China (41401444, 41371377); Shenzhen Dedicated Funding of Strategic Emerging Industry Development Program (JCYJ20121019111128765); China Postdoctoral Science Foundation Funded Project (2014M560671)

Abstract: This paper proposes a smart card data-based approach to identify home and work land use regions in the vicinity of metro stations. First, temporal distributions of normalized passenger flow in metro stations are reconstructed. Then, passenger flow is clustered using hierarchical clustering. Land use type of neighborhood region around the metro station is inferred from the temporal features of passenger flow. Finally, we evaluate the obtained results using detailed building footprint data. The experiment was conducted with five days’ smart card data of Shenzhen in GIS environment. The obtained results reveal the close r elationship between smart card data and land use,and provide a new approach for understanding the interaction of land use and transportation system.

Key words: smart card data metro GIS spatio-temporal data analysis hierarchical clustering analysis land use transportation

城市土地利用和交通系统存在复杂的相互联系、相互制约的关系。理解土地利用和交通系统之间的互动是智慧城市规划、精细化城市管理中的重要课题^{[1, 2]}。近年来，相关研究已经能够获取大体量的手机定位数据、出租车轨迹数据和公共交通智能卡数据等具有时间和空间属性的城市大数据^{[2, 3]}，公共交通智能卡数据挖掘是时空大数据分析的重要内容。目前，相关研究多集中在基础数据处理与OD(origin-destination)推导^[4]、公共交通系统管理与运营^[5]、城市居民出行活动规律分析与挖掘^[6]等领域。而基于智能卡数据的城市土地利用和地铁系统之间互动关系的相关研究还较少。Zhong等基于新加坡公交智能卡数据推断了建筑物功能类型，为城市空间结构分析提供了精细数据基础^[7]。Roth等通过对伦敦Oyster卡刷卡数据的分析，识别了伦敦市的多中心城市结构和层次复杂的地铁客流量^[8]。

本文基于深圳市的地铁智能卡数据，推算出地铁站点客流的时间分布，对其进行聚类分析，实现了地铁站点周边职住用地类型的识别，在此基础上采用了GIS空间可视化分析，并利用深圳市的详细建筑GIS数据对识别结果进行了验证。

1 研究区域与数据 1.1 深圳地铁

截至2014年9月，深圳地铁共有5条线路、131座车站(非重复站点118个)。运营线路总长约178 km，覆盖深圳市罗湖、福田、南山、宝安、龙岗、龙华6个区。目前，深圳地铁日均客流量约300万人次，约占深圳市公共交通客流量的27%，构成了深圳市公共交通的骨干。

本文利用GIS空间分析中泰森多边形与缓冲区相结合的CTPB^[9] (combination of Thiessen polygon and buffer)方式确定地铁系统的影响范围。CTPB区域(见图 1)是以站点为中心生成的泰森多边形与一定距离阈值d为半径的缓冲区的交集，既能保证站点间影响范围的互斥，又能将范围限制在距离站点一定阈值下的圆形缓冲区内。根据公共交通站点服务区辐射范围的研究^[10]，较为合理的地铁站点辐射范围为700 m。因此，本文将CTPB缓冲区部分的距离阈值d设为700 m。

图 1 深圳地铁站点CTPB区域示意图 Figure 1 Illustration of CTPB Regions of Shenzhen Metro Stations

1.2 实验数据

深圳公共交通智能卡称作深圳通，本文采用2014年9月15-19日5个工作日的深圳通地铁刷卡数据进行分析。刷卡记录主要字段有：卡片编号、交易类型、交易时间和站点名称等。研究时段内地铁系统深圳通刷卡记录总数为16 261 729条，对应2 101 620张深圳通卡号。日均刷卡约325万人次，约97万人乘坐地铁出行，每卡日均刷卡约3.4次。

此外，实验中还用到了深圳市2011年的GIS数据，包括城市面积、地铁线路与站点、建筑普查数据等，用于地铁刷卡数据的空间化及实验结果的验证分析。

2 地铁站点周边职住用地识别方法 2.1 刷卡数据预处理与时变客流量推算

地铁刷卡数据包含了乘客进出站点的时间和位置信息，然而由于存在部分数据信息缺失、无效或重复刷卡等问题，需要对原始刷卡数据进行预处理，提取有效的出行OD，并对OD进行聚合以进行进一步分析。

首先过滤信息缺失的数据，然后将筛选后的数据按卡号和刷卡时间排序，根据卡号提取同一乘客的所有刷卡记录，从中依据进出站标识L、刷卡站点S及时间T等信息匹配对应站点和时间合理的进出刷卡记录，提取个体的时空出行OD，以集合表示：OD={S_in,T_in,S_out,T_out}。

地铁站点进出客流量用某站点某一时间段内所有进站和出站的人数来表示，它们是出行OD的聚合量。站点i在k时段的进出客流量分别表达为：

$\left\{ \begin{align} & {{V}_{\text{in}}}\left( i,k \right)=\sum\limits_{{{S}_{\text{in}}}=i,{{T}_{\text{in}}}\in k}{\text{OD}} \\ & {{V}_{\text{out}}}\left( i,k \right)=\sum\limits_{{{S}_{\text{out}}}=i,{{T}_{\text{out}}}\in k}{\text{OD}} \\ \end{align} \right.$

(1)

式中，i=1,2,…,n,n为地铁站点总数；k=1,2,…,m,m为划分的时间段总数。

按时段归一化后能得到每个站点各时段客流量的相对变化值，站点i在k时段的进出归一化客流量分别表达如下：

$\left\{ \begin{align} & {{V}_{\text{in}}}^{\prime }\left( i,k \right)=\frac{{{V}_{\text{in}}}\left( i,k \right)}{\sum\limits_{k=1}^{m}{{{V}_{\text{in}}}\left( i,k \right)}} \\ & {{V}_{\text{out}}}^{\prime }\left( i,k \right)=\frac{{{V}_{\text{out}}}\left( i,k \right)}{\sum\limits_{k=1}^{m}{{{V}_{\text{out}}}\left( i,k \right)}} \\ \end{align} \right.$

(2)

2.2 基于站点时变客流量的聚类分析

本文采用层次聚类法对地铁站点进行聚类分析。层次聚类分析的基本思想是：先将每个对象作为一个单独的类，然后度量各类之间的相似度，合并最相似的两类为一个新的类，如此继续，直到将所有对象合并为一个类。具体步骤为：

1) 选取能反映站点一天客流时变规律的归一化客流量作为聚类指标。站点i的聚类指标向量x_i定义为：${{x}_{i}}=\left\{ \left. {{V}_{\text{in}}}^{\prime }\left( i,k \right),{{V}_{\text{out}}}^{\prime }\left( i,k \right) \right|k=1,2,\cdots ,m \right\}$。

2) 采用时变客流量的差异度量站点之间的相似性。两个站点越相似，它们之间的距离越小。站点i和j之间的距离计算公式如下：

$\begin{align} & d\left( i,j \right)={{\left[ {{\left( {{x}_{i}}-{{x}_{j}} \right)}^{\text{T}}}\left( {{x}_{i}}-{{x}_{j}} \right) \right]}^{1/2}}= \\ & \left[ \sum\limits_{k=1}^{m}{{{\left| {{V}_{\text{in}}}^{\prime }\left( i,k \right)-{{V}_{\text{in}}}^{\prime }\left( j,k \right) \right|}^{2}}+} \right. \\ & {{\left. {{\left| {{V}_{\text{out}}}^{\prime }\left( i,k \right)-{{V}_{\text{out}}}^{\prime }\left( j,k \right) \right|}^{2}} \right]}^{1/2}} \\ \end{align}$

(3)

3) 构造n个类，每个类中只包含一个站点。

4) 合并距离最近的两类为一个新类。类间距离采用离差平方和法进行计算，在进行类间合并时，先计算各类重心间的方差，然后优先合并类内离差平方和增加幅度最小的两类。类G_p和类G_q之间的距离计算公式为：

$\begin{align} & D\left( {{G}_{p}},{{G}_{q}} \right)=\left[ \sum\limits_{i\in {{G}_{p}}\text{U}{{G}_{q}}}{{{\left( {{x}_{i}}-\bar{x} \right)}^{\text{T}}}\left( {{x}_{i}}-\bar{x} \right)} \right.- \\ & {{\left. \sum\limits_{i\in {{G}_{p}}}{{{\left( {{x}_{i}}-\bar{x} \right)}^{\text{T}}}\left( {{x}_{i}}-\bar{x} \right)-}\sum\limits_{i\in {{G}_{q}}}{{{\left( {{x}_{i}}-\bar{x} \right)}^{\text{T}}}\left( {{x}_{i}}-\bar{x} \right)} \right]}^{1/2}} \\ \end{align}$

(4)

式中，$\overline{x}=\frac{1}{2m}\sum\limits_{i\in G}{{{x}_{i}}}$，为类G的重心。

5) 计算新类与当前各类的距离，重复步骤4) ，直到将所有站点合并为同一个大的类型。

6) 根据聚类图和实际聚类效果，选择分类个数和类别。

2.3 站点周边职住用地的识别与验证

城市居民在工作日通勤通学的出行行为，在地铁站点尺度聚合后，表现出来的就是站点进出客流量早晚高峰的时间分布特征，通过该特征能定性地识别站点周边用地的职住性质。

为了进一步定量验证站点周边职住用地的识别结果，本文定义了建筑面积指数AI，其计算公式为：

$\text{A}{{\text{I}}_{f}}\left( i \right)=\frac{{{\text{A}}_{f}}\left( i \right)}{\sum\limits_{f\in F}{{{\text{A}}_{f}}\left( i \right)}},i=1,2,\cdots ,n$

(5)

式中，f代表建筑功能类型，可取工作、居住和其他等三类；F为所有三种类型的集合；A_f(i)代表站点i的CTPB区域内f类型建筑物的占地面积。

通过计算各站点CTPB区域内不同功能属性建筑的面积指数，并以聚类类别为单元求取均值，可以比较各类别之间的差异，验证聚类分析识别结果的正确性。

3 实验与分析 3.1 数据预处理结果与分析

依据5天刷卡数据总共提取有效地铁OD对7 062 551个，有效出行人数1 994 104人，分别占原始数据的86.9%和95.0%。

由于深圳地铁的运营时间为6：30到23：00，因此，可将一天划分为6：00-24：00共18个时间段。每日站点客流量之和的时间分布曲线见图 2，可见5个工作日里，客流时间分布曲线呈现了相似的趋势，早晚高峰明显，这与城市居民工作日早出晚归通勤通学的出行规律相吻合。

图 2 每日站点客流量之和的时间分布曲线 Figure 2 Hourly Passenger Volume of Each Day

3.2 地铁站点聚类分析与职住用地识别

本文基于5个工作日各站点、各时间段内进出客流量的均值，计算出工作日平均归一化客流量，采用层次聚类法，对深圳市118个地铁站点进行聚类分析，得到效果最佳的5个聚类类别，其站点客流时间分布和站点空间分布分别见图 3和图 4。

3 各类别站点归一化客流量时间分布汇总图 Normalized Passenger Volume Distributions of Different Categories Stations 4 各类别站点及其周边CTPB区域空间分布图 Spatial Distribution of Stations and Their CTPB Regions of Different Categories 图 3分为6个子图，其横轴为各时段，纵轴为归一化客流量。其中图 3(a)是所有站点客流曲线的汇总图，用不同颜色标识类别，可以看出，各类别客流时间分布有着较为明显的分层。图 3(b)~3(f)分别为5个聚类类别所包含站点的客流时变曲线的汇总图，其中图 3(b)~3(e)的进站或出站流量分布曲线均呈现了较为显著的单峰特征。图 3(b)和3(c)具有进站早高峰和出站晚高峰的特点，即存在大量的居民早出晚归，因此，相应地铁周边用地是典型的居住地。图 3(b)曲线的峰值高于3(c)，说明类别1的特征比类别2更为明显。与此相对，图 3(d)和3(e)有出站早高峰和进站晚高峰的特点，即存在大量居民早到晚离，因此，相应地铁周边用地是典型的工作地，且类别3的特征相对更为显著。图 3(f)进出站客流分布曲线为双峰特征，其早晚峰值基本对等，相应地铁周边用地具有职住混合的特征。

由图 3可以看出，聚类结果能将具有相似进出客流量时间分布特征的站点归为同类，而将特征差异较大的站点分开。

根据聚类结果识别站点周边职住用地的结果见表 1。可见周边主要为居住用地的站点共有51个，远大于周边主要为工作用地的27个站点数量。

表 1 地铁站点周边主要用地类型识别结果 Table 1 Land Use Recognition Results of Station Neighbor Regions

图 4给出了5个类别地铁站点及其周边用地的分布。可以看出，地铁周边居住地(类别1和2) 主要集中在宝安、龙华和龙岗等原关外区域，较为典型的有西乡、深圳北站、布吉等站点及其周边邻近站点，另外白石洲、香蜜湖等典型关内居住地也属于该两类；典型工作地(类别3和4) 集中在南山区的大学城和高新园、福田区的市民中心和车公庙、福田与罗湖交界老城区的华强北和老街等典型工作地周边；混合用地类型(类别5) 主要分布在南山、福田和罗湖区等原关内地区。

3.3 站点周边职住用地识别结果验证

1) 职住用地识别结果的验证与分析

本文在将CTPB缓冲区部分距离阈值d设为700 m的基础上，另选取500 m和1 000 m作为对比，分别统计3个距离阈值下，各地铁站点CTPB区域内居住、工作和其他类型建筑面积指数AI，并以聚类类别为单元计算各类别AI的均值，见图 5。

图 5 不同距离阈值下各类别各功能类型的建筑面积指数 Figure 5 AI of Different Categories under Different Distance Thresholds

由图 5可知，不同阈值d下的建筑面积指数总体趋势相似。图 5与图 3相对应，也分为6个子图，横轴为建筑的功能类型，纵轴为对应的面积指数AI。其中图 5(a)为所有站点求取的AI均值，图 5(b)~5(f)分别为5个聚类类别所含站点求取的AI均值。对于类别1和2，居住用地的面积指数显著高于工作用地和其他用地；对于类别3和4，工作用地的面积指数显著高于居住用地和其他用地；类别5中其他类别用地面积高于其余4个类别。将图 3与图 5分析的结果相比较可得，分属不同类别的站点，其周边土地利用特征与其归一化客流量表现出来的职住特征相符合，说明土地利用类别的配置对地铁站点客流需求变化有着重要的影响作用，根据时变客流聚类划分地类别能够较好的识别站点周边职住用地。

2) 典型站点周边用地的特征分析

为了进一步对聚类结果进行分析，本文选取坪洲、车公庙和黄贝岭3个客流量较大的典型地铁站点进行分析，其周边建筑空间分布和客流量时间分布见图 6。

图 6 典型站点周边建筑分布与归一化客流量时间分布图 Figure 6 Building Footprints and Normalized Passenger Volume Distributions of Three Typical Stations

坪洲站位于宝安区的西乡片区内，该片区内拥有许多成熟的社区，居住地集中；车公庙站周边是工贸商圈，办公和商业建筑集中；黄贝岭站地处罗湖区的行政中心，办公行政机构集中，众多成熟的社区毗邻，形成了工作居住混合的用地性质。而3个站点分别属于聚类类别1、3、5，其周边用地分别被识别为居住、工作和混合用地。

以上典型站点的分析表明，站点客流量时间分布特征的差异能较为直接地反映其周边用地的职住类型，识别结果在站点尺度得到了较好的验证。

4 结束语

本文基于深圳市2014年9月的5个工作日的地铁刷卡数据，通过聚类分析的方法，识别了地铁站点周边的职住用地，利用GIS手段进行了可视化分析，并对识别结果进行了验证。本研究探究了公共交通智能卡所反映的城市居民地铁出行时空规律与地铁站点周边土地利用类型之间的关系，发现了地铁站点周边的土地利用类型配置对地铁站点客流需求有着重要的影响作用，为理解城市土地利用和城市交通互动进行了有益尝试。城市土地利用情况繁杂，而本文对地铁站点周边土地利用的识别与分析主要针对居住和工作两大类，未来的研究可以对混合类型进行更为深入的挖掘和分析，有助于更加深入地理解城市土地利用与城市交通之间的交互。

参考文献

[1]	李德仁, 姚远, 邵振峰. 智慧城市中的大数据[J]. 武汉大学学报·信息科学版,2014,39(6) : 631–640. Li Deren, Yao Yuan, Shao Zhenfeng. Big Data in Smart City[J]. Geomatics and Information Science of Wuhan University,2014,39(6) : 631–640.
[2]	李清泉, 李德仁. 大数据GIS[J]. 武汉大学学报·信息科学版,2014,39(6) : 641–644. Li Qingquan, Li Deren. Big Data GIS[J]. Geomatics and Information Science of Wuhan University,2014,39(6) : 641–644.
[3]	Fang Z, Tu W, Li Q, et al. A Multi-objective Approach to Scheduling Joint Participation with Variable Space and Time Preferences and Opportunities[J]. Journal of Transport Geography,2011,19(4) : 623–634. DOI:10.1016/j.jtrangeo.2010.06.019
[4]	陈君, 杨东援. 基于 APTS 数据的公交卡乘客通勤 OD 分布估计方法[J]. 交通运输系统工程与信息,2013,13(4) : 47–53. Chen Jun, Yang Dongyuan. Estimating Smart Card Commuters Origin-Destination Distribution Based on APTS Data[J]. Journal of Transportation Systems Engineering and Information Technology,2013,13(4) : 47–53. DOI:10.1016/S1570-6672(13)60116-6
[5]	Sun L, Jin J, Lee D, et al. Demand-driven Timetable Design for Metro Services[J]. Transportation Re search Part C:Emerging Technologies,2014,46 : 284–299. DOI:10.1016/j.trc.2014.06.003
[6]	Yuan N J,Wang Y,Zhang F,et al. Reconstructing Individual Mobility from Smart Card Transactions:A Space Alignment Approach[C]. The 13th IEEE International Conference on Data Mining (ICDM 2013),Dallas,Texas,USA,2013
[7]	Zhong C, Huang X, Arisona S M, et al. Inferring Building Functions from a Probabilistic Model Using Public Transportation Data[J]. Computers,Environment and Urban Systems,2014,48 : 124–137. DOI:10.1016/j.compenvurbsys.2014.07.004
[8]	Roth C, Kang S M, Batty M, et al. Structure of Urban Movements:Polycentric Activity and Entangled Hierarchical Flows[J]. PLoS One,2011,6(1) : e15923. DOI:10.1371/journal.pone.0015923
[9]	Lee S, Tong D, Hickman M. Generating Route-Level Mutually Exclusive Service Areas[J]. Journal of the Transportation Research Board,2013,2 : 37–46.
[10]	Zielstra D, Hochmair H H. Comparative Study of Pedestrian Accessibility to Transit Stations Using Free and Proprietary Network Data[J]. Transportation Research Record:Journal of the Transportation Research Board,2011,2217(1) : 145–152.


测绘地理信息 2016, Vol. 41 Issue (3): 74-78	0