| 一种基于多源数据验证的手机信令数据分析结果不确定性研究方法 |
2. 香港理工大学智慧城市研究院,香港,999077;
3. 深圳大学建筑与城市规划学院城市空间信息工程系,广东 深圳,518061
2. Smart Cities Research Institute, Hongkong Polytechnic University, Hong Kong 999077, China;
3. Department of Urban Spatial Information Engineering, School of Architecture and Urban Planning, Shenzhen University, Shenzhen 518061, China
当前智慧城市发展进程不断加快,空间大数据使实时精细的时空感知成为可能[1]。空间大数据的不确定性对地理分析结果至关重要,对其不确定性的客观认识及针对性改善有利于提升空间大数据分析结果的可靠性[2]。
手机信令数据覆盖范围广、样本数据量大,已被广泛用于城市人口调查、空间格局感知等领域[3-5]。但其定位原理存在固有缺陷,导致手机信令数据空间分辨率较低且存在区域差异。同时,通信运营商市场份额不均匀导致手机信令数据的人群覆盖不均匀,给基于手机信令数据的空间分析带来了较大不确定性[6]。不确定性本身无法避免,但可以通过认知分析中存在的不确定性,采取相应对策减轻负面影响,使分析结果更加可靠。
由于缺乏真实地面数据集的验证,手机信令数据不确定性评估多从应用效果出发[7],分微观和宏观两个角度。在微观层面,针对个体流动探究手机数据集特征对人类移动性指标的影响[8]。在宏观层面,多将从手机信令数据中提取的人群流动特征与官方统计的旅行日志进行对比[9]。少量研究通过外置GPS设备采集定位数据,以此为基准测量手机信令数据的定位偏差[10],但该方法的样本区域远小于手机信令数据的覆盖范围,缺乏推广应用的潜力。
本文将一组由原始手机信令数据预先编译生成的起讫点(origin-destination,OD)数据应用于分析城市人口分布、区域间流动及识别城市热点,并结合多源数据对分析结果进行验证,研究手机信令数据在城市空间分析中的不确定性,以了解手机信令数据在城市感知领域的优势和局限性,提高手机信令数据分析的可靠性。
1 研究区域和数据源本文研究区域为广东省深圳市。深圳市近年来发展迅速,城市现代化程度很高,截至2018年末,常住人口有1 302万人,人口密度达6 484人/km2,位居全国前列。
实验数据是2019年某工作日的手机信令OD数据,数据汇集网格大小为250 m,时间窗口为1 h。研究区域及数据分布密度如图 1所示。实验及验证数据集详情如表 1所示。
![]() |
| 图 1 研究区域 Fig.1 The Study Area |
| 表 1 实验数据及验证数据详情 Tab.1 Details of Experimental Data and Validation Data |
![]() |
2 多源数据验证的不确定性分析方法
为了分析手机信令数据在城市感知应用中的不确定性,本文以人口网格数据、营运车辆GPS数据及高德兴趣点(point of interest,POI)数据为参考数据集,首先分别提取实验数据集和验证数据集中对应的分析特征,然后对提取出的分析特征进行对比验证,定义人群代表性、转移覆盖率、聚集一致性3个指标分别对分布、转移、聚集3个分析特征进行评价,得出不确定性分析结果,提出改善方法。
2.1 分析特征提取1)时空分布特征。以往研究使用手机信令数据估计城市人口分布时,通常假设手机通信活跃量与人口分布成正比,但由于现实中通信活跃量有时空差异,用手机数据分布推断人口分布存在一定偏差。本文提取手机信令数据的时空分布特征,以探究该偏差的具体表现。验证数据集为WorldPop人口网格数据[11],网格大小为100 m,通过重采样将数据匹配到与手机数据相同的250 m网格中。
2)区域转移矩阵。手机OD数据集可被用于分析城市区域间的人群流动,对应的分析特征为转移矩阵。首先将OD数据集中的起点和终点对应到深圳市的10个行政区中,删除起点和终点在相同区的记录;然后构建10 × 10的转移矩阵,矩阵值是以纵轴为起点,横轴为终点的记录数。该矩阵按照同一起点进行标准化。用于验证的营运车辆GPS数据包括出租车、公交车、货车等营运车辆定时上传的GPS数据,经过起点-终点提取后,采用与实验数据相同的方法提取区域转移矩阵。
3)聚集热点。手机信令数据可被用于识别城市职住空间分布,一般用手机信令数据密度分布进行空间聚类与密度分级,识别居住和就业功能区[12]。分别对上班时段(07:00~10:00)、下班时段(17:00~20:00)OD数据集中的起点与终点进行具有噪声的基于密度的空间聚类(density-based spatial clustering of applications with noise,DBSCAN),提取聚类中心。验证数据集为高德POI数据,提取POI中类别为住宅和公司企业的数据,利用DBSCAN对其进行聚类,并在ArcGIS中进行核密度分析,提取POI热点。
2.2 验证方法及指标1)人口分布。以往研究通常利用手机信令数据模拟城市人口分布,但很少将其与实际人口进行对比。本文选取3个模型探究手机信令数据通信量与参考人口数据间的关系:
| $P =\partial V+\beta$ | (1) |
| $P =\sum\limits_{i=0}^k \partial_i V^i $ | (2) |
| $\lg P =\partial \lg V+\beta$ | (3) |
式中,P为因变量,表示将参考人口数据重采样到实验网格后,每个网格包含的人口总量;V为自变量,表示每个网格内的通信总量,包含该网格内的起点和终点记录;∂、β分别为自变量系数和常数项。
手机数据时间窗口为1 h,共24个时间窗口,将每个小时的手机数据作为自变量,每个模型产生24组参数。将全天的手机数据总量作为自变量,每个模型产生1组参数。用Spearman相关系数ρ与均方根误差(root mean square error,RMSE)衡量模型的拟合程度。定义所有模拟中ρ的最大值为人群代表性(representativeness of population,ROP),用于衡量手机数据最多能解释人口分布的程度:
| $\operatorname{ROP}=\max \left\{\rho\left[f_i\left(V_j\right), P\right]\right\}$ | (4) |
式中,fi代表第i个模型;Vj代表第j个手机数据集。
2)区域转移。假设营运车辆出行占所有出行方式的比例相同,在不考虑出行方式的情况下,将手机数据和营运车辆GPS数据得出的转移矩阵相减,分析差值矩阵的特征,并计算相关系数。转移覆盖率(coverage rate of transfer,COT)被用于衡量手机数据对不同区域人群转移的覆盖程度,计算公式如下:
| $\mathrm{COT}=\sum\limits_{i=1}^{10}\left[\rho\left({\mathit{\boldsymbol{M}}}_i, {\mathit{\boldsymbol{T}}}_i\right)\right] / 10$ | (5) |
式中,Mi、Ti分别表示以第i个区为起点的手机和营运车辆数据转移矩阵。
3)聚集热点。将聚类得出的手机通勤热点和POI热点导入ArcGIS,以POI核密度分析结果作为底图。聚集一致性(consistency of aggregation,COA)被用于衡量手机通勤热点与POI热点之间的一致性,用落在相应POI数据热点区域内的通勤热点个数占通勤热点总数的比例表示,计算公式如下:
| $\mathrm{COA}=\operatorname{COUNT}\left(H_m \cap H_p\right) / \operatorname{COUNT}\left(H_m\right)$ | (6) |
式中,Hm、Hp分别为由手机数据和POI数据生成的热点。
3 结果与分析 3.1 人口分布把每个小时的手机信令数据分别代入式(1)~式(3),将计算结果与参考人口数据进行比较,得出ρ和RMSE,见图 2(a)和图 2(b)。把全天手机信令数据代入3个模型,将计算结果与参考人口数据进行比较,得出3个模型的ρ和RMSE,见图 2(c)。不同时段的模拟效果差异很大,在01:00~06:00间,模型1和模型3的ρ值均低于0.5,模型2的ρ值在此期间出现最低值,这段时间人们使用手机较少。3种模型的ρ在07:00~10:00间达到峰值,这期间人们的通勤上班活动较为频繁。由于手机数据量与实际人口数量间存在较大差异,故本文只比较RMSE的相对大小。RMSE随时间的变化趋势与ρ随时间的变化趋势相反,白天时段的误差低于凌晨时段的误差。
![]() |
| 图 2 3种模型的拟合效果 Fig.2 Fitting Effects of Three Models |
综合对比,拟合效果最好的为使用全天数据的模型3,预测的人口分布与参考数据的相关系数为0.76,即ROP=0.76,手机数据最多可以解释76% 的人口分布。但该预测结果与参考数据仍存在一定偏差,两者对应关系见图 3。在y = x上方的部分为高估,下方的部分为低估。在人口密度较小的网格中低估更明显,在人口密度较大的网格中更易出现高估,且形状相对收敛,说明人口密度大时预测结果更准确。这是因为在高密度人口聚集区,手机基站分布更密集且人口流动较多,手机通信活动频繁,而在人口稀疏地区,基站少、手机通信不频繁。在对手机数据进行预处理时,常设置阈值剔除不活跃的用户,导致在低密度区域的预测不准确,结果偏低。
![]() |
| 图 3 网格人口与手机数据预测人口 Fig.3 Population of the Grid Data and MPD |
3.2 区域转移
手机信令数据和营运车辆数据的行程距离百分位数分布见图 4(a)。手机数据的行程距离总体长于营运车辆,计算得出两者相关系数ρ = 1,变化趋势一致,且对应百分位数的比值稳定在1.7~2间,可认为营运车辆出行在所有出行中占固定比例。基于此假设对手机数据和营运车辆数据生成的转移矩阵进行比较。图 5(a)和图 5(b)分别为由手机数据和营运车辆GPS数据产生的转移矩阵,颜色越深表示从纵轴起点到横轴终点的出行数量越多。图 5(c)展示了两个转移矩阵的差值,大部分差值都在10%以下。计算得出手机数据的转移覆盖率为0.88,即手机数据记录了88% 的区域转移。由图 4(b)可知,最低值出现在以大鹏新区、坪山区为起点的矩阵中,这说明在相对偏远的地区,利用手机信令数据预测的出行不准确。图 5(c)中以大鹏新区和坪山区为起点的行中网格颜色相对更深,说明此处手机数据和营运车辆数据的分析结果差异较大,同样印证了上述判断。
![]() |
| 图 4 两种数据的行程距离百分位数和转移矩阵相关系数 Fig.4 Percentile of Travel Distance and Correlation Coefficients of Transfer Matrix |
![]() |
| 图 5 由两种数据得出的转移矩阵及差值矩阵 Fig.5 Transfer Matrix and Difference Matrix |
3.3 聚集热点
手机数据通勤热点、POI聚类热点与核密度分析结果见图 6。手机数据与POI数据的热点一致性见表 2,整体聚集一致性COA=0.93,表明手机通勤热点可以在很大程度上代表职住空间的聚集。表 2中上班起点、下班终点与住宅热点的一致性高于上班终点、下班起点与公司企业热点的一致性,说明手机数据对住宅聚集地的识别比对工作聚集地的识别更准确。但也存在部分手机通勤热点在POI热点范围之外的情况,如图 6(b)红圈处,超出了POI热点范围。对比该位置实际地理环境发现,图 6(e)为华为深圳园区,POI密度不大但员工较多,且该园区主要负责手机业务,通信频率高于其他公司企业,说明在用手机数据进行空间分析时要考虑特殊地点通信频率的影响。图 6(f)附近有学校聚集,早上为上学时间,故在用手机信令数据进行职住空间分析时,应注意用时段代表特定活动会产生解释性偏差。
![]() |
| 图 6 手机通勤聚类热点与POI聚类热点、核密度热点 Fig.6 Clustering Hotspots of MPD and POI, and Nuclear Density Hotspots of POI |
| 表 2 手机数据与POI数据热点一致性 Tab.2 Hotspot Consistency of MPD Data and POI Data |
![]() |
3.4 不确定性改善方法
针对由人群覆盖不均匀导致的手机信令数据分析结果的不确定性,可以融合多个运营商数据,并结合人口普查数据中的年龄、性别等进行特征配准,提高人群覆盖率和分析结果的可靠性。
手机信令数据缺乏语义信息是其在转移与聚集分析时出现不确定性的原因之一,可耦合POI、社交媒体数据等其他多源数据,探究各时段分布及出行的时空特征,丰富手机数据的内涵,获得更为可靠的分析结果。
4 结束语本文使用多源数据集分析手机信令数据在人口分布、区域转移、热点识别方面的不确定性。实验结果表明:①手机通信量与人口分布之间更符合对数模型,可以解释城市76% 的人口分布;②利用手机数据感知人口分布存在两极化现象,即在低密度区低估,高密度区高估;③不考虑出行方式的情况下,手机数据可识别88% 的区域转移,在偏远地区识别不准确;④手机数据对城市热点识别的聚集一致性为93%,手机数据更倾向于识别人群聚集,且与时段相关性强,容易受实际环境及人群活动影响;⑤可采用不同运营商数据融合、人群特征配准及耦合多源数据等方法改善手机信令数据分析的不确定性。
| [1] |
Liu J Z, Li J, Li W F, et al. Rethinking Big Data: A Review on the Data Quality and Usage Issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142. DOI:10.1016/j.isprsjprs.2015.11.006 |
| [2] |
Shi W Z, Zhang A S, Zhou X L, et al. Challenges and Prospects of Uncertainties in Spatial Big Data Analytics[J]. Annals of the American Association of Geographers, 2018, 108(6): 1 513-1 520. DOI:10.1080/24694452.2017.1421898 |
| [3] |
曹劲舟, 涂伟, 李清泉, 等. 基于大规模手机定位数据的群体活动时空特征分析[J]. 地球信息科学学报, 2017, 19(4): 467-474. |
| [4] |
Kang C G, Liu Y, Ma X J, et al. Towards Estimating Urban Population Distributions from Mobile Call Data[J]. Journal of Urban Technology, 2012, 19(4): 3-21. DOI:10.1080/10630732.2012.715479 |
| [5] |
赵莹, 关可汗, 赖丽娜. 基于手机信令数据的长春市居民时空活动分析[J]. 测绘地理信息, 2020, 45(5): 129-132. |
| [6] |
Landmark A D, Arnesen P, Södersten C J, et al. Mobile Phone Data in Transportation Research: Methods for Benchmarking Against Other Data Sources[J]. Transportation, 2021, 48(5): 2 883-2 905. DOI:10.1007/s11116-020-10151-7 |
| [7] |
Mamei M, Bicocchi N, Lippi M, et al. Evaluating Origin-Destination Matrices Obtained from CDR Data[J]. Sensors(Basel, Switzerland), 2019, 19(20): 4470. DOI:10.3390/s19204470 |
| [8] |
Zhao Z Y, Shaw S L, Yin L, et al. The Effect of Temporal Sampling Intervals on Typical Human Mobility Indicators Obtained from Mobile Phone Location Data[J]. International Journal of Geographical Information Science, 2019, 33(7): 1 471-1 495. DOI:10.1080/13658816.2019.1584805 |
| [9] |
Do C X, Tsukai M, Fujiwara A. Data Quality Analysis of Interregional Travel Demand: Extracting Travel Patterns Using Matrix Decomposition[J]. Asian Transport Studies, 2020, 6: 100018. DOI:10.1016/j.eastsj.2020.100018 |
| [10] |
Zandbergen P A. Accuracy of iPhone Locations: A Comparison of Assisted GPS, WiFi and Cellular Positioning[J]. Transactions in GIS, 2009, 13: 5-25. DOI:10.1111/j.1467-9671.2009.01152.x |
| [11] |
Tatem A J. WorldPop, Open Data for Spatial Demography[J]. Scientific Data, 2017, 4: 170004. DOI:10.1038/sdata.2017.4 |
| [12] |
苗壮. 基于手机信令数据的数据清洗挖掘与居民职住空间分析[D]. 成都: 西南交通大学, 2017
|
2023, Vol. 48










