测绘地理信息   2021, Vol. 46 Issue (5): 102-106
0
融合建筑物与POI数据的精细人口空间化研究[PDF全文]
刘正廉1, 桂志鹏1,2,3, 吴华意2,3, 秦昆1,3, 吴京航1, 梅宇翱1, 赵晶4    
1. 武汉大学遥感信息工程学院,湖北 武汉,430079;
2. 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉,430079;
3. 地球空间信息技术协同创新中心,湖北 武汉,430079;
4. 湖北省测绘成果档案馆,湖北 武汉,430070
摘要: 精细的人口分布数据能刻画出行政单元内部细节的人口空间分布信息, 为城市规划、灾害评估等相关研究和应用提供有效数据支撑。利用房屋建筑及高德兴趣点(point of interest, POI)数据提取建模因子, 结合随机森林模型获取了武汉市2015年常住人口50 m空间化数据集。结果表明, 相较于WorldPop数据集结果, 所提出方法的结果在武汉市高、中、低3种不同人口密度社区单元均具有更高的拟合精度。
关键词: 人口空间化    随机森林模型    建筑物类型    兴趣点    数据融合    武汉市    
Fine-Scale Population Spatialization by Synthesizing Building Data and POI Data
LIU Zheng-lian1, GUI Zhi-peng1,2,3, WU Hua-yi2,3, QIN Kun1,3, WU Jing-hang1, MEI Yu-ao1, ZHAO Jing4    
1. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China;
2. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China;
3. Collaborative Innovation Center of Geospatial Technology, Wuhan 430079, China;
4. Archives of Surveying and Mapping Achievements in Hubei Province, Wuhan 430070, China
Abstract: Fine-scale population distribution data can depict detailed spatial distribution information of population in administrative unit, which can provide effective data support for urban planning and disaster assessment. The modeling factors extracted from the building data and point of interest(POI)data are used with random forest model to obtain the spatial data set of permanent population with 50 m resolution in Wuhan in 2015. Compared with the result of WorldPop dataset, the result of the proposed method has higher fitting accuracy in community units of Wuhan with high, medium or low population densities.
Key words: population spatialization    random forest model    building type    point of interest(POI)    data fusion    Wuhan    

精细的人口空间分布是当前人口地理学研究的热点和难点[1]。掌握行政单元内部精细的人口空间分布信息有助于提高该区域灾害评估与预防、公共资源的合理配置、环境保护等综合管理能力。目前,主要的人口空间化方法有人口密度模型[2, 3]、空间插值方法[4, 5]、基于遥感和GIS的统计建模方法[6]3类。人口密度模型通过假设的人口分布模型进行人口空间化,较难为精细场景下的人口相关研究[7]提供数据支持。空间插值方法假设空间位置越接近的格网的特征值越相似,利用空间插值模型进行人口空间化,存在过度依赖假设条件、模型复杂等问题。基于遥感和GIS的人口空间化方法是目前人口空间化的主要方法,主要通过多源数据融合的手段进行人口空间化。该类研究使用的主要辅助数据源(如土地利用和夜间灯光等数据)空间分辨率不高,在较小尺度单元上存在均质性问题,刻画人口分布细节差异的能力有限,还需要引入空间粒度更细的辅助数据源进行人口空间化。

本文利用地理国情监测获取的房屋建筑数据和高德在线地图爬取的兴趣点(point of interest, POI)数据这两类细粒度地理要素数据,基于随机森林模型探究了一种面向较大城市区域范围的精细人口空间化方法;并以武汉市为研究区,获取了武汉市50 m格网的人口空间化数据集,在社区行政单元级别检验本文方法获取人口分布数据集的有效性。

1 人口空间化实验数据

1)数据介绍。本文的研究区域为湖北省武汉市,研究数据主要包括人口数据、地理国情监测获取的房屋建筑数据、高德POI数据和WorldPop人口数据集。数据具体情况如下:①人口数据为2015年武汉市各社区的实有人口数据以及《武汉统计年鉴2016》中记录的2015年武汉市各区县常住人口数据。本文将实有人口(主要由常住人口构成)数据作为权重进行分配,获取武汉市2015年各街道行政单元和社区行政单元的常住人口。②房屋建筑数据来源于武汉市2015年地理国情监测数据,共计9类。③高德POI数据通过高德应用程序接口(appli‐cation programming interface, API)爬取获得,共有休闲娱乐、住宿等10类。④2015年WorldPop人口数据集下载自WorldPop官网,空间分辨率100 m,具有较高的空间分辨率和人口拟合精度[8]

2)数据预处理。数据预处理工作具体步骤如下:①统一坐标基准。将实验数据坐标统一为Al‐bers等积圆锥投影。②获取建筑物面积。统计每个街道和格网内部9类建筑物的面积。③计算建筑物格网与POI格网间的欧氏距离。对于包含房屋建筑的格网,按照建筑物的属性划分格网类别;然后分别计算包含各类建筑物格网与距离最近的各类POI数据格网之间的欧氏距离,距离特征计算过程示意如图 1所示。④计算街道内建筑物与POI的距离。因无法直接计算街道行政单元内建筑物与POI的距离,本文计算街道内建筑物格网和POI格网间距离的和,并求取均值,将其作为街道对应类型建筑物和各类POI的距离值。

图 1 基于格网的建筑物与POI距离特征计算过程 Fig.1 Calculation of Distance Feature Between Buildings and POIs Based on Grid

2 人口空间化研究方法

相较于利用土地利用类型等栅格数据进行人口空间化,根据不同类型建筑物和POI等细粒度地理要素数据进行人口空间化能够更好地保留人口空间分布的细节信息[9]。为此,本文基于精细人口空间化建模因子提取的研究成果,依据“无土地无人口”原则[10],以房屋建筑物实际范围为人口空间分布范围的约束条件,在无房屋建筑分布的区域,将人口数赋值为0。考虑到房屋建筑类型对人口分布的影响存在差异,按照房屋建筑属性信息对其进行分类,并分别对不同建筑物进行面积特征提取。人口分布受到周边的生活设施的影响,POI数据包含丰富的空间语义信息,可用于城市功能区划分与识别[11],能在一定程度上反映人类活动情况。依据地理学第一定律,距离越近的事物,彼此间的关联越紧密,可认为距离POI比较近的格网单元比距离远的格网单元对人口分布的影响程度更高[12]。本文通过计算格网单元内各类房屋建筑和最邻近的各类POI的欧氏距离进行距离特征的提取。

目前,精细人口空间化研究中使用的格网尺度多为千米级,部分为百米级,少有百米级以下的。为获取更精细的人口空间分布数据,并检验本文使用的细粒度地理要素数据在精细人口空间化中的作用,本文选择50 m格网进行实验。由于格网中的真实人口数据难以直接统计,人口空间化方法一般通过构建行政单元级别的建模因子和人口之间的权重关系,将这种权重关系从行政单元级别迁移到格网上,并将其作为格网分配时的人口权重依据,进而获得每个格网的预估人口。基于这一思想,本文将街道行政单元统计的建模因子和街道常住人口数据作为训练数据,利用随机森林模型学习建模因子和人口之间存在的规律,并通过训练后的随机森林模型将这种规律迁移到50 m×50 m的格网中。将获取的人口空间化结果在社区级别进行检验,并和WorldPop数据集结果进行精度对比。人口空间化构建与检验流程见图 2

图 2 人口空间化的构建与检验流程 Fig.2 Generation and Test Flow Chart of Population Spatialization

1)随机森林模型。随机森林是一种基于决策树的数据挖掘方法,属于集成学习,综合多棵决策树共同的结果,将其作为预测的最终结果,采用Bootstrap方法从总训练集中进行有放回的随机抽样,获得每棵树的训练集。将9种不同属性建筑物的面积、统计单元的面积以及不同属性建筑物和POI的距离作为特征,共计100维特征。本文将武汉市186个街道行政单元统计的特征和人口数据作为训练样本,把其中70%的数据作为训练数据,30%的数据作为测试数据用来调整参数,最终训练阶段,模型拟合精度达到92.43%。利用武汉市行政边界数据生成武汉市50 m×50 m格网,基于格网统计对应特征,利用训练好的随机森林模型进行格网人口权重的预估。

2)格网人口分配与精度检验。本文统计每个街道内格网的权重值并将其归一化后,将街道的总人口数按照归一化后的权重值分配到每个格网中,获取每个格网的人口数据,计算公式如下:

$ G_{k i}=S_{k} \times W_{k i} / \sum\limits_{j=0}^{N_{k}} W_{k j} $ (1)

式中,k表示第k个街道行政单元;i表示街道内的第i个格网;G表示格网内的人口数;Sk为第k个街道行政单元的人口总数;WkiWkj分别为随机森林模型预测的第k个街道的第i个和第j个格网权重值;Nk表示第k个街道行政单元的格网总数。

为检验该方法的精度,本文选取武汉市3 493个社区人口数据作为验证数据,将空间化后的社区内格网人口累加值、WorldPop数据集统计的社区人口及社区的实际人口统计值三者进行比较。用于比较分析的指标分别是平均绝对误差(mean abso‐lute error, MAE)、均方根误差(root mean square er‐ror, RMSE)和%RMSE。设VMAE表示人口预测值和人口真实值之间的平均绝对误差,反映人口预测值误差的实际情况;VRMSE表示人口预测值和人口真实值之间的均方根误差,反映人口预测值和人口真实值之间的偏差程度;V%RMSE表示人口预测值和人口真实值的均方根误差除以人口真实值的均值,反映模型模拟的整体精度。计算公式如下:

$ V_{\mathrm{MAE}}=\frac{1}{N} \sum\limits_{a=1}^{N}\left|P_{a}-R_{a}\right| $ (2)
$ V_{\mathrm{RMSE}}=\sqrt{\frac{1}{N} \sum\limits_{a=1}^{N}\left(P_{a}-R_{a}\right)^{2}} $ (3)
$ V_{\% \mathrm{RMSE}}=V_{\mathrm{RMSE}} / \frac{1}{N} \sum\limits_{a=1}^{N} R_{a} $ (4)

式中,Pa表示第a个社区的预测人口;Ra表示第a个社区的常住人口;N表示社区的总数。

3 实验及结果分析

图 3为本文方法与WorldPop数据集结果的空间可视化对比,图中左上角标注a的为本文方法结果,标注b的为WorldPop结果。

图 3 本文方法与WorldPop数据集结果的空间可视化对比 Fig.3 Visual Comparison Between Spatialization Results Obtained by the Proposed Method and WorldPop Dataset

图 3可知,武汉市人口呈现出“中心城区集聚,外围多核心”的分布特征,中心区域的人口集聚程度明显高于周边区域的人口集聚程度,整体沿长江分布。根据自然等分间断法,本文按人口密度值将武汉市社区划分为高、中、低3个密度等级区域。由表 1可知,相较于WorldPop数据集,本文方法获取的人口空间化结果在高、中、低3类人口密度分布区域都具有更高的拟合精度,在人口低密度区域的拟合精度优势更明显。由图 3部分区域对比结果可知,两者在表征人口空间分布上整体趋势相同,行政单元内部人口集聚区地理位置基本相同,而本文结果更能充分保留人口分布的细节信息,更好地刻画集聚区域的内部差异。本文融合两类细粒度地理要素数据获取精细人口分布的方法整体上具有较高的可靠性。

表 1 本文方法结果与WorldPop数据集结果精度对比 Tab.1 Accuracy Comparison Between the Results of the Proposed Method and WorldPop Dataset

图 4为社区级别人口误差空间分布图,可以看出,估算人口和实际人口误差较大的社区主要分布于主城区。武汉市中心区域由主城区构成,总人口约占全市常住人口的60%,人口密度大。城市居民对居住区域的选择情况更加复杂,容易导致人口预估结果出现偏差。本文实验结果大部分社区人口估算误差在1 000人以内,主要误差特征为社区人口估算值大于实际值;WorldPop数据集主要误差特征为社区人口估算值小于实际值。本文估算结果整体偏大,这与建筑类数据对人口分布影响程度高有关,建筑数据在建模过程中影响程度较高,使得部分建筑物众多的区域被分配了更多的人口数。WorldPop数据集估算结果整体偏小,这可能是因为该数据集用于建模的空间数据分辨率不够高,对小尺度区域人口分布的空间差异性刻画不足,导致相邻区域预估结果均质化程度高,应当分配较多人口的区域被分配了较少的人口,应当分配较少人口的区域被分配了较多的人口。

图 4 社区级别人口误差空间分布 Fig.4 Spatial Distribution of Population Error at Community Level

4 结束语

本文基于房屋建筑数据和高德POI数据,利用随机森林模型获取了武汉市50 m格网人口空间分布数据集,其结果相较于WorldPop数据集在分辨率和精度等方面均具有更佳的效果。该方法特点如下:①将空间粒度更细的矢量数据作为人口空间化辅助数据源,相较于土地利用类型等传统人口空间化辅助数据源,本文的辅助数据源在人口分布的空间结构上更能反映实际分布的细节信息。②本文综合考虑了建筑物属性和POI属性来共同构建特征,并且考虑了不同建筑物属性和建筑物与不同POI之间的距离关系,提取的建模因子保留了更为丰富的区域差异性信息。但本文主要利用的是建筑物和POI两类数据,而人口的空间分布还受到环境、经济、交通等因素的影响。因此,在今后的研究中,需要考虑融合其他因素,进而提高人口空间化精度。

参考文献
[1]
基于居住空间属性的人口数据空间化方法研究[J]. 地理科学进展, 2016, 35(11): 1 317-1 328.
[2]
Clark C. Urban Population Densities[J]. Journal of the Royal Statistical Society, 1951, 114(4): 490-496. DOI:10.2307/2981088
[3]
基于RS、GIS的人口空间分布研究[J]. 地球科学进展, 2002, 17(5): 734-738. DOI:10.3321/j.issn:1001-8166.2002.05.016
[4]
人口统计数据的空间分布化研究[J]. 武汉大学学报·信息科学版, 2002, 27(3): 301-305.
[5]
Mennis J. Generating Surface Models of Population Using Dasymetric Mapping[J]. The Professional Geographer, 2003, 55(1): 31-42.
[6]
Liu X H, Kyriakidis P C, Goodchild M F. PopulationDensity Estimation Using Regression and Area-to-Point Residual Kriging[J]. International Journal of Geographical Information Science, 2008, 22(4): 431-447. DOI:10.1080/13658810701492225
[7]
基于手机数据的城市内部就业人口流动特征及形成机制分析: 以武汉市为例[J]. 武汉大学学报·信息科学版, 2018, 43(12): 2 212-2 224.
[8]
Gaughan A E, Stevens F R, Huang Z, et al. Spatiotemporal Patterns of Population in Mainland China, 1990 to 2010[J]. Scientific Data, 2016. DOI:10.1038/sdata.2016.5
[9]
邓顺强. 基于随机森林算法和多源数据的人口空间分布模型研究[D]. 上海: 华东师范大学, 2018.
[10]
Langford M. Obtaining Population Estimates in NonCensus Reporting Zones: An Evaluation of the 3-Class Dasymetric Method[J]. Computers, Environment and Urban Systems, 2006, 30(2): 161-180. DOI:10.1016/j.compenvurbsys.2004.07.001
[11]
利用POI数据的武汉城市功能区划分与识别[J]. 测绘地理信息, 2018, 43(1): 81-85.
[12]
基于POI数据的人口分布格网化方法研究[J]. 地理与地理信息科学, 2018, 34(4): 83-89.