中国科学院大学学报  2019, Vol. 36 Issue (1): 56-63   PDF    
城市功能区语义信息挖掘与遥感分类
李娅1,2, 刘亚岚1, 任玉环1, 王智灏1,2, 曲畅3     
1. 中国科学院遥感与数字地球研究所, 北京 100101;
2. 中国科学院大学, 北京 100049;
3. 北京大学地球与空间科学学院遥感与地理信息系统研究所, 北京 100871
摘要: 中国城镇化和智慧城市建设的推进,对城市精细化规划与管理提出新挑战。明确城市空间结构划分,加强城市功能区的合理规划,对城镇化建设具有重要意义。基于遥感图像数据、POI(point of interest)数据及路网数据,使用遥感信息提取技术和语义信息挖掘方法,实现城市功能区的语义分类。对随机挑选的360处区块进行样本验证,结果显示城市功能语义分区的精度达到87.5%。该方法受区域限制较少,对城市功能分区研究有效。
关键词: 城市功能分区     建设用地提取     POI数据     核密度估计     语义信息挖掘    
Semantic information mining and remote sensing classification of urban functional areas
LI Ya1,2, LIU Yalan1, REN Yuhuan1, WANG Zhihao1,2, QU Chang3     
1. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China;
3. Institute of Remote Sensing and Geographical Information System, School of Earth and Space Sciences, Peking University, Beijing 100871, China
Abstract: As the urbanization and the policy of smart city advance step by step, new challenges are put forward for the meticulous planning of cities. It is of great significance to clarify the division of urban spatial structure and strengthen the rational planning of urban functional areas. We obtain the semantic classification results of urban functional areas using the remote sensing technology and the semantic information mining method based on the GF-1 image, POI (point of interest) data, and road network data. Firstly, extraction of construction land in study area is based on object-oriented method, and the block partition is recognized by using road network data. Considering that the semantic features from POI data make fine classification of urban construction land, we estimate POI data for each category using kernel density analysis. Then the evaluation model of function area category is established based on the overlapping regions of multiple types of kernel density. Thus the function land classification of study area is completed. 360 blocks of plots are randomly selected for sample verification test. The results show that the definition of urban function areas is accurate and the accuracy of urban function zoning is as high as 87.5%.
Keywords: urban functional areas     construction land extraction     POI data     kernel density estimation     semantic information mining    

新常态时期的中国经济和城市进入新的发展阶段,传统的城市发展模式面临诸多问题,对城市规划理念、策略和建设提出新的要求和挑战。要求突出以人为本的创新驱动,加强空间资源优化配置,优化城镇空间结构,加强存量利用[1]。而加强城市功能区的合理规划,即通过对土地使用情况进行空间分析以及空间调整[2],确定最合理的城市功能区空间布局,使其在提高城市土地利用效率的基础上,可以将城市各项产业集聚起来并发挥最大效能,一定程度上提高城市土地利用效率,确保新型城镇战略的有效实施[3-4]

高分辨率遥感影像具有高空间分辨率、高清晰度、信息量丰富等优点,极大提高了遥感在城市土地利用/覆被变化研究中的应用能力[5]。然而,过去单一依赖遥感影像进行的城市应用,土地利用信息更新速度慢,且传统基于语义网进行遥感图像分类仅是通过分析地物特点,对图像底层特征进行挖掘[6],并不能分析真实的土地功能类型信息。由于缺乏语义属性,造成遥感空间信息难以转换为被规划所用的有效信息[7]。互联网产品的发展提供了大量数据语义信息,为城市土地功能的研究提供了新的研究方向。

国内外学者针对大数据时代下的城市空间结构划分方法进行了一定的应用探究。赵卫锋等[8]以显著性的差异提出POI数据分层指标,获得能够用于智能化路径引导的层次性知识空间。于翔[9]以北京市为例,结合城市公交刷卡数据和兴趣点实现城市功能区识别研究,辅助规划人员和公众有效识别和理解复杂的城市空间结构。Yuan等[10]利用出租车GPS信息和城市兴趣点数据,运用数据挖掘方法研究城市不同区域的功能划分。宋瑞和姚郑[11]采用大数据技术实现一个热点区域人员流动的实时监测系统。Bauer等[12]实现大数据条件下基于人类时空活动实现城市土地利用分类研究。但是现阶段利用POI数据与遥感数据结合实现城市功能区分类研究还很少见。

本文基于国产GF-1高空间分辨率遥感影像数据,综合利用多种影像特征进行城市建设用地提取,进而结合路网数据以及POI数据等基础地理数据中可以反映城市功能特征的语义信息对城市空间结构进行深入分析,从而得到城市功能区语义分类结果。

1 研究区域和数据源 1.1 研究区域

北京市城市用地类型复杂,城市功能类型丰富,因而本文选择北京作为主要研究城市。但由于覆盖整个北京市的POI数据量较大,考虑到实验运行效率问题,本文选取西城区部分区域作为实验区域,具体范围为北纬39.865 2°~39.957 7°,东经116.253 3°~116.364 2°,如图 1所示。

Download:
图 1 研究区域范围图 Fig. 1 Study area
1.2 数据来源与预处理

本文主要采用GF-1高分辨率遥感影像、POI数据、路网数据等进行城市功能区语义信息挖掘与遥感分类的相关研究。

1) GF-1影像数据

本文采用GF-1卫星2 m全色/8 m多光谱传感器影像作为数据源,影像获取时间为2016年4月21日,其卫星有效载荷技术指标见表 1。在基于遥感影像进行城市用地分类前,对GF-1影像数据进行辐射定标、大气校正、正射校正、图像融合等预处理。并根据研究区域范围对融合影像进行裁剪,裁剪后的影像如图 2所示。

Download:
图 2 研究区GF-1假彩色合成影像 Fig. 2 The false color composite image of GF-1 in study area

表 1 GF-1号传感器有效载荷技术指标 Table 1 The payload technical indicators of GF-1

2) POI数据

互联网电子地图都包含有兴趣点(point of interest,POI)信息,即带有名称、类别、经纬度等属性信息的空间特征点。这些兴趣点信息基本上都是面向大众需求的城市空间信息,可以描述城市空间各类工程性和社会性服务设施,蕴含有丰富的人文经济及自然特征, 是进行城市空间数据分析的重要基础地理数据。

本文基于爬虫软件从百度地图网页上获取到研究区域范围内与影像同时期的POI数据,共87 436条。每条数据都包括POI的名称、类型、地址、电话信息、经度、纬度6个属性。

结合2011年中华人民共和国住房和城乡建设部颁布的新版《城市用地分类与规划建设用地标准》,同时考虑城市功能的普遍性和数据类别的认知度以及显著性,将POI数据分为居住用地、公共管理与公共服务用地、商业服务设施用地、工业用地、道路与交通设施用地、绿地与广场用地6个较具代表性的类别,作为相应功能区的直接土地类型映射进行分类。最终POI数据类别描述见表 2

表 2 POI数据分类表 Table 2 Classification of POI data

POI数据使用前需进行清洗、抽取、查重、空间定位、定义投影与坐标转换等相关处理,然后根据表 2进行POI类别划分和数量统计,统计结果见表 3。考虑到绿地与广场用地的数量比例极小,故本文主要针对前5种用地类型进行研究。

表 3 各类型POI数据量统计 Table 3 Statistics of various types of POI

3) 路网数据

本文所用的路网数据来源于OpenStreetMap的中国路网矢量数据,根据研究区域范围进行数据裁剪。

2 研究方法

本文基于GF-1遥感影像数据中的地表覆盖信息和POI数据蕴涵的城市功能语义信息,实现城市空间结构的深入分析。首先基于面向对象方法实现城市建设用地信息提取,然后结合核密度分析结果,构建功能区类别定义模型,最终实现城市功能区语义分类。本文的技术流程图如图 3所示。

Download:
图 3 技术流程图 Fig. 3 Technical flow chart
2.1 基于面向对象的城市建设用地信息提取

本文采用面向对象的方法[13]进行城市建设用地遥感信息提取,经过多次实验,城市建设用地及背景地类的提取规则见表 4。针对水体的破碎性以及阴影、道路等地块混淆性等问题,对信息提取结果进行后期人工交互处理,最终地类合并后建设用地的提取结果见图 4。以提取样本为参考数据,将建设用地提取结果进行定量精度评价,得到建设用地提取精度达93.68%。

表 4 面向对象的各地类提取规则 Table 4 The object-oriented extraction rules of lands

Download:
图 4 建设用地提取结果 Fig. 4 Extraction results of construction land
2.2 城市功能区语义分类

为解决功能区划分过程中边界设定问题,本研究将提取的建设用地叠加路网数据进行区块分割,并将区块作为城市功能分区研究的基本单元。在基于遥感的城市建设用地信息提取和区块分割基础上,利用核密度分析、构建功能区类别定义模型等一系列方法,将城市功能区划分为道路与交通设施用地、工业用地、居住用地、商服用地、公共管理与公共服务设施用地五大类。

2.2.1 核密度分析

核密度分析法[14](kernel density estimation)是由Rosenblatt和Emanuel Parzen提出的针对数据自身特点研究其形态分布的一种非参数估计方法。其理论主要源于地理学第一定律,即认为距离越近的事物之间的关联度越紧密,与核心要素越接近的位置获取的密度扩展值则越大。其公式为

$ f(x) = \frac{1}{{nh}}\sum\limits_{i = 1}^n {K(\frac{{x - {x_i}}}{h})} . $ (1)

式中:f(x)为任意点x处的核密度计算函数;x1, x2, …, xn为取自一元连续总体的样本点;h为带宽,其中h>0作为一个平滑参数,即距离衰减阈值或者搜索半径;n为与位置x的距离小于等于h的要素点数;K函数为核函数(非负、积分为1,符合概率密度性质,并且均值为0),它是表示空间权重的函数。

图 5是不同核函数下的核密度估计图,单从曲线光滑度来说,Gaussian和Epanechnikov曲线光滑度较好,Uniform(或Box)曲线光滑度最差,但整体上来看,不同核函数对核密度估计影响不大。根据应用的普遍性,本文选取光滑度较好的Gaussian核函数对数据进行处理。

Download:
图 5 不同核函数下的核密度估计图 Fig. 5 Kernel density estimation using different kernel functions

除核函数外,带宽也是影响核密度估计结果的重要参数。图 6显示不同带宽对核密度估计的影响,故而多次实验选取最佳带宽非常必要。

Download:
图 6 不同带宽下的核密度估计图 Fig. 6 Kernel density estimation with different bandwidths

针对本研究的POI样本点,对上述公式进行二维平面的扩展,在点(x, y)处的核密度表达公式为

$ f(x, y) = \frac{1}{{nh}}\sum\limits_{i = 1}^n {K(\frac{{x - {x_i}}}{h}, \frac{{y - {y_i}}}{h})} . $ (2)

通过将离散的POI数据分布点转化为连续平滑的核密度分布图,基于统计结果选取能完全包含95%以上同类别POI数据点的核密度区间设为最佳提取阈值,对各类别POI数据点集中分布区域进行提取。

将路网分割后的区块与相应的核密度集中分布区域建立空间连接,并计算核密度分布区域在每一区块的覆盖面积比例。基于各类功能用地覆盖面积比例指数Sij进行功能区的初步提取,即面积比例指数大于50的区块定义为第j类别的功能区。其公式为

$ {S_{ij}} = \frac{{{A_{ij}}}}{{{A_i}}} \times 100\% . $ (3)

式中:i为第i个区块;j为第j类POI数据;Aij为第i个区块中第j类POI核密度分布覆盖面积;Ai为第i个区块的面积。

由于北京市城市功能结构复杂,混合功能区占主要部分,本文将落入区块矢量单元仅存在一种功能用地的情况定义为单一功能区,并针对区块矢量单元中存在多种功能用地的情况,引入POI类别影响力因子,构建功能区类别定义模型实现功能区的进一步定义。

2.2.2 功能区类别定义模型

针对区块矢量单元中存在多种功能用地共存的情况,本文通过建立功能区类别定义模型实现功能区类别语义划分。

1) POI类别权重设定

实验针对POI数据点进行核密度分析的方法虽然可以在一定程度上得到各类POI数据点在空间上的聚集分布形态,但由于实验区域内每类POI数据点的数量相差悬殊且每一级类别所包含的语义信息对城市功能区划分的影响程度不同。通常同类别POI数量越多,对城市功能区定义影响程度越大;类别等级高的POI,对城市功能区定义影响程度相应也越大。因此在对功能区进行进一步定义时需要针对每类POI数据点的影响力程度设定权重。

① 一级类别影响力因子权重设定

考虑到POI的数量将对城市功能分区的影响程度不同,针对一级类别影响力因子权重的定义主要采用因素成对比较法,设定比较项之间比值和为1,通过两两比较得到比值,并将多类比较结果求取均值,得到一级类别影响力因子权重系数W1={w1, w2, …, wi, …, wn1},其计算公式为

$ {w_i} = \frac{{\sum\nolimits_{j = 1}^{{n_1}} {{w_{ij}}} }}{{{n_1}}}, j = 1, 2, \cdots, {n_1}. $ (4)

式中:n1为一级类别的数目;wij为第i类与第j类两两比较后的第i类比值;Wi为第i类影响力因子权重值。

基于式(4)得到各一级类别的影响力因子权重W1表 5所示。

表 5 一级类别影响力因子权重 Table 5 Weight values of the influence factors in the first-degree type

② 二级类别影响力因子权重设定

在一级类别下,考虑到各二级类别POI的数量对一级类别的影响程度,二级类别影响力权重定义采用与一级类别权重定义相同的方法,得到各二级类别类影响力因子权重W2={w1, w2, …, wr, …, wn2}。

③ 三级类别影响力因子的权重设定:在一级类别、二级类别的影响下,三级类别数量较多且类别多样。故而根据三级类别数量影响力,三级类别设定为W3={w1, w2, …, wk, …, wn3},其中wrk=Nk/10, Nk为第k类描述类别中每类POI数据点数量,rk类归属的二级类。为避免类别间权重相差太大,各项值最大设为500。

最终确定每k类POI影响力因子权重系数公式为Wk=wi×wir×wrk

2) 功能区类别定义模型

考虑到不同类别POI核密度分布存在大量重叠区域,功能区类别定义模型的构建主要是通过统计重叠区域区块矢量单元中各类POI的数量,求取该区块单元中该类POI点密度ρij。在此基础上引入每类POI的影响力因子最终权重系数,通过式(5)得到对应区块单元中各类POI的影响分值ϕij。进一步比较同一街区矢量单元中各POI类型的影响分值比σ是否超过50%,判断该区块矢量单元是以单一功能区为主,还是多种功能区共同作用的混合功能区。其中针对混合功能区进行判别,将多类影响分值比例超过70%的混合区类别区分出来,若影响分值比例均不超过30%则作为多功能混合用地。

$ {\phi _{ij}} = {\rho _{ij}} \times {w_i},{\sigma _{ij}} = \frac{{{\phi _{ij}}}}{{\sum\nolimits_1^n {{\phi _{ij}}} }}. $ (5)

式中:i为POI类别,j为区块单元空间标记数,ρijj区块区第i类POI的点密度,wi为第i类影响因子权重,ϕijj区块内第i类POI的影响分值,σijj区块内第i类POI的影响分值比。

3 结果分析 3.1 功能分区结果

将5类POI数据进行二维核密度计算,经过多次实验,最佳搜索半径为0.005,得到各POI类别的核密度分布图,见图 7。从图中可以看出POI数据点的集中分布区域,选取包含95%以上同类别POI的核密度阈值对相应功能用地核密度空间分布进行提取,得到各功能用地集中分布区域。

Download:
图 7 不同类别POI数据核密度分布图 Fig. 7 Kernel density distributions of POI data in different categories

对研究区域进行各类功能用地覆盖面积比例指数的计算,然后根据功能区类别定义模型机理进行实验,最终得到如图 8所示的研究区域功能区划图。

Download:
图 8 研究区域功能分区分布图 Fig. 8 Urban functional zoning map of the study area
3.2 结果检验

为检验功能区划分结果的精度,本文从路网分割的5 694个区块中,按照置信度95%进行样本统计计算,最终选取360处样本区块作为检验区域,其空间分布详见图 9,对比百度地图进行结果检验,其中315处地块功能属性定义符合,功能区划分结果精度达87.5%。

Download:
图 9 结果检验所需样本地块 Fig. 9 The sample areas for validating the results
4 结论

本文基于遥感影像与互联网大数据进行城市功能区语义分类研究,从检验结果来看,精度相对较高。文中将遥感技术、GIS技术、统计技术进行有效结合,为城市功能用地分类提供了新的思路和模型方法。由于本文语义分类方法主要基于遥感影像及POI数据,数据受区域局限较小,可方便用于其他区域研究。

当然,POI数据进行功能区语义分类的研究过程中还存在若干技术问题,例如针对一些基础的、普遍的POI数据分类还没有一个相对统一的标准;建设用地的提取阶段,精度对最终的功能区分类结果存在一定程度的影响;采用不同分辨率的遥感影像对精度的影响程度不同;同时,由于POI数据仅以“点”的形式存在,无法反映出设施的边界、规模、使用状况等信息,容易造成多功能区混分的情况;介于不同功能区间的道路归属问题等。

另外,遥感技术虽然为地学研究及空间信息应用提供了海量的数据,并且在客观方面辅助了城市土地管理的监察与规划,但目前这些数据直接为规划利用的实例还较少,前人可参考经验不足,仍需在今后继续深入进行研究。

参考文献
[1]
刘可心.面向升级的城市规划发展思考[C]//中国城市规划学会.规划60年: 成就与挑战-2016中国城市规划年会论文集.北京: 中国建筑工业出版社, 2016: 1040-1049.
[2]
王卫华, 王开泳. 北京城市功能区演变与优化调控[J]. 中国名城, 2014(6): 32-37. DOI:10.3969/j.issn.1674-4144.2014.06.005
[3]
李禾.城市"未老先衰"智慧或成治理良方[N].科技日报, 2017-04-18(5).
[4]
国家新型城镇化规划(2014-2020年)[N].人民日报, 2014-03-17(9).
[5]
杨朝斌, 张树文, 卜坤, 等. 高分辨率遥感影像在城市LUCC中的应用[J]. 中国科学院大学学报, 2016, 33(3): 289-297.
[6]
张亚亚, 张立民, 刘小伟, 等. 基于语义网的遥感图像分类[J]. 计算机技术与发展, 2015, 25(5): 218-223.
[7]
梁军辉, 林坚, 杜洋, 等. 大数据条件下城市用地类型辨识研究:基于出租车GPS数据的动态感知[J]. 上海国土资源, 2016, 37(1): 28-32. DOI:10.3969/j.issn.2095-1329.2016.01.007
[8]
赵卫锋, 李清泉, 李必军. 利用城市POI数据提取分层地表[J]. 遥感学报, 2011, 15(5): 973-988.
[9]
于翔.基于城市公交刷卡数据和兴趣点的城市功能区识别研究[D].杭州: 浙江大学, 2014.
[10]
Yuan J, Zheng Y, Xie X. Discovering regions of different functions in a city using human mobility and POIs[C]//ACM KDD. The 18th Acm Sigkdd Conference on Knowledge Discovery and Data Mining. Beijing, China: August 12-16, 2012: 186-194.
[11]
宋瑞, 姚郑. 基于大数据的热点区域人员流量实时监测系统[J]. 中国科学院大学学报, 2015, 32(3): 428-431.
[12]
Bauer D, Gonzalez M C, Toole J L, et al. Inferring land use from mobile phone activity[C]//Proceedings of Acm SigkddInternational workshop onUrban Computing, 2012: 1-8.
[13]
钱巧静, 谢瑞, 张磊, 等. 面向对象的土地覆盖信息提取方法研究[J]. 遥感技术与应用, 2005(3): 338-342. DOI:10.3969/j.issn.1004-0323.2005.03.006
[14]
禹文豪, 艾廷华, 杨敏, 等. 利用核密度与空间自相关进行城市设施兴趣点分布热点探索[J]. 武汉大学学报(信息科学版), 2016, 41(2): 221-227.