测绘地理信息   2021, Vol. 46 Issue (5): 98-101
0
城市扩展模拟预测:多种机器学习算法的比较[PDF全文]
杨晓明1, 蔡宇阳2, 巫雨洋2, 翁敏3    
1. 襄阳市测绘研究院,湖北 襄阳,441003;
2. 中国地质大学(武汉)地理与信息工程学院,湖北 武汉,430074;
3. 武汉大学资源与环境科学学院,湖北 武汉,430079
摘要: 以湖北省襄阳市中心城区为例, 对比用不同机器学习算法模拟城市规模演变的精度。结果表明, 将支持向量机和粗糙集通过stacking算法集成的模型模拟精度最好。利用该模型对2020年襄阳市城市建设用地扩展进行预测。结果显示, 襄阳市建成区2020年建设用地相对2017年有一定程度扩展, 主要集中在襄城区余家湖工业园, 襄州区唐白河以南、襄阳大道沿线等区域。
关键词: 城市扩展    集成学习    机器学习    模拟与预测    
Simulation and Forecast of Urban Expansion: Comparison of Different Machine Learning Algorithms
YANG Xiaoming1, CAI Yuyang2, WU Yuyang2, WENG Min3    
1. Xiangyang Institute of Surveying and Mapping, Xiangyang 441003, China;
2. School of Geography and Information Engineering, China University of Geosciences, Wuhan 430074, China;
3. School of Resources and Environmental Sciences, Wuhan University, Wuhan 430079, China
Abstract: Taking the central urban area of Xiangyang City, Hubei Province as an example, we compare the accuracies of different machine learning algorithms to simulate urban size evolution. The results show that the model which integrates support vector machine(SVM) and rough set approach(RSA)by stacking algorithm has the highest simulation accuracy. This model is used to predict the expansion of urban construction land in Xiangyang City in 2020. The results show that the construction land in the built-up areas of Xiangyang City in 2020 expands to a certain extent compared with that in 2017. And it mainly occurs in the Yujiahu Industry Park in Xiangcheng District, in the south of Tangbai River and along Xiangyang Road in Xiangzhou District.
Key words: urban expansion    ensemble learning    machine learning    simulation and forecast    

随着城镇化的快速发展,城市需要更大面积的建设用地进行城市建设,这使得城市不断向其外围蔓延。然而,由于在城市快速扩展的管理方面缺少经验,许多地区的城市建设用地存在布局混乱、土地利用效率低等问题[1]。同时,城市的无序扩张还会带来各种居住环境和生态环境问题,如交通拥堵、耕地侵占、粮食生产安全等[2-4]

城市规模的演变是由地理环境、经济发展、人口、社会制度等多种因素在不同时间、空间尺度上决定的,这使得其变化过程具有复杂性和不确定性[5, 6]。正是由于城市扩张具有这样的自组织和复杂的非线性特征,传统线性数学方程已经无法解决这一问题,因此越来越多学者提出用机器学习算法进行城市模拟方面的研究[5, 7-9]。如李沁等[10]利用一种改进的粒子群算法并结合元胞自动机模型模拟南京市1995—2000年的土地利用变化。本文以襄阳市中心城区城市建设用地为例,通过集成学习组合不同机器学习算法,探究建设用地变化模拟方法。

1 研究数据与方法 1.1 研究数据

襄阳市地处湖北省西北部,居于汉江中游。在不断深化的改革开放进程中,襄阳的城镇规模加速扩张。自1984年地市合并到2017年,其城镇化率从18.7%增加到59.7%,中心城区城市规模逐年扩大,建成区面积不断增长。因此,对襄阳市中心城区的建设用地扩展进行预测模拟可为未来城市的合理发展布局提供科学参考。本文数据见表 1

表 1 研究数据及其来源 Tab.1 Research Data and Their Sources

1.2 研究方法 1.2.1 机器学习

常用的地理模拟系统有元胞自动机和多智能体[11]。其中,元胞自动机主要基于格网系统的局部邻域内元胞之间的相互作用来模拟空间上的复杂现象[12, 13]。将经验统计模型,如普通最小二乘(ordi-nary least squares, OLS)模型等,与元胞自动机结合起来,可以提高模型计算过程的科学性。机器学习算法的兴起为预测建模提供了有效手段。本文采用以下机器学习算法进行城市扩张模拟的对比:①支持向量机(support vector machine, SVM)是一种研究分类的机器学习方法,同样也适合于挖掘土地利用变化的元胞自动机的非线性转换[14]。②径向基函数神经网络(radial basis function-neural net-work, RBF-NN)的基本思想是将低维数据映射到高维空间,包括输入层、隐层、输出层共3层神经网络[15]。③随机森林(random forest, RF)算法将多个决策树合并在一起,能够使预测结果更加准确和稳定[16]。④提升树回归(boosting tree regression, BTR)可以看作是决策树的加法模型,用决策树算法构建基函数,包括了基函数的线性组合和前向分步算法,利用二叉分类树和二叉回归树分别解决分类问题和回归问题[17]。⑤粗糙集(rough set approach, RSA)在数据挖掘中用于解决数据分类问题[18]

1.2.2 集成学习

各类机器学习算法具有不同的特征,在不同实例中会表现出不同的性能,在具体实践中难以得到最优结果。集成学习为机器学习算法的性能优化提供了可能。该学习方法通过训练多个机器学习算法并有效整合每个算法的评估结果,来实现预测或分类精度的提高,拥有较好的泛化能力[19]。集成学习有以下3种典型的集成策略:

1) boosting算法。boosting算法能够利用自身的集成思想组合弱学习器向强学习器方向发展[20]。其原理是首先根据训练数据构建模型,然后构建第二个模型来纠正第一个模型中的错误,直到可以完美预测模型,或者达到了模型最大量。

2) bagging算法。集成学习的效果取决于各算法的差异度,差异度越大,它们之间就越相互独立。然而在实际中不可能做到绝对独立,只能将差异最大化。因此,bagging算法应运而生。它采用自助采样法,能够有放回、可重叠地选取样本子集[21]

3) stacking算法。上述两种策略使用不同训练数据集来训练单个算法,将弱学习器训练为强学习器,而stacking算法通过结合多个不同的算法,将多个强学习器集成起来,达到提升模型性能的效果。stacking算法也被称为叠加法[22],首先在整个训练数据集上训练多个不同的分类模型,为了使训练数据都能被正确地学习到,在这个过程中,需要将之前训练的各个模型的输出用于另一个模型的输入,得到一个最终输出。

1.2.3 基于集成学习的城市扩展模拟算法

本文利用SVM、RBF-NN、RF、BTR、RSA,结合元胞自动机模型来模拟城市扩展过程。城市建设用地数据从襄阳市2008年、2015年、2017年的多期土地利用数据中提取。在对城市规模演变过程进行预测时,还要考虑相关驱动因素和限制因素,见表 2

表 2 影响因子及数据来源 Tab.2 Influential Factors and Their Data Sources

首先,将多期襄阳市城市建设用地数据进行栅格化,用2008年、2015年建设用地数据训练上述5种机器学习算法模型,以预测2017年的城市扩展变化。然后,将boosting算法、bagging算法、stacking算法与5种机器学习算法结合起来,产生不同的基于集成学习的元胞自动机模型,用于重复2017年的城市扩展模拟过程。再将这些组合算法的模拟结果与2017年实际城市建设用地进行模型精度计算。根据不同模拟方法的预测精度来选取算法数量最少且精度最高的算法组合方式,最后以襄阳市2015年和2017年的城市建设用地数据为基础,利用该模型进行襄阳市2020年的城市扩展模拟预测。

2 研究结果

本文基于OLS、单个机器学习算法、boosting算法集成的模型、bagging算法集成的模型和stacking算法集成的模型,利用元胞自动机模拟2017年城市扩张结果,并与2017年真实的建设用地进行对比,计算各模型的预测精度,结果如表 3所示。相较于OLS模型,机器学习算法均具有较高的预测精度。单个机器学习算法的精度也存在明显差异。另外,3类集成策略的预测精度均高于单个机器学习算法的预测精度,这表明集成学习算法能显著提高机器学习算法的精度。将SVM和RSA通过stacking算法集成的模型的预测精度最高,为85.6%。

表 3 多种机器学习算法模型的预测精度 Tab.3 Prediction Accuracy of Different Machine Learning Simulation Models

图 1为襄阳市2008—2015年、2015—2017年城市建设用地现状和扩展变化。其中,2008—2015年城市规模扩张较为显著,主要扩张区域为城北和城东。基于2008年和2015年数据对2017年城市建设用地扩展进行模拟,结果表明,2017年预测的扩展较少,主要分布在樊城区和襄州区的外围。

图 1 襄阳市2008—2015年及2015—2017年城市建设用地变化 Fig.1 Change of Urban Construction Land in Xiangyang City from 2008 to 2015 and from 2015 to 2017

结合表 3,最终选取预测精度最高的模型(即利用stacking集成算法组合SVM、RSA两种机器学习算法),以2015年和2017年襄阳市建设用地数据为基础,来预测2020年城市建设用地变化,预测结果与2017年襄阳市建设用地的对比结果见图 2

图 2 襄阳市2020年城市建设用地预测结果 Fig.2 Predicting Result of Urban Construction Land in Xiangyang City in 2020

结果显示,相对于2017年,2020年的城市建设用地有一定程度扩展。大范围扩展主要集中在襄城区余家湖工业园,襄州区唐白河以南、襄阳大道沿线。另外,襄城区西南侧、襄州区唐白河以北西北角存在零散的飞地式扩展,而襄城区西部、樊城区与襄州区北部存在明显的蔓延式扩展和填充式扩展。值得注意的是,樊城区及襄州区唐白河以北的区域以蔓延式和填充式扩展为主,而襄城区和襄州区唐白河以南的区域以飞地式扩展为主。

3 结束语

本文利用基于机器学习算法和集成学习的地理模拟模型对襄阳市中心城区建设用地扩展进行模拟和预测,结论如下:(1)基于机器学习算法的模型模拟结果比传统基于经验统计的建模方法精度更高。(2)利用stacking算法将SVM和RSA集成的模型预测效果最好。(3)利用精度最高的集成学习模型以2015年、2017年建设用地数据为基础对襄阳市2020年城市扩展规模进行模拟与预测。结果显示,襄阳市建设用地在2020年持续扩张,主要集中在襄城区余家湖工业园、襄州区唐白河以南和襄阳大道沿线。另外,不同地区表现出不同的扩展模式,襄城区西南侧、襄州区唐白河以北西北角存在零散的飞地式扩展,而襄城区西部、樊城区与襄州区北部主要以蔓延式扩展和填充式扩展为主。实例证明,在地理模拟模型中采用集成学习方法对城市规模进行预测具有有效性和高精度性。然而,本文的城市扩展影响因子并不全面,还要考虑相关政策及经济、社会等方面的影响,未来可以通过采集更多数据、资料,得到更加精确的城市模拟预测结果。

参考文献
[1]
中国县域城镇化的空间特征与形成机理[J]. 地理学报, 2012, 67(8): 1 011-1 020.
[2]
对中国大城市交通拥堵问题的认识[J]. 城市交通, 2011, 9(2): 8-14.
[3]
我们无处安放的农田: 空间生产全球化格局下我国耕地资源侵占问题研究[J]. 国际城市规划, 2014, 29(2): 59-67.
[4]
武汉市生态用地景观格局的时空演化特征分析[J]. 测绘地理信息, 2016, 41(3): 68-73.
[5]
基于CA的城市演变的知识挖掘及规划情景模拟[J]. 中国科学(D辑: 地球科学), 2007, 37(9): 1 242-1 251.
[6]
开封市城市空间扩展及其驱动力分析[J]. 测绘地理信息, 2015, 40(4): 67-69.
[7]
Su S L, Sun Y F, Lei C R, et al. Reorienting Paradoxical Land Use Policies Towards Coherence: A Self-Adaptive Ensemble Learning Geo-Simulation of Tea Expansion Under Different Scenarios in Subtropical China[J]. Land Use Policy, 2017, 67: 415-425. DOI:10.1016/j.landusepol.2017.06.011
[8]
基于全球网格的时空大数据应用研究[J]. 测绘地理信息, 2015, 40(5): 90-92.
[9]
面向城市规划决策的地理国情数据挖掘: 以北京市城市规模模拟为例[J]. 测绘通报, 2017(S2): 141-145.
[10]
基于改进粒子群算法和元胞自动机的城市扩张模拟: 以南京为例[J]. 长江流域资源与环境, 2017, 26(2): 190-197. DOI:10.11870/cjlyzyyhj201702004
[11]
地理模拟系统在城市规划中的应用[J]. 城市规划, 2006, 30(6): 69-74.
[12]
Basse R M, Charif O, Bódis K. Spatial and Temporal Dimensions of Land Use Change in Cross Border Region of Luxembourg. Development of a Hybrid Approach Integrating GIS, Cellular Automata and Decision Learning Tree Models[J]. Applied Geography, 2016, 67: 94-108. DOI:10.1016/j.apgeog.2015.12.001
[13]
顾及地类转换差异的城市空间扩展元胞自动机模型及应用研究[J]. 地球信息科学学报, 2018, 20(1): 48-56.
[14]
应用支持向量机的土地利用时空变化分析: 以琼海市为例[J]. 测绘地理信息, 2019, 44(1): 79-83.
[15]
基于径向基函数神经网络方法的城市生态压力预测[J]. 自然资源学报, 2013, 28(2): 328-335.
[16]
基于决策树对有无降水进行预测[J]. 测绘地理信息, 2017, 42(5): 107-109.
[17]
一种新的Boosting回归树方法[J]. 统计与信息论坛, 2010, 25(5): 9-13.
[18]
Wang F, Hasbani J G, Wang X, et al. Identifying Dominant Factors for the Calibration of a Land-Use Cellular Automata Model Using Rough Set Theory[J]. Computers, Environment and Urban Systems, 2011, 35(2): 116-125.
[19]
集成学习算法的差异性及性能比较[J]. 计算机工程, 2008, 34(6): 35-37.
[20]
集成学习: Boosting算法综述[J]. 模式识别与人工智能, 2004, 17(1): 52-59.
[21]
基于Bagging算法和遗传神经网络的交通事件检测[J]. 计算机应用与软件, 2010, 27(1): 234-236.
[22]
基于Stacking方法的多策略本体映射[J]. 计算机应用研究, 2009, 26(10): 3 653-3 656.