测绘地理信息   2022, Vol. 47 Issue (5): 73-77
0
面向西北内陆复杂地形地貌区域的土地利用分类方法[PDF全文]
顾晶晶1,2,3,4, 冶运涛1,4, 何毅1,2,3, 曹引4, 赵红莉1,4, 蒋云钟1,4    
1. 兰州交通大学测绘与地理信息学院,甘肃 兰州,730070;
2. 地理国情监测技术应用国家地方联合工程研究中心,甘肃 兰州,730070;
3. 甘肃省地理国情监测工程实验室,甘肃 兰州,730070;
4. 中国水利水电科学研究院水资源研究所,北京,100038
摘要: 中国西北地区自然环境恶劣、地形地貌复杂、植被覆盖度低,大量土地裸露,使用传统分类方法很难准确提取土地利用信息。以兰州市为研究区,基于Landsat 8 OLI遥感影像和数字高程模型(digital elevation model,DEM)数据提取指数特征、纹理特征和地形特征作为分类特征变量。首先,基于随机森林分类(random forests classification,RFC)算法对3种特征变量的分类有效性进行检验;在此基础上,构建4种特征组合实验方案,筛选出最优土地利用分类特征组合。结果表明,单一的指数特征、纹理特征和地形特征均可显著提高一种或多种土地利用类型的分类精度;最佳分类特征组合的分类精度达到90. 82%,Kappa系数为0. 897。
关键词: 土地利用分类    随机森林算法    特征选择    西北内陆    Landsat 8    
Land Use Classification Method for Complex Topography and Landform Area in Northwest China Inland
GU Jingjing1,2,3,4, YE Yuntao1,4, HE Yi1,2,3, CAO Yin4, ZHAO Hongli1,4, JIANG Yunzhong1,4    
1. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China;
2. National-Local Joint Engineering Research Center of Technologies and Applications for National Geographic State Monitoring, Lanzhou 730070, China;
3. Gansu Provincial Engineering Laboratory for National Geographic State Monitoring, Lanzhou 730070, China;
4. Department of Water Resources, China Institute of Water Resources and Hydropower Research, Beijing 100038, China
Abstract: Northwest China Inland is characterized by adverse natural conditions, complicated topography and landforms, low vegetation coverage and a large amount of bare land. It's difficult to accurately extract land use information by traditional classification methods. We take Lanzhou as the study area, and extract the index feature, texture feature and terrain feature with Landsat 8 OLI remote sensing images and digital ele vation model(DEM). First, random forest classification (RFC)algorithm is used to test the validity of three-feature classification. Then, four experimental schemes composed of different features are constructed to screen out the optimal combination of land use classification features. The results show that the single index feature, texture feature and terrain feature can effectively improve the classification accuracy of one or more land use types. The classification accuracy and Kappa coefficient of the optimal combination of classification features are 90. 82% and 0. 897, respectively.
Key words: land use classification    random forest algorithm    feature selection    Northwest China Inland    Landsat 8    

土地利用/土地覆被变化不仅是全球变化研究的重要基础数据,也是区域气候、水资源和生态环境的主要影响因素[1]。卫星遥感技术具有宏观、时效、经济等特点,已成为土地利用信息提取的主要手段[2]。Landsat系列卫星数据具有较高的空间分辨率、光谱分辨率,信息丰富,在区域尺度土地利用分类研究中应用广泛[3]

近年来,机器学习算法在土地利用分类研究中得到广泛应用,如支持向量机、人工神经网络、随机森林等[4, 5]。其中,随机森林算法因其训练和预测速度快、分类精度高、可处理高维数据等优势,被广泛应用于土地利用分类研究。文献[6-8]的研究结果表明,相较于最大似然法、Adaboost、支持向量机和人工神经网络等算法,随机森林算法的分类精度更优秀。

中国西北地区地形复杂,以丘陵和山地为主,地块破碎、混合像元多,对利用卫星遥感技术的地物信息提取造成较大干扰[9]。土地利用分类的难点有:①地处黄土高原,水土流失严重,生态环境脆弱,地形起伏大,山地、丘陵和平原并存,复杂的地形给分类增加了难度;②山区植被稀疏,土地裸露,地表反射率高,易被错分为高反射率建筑物;③西北地区耕地多以山地梯田为主,纹理明显,而山区部分草地也呈现相似纹理,所以仅利用纹理特征无法准确分类。

本文以兰州市为研究区,利用Landsat 8 OLI卫星数据构建指数特征和纹理特征,基于数字高程模型(digital elevation model,DEM)数据提取地形特征;采用随机森林分类算法对上述3种特征进行土地利用分类有效性检验;并在此基础上构建4组实验方案,对比其分类精度,筛选出最适合兰州市的土地利用分类特征组合。

1 研究区、数据源与数据预处理 1.1 研究区概况

兰州市位于中国西北部、甘肃省中部,黄河自西向东横贯全境,南北两山隔河而立,形成了“两山夹一川”的河谷形城市。兰州市属温带大陆性气候,年平均气温10.3 ℃,年平均降水量327 mm;地势西南高,东北低,主要地貌类型为丘陵和盆地。本文以兰州市城关区、七里河区、安宁区和西固区为研究区,区域海拔1 484~2 502 m。黄河是城市工农业和生活用水的主要来源,城区依河而建;北山植被覆盖度低,裸地集中;梯田和林地集中分布于南山,西北部山区以低覆盖度草地和裸地为主。

1.2 数据源及预处理

遥感数据为Landsat 8 OLI影像,包括分辨率为30 m的多光谱影像和分辨率为15 m全色影像,时间为2016年7月15日,云覆盖1.81%,来源于美国地质勘测局(https://earthexplorer.usgs.gov/)。两景30 m空间分辨率的DEM数据来源于地理空间数据云(http://www.gscloud.cn/)。

数据预处理步骤如下:

1)Landsat 8 OLI数据。首先利用ENVI 5.3对多光谱数据和全色波段数据进行辐射定标,采用FLAASH模型对定标后的多光谱数据进行大气校正,得到地物的真实反射率数据;然后利用Gram-Schmidt方法将多光谱数据和全色波段数据融合;最后利用研究区的矢量范围进行裁剪。

2)DEM数据。在ArcGIS 10.6中对两景DEM数据进行填洼、拼接等处理,利用研究区矢量范围进行裁剪,并与遥感数据统一投影系统。

2 研究方法 2.1 特征变量

兰州市作为典型的河谷型城市,山地和丘陵并存,植被覆盖度低,部分高反射率建筑物与裸地光谱信息相似。针对兰州市的地貌特点,利用单一分类特征很难准确提取土地利用信息,需要结合区域特点,针对性地选取分类特征。

研究区南北两山土地覆被差异明显,北山植被稀疏且存在大量裸地,南山耕地和草地相间。归一化植被指数(normalized difference vegetation index,NDVI)能反映植被生长状况和分布密度,在植被识别方面是较好的参数[10, 11]。对于纹理特征明显或光谱信息相似但纹理不同的地物,以纹理特征为辅助特征进行区分,这种方法在土地利用分类中被广泛使用[12]。研究区内山区以梯田为主,纹理特征突出,而裸地与部分建筑物虽然光谱相似,但纹理有明显差异。研究区中部海拔低,坡度小,建筑物集中,四周为高海拔山区,坡度大,以耕地、草地和裸地为主。

以Landsat 8 OLI为源数据,通过多光谱波段计算NDVI、归一化建筑指数(normalized difference build-up index,NDBI)、归一化水体指数(normalized difference water index,NDWI);利用全色波段包含的丰富纹理信息提取均值、方差、熵和二阶矩等纹理特征。基于DEM数据,在ArcMap 10.6中计算出坡度和坡向。

2.2 分类体系及样本点选取

综合考虑研究区的土地利用特点、自然环境和Landsat 8的影像分辨率,并参考国家标准《土地利用现状分类》GB/T 21010—2017,确定分类体系为林地、草地、建设用地、耕地、水体和裸地。

分类样本的准确性是高精度土地利用分类的前提[13, 14]。以多光谱假彩色波段组合为基础,辅以高分辨率Google影像和兰州市土地利用现状图,在研究区均匀选取分类样本。利用ArcMap 10.6在研究区内生成300个随机点作为验证样本,将随机点以6类土地利用类型属性赋值。

2.3 随机森林分类算法

随机森林是一种基于决策树集成的机器学习算法[15]。决策树是一种简单、快捷且无参的分类方法,大多数情况下有较高的分类精度,但是当数据过于复杂或存在噪音时,过拟合现象明显[16]。随机森林分类则是组合多棵决策树对样本的训练结果,最终分类结果由众多决策树投票得到,削弱了过拟合问题,有效提高了分类器的泛化能力[17]。其基本思路如下:首先用自助法有放回地随机抽取样本训练集,每次抽取数量约为总量的2/3,剩余1/3用来估计训练内部误差;然后为抽取样本集生成各自的分类决策树,合并所有决策树,生成一个分类森林;最终综合所有决策树的结果,通过投票策略完成最终分类。

构建随机森林分类器需定义随机森林中决策树数量(ntree)和随机特征变量个数(mtry)两个参数。ntree的大小直接关系到投票数量和分类准确率,依据大数定律,当决策树数量增加时,随机森林模型泛化误差会收敛[18]。但实际实验中并不是ntree越大,精度越高,而是取一定范围内的某个值时,分类精度达到最高[19]。通过大量实验发现,当ntree=300时误差逐渐收敛并趋于稳定,此时mtry为总特征数的平方根。

3 结果与分析 3.1 特征变量有效性检验

特征变量有效性评价的基本思路是以原始光谱信息为基础,分别将指数特征、纹理特征和地形特征与光谱数据进行波段合成,利用相同的分类样本和随机森林分类器参数进行实验,通过对比加入特征变量前后分类精度的变化,评价特征变量的有效性。

3.1.1 引入指数特征

NDVI已被广泛应用于植被生长状况监测、植被空间分布密度等方面,且对植被的不同土壤背景较敏感,是反映植被信息的最佳指示因子[20]。NDBI最早被称为仿植被归一化指数,后来有学者将其修改为NDBI,研究表明NDBI对提取城镇用地有效[21, 22]。NDWI在水体提取研究中应用广泛[23]。3种指数特征计算公式如下:

$ \mathrm{NDVI}=\left(\rho_{\mathrm{Nir}}-\rho_{\mathrm{R}}\right) /\left(\rho_{\mathrm{Nir}}+\rho_{\mathrm{R}}\right) $ (1)
$ \mathrm{NDBI}=\left(\rho_{\mathrm{Mir}}-\rho_{\mathrm{Nir}}\right) /\left(\rho_{\mathrm{Mir}}+\rho_{\mathrm{Nir}}\right) $ (2)
$ \mathrm{NDWI}=\left(\rho_{\mathrm{G}}-\rho_{\mathrm{Nir}}\right) /\left(\rho_{\mathrm{G}}+\rho_{\mathrm{Nir}}\right) $ (3)

式中,ρNir表示近红外波段;ρR表示红外波段;ρMir表示中红外波段;ρG表示绿波段。

引入NDVI、NDBI、NDWI后的分类精度见表 1。加入3种指数后,水体、耕地、林地和建设用地的分类精度分别提高了1.8%、3.03%、5.04% 和4.33%,而草地和裸地分类精度分别下降5.48% 和1.85%,这可能是因为研究区内草地植被密度低,裸地和植被光谱特征都存在,仅利用NDVI信息很难将两者准确区分[24]

表 1 引入指数特征后土地利用分类精度 Tab.1 Accuracy of Land Use Classification After Adding Index Features

3.1.2 加入纹理特征

遥感影像分类中,对于纹理特征明显的类型(如建筑物和耕地),相较于单一光谱信息,加入纹理特征可以显著提高其分类精度[25]。纹理特征提取方法中,灰度共生矩阵是土地利用分类中提取纹理特征最常用的方法。利用其提取的纹理特征包括均值、方差、协同性、对比度、相异性、信息熵、二阶矩和相关性[26]

为探究哪种纹理特征更适用研究区土地利用分类,分别对8种纹理进行分类实验,通过与全部加入纹理特征后的分类结果对比,选择最适合的纹理特征。加入纹理特征后分类精度见表 2。加入全部8种纹理特征信息后,除林地外,其余地物分类精度都有一定提升。兰州市属于干旱区,水资源匮乏,水体主要为黄河和少量人工湖,而这两者纹理特征明显,使得水体分类精度提高了26.62%。其中,林地分类精度降低是由于城区林地与耕地纹理特征相似,均为规则矩形,所以出现了错分。

表 2 引入纹理特征后土地利用分类精度 Tab.2 Accuracy of Land Use Classification After Adding Texture Features

通过纹理特征优选实验发现,相较于其他纹理特征,单一方差纹理除了水体外,其他覆被分类精度和总分类精度都有提高。所以单独将方差纹理作为分类特征加入分类器是较好的选择,可有效减少纹理特征之间的信息冗余。

3.1.3 引入地形信息

海拔、坡度和坡向等地形因素在一定程度上决定了土地利用类型[27]。根据1984年颁布的《土地利用现状调查技术规程》,当坡度大于25% 时,不可开荒为耕地,已经开垦为耕地的应逐步退耕还林[25]。坡向直接决定了山地太阳辐射强度和日照时长,对山地生态影响明显[28]。兰州市位于黄土高原区域,海拔最大差值约1 000 m,坡度最大值约88%。基于兰州市典型的地形特点,引入地形特征后的分类精度见表 3

表 3 引入地形特征后土地利用分类精度 Tab.3 Accuracy of Land Use Classification After Adding Terrain Features

一般而言,耕地、建筑物和水体主要分布在0~ 25% 坡度范围;草地和林地分布在20%~40% 坡度范围[29]。由表 3可以看出,加入地形特征后,各类地物分类精度都有提升。其中,研究区内林地和草地主要分布在海拔高、坡度大的山区,且阳坡和阴坡植被差异大,这使得林地和草地分类精度分别提高了7.42%、6.97%。

3.2 不同特征组合精度比较

对不同特征变量进行有效性检验,结果表明,单一特征变量无法提高所有土地利用类型的分类精度。为探索最适合研究区的特征变量组合,构建以下4组实验方案:

1)实验1:6MS+Pan+OIF+TXT(var)

2)实验2:6MS+Pan+OIF+DEM(3)

3)实验3:6MS+Pan+TXT(var)+DEM(3)

4)实验4:6MS+Pan+OIF+TXT(var)+DEM(3)

4种实验方案分类精度如图 1所示。实验4的总体分类精度最高,为90.82%,Kappa系数为0.897,单一土地利用类型分类精度大多在85% 以上,高于其他3种方案的分类精度,所以研究区的最佳特征组合为6MS+Pan+OIF+TXT(var)+DEM(3)。该分类方案精度较高的原因是草地和梯田集中在山区,且分布稀疏,需要利用坡度、坡向区分和提取;建筑物和裸地两者光谱相似,但高程、坡度相差较大,可以利用其差异进行区别和提取;研究区内水体以黄河为主,通过NDWI信息提取,利用NDVI辅助识别植被,利用NDBI对建筑物进行提取,再叠加纹理信息,总体分类精度和各土地利用类型分类精度都较高。

图 1 不同实验方案土地利用分类精度 Fig.1 Accuracy of Land Use Classification of Different Experimental Schemes

4 结束语

本文基于Landsat 8 OLI影像和DEM数据提取指数特征、纹理特征和地形特征变量,并在特征变量有效性检验的基础上,构建了4种实验方案,采用随机森林算法对兰州市进行土地利用分类研究。主要结论如下:

1)特征变量的有效性检验结果表明,指数特征、纹理特征和地形特征均能对一种或多种土地利用类型的分类精度有明显提升,但单一特征变量并不能显著提高所有土地利用类型的分类精度。

2)对比4组实验方案的分类结果得出,只有综合所有特征变量的分类优势,才能有效解决复杂地形土地利用分类的难题。

参考文献
[1]
宋军伟, 张友静, 李鑫川, 等. 基于GF-1与Landsat 8影像的土地覆盖分类比较[J]. 地理科学进展, 2016, 35(2): 255-263.
[2]
马长辉, 黄登山. 纹理与几何特征信息在高空间分辨率遥感影像分类中的应用[J]. 测绘地理信息, 2019, 44(6): 66-70.
[3]
赵兵杰, 王贺封, 张安兵, 等. GF-1 WFV与Landsat 8 OLI的NDVI交互比较与定量关系研究[J]. 测绘地理信息, 2019, 44(6): 60-65.
[4]
王李娟, 孔钰如, 杨小冬, 等. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报, 2020, 36(4): 244-250.
[5]
He Y, Dou P, Yan H W, et al. Quantifying the Main Urban Area Expansion of Guangzhou Using Landsat Imagery[J]. International Journal of Remote Sensing, 2018, 39(21): 7693-7717. DOI:10.1080/01431161.2018.1478465
[6]
Chan J C W, Paelinckx D. Evaluation of Random Forest and Adaboost Tree-Based Ensemble Classification and Spectral Band Selection for Ecotope Mapping Using Airborne Hyperspectral Imagery[J]. Remote Sensing of Environment, 2008, 112(6): 2999-3011. DOI:10.1016/j.rse.2008.02.011
[7]
田绍鸿, 张显峰. 采用随机森林法的天绘数据干旱区城市土地覆盖分类[J]. 国土资源遥感, 2016, 28(1): 43-49.
[8]
张德军, 颜玮, 陈志军, 等. 基于GF-1数据复杂地区地物类型提取探究[J]. 西南大学学报(自然科学版), 2021, 43(11): 172-185.
[9]
韦玲霞. 基于地形复杂度的农用地整治项目选址适宜性评价: 以甘肃省天水市为例[J]. 中国农业资源与区划, 2020, 41(1): 250-258.
[10]
杨勇, 任志远. 基于GIS的关中地区土地利用/覆盖变化对比研究[J]. 干旱区资源与环境, 2013, 27(5): 40-45.
[11]
左玉珊, 王卫, 郝彦莉, 等. 基于MODIS影像的土地覆被分类研究: 以京津冀地区为例[J]. 地理科学进展, 2014, 33(11): 1556-1565.
[12]
亢庆, 张增祥, 赵晓丽. 基于遥感技术的干旱区土壤分类研究[J]. 遥感学报, 2008, 12(1): 159-167.
[13]
Zhang Y, Qin K, Bi Q, et al. Landscape Patterns and Building Functions for Urban Land-Use Classification from Remote Sensing Images at the Block Level: A Case Study of Wuchang District, Wuhan, China[J]. Remote Sensing, 2020, 12(11): 1831-1851.
[14]
洪志刚, 丛楠, 闫利, 等. 不同时相遥感影像的土地利用分类精度分析[J]. 测绘科学, 2012, 37(1): 112-114.
[15]
张卫春, 刘洪斌, 武伟, 等. 基于随机森林和Sentinel-2影像数据的低山丘陵区土地利用分类: 以重庆市江津区李市镇为例[J]. 长江流域资源与环境, 2019, 28(6): 1334-1343.
[16]
刘建光, 李红, 孙丹峰, 等. MODIS土地利用/覆被多时相多光谱决策树分类[J]. 农业工程学报, 2010, 26(10): 312-318.
[17]
马慧娟, 高小红, 谷晓天. 随机森林方法支持的复杂地形区土地利用/土地覆被分类研究[J]. 地球信息科学学报, 2019, 21(3): 359-371.
[18]
陆宁辛. 随机森林算法在高分辨遥感影像土地覆被分类中的实现和应用[D]. 合肥: 安徽农业大学, 2015
[19]
周天宁, 明冬萍, 赵睿. 参数优化随机森林算法的土地覆盖分类[J]. 测绘科学, 2017, 42(2): 88-94.
[20]
季顺平, 田思琦, 张驰. 利用全空洞卷积神经元网络进行城市土地覆盖分类与变化检测[J]. 武汉大学学报· 信息科学版, 2020, 45(2): 233-241.
[21]
杨山. 发达地区城乡聚落形态的信息提取与分形研究: 以无锡市为例[J]. 地理学报, 2000, 55(6): 671-678.
[22]
查勇, 倪绍祥, 杨山. 一种利用TM图像自动提取城镇用地信息的有效方法[J]. 遥感学报, 2003, 7(1): 37-40.
[23]
贾祎琳, 张文, 孟令奎. 面向GF-1影像的NDWI分割阈值选取方法研究[J]. 国土资源遥感, 2019, 31(1): 95-100.
[24]
黄小巾, 李家存, 丁凤. 基于改进NDBI指数法的不透水面信息提取[J]. 地理空间信息, 2013, 11(5): 63-64.
[25]
曹晶晶, 王一鸣, 毛文华, 等. 基于纹理和位置特征的麦田杂草识别方法[J]. 农业机械学报, 2007, 38(4): 107-110.
[26]
张增祥, 汪潇, 温庆可, 等. 土地资源遥感应用研究进展[J]. 遥感学报, 2016, 20(5): 1243-1258.
[27]
信忠保, 许炯心. 黄土高原地区植被覆盖时空演变对气候的响应[J]. 自然科学进展, 2007, 17(6): 770-778.
[28]
戴声佩, 张勃, 王海军, 等. 中国西北地区植被覆盖变化驱动因子分析[J]. 干旱区地理, 2010, 33(4): 636-643.
[29]
胡荣明, 李锐, 郭斌, 等. 坡度对土地利用/覆被变化的影响研究[J]. 水土保持通报, 2011, 31(6): 203-206.