测绘地理信息   2018, Vol. 43 Issue (2): 38-42
0
多维数据复合下QUEST决策树遥感影像分类—以九江市为例[PDF全文]
蔡兴飞1, 林爱文1, 赵珍珍1    
1. 武汉大学资源与环境科学学院,湖北 武汉,430079
摘要: 遥感影像分类是信息提取的关键技术,融合多种类型的数据可以提高影像的解译能力。以九江市Landsat 5 TM影像为实验对象,采用多维数据复合下快速、无偏、高效统计树(quick unbiased efficient statistical tree, QUEST)算法的决策树分类方法,综合影像的光谱特征、地理信息数据和影像分类结果,根据样本数据自动挖掘分类规则,实现影像解译,并将分类结果和普通的QUEST决策树分类进行定量比较分析。结果表明:①采用多维数据复合下QUEST决策树分类的总精度和Kappa系数分别为89.83%和0.872,较普通的QUEST决策树分类方法有较大提高;②在地物类型丰富的区域,多维数据复合下QUEST决策树分类方法适应性更好;③选用SVM(support vector machine)分类结果作为辅助数据,滩地和水库坑塘的用户精度提高最为明显,分别提高了29.96%和17.08%。
关键词: 多维数据     快速、无偏、高效统计树算法的决策树     分类精度     影像分类    
Remote Sensing Image Classification of QUEST Decision Tree Based on
CAI Xingfei1, LIN Aiwen1, ZHAO Zhenzhen1    
1. School of Resource and Environmental Sciences, Wuhan University, Wuhan 430079, China
Abstract: Taking Jiujiang city as the study area, this paper proposes a method of quick unbiased efficient statistical tree (QUEST) decision tree classification based on multi-dimensional data. Combining the image spectral characteristics, geographic data and image results, according to automatic data mining classification rules, the image interpretation is realized and the quantitative analysis is carried out by comparing classification results with the ordinary QUEST decision tree. We find out that: ①The overall accuracy and Kappa coefficient of QUEST decision tree classification based on multi-dimensional data are 89.83% and 0.872, the classification method has been greatly improved compared with ordinary QUEST decision tree.②This classification method is more adaptable in the area of feature type. ③Taking support vector machine classification results as the assistant data, the user accuracy of the reservoir of pits and beach wetlands increase by 29.96% and 17.08% respectively.
Key words: multi-dimensional data     quick unbiased efficient statistical tree decision tree     classification accuracy     image classification    

遥感影像识别地物是遥感技术发展的一个重要环节,无论是专题信息提取、动态变化监测、专题制图,还是遥感数据库建设等都离不开遥感影像的分类技术[1-3]。遥感影像分类是将图像转换成有用信息的过程[4],有效地选择合适的分类方法是提高影像分类精度的关键[5]。近年来,遥感影像分类方法研究主要集中在以下3个方面:一是将机器学习算法应用于遥感分类,不断改进已有算法或设计新的算法来提高遥感数据分类的效率和精度,如自然启发算法[6];二是多分类器之间的组合,利用各分类器之间的优势互补,取得较好的分类结果[7],但是分类器过多会加大计算机的存储空间,同时也会降低分离器之间的差异,如何合适地选择分离器还需进一步研究[8];三是根据研究区的实际情况,充分利用多特征遥感数据和地理信息数据发展多维数据复合的方法来实现高精度的分类[9, 10]。本文将影像的band1~5、band7、NDVI(normalized difference vege-tation index)值、数字高程模型(digital elevation model, DEM)值、坡度值以及支持向量机的分类结果进行融合,建立多维数据复合下快速、无偏、高效统计树(quick unbiased efficient statistical tree, QUEST)的决策树。为了证实选用支持向量机(support vector machine, SVM)分类结果作为辅助数据的贡献,本文设计了普通QUEST决策树分类作为对照实验,通过定量分析说明多维数据复合下QUEST决策树对该研究区的适用性。

1 研究区数据预处理

本文以九江市作为研究对象。研究区地貌较为复杂,地形变化较大,地物类型丰富,耕地耕作情况各不相同,存在较多的同谱异物、同物异谱现象。区域内水系丰富,鄱阳湖随季节性变化大,湖泊与其他用地类型交错,边界模糊,为分类带来一定难度。九江市内的土地利用类型包括居民地、道路、耕地、河渠、湖泊、水库坑塘、滩地和植被(包括林地和草地)。

研究区雨量丰沛,云雾天气较多,数据的质量受云量影响较大。本文选用九江市2010年3月19日Landsat 5 TM影像两景和DEM数据。对影像进行辐射定标与大气校正后,利用地形图采集地面控制点对其进行几何校正,之后选用宋晓宇等[11]提出的单景遥感影像的去云算法进行处理。由于研究区是两景影像拼接而成,还需对影像做无缝镶嵌和匀色处理。裁剪出研究区的范围之后,进行图像增强处理,突出有用信息。

2 研究方法 2.1 QUEST决策树的原理

QUEST是Loh等[12]在1997年对CHAID(Chi-square automatic interaction detector)算法进行改进而提出的高效决策树构建算法。QUEST节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型C&R决策树分析所需的处理时间,同时减小分类树方法中常见的偏向类别较多预测变量的趋势[13]。QUEST算法也主要涉及分支变量和分割值的确定,但它将分支变量选择和分割点选择以不同的策略进行处理,运算过程比C&R树更简单有效[14, 15]。本文选用多维数据复合下的QUEST决策树分类方法,实验流程如图 1所示,包括影像预处理、信息提取、构建决策树、执行决策树和精度检验5个步骤。

图 1 实验流程图 Figure 1 Flow Chart of the Proposed Method

2.2 多维数据的提取

数据的提取是构建多维数据复合下QUEST决策树的前提条件。本文提取了以下几种数据。

1) 光谱维数据。在多光谱遥感图像地物识别中,光谱特征是遥感识别地物元素的重要参数。地表的各种地物由于物质组成和结构不同而具有独特的波谱反射和辐射特性,在图像上反映为各类地物在各波段上灰度值的差异。本文选用影像的band1~5和band7。NDVI是将红光与近红外光谱进行组合运算而得到的比值,具有空间覆盖范围广、植被监测灵敏度高等优势,通常用于监测植被的生长状态、植被覆盖度[16]。利用ENVI 5.1中波段计算工具计算NDVI值,计算公式为:

NDVI=(NIR-R)/(NIR+R)

其中, NIR表示近红外辐射波段的波谱特征; R表示红光波段的波谱特征。NDVI的取值范围为-1.0~1.0,由于该指数与植被密度呈正相关,因此,NDVI值越大,表示植被覆盖情况越好。

2) 地理信息辅助数据。DEM数据是对山区遥感影像进行地形纠正的基础,将地面高程信息引入遥感影像分类是提高遥感分类精度的有效措施之一[17-19]。在ArcGIS 3D Analyst工具中提取坡度,生成相应的坡度分级图。针对该区植被垂直分带且阴阳坡差异较大的特点,引入DEM值和坡度值,可以减少遥感影像分类中常出现的同谱异物现象,从而有效提高遥感影像的分类精度。

3) 支持向量机分类结果。支持向量机分类算法是把线性分类问题转换到一个高维特征空间中去解决,在高维空间中构建分类超片面来实现输入空间的分类问题,而且分类算法的复杂性不随训练样本的维数改变。其目标是在训练样本有限的情况下寻求输入空间的最佳分类效果,它能够更好地适应小样本分类。该算法的过程是寻求一个全局最优解,以此解决某些分类算法中无法避免的局部极值问题[20]。同时因其具有小样本学习、高维空间、非线性等优点,在解决高维数据分类、小样本学习、抗噪声影响等方面体现出了明显的优越性,广泛应用于遥感影像的分类。将支持向量机的分类结果作为辅助数据,通过与其他的辅助数据共同建立决策规则来完成分类,以提高影像的分类精度。

2.3 构建多维数据复合下的QUEST决策树

进行多维数据复合下QUEST决策树分类前,先选用监督分类中支持向量机分类对预处理过的影像分类,分类后发现该区的水体无法细分,滩地和沼泽的分离性很差。分析实验结果后,设计了运用多维数据复合下QUEST决策树分类实验。实验选用遥感光谱数据中的band1~5、band7、NDVI值、地理信息数据DEM值、坡度值、影像分类结果和SVM分类结果,利用ENVI 5.1中波段叠加工具将多维数据融合组成一个多数据量的图像。

训练样本的选取是构建分类决策树模型的关键步骤,训练样本的代表性和全面性直接关系到分类结果的精度。通过目视解译,结合高分辨率遥感影像,综合地类的光谱特征、纹理特征和形状大小特征等,对实验区待分地类进行样本选取,总选取像元为2 877个。选好训练样本后,利用ENVI 5.1中的Rule Gen工具建立分类规则。本实验中执行决策树分类后生成了较多节点,这里选用部分决策树模型,如图 2所示。

图 2 部分决策树模型 Figure 2 Part Decision Tree Model

利用训练样本生成判别函数,根据不同取值建立树的分支,在每个分支子集中重复建立下层节点和分支,形成分类树。影像中的耕地与沼泽、耕地与滩地在光谱响应曲线中表现的差异性较小,利用DEM值、坡度值和SVM分类结果可以避免出现同谱异物的现象。加入影像的分类结果后,对河渠、湖泊和水库坑塘的分类有积极的作用。

3 结果与分析 3.1 训练区样本的分析

ENVI 5.1使用计算ROI可分离性工具来计算任意类别间的统计距离,该距离用于确定两个类别间的差异性程度。类别间的统计距离是基于Jeffries-Matusita距离和转换分离度来衡量训练样本的可分离性。这两个参数的值在0~2.0之间,如果值大于1.9,说明样本之间可分离性好,属于合格样本;如果值小于1.8,需要重新选择样本;如果值小于1,考虑将两类样本合成一类样本。具体如表 1所示。

表 1 训练样本的可分离性 Table 1 Separability of Training Samples

本实验中采用Jeffries-Matusita距离作为地类间可分离性的量度,地类之间的分离性都大于1.9,属于合格样本。

3.2 分类结果

分类过程中选用的3种分类方法如图 3所示,分别是SVM分类(图 3(a))、普通QUEST决策树分类(图 3(b))和多维数据复合下QUEST决策树分类(图 3(c)),从图 3(a)图 3(c)依次是实验A到实验C不断改进的过程。

图 3 分类结果图 Figure 3 Result of Classification

3.3 分类精度评价

为消除分类精度评价中主观性的影响,使分类精度有一个较为客观的评价,采用ERDAS分类精度工具产生的6 412个随机点,同时参考Google Earth高分辨率影像图和江西省土地利用分布图来评价分类结果。

图 3中,从实验A到实验C,总精度和Kappa系数不断提高。多维数据复合下的QUEST决策树总精度为89.83%,相比普通的QUEST决策树分类,总精度提高了4.71%,Kappa系数也由原来的0.813提高到0.871。对比3种分类方法,SVM分类方法在居民地和道路与耕地的分类中精度稍高于QUEST决策树分类,但对于其他类型的地物QUEST决策树分类有较高的分类精度,对于SVM难以正确分类的地类,QUEST决策树能较好的区分。

表 2是3种方法的分类精度评价表,图 4是3种方法的用户精度图,其中,制图精度是指分类器将整个图像的像元正确分为某类的像元数与该类真实参考总数的比率;用户精度是指正确分到某类的像元总数与分类器将整个图像的像元分为该类的像元总数的比率。制图精度越高,漏分误差越低;用户精度越高,说明在分类中错分误差越小。表 2中,湖泊、水库坑塘和滩地的制图精度有明显的提高,说明多维数据复合下QUEST决策树通过建立一定的决策规则,使分类结果更细化、更实用。

表 2 3种方法分类精度评价表/% Table 2 Accuracy Assessment of Three Methods/%

图 4 3种方法的用户精度 Figure 4 User Accuracy of Three Methods

表 2图 4可以看出,河渠和滩地的用户精度提高得最为显著。在QUEST决策树分类的两组实验中,多维数据复合下的QUEST决策树整体的用户精度高于普通QUEST决策树,滩地、水库坑塘和沼泽的精度提高较多,尤其是滩地从49.47%提高到79.43%。鄱阳湖水面和周围的沼泽边界交错,滩地随水位升降而出现不同显示,水库坑塘分布零散,面积较小,仅用影像自身的特征难以区分,加入影像的分类结果之后,一些难以区分地类的分类精度有了一定的提高。

表 3可以看出,居民地和道路与耕地容易出现错分和漏分的情况,由于实验中所选用的影像季节是3月份,耕地的耕作情况不同,对于一些没有耕作的耕地容易出现混淆。在沼泽和耕地的区分中,有部分沼泽漏分而分到了耕地中,影响了沼泽的制图精度,同时也降低了耕地的用户精度。混淆矩阵中,滩地部分从行表示的错分像元和列表示的漏分像元都出现了较多耕地的像元,降低了滩地的用户精度和制图精度。水库坑塘中出现了较多漏分现象,从而影响了水库坑塘的制图精度。从混淆矩阵中可以看出地类间的混淆程度,辨别出不易区分的地物。

表 3 多维数据复合下QUEST决策树分类的混淆矩阵 Table 3 Confusion Matrix of the QUEST Decision Tree Based on Multi-dimensional Data

4 结束语

本文选用QUEST决策树分类方法,在特征数据选取中,除了光谱特征、DEM值和坡度值之外,还选用SVM分类结果作为辅助数据,经3组实验分析对比,证实了多维数据复合下QUEST决策树对提高影像的分类精度有很大的贡献。在遥感影像分类实验中,仅仅不断地改进算法是难以达到生产使用的要求的[8],而充分挖掘不同类型的数据与合适的算法相结合的方式,既可以从算法的角度运用数学函数模型或统计原理来细化分类过程,又可以在原始影像的基础上增加对研究区有用的信息量,使影像本身就有了较好的可分离性。

多维数据与算法结合是提高遥感影像分类精度的一种有效方式,但对于不同的研究区,如何挖掘有用信息也是难点,有时数据选用太多反而会影响实验的精度和效率。同时加入更多的信息量使生成的节点数也相应的增多,如何更好地优化决策树的方法还需要进一步研究。

参考文献
[1] Sexton J O, Urban D L, Donohue M J, et al. Long-Term Land Cover Dynamics by Multi-Temporal Classification Across the Landsat-5 Record[J]. Remote Sen-sing of Environment, 2013, 128(128): 246–258
[2] Karlson M, Ostwald M. Remote Sensing of Vegetation in the Sudano-Sahelian Zone:A Literature Review from 1975 to 2014[J]. Journal of Arid Environments, 2016, 124: 257–269 DOI: 10.1016/j.jaridenv.2015.08.022
[3] Tian F, Brandt M, Liu Y Y, et al. Remote Sensing of Vegetation Dynamics in Drylands: Evaluating Vegetation Optical Depth (VOD) Using AVHRR NDVI and in Situ Green Biomass Data over West African Sahel[J]. Remote Sensing of Environment, 2016, 177: 265–276 DOI: 10.1016/j.rse.2016.02.056
[4] 胡文元, 聂倩, 黄小川. 基于纹理和光谱信息的高分辨率遥感影像分类[J]. 测绘信息与工程, 2009, 34(1): 16–18
[5] 贾坤, 李强子, 田亦陈, 等. 遥感影像分类方法研究进展[J]. 光谱学与光谱分析, 2011, 31(10): 2618–2623 DOI: 10.3964/j.issn.1000-0593(2011)10-2618-06
[6] Goel S, Gaur M, Jain E. Nature Inspired Algorithms in Remote Sensing Image Classification[J]. Procedia Computer Science, 2015, 57: 377–384 DOI: 10.1016/j.procs.2015.07.352
[7] 孙灏, 杜培军, 赵卫常. 基于多分类器组合的高分辨率遥感影像目标识别[J]. 地理与地理信息科学, 2009, 25(1): 32–35
[8] 张雁, 吴保国, 王冬. 遥感影像分类方法研究动态[J]. 安徽农业科学, 2012, 40(28): 14107–14110 DOI: 10.3969/j.issn.0517-6611.2012.28.150
[9] 赵萍, 傅云飞, 郑刘根, 等. 基于分类回归树分析的遥感影像土地利用/覆被分类研究[J]. 遥感学报, 2005, 9(6): 708–716 DOI: 10.11834/jrs.200506103
[10] 王婷, 周廷刚, 吴忠芳. 基于知识规则的遥感影像土地利用分类研究[J]. 地理与地理信息科学, 2008, 24(4): 32–35
[11] 宋晓宇, 刘良云, 李存军, 等. 基于单景遥感影像的去云处理研究[J]. 光学技术, 2006, 32(2): 299–303
[12] Loh W Y, Shih Y S. Split Selection Methods for Classification Trees[J]. Statistica Sinica, 1997, 7: 815–840
[13] 吴健生, 潘况一, 彭建, 等. 基于QUEST决策树的遥感影像土地利用分类——以云南省丽江市为例[J]. 地理研究, 2012, 31(11): 1973–1980
[14] 邹文涛, 张怀清, 鞠洪波, 等. 基于QUEST树的高寒湿地植被覆盖类型遥感分类研究[J]. 中南林业科技大学学报, 2011, 31(12): 138–144 DOI: 10.3969/j.issn.1673-923X.2011.12.025
[15] 林丽群, 舒宁. 基于决策树的多光谱影像分类研究[J]. 测绘信息与工程, 2006, 31(5): 1–3
[16] 冯露, 岳德鹏, 郭祥. 植被指数的应用研究综述[J]. 林业调查规划, 2009, 34(2): 48–52
[17] 陈艳华, 张万昌. 地理信息系统支持下的山区遥感影像决策树分类[J]. 国土资源遥感, 2006, (1): 69–74 DOI: 10.6046/gtzyyg.2006.01.16
[18] 厍向阳, 薛惠锋, 雷学武, 等. 基于分类规则挖掘的遥感影像分类研究[J]. 遥感学报, 2006, 10(3): 332–338
[19] 齐红超, 祁元, 徐瑱. 基于C5.0决策树算法的西北干旱区土地覆盖分类研究——以甘肃省武威市为例[J]. 遥感技术与应用, 2009, 24(5): 648–653 DOI: 10.11873/j.issn.1004-0323.2009.5.648
[20] Mountrakis G, Im J, Ogole C. Support Vector Machines in Remote Sensing: A Review[J]. ISPRS Journal of Photogrammetry & Remote Sensing, 2011, 66(3): 247–259