干涉测量土地利用影像分类决策树法森林识别研究

文章信息

白黎娜, 李增元, 陈尔学, 庞勇.

Bai Lina, Li Zengyuan, Chen Erxue, Pang Yong.

A STUDY ON FOREST IDENTIFICATION WITH THE DECISION TREE FOR INTERFEROMETRIC LAND-USE IMAGE

林业科学, 2003, 39(1): 86-90.

Scientia Silvae Sinicae, 2003, 39(1): 86-90.

文章历史

收稿日期：2002-01-18

作者相关文章

白黎娜

李增元

陈尔学

庞勇

引用本文

白黎娜, 李增元, 陈尔学, 庞勇. 2003. 干涉测量土地利用影像分类决策树法森林识别研究. 林业科学, 39(1): 86-90.

Bai Lina, Li Zengyuan, Chen Erxue, Pang Yong. 2003. A STUDY ON FOREST IDENTIFICATION WITH THE DECISION TREE FOR INTERFEROMETRIC LAND-USE IMAGE. Scientia Silvae Sinicae, 39(1): 86-90.

干涉测量土地利用影像分类决策树法森林识别研究

白黎娜, 李增元, 陈尔学, 庞勇

中国林业科学研究院资源信息研究所北京 100091

收稿日期：2002-01-18

基金项目：国家863计划308主题“ERS SAR干涉测量森林制图技术研究”课题(308-14-05(3))资助

美国马里兰大学孙国清教授提供了 OC1软件并指导运作, 原中国林业科学研究院资源信息研究所贺光明助理研究员在基于判断树分类软件研制的过程中给予热心帮助, 研究生赵峰做了许多具体工作, 特此一并致谢。

摘要： 利用ERS-1和ERS-2 SAR串行轨道数据经干涉测量处理生成的干涉测量土地利用影像对森林识别方法进行初步研究。内容包括基于目标识别选择合成干涉测量土地利用影像处理方法、应用斜分类器(OC1)生成分类决策树以及在自主开发的软件中调整分类决策树、对分类结果进行像元级别上的精度检验和误差分析等。结果表明:ERS-1和ERS-2 SAR串行轨道数据经干涉测量处理,利用其强度影像和相干影像可以合成多种干涉测量土地利用影像; 其中最小值影像和标准差影像较之于其它强度影像和变化影像更有利于区分水体和森林; 由于OC1生成决策树的算法决定了在分类处理中没有不可分类别的存在,所以在初期选择分类类别时,要尽可能多的覆盖原始影像的数值区间; 选择的各类别样本数据要尽可能的"纯",以减少类别间数值区间的重叠,从而减少误分类情况。

关键词： ILU影像干涉测量森林识别分类决策树

A STUDY ON FOREST IDENTIFICATION WITH THE DECISION TREE FOR INTERFEROMETRIC LAND-USE IMAGE

Bai Lina, Li Zengyuan, Chen Erxue, Pang Yong

Institute of Forest Resource Information Technique, The Chinese Academy of Forestry Beijing 100091

Abstract: The preliminary results of the study on forest identification with Interforemetric Land-use (ILU)image produced from ESA tandem data is presented in this paper.The contents relate to the selection of bands for building ILU image based on the aim of recognizing,the production of decision tree using Oblique Classifier 1 (OC1)and rectification of decision tree with our software,the evaluation of classification precision on pixel to pixel and the error analysis. ILU image is generally combined in the following way :the R(red)band is the coherence image,the G (green)band is the intensity image and the B (blue)band is the intensity difference image.The coherence image for one pair of SAR data is exclusive which means the R band is changeless,but the others might be different expressions.After synthetically comparing and analyzing for the histograms of different images and the classified images,it is fixed finally that the ILU image for recognizing forest and non-forest is composed of the coherence image(R),the minimum value image (G)and the standard deviation image (B).We developed a classification software based-on decision tree since the decision tree produced from OC1 is not satisfied our need of classification. The processing steps are as following :(1)to collect the sample coordinates of various classes using Global Position System (GPS)in field work,(2)to get the sample data from ILU image according to their coordinates,(3)to remove the case of small probability and to create the decision tree using OC1,(4)to classify ILU image with the classification software based-on decision tree and (5)to do post processing on classified image.The classification accuracy for forest is 77 %,for non-forest is 81 %and for totals is 79 %. The conclusions are as follows :After Interferometric processing,many kinds of ILU image based on different aim of application can be composed with two intensity images and one coherence image of a pair of ERS-1 and ERS-2 SAR image to be apart one day.The minimum value image and standard deviation image are better for distinguishing between forest area and water bodies than another intensity images and different images.There is no unclassified classes in the result dependent on the algorism of producing decision tree of OC1,the classes selected should cover data value range of image as many as possible and the sample data should be as "pure" as possible to reduce the error in the classified result.

Key words: ILU image Interferometry Forest mapping Decision tree

雷达干涉测量(radar interferometry)是一种将复型雷达数据中的雷达相位信息作为信息源提取地球表面三维信息的技术。从它首次被应用于月球和金星表面的观测(Rogers et al., 1969)，到利用干涉合成孔径雷达数据(interferometric synthetic aperture radar, INSAR)对植被和地物类型的识别，经历了一个从机载到星载、从对星球观测到对地观测、从单天线SAR(synthetic aperture radar)重复轨道观测到双天线单轨道观测、从单纯地利用相位差进行地形测量到综合利用相位相干信息和回波强度信息进行植被和地物类型识别的发展过程。特别是近十年来，其应用研究已经渗透到遥感技术应用的各个领域，主要为两大类，一是利用INSAR影像相位差信息提取技术进行地形测量，另一是综合利用INSAR的干涉测量相关信息和回波能量信息进行大面积土地利用调查、森林制图和森林资源动态监测、农作物种植面积及农田活动监测、海洋现象和舰船监测及军事目标的发现与监视等(陈尔学等，2000)。

1 ILU影像合成方法的选择

本研究中应用的干涉测量土地利用(interferometric land-use，简称ILU)影像是利用欧洲空间局数据处理中心(ESRIN)用IQL(interferometric quick look)处理器处理生成的ERS-1和ERS-2 SAR强度影像及其干涉测量相关影像经再处理组合而成的。影像的获取时间是1995-12-30、-31，轨道号为23309/3636，像元大小为50 m×50 m。实验数据是覆盖我国辽东半岛部分区域的影像。

ILU影像通常的合成方式是：R(red)波段为干涉测量相关影像；G(green)波段为雷达回波强度信息影像；B(blue)波段为雷达回波强度变化信息影像。对于干涉测量相关影像只存在处理算法对相干影像质量的影响问题，不存在定标问题。对于强度影像，可以直接用于分类，也可经过定标及辐射干扰校正后进行分类。本研究所用强度影像没有做过定标和辐射干扰校正，但所实验的几种强度影像的组合方法，正是为了探讨在一定程度上减小地形引起的辐射误差对分类精度的影响。一对SAR影像的干涉测量相关值是唯一的，这就意味着在合成ILU影像时，R波段可以固定不变。但其回波强度信息和回波强度变化信息值可以有不同的表示方式，例如，回波强度信息可以是两轨影像各像元的最大值、最小值或均值等；绝对差值和标准差值等均可作为其回波强度的变化信息。因此，可以生成多种强度影像和变化影像。利用ESRIN提供的两幅ERS-1和ERS-2 SAR强度影像，将其分别定义为主、辅强度影像生成了其最大值、最小值、均值、绝对差值和标准差值等影像，又进一步合成了不同的ILU影像。对不同影像的直方图和应用相同的分类方法得到的不同分类结果进行综合分析，最终选取了干涉测量相关影像(R)、最小值影像(G)和标准差值影像(B)合成了用于森林和非森林识别的ILU影像(如图 4所示)。按此方法合成了覆盖我国东北部分地区的10余轨ILU影像。

图 4 “误分类”部分区域在干涉测量相关影像中的直方图 Fig. 4 The histogram of “error-classified area” on coherence image a.非林地被分为林地区域Non-forest classified as forest；b.林地被分为非林地区域Forest classified as non-forest

1.1 回波强度信息变化影像的选择

在对ILU影像进行分类时发现，在非森林地类中，水体是极易同森林混淆的地物类型之一。因此，在研究中将水体从非森林类型中提取出来重点分析。图 1是森林、非森林和水体在标准差影像中和绝对差值影像中的直方图。从左图可知，水体和森林具有较好的分离性；森林和非森林之间存在部分重叠；右图中，森林与非森林的部分重叠依然存在，而水体和森林之间也存在部分重叠。可以看出，在区分森林、非森林和水体时，标准差影像的可利用性大于绝对差值影像。因此，选择标准差影像作为ILU影像中的B波段。

图 1 标准差(左)、绝对差值(右)影像直方图 Fig. 1 Histogram of Std.image(left) and ABS image(right) —森林 Forest; —非森林 Non-forest; —水体 Water.下同 The same below.

1.2 回波强度信息影像的选择

应用相同的分类方法对由不同处理方法生成的回波强度信息值和回波强度变化值组合而成的ILU影像进行分类，得到图版Ⅰ上部的3个结果图。可以看出，左上图中几乎没有识别出森林类别，误分类现象十分严重；中上图中普遍存在森林与水体混淆的误分类情况；右上图目视效果与ILU影像(图版Ⅰ中的右下图)和从同期的TM影像提取的土地利用图中的类别基本相符。因此，可以认为由干涉测量相关、最小值和标准差影像合成的ILU影像用于森林和非森林的识别较好。

2 分类方法与结果分析

具有相同雷达回波强度的地物可能具有不同的干涉测量相关信息。利用不同地物在各波段的不同取值区间的组合，可对ILU影像进行分类。具体步骤是：在外业调查中应用GPS采集各类地物(林地、平坦地区旱田、水田、坡旱地、水体、居民点、城镇等)的样点坐标；依据样点坐标从ILU影像中获取样点影像值；经过统计分析去除各类地物中小于10%的小概率事件，并生成决策树；应用自主开发的基于决策树的分类程序对ILU影像进行分类处理；对分类结果进行后处理，最终完成森林识别。

2.1 分类决策树方法

分类决策树是应用Sreerama等(1994)研制的斜分类器(Oblique Classifier 1，简称OC1)生成的。OC1是一个从样本空间构造斜决策树的系统，斜决策树是一种在每个节点上可能含有对数据属性(线性)的多变量的测试。OC1也可以构造标准的平行轴向决策树，在每一个节点上只含有对数据属性的一个变量的测试。因此OC1允许用户创建两种标准的决策树，即平行轴向决策树和斜决策(多元)树。该系统适合于样本具有数字特征值的应用，它结合了确定性的爬山法(mountain-climbing)和以随机形式在决策树的每一节点寻找斜分割点(以超平面形式)的2种方法。相对于平行轴决策树系统，斜决策树系统具有体积小，分类准确的优点。

决策树(DT)算法的大量研究集中在每个节点检查单个特征值(Breiman et al., 1984; Quinlan, 1986; 1993a)。Quinlan首先提出将决策树应用到符号特征值的分类中去，继而将其扩展到数字特征领域。当属性值为数字时，测试以X_i＞K的形式出现。这里X_i是样本的一个属性，K为常数。这种决策树分类方法称为平行轴分类方法。因为在特征空间，每个结点的测试在特征空间里是等同于超平面的。图 2提供了平行轴分类的一个例子，其中包括一个决策树和该决策树在二维空间的分割。

图 2 平行轴决策树分类举例 Fig. 2 The example of axis-parallel decision tree classification

研究人员同样对结点测试采用特征的布尔组合(Pagallo, 1990; Pagallo et al., 1990；Sahami, 1993)和线性组合的决策树分类进行了研究。此外，对检验决策树结点好坏的量度标准、进行决策树修剪以减少过分拟合以及提高精度等方法进行了大量的探索工作。

通过下例来详细描述在每个内部结点进行特征的线性组合测试的决策树，让X=x₁, x₂, …, x_d, C_j，

其中：C_j是类的名称，x_i是属性的真值。对于每个结点的测试以下列形式出现：

(1)

式中，a₁, …, a_d+1是具有真值的系数。因为这些测试相当于将超平面放置于轴的斜向，这类决策树称为斜决策树。或多元变量决策树(Brodley et al., 1994)。称其为斜决策树是因为多元变量包括这些变量的非线性组合，比如曲面。我们的决策树仅包含线性测试。显然斜决策树是平行轴决策树的一般式，因为如果使a_i其中之一为非零，而其它值为零，则公式(1)变成了简单的单变量测试。注意，斜决策树是将特征进行多边形空间分割，而平行轴决策树则以平行于特征空间的超矩形进行分割。因此，利用斜决策树分类的优点是显而易见的。例如有许多域，在域中1个或2个斜平面是分类的最佳模型。在这些域中，平行轴方法以阶梯状结构接近正确模型，然而斜决策树分类方法将会搜寻到正确模型，并且斜决策树具有体积小且分类精确的优点。如图 3所示，左图显示在一个二维域中2个斜平面定义的类别，右图显示用平行轴决策树创建模拟这个二维域中的近似类别。

图 3 斜决策树与平行轴决策树的比较 Fig. 3 The comparison between oblique decision tree and axis-parallel decision tree

斜决策树生成系统OC1的主要内容包括：在决策树的每一个节点寻找超平面系数的方法；计算超平面的不纯度或优劣的方法；决策树的修剪策略；处理丢失和无关特征的方法。其生成算法详见参考文献(Sreerama et al., 1994)。由于直接应用OC1生成的分类决策树不能满足我们的分类要求，需要对其做出一些必要的调整，因此开发了基于决策树的分类软件。

2.2 决策树调整

生成分类决策树时，OC1在最终确定各节点变量的取值范围时采用的是中值分配，对于ILU影像的0~255数值区间来说稍显简单。因此不是直接利用OC1生成的分类决策树进行分类，而是经过分析初步的处理结果，对有关节点变量值进行修正，再应用调整后的分类决策树进行分类处理，使得依据此分类决策树得出的分类结果趋向合理。图版Ⅰ的左下图是直接应用OC1生成的分类决策树得出的分类结果，可以看到，虽然对于水体的识别略优于中下图，但更多的林地被分为水体。针对左下图中明显将林地分为水体的误分类，对该分类决策树作了相应调整，得出中下图的结果，与分类用ILU图像相比较，中下图比左下图更加符合实际。

2.3 精度检验

精度检验是针对本研究内容——森林识别来进行的, 故对ILU影像的分类结果图进行分类后处理——重编码(Recode)为二值图。分类结果图与从同期TM影像中提取的土地利用图进行“像元对像元”级别上的逐个比较。以土地利用图为标准得出精度评价结果如表 1。从表 1可以看到，森林类别的识别正确率为77%(3 209 469/4 186 431)；非森林类别的识别正确率为81%(3 809 671/4 706 881)；总体识别正确率为79%((3 209 469+3 809 671)/8 893 312)。

表 1 精度评价结果单位：像元 Tab.1 The estimate result of classification accuracy Unit: pixel

2.4 误差分析

将分类结果与土地利用图进行比较，非森林被分为森林，森林被分为非森林的“误分类”现象，如图 4、5所示。图 5是森林、非森林和水体在干涉测量相关影像中的直方图。从图 4a可以看出大部分像元的干涉测量相关值小于等于0.6(coh≤0.6)，结合图 5中森林类别分布的数值区间可以看出，这些符合coh≤0.6的像元应属于森林类别的分布范围，应属森林类别。同样，图 4b显示出在土地利用图中为森林，而被“误分”为非森林部分的干涉测量相关值中的大部分都大于0.6(coh＞0.6)，与图 5中非森林类别分布于coh＞0.6的数值区间相吻合。由此可以认为，在土地利用图中为森林，而被“误分”为非森林的大部分像元应属于正确分类。造成这种误差的原因之一是从TM影像提取土地利用图时，利用的是人机交互的目视解译法，这样会造成“像元对像元”级别上的精度检验之间的差距。必须指出，在这部分区域中，的确存在将水体类别和森林类别错分类的情况。从图 3可知，水体与森林类别的数值分布区间重叠，尽管应用强度影像和其变化影像可以区分部分水体与森林，但并不能完全区分。

图 5 森林、非森林和水体类别在干涉测量相关影像中的直方图 Fig. 5 The classes of forest, non-forest and water on cohorence image

3 结论

两幅串行轨道的ERS-1 SAR和ERS-2 SAR影像经干涉测量处理，其强度影像和相干影像处理后可以合成多种ILU影像，其中最小值影像和标准差影像较其它强度影像和变化影像更有利于区分水体和森林；

OC1生成的决策树可作为对ILU影像进行分类处理的基础，对决策树进行调整，可以获得更好的分类结果；

OC1生成决策树的算法决定了在分类处理中没有不可分类别的存在，所以在初期分类时，要使所选类别尽可能多地覆盖原始影像的数值区间；各类别样本数据要尽可能具有均一性，以减少类别间数值区间的重叠，减少误分类情况。

参考文献(References)

陈尔学, 李增元, 车学俭. 2000. SAR干涉测量数字高程模型与高程误差校正. 高技术通讯, 10(7): 57-63. DOI:10.3321/j.issn:1002-0470.2000.07.014

Chen E, Li Z, Che X. 2000. Generating DEM from SAR interf erogramy and elevation error Correction. High Technology Letters, 10(7): 57-63.

Breiman L, Friedman. Classification and regression tree. Wadsworth International Group.

Brodley C E, Utgoff. 1994. Multivariate decision trees. Machine Learning.

Pagallo G.A daptive decision tree algorithms for learning from examples.Ph.D.thesis, University of Califonia at Santa Cruz.1990

Pagallo G, Haussler, D. 1990. Boolean feature discovery in empirical learning. Machine Learning, 5(1): 71-99.

Quinlan J R.Learning efficient classification procedures and their application to chess end games.In Mi chalski R, Carbonell J,&(eds.), QuinlManacJhi Rne.CLe 4a.r5ni: nPgro: gAranmAsr ftificial Inteellli earning.Morgan Kaur fmgaannn KP auu fblishers, San Mateo, CA.1993

Rogers A E E, Ingalls R P. 1969. Venus:Mapping the surface reflectivity by radar interferometry. Science, 165(3 895): 797-799.

Sahami M.Learning non-linearly separable bpplean function with linear threshold unit trees and madaline-style networks.In Proceedings of the Eleventh National Conf erence on Artificial Intelligence, 335-341 AAAI Press.1993

Sreerama K M, Steven S, Simon K. 1994. A system for induction of oblique decision trees. Journal of Artificial Intelligence Research, 2: 1-33. DOI:10.1613/jair.63