林业科学  2015, Vol. 51 Issue (5): 46-55   PDF    
DOI: 10.11707/j.1001-7488.20150506
0

文章信息

戚玉娇, 李凤日
Qi Yujiao, Li Fengri
基于KNN方法的大兴安岭地区森林地上碳储量遥感估算
Remote Sensing Estimation of Aboveground Forest Carbon Storage in Daxing'an Mountains Based on KNN Method
林业科学, 2015, 51(5): 46-55
Scientia Silvae Sinicae, 2015, 51(5): 46-55.
DOI: 10.11707/j.1001-7488.20150506

文章历史

收稿日期:2014-06-05
修回日期:2015-03-01

作者相关文章

戚玉娇
李凤日

基于KNN方法的大兴安岭地区森林地上碳储量遥感估算
戚玉娇, 李凤日    
东北林业大学林学院 哈尔滨 150040
摘要【目的】 采用KNN方法进行碳储量估测,并对估测后的数据进行各种校正处理,绘制森林地上碳储量的空间分布图,为我国森林碳储量和固碳潜力的研究提供基础数据和科学依据。【方法】 以黑龙江省大兴安岭为研究区(50°05′—53°33′N,121°11′—127°01′E),基于2010年森林资源连续清查固定样地和同年Landsat5 TM影像数据,利用k-邻近法(KNN)在像素级水平上对森林地上碳储量进行估算。采用多准则方法分东、南、北和中4个区域对样地坐标和其对应的影像光谱值进行坐标重配准,并根据实测样地数据对坐标重配置前后不同林分类型地上碳储量估测精度进行评价; 针对KNN方法像素级估测结果存在明显的高值区域低估和低值区域高估现象,应用直方图匹配方法对估测结果进行变动范围调整; 并根据样地实测碳储量和KNN估测值间的回归关系对调整后的结果分区域进行进一步匹配校正后处理,绘制森林碳储量的空间分布图。【结果】 总体来说,本研究区域像元尺度KNN估测的欧式距离优于马氏距离,均方根误差随着最邻近值k的增大而降低,当k大于6时变化缓慢,并逐渐趋于稳定; 坐标误差校正后,各林分类型森林地上碳储量的估测精度均显著提高,平均均方根误差由17.23降低到14.3 t·hm-2; 直方图匹配后,各区域样地点高值区域低估和低值区域高估现象均有很大程度改善,实测值和估测值间的相关关系明显增强,然而高值地区(碳储量大于20 t·hm-2)出现过高估计现象; 经匹配校正后处理的均值、标准差、直方图和累积频率分布图更接近样地实测值,均方根误差也明显降低,高值地区过高估计现象得到很好校正。【结论】 森林资源清查数据、遥感数据及KNN方法相结合逐渐成为区域尺度森林参数空间连续估测的重要手段。同利用光谱值和森林参数建立的回归模型相比,KNN方法能够更多地考虑到森林参数同光谱值之间的非线性依赖关系; 但KNN估测方法除了受距离度量标准、最邻近值k的大小以及影像波段的选取等因素影响外,还存在如样地坐标和对应的影像光谱值匹配误差、像素级估测结果多呈明显集中分布趋势等问题,使得该方法的应用受到一定限制。本文的研究表明,对这些因素进行合理的校正,将更有利于区域尺度森林参数的精确估计和反演。
关键词KNN    森林地上碳储量    遥感    坐标配准    直方图匹配    
Remote Sensing Estimation of Aboveground Forest Carbon Storage in Daxing'an Mountains Based on KNN Method
Qi Yujiao, Li Fengri    
School of Forestry, Northeast Forestry University Harbin 150040
Abstract: [Objective] Forest is the major terrestrial carbon pool. Accurate assessment of forest carbon storage and its spatial distribution is the key to investigating the terrestrial carbon cycle. [Method] Based on the PSPs data from continuous forest resource inventory and Landsat5 TM in 2010, the k-nearest neighbor (KNN) method was used to estimate, at the pixel level, the aboveground carbon storage in Daxing'an Mountains of Heilongjiang Province. The field PSP data and its corresponding satellite image information were reassigned using a multi-criteria approach in east, south, northand middle regions. The accuracy estimation of different forests before and after the reassignment was also evaluated according to the data of PSPs. In view of the phenomenon that the pixel level KNN estimation having the large values underestimated and small values overestimated, the histogram matching method was used to adjust the variation range of the estimation results. Then, further correction treatment was applied to each region according to the regression equations of field data and the estimation data from the histogram matching until the spatial distribution map of forest carbon storage was drawn.[Result] Overall, Euclidean distance was better than Mahalanobis in our study area at the pixel level of KNN estimation. The root mean square error decreased with the increase of the nearest neighbor k, whereas, the tendency was slow down and gradually stabilized when k is greater than 6. The estimate accuracy was improved significantly at the pixel level in each forest type when the coordinate errors was corrected, and the average root mean square error was reduced from 17.23 to 14.3 t·hm-2.After histogram matching, the phenomenon of underestimation for high value and overestimation for low value was greatly improved in each region, and the correlation between filed data and estimation data was enhanced obviously. However, high value area (carbon storage value was larger than 20 t·hm-2) was overestimated evidently. The mean value, standard deviation, histogram and cumulative frequency distribution graph of the final corrected values through the further correction treatment were more close to those of the field values, and the overestimation in high value area was also well corrected. [Conclusion] The integration of forest inventory plot data, satellite image data with the KNN method has gradually become a popular approach for spatial continuous estimation of forest vegetation parameters over large regions. Compared with the regression model established by the spectral value and forest parameters, KNN method is more focuses on the nonlinear dependence between forest parameters and spectral values. However, the KNN estimation method is not only influenced by the distance metric standard, the nearest neighbor k and the image band selection, but it also has the problems such as the location errors of field plots with respect to the satellite image, the tendency to having a suppressed variation range at the pixel level, which make this method subjected to a certain application restrictions. This study indicated that if these impact factors were reasonably corrected, it would be more conducive to the accurate estimation and inversion of forest parameters at regional scale.
Key words: KNN    forest aboveground carbon storage    remote sensing    coordinate registration    histogram matching    

森林是陆地生态系统的主体,贮存了陆地生态系统76%~98%的有机碳(王效科等,1996)。作为全球气候系统的重要组成部分,森林的生物量与碳储量对陆地生态系统的碳循环、吸收和固定大气中的CO2、维护大气成分的平衡起着极为重要的作用,准确评估森林碳储量的时空变化,不仅可以为森林资源的经营管理和林业可持续发展提供重要的科学依据,而且对碳循环及碳汇研究具有十分重要的意义。

森林清查数据为国家及区域尺度的森林资源信息研究提供了基础,而森林清查数据和遥感数据及k-邻近距离法(k-nearest neighbor,KNN)相结合是森林参数空间连续估测的重要手段。KNN方法是一种典型的非参数方法,可以进行单变量和多变量估测,能够克服传统多元回归方法对自变量间非共线性限定的缺陷,已经被广泛用于多个国家多源林业调查和森林变量的反演与制图中,包括芬兰(Tomppo et al.,20042008)、瑞典(Reese et al.,2003)、挪威(Gjertsen,2007)、爱尔兰(McInerney et al.,2009)和美国(Franco-Lopez et al.,2001;McRoberts et al.,2007)等。

我国对该技术的研究和应用刚开始起步。陈尔学等(2008)结合森林资源一类清查样地数据和L and sat TM数据,利用KNN法估计了小面积统计单元森林蓄积,估测效果优于只利用固定样地数据的传统估计方法。郑刚等(2010)对基于KNN方法的森林蓄积量遥感估计和反演进行了概述。曹庆先等(2011)提取广西和海南部分红树林TM遥感影像光谱及纹理特征,结合同地区地面调查的生物量数据,应用KNN方法对生物量进行了遥感估算,结果表明KNN的估测精度随着估测尺度的增大而增大。Xu等(2012)对ALOS AVNIR-2数据进行不同方法的相对辐射校正,并应用KNN方法进行森林蓄积量估测,结果表明经过辐射校正后的数据在估测森林蓄积量方面表现出明显的优势。Tian等(2012)应用KNN方法结合不同的遥感数据源对黑河流域的地上生物量进行了估测和分析。

KNN方法可基于像素级和林分级2种水平上进行森林参数估计。基于像素级是结合遥感影像和地面样地点估测,每个样点的光谱特征从最靠近的样地点中心的像元光谱值获得,或者是通过样地点的近邻像元获得。研究(Poso et al.,1999Tokola et al.,1996Tomppo,1993)显示,基于样地点森林参数的估测误差为60%~80%,对树种的估测误差更高。基于像素级的森林参数的估计对样地点的位置相当敏感,遥感图像的配准精度、样地点的位置偏差以及遥感图像的空间和光谱分辨率等都会影响估测精度。最邻近值k在一定程度上能够控制这种误差,但当k值越大时,估测的结果更容易向平均值的方向平衡(Tokola et al.,1996)。Mäkelä等(2001)采用图像分割技术降低了这种分析误差,但是当用于特征抽取的邻域窗体的尺寸越大时,融入邻域光谱特征的成分越多,获取光谱特征的误差越大。Reese等(2003)研究发现,当估计区域面积大于100 hm2时,总体蓄积量的平均估测误差降为10%~15%,能够满足精度要求。Halme等(2001)通过多准则方法重配准样地坐标和影像信息,使得估计结果相对RMSE降低了36%。KNN方法基于林分级森林参数估计时,是在提取各个林分光谱特征的基础上结合已知林分的样地数据估计未知林分的森林参数值。林分级估计在一定程度上消减了位置误差的影响,估计精度高于基于像素级(Mäkeläet al.,2004);但当采用陆地卫星影像进行基于林分级估计时,由于图像分辨率的限制,林分边界混合像元对估计结果会产生影响。

基于像素级估测存在明显高值低估和低值高估的现象,即虽然估测结果平均值接近整体平均值,但却有更小的方差,这将影响到空间连续分布及制图精度。Barth等(2009)提出了一种限制性插补算法,即使感兴趣区域估测值具有样地训练数据值相同的比例,这样避免了区域整体变化向平均值的方向移动。Magnussen等(2010)提出了一种模型辅助方法降低单位水平的外推偏差,将预测值的范围扩展到真实值的范围。Baffetta等(2012)Gilichinsky等(2012)分别通过模型校正和直方图匹配方法将KNN估测值匹配到实测样地数据值的分布,成功解决了估测后空间变化范围缩小的问题。

本文以黑龙江省大兴安岭为研究区,结合固定样地碳储量和L and sat5 TM数据,利用KNN方法在像素级水平上对森林地上碳储量开展估算研究,在采用Halme等(2001)的多准则方法进行定位误差校正的基础上,应用直方图匹配方法对估测结果进行变动范围调整,并对调整后的数据试图做进一步校正处理,以其得到更精确的森林碳储量空间分布图。

1 材料与方法 1.1 研究区概况

研究区位于黑龙江大兴安岭地区,地理坐标为50°05′—53°33′N,121°11′—127°01′E。大兴安岭地区疆域广阔,东西长410 km,南北宽386 km,行政区面积8.35万km2。本地区有西林吉、图强、阿木尔、塔河、十八站、韩家园、新林、呼中、松岭、加格达奇10个林业局(图 1)。境内最高海拔1 528.7 m,最低海拔180 m,平均海拔573 m,平均坡度9.5°,属于低山丘陵缓坡地形。本地区属寒温带大陆性季风气候,全年无霜期80~110天,年平均气温-2.6 ℃,极端最低气温达到-52.3 ℃。年降水450~500 mm,多集中在4—8月,占全年的70%。积雪期达5个月,林内雪深达30~50 cm,冬季降雪仅占全年降水量的10%左右。年蒸发量900~1 000 mm,相对湿度70%~75%。

图 1 大兴安岭地理位置和林业局分布 Fig. 1 Location of the study area and the distribution of the forestry bureau

本林区有林地面积约683万hm2,森林覆盖率78.2%,主要乔木树种有兴安落叶松(Larix gmelinii)、樟子松(Pinus sylvestris var.mongolica)、白桦(Betula platyphylla)、山杨(Populus davidiana)、蒙古栎(Quercus mongolica)和黑桦(Betula dahurica)等。主要林分类型有落叶松林、白桦林、针阔混交林、阔叶混交林和针叶混交林等。

1.2 样地数据及获取 1.2.1 碳储量测定

2011—2013年在大兴安岭塔河、新林和松岭地区设置10块标准地,共测定了60株样木的生物量和含碳量。每块标准地根据每木检尺结果选择3株优势树种,按优势木、中等木、被压木各选取2株样木。样木伐倒后,按着1 m区分段测定树干的鲜质量,将树冠分成3层,每层选取3~5个标准枝,称其枝、叶鲜质量。每株样木,分别树干、树枝、树叶和树根取样,在105 ℃下烘干至恒重,测定其含水量和干质量。将部分烘干的树干、树枝、树叶和树根用打磨机磨碎,用C/N分析仪测量各样品的含碳量。

1.2.2 样地数据

本研究样地数据来源于2010年大兴安岭森林清查(forest inventory,FI)固定样地数据,每块样地面积0.06 hm2。为了降低潜在的估测误差,剔除异常标准地(包括采伐、造林地、疏林地和样地数据异常等),实际用于建立大兴安岭地区森林地上碳储量模型的标准地共计985块。每块样地调查起源、地理位置(GPS坐标)、地形特征(海拔、坡度、坡向、坡位等),进行每木检尺,并计算林分变量,包括林分年龄、树种组成、平均胸径、平均树高、每公顷株数、每公顷蓄积等。利用东北林区主要树种相容性立木一元生物量模型(Li et al.,2011)计算每块样地每株树木的生物量,乘以该树种相应器官的含碳量得出单木含碳量,样地内单木碳储量相加得到样地碳储量。本文森林地上碳储量即指除根以外地上乔木树种的碳储量。

1.3 遥感数据及信息提取

获取2010年8月28日(1幅)、9月2日(1幅)、9月9日(1幅)、9月11日(2幅)、9月13日(1幅)、9月18日(1幅)、9月20日(3幅)的大兴安岭L and sat5 TM level 1G遥感影像共10幅,空间分辨率为30 m。数据来源于中国科学院计算机网络信息中心国际科学数据镜像网站(http://www.gscloud.cn)和美国地质勘探局网站(http://earthexplorer.usgs.gov/)。在对影像进行辐射定标的基础上,采用ENVI4.4的FLAASH模块进行大气校正,并以质量好的图像作为标准,利用同类地物的灰度均值差进行影像间的辐射归一化,保证了无缝拼接。最后利用大兴安岭地区矢量分布图裁切遥感影像,得到研究区范围的遥感影像。

对遥感影像进行非监督分类,分类类别设定为50种,最后将类别合并为2类:森林和非森林类。用实测样地数据进行验证,分类精度达到98%。将分类数据作为掩模,用于KNN方法估测及制图分析。

考虑TM遥感数据各波段的特点及植物的波谱反射特征与植物分布密度的关系,对校正的数据进行缨帽变换、主成分变换、纹理特征变换以及多种植被指数变换后,筛选出用于与样地坐标重新配准的4个因子(见1.4节)。

1.4 多准则方法重配准样地坐标和遥感影像信息

多准则方法重配准样地坐标和遥感影像是由Halme等(2001)提出的,其主要思想是以原始样地坐标为中心,在其周围n×n遥感像素值之中寻找与样地变量匹配最佳的光谱值。本研究中,x1(i),x2(i),x3(i)和x4(i)分别代表森林地上总(不分类型)碳储量,阔叶混交林、针叶混交林及针阔混交林碳储量的自然对数。将所提取的影像因子与森林地上总碳储量进行Pearson相关性分析,选出与其相关性较好的4个变量,即z1(s(i)),z2(s(i)),z3(s(i)),z4(s(i)),分别与x1(i),x2(i),x3(i)和x4(i)在以样地i对应的像素值s(i)为中心的7×7窗口内寻找与样地实测值匹配的影像光谱值,如果各个对应变量之间相关系数的绝对值之和达到最大,则认为其对应的影像像元为最佳匹配像元。本研究中选择的4个因子z1(s(i)),z2(s(i)),z3(s(i)),z4(s(i))分别代表原始波段第5波段、缨帽变换的第3变量、纹理分析第6波段的平均值以及归一化植被指数NDVI。综合GPS和影像配准误差,Halme等(2001)估算的样地坐标和影像信息匹配误差在0~70 m之间。计算时,各波段光谱值均整数化到0~255范围内。

1.5 森林地上碳储量的KNN估测

KNN是一种典型的非参数方法,基于观测点和预测点之间的空间相似性关系进行单变量或多变量预测(Franco-Lopez et al.,2001McRoberts et al.,2002Tomppo,1991)。KNN方法开始被应用于遥感数据的分类,后来逐渐被应用于遥感数据和样地数据相结合的森林参数估计,对数据的分布形式没有要求,有以下公式:

${\hat Y_i}=\frac{{\sum {_{i=1}^kd_{t,i}^{ - 1}{Y_i}} }}{{\sum {_{i=1}^kd_{t,i}^{ - 1}} }}。$ (1)

式中: ${{\hat Y}_t}$为t像元目标点(target plot)估测值;Yit像元多维空间一定光谱距离内第i个参考(reference plot)像元值;dt,i为两点之间光谱距离。参考点的森林参数和森林类型都是已知的。对于目标点,找出其光谱空间最邻近的k个样地点1,2… k,其中dt,1≤dt,2≤…≤dt,k。由于对象受其近邻的影响是不同的,一般样本点之间的相似程度越大,它们之间的光谱距离就越小,反之则光谱距离就越大。KNN实质上是一个常用于空间插值的反距离加权平均法;当k=1时,KNN即为最邻近距离法。标准参考点和目标点之间的光谱距离可以采用多种距离的度量,最常用的有欧氏距离(Euclidean distance)和马氏距离(Mahalanobis)、模糊距离(Fuzzy distance)、光谱角制图(spectral angle mapper)等。

1.6 直方图匹配

直方图匹配(histogram matching,HM)是指通过转化函数将一幅图像的直方图变成规定形状的直方图的方法。本文参考Gilichinsky等(2012)方法,即将KNN像元尺度的累积直方图调整到参考数据累积直方图分布范围。有如下转化函数公式:

$b{\rm{fi}}=H_{{\rm{fi}}}^{ - 1}\left[ {{H_{{\rm{KNN}}}}\left({{b_{{\rm{KNN}}}}} \right)} \right]。$ (2)

式中: Hfi为森林清查样地地上碳储量;HKNN为KNN森林样地地上碳储量的估测值,数据间隔设置为1 t·hm-2bkNNbfi分别为经过数字间隔设置后的值。分3步完成: 1)计算HfiHKNN累积分布函数;2)根据HfiHKNN累积分布函数计算转化方程;3)根据转化方程,给研究区每个像元重新分配新值。

1.7 数据分析

以原始1~5和7波段作为自变量进行森林地上碳储量估测,各波段的反射率值均拉伸至0~255范围内,采用欧式距离和马氏距离度量,近邻k值计算0~20之间,对比选择最优光谱距离以及最佳邻近k值。由于KNN方法属于计算密集型方法,数据量大、计算需要消耗大量时间是实际应用中存在的主要问题,所以将大兴安岭地区分为北(西林吉、阿木尔、图强和塔河林业局,共样地370块)、南(松岭和加格达奇林业局,共样地180块)、中(呼中和新林林业局,共样地254块)和东(十八站和韩家园林业局,共样地180块)4个区(图 1)分别估算。并根据实测样地数据将研究区划分为阔叶混交林、针叶混交林和针阔混交林3种林分类型,对样地坐标和遥感影像信息重配准的前后地上碳储量估测精度进行评价。最后以原始样地数据直方图为基础,将KNN估测的东、南、北、中4个区的空间分布直方图分别与之匹配,并对直方图匹配前后的估测精度进行评价,绘制森林地上碳储量空间分布图。

应用ERDAS2011和ENVI5.0进行遥感数据预处理,ARCGIS9.3进行样地对应点信息提取,K-NN FOREST(Chirici et al.,2012)进行KNN地上碳储量估测,MatlabR2000a进行直方图匹配,Excel2003进行统计分析与制图。

1.8 估测精度评价方法

KNN地上碳储量估测采用留一交叉检验方法。地上碳储量KNN估测及校正结果均采用均方根误差(RMSE)、偏差(Bias)及标准差(SD)进行评价。公式如下:

$RMSE=\sqrt {\frac{1}{n}\sum\limits_{i=1}^n {{{\left({{y_i} - {{\hat y}_i}} \right)}^2}} };$ (3)
${\rm{Bias}}=\frac{1}{n}\sum\limits_{i=1}^n {\left({{y_i} - {{\hat y}_i}} \right)};$ (4)
$SD=\sqrt {\sum\limits_{i=1}^n {\frac{{{{\left({{y_i} - {{\hat y}_i}} \right)}^2}}}{{n - 1}}} }。$ (5)

式中: yi为实测值;${{\hat y}_i}$为模型预估值;n为样本数。

2 结果与分析 2.1 坐标误差校正

以北、南、中和东4个区为例,应用样地坐标校正前后的数据对估计参数距离的度量标准和最邻近值k的大小进行选择。从图 2可以看出,东部地区欧式距离优于马氏距离,中部地区马氏距离略优于欧式距离,北部地区欧式距离和马氏距离差别不大,南部地区欧式距离优于马氏距离。经坐标重配准后,无论是欧式距离还是马氏距离,估测的RMSE都大大降低,说明样地坐标匹配误差对区域森林地上碳储量的估测影响很大。随着k值的增大,RMSE先快速减小,后逐渐减小,最后趋于平衡;当k值大于6时,RMSE值降低的幅度很小。综上所述,本文选择欧式距离和k值为6的坐标匹配数据用于研究区不同林分类型森林地上碳储量估测精度评价。

图 2 大兴安岭不同区域坐标误差校正前后KNN森林地上碳储量(hm-2)估测的均方根误差(k=1,2,3…20) Fig. 2 RMSE of forest above ground carbon storage(per hectare)for the original and optimized locations using KNN method of each region in Daxing’an Mountains(k=1,2,3…20)

对研究区森林地上碳储量分不同林分林型进行统计(表 1)发现,经样地和影像坐标重配准后,各个林分类型估测的地上碳储量的Bias和RMSE均减小。3种林型平均RMSE由17.23降低到14.3 t·hm-2,阔叶混交林、针阔混交林和针叶混交林估测的RMSE比坐标校正前分别降低了14.71%,19.04%和17.33%(图 2)。

表 1 不同林分类型坐标误差校正前后KNN估测地上碳储量的统计分析 Tab.1 The pixel-wise assessment of forest above ground carbon storages for the original and the optimized locations using KNN method in different forest types
2.2 直方图匹配

KNN估测值虽然总体趋于平均值,但由图 4A图 3A可以看到,存在明显的高值区域低估和低值区域高估现象。从图 3B也可以看出,在FI实测地上碳储量和KNN估测地上碳储量累积频率分布图的相交点(累计频率约为60%,对应地上碳储量约38 t·hm-2)以下,KNN高估,在相交点以上,KNN低估。将东、中、北和南4个区域KNN估测的地上碳储量累积频率分布图分别以该区域内FI实测样地地上碳储量累积频率分布图为基础进行变换,使整个研究区域KNN估测的地上碳储量累积频率分布图和FI实测地上碳储量的累积频率分布图相近。提取直方图匹配后的估测值与FI实测地上碳储量及其直方图进行对比分析,可以看到,经直方图匹配后,样地点高值区域低估和低值区域高估现象均有很大程度的改善(图 3),而且FI实测值和KNN估测值间的相关关系明显增强(图 4B);但是,却产生了高值区域过高估计现象(图 3图 4B)。所以本文根据FI实测地上碳储量和直方图匹配后的值之间的回归关系,分别对地上碳储量大于20 t·hm-2的值分区域进行直方图匹配之后的再校正处理。南、北、中、东区域的校正方程分别为: y =0.795x+1.311 8;y=0.598 4x+11.565;y=0.552 7x+9.152 8;y =0.593 8x +16.456,式中x,y分别表示直方图匹配和匹配之后再校正的值。最后得到FI实测地上碳储量和KNN估测匹配再校正值的相关关系见图 4C。可以看到,通过匹配后再校正处理,FI实测值和KNN估测值相关关系得到明显改善,而且匹配之后再校正的直方图和累积频率分布图更接近FI实测值(图 3)。

图 3 样地实测值、KNN估测值、直方图匹配和匹配校正后的地上碳储量频率分布(A)及累计频率分布(B) Fig. 3 Frequency(A)and cumulate frequency histograms(B)of above ground carbon storages for the evaluation plot data set from the forest inventory data(FI),KNN estimates,results of histogram matching(HM)and corrected results after histogram matching(HMC)
图 4 KNN估测值、直方图匹配和匹配校正后地上碳储量与样地实测值的关系 Fig. 4 Relationship between above ground carbon storages of forest inventory data and KNN estimates,results of histogram matching,corrected results after histogram matching

表 2也可以看到,KNN估测的平均值虽然接近FI实测值,但其变化范围和标准差却很小。经直方图匹配后,虽然估测的均方根误差降低,但是存在平均值和标准差高估现象。在直方图匹配的基础上,对估测值做进一步的校正处理后,虽然最大值没有达到FI实测数据值,但是均值和标准差均接近实测值,而且均方根误差也明显降低。图 5为KNN估测值、直方图匹配和匹配后再校正的地上碳储量空间细节分布图。图 6为匹配后再校正的森林地上碳储量空间分布图。

表 2 像元尺度KNN估测值、直方图匹配和匹配后再校正的森林地上碳储量统计分析 Tab.2 The pixel-wise assessment of forest above ground carbon storages of KNN estimates,histogram matching(HM)and corrected after histogram matching(HMC)
图 5 KNN估测值、直方图匹配和匹配校正后的大兴安岭地上碳储量空间细节分布 Fig. 5 The detail spatial distribution of above ground carbon storages for the evaluation plot data set from the forest inventory data(FI),KNN estimates,results of histogram matching(HM)and corrected results after histogram matching(HMC)in Daxing’an Mountains
图 6 大兴安岭森林地上碳储量空间分布 Fig. 6 The spatial distribution of forest above ground carbon storages in Daxing’an Mountains
3 结论与讨论

准确评估森林碳储量的时空变化是区域及全球碳循环研究的关键。本文应用KNN方法对大兴安岭地区森林地上碳储量的空间分布进行了估测。KNN方法用于森林参数估计时能同时估计若干个森林参数,并能维持参数之间的自然依赖结构,保持参数之间的一致性(Mäkeläet al.,2001;2004)。同利用光谱值和森林参数建立的回归模型相比,KNN方法能够更多地考虑到森林参数同光谱值之间的非线性依赖关系(Trotter et al.,1997)。当利用KNN方法进行基于像素级的森林参数估计时,利用k个样地点进行估计能够减少由于图像噪声、森林参数的林分内变化而引起的随机变化。但是KNN方法属于计算密集型方法,计算需要消耗大量时间是实际应用中存在的主要问题。本文将研究区分为北、南、中和东4个区域分别估测,大大降低了计算需要消耗的时间,提高了计算效率。

KNN估测方法受多种因素的影响,如距离度量标准、最邻近值k的大小以及影像波段的选取等。有研究表明,在森林相似的条件下,KNN用于森林定量估测时,欧氏距离和马氏距离相差不大(McRoberts et al.,2002)。郑刚(2009)将KNN方法用于亚热带地区森林蓄积量的估计和反演,对比了欧式距离和马氏距离,结果表明马氏距离优于欧式距离。Nilsson(1997)Tokola等(1996)研究发现,当KNN用于森林蓄积量估计时,k从1到10时,蓄积量估计的RMSE快速减少,k大于10后,RMSE将轻微下降,不足以影响估计精度,k等于10时,能够得到足够高的估计精度。本研究区域欧式距离优于马氏距离。像元尺度KNN估测均方根误差随着k值的增大降低,当k>6时变化缓慢,并逐渐趋于稳定。在进行遥感估计和反演时,用经大气校正后的TM数据的原始六波段(第六波段除外)来建模,保持了森林最原始的波段特征信息。由于影响KNN进行碳储量估计的最优参数的选择往往随不同地区、不同数据来源而有所变化,因此最优参数的选择需要进行具体试验才能获得。

由于KNN估测时提取的遥感信息是对照样地位置进行的,而基于像素级的森林参数的估计对样地点的位置相当敏感,所以遥感影像的像元坐标和样地位置匹配精度是成功应用这种方法的一个非常重要的因素。以往研究较少考虑样地坐标和遥感信息间的匹配误差的影响。本研究中,采用欧式距离和马氏距离度量,并用多准则方法进行定位误差校正,结果表明样地坐标和遥感信息间的匹配误差的影响远大于距离度量标准对地上碳储量估测的影响。事实上,卫星像素值可能包含该像素周围样地的信息,因为一个样地很少能精确地对应卫星影像的像素值。但是样地信息反映在遥感上的最佳光谱值可能是在地理位置上最接近样地中心点坐标的,所以遥感影像的校正坐标和样地位置的精确配准至关重要。本文多准则方法的应用大大提高了KNN森林地上碳储量的估测精度。然而所使用的影像的获取与样地数据的采集时间要尽量同步,期间如果在样地所在林地实施森林间伐、造林等经营措施也会造成样地数据与遥感信息不匹配,这将很难用多准则方法进行重匹配。

高值低估和低值高估现象是KNN基于像素级估测普遍存在的问题。最邻近值k对这一现象的的影响是:当k取较小值时,估测误差较大,随着k值的增大,虽然估测的RMSE会越来越小,森林参数估计的平均值逐渐趋于真实值,但是其估测的标准差会逐渐减小,估计值的分布区间会不断缩小,这样会造成估计的变量呈集中分布趋势。有研究采用两步k值方法进行森林变量估测,k取较大值时用于森林变量估测,k值取较小值时用于森林变量绘图,以保持森林变量原有的变化程度(郑刚,2009)。直方图匹配是对数值分布区间进行拉伸的有效方法之一(Baffetta et al.,2012)。Gilichinsky等(2012)研究表明,经直方图校正后KNN的估测效果更好。本文以原始样地数据直方图为基础,采用直方图匹配方法对KNN估测的结果进行直方图匹配,结果表明估测结果和实测值的相关关系增大,RMSE减小。虽然直方图匹配后存在平均值和标准差高估现象,但这可能是因为本研究中取样数据不能完全代表整个研究区域的频率直方图。所以根据直方图匹配后估测结果和实测值之间的回归关系,对估测值做进一步的校正处理后,样地数据频率分布和累计频率分布更接近实测值,均值和标准差均接近实测值,估测精度得到大大提高。建议以后的相关研究可以根据已有的研究结果做适当的后处理,以满足估测精度的需要。当然,低值区域被高估、高值区域被低估现象不是KNN估测特有的现象,本研究所用的方法也可为通过其他手段估算森林参数提供借鉴和参考。

在森林参数的KNN估计过程中,若在对原始图像进行细分类或结合一些辅助资料的基础上进一步对遥感影像进行分层处理,可以得到不同林分类型甚至不同树种碳储量的空间分布图。Wilson等(2012)结合MODIS数据及植被的气象特征,用KNN方法绘制了树种的大尺度空间分布图;Packalén等(2007)应用高分辨率的航片或快鸟影像获得了更精细分辨率的森林变量及树种的空间分布特征。由于其他辅助资料不足,本文只将研究区分为植被区和非植被区2类,以后可做进一步的补充分析。

随着遥感技术的发展和森林生物量和碳储量研究的深入开展,各种技术手段应运而生,各种问题逐步得到解决,KNN逐渐成为预测以及模式识别的重要方法。本文用KNN方法进行碳储量估测,并对估测后的数据进行各种校正处理,绘制森林地上碳储量的空间分布图,可为我国森林碳储量和固碳潜力的研究提供基础数据和科学依据。

参考文献(References)
[1] 曹庆先, 徐大平, 鞠洪波. 2011. 基于 TM 影像纹理与光谱特征和KNN方法估算5种红树林群落生物量. 林业科学研究, 24(2): 144-150.
(Cao Q X, Xu D P, Ju H B. 2011. Biomass estimation of five kinds of mangrove community with the KNN method based on the spectral information and textural features of TM images. Forest Research, 24(2): 144-150[in Chinese]).(1)
[2] 陈尔学, 李增元, 武红敢, 等. 2008. 基于k-NN和Landsat数据的小面积统计单元森林蓄积估测方法. 林业科学研究, 21(6): 745-750.
(Chen E X, Li Z Y, Wu H G, et al. 2008. Forest volume estimation method for small areas based on k-NN and landsat data. Forest Research, 21(6): 745-750[in Chinese]).(1)
[3] 王效科, 冯宗炜. 1996. 森林生态系统生物量和碳储存量的研究历史. 北京: 中国科学技术出版社.
(Wang X K, Feng Z W. 1996. The history of research on blomass and carbon storage of forest ecosystems. Beijing: China Science and Techndogy Press[in Chinese]).(1)
[4] 郑 刚. 2009. 基于KNN法的森林蓄积量的遥感估计和反演——以广东省翁源县为例.南京: 南京林业大学硕士学位论文. (Zheng G. 2009. Estimation and retrieval of forest volume by remote sensing based on KNN—a case study in Wengyuan County of Guangdong province. Nanjing: MS thesis of Nanjing Forestry University.[in Chinese])(2)
[5] 郑 刚, 彭世揆, 戎 慧, 等. 2010. 基于KNN方法的森林蓄积量遥感估计和反演概述. 遥感技术与应用, 25(3): 430-437.
(Zheng G, Peng S K, Rong H, et al. 2010. A general introduction to estimation and retrieval of forest volume with remote sensing based on KNN. Remote Sensing Technology and Application, 25(3): 430-437[in Chinese]).(1)
[6] Baffetta F, Corona P, Fattorini L. 2012. A matching procedure to improve k-NN estimation of forest attribute maps. Forest Ecology and Management, 272: 35-50.(2)
[7] Barth A, Wallerman J, Ståhl G. 2009. Spatially consistent nearest neighbor imputation of forest stand data. Remote Sensing of Environment, 113(3): 546-553.(1)
[8] Chirici G, Corona P, Marchetti M, et al. 2012. K-NN forest: a software for the non-parametric prediction and mapping of environmental variables by the k-nearest neighbors algorithm. European Journal of Remote Sensing, 45(3): 433-442.(1)
[9] Franco-Lopez H, Ek A R, Bauer M E. 2001. Estimation and mapping of forest stand density, volume, and cover type using the k-nearest neighbors method. Remote Sensing of Environment, 77(3): 251-274.(2)
[10] Gjertsen A K. 2007. Accuracy of forest mapping based on Landsat TM data and a kNN based method. Remote Sensing of Environment, 110(4): 420-430.(1)
[11] Gilichinsky M, Heiskanen J, Barth A, et al. 2012. Histogram matching for the calibration of kNN stem volume estimates. International Journal of Remote Sensing, 33(22): 7117-7131.(3)
[12] Halme M, Tomppo E. 2001. Improving the accuracy of multisource forest inventory estimates to reducing plot location error—a multicriteria approach. Remote Sensing of Environment, 78(3): 321-327.(4)
[13] Li F R, Liu F X, Jia W W. 2011. The development of compatible tree biomass models for main species in north-eastern China. Advanced Materials Research, 183-185: 250-254.(1)
[14] Mäkelä H, Pekkarinen A. 2001. Estimation of timber volume at the sample plot level by means of image segmentation and Landsat TM imagery. Remote Sensing of Environment, 77(1): 66-75.(1)
[15] Mäkelä H, Pekkarinen A. 2004. Estimation of forest stand volumes by Landsat TM imagery and stand-level field-inventory data. Forest Ecology and Management, 196(2): 245-255.(1)
[16] Magnussen S, Tomppo E, McRoberts R E. 2010. A model-assisted k-nearest neighbour approach to remove extrapolation bias. Scandinavian Journal of Forest Research, 25(2): 174-184.(1)
[17] Mclnerney D O, Nieuwenhuis M. 2009. A comparative analysis of kNN and decision tree methods for the Irish national forest inventory. International Journal of Remote Sensing, 30(19): 4937-4955.
[18] McRoberts R E, Tomppo E O, Finley A O, et al. 2007. Estimating areal means and variances of forest attributes using the k-nearest neighbours technique and satellite imagery. Remote Sensing of Environment, 111(4): 466-480.(1)
[19] McRoberts R E, Nelson M D, Wendt D G. 2002. Stratified estimation of forest area using satellite imagery, inventory data, and the k-nearest neighbors technique. Remote Sensing of Environment, 82(2): 457-468.(2)
[20] Nilsson M.1997.Estimation of forest variables using satellite image data and airhorne lidar. Doctoral Thesis, Department of Forest Resource Management and Geomaties, Swedish University of Agrieult Ural Seiences,Ume.(1)
[21] Packalén P, Maltamo M. 2007. The k-MSN method for the prediction of species-specific stand attributes using airborne laser scanning and aerial photographs. Remote Sensing of Environment, 109(3): 328-341.(1)
[22] Poso S, Wang G, Tuominen S. 1999. Weighting altenative estimates when using multi-source auxiliary data for forest inventory. Silva Fennica, 33: 41-50.(1)
[23] Reese H, Nilsson M, Pahlén T G, et al. 2003. Countrywide estimates of forest variables using satellite data and field data from the national forest inventory. AMBIO: A Journal of the Human Environment, 32(8): 542-548.(1)
[24] Tian X, Su Z, Chen E, et al. 2012. Estimation of forest above-ground biomass using multi-parameter remote sensing data over a cold and arid area. International Journal of Applied Earth Observation and Geoinformation, 14(1): 160-168.(1)
[25] Tokola T, Pitkänen J, Partinen S, et al. 1996. Point accuracy of a non-parametric method in estimation of forest characteristics with different satellite materials. International Journal of Remote Sensing, 17(12): 2333-2351.(3)
[26] Tomppo E. 1991. Satellite image-based national forest inventory of Finland. International Archives of Photogrammetry and Remote Sensing, 28: 419-424.(1)
[27] Tomppo E. 1993. Multi-source national forest inventory of Finland. International Archives of Photogrammetry and Remote Sensing, 29: 671-671.(1)
[28] Tomppo E, Halme M. 2004. Using coarse scale forest variables as ancillary information and weighting of variables in k-NN estimation: a genetic algorithm approach. Remote Sensing of Environment, 92(1): 1-20.(1)
[29] Tomppo E, Olsson H, Sthl G, et al. 2008. Combining national forest inventory field plots and remote sensing data for forest databases. Remote Sensing of Environment, 112(6): 1982-1999.(1)
[30] Trotter C, Dymond J, Goulding C. 1997. Estimation of timber volume in a coniferous plantation forest using Landsat TM. International Journal of Remote Sensing, 18(10): 2209-2223.(1)
[31] Wilson B T, Lister A J, Riemann R I. 2012. A nearest-neighbor imputation approach to mapping tree species over large areas using forest inventory plots and moderate resolution raster data. Forest Ecology and Management, 271: 182-198.(1)
[32] Xu Q, Hou Z, Tokola T. 2012. Relative radiometric correction of multi-temporal ALOS AVNIR-2 data for the estimation of forest attributes. Isprs Journal of Photogrammetry and Remote Sensing, 68: 69-78.(1)