变量筛选方法对郁闭度遥感估测模型的影响比较

文章信息

琚存勇, 邸雪颖, 蔡体久.

Ju Cunyong, Di Xueying, Cai Tijiu.

Comparing Impact of Two Selecting Variables Methods on Canopy Closure Estimation

林业科学, 2007, 43(12): 33-38.

Scientia Silvae Sinicae, 2007, 43(12): 33-38.

文章历史

收稿日期：2007-04-12

作者相关文章

琚存勇

邸雪颖

蔡体久

引用本文

琚存勇, 邸雪颖, 蔡体久. 2007. 变量筛选方法对郁闭度遥感估测模型的影响比较. 林业科学, 43(12): 33-38.

Ju Cunyong, Di Xueying, Cai Tijiu. 2007. Comparing Impact of Two Selecting Variables Methods on Canopy Closure Estimation. Scientia Silvae Sinicae, 43(12): 33-38.

变量筛选方法对郁闭度遥感估测模型的影响比较

琚存勇, 邸雪颖, 蔡体久

东北林业大学林学院哈尔滨 150040

收稿日期：2007-04-12

基金项目：国家自然科学基金资助项目(30471424)

通讯作者：蔡体久

摘要： 比较基于偏最小二乘回归的Bootstrap方法与传统的平均残差平方和(RMS_q)准则所选变量建立模型的精度差别。结果表明：Bootstrap方法是一种更优秀的变量筛选方法，比RMS_q方法精度提高约5%；而且它不受变量多带来的运算困难的限制，更便于实际应用。

关键词：郁闭度估测模型遥感 RMS_q准则 Bootstrap方法偏最小二乘回归

Comparing Impact of Two Selecting Variables Methods on Canopy Closure Estimation

Ju Cunyong, Di Xueying, Cai Tijiu

College of Forestry, Northeast Forestry University Harbin 150040

Abstract: Change patterns of each ecological factor, such as spatial and periodic distribution of wind, sun light and temperature, redistribution of precipitation, are closely relate to canopy closure in stand forest. To properly estimate the distribution of canopy closure is a foundation of recognizing and utilizing ecological service function of forest. Due to the complexity of objective world and uncertainty of remote sensing data, we don't always find out the variables that significantly impact the estimation of canopy closure but in term of common sense select sufficient variables to analyze. In this paper, Bootstrap approachbased on partial least squares regression and RMS_q principle based on least squares estimate were used to find out optimal variables to construct the estimation model of canopy closure. The results showed using the Bootstrap approach attributed to improve the estimation precision of regression models. Additionally, despite of more variables, the Bootstrap approach worked on well while the RMS_q carried out slowly.

Key words: canopy closure estimation models remote sensing RMS_q principle Bootstrap approach partial least square regression method

郁闭度是决定林分结构的重要因子之一，它可以用来表征光、水等生态因子通过林冠进入林内的再分布状况。精确确定林分内的郁闭状况，无论在森林经营与管理还是在森林生态精细研究中，都显得十分重要(朱教君等，2005；陈宏伟等，2007)。近20~30年来遥感应用技术的迅速发展，为在地区或国家尺度上精确估测森林郁闭度提供了前所未有的契机。一些学者尝试利用遥感定量因子与森林资源调查定性因子建模估测郁闭度，并利用平均残差平方和准则筛选出对郁闭度估测有强影响的因子(赵宪文等，2001a；2001b；李崇贵等，2005)，为生产应用提供了理论支持。然而，基于最小二乘估计的平均残差平方和准则是对观测阵的方阵进行处理，当变量间存在复共线性时，观测阵的方阵退化成病态，所得的解并不稳定(方开泰等，1988)，影响郁闭度估测的精度。本文基于遥感和森林资源清查数据，比较了基于偏最小二乘回归的Bootstrap方法和基于最小二乘估计的平均残差平方和准则筛选变量对森林郁闭度估测精度的影响，认为基于偏最小二乘回归的Bootstrap方法更合理更精确。

1 材料与方法 1.1 数据与预处理

试验数据为云南思茅地区129个国家森林一类清查固定样地调查数据和对应的遥感影像数据。共设置17个自变量：TM₁，TM₂，TM₃，TM₄，TM₅，TM₇，，高程(E)，有林地(F)，阴坡(S_n)，阳坡(S_s)。后3个为定性数据数量化值，只含0和1两个数值。所有数据均进行中心标准化，使每个变量样本均值为0，方差为1，以消除量纲的不同带来的影响。用80个样地数据选择变量和训练模型，49个样地检验模型精度。具体哪些样地参与建模，采用交叉有效性(cross-validation) (Reese et al., 2002；王惠文等，2006；Casella et al., 2006)确定，以检验样本拟合精度最好为准。

1.2 偏最小二乘回归方法

用偏最小二乘方法对所选择变量进行回归分析。偏最小二乘回归方法是伍德(Wold)和阿巴诺(Albano)于1983年提出的一种新型的多元统计分析方法。它集多元线性回归分析、主成分分析和典型相关分析的基本功能为一体，可以较好地解决以往用普通多元线性回归分析方法无法解决的问题(Hansen et al., 2003；Næsset et al., 2005；Schimann et al., 2007)。特别当自变量集合内部存在较高程度的相关性时，其结论比普通多元回归更加可靠，整体性强，因此在许多领域的回归建模中得到应用(王惠文等，2006；Nguyen et al., 2006；Schimann et al., 2007)，具体运算方法参阅王惠文等(2006)、陈楚等(2004)的文献。

1.3 Bootstrap方法

Bootstrap方法是美国斯坦福大学统计系教授Efron于1979年前后提出的一种再抽样方法，也称自助法，目前已在许多研究领域得到广泛应用(王惠文等，2006；Casella et al., 2006)。设标准化的原始样本集为S[n×(p+1)]，其中自变量观测矩阵为X_n×p=(x_i1，x_i2, …，x_ip), 因变量观测矩阵为Y_n×1=(y_i)(i=1, 2, …, n)。通过偏最小二乘回归模型，利用Bootstrap方法筛选变量的方法(以下称Bootstrap方法)如下：

1) 由原始数据建立偏最小二乘回归模型

拟检验的H₀假设为

2) 在S中随机抽取一个样本点(y_i⁽¹⁾, x_i1⁽¹⁾, x_i2⁽¹⁾, …, x_ip⁽¹⁾)，记其数值后再放回S，然后再抽取第二个，记其数值后再放回。这样重复n_B次，得到一个Bootstrap样本

本文n_B等于n，当建模样地个数较多时，可以适当减小其数值。

3) 以Bootstrap样本作偏最小二乘回归，得到模型

4) 重复步骤(2)和(3)共B次，得到B组偏最小二乘回归系数

一般而言，随着B的增大，估计的精度也会相应提高，本文在B大于1 000时，虽然求得的系数临界值有微小差异，但所选变量不再发生变化。

5) 记

设检验水平为α，将排序后取位于B×(1-α)处的值β_α(j)作为拒绝域的临界值。

6) 判别准则为：如果, 则拒绝H₀假设，β_j显著不为0，自变量x_j通过显著性检验，予以保留；否则，不拒绝H₀假设，自变量x_j未通过显著性检验，予以舍去。

将所有通过显著性检验的自变量重新与因变量建立回归方程，重复步骤1~6，直到剩下的所有变量都通过显著性检验，通过检验的变量就是建立估测模型的最优变量。

1.4 平均残差平方和准则

基于最小二乘估计的平均残差平方和(residual mean square，RMS)准则(以下称RMS_q准则)选择变量，是用自变量所有可能子集建立回归方程(共2^p-1个，p为变量个数)，使回归方程平均残差平方和最小的变量子集就是最佳子集。包含q个变量的平均残差平方和表达式为(方开泰等，1988；李崇贵等，2005)：

1.5 精度评价指标

用检验样本进行精度评价，评价采用2个指标：误差均方和(root mean square error，RMSE)(Reese et al., 2002；Scull et al., 2005)和总预报偏差的相对误差(relative error，RE)(赵宪文等，2001a；李崇贵等，2005)，其表达式分别为:

其中：n为检验样本个数，y_i为郁闭度实测值，为模型预测值。2个指标数值越小代表精度越高。

2 结果与分析 2.1 遥感因子的筛选与郁闭度回归模型精度比较

仅利用13个遥感因子建模分析。方案一：按指标RMSE进行交叉有效性检验确定最优建模样地。根据Bootstrap方法有4个变量通不过显著性检验，分别为TM₄, ，通过检验的9个变量所构造的郁闭度估测模型的回归系数(对应未标准化的原始变量，下同)为：β_B-RMSE＝{0.418 0，-0.002 2，-0.003 2，-0.002 6，-0.000 7，-0.001 8，0.184 5，0.001 6，-0.063 9，0.030 5}，其中第一项为常数项(下同)。用相同的样地根据RMS_q准则筛选变量，当变量子集中自变量个数为7时，RMS_q达到最小(图 1A)，对应的变量是TM₂，TM₄，TM₅，TM₇，，跟Bootstrap方法选择的变量仅有4个相同，这7个变量所建立的郁闭度估测模型的回归系数为：β_R-RMSE＝{0.560 9，-0.006 7，0.001 6，-0.001 5，-0.003 8，0.504 5，-0.135 4，-0.011 0}。

图 1 RMS_q准则筛选遥感最优因子时RMS_q的变化 Fig. 1 Change of RMS_q during selecting optimal variables by RMS_q principle

方案二：按指标RE进行交叉有效性检验确定最优建模样地。根据Bootstrap方法所选择的建模变量与方案一的相同，只是方程的回归系数略有差异：β_B-RE＝{0.385 9，-0.002 8，-0.004 3，-0.003 5，-0.000 8，-0.002 1，0.241 5，0.002 4，-0.074 4，0.037 1}；而根据RMS_q准则选择的变量差别较大，只有5个变量入选(图 1B)，分别为TM₁，，且与方案一只有1个变量相同，用这5个变量建立郁闭度估测模型的回归系数为：β_R-RE＝{-0.026 0，-0.006 5，0.565 3，0.024 0，0.090 7，0.005 7}。

分别用4个回归方程对49个检验样地进行郁闭度估测预报，误差情况见表 1、图 2。结果表明：在2个方案中，所筛选出来的最优变量不尽相同，但Bootstrap方法比RMS_q方法都得到了更小的RMSE，前者比后者精度平均提高3.2%。方案二中，用RMS_q方法虽然比Bootstrap方法得到的RE要小一些，但检验样地郁闭度预报偏差正负极值都比后者要大，预报误差不够稳定。方案二得到的郁闭度预报偏差最大值比方案一得到的结果要大得多，说明像素水平估测精度方案一优于方案二。

表 1 2种变量选择方法对回归模型预报精度的影响比较 Tab.1 Prediction precision comparison of regression models between two methods

图 2 方案一、二的郁闭度估测偏差比较 Fig. 2 Prediction error comparison of canopy closure in scheme 1, 2

2.2 加入定性因子后的变量选择与郁闭度回归模型精度比较

利用所有17个变量进行建模分析。根据方案一用Bootstrap方法筛选出6个变量：TM₁，TM₂，TM₇，，F，S_n。用这6个变量建立的郁闭度估测模型的回归系数为：β_B-RMSE2＝{-0.364 9，0.003 9，0.004 1，-0.002 1，0.362 0，0.510 4，0.099 1}；用相同训练样地根据RMS_q准则筛选变量的结果(图 3A)为：TM₁，TM₅，TM₇，，F，S_s，与Bootstrap方法相比，只有2个入选变量不同。这6个变量对应的郁闭度估测模型的回归系数为：β_R-RMSE2 ＝{-0.324 3，0.004 8，-0.000 3，-0.001 3，0.428 8，0.530 6，0.015 0}。

图 3 RMS_q准则从所有变量筛选最优变量时RMS_q的变化 Fig. 3 Change of RMS_q during selecting optimal variables from whole variable collection set by RMS_q principle

根据方案二用Bootstrap方法选出的最优变量为：TM₁，TM₂，TM₅，，E，F，与方案一的共同变量有4个(图 3B)，这8个变量对应的郁闭度估测模型的回归系数是：β_B-RE2＝{-0.220 4，0.006 2，0.005 0，-0.001 0，0.251 9，-0.101 3，-0.129 7，0.000 04，0.523 9}；根据RMS_q准则筛选出的估测郁闭度的最优变量是:TM₂，，F，S_s，对应的郁闭度估测模型的回归系数是：β_R-RE2＝{0.109 7，0.002 6，0.148 5，-0.000 8，0.171 5，0.578 9，-0.077 1}。

用4个回归方程估测郁闭度，预报偏差情况基本一致，85%以上的偏差绝对值都小于0.2，更有60%的样地偏差绝对值小于0.1，说明属性因子的加入，特别是有林地这一因子，显著提高了郁闭度的估测精度(图 4，表 2)。同RMS_q方法相比，用Bootstrap方法选择变量建立模型，模型预报精度大有提高，RMSE指标提高了1.59%~5.06%，而RE指标更是提高了1倍多(表 2)。

图 4 属性因子加入后方案一、二郁闭度估测偏差比较 Fig. 4 Prediction error comparison of canopy closure in scheme 1, 2 while introducing qualitative variables

表 2 属性因子加入后2种变量选择方法对回归模型预报精度的影响比较 Tab.2 Prediction precision comparison of regression models between two methods after introducing qualitative variables

3 结论与讨论

遥感数据能提供动态的、综合的植被覆盖信息，它与系统的全国森林资源清查数据相结合丰富了森林资源经营管理的手段，并极大提高了工作效率(赵宪文等，2001a；2001b)。郁闭度建模估测是森林资源遥感估测研究的一项重要内容，由于遥感数据的复杂性，并不能确知哪些变量对郁闭度估测会产生重要影响，而构造过多变量又不可避免带来负面影响，不仅影响模型的稳定，更缺乏实用性。因此最优变量的筛选是准确估测郁闭度的关键环节。研究发现，基于偏最小二乘回归的Bootstrap方法是一种比目前应用较多的基于最小二乘估计的RMS_q方法更好的变量筛选方法，用Bootstrap方法所选变量建立郁闭度估测模型，精度能提高5%左右(RMSE指标)。

总预报偏差的相对误差容易掩盖误差起伏较大的真实情况，据此选出的最优模型应避免在小空间尺度上应用，更不能用于评价像元水平的郁闭度空间分布状况。这一点，在以前的研究中重视不够。而用RSME指标评价回归模型的精度似乎更可靠一些。

属性因子在模型中的引入，极大提高了模型的预报精度，特别是有林地这一地类因素更是起着决定性的作用。只用分布在有林地内的样地点训练并建立估测模型，可以提高模型的预报精度。另外，在建模估测前进行遥感图像分类(张云霞等，2003；刘大伟等，2006)，把有林地单独提取出来进行估测评价，也将是提高郁闭度估测预报精度的一个途径。

参考文献(References)

陈楚, 关泽群, 张鹏林, 等. 2004. 利用RS和GIS的森林蓄积量偏最小二乘估测研究. 湖北林业科技, (4): 25-28. DOI:10.3969/j.issn.1004-3020.2004.04.007

陈宏伟, 殷鸣放, 刘娜, 等. 2007. 辽东林山区林下人参生长与林内温度和光照因子关系初步研究. 西北林学院学报, 22(2): 20-23. DOI:10.3969/j.issn.1001-7461.2007.02.005

方开泰, 金辉, 陈庆云. 1988. 实用回归分析. 北京: 科学出版社.

李崇贵, 赵宪文. 2005. 森林郁闭度定量估测遥感比值波段的选择. 林业科学, 41(4): 72-77.

刘大伟, 孙国清, 庞勇, 等. 2006. 利用LANDSAT TM数据对森林郁闭度进行遥感分级估测. 遥感信息, (1): 41-44. DOI:10.3969/j.issn.1000-3177.2006.01.011

王惠文, 吴载斌, 孟洁. 2006. 偏最小二乘回归的线性与非线性方法. 北京: 国防工业出版社.

张云霞, 李晓兵, 陈云浩. 2003. 草地植被盖度的多尺度遥感与实地测量方法综述. 地球科学进展, 18(1): 85-93. DOI:10.3321/j.issn:1001-8166.2003.01.012

赵宪文, 李崇贵. 2001a. 基于"3S"的森林资源定量估测——原理、方法、应用及软件实现. 北京: 中国科学技术出版社, 55-64.

赵宪文, 李崇贵, 斯林, 等. 2001b. 森林资源遥感估测的重要进展. 中国工程科学, 3(8): 15-25.

朱教君, 康宏樟, 胡理乐. 2005. 应用全天空照片估计林分透光孔隙度(郁闭度). 生态学杂志, 24(10): 1234-1240. DOI:10.3321/j.issn:1000-4890.2005.10.025

Casella G, Berger R. 2006. Statistical Inference. Beijing: China Machine Press.

Hansen P, Schjoerring J. 2003. Reflectance measurement of canopy biomass and nitrogen status in wheat crops using normalized difference vegetation indices and partial least squares regression. Remote Sensing of Environment, 86: 542-553. DOI:10.1016/S0034-4257(03)00131-7

Nguyen H, Lee B. 2006. Assessment of rice leaf growth and nitrogen status by hyperspectral canopy reflectance and partial least square regression. European Journal of Agronomy, 24: 349-356. DOI:10.1016/j.eja.2006.01.001

Næsset E, Bollandsås O, Gobakken T. 2005. Comparing regression methods in estimation of biophysical properties of forest stands from two different inventories using laser scanner data. Remote Sensing of Environment, 94: 541-553. DOI:10.1016/j.rse.2004.11.010

Reese H, Nilsson M, Sandström P, et al. 2002. Applications using estimates of forest parameters derived from satellite and forest inventory data. Computers and Electronics in Agriculture, 37: 37-55. DOI:10.1016/S0168-1699(02)00118-7

Schimann H, Joffre R, Roggy J, et al. 2007. Evaluation of the recovery of microbial during soil restoration using near-infrared spectroscopy. Applied Soil Ecology. DOI:10.1016/j.apsoil.2007.07.01

Scull P, Okin G, Chadwick O, et al. 2005. A comparison of methods to predict soil surface texture in an Alluvial Basin. The Professional Geographer, 57: 423-437. DOI:10.1111/j.0033-0124.2005.00488.x