文章信息
- 琚存勇, 邸雪颖, 蔡体久.
- Ju Cunyong, Di Xueying, Cai Tijiu.
- 变量筛选方法对郁闭度遥感估测模型的影响比较
- Comparing Impact of Two Selecting Variables Methods on Canopy Closure Estimation
- 林业科学, 2007, 43(12): 33-38.
- Scientia Silvae Sinicae, 2007, 43(12): 33-38.
-
文章历史
- 收稿日期:2007-04-12
-
作者相关文章
郁闭度是决定林分结构的重要因子之一,它可以用来表征光、水等生态因子通过林冠进入林内的再分布状况。精确确定林分内的郁闭状况,无论在森林经营与管理还是在森林生态精细研究中,都显得十分重要(朱教君等,2005;陈宏伟等,2007)。近20~30年来遥感应用技术的迅速发展,为在地区或国家尺度上精确估测森林郁闭度提供了前所未有的契机。一些学者尝试利用遥感定量因子与森林资源调查定性因子建模估测郁闭度,并利用平均残差平方和准则筛选出对郁闭度估测有强影响的因子(赵宪文等,2001a;2001b;李崇贵等,2005),为生产应用提供了理论支持。然而,基于最小二乘估计的平均残差平方和准则是对观测阵的方阵进行处理,当变量间存在复共线性时,观测阵的方阵退化成病态,所得的解并不稳定(方开泰等,1988),影响郁闭度估测的精度。本文基于遥感和森林资源清查数据,比较了基于偏最小二乘回归的Bootstrap方法和基于最小二乘估计的平均残差平方和准则筛选变量对森林郁闭度估测精度的影响,认为基于偏最小二乘回归的Bootstrap方法更合理更精确。
1 材料与方法 1.1 数据与预处理试验数据为云南思茅地区129个国家森林一类清查固定样地调查数据和对应的遥感影像数据。共设置17个自变量:TM1,TM2,TM3,TM4,TM5,TM7,
用偏最小二乘方法对所选择变量进行回归分析。偏最小二乘回归方法是伍德(Wold)和阿巴诺(Albano)于1983年提出的一种新型的多元统计分析方法。它集多元线性回归分析、主成分分析和典型相关分析的基本功能为一体,可以较好地解决以往用普通多元线性回归分析方法无法解决的问题(Hansen et al., 2003;Næsset et al., 2005;Schimann et al., 2007)。特别当自变量集合内部存在较高程度的相关性时,其结论比普通多元回归更加可靠,整体性强,因此在许多领域的回归建模中得到应用(王惠文等,2006;Nguyen et al., 2006;Schimann et al., 2007),具体运算方法参阅王惠文等(2006)、陈楚等(2004)的文献。
1.3 Bootstrap方法Bootstrap方法是美国斯坦福大学统计系教授Efron于1979年前后提出的一种再抽样方法,也称自助法,目前已在许多研究领域得到广泛应用(王惠文等,2006;Casella et al., 2006)。设标准化的原始样本集为S[n×(p+1)],其中自变量观测矩阵为Xn×p=(xi1,xi2, …,xip), 因变量观测矩阵为Yn×1=(yi)(i=1, 2, …, n)。通过偏最小二乘回归模型,利用Bootstrap方法筛选变量的方法(以下称Bootstrap方法)如下:
1) 由原始数据建立偏最小二乘回归模型
拟检验的H0假设为
2) 在S中随机抽取一个样本点(yi(1), xi1(1), xi2(1), …, xip(1)),记其数值后再放回S,然后再抽取第二个,记其数值后再放回。这样重复nB次,得到一个Bootstrap样本
本文nB等于n,当建模样地个数较多时,可以适当减小其数值。
3) 以Bootstrap样本作偏最小二乘回归,得到模型
4) 重复步骤(2)和(3)共B次,得到B组偏最小二乘回归系数
一般而言,随着B的增大,估计的精度也会相应提高,本文在B大于1 000时,虽然求得的系数临界值有微小差异,但所选变量不再发生变化。
5) 记
设检验水平为α,将
6) 判别准则为:如果
将所有通过显著性检验的自变量重新与因变量建立回归方程,重复步骤1~6,直到剩下的所有变量都通过显著性检验,通过检验的变量就是建立估测模型的最优变量。
1.4 平均残差平方和准则基于最小二乘估计的平均残差平方和(residual mean square,RMS)准则(以下称RMSq准则)选择变量,是用自变量所有可能子集建立回归方程(共2p-1个,p为变量个数),使回归方程平均残差平方和最小的变量子集就是最佳子集。包含q个变量的平均残差平方和表达式为(方开泰等,1988;李崇贵等,2005):
用检验样本进行精度评价,评价采用2个指标:误差均方和(root mean square error,RMSE)(Reese et al., 2002;Scull et al., 2005)和总预报偏差的相对误差(relative error,RE)(赵宪文等,2001a;李崇贵等,2005),其表达式分别为:
其中:n为检验样本个数,yi为郁闭度实测值,
仅利用13个遥感因子建模分析。方案一:按指标RMSE进行交叉有效性检验确定最优建模样地。根据Bootstrap方法有4个变量通不过显著性检验,分别为TM4,
方案二:按指标RE进行交叉有效性检验确定最优建模样地。根据Bootstrap方法所选择的建模变量与方案一的相同,只是方程的回归系数略有差异:βB-RE={0.385 9,-0.002 8,-0.004 3,-0.003 5,-0.000 8,-0.002 1,0.241 5,0.002 4,-0.074 4,0.037 1};而根据RMSq准则选择的变量差别较大,只有5个变量入选(图 1B),分别为TM1,
分别用4个回归方程对49个检验样地进行郁闭度估测预报,误差情况见表 1、图 2。结果表明:在2个方案中,所筛选出来的最优变量不尽相同,但Bootstrap方法比RMSq方法都得到了更小的RMSE,前者比后者精度平均提高3.2%。方案二中,用RMSq方法虽然比Bootstrap方法得到的RE要小一些,但检验样地郁闭度预报偏差正负极值都比后者要大,预报误差不够稳定。方案二得到的郁闭度预报偏差最大值比方案一得到的结果要大得多,说明像素水平估测精度方案一优于方案二。
利用所有17个变量进行建模分析。根据方案一用Bootstrap方法筛选出6个变量:TM1,TM2,TM7,
根据方案二用Bootstrap方法选出的最优变量为:TM1,TM2,TM5,
用4个回归方程估测郁闭度,预报偏差情况基本一致,85%以上的偏差绝对值都小于0.2,更有60%的样地偏差绝对值小于0.1,说明属性因子的加入,特别是有林地这一因子,显著提高了郁闭度的估测精度(图 4,表 2)。同RMSq方法相比,用Bootstrap方法选择变量建立模型,模型预报精度大有提高,RMSE指标提高了1.59%~5.06%,而RE指标更是提高了1倍多(表 2)。
遥感数据能提供动态的、综合的植被覆盖信息,它与系统的全国森林资源清查数据相结合丰富了森林资源经营管理的手段,并极大提高了工作效率(赵宪文等,2001a;2001b)。郁闭度建模估测是森林资源遥感估测研究的一项重要内容,由于遥感数据的复杂性,并不能确知哪些变量对郁闭度估测会产生重要影响,而构造过多变量又不可避免带来负面影响,不仅影响模型的稳定,更缺乏实用性。因此最优变量的筛选是准确估测郁闭度的关键环节。研究发现,基于偏最小二乘回归的Bootstrap方法是一种比目前应用较多的基于最小二乘估计的RMSq方法更好的变量筛选方法,用Bootstrap方法所选变量建立郁闭度估测模型,精度能提高5%左右(RMSE指标)。
总预报偏差的相对误差容易掩盖误差起伏较大的真实情况,据此选出的最优模型应避免在小空间尺度上应用,更不能用于评价像元水平的郁闭度空间分布状况。这一点,在以前的研究中重视不够。而用RSME指标评价回归模型的精度似乎更可靠一些。
属性因子在模型中的引入,极大提高了模型的预报精度,特别是有林地这一地类因素更是起着决定性的作用。只用分布在有林地内的样地点训练并建立估测模型,可以提高模型的预报精度。另外,在建模估测前进行遥感图像分类(张云霞等,2003;刘大伟等,2006),把有林地单独提取出来进行估测评价,也将是提高郁闭度估测预报精度的一个途径。
陈楚, 关泽群, 张鹏林, 等. 2004. 利用RS和GIS的森林蓄积量偏最小二乘估测研究. 湖北林业科技, (4): 25-28. DOI:10.3969/j.issn.1004-3020.2004.04.007 |
陈宏伟, 殷鸣放, 刘娜, 等. 2007. 辽东林山区林下人参生长与林内温度和光照因子关系初步研究. 西北林学院学报, 22(2): 20-23. DOI:10.3969/j.issn.1001-7461.2007.02.005 |
方开泰, 金辉, 陈庆云. 1988. 实用回归分析. 北京: 科学出版社.
|
李崇贵, 赵宪文. 2005. 森林郁闭度定量估测遥感比值波段的选择. 林业科学, 41(4): 72-77. |
刘大伟, 孙国清, 庞勇, 等. 2006. 利用LANDSAT TM数据对森林郁闭度进行遥感分级估测. 遥感信息, (1): 41-44. DOI:10.3969/j.issn.1000-3177.2006.01.011 |
王惠文, 吴载斌, 孟洁. 2006. 偏最小二乘回归的线性与非线性方法. 北京: 国防工业出版社.
|
张云霞, 李晓兵, 陈云浩. 2003. 草地植被盖度的多尺度遥感与实地测量方法综述. 地球科学进展, 18(1): 85-93. DOI:10.3321/j.issn:1001-8166.2003.01.012 |
赵宪文, 李崇贵. 2001a. 基于"3S"的森林资源定量估测——原理、方法、应用及软件实现. 北京: 中国科学技术出版社, 55-64.
|
赵宪文, 李崇贵, 斯林, 等. 2001b. 森林资源遥感估测的重要进展. 中国工程科学, 3(8): 15-25. |
朱教君, 康宏樟, 胡理乐. 2005. 应用全天空照片估计林分透光孔隙度(郁闭度). 生态学杂志, 24(10): 1234-1240. DOI:10.3321/j.issn:1000-4890.2005.10.025 |
Casella G, Berger R. 2006. Statistical Inference. Beijing: China Machine Press.
|
Hansen P, Schjoerring J. 2003. Reflectance measurement of canopy biomass and nitrogen status in wheat crops using normalized difference vegetation indices and partial least squares regression. Remote Sensing of Environment, 86: 542-553. DOI:10.1016/S0034-4257(03)00131-7 |
Nguyen H, Lee B. 2006. Assessment of rice leaf growth and nitrogen status by hyperspectral canopy reflectance and partial least square regression. European Journal of Agronomy, 24: 349-356. DOI:10.1016/j.eja.2006.01.001 |
Næsset E, Bollandsås O, Gobakken T. 2005. Comparing regression methods in estimation of biophysical properties of forest stands from two different inventories using laser scanner data. Remote Sensing of Environment, 94: 541-553. DOI:10.1016/j.rse.2004.11.010 |
Reese H, Nilsson M, Sandström P, et al. 2002. Applications using estimates of forest parameters derived from satellite and forest inventory data. Computers and Electronics in Agriculture, 37: 37-55. DOI:10.1016/S0168-1699(02)00118-7 |
Schimann H, Joffre R, Roggy J, et al. 2007. Evaluation of the recovery of microbial during soil restoration using near-infrared spectroscopy. Applied Soil Ecology. DOI:10.1016/j.apsoil.2007.07.01 |
Scull P, Okin G, Chadwick O, et al. 2005. A comparison of methods to predict soil surface texture in an Alluvial Basin. The Professional Geographer, 57: 423-437. DOI:10.1111/j.0033-0124.2005.00488.x |