用岭估计研究以RS和GIS为基础的森林郁闭度估测

文章信息

李崇贵, 赵宪文, 田永林, 石强.

Li Chonggui, Zhao Xianwen, Tian Yonglin, Shi Qiang.

ON FOREST CANOPY DENSITY ESTIMATION RESEARCH BASED ON RS AND GIS WITH RIDGE ESTIMATION

林业科学, 2001, 37(5): 24-30.

Scientia Silvae Sinicae, 2001, 37(5): 24-30.

文章历史

收稿日期：2000-09-25

作者相关文章

李崇贵

赵宪文

田永林

石强

引用本文

李崇贵, 赵宪文, 田永林, 石强. 2001. 用岭估计研究以RS和GIS为基础的森林郁闭度估测. 林业科学, 37(5): 24-30.

Li Chonggui, Zhao Xianwen, Tian Yonglin, Shi Qiang. 2001. ON FOREST CANOPY DENSITY ESTIMATION RESEARCH BASED ON RS AND GIS WITH RIDGE ESTIMATION. Scientia Silvae Sinicae, 37(5): 24-30.

用岭估计研究以RS和GIS为基础的森林郁闭度估测

李崇贵¹ , 赵宪文² , 田永林² , 石强¹

1. 深圳职业技术学院深圳 518055;
2. 中国林业科学研究院资源信息研究所北京 100091

收稿日期：2000-09-25

摘要： 本文根据最小二乘估计(LS)及岭估计(R)原理, 利用平均残差平方和准则, 从样地对应的RS和GIS信息中, 用计算机仿真方法筛选出影响郁闭度估测的主要信息。在分析LS估计存在缺陷的基础上, 提出采用岭估计建立郁闭度估测方程。实例分析表明, 当在影响郁闭度估测的变量间存在复共线性时, 岭估计比LS估计具有较高的预报精度, 可以满足生产的需要。

关键词：郁闭度方差扩大因子平均残差平方和岭估计复共线性

ON FOREST CANOPY DENSITY ESTIMATION RESEARCH BASED ON RS AND GIS WITH RIDGE ESTIMATION

Li Chonggui¹, Zhao Xianwen², Tian Yonglin², Shi Qiang¹

1. Shenzhen Polytechnic Shenzhen 518055;
2. The Research Institute of Resource Information, CAF Beijing 100091

Abstract: In this paper, by means of the principles of LS estimation and ridge estimation, using the rule of residual mean squares(RMS_q), the main information that effect the estimation of forest canopy density is screened out from the RS and GIS information of the ground sample plots through computer simulation. Then, based on the analysis of possible limitation of LS estimation, the ridge estimation is put forward to establish the equation of canopy density estimation. The practical example indicates that when there are some multi-collinearities between the RS and GIS information that effect canopy density estimation, ridge estimation is prior to LS estimation.

Key words: Canopy density Variance inflation factor RMS_q Ridge estimate Multi-collinearity

郁闭度是反映森林生长状况的重要指标, 若要通过RS和GIS监测森林资源, 郁闭度是非常重要的因子。因此如何借助RS和GIS快速、准确确定郁闭度是一个亟待解决的问题。有学者(赵宪文, 1997)曾对此进行过详细的研究, 采用的方法是以地面调查确定的郁闭度为因变量, 以TM数据若干波段的灰度值及灰度比值为自变量, 同时考虑坡度、坡位及优势树种组等信息, 采用多元线性模型估测郁闭度。由于在所建模型中, 自变量的个数及种类对郁闭度估测精度影响较大。在较多可能影响郁闭度估测的RS和GIS信息中, 如何合理选择起主要作用的变量, 如何克服所选变量间可能存在的复共线性, 建立稳定、可靠的郁闭度估测方程, 将是本文研究的重点。

1 自变量选择 1.1 郁闭度估测模型

设某林区所包含地面样地的总数为n, 各样地郁闭度观测向量为Y_n×1, 在样地对应的RS和GIS信息中, 影响郁闭度估测的全部自变量维数为d(包括常数项), 其观测矩阵为Y_n×d, 则郁闭度线性估测模型可表示为

(1)

式中, β为d×1待定参数向量; e为n×1随机误差向量; I_n为单位矩阵; σ²为各样地郁闭度观测方差。

1.2 可选变量设置

以RS和GIS为基础, 进行森林郁闭度定量估测, 模型中所含变量必须能通过RS和GIS获取。参考已有文献(赵宪文, 1997; 游先祥, 1995), 当RS信息为TM图像时, 本文设置如表 1所示的郁闭度估测可选变量。对表中变量可作如下分析:

表 1 郁闭度估测可供选择的变量 Tab.1 The selectable arguments for the estimation of canopy density

RS图像可供直接利用的信息一般为各波段灰度值及灰度比值, 因此共设置了6个单波段和6个比值波段作为影响郁闭度估测的变量。

森林生长状况与地理位置有一定的关系, 可选择地理坐标为变量。

地类包括有林地、疏林地、宜林地及其它种类。本文将疏林地划归无林地, 将地类分为有林地和无林地两大类, 作为影响郁闭度估测的变量。

坡向分东、南、西、北、东北、东南、西北、西南及无坡向9类, 本文将东、北、东北及西北划为阴坡, 将西、南、东南及西南划为阳坡, 无坡向单独一类, 按数量化方法(唐守正, 1989)处理后作为变量。

1.3 平均残差平方和准则

根据LS估计原理, 自变量选择应遵循少而精的原则。设在d维自变量中, 对郁闭度估测起主要作用的自变量个数为q, 按模型(1), 平均残差平方和(RMS_q)(陈希孺等, 1987)可表示为

(2)

用LS估计郁闭度, 残差平方和将随自变量个数的增加而减小, 其最小值在模型包含了对郁闭度估计有影响的全部自变量时达到。按(2)式选择自变量时, 随着自变量个数q的增加, (n-q)^-1将增大, 由于(2)式中分子在不断减小, 开始时因分子减小幅度大, RMS_q将逐渐减小, 到达最小后, 又将逐渐增大。其最小值对应的变量子集即为对郁闭度估测起主要作用的最优变量。

2 用岭估计估测郁闭度 2.1 LS估计存在的缺陷

设(1)式中β的LS估计为β, 其均方误差(MSE)可表示为

(3)

记λ₁ ≥λ₂ ≥ … ≥λ_d >0为X′X的特征根, 因X′X可逆, 则(X′X)^-1的特征根可表示为λ₁^-1, λ₂^-1 Λλ_d^-1, β的均方误差可变为

(4)

分析上式, 若X′X至少有一个特征根很小, MSE(β)就会很大, 此时尽管Gauss-Markov定理保证了σ²tr(X′X)^-1在所有线性无偏估计类中最小, 但它本身的值却很大。在这种情况下, β不再是β的良好估计。此时称观测阵X存在复共线性(Multi-Collinearity), LS估计也不再适合。

2.2 岭估计估测郁闭度

对于线性模型(1), 定义待定参数β的岭估计为

(5)

式中, k为岭参数。

与LS估计相比, 岭估计用X′X +kI_d代替X′X。当X存在复共线性时, X′X的特征根至少有1个接近于0, 而X′X +kI_d的特征根λ₁ +k, λ₂ +k, …, λ_d +k接近于0的程度就会得到改善, 观测阵X的复共线性将被打破, 从而使MSE(β(k)) < MSE(β), 即郁闭度估测方程中待定参数的岭估计将优于LS估计。

2.3 复共线性探测

观测阵是否存在复共线性, 可采用多种方法探测(陈希孺等, 1987), 本文采用方差扩大因子法。记c_ij =(X′X)_jj^-1, ρ_j为d维变量中x_j对其余d-1个变量的复相关系数, 可得

在郁闭度估测模型(1)中, 待定参数β_j的LS估值的方差为σ²c_jj, 由于它与c_jj仅相差一个常数, 因此称c_jj为方差扩大因子。因ρ_j度量了变量x_j与其余变量的相关程度, 其值越大, 观测阵X的复共线性就越严重, 相应c_jj就越大; 反之c_jj就越小。当ρ_j接近于0时, c_jj就接近于1, 因此可用c_jj来探测观测阵X存在复共线性的程度。经验表明, 当c_jj >5时, 就可能存在复共线性。

2.4 岭参数确定

当观测阵X存在复共线性时, LS估计就不再适合。此时模型(1)中的待定参数可由岭估计按(4)式确定。在根据(4)式确定待定参数估值时, 需寻找适合的岭参数k, 以保证MSE(β(k)) < MSE(β), 有文献证明这样的k一定存在(陈希孺等, 1987)。确定k值的方法有多种, 常用的有岭迹法、方差扩大因子法、C_p准则等。本文采用预报样地郁闭度均值预报偏差相对误差最小的准则, 通过计算机仿真确定k。

3 实例分析

以云南思茅地区1幅(6967 ×5965)1992年的TM图像和当年样地的一类调查资料为例进行分析。为保证遥感图像几何精校正精度, 本文采用美国RSI公司的IDL语言从1幅图像中分割出1/4的区域(0 :3483, 0:2982)进行试验。应用该地区1991年1 50000地形图, 共选择了56个地面控制点, 用ENVI遥感处理平台, 按双线性内插法重采样进行了几何精校正, 几何位置精度约在1个象元以内。根据校正后RS图像的平面坐标和地面样地的平面坐标, 通过IDL语言编程, 由计算机自动读取样地所对应象元的灰度值, 1 4遥感图像区域内共包含129个样地。由各样地对应的RS图像灰度值及相应的一类调查资料, 按表 1的方式分别读取129个样地各变量的值, 并进行中心标准化。

3.1 变量筛选

根据表 1的设置, 包括常数项在内, 郁闭度估测方程共有19个可供选择的变量。为分析随着q的增加, 入选变量及RMS_q的变化规律, 本文分析了不包括1个变量的所有可供选择的524268个子集的状况。不同变量个数q对应的可供选择的子集数τ、最优子集、相应的RMS_q及复相关系数如表 2所示。

表 2 不同q值对应的最优自变量子集及相应的RMS_q Tab.2 The optimal variable subset and RMS_q corresponding to different q value

分析表 2中数据可得:

对郁闭度估测起主要作用的最优变量子集所含变量数为8, 变量类型分别为常数项、TM₁、TM₅、TM₇、(TM₄+TM₅-TM ₂)(TM₄+TM₅+TM₂)、TM₃/(TM₁ +TM₂ +TM₃ +TM₄ +TM₅ +TM₇)、有林地及阳坡。

绝大部分q值对应的最优变量子集均包含常数项、有林地、阳坡三项因子, 地理位置对郁闭度估测影响很小。

除q =14外, 复相关系数基本上随q值的增加而增大。

在进行样地类型划分时, 若将疏林地划归有林地, 当q =9时, RMS_q达到最小, 最优变量子集所含变量类型分别为常数项、TM₁、TM₃、TM₇、TM₇/TM₃、(TM₄+TM₅-TM₂)(TM₄ +TM ₅ +TM₂)、TM₃ (TM₁+TM₂+TM₃+TM₄+TM₅+TM₇)、有林地及阳坡。与将疏林地划归无林地稍有差别。

3.2 复相关性探测

为研究最优变量子集的预报精度, 设置图 1所示的3种预报方案, 方案1所含预报样地是在129个样地中随机抽取的; 方案2和方案3各含41个样地, 它们是在129个样地中顺序抽取的。在建立郁闭度估测方程时, 预报样地不参加计算, 所有变量按实测值计算, 不进行中心标准化。3方案各变量对应的方差扩大因子如表 3所示。由表中数据可得, 3方案中, 方案1复共线性较小, 方案2次之, 方案3最严重(在建立方程时, 为考虑便于预测, 未对各变量进行中心标准化, 表 3中各变量的方差扩大因子不再满足大于1的规律)。

图 1 预报样地分布 Fig. 1 The distribution of the predicted sample plots in 3 schemes

未预报样地Unpredicted sample plots;

方案1预报样地Predicted sample plots of scheme 1;

方案2预报样地Predicted sample plots of scheme 2;

方案3预报样地Predicted sample plots of scheme 3.

表 3 3方案各变量对应的方差扩大因子 Tab.3 The variance inflation factor of each argument in 3 schemes

3.3 岭参数k确定

在确定岭参数k时, 本文通过仿真方式不断调整k, 直到各方案郁闭度均值预报偏差相对误差达到最小为止。3方案的岭参数分别为0.06、0.65、5.5, 岭参数的大小与复共线性的严重程度成正比。加岭参数后各变量的方差扩大因子如表 4所示, 各方案的复共线性已消除。

表 4 3方案各变量对应的方差扩大因子 Tab.4 The variance inflation factor of each argument in 3 schemes

3.4 岭估计结果

3方案郁闭度岭估计、LS估计方程、各样地郁闭度均值预报偏差相对误差θ及各样地郁闭度预报中误差σ如表 5所示。在用郁闭度估测方程预报样地郁闭度时, 当郁闭度为负值时, 自动取0。3方案各样地郁闭度实测值与预报值的比较如图 2所示。分析图表可得, 当观测阵存在复共线性时, 岭估计优于LS估计, 若复共线性越严重, 效果就越好。就绝大部分预报样地, 各方案郁闭度实测值与预报值相差很小, 岭估计郁闭度均值预报偏差相对误差小于4 %。

表 5 3方案郁闭度岭估计及LS估计方程及预报精度 Tab.5 The equations of ridge and LS estimation and prediction accuracy in 3 schemes

图 2 3方案各样地郁闭度实测值与预报值比较 Fig. 2 The comparison of the surveyed and predicted canopy density of all sample plots in 3 schemes

实测郁闭度surveyed canopy density;

LS估计郁闭度forecasted canopy density of LS estimation;

岭估计郁闭度forecasted canopy density of ridge estimation.

4 结论

通过上面的分析, 可得以下结论:

通过RS和GIS确定郁闭度, 是以RS和GIS为基础的森林资源调查的重要问题。本文研究表明, 采用平均残差平方和准则, 由计算机仿真, 可有效筛选对郁闭度估测起主要作用的RS和GIS信息。在地类划分时, 将疏林地划归无林地, 所得最优变量子集郁闭度预报精度优于将疏林地划归有林地。

按平均残差平方和准则筛选所得最优变量, 可能存在复共线性, 根据所选变量的方差扩大因子可有效探测复共线性是否存在。

当最优变量间存在复共线性时, 可利用预报样地郁闭度均值预报偏差相对误差最小通过仿真方式确定岭参数, 郁闭度估测模型中待定参数的岭估计将优于LS估计。复共线性越严重, 效果就越明显。

岭估计仅在变量间存在复共线性时才优于LS估计。进行郁闭度估测时, 应可通过编程自动探测复共线性是否存在, 来确定是采用LS估计还是岭估计。

无论是岭估计还是LS估计, 3方案郁闭度预报中误差均在0.12左右, 根据中误差与真误差的关系, 单个样地郁闭度预报偏差超过此值的概率还有32.7 %, 中误差数值偏大, 与位于各样地处的森林生长状况相差很大有关。若是对连续森林进行预报(相当于各预报样地郁闭度取均值), 将不会出现此现象。

利用本文方法估测郁闭度, 再利用估测的郁闭度作为自变量预报森林蓄积, 蓄积预报精度满足生产要求。

参考文献(References)

陈希孺, 王松桂. 1987. 近代回归分析. 合肥: 安徽教育出版社, 151-266.

唐守正. 1989. 多元统计分析方法. 北京: 中国林业出版社, 215-230.

游先祥. 1995. 森林资源调查、动态监测、信息管理系统的研究. 北京: 中国林业出版社, 81-85.

赵宪文. 1997. 林业遥感定量估测. 北京: 中国林业出版社, 134-135.