林业科学  2015, Vol. 51 Issue (3): 25-33   PDF    
DOI: 10.11707/j.1001-7488.20150304
0

文章信息

祖笑锋, 倪成才, GordenNigh, 覃先林
Zu Xiaofeng, Ni Chengcai, Gorden Nigh, Qin Xianlin
基于混合效应模型及EBLUP预测美国黄松林分优势木树高生长过程
Based on Mixed-Effects Model and Empirical Best Linear Unbiased Predictor to Predict Growth Profile of Dominant Height
林业科学, 2015, 51(3): 25-33
Scientia Silvae Sinicae, 2015, 51(3): 25-33.
DOI: 10.11707/j.1001-7488.20150304

文章历史

收稿日期:2014-05-20
修回日期:2014-09-19

作者相关文章

祖笑锋
倪成才
GordenNigh
覃先林

基于混合效应模型及EBLUP预测美国黄松林分优势木树高生长过程
祖笑锋1, 2, 倪成才2 , GordenNigh3, 覃先林1    
1. 中国林业科学研究院资源信息研究所 北京 100091;
2. 北华大学林学院 吉林 132013;
3. British Columbia Ministry of Forests, Lands and Natural Resources Operations, Forest Analysis and Inventory Branch, P.O.BOX9512, Stn.Prov.Govt.Victoria, B.C.V8W 9C2, Canada
摘要【目的】 基于加拿大哥伦比亚省美国黄松79株解析木数据,研究如何用经验线性无偏最优预测法(EBLUP)预测优势木树高生长过程,并分析预测精度与观测次数、观测间隔和预测时长的关系。【方法】 随机抽取49株解析木数据拟合树高生长混合效应模型,30株解析木数据用于EBLUP的预测分析。树高生长模型以Richards,Logistic,Korf等为基础模型,选用AIC,BIC及Loglik 3个统计量评价模型的拟合效果。模型拟合用R软件的nlme函数实现,预测分析以预测误差均方(MSPE)为评价标准。在分析观测间隔、观测次数和预测时长对MSPE的影响时,为分离出1个因素的影响效果,将2个因素保持不变,以分析第3个因素的影响作用。在R软件拟合结果的基础上,用SAS的IML过程进行EBLUP预测分析。【结果】 拟合结果表明,Logistic方程的拟合精度最高,选为EBLUP预测分析的基本模型。预测分析结果表明,观测次数、观测间隔和预测时长对预测精度均有显著影响。随着观测次数的增加,MSPE一般表现出减少的趋势,但下降幅度与观测间隔有关:当间隔较大时,不同的观测值可以提供更充分的生长过程信息,因而可以显著降低MSPE值;但当间隔较小时,观测值所提供的生长信息相互重叠,对提高预测精度的增益有限。从预测时长角度看,在观测值附近一定区域内,EBLUP预测结果非常精确,但随着预测时长增加,预测误差呈逐渐增加的趋势。【结论】EBLUP预测相当于两阶段拟合过程的第二阶段。第一阶段拟合为估计混合参数模型确定参数的过程,而第二阶段则是在第一阶段拟合结果的基础上,依据一个特定林分的若干树高观测值用EBLUP法预测此林分的随机效应值,并进一步预测树高生长过程。
关键词混合效应模型    经验线性无偏最优预测法    树高生长模型    美国黄松    
Based on Mixed-Effects Model and Empirical Best Linear Unbiased Predictor to Predict Growth Profile of Dominant Height
Zu Xiaofeng1, 2, Ni Chengcai2, Gorden Nigh3, Qin Xianlin1    
1. Institute of Forest Resources Information Techniques, CAF Beijing 100091;
2. College of Forestry, Beihua University Jilin 132013;
3. British Columbia Ministry of Forests, Lands and Natural Resources Operations, Forest Analysis and Inventory Branch, P. O. BOX9512, Stn. Prov. Govt. Victoria, B. C. V8W 9C2, Canada
Abstract: [Objective] This study analyzed prediction accuracy of empirical best linear unbiased predictor(EBLUP), and effects of previous observations, age interval of observations and prediction span on prediction accuracy, based upon height data from 79 dominant trees of ponderosa pine in British Columbia, Canada. [Method] We randomly selected 49 trees for fitting mixed-effects models and 30 trees for validating EBLUP. The base models were Richards, Logistic, and Korf. Fit statistics, AIC, BIC and Loglik, were used as evaluation criteria, and mean squared prediction error (MSPE) for analyzing effects of previous observations, age interval of observations and prediction span on prediction accuracy. We used the nlme function in R for model fitting, and the IML procedure in SAS for analyzing EBLUP prediction. To isolate the effect of one factor, we kept two other factors fixed.[Result] Fitting results showed the Logistic model had the best criteria among the three models of under investigation, indicating that it was the best-fitted model and was chosen for EBLUP prediction analysis. In the analysis of EBLUP prediction, we first introduced how to use EBLUP to predict random effects associated with a stand through a detailed example. Data from six trees, which deviated significantly from population-mean growth process, were used to present relationships among individual growth, population-mean growth, and adjusted values given by EBLUP. The results indicated that EBLUP prediction could fully follow individual growth process, given that there were multiple previous observations with long-enough age intervals. EBLUP analysis results also presented the number of previous observations, age interval of observations and prediction span significantly affected prediction accuracy. MSPE decreased as the number of previous observations increased, particularly when observations separated long enough in age so that they could give more efficient growth information. With respect to prediction span, prediction accuracy decreased as prediction span extended further away from the ages at which observations were obtained. [Conclusion] We concluded that EBLUP could be taken as the second stage of a two-stage fitting process. The first stage was used to estimate fixed model parameters, whereas the second stage to predict random effects associated with a stand on the basis of parameter estimators obtained in the first stage, and then to predict the height growth process of the stand.
Key words: mixed-effects model    EBLUP    dominant height growth model    ponderosa pine    

林分优势木树高生长模型是描述优势木树高生长过程的统计模型,是林分生长与收获模型系统中的重要组成部分。林分优势木树高的预测为适地适树、森林经营活动和林分生长收获预测提供重要的基础数据(孟宪宇,1994)。

由于林分立地质量不同,同一树种的不同林分优势木树高生长过程也不同,表现为生长模型的参数不同。基本有2种方法可以处理模型参数的变化:方法一是将模型参数设定为其他林分测树因子的函数,但这一方法模型结构复杂,参数过多,在预测树高时首先要预测树高模型中的其他测树因子,因此可能会带来更大的预测误差;另一种方法是将一个或多个参数设定为随林分变化而变化的随机参数,主要包括差分生长模型、广义差分生长模型和混合效应模型。

差分生长模型(algebraic difference approach,ADA)由Clutter(1963)提出,并由Bailey等(1974)进行了系统化研究,成为立地指数模型的主流方法。ADA模型一般仅能将一个模型参数设定为随机参数,用一个观测值即可估计此随机参数;但在有多个观测值时,ADA模型无法有效利用所有观测值中蕴涵的生长过程信息。此外,ADA模型的树高生长过程,要么为单型曲线族,要么为多型曲线族,无法生成具有可变水平渐进极值的多型曲线族。针对这一不足,Ciezewski等(2000a;2000b)提出了广义差分生长模型(generalized ADA,GADA),GADA模型可以指定多个参数为随机参数,一定程度上克服了ADA模型的不足。但与ADA模型一样,GADA模型在模型拟合时,仍然无法考虑林分个体与总体间的相关性和差异性;在模型预测时,无法有效利用所有观测值中蕴涵的生长过程信息,而且也无法给出总体平均生长趋势。

混合模型方法则在很大程度上弥补了ADA,GADA模型的不足:在模型拟合时,可以指定任意多个模型参数为随机参数,既可以反映总体的平均变化趋势,又可以反映个体之间的差异;在模型预测时,可以有效利用多个观测值估计特定林分的随机效应参数值,并给出精确的预测。

Lappi等(1988)开创性地建立了Richards混合效应优势木树高模型。Fang等(2001)建立了美国乔治亚州和佛罗里达州湿地松(Pinus elliottii)的Richards混合效应模型,考虑了经营措施(如采伐、施肥和火烧)的影响和样地的随机效应,认为非线性混合模型要比传统方法预测的精度高。Calegario等(2005)考虑了样地的随机效应,为无性系杂交桉树(eucalyptus hybrid)构造了优势树高非线性混合模型,结果表明采用三参数Logistic非线性混合模型具有相当大的灵活性,产生了依赖于无性系和环境的多形地位指数曲线。目前国内对混合效应模型的拟合方法进行了系统的研究(Tang et al.,2001李永慈等,2004李春明等,2010),但是混合模型在林业上的预测应用却不多见。

混合模型主要用于分析定性、定量和随机因子对应变量的影响,特别是各种随机因子对应变量的影响程度;另一个重要用途就是在有多个观测值时,用经验线性无偏最优预测法(empirical best linear unbiased predictor,EBLUP)提高预测精度。EBLUP最早应用于动物育种学中,与地统计学的Kriging、时间序列的卡尔曼滤波及小域估计法(small area estimation)(吕萍等,2009)的数学原理一致。目前国内林业上对混合效应模型的应用基本限于与传统回归模型拟合效果的对比,对预测的研究成果较少。本文基于加拿大哥伦比亚省美国黄松(Pinus ponderosa)79株解析木数据,研究如何用EBLUP对优势木树高生长过程进行预测,使用49株解析木的树高连年生长数据拟合Richards-Chapman,Logistic,Korf等混合效应模型,利用30株解析木数据进行EBLUP预测分析。模型拟合用R软件的nlme函数完成,并用SAS的IML过程对EBLUP预测进行分析。

1 数据来源与方法 1.1 数据来源

数据来源于加拿大哥伦比亚省(British Columbia)美国黄松林分的临时样地数据。哥伦比亚省林业局于2000和2001年夏天建立了100块临时样地,样地设置时充分考虑了现有林分的立地质量、年龄、密度以及物种丰富度等因素,从中选取具有代表性的林分作为样地。样地形状为圆形,面积为0.01 hm2(半径5.64 m)。每个样地挑选1株未受损或未受压的健康优势木或亚优势木作为样木,最终得到79株优势木的解析木。样木伐倒后,对于树桩和树干部分采取纵切的方法,由髓心直接查出树高-年龄值;对于不适合做纵切的树梢部分采取轮生枝法确定每年的树高生长量。随机选取49株优势木进行拟合,30株优势木进行预测。表 1分别列出拟合数据(49株)和预测数据(30株)的描述性统计量,数据的详细介绍见文献Nigh(2004)

表 1 拟合和预测优势木树高生长模型的数据统计 Tab.1 The summary statistics of the fitting and calibration data for the dominant tree
1.2 树高生长模型的选择与建立

林分优势树高生长模型种类很多,如Logistic,Mitscherlich,Gompertz,Richards和Korf方程等,其中Richards-Chapman,Logistic和Korf方程应用较为广泛,其模型结构见表 2。表中的yi,j表示i个林分在年龄xi,j时的树高;β1β2β3为方程的确定效应参数;bi,1bi,2bi,3为与β1β2β3对应的随机效应参数,可假设服从三维正态分布;ei,j为方程的误差项,且与随机效应参数bi,1bi,2bi,3任何一个均相互独立。

表 2 优势木树高生长方程和混合效应模型 Tab.2 The equations of dominant tree and mixed-effects model
1.3 EBLUP的基本原理

EBLUP的推导方法有多种,下面介绍易于理解、基于多元正态分布理论的推导方法。

bi=0为基点,用一阶泰勒公式可以将非线性混合模型

$ {y_i} = f\left({{A_i}\beta + {B_i}{b_i},{X_i}} \right)+ {e_i} $

近似地表达为:

$ {y_i} \approx f\left({{A_i}\beta,{X_i}} \right)+ {Z_i}{b_i} + {e_i}。 $ (1)

式中:X i为非线性混合模型的预测变量矩阵; y i为与Xi的元素xi1xi2,…,xini相对应的ni个树高观测值构成的向量,yi的第j个元素为第i个林分的第j个观测值;ei为与yi相关联的随机误差项向量,服从ni维正态分布,其数学期望为0 ;βp维确定参数列向量;biq维随机参数列向量,一般假设bi服从q维的多元正态分布,其数学期望为0,而且与ei相互独立;AiBi为具有适当维数的关联矩阵(即由0或1构成的矩阵)。以表 2中的混合效应模型为例,对应的AiBi均为三阶单位阵,模型参数均可表示为βk+bi,k(k=1,2,3)。以上所述矩阵可分别表示如下:

$ \begin{array}{l}\beta = \left({\begin{array}{*{20}{c}}{{\beta _1}}\\{{\beta _2}}\\ \vdots \\{{\beta _p}}\end{array}} \right),{b_i} = \left({\begin{array}{*{20}{c}}{{b_{i,1}}}\\{{b_{i,2}}}\\ \vdots \\{{b_{i,q}}}\end{array}} \right),{X_i} = \left({\begin{array}{*{20}{c}}{{x_{i,1}}}\\{{x_{i,{\rm{2}}}}}\\ \vdots \\{{x_{i,{n_i}}}}\end{array}} \right),\\{y_i} = \left({\begin{array}{*{20}{c}}{{y_{i,1}}}\\{{y_{i,2}}}\\ \vdots \\{{y_{i,{n_i}}}}\end{array}} \right),{e_i} = \left({\begin{array}{*{20}{c}}{{e_{i,1}}}\\{{e_{i,2}}}\\ \vdots \\{{e_{i,{n_i}}}}\end{array}} \right)\end{array} $

随机向量bi~N(0,D),ei~N(0,Ri);eib i协方差矩阵分别为RiD;矩阵Ri是一个维数为ni的对称矩阵,而Dq维对称矩阵。式(1)中的矩阵Zi定义如下:

$ \begin{array}{l}{Z_i} = \left({\begin{array}{*{20}{c}}{{z_{i,1,1}}}&{{z_{i,1,2}}}& \cdots &{{z_{i,1,q}}}\\{{z_{i,2,1}}}&{{z_{i,2,2}}}& \cdots &{{z_{i,2,q}}}\\ \vdots & \vdots & \cdots & \vdots \\{{z_{i,{n_i},1}}}&{{z_{i,{n_i},2}}}& \cdots &{{z_{i,{n_i},q}}}\end{array}} \right),\\{z_{i,j,k}}\frac{{\partial f\left({{A_i}\beta + {B_i}{b_i},} \right.{x_{x,j}}}}{{\partial {b_{i,k}}}}\left| {_{\left({{b_i} = 0} \right)}} \right.。\end{array} $ (2)

此处k=1,2,…,q。对于元素zi,j,k,对式(1)求关于随机效应参数bi,k(此处k=1,2,…,q)的偏导数,求出偏导数后,令所有随机效应参数取值为0即可求出。

由于f(Aiβ,Xi)为确定的量,且由于eibi相互独立,因此对式(1)求yi的协方差矩阵为:

$ Cov\left({{y_i}} \right)= {Z_i}DZ_i^T + {R_i}。 $

此处上标T表示矩阵转置。同样根据eibi相互独立性,biyi间的协方差矩阵为:

$ \begin{array}{l}Cov\left({{b_i},{y_i}} \right)= Cov\left[ {{b_i},f\left({{A_i}B,{X_i}} \right)+ {Z_i}{b_i} + {e_i}} \right] = \\\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;Cov\left({{b_i},{Z_i}{b_i}} \right)= DZ_i^T。\end{array} $

随机向量biyi的联合分布为:

$ \left({\begin{array}{*{20}{c}}{{b_i}}\\{{y_i}}\end{array}} \right)\sim N\left[ {\left({\begin{array}{*{20}{c}}0\\{f\left({{A_i}\beta,{X_i}} \right)}\end{array}} \right),\left({\begin{array}{*{20}{c}}D&{DZ_i^T}\\{{Z_i}{D^T}}&{{Z_i}DZ_i^T + {R_i}}\end{array}} \right)} \right]。 $

假设yi的观测值向量 $ {{\tilde y}_i} $含有ni个观测值,分别为 $ {{\tilde y}_{i,1}},{{\tilde y}_{i,2}},\cdots,{{\tilde y}_{i,{n_i}}} $,依次对应于xi,1xi,2,…,xi,ni,根据多元正态分布理论,当yi= $ {{\tilde y}_i} $时,bi的条件分布数学期望为:

$ \begin{array}{l}E\left({{b_i}\left| {{y_i} = {{\tilde y}_i}} \right.} \right)= E\left({{b_i}} \right)+ DZ_i^T{\left({{Z_i}DZ_i^T + {R_i}} \right)^{ - 1}}\\\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left[ {{{\tilde y}_i} - f\left({{A_i}\beta,{X_i}} \right)} \right]。\end{array} $

对随机变量取值的最优预测值为其数学期望值,因此随机变量biyi= $ {{\tilde y}_i} $时的取值可以用bi的条件分布数学期望表示为:

$ {{\hat b}_i} = DZ_i^T{\left({{Z_i}DZ_i^T + {R_i}} \right)^{ - 1}}\left[ {{{\tilde y}_i} - f\left({{A_i}\beta,{X_i}} \right)} \right]。 $ (3)

由式(3)可见,矩阵Zi与(Aiβ,X i)一样,均为参数向量β的函数。如果获得了β的估计值,即可求出Zif(Aiβ,X i)的估计值。D在模型拟合时,可由统计软件给出估计值。Ri的值随林分变化而变化,在模型拟合时可以指定描述ei,j变化规律的方差函数和自相关函数,在统计软件获取此类函数的参数估计值后,可计算求出Ri估计值。假设矩阵β,DRi均已获得估计值,那么将式(3)中的所有未知量如β,D,R,Zif(Aiβ,Xi)用相对应的估计量取代后,则有:

$ {\hat b_i} = \hat D\hat Z_i^T{\left({{{\hat Z}_i}\hat D\hat Z_i^T + {{\hat R}_i}} \right)^{ - 1}}\left[ {{{\tilde y}_i} - f\left({A{{\hat \beta }_i},{X_i}} \right)} \right]。 $ (4)

式(4)称为经验线性无偏最优预测法(EBLUP),详细推导介绍请参考Ni等(2011)。对于一阶泰勒级数的基点选择,有2种基本方法:一是本文介绍的bi=0为基点;二是以bi的估计值为基点。对于2种方法的讨论,可参考Meng等(2009a)。混合效应模型在林业中的应用多以第1种方法为主(Fang et al.,2001;Hall et al.,2001;Huang et al.,2009b;Jiang et al.,2010),对于第2种方法的应用可参考Hall等(2004)Huang等(2009a)。一般认为第二种方法迭代过程繁琐费时,比第一种方法仅存在微小的优势。

2 结果与分析 2.1 树高生长模型的比较

采用Richards-Chapman,Logistic,Korf 3个生长模型作为基本模型,利用R软件的nlme过程对49株解析木进行拟合,其拟合统计量见表 3

表 3 拟合统计量 Tab.3 Fit statistics

使用AIC,BIC和Loglik 3个模型评价指标对拟合结果进行评价。由表 3可以看出,Logistic方程的AIC,BIC最小且loglik值最大,表明Logistic方程拟合效果最好,因此选为混合效应模型的基本模型。

2.2 拟合非线性混合效应模型

Logistic方程不仅拟合精度高,而且具有良好的解析性、预测性以及广泛的适应性。按照Pinheiro等(2000)Davidian等(1995)以及Littell等(1996)表 2中Logistic混合效应方程的β1+bi,1=Φi,1表示当年龄趋向无穷时应变量的水平渐近线;β2+bi,2=i,2是年龄在Φi,2/2时的应变量的取值;β3+bi,3=Φi,3是规模参数,表示拐点与0.73Φi,1点在x轴上的距离。

利用R软件的nlme函数对Logistic模型参数进行估计,用于EBLUP运算的统计量列于表 4。由于假设随机误差项ei,j为独立等方差结构,因而ei,j~N(0,σ2),仅需估计σ2的值即可。nlme函数给出σ2估计值为0.558 2,但未列于表 4

表 4 模型拟合结果 Tab.4 The statistical results of the model fitting

已知一个林分,假设在Xi年时已经观测了树高值 $ {{{\tilde y}_i}} $,可以利用式(4)预测此林分的bi值。yi的第j个元素可以表示为:

$ {y_{i,j}} = \frac{{\left({{\beta _1} + {b_{i,1}}} \right)}}{{1 + Exp\left[ {\left({{\beta _2} + {b_{i,2}}} \right)+ \left({{\beta _3} + {b_{i,3}}} \right)\lg \left({{x_{i,j}}} \right)} \right]}} + {e_{i,j}}。 $ (5)

式中:β1β2β3可用于描述总体平均树高生长过程;bi,1bi,2bi,3为与β1β2β3相关联的随机效应参数,表示第i个林分树高生长过程参数与β1β2β3间的随机偏离值。bi,1bi,2bi,3的方差及协方差估计值,可参考表 4bi,1的标准误较bi,2bi,3的大很多,说明49株优势木的水平渐进线值变化幅度较大,仅用确定效应,难以充分代表各株树的特定生长过程。

2.3 林分生长预测分析 2.3.1 单株示例分析

式(2)和(4)中zi,j,k的估计值可以分别为式(6)~(8),此处k=1,2,3。式(4)中,列向量 $ {f\left({A{{\hat \beta }_i},{X_i}} \right)}$的第j个元素可由式(9)表示:

$ {{\hat z}_{i,j,1}} = \frac{1}{{1 + Exp\left({{{\hat \beta }_2} + {{\hat \beta }_3}\lg {x_{ij}}} \right)}}; $ (6)
$ \begin{array}{l}{{\hat z}_{i,j,2}} = \frac{{ - {{\hat \beta }_1}}}{{{{\left[ {1 + Exp\left({{{\hat \beta }_2} + {{\hat \beta }_3}\lg {x_{i,j}}} \right)} \right]}^2}}}\\\;\;\;\;\;\;\;\;\;Exp\left({{{\hat \beta }_2} + {{\hat \beta }_3}\lg {x_{i,j}}} \right);\end{array} $ (7)
$ \begin{array}{l}{{\hat z}_{i,j,3}} = \frac{{ - {{\hat \beta }_{\rm{1}}}\lg {x_{i,j}}}}{{{{\left[ {1 + Exp\left({{{\hat \beta }_2} + {{\hat \beta }_3}\lg {x_{i,j}}} \right)} \right]}^2}}}\\\;\;\;\;\;\;\;\;Exp\left({{{\hat \beta }_2} + {{\hat \beta }_3}\lg {x_{i,j}}} \right);\end{array} $ (8)
$ \frac{{{{\hat \beta }_{\rm{1}}}}}{{\left[ {1 + Exp\left({{{\hat \beta }_2} + {{\hat \beta }_3}\lg {x_{ij}}} \right)} \right]}}; $ (9)

在获得bi,1bi,2bi,3的预测值 $ {{\hat b}_{i,1}} $,$ {{\hat b}_{i,2}} $,$ {{\hat b}_{i,3}} $后,即可用式(10)预测在年龄xi,j时的树高值。式(6)~(10)中的 $ {{{\hat \beta }_{\rm{1}}}} $,$ {{{\hat \beta }_{\rm{2}}}} $,$ {{{\hat \beta }_{\rm{3}}}} $为参数β1β2β3的估计值,同样由R软件给出,参考表 4。 $ {{\hat z}_{i,j,k}}$可由式(6)~(8)求出。本文用式(10)进行预测,是由采用的EBLUP算法所决定的[参考式(4)],具体的原因分析可参考Ni等(2011)

$ {{\hat y}_{i,j}} = \frac{{{{\hat \beta }_{\rm{1}}}}}{{1 + Exp\left({{{\hat \beta }_2} + {{\hat \beta }_3}\lg {x_{ij}}} \right)}} + \sum\limits_{k = 1}^3 {\;{{\hat z}_{i,j,k}}{{\hat b}_{i,k}}} 。 $ (10)

选取一样木的3对观测值用于预测bi,各项取值及相应的计算结果列于表 5表 5中,$ {\tilde y_i} $为在Xi时的优势木树高观测值; $ {f\left({A{{\hat \beta }_i},{X_i}} \right)} $用式(9)求出,所需参数估计值 $ {{\hat \beta }_k} $(k=1,2,3)列于表 4,$ {{\hat Z}_i} $各列元素依次按式(6)~(8)计算。将Xi列的值(50,80,120)代入式(6)~(8)可获得$ {{\hat Z}_i} $各列的取值; $ {\hat D} $ 估计值由表 4给出;在模型拟合时,仅指定ei,j为独立的同质方差结构,故 $ {{\hat R}_i} $由 $ {{\hat \sigma }^2} $(值为0.558 2)与三维单位阵相乘而得。根据表 5数据和式(4)所计算的 bi值,同列于表 5

表 5 EBLUP预测的矩阵和向量 Tab.5 The matrices and vectors used for EBLUP prediction

根据表 5的 $ {{\hat b}_i} $,预测了此样木年龄80~83间的4个树高值,并与实测值同列于表 6。总体平均值由式(9)计算而得,对应于 $ {f\left({A{{\hat \beta }_i},{X_i}} \right)}$,而EBLUP预测值由式(10)计算。校正值为EBLUP预测值与总体平均值的差,是根据表 5中的3个观测值所提供个体生长过程信息,对总体平均值进行校正,从而给出了此样木的树高预测值。以82年时的优势木树高为例,其校正值约为-5.301 1。

表 6 单株优势木树高观测值、总体平均值、EBLUP预测值及校正值 Tab.6 Observations of dominant tree, population mean, and EBLUP predicted, and adjusted values for a selected single trees

选取验证数据中与总体平均生长过程有较大差异的36,39,43,45,46,53号解析木,利用SAS 9.3中的IML过程进行EBLUP预测,并与总体平均值进行对比(图 1)。由图 1可见,单株生长过程与总体平均生长过程存在较大差异,并随着年龄的增加而增加。除了45号解析木(图 1中的plot45)外,Logistic混合效应模型的EBLUP预测值可以充分预测单株生长过程。45号样木除了在幼龄阶段表现出曲线特征外,已观测到的生长过程似乎用线性模型描述更为精确,故EBLUP预测结果不佳。

图 1 预测单株解析木生长曲线 Fig. 1 The chart of predicting individual sample growth
2.3.2 EBLUP预测的经验性分析

以验证数据的30株解析木为基础,经验性地分析EBLUP的特点。用于评价预测质量的指标为预测误差均方(MSPE),其定义可参考式(11):

$ {\rm{MSPE = }}\frac{1}{{\sum\limits_{i = 1}^m {{n_i}} }}{\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^{{n_i}} {\left({{y_{ij}} - {{\hat y}_{ij}}} \right)} } ^2}. $ (11)

观测间隔、观测次数和预测时长3个因素对MSPE的影响见表 7。观测间隔指每隔多少年进行1次树高生长观测,而观测次数则指进行了几次树高观测,MSPE列的数字代表起始观测年龄,亦即从何年龄开始对树高进行观测。基本分析方法为,将3个因素中的2个保持不变,以比较出第3个因素的影响作用。根据验证数据的年龄分布特征,用30~100年间的数据进行了预测验证。以第4行的MSPE值1.568 7为例,以林龄为50,55,60时树高观测值为基础,利用式(4)预测bi值。在获得了bi的预测值后,对30~100年间的树高值逐年进行预测并求总MSPE值,即为1.568 7。

随着观测次数的增加,MSPE表现出减少的趋势(表 7),这一特征同样与一般回归分析相类似。从第3和5行、第4和7行以及第5和8行的逐对比较可见,虽然观测间隔相同,但随着观测次数从3次增加到5次,MSPE值均有50%~80%以上的降幅。在仅有一个观测值时,MSPE值非常大,与ADA,GADA模型相比(赵磊等,2012),并无明显的优越之处。表 7中的第1,2,3和6行的预测间隔均为2年,但随着观测次数从1次增加到5次,MSPE值显著降低。以起始观测年龄30年为例,MSPE从16.694 2降低至4.082 0。

表 7 验证数据统计分析 Tab.7 The statistical analysis of data verification

在观测次数相同时,观测间隔增加同样可以降低MSPE值。以第6,7和8行为例,均有5个观测,但观测间隔不同,依次分别为2,5和10年,其MSPE值随着观测间隔的延长显著下降,此结论同样可从表 7的第3至第5行得出。在观测次数相同时,增加观测值间年龄间隔,可以提供更为充分的树高生长过程信息,因而可以显著降低MSPE值。

在观测间隔和观测次数相同的前提下,表 7中不同起始观测年龄间的MSPE显著不同,这主要由预测时长的变化引起的,不足以归结为起始观测年龄对MPSE的影响。

图 2给出了表 7中第4行的MSPE值(以林龄为50,55,60时观测值求解bi值,并预测30~100年树高值),在观测值临近拟合数值时的预测非常精确。在35~70年林龄的范围内,MSPE值不超过1.0。随着预测偏离用以预测bi值的观测值,MSPE值逐渐上升。

图 2 30~100逐年预测的MSPE值 Fig. 2 The value of 30-100 yearly forecast MSPE

混合效应模型的EBLUP预测可以理解两阶段拟合的第二阶段。第一阶段为混合效应模型的拟合,用于估计总体分布特征,如随机效应的分布特征和确定效应参数值;而第二阶段则在第一阶段拟合的基础上,根据一个特定林分的已知观测值,对此林分单独进行拟合,亦即以此林分的观测值为基础,预测此林分特定的bi值,继而获得该林分生长过程模型的参数值并进行预测。将预测bi值视为回归模型的拟合,有助于理解EBLUP预测的特点。在一般的回归分析中,MSPE将随着预测点远离拟合数据而表现出逐渐增加的趋势。与此相对应,EBLUP预测同样表现出在观测值附近的一定区域内,预测结果非常精确,但随着预测时长增加,MSPE值呈逐渐增加的趋势。

3 结论与讨论

本文基于3种树高生长模型,在均衡考虑了统计学和生物学特征的基础上,建立三参数Logistic混合效应模型。在有多个以往观测数据的前提下,用EBLUP可以大大提高预测精度。对EBLUP进行深入分析,得出以下几个结论:

1)在有多个观测值且观测值时间间隔适宜的情况下,EBLUP可以充分预测树高生长过程。

2)观测次数对预测精度的变化有很大影响。随着观测次数的增加,预测误差表现出减少的趋势。本研究中随着观测次数从3次增加到5次,预测误差(MSPE)值均有50%~80%以上的降幅,所以观测次数越多,预测越准确。

3)观测间隔不同,预测精度也有很大变化。观测间隔的增加同样可以降低预测误差。在观测次数相同的前提下,加大观测间隔可以大幅度降低预测误差,提高预测精度。

4)减小预测时长可提高EBLUP预测精度。EBLUP预测表现出在观测值附近的一定区域内,预测结果非常精确,但随着预测时长的增加,预测误差呈逐渐增加的趋势。

混合效应模型可以指定任意多个参数为随机效应参数,此特征优于ADA,GADA模型。一般而言,GADA模型参数间必须假定存在特定的关系,以便于用韦达定理求解。从已发表的研究成果看,一般至多可以指定2个随机效应参数(Cieszewski et al.,2000a赵磊等,2012)。

另一方面,从预测误差MSPE角度看,在仅存在一个观测值的前提下,EBLUP与ADA/GADA模型相比,虽无定论但一般认为并无明显的优越之处(Jiang et al.,2010Meng et al.,2009bYang et al.,2011);但在有多个观测值时,EBLUP可以充分地利用观测所涵盖的生长过程信息,极大地提高预测准确性。与此相反,ADA,GADA模型却仅能利用一个观测值,即使有多个观测值也仅能选用一个而已。

参考文献(References)
[1] 李春明,张会儒.2010.利用非线性混合模型模拟杉木林优势木平均高.林业科学,46(3): 89-95.
(Li C M,Zhang H R.2010.Modeling dominant height for Chinese fir plantation using a nonlinear mixed-effects modeling approach.Scientia Silvae Sinicae,46(3): 89-95[in Chinese]).(1)
[2] 李永慈,唐守正.2004.用Mixed和Nlmixed过程建立混合生长模型.林业科学研究,17(3): 279-283.
(Li Y C,Tang S Z.Establishment of tree height growth model based on mixed and nlmixed of SAS.Forest Research,17(3): 279-283[in Chinese]).(1)
[3] 吕萍,朱钰.2009.基于最佳线性无偏估计的模型权数的小域估计.统计与决策,(1): 9-11.(LüP,Zhu Y.2009.Estimate based on the number of best linear unbiased estimate of the model right small domains.Statistics & Decision,(1): 9-11.[in Chinese])(1)
[4] 孟宪宇.1994.测树学.2版.北京:中国林业出版社.
(Meng X Y.1944.Forest mensuration.2nd edition.Beijing: China Forestry Publishing House.[in Chinese])(1)
[5] 赵磊,倪成才,Gordon Nigh.2012.加拿大哥伦比亚省美国黄松广义代数分型地位指数模型.林业科学,48(3): 74-81.
(Zhao L,Ni C C,Nigh G.2012.Generalized algebraic difference site index model for ponderosa pine in British Columbia,Canada. Scientia Silvae Sinicae,48(3): 74-81.[in Chinese])(2)
[6] Bailey R L,Clutter J L.1974.Base-age invariant polymorphic sitecurves.Forest Science,20(2): 155-159.(1)
[7] Calegario N,Daniels R F,Maestri R,et al.2005.Modeling dominant height growth based on nonlinear mixed-effects model: a clonal eucalyptus plantation case study.Forest Ecology and Management,204(1): 11-21.(1)
[8] Cieszewski C J,Bailey R L.2000a.Generalized algebraic difference approach: theory based derivation of dynamic site equations with polymorphism and variable asymptotes.Forest Science,46(1): 116-126.(1)
[9] Cieszewski C J,Harrison M,Martin S T.2000b.Examples of practicalmethods for unbiased parameter estimation in self-referencingfunction//Cieszewski C J.Proceedings of the first international conferenceon measurements and quantitative methods management.Jekyll Island,Georgia,November 17-18.
[10] Clutter J L.1963.Compatible growth and yield models for loblolly pine.Forest Science,9(3): 354-371.(1)
[11] Davidian M,Giltinan D M.1995.Nonlinear models for repeated measurement data.Chapman and Hall,London,62: 359.(1)
[12] Fang Z,Bailey R L.2001.Nonlinear mixed effects modeling for slash pine Dominant height growth following intensive silvi cultural treatments.Forest Science,47(3): 287-300.(2)
[13] Hall D B,Bailey R L.2001.Modeling and prediction of forest growth variables based on multilevel nonlinear mixed models.For Sci,47(3):311-321.(1)
[14] Hall D B,Clutter M.2004.Multivariate multilevel nonlinear mixed effects models for timber yield predictions.Biometrics,60(1):16-24.(1)
[15] Huang S,Meng S X,Yang Y.2009a.Estimating a non-linear mixed volume-age model with and without taking into account serially-correlated errors: differences and implications.Modern Appl Sci,3(5):3-20.(1)
[16] Huang S,Wiens D P,Yang Y,et al. 2009b.Assessing the impacts of species composition,top height and density on individual tree height prediction of quaking aspen in boreal mixedwoods.For Ecol Manage,258(7):1235-1247.(1)
[17] Jiang L,Li Y.2010.Application of nonlinear mixed-effects modeling approach in tree height prediction.J Computers,5(10):1575-1580.(2)
[18] Lappi J,Bailey R L.1988.A height prediction model with random stand and tree parameter: an alternative to traditional site methods.Forest Science,34(4): 907-927.(1)
[19] Littell R C,Milliken G A,Stroup W W,et al. 1966.SAS system for mixed models.SAS Institute Inc.Cary,NC,633.(1)
[20] Meng S X,Huang S.2009.Improved calibration of nonlinear mixed-effects models demonstrated on a height growth function.For Sci,55(3):238-248.(1)
[21] Meng S X,Huang S,Yang Y,et al. 2009.Evaluation of population-averaged and subject-specific approaches for modeling the dominant or codominant height of lodgepole pine trees.Can J For Res,39(6): 1148-1158.(1)
[22] Ni C C,Nigh G.2011.An analysis and comparison of predictors of random parameters demonstrated on planted loblolly pine diameter growth prediction.Forestry,85(2): 271-280.(2)
[23] Nigh G.2004.A comparison of fitting techniques for ponderosa pine height-age models in British Columbia.Ann For Sci,61(7): 609-615.(1)
[24] Pinheiro J C,Bales D M.2000.Mixed effects models in S and S-plus Springer Verlag.New York.(1)
[25] Tang S Z,Meng F R.2001.Analyzing parameters of growth and yield models for Chinese Fir —145.provenances with a inearmixed approach.Silvae Genetica,50(3/4): 140-145.(1)
[26] Yang Y,Huang S.2011.Comparison of different methods for fitting nonlinear mixed forest models and for making predictions.Can J For Res,41(8): 1671-1686.(1)