林业科学  2009, Vol. 45 Issue (1): 74-80   PDF    
0

文章信息

雷相东, 李永慈, 向玮.
Lei Xiangdong, Li Yongci, Xiang Wei
基于混合模型的单木断面积生长模型
Individual Basal Area Growth Model Using Multi-Level Linear Mixed Model with Repeated Measures
林业科学, 2009, 45(1): 74-80.
Scientia Silvae Sinicae, 2009, 45(1): 74-80.

文章历史

收稿日期:2008-02-15

作者相关文章

雷相东
李永慈
向玮

基于混合模型的单木断面积生长模型
雷相东1, 李永慈2, 向玮1     
1. 中国林业科学研究院资源信息研究所 北京 100091;
2. 北京林业大学理学院 北京 100083
摘要: 森林生长观测数据常常具有层次结构、重复测量等特点,因而不满足普通回归分析中的独立性假设,会得到有偏的参数估计,包含随机效应的混合模型可以灵活地处理这一问题。本文采用混合模型方法,建立东北近天然落叶松云冷杉林中落叶松、红松、云杉、冷杉、慢阔(色木、水曲柳、椴树和枫桦)和中阔(白桦、榆树和杂木)6个树种组的单木5年断面积生长模型。数据来自于20个长期固定观测样地,共得到10 756个观测数据,其中随机抽取15个样地的8 034个数据用于建模,其他5个样地的2 722个数据用于模型验证。建立的模型与距离无关,不需要年龄和立地指数。结果表明:起初胸径、林分密度、立地因子和与距离无关的竞争指数都是显著影响林木生长的因子,在实际调查中,这些数据很容易得到;样地内的树木效应在所有模型中均显著;样地间的随机效应只在落叶松模型中显著。与传统的固定效应模型相比,考虑层次结构的混合效应模型显著地改善了模型的表现,决定系数从0.38~0.64提高到0.85~0.89,误差、均方根误差及其相对值均显著减少。模型有一定的生物学意义和统计可靠性。
关键词:竞争指数    林分密度    单木断面积生长    混合效应模型    
Individual Basal Area Growth Model Using Multi-Level Linear Mixed Model with Repeated Measures
Lei Xiangdong1, Li Yongci2, Xiang Wei1    
1. Institute of Forest Resources Information Techniques, CAF Beijing 100091;
2. College of Science, Beijing Forestry University Beijing 100083
Abstract: Forest growth data are generally repeatedly observed with hierarchical structure, which result in lack of independence among observations and produce biased parameter estimation if ordinary regression analysis was used. Mixed model with random parameters could solve the problem. Individual basal area growth models for larch, spruce and fir, Korean pine and two deciduous groups were developed using linear mixed models in semi-natural larix-spruce-fir forest in northeast China. The data came from 20 permanent sample plots with 10 756 observations, of which 8 034 observations from 15 plots are randomly used for model development and 2 722 observations from rest 5 plots for model validation. These models were independent of age and site index. They may have wide use in that initial diameter at breast height, stand basal area, site factors and distance-dependent competition index were included in them which are easily accessible in forest inventory. Random effects within plots showed significant in all models, and the effects among plots not besides larch model, however. The inclusion of random parameters in these models greatly improved the fixed models. The coefficients of determination reached 0.85~0.89 from 0.38~0.64. Errors and RMSEs were also significantly decreased. These models are biologically and statistically reliable.
Key words: competition index    stand density    individual tree basal area growth    mixed effect model    

生长和收获模型是森林经营的重要工具,已广泛地应用在森林经营中,而单木生长模型常用于混交林的预测和经营中(Jogiste, 2000; 雷相东等, 2003)。按预测方法主要分为2种(Burkhart,1989Huang et al., 1995; Wykoff, 1990; Mailly et al., 2003):生长量修正法和基于因变量和自变量间经验关系的多项式线性模型(复合模型)。前者常常包括选择有生物学意义的基本潜在生长函数,强调如何模拟修正因子及它如何影响潜在生长函数;后者把生长量直接表示为树木和林分特征的函数,如与距离无关的单木模型Prognosis(Wykoff, 1990; Monserud et al., 1996),它把单木生长(断面积或胸径)表达为单木起初大小、竞争和立地的函数,不需要年龄和立地指数,很多单木生长模型都是以此作为原始模型的(Sterba et al., 2002; Andreassen et al., 2003)。立地特征用与林木无关的土壤变量来表示如海拨、坡度、坡向、腐殖质层硬度、土壤厚度、土壤湿度及一些化学元素的浓度, 最近已有把混交度和林分层次加入模型(Andreassen et al., 2003)。由于森林生长数据常常有层次结构(树木-样地-地区),使同一样地不同树木间具有相关性, 采用连续观测数据,同一树木多次观测值间具有相关性, 因此,这种“样地效应”和“树木效应”使误差不满足独立同分布的假设,随机误差至少包括样地内个体间和同一个体多次重复测量的随机效应。而混合模型作为一种有力的工具用于多层次重复测量数据,通过规定不同的协方差结构来表示相关的格局,允许数据间具有相关性及异方差,从而提高预测精度并解释随机误差的来源(Leeden, 1998; Littell et al., 1998; Singer, 1998; 唐守正等,2002),近年来已广泛应用于森林生长模型中(Gregorie et al., 1996; Fang et al., 2001Tang et al., 2001; Palahía et al., 2003; Zhao et al., 2004Trasobares et al., 2004; 李永慈,2004李永慈等,2004Calama et al., 2005; Uzoh et al., 2006Dorado et al., 2006; Trincado et al., 2007Adame et al., 2008)。国内一些学者在单木生长模型方面开展了一些研究(邵国凡,1985孟宪宇等,1996杜纪山,1999; 林成来等,2000黄家荣等,2000刘兆刚, 2004王文斗等,2005王孝安等,2005张惠光,2006),但多用于同龄人工纯林中。针对混交林的单木生长模型,尤其是应用混合模型研究单木断面积生长还未见报道。本文近天然落叶松云冷杉针阔混交林为例,采用多层次重复测量线性混合模型,建立6个树种(组)5年单木断面积生长模型,并对混合效应模型和传统回归模型进行比较,为建模方法及近天然落叶松云冷杉针阔混交林的生长和经营提供参考和依据。

1 研究地点概况

研究地点位于吉林省汪清林业局境内。该局所处的地理坐标为123°56′—131°04′E, 43°05′—43°40′N, 属长白山系的中低丘陵区,海拔360~1 477 m,温带大陆性季风气候,年平均气温3.9 ℃, 极端最高气温37.5 ℃, 极端最低气温-37.5 ℃, 无霜期138 d, 年平均降水量547 mm,其中5—9月的降水量为438 mm,占全年总降水量的80%。土壤种类山地以暗棕壤为主,谷地以草甸土为主。该区植被属长白山植物区系。

2 数据与方法 2.1 数据

用来建立模型的数据为该局金沟岭林场的20块固定样地。其起源为1964-1967年间营造的人工落叶松纯林,经过多年的演变,大部分已成为落叶松云冷杉针阔混交林。以长白落叶松(Larix olgensis)、云杉(Picea jezoensis var. microsperma)、冷杉(Abies nephrolepis)为优势树种,其他树种有红松(Pinus koraiensis)、色木(Acer mono)、水曲柳(Fraxinus mandshurica)、白桦(Betula platyphylla)、椴树(Tilia amurensis)、枫桦(Betula davurica)、榆树(Ulmus propinqua)等阔叶树种。样地面积在0.077 5~0.25 hm2之间。建模数据为1992—2004年的4次调查数据,间隔期为5年。调查因子除每木检尺记录树种和胸径(≥5 cm)外,还包括海拔、坡向、坡度等立地因子。

由于不同样地间树种组成的差异性,将组成树种分为成落叶松、红松、云杉、冷杉、慢阔(色木、水曲柳、椴树和枫桦)和中阔(白桦、榆树和杂木)6个树种组。共得到10 756个观测数据,随机抽取15个样地的8 034个数据用于建模,其他5个样地的2 722个数据用于模型验证,其统计量见表 1

表 1 单木及林分因子统计量 Tab.1 Summary statistics of individual tree and stand parameters
2.2 方法 2.2.1 模型

固定效应线性模型为:

(1)

(2)

考虑混合效应的线性混合模型为(唐守正等,2002):

(3)
(4)

Y为一个由来自不同样地不同观测期间的树木断面积生长量组成的n维矩阵,X为已知设计矩阵,α为固定效应参数构成的未知向量,Z为随机效应设计矩阵,β为随机效应参数构成的未知向量,ε是未知的随机误差向量。其中β~ N (0, G),ε~ N (0, R), GR二者之间不相关。对GR必须选择其协方差结构,因此,它允许数据间存在相关性或异方差。因为样地和树木是随机选择的,树木重复测量,所以随机效应至少可能包括样地间、树木间和树木个体内3个部分。或表达为:

(5)

yijt为第i个样地第j株树木第t个间隔期的断面积生长量,β0β1,…βk表示固定效应参数,为模型的平均参数,即对所有的个体都相同;uivijeijt分别表示样地间、不同树木间和同一树木不同测量值间的随机误差,它们独立同分布, ui~N(0, σu2), vij~N(0, σv2), eiit~N(0, σe2)。对于随机效应,包括2种情况:1)随机截距模型(random intercept model),假定在不同时间的相关性相同即只有一个随机效应,通过截距(b0i)来体现;2)随机截距和斜率模型(random coefficient model), 即不同样地的截距和斜率都不相同。回归参数和随机效应的估计是2个重要内容。在本研究中,只考虑随机截距模型。因此,模型为:

(6)

对直径(断面积)生长量的不同形式试验后发现ln[(d22-d12)+1]结果最好,因此采用ln[(d22-d12)+1]作为模型的因变量,其中d2d1分别为期末和期初的树木胸径,间隔期为5年。自变量包括:单木大小的变量组、竞争变量组、立地变量组及其他林分因子组。各变量组包括的变量如表 2示,其中竞争指数采用与距离无关的指数。

表 2 模型自变量及说明 Tab.2 Explanory variables and their descriptions in the model
2.2.2 自变量选择、参数估计和随机效应的检验

自变量包括表 2中的变量及其变形形式如导数、平方、对数及其组合等。用方差膨胀因子(VIF)来判断自变量间的多重共线性。一般认为,当VIF>10时,有严重的共线性。此时,剔除共线性较严重的自变量,保留共线性弱而对因变量贡献大的自变量。只有回归系数显著(P < 0.05),且方差膨胀因子小于5的因子才进入模型。

用混合模型来对参数进行估计时,首先要确定合适的误差协方差结构,本研究检验了4种常用的误差协方差结构,包括无结构(UN)、复合对称(CS)、一阶自回归[AR(1)]和一阶自回归滑动平均[ARH(1)](Littell et al., 1998)。选择协方差结构的方法是比较模型的统计量,即比较不同结构的AIC指标(akaike information criterion),AIC越小越好。采用最大似然法估计进行模型参数估计和方差求解。随机效应的检验用固定效应和随机效应模型的2个卡方分布的平均值作为参照值,通过它们的-2LL统计量差值进行检验(Hruschka et al., 2005)。

2.2.3 模型评价及检验

拟合结果通过以下统计量和指标评价:AIC统计量、修正决定系数(Adjusted R2)、绝对误差(Bias)、相对误差(Bias%)、均方根误差(RMSE)、相对均方根误差(RMSE%),并考虑残差分布的异质性。所有统计量基于因变量(d22-d12)计算。

其中n为样本数,k为自变量个数,yi为观测值,ŷi为预测值,y为观测值的平均值。

3 结果与分析 3.1 参数和随机变量方差估计值

对随机效应的检验结果表明,样地间的随机效应只在落叶松模型中表现显著(P < 0.001),但样地内的树木间的随机效应均显著,也就是说同一样地内的不同树木间不是相互独立的,其组内相关系数ICC在0.59~0.72之间(表 3)。此外,还包括树木之内的效应,即同一树木的重复测量具有相关性,对同一树木,时间越近,其相关性越强。其误差的方差协方差结构以UN最好(具有最小的AIC值)。

表 3 不同树种组模型参数和随机效应方差估计值 Tab.3 Estimated values of parameters and variances of random effects

模型参数估计结果见表 3。所有模型的固定效应中,起初直径的导数和林分断面积都是最显著的因子,其系数为负,即大树有着较大的直径(断面积)生长量,在一定的年龄和直径时断面积越大,竞争越强,生长量就越小。除落叶松和红松外,竞争指数(d1/Dg)在其他模型中均显著,系数为正,说明竞争力强的树木有较大的生长量;BAL则正相反。反映立地条件的坡度和坡向变量组合(SLcosAZ, SLsinAZ)只在落叶松、红松和中阔中显著,但其他因子如树种多样性指数、海拔、单个树种的比例、阔叶树的比例均未进入模型,这可能与样地间这些因子的差异较小有关。

3.2 模型评价与检验

表 4给出了不同树种组模型拟合的统计量及估计误差, 所有模型都达到显著水平。修正决定系数在0.85~0.89之间,最高为冷杉,最低为慢阔。平均误差2.15~3.72 cm2,相对误差-10.98%~-2.96%,最高为慢阔,最低为落叶松。均方根误差10.74~18.92 cm2,相对均方根误差33.14%~53.22%。

表 4 混合模型与固定效应模型不同树种组拟合的统计量 Tab.4 Good-of-fit statistics of mixed models and fixed effect models

树木间和树木个体内效应在所有的模型中均显著,引入随机参数显著地改善了模型的表现(表 3):AIC比固定效应模型减少;决定系数从只考虑固定效应时的0.38~0.64提高到0.82~0.89;误差、均方根误差及其相对值均显著减少。

混合效应模型中固定效应部分的检验结果如表 5示。可以看出,除红松和慢阔外,其他树种的各项指标与建模数据结果基本一致。

表 5 混合模型中固定效应部分的检验 Tab.5 Test of fixed effect parts in mixed models

图 1给出了不同树种(组)混合模型的残差图,可以看出,残差表现为随机分布的趋势,未发现异质性。

图 1 不同树种(组)混合模型的残差和预测值 Figure 1 Residuals and predicted values of mixed models for six tree species groups a:落叶松Larch;b:红松Korean Pine;c:冷杉Fir; d:云杉Spruce; e:慢阔Broad-leaved tree group 1; f:中阔Broad-leaved tree group 2.
4 结论与讨论

采用多层次混合模型方法,建立了近天然落叶松云冷杉林中落叶松、红松、云杉、冷杉、慢阔(色木、水曲柳、椴树和枫桦)和中阔(白桦、榆树和杂木)6个树种组的单木5年断面积生长模型。由于林木生长和收获数据常常具有层次结构和重复测量的特点,不满足独立同分布的假设,而混合模型通过规定不同的协方差结构来表示相关的格局,允许数据间具有相关性及异方差,从而可以产生更准确的固定效应估计值和标准误的估计,提高了模型预测精度并解释随机误差的来源。本研究建立的单木断面积生长模型再次证明了这一点。与固定效应模型相比,混合模型的决定系数从0.38~0.64提高到了0.82~0.89,误差、均方根误差及其相对值均显著减少。建立的模型具有一定的实用性,起初胸径、林分密度、立地环境因子和与距离无关的竞争指数这些都是显著影响林木生长的因子,与以前文献的研究结果一致(Monserud et al., 1996; Mailly et al., 2003; Zhao et al., 2004)。且在实际调查中,这些数据很容易得到。因此,模型有一定的生物学意义和统计可靠性。此外,研究尝试将反映混交林特征的树种多样性及各树种比例作为自变量,但均未进入模型。由于样本数量所限,样地间的随机效应除落叶松外其他树种都不显著,可在增大样本的基础上作进一步研究。

参考文献(References)
杜纪山. 1999. 用二类调查样地建立落叶松单木生长模型. 林业科学研究, 12(2): 160-164. DOI:10.3321/j.issn:1001-1498.1999.02.008
黄家荣, 万兆溟. 2000. 马尾松人工林与距离有关的单木模型研究. 山地农业生物学报, 19(1): 10-15. DOI:10.3969/j.issn.1008-0457.2000.01.003
雷相东, 李希菲. 2003. 混交林生长模型研究进展. 北京林业大学学报, 25(3): 105-110. DOI:10.3321/j.issn:1000-1522.2003.03.022
李永慈. 2004.基于混合模型和度量误差模型方法研究生长收获模型的参数估计问题.北京林业大学博士学位论文. http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y668348
李永慈, 唐守正. 2004. 用Mixed和Nlmixed过程建立混合生长模型. 林业科学研究, 17(3): 279-283. DOI:10.3321/j.issn:1001-1498.2004.03.003
林成来, 洪伟, 吴承祯, 等. 2000. 马尾松人工林生长模型的研究. 福建林学院学报, 20(3): 227-230. DOI:10.3969/j.issn.1001-389X.2000.03.009
刘兆刚. 2004. 落叶松人工林单木模型的研究. 植物研究, 23(2): 237-244.
孟宪宇, 张弘. 1996. 闽北杉木人工林单木模型. 北京林业大学学报, 18(2): 1-8.
邵国凡. 1985. 红松人工林单木生长模型的研究. 东北林业大学学报, 13(3): 38-45.
唐守正, 李勇. 2002. 生物数学模型的统计学基础. 北京: 科学出版社.
王文斗, 李凤日, 那冬晨, 等. 2005. 辽东栎单木生长模型的研究. 林业科技, 30(2): 11-13.
王孝安, 段仁燕, 王明利. 2005. 太白红杉单木胸径生长模型的研究. 武汉植物学研究, 23(2): 157-162. DOI:10.3969/j.issn.2095-0837.2005.02.012
张惠光. 2006. 福建柏单木生长模型的研究. 中南林业调查规划, 25(3): 1-4. DOI:10.3969/j.issn.1003-6075.2006.03.001
Adame P, Hynynen J, Canellas I, et al. 2008. Individual-tree diameter growth model for rebollo oak(Quercus pyrenacia Willd.) coppices. For Ecol Manage, 255(3/4): 1011-1022.
Andreassen K, Tomter S M. 2003. Basal area growth models for individual trees of Norway spruce, Scots pine, birch and other broadleaves in Norway. For Ecol Manage, 180(1): 11-24.
Burkhart H E. 1989. Distance-dependent competition measures for predicting growth of individual trees. For Sci, (3): 816-831.
Calama R, Montero G. 2005. Multilevel linear mixed model for tree diameter increment in stone pine (Pinus pinea): a calibrating approach. Silva Fennica, 39(1): 37-54.
Dorado F C, Dieguez-Aranda U, Anta M B, et al. 2006. A generalized height-diameter model including random components for radiata pine plantations in northwestern Spain. For Ecol Manage, 229: 202-213. DOI:10.1016/j.foreco.2006.04.028
Fang Z X, Bailey R L. 2001. Nonlinear mixed effects modeling for slash pine dominant height growth following intensive silvicultural treatments. For Sci, 47: 287-300.
Gregoire T G, Schabenberger O. 1996. A non-linear mixed-effects model to predict cumulative bole volume of standing trees. J Appl Stat, 23: 257-271. DOI:10.1080/02664769624233
Huang S, Titus S J. 1995. An individual tree diameter increment model for white spruce in Alberta. Can J For Res, 25: 1455-1465. DOI:10.1139/x95-158
Hruschka D J, Kohrt B A, Worthman C M. 2005. Estimating between- and within-individual variation in cortisol levels using multilevel models. Psychoneuroendocrinology, 30: 698-714. DOI:10.1016/j.psyneuen.2005.03.002
Jogiste K. 2000. A basal increment model for Norway spruce in mixed stands in Estonia. Scand J For Res, 15: 97-102. DOI:10.1080/02827580050160529
Leeden E V. 1998. Multilevel analysis of repeated measures data. Quality & Quantity, 32: 15-29.
Littell R C, Henry P R, Ammerman C B. 1998. Statistical analysis of repeated measures data using SAS procedures. J Anim Sci, 76: 1216-1231. DOI:10.2527/1998.7641216x
Mailly D, Turbis S, Pothier D. 2003. Predicting basal area increment in a spatially explicit, individual tree model: a test of competition measures with black spruce. Can J For Res, 33: 435-443. DOI:10.1139/x02-122
Monserud R A, Sterba H. 1996. A basal increment model for individual trees growing in even- and uneven-aged forest stands in Austria. For Ecol Manage, 80: 57-80. DOI:10.1016/0378-1127(95)03638-5
Palahía M, Pukkalab T, Monterod G. 2003. Individual-tree growth and mortality models for Scots pine (Pinus sylvestris L.) in north-east Spain. Ann For Sci, 60: 1-10. DOI:10.1051/forest:2002068
Singer J D. 1998. Using SAS Proc Mixed to fit multilevel models, hierarchical models, and individual growth models. Journal of Educational and Behavioral Statistics, 24(4): 323-355.
Sterba H, Blab A, Katzensteiner K. 2002. Adapting an individual tree growth model for norway spruce(Picea abies L. Karst.) in pure and mixed species stands. For Ecol Manage, 159: 101-110. DOI:10.1016/S0378-1127(01)00713-7
Tang S, Meng F. 2001. Analyzing parameters of growth and yield models for Chinese fir provenances with a linear mixed model approach. Silvae Genetica, 50(3/4): 140-145.
Trasobares A, Pukkala T, Miina J. 2004. Growth and yield model for uneven-aged mixtures of Pinus sylvestris L. and Pinus nigra Arn. in Catalonia, north-east Spain. Ann For Sci, 61: 9-24. DOI:10.1051/forest:2003080
Trincado G, VanderSchaaf C L, Burkhart H E. 2007. Regional mixed-effects height-diameter models for loblolly pine (Pinus taeda L.) plantations. Eu J For Res, 126: 253-262. DOI:10.1007/s10342-006-0141-7
Uzoh F C C, Oliver W W. 2006. Individual tree height increment model for managed even-aged stands of ponderosa pine throughout the western United States using linear mixed effects models. For Ecol Manage, 221: 147-154. DOI:10.1016/j.foreco.2005.09.012
Wykoff W R. 1990. A basal area increment model for individual conifer in the northern Rocky Mountains. For Sci, 36(4): 1077-1104.
Zhao D H, Borders B, Wilson M. 2004. Individual-tree diameter growth and mortality models for bottomland mixed-species hardwood stands in the lower Mississippi alluvial valley. For Ecol Manage, 199(2/3): 307-322.