林业科学  2013, Vol. 49 Issue (1): 114-119   PDF    
DOI: 10.11707/j.1001-7488.20130117
0

文章信息

符利勇, 张会儒, 李春明, 唐守正
Fu Liyong, Zhang Huiru, Li Chunming, Tang Shouzheng
非线性混合效应模型参数估计方法分析
Analysis of Nonlinear Mixed Effects Model Parameter Estimation Methods
林业科学, 2013, 49(1): 114-119
Scientia Silvae Sinicae, 2013, 49(1): 114-119.
DOI: 10.11707/j.1001-7488.20130117

文章历史

收稿日期:2012-04-10
修回日期:2012-11-12

作者相关文章

符利勇
张会儒
李春明
唐守正

非线性混合效应模型参数估计方法分析
符利勇, 张会儒, 李春明, 唐守正    
中国林业科学研究院资源信息研究所 北京 100091
摘要:非线性混合效应模型是针对回归函数依赖于固定效应和随机效应的非线性关系而建立的。一阶线性化算法(FO)和条件一阶线性化算法(FOCE)为2种计算非线性混合效应模型参数的常用线性化算法。本文基于FOCE算法,提出一种改进的随机效应参数计算方法,并利用树高生长数据和模拟数据对3种算法进行分析和比较。结果表明: 改进的FOCE算法得到的随机效应参数更能反映个体间的随机差异,并且拟合效果更好。
关键词非线性混合效应模型    一阶线性化算法(FO)    条件一阶线性化算法(FOCE)    改进的FOCE算法    
Analysis of Nonlinear Mixed Effects Model Parameter Estimation Methods
Fu Liyong, Zhang Huiru, Li Chunming, Tang Shouzheng     
Research Institute of Forest Resources Information Techniques, CAF Beijing 100091
Abstract: Nonlinear mixed effects model (NLMEM) is the model in which both the fixed and random effects occur nonlinearly in the model function. First-order linearization algorithm (FO) and conditional first-order linearization algorithm (FOCE) are two commonly used linearization algorithms to calculate the parameters in NLMEM. We proposed an improved method for calculating random effects parameters based on FOCE algorithm in this study. We also analyzed and compared the three algorithms using height growth data set and simulation data sets. The results are: random effects parameters obtained from improved FOCE algorithm can more really reflected the individual random variations and also make a high efficient fit.
Key words: nonlinear mixed effects model(NLMEM)    first-order linearization algorithm(FO)    conditional first-order linearization algorithm(FOCE)    improved FOCE algorithm    

混合效应模型是指模型中部分或全部参数由固定效应和随机效应2部分组成。依据2种参数效应在模型中出现的形式不同,把混合效应模型分为线性混合效应模型(linear mixed effects model,简称为LMEMs)和非线性混合效应模型(nonlinear mixedeffects model,简称为NLMEMs)。2种参数效应都以线性形式出现的混合模型称为LMEMs,以非线性形式出现的混合模型称为NLMEMs。最早利用随机效应分析重复调查数据是在20世纪70年代(Harville,1977),但没有正式给出混合模型的具体概念。直到1981年,Laird等(1981)在《Biometrics》杂志上详细地介绍了LMEMs。之后,混合模型受到越来越多的学者青睐,同时也提出了较多参数估计方法,如极大似然法(Laird et al.,1982)、Expectation-Maximization(EM)算法(Laird et al.,1982)、Newton-Raphson算法(Lindstrom et al.,1988)等。对于NLMEMs,它比LMEMs更加复杂,因此关于它的研究相对较晚,直到20世纪90年代初期,一些学者才逐渐提出该模型的参数估计方法(Sheiner et al.,1980;Lindstrom et al.,1990;Vonesh,1986;Vonesh et al.,1992)。到目前为止,计算NLMEMs参数的方法主要有广义最小二乘估计法(generalized least squares estimation)、一阶线性化算法(first-order linearization,简称为FO)、条件一阶线性化算法(first-order conditional expectationlinearization,简称为FOCE)、高斯-埃尔米特求积法(Gaussian-Hermite quadrature)、拉普拉斯近似法(Laplacian approximation)等。这些方法中,广义最小二乘估计法精度最低,高斯-埃尔米特求积法精度高但计算量大且运算速度慢,而FO和FOCE 2种算法计算简单且精度较高,故使用较广。一些国际主流统计软件,如SAS软件的NLINMIX宏、S-Plus和R软件的nlme模块等均实现了这2种算法。在林业上,最近几年国内一些学者利用FO和FOCE对NLMEMs进行了计算(李永慈等,2004;李春明等,2010;符利勇等,2011;2012),但在选用参数估计方法上许多学者很难确定选用哪种方法最合适,到目前为止国内也没有关于这2种算法比较的报道。本研究基于FOCE算法,提出一种改进的随机效应参数计算方法,并对FO和FOCE以及改进的FOCE算法进行比较。文中所有计算均是在SAS9.0版本上实现的。

1 材料与方法 1.1 非线性混合效应模型

Lindstrom等(1990)定义NLMEMs为:

$ {y_{ij}} = f\left( {{\varphi _{ij}},{\upsilon _{ij}}} \right) + {\varepsilon _{ij}},i = 1, \cdots ,M,j = 1, \cdots ,{n_i}。 $ (1)

式中: yijυij分别为第i个研究对象第j次重复观测的因变量和自变量值;M为研究对象的个数;ni为第i个研究对象重复观测次数;εij为第i个研究对象第j次重复观测的误差项值;φij是以非线性形式出现在函数f中的形式参数向量,写为:

$ {\varphi _{ij}}{\rm{ = }}{A_{ij}}\beta + {B_{ij}}{u_i},{u_i} \sim N\left( {0,\psi } \right)。 $ (2)

式中: βp维固定效应参数;uiq维随机效应参数,假定服从期望为零方差为ψ的正态分布;AijBij分别为βui的设计矩阵。假定εij服从期望为零方差为σ2的正态分布,同时假定ui之间、uiεij之间相互独立。

FO和FOCE都是极大化似然函数求解模型参数。在NLMEMs中,因变量y的边缘密度函数由下式得到:

$ p\left( {y|\beta ,{\sigma ^2},\psi } \right) = \int {p\left( {y|u,\beta ,{\sigma ^2}} \right)p\left( {u|\psi } \right){\rm{d}}u}。 $ (3)

式中: u=(u1,…,uM)为随机效应参数向量;p(y |βσ2ψ)为y的边缘密度函数;p(y | u,β,σ2)为给定uy的条件密度函数;p(u | ψ)为u的密度函数。由于βui(i=1,…,M)是以非线性形式出现在模型(1)中,因此式(3)求解较为困难。许多学者提出了不同的计算方法,本研究中的FO是对式(3)在u=0处进行一阶泰勒展开,而FOCE算法是在u的条件期望处进行一阶泰勒展开。已知y的边缘密度函数,似然函数为:

$ \lg L = \lg \prod\limits_{i = 1}^M {\prod\limits_{j = 1}^{{n_i}} {p\left( {y|\beta ,{\sigma ^2},\psi } \right)} }。 $ (4)

FO和FOCE的参数估计值是由Newton-Raphson迭代方法优化式(4)(Lindstrom et al.,1990)得到的,详细介绍见符利勇等(2012)

1.2 改进的FOCE算法

在FOCE中,随机效应ui通过式(5)计算得到(符利勇等,2012):

$ \begin{array}{*{20}{c}} {{{\hat u}_i} = \hat \psi Z_i^T{{\left( {{Z_i}\hat \psi Z_i^T + {{\hat \sigma }^2}{I_{{n_i}}}} \right)}^{ - 1}}\left( {{\omega _i} - {X_i}\hat \beta } \right) = }\ {\hat \psi Z_i^T{{\left( {{Z_i}\hat \psi Z_i^T + {{\hat \sigma }^2}{I_{{n_i}}}} \right)}^{ - 1}}\left[ {{y_i} - f\left( {{\upsilon _i},\hat \beta ,{{\hat u}_i}} \right) + {Z_i}{{\hat u}_i}} \right]} \end{array}。 $ (5)

式中: XiZi分别为βui的设计矩阵;ωi为伪向量,具体计算公式见文献(符利勇等,2012)。由式(5)得知,${\hat u_i}$与自身方差ψ、误差项方差σ2 Ini、设计矩阵Zi 、因变量yi以及自己本身有关。同时Zi也与ui有关,因此可以对式(5)进一步改进。假定FOCE中2个交替步骤运算第t步后计算收敛,对应ψ,σ2Ziui的估计量分别为ψ(t),(σ(t))2Zi(t)ui(t),改进的FOCE算法详细计算过程如下。

第一步:计算随机效应ui(0)的初始值。设ψ,σ2和$\hat \beta $的取值为ψ(t),(σ(t))2β(t),其中k=0,计算

$ \begin{array}{*{20}{c}} {u_i^{\left( k \right)} = {\psi ^{\left( t \right)}}Z_i^T{{\left[ {{Z_i}{\psi ^{\left( t \right)}}Z_i^T + {{\left( {{\sigma ^{\left( t \right)}}} \right)}^{{I_{{n_i}}}2}}} \right]}^{ - 1}}}\ {\left[ {{y_i} - f\left( {{\upsilon _i},{\beta ^{\left( t \right)}},u_i^{\left( t \right)}} \right) + {Z_i}u_i^{\left( t \right)}} \right],} \end{array} $ (6)

其中:

$ {Z_i} = \frac{{\partial f\left( {{\upsilon _i},{\beta ^{\left( t \right)}},{u_i}} \right)}}{{\partial {u_i}}}{|_{\beta = \hat \beta ,u_i^{\left( t \right)}}}。 $ (7)

第二步:计算

$ Z_i^{\left( k \right)} = \frac{{\partial f\left( {{\upsilon _i},\beta ,{u_i}} \right)}}{{\partial {u_i}}}{|_{\beta = \hat \beta ,{u_i} = u_i^{\left( k \right)}}}, $ (8)

利用下式计算ui(k+1):

$ \begin{array}{*{20}{c}} {u_i^{\left( {k + 1} \right)} = {\psi ^{\left( t \right)}}{{\left( {Z_i^{\left( k \right)}} \right)}^T}\left[ {Z_i^{\left( k \right)}{{\left( {{\psi ^{\left( t \right)}}} \right)}^T}{{\left( {Z_i^{\left( k \right)}} \right)}^T} + } \right.}\ {{{\left. {{{\left( {\sigma _i^{\left( t \right)}} \right)}^2}{I_{{n_i}}}} \right]}^{ - 1}}\left[ {{y_i} - f\left( {{\upsilon _i},{\beta ^{\left( t \right)}},u_i^{\left( k \right)}} \right) + Z_i^{\left( k \right)}u_i^{\left( k \right)}} \right],} \end{array} $ (9)

k=k+1。

第三步:重复第二步,直到达到理想精度为止。迭代终止条件为:

$ \left| {{{\left( {u_i^{\left( k \right)} - u_i^{\left( {k - 1} \right)}} \right)}^T}\left( {u_i^{\left( k \right)} - u_i^{\left( {k - 1} \right)}} \right)} \right| < \delta , $ (10)

δ为任意给定的正小数。

显然,改进的FOCE算法是在FOCE算法计算收敛后对随机效应参数ui进一步迭代计算。模型中其他参数如固定效应参数和方差参数,2种算法完全相同。

1.3 实例数据

本文选用中国林业科学研究院林业研究所设在江西省大冈山实验局种植的16株人工杉木(Cunninghamia lanceolata)作为试验对象,连续10次调查每株杉木树高,每次调查时杉木年龄分别为3,4,5,6,7,8,9,10,12和14年,样木树高的具体信息见表 1

表 1 16株杉木各自树高统计量 Tab.1 Summary statistics of height for 16 Chinese fir
1.4 模型选择

利用NLMEMs对杉木树高生长量进行分析需首先选定基础模型,基础模型的选择方法见文献(Hall et al.,2001;Sharma et al.,2007)。本文选取常用的Richards模型作为构建混合模型的基础模型,以模型中考虑2个混合效应参数为例,模型写为:

$ H = \left( {{\beta _1} + {u_1}} \right) \times {\left( {\frac{{1 - \exp \left[ { - \left( {{\beta _2} + {u_2}} \right)A} \right]}}{{1 - \exp \left[ { - \left( {{\beta _2} + {u_2}} \right){A_0}} \right]}}} \right)^{{\beta _3}}} + \varepsilon 。 $ (11)

式中: H为杉木树高,m;A为杉木年龄;A0杉木标准年龄,本文取A0=20年;β1β2β3为固定效应参数;u1u2为随机效应参数。

选用平均偏差($\bar e$)以及结合平均偏差($\bar e$)和偏差的标准差(SD)的综合指标(total error of meanbias and standard deviation of the biases,简称TE)对3种算法预测精度进行比较,指标的计算公式为:

$ {\rm{TE = }}\sqrt {{{\bar e}^2} + {\rm{S}}{{\rm{D}}^2}}。 $ (12)

式中: $\bar e = \sum\limits_{i = 1}^M {\sum\limits_{j = 1}^{{n_i}} {{e_{ij}}/N = } } \sum\limits_{i = 1}^M {\sum\limits_{j = 1}^{{n_i}} {\left({{H_{ij}} - {{\hat H}_{ij}}} \right)/N;} } {\rm{SD = }}\sqrt {\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^{{n_i}} {{{\left({{e_{ij}} - \bar e} \right)}^2}/\left({N - 1} \right)} } } ;$Hij为第i株杉木第j次观测的树高值;${{{\hat H}_{ij}}}$为第i株杉木第j次调查时树高的预测值。

1.5 拟合研究

本文通过拟合研究进一步比较3种算法各自的参数估计精度。根据模型(11)和实例分析中由FOCE算法计算的参数值作为真实值产生500组模拟数据,利用3种算法对每组模拟数据进行计算得到各自的参数估计值。结合参数的真实值,利用偏差、方差和均方误差对3种算法估计精度进行比较。3种算法都选用限制极大似然参数估计方法(唐守正,2002)。

2 结果与分析 2.1 实例结果

根据建模数据,利用FO,FOCE和改进的FOCE算法分别对模型(11)进行计算,得到随机效应参数u1u2的估计量见表 2,固定效应参数β1β2β3以及方差参数的估计量见表 3

表 2 3种算法各自的随机参数估计量 Tab.2 The random parameters estimates for the three algorithms
表 3 FO及FOCE算法各自参数及指标 Tab.3 The parameters and indexes of FO and FOCE algorithm

表 2得知,3种算法对应的随机效应差异不大,其中FOCE算法和改进的FOCE算法对应的随机效应差异最小,而FO算法与FOCE算法对应的随机效应差异最大。从表 3中可以看出FOCE算法的3个指标AIC=85.6,AICC=86.3和BIC=91比FO算法中对应的3个指标AIC=86.2,AICC=86.9和BIC=91.6略小些,根据“越小越好”原则判断FOCE算法比FO算法要好。在利用NLMEMs分析林分特征因子生长量时,由于FO算法只考虑随机效应以非线性形式出现在模型中,而FOCE算法同时考虑了固定效应和随机效应,因此理论上讲选用FOCE算法计算参数估计值比选用FO算法效果要好。但在实际应用中,这2种算法拟合效果还与具体数据和模型有关(符利勇等,2012)。

利用3种算法对实际数据进行拟合,得到各自的平均偏差和指标TE。对于FO算法2个指标值分别为: ${\bar e}$=0.081 3,TE=0.24;FOCE算法分别为:${\bar e}$=0.002 8,TE=0.203 7;改进的FOCE算法分别为: ${\bar e}$=0.002 1,TE=0.196 2。很明显改进的FOCE算法拟合效果最好,FOCE次之,而FO最差。从而说明本文给出的改进FOCE算法所计算出的随机效应参数更能真实反映研究对象间的随机差异。图 1为3种算法对应的2株样本优势高拟合曲线。

图 1 3种算法对应的2株样木树高拟合曲线 Fig. 1 Two sample trees height fitted curves for three algorithms 试验为实际调查数据。The full lines indicate the actual survey data.
2.2 拟合结果

表 4表 5分别为3种算法对应的方差参数和固定效应参数拟合结果。从表 4中可知,FO算法对应的偏差比FOCE算法要大,其中,参数su1最为显著,2种算法相差0.001 7,而对于参数su22种算法相差最小,对应的偏差为0,因此说明FOCE算法计算模型(11)方差参数时精确度要比FO算法高。对于均方误差,FO算法和FOCE算法之间非常接近,但并不由于FOCE算法精度高而对应的均方误差比FO算法小,如参数su1和参数δu1u2对应的均方误差FOCE算法比FO算法要大。对于FOCE算法和改进的FOCE算法,由于改进的FOCE算法只对随机效应参数的计算进行改进,而模型中其他参数并没有变,与此同时随机效应参数不影响拟合计算,故2种算法计算出的结果是完全一样的。从表 4中还可看出误差项方差s对应的偏差比另外几个随机效应方差参数(su2除外)要小,这可能是由于误差项方差s与总观测次数有关,而随机效应方差参数与观测对象个数有关。表 5中3种算法对模型(11)中固定效应参数拟合结果与表 4中方差参数拟合结果完全一致。

表 4 模型(11)中方差参数拟合结果 Tab.4 Simulation results for the variance-covariance components in model(11)
表 5 模型(11)中固定效应参数拟合结果 Tab.5 Simulation results for the fixed effects parameters in model(11)

由于FOCE算法和改进的FOCE算法参数估计结果完全一致,因此选用FOCE算法与FO算法进行比较分析,图 2为2种算法的散点分布图。从图 2中可以看出,每个方差参数的散点分布图几乎都在曲线y=x以下,这表明FOCE算法算出来的参数值比FO算法要大。参数su1具有较大的均方误差(表 4),在图 2中可明显反映出来。鉴于文章篇幅所限,固定效应参数的散点图不再列出,但结果与方差参数完全一致。

图 2 FO和FOCE对模型(11)方差参数估计的散点分布 Fig. 2 Scatter plots of variance-covariance components etimates for the two algorithms of FO and FOCE in the Eq. 11
3 结论

线性化算法是把非线性混合模型通过一阶泰勒展开转化为线性混合模型进行求解,它避免了求解yi边缘分布难的问题。FO算法中只考虑随机效应ui在模型中以非线性形式出现,并且假定ui=0时对参数进行估计;而正常情况下固定效应β是以非线性形式出现在模型中,并且随机效应不为零。许多国外学者喜欢选用FO算法来求解NLMEMs的未知参数(Fang et al.,2001),但是Davidian等(2003)证明了E{f(β,ui,υi)} ≠f(β,υi),因此利用FO算法对因变量进行估计时误差将会很大,本文实例分析也证明了这点。FOCE算法是基于FO算法的基础上考虑固定效应以非线性形式出现在模型中,并且取随机效应ui的最小二乘估计量作为初始值进行迭代计算。本文基于FOCE提出一种改进的随机效应参数计算方法,利用树高生长模型实例和拟合研究对3种算法进行比较和分析。通过树高生长模型实例可知,改进的FOCE算法对应的指标e-和TE最小,拟合效果最好。FOCE算法和改进的FOCE算法唯一的不同点是二者具有不同的随机效应参数值,其中改进的FOCE算法计算出的随机效应参数更能真实反映研究对象间的随机差异,对于其他参数估计值,2种算法完全相同。通过拟合研究可得,FOCE算法计算的参数值比FO算法精度更高,同时由FOCE算法计算的参数值几乎都比FO算法计算出的要大。除随机效应参数外,对于其他参数,FOCE算法与改进的FOCE算法有相同的计算精度。总而言之,在模型应用时,利用改进的FOCE算法计算随机效应参数能进一步提高模型拟合效果。

除线性化算法来求解NLMEM外,还有一些其他算法,如高斯积分法和拉普拉斯法同样可以对随机效应参数的计算进行改进,这需进一步研究。

参考文献(References)
[1] 符利勇, 曾伟生, 唐守正.2011.利用混合模型分析地域对国内马尾松生物量的影响.生态学报, 31(19): 5797-5808.(1)
[2] 符利勇, 唐守正.2012.基于非线性混合模型的杉木优势木平均高.林业科学, 48(7): 66-71.(5)
[3] 李春明, 张会儒.2010.利用非线性混合模型模拟杉木林优势木平均高.林业科学, 46(3): 89-95.(1)
[4] 李永慈, 唐守正.2004.用Mixed和Nlmixed过程建立混合生长模型.林业科学研究, 17(3): 279-283.(1)
[5] 唐守正, 李勇. 2002.生物数学模型的统计学基础.北京:科学出版社.(1)
[6] Davidian M, Giltinan D M. 2003.Nonlinear models for repeatedmeasurement data: an overview and updata. J Agric Biol EnvironStatist, 8(4): 387-419.(1)
[7] Fang Z, Bailey R L. 2001.Nonlinear mixed effects modeling for slashpine dominant height growth following intensive silviculturaltreatments. Forest Science, 47(3): 287-300.(1)
[8] Hall D B, Bailey R L. 2001.Modeling and prediction of forest growthvariables based on multilevel nonlinear mixed models. ForestScience, 47(3): 311-321.(1)
[9] Harville D A. 1977.Maximum likelihood approaches to variancecomponent estimation and to related problems. J Amer Statist Assoc, 72(358): 320-338.(1)
[10] Laird N M, Ware J H. 1982.Random effects models for longitudinaldata. Biometrics, 38(4): 963-974.(1)
[11] Lindstrom M J, Bates D M. 1988.Newton-Raphson and EM algorithmsfor linear mixed-effects models for repeated-measures data. J AmerStatist Assoc, 83(404): 1014-1022.(1)
[12] Lindstrom M J, Bates D M. 1990.Nonlinear mixed effects models forrepeated measures data. Biometrics, 46(3): 673-687.(3)
[13] Sharma M, Parton J. 2007.Height-diameter equations for boreal treespecies in Ontario using a mixed-effects modeling approach. ForEcol Manag, 249(3): 187-198.(1)
[14] Sheiner L B, Beal S L. 1980.Evaluation of methods for estimatingpopulation pharmacokinetic parameters. Ⅰ. Michaelis-menton modelroutine clinical pharmacokinetic data. Journal of Pharmacokineticsand Biopharmaceutics, 8(6): 553-571.(1)
[15] Vonesh E F. 1996.A note on the use of Laplace’s approximation fornonlinear mixed-effects models. Biometrika, 83(2): 447-452.
[16] Vonesh E F, Carter R L. 1992.Mixed-effects nonlinear regression forunbalanced repeated measures. Biometrics, 48(1): 1-17. (1)