用两阶段度量误差模型方法和ForStat软件进行模型整合

文章信息

李永慈, 唐守正, 李海奎.

Li Yongci, Tang Shouzheng, Li Haikui.

Model Integration Using the Method of Two-stage Error-in-variable and the Soft of ForStat

林业科学, 2004, 40(2): 75-78.

Scientia Silvae Sinicae, 2004, 40(2): 75-78.

文章历史

收稿日期：2002-08-26

作者相关文章

李永慈

唐守正

李海奎

引用本文

李永慈, 唐守正, 李海奎. 2004. 用两阶段度量误差模型方法和ForStat软件进行模型整合. 林业科学, 40(2): 75-78.

Li Yongci, Tang Shouzheng, Li Haikui. 2004. Model Integration Using the Method of Two-stage Error-in-variable and the Soft of ForStat. Scientia Silvae Sinicae, 40(2): 75-78.

用两阶段度量误差模型方法和ForStat软件进行模型整合

李永慈¹, 唐守正², 李海奎²

1. 北京林业大学资源环境学院北京 100083;
2. 中国林业科学研究院资源信息研究所北京 100091

收稿日期：2002-08-26

基金项目：国家自然基金项目“混交林生长规律及其模型的研究”(30070620)的资助

摘要： 以同龄林分的年龄X、平均单株胸径Y₁(cm)和平均单株材积Y₂(m³)的关系模型为例，应用ForStat软件，分别用常规方法和两阶段度量误差模型方法对模型进行整合。结果表明，应用常规方法得到的Y₂估计值明显有偏，而应用度量误差模型方法得到的Y₂估计值明显优于应用常规方法得到的估计结果。事实证明：度量误差模型方法和ForStat软件为模型整合提供了有效的途径和工具。

关键词：模型整合两阶段度量误差模型数值算法

Model Integration Using the Method of Two-stage Error-in-variable and the Soft of ForStat

Li Yongci¹, Tang Shouzheng², Li Haikui²

1. College of Resource and Environment, Beijing Forestry University Beijing 100083;
2. The Institute of Forest Information Research, Chinese Academy of Forestry Beijing 100091

Abstract: In this study, The models of stand age, stand mean diameter at breast height and stand volume are integrated by using the method of two-stage error-in-variable and the ordinary method separately with the soft of ForStat. The result indicates that the estimation of stand volume obtained by ordinary method has bias while the estimation of two-stage error-in-variable is obviously more accurate and has no bias. It is proved that the method of the two-stage error-in-variable and the soft of ForStat are useful method of integrating models.

Key words: Model integration Two-stage error-in-variable Numerical algorithm

在系统生态学中，存在大量不同时空尺度上的动态生态模型。一般小尺度模型比较精细，更能反映局部生态过程的细微变化，对外界影响的反映更敏感。大尺度上的模型比较综合，更能反映生态系统的“平均”性质。如何将小尺度的精细模型编入大尺度的综合模型正在越来越多地引起研究者的兴趣。已有大量文献报道不同尺度模型或模型不同组分关系的研究。此类问题在不同文献中被称为“变尺度”、“联接”、“累积”、“拆分”或“整体性”。这样做的问题是用常规方法得到的参数往往是不相容的，也就是说，从大尺度的综合模型得到的参数与从小尺度的精细模型得到的参数是不同的。Tang等(2002)给出了进行模型整合的两阶段度量误差模型方法、它的数值算法以及Matlab程序，利用这种方法得到的参数是相容的，有效解决了模型整合中参数相容性问题。本文利用文献(Tang et al., 2002)表 1的实验数据，研究了同龄林分的年龄X、平均单株胸径Y₁ (cm)和平均单株材积Y₂ (m³)的关系模型的整合问题。所有计算和绘图都是利用中国林科院资源信息研究所森林经理和林业统计研究室开发的ForStat统计之林软件进行的。

1 选择模型原形和变量变换

为了研究同龄林分的年龄X、平均单株胸径Y₁(cm)和平均单株材积Y₂(m³)的关系模型的整合问题，首先进行模型选择。对于胸径(D)和年龄(X)的关系、材积(V)和胸径的关系分别选择广泛应用的里查德模型和幂函数模型：

(1)

(2)

这里A₁、A₂、A₃、A₄、A₅是参数，ε₁和ε₂是随机误差。从模型可以看出，X是没有误差的变量，D和V是有误差的变量。我们知道参数估计是在随机误差服从独立同分布的条件下进行的，根据林业测量的经验，可以认为随机误差满足独立性条件。为了保证同分布的条件，分别将模型(1)和(2)做对数变换得模型(3)和(4)

(3)

(4)

图 1 模型(1)的残差图 Fig. 1 Residual of model (1)

图 2 模型(3)的残差图 Fig. 2 Residual of model (3)

将模型(1)和(3)的残差进行比较，两者差异不显著，我们取模型(3)作为直径和年龄的关系模型。比较模型(2)和模型(4)的残差图可见模型(4)优于模型(2)，因此我们选择模型(4)作为材积和直径的关系模型。

图 3 模型(2)的残差图 Fig. 3 Residual of model (2)

图 4 模型(4)的残差图 Fig. 4 Residual of model (4)

在模型(3)和(4)中引进Y₁=lnD, Y₂=lnV, ln(A₁)仍记为A₁，ln(A₄)仍记为A₄。最终模型形式为：

(5)

(6)

2 用常规方法进行模型整合

两种常用的模型参数的估计方法分别为：第一种方法是用两个方程分别估计参数，第二种方法是将方程(5)代入方程(6)，合并常数后得

(7)

然后再由方程(7)估计参数。

第一种方法的参数估计结果为：模型(5)：相关指数= 0.741 6，A₁=3.5023，A₂=1.279 9，A₃=0.048 2。模型(6)：相关指数= 0.745 2，A₄=0.548 3，A₅=1.816 5。做Y₂的实测值与预测值对比图(图 5、6)，其中Y₂_Y₁表示用Y₁估计Y₂得到的Y₂的估计值，Y₂_Y₁_X表示用X估计Y₁后再用Y₁估计Y₂得到的Y₂的估计值。可以看出Y₂_Y₁_X是明显有偏的。

图 5 Y₂估计值(Y₂_Y₁)与观测值的对比图 Fig. 5 Comparison of observation Y₂ and estimation (Y₂_Y₁)

图 6 Y₂估计值(Y₂_Y₁_X)与观测值的对比图 Fig. 6 Comparison of observation Y₂ and estimation (Y₂_Y₁_X)

第二种方法的参数估计结果为：相关指数= 0.998 2，A₆=8.672 9，A₇=2.301 5，A₈=0.016 9。做Y₂的实测值与预测值对比图(图 7)，其中Y₂_X表示用X估计Y₂得到的Y₂的估计值。可以看出Y₂_X估计精度很高。

图 7 Y₂估计值(Y₂_X)与观测值的对比图 Fig. 7 Comparison of observation Y₂ and estimation Y₂_X

这两种方法估计的参数，并且用方程(7)进行预测比用方程(5)和(6)进行预测更精确。事实上，当前一阶段子模型的输出作为后一阶段子模型的输入时，变量是内生的，因而导致估计结果是有偏的。当模型的链很长时，这种偏差不断积累，致使最终的估计结果难以置信。

3 用两阶段度量误差模型方法进行模型整合

用方程(5)和(6)分别估计出的参数是局部优化的结果，与将这些子系统整合为一个系统后估计出的参数是不相同的。针对这个问题，唐守正等(1996)提出了一种称为两阶段度量误差模型(TSEM)的新方法，并给出了数值算法(Tang et al., 2001)。它与以上两种方法有本质的区别。用这种方法估计参数时，各个子系统参数的估计是同时进行而不是分别进行的，此方法同样适用于非线性联立方程组。Tang等(2002)给出了这种方法的Matlab程序，并用实例介绍了程序的使用方法。但是Matlab程序要求用户有使用Matlab的经验，限制了这种方法的广泛应用。

ForStat是中国林业科学院资源信息所森林经理和林业统计研究室在IBM-PC系列程序集的基础上，增加了许多近代统计方法，采用面向对象的程序设计方法和COM(组件对象模型)技术，使用可视化的集成开发环境，研制开发的一个统计分析软件。非线性度量误差模型方法是近几年统计领域的研究热点之一，为了促进两阶段度量误差模型方法的广泛应用，我们在ForStat统计之林软件中开发了一个应用程序模块，来进行非线性度量误差模型的参数估计。此模块友好的输入输出界面极大地方便了用户。有关非线性度量误差模型的理论及参数估计的数值算法，这里不再赘述。下面介绍如何用ForStat统计之林软件的两阶段度量误差模型方法对模型(5)和(6)进行整合并给出计算结果。在数据窗口输入数据，然后选择统计分析菜单下的非线性度量误差模型，调出非线性度量误差模型的方程和参数输入窗体输入方程和参数。两阶段度量误差模型参数估计结果见表 1。

表 1 参数估计结果 Tab.1 The estimated parameters for the equations (5) and (6)

图 8 模型和参数输入窗体 Fig. 8 The form of models and parameters input

误差结构矩阵为：, σ²=0.983 1，误差矩阵为：。

做Y₂的实测值与预测值对比图(图 9、10)。可以看出用度量误差模型方法得到的Y₂_Y₁_X精度非常高，并且是无偏的，估计结果明显优于常规估计方法。

图 9 Y₂估计值(Y₂_Y₁)与观测值的对比图 Fig. 9 Comparison of observation Y₂ and estimation Y₂_Y₁

图 10 Y₂估计值(Y₂_Y₁_X)与观测值的对比图 Fig. 10 Comparison of observation Y₂ and estimation Y₂_Y₁_X

4 结论

两阶段度量误差模型理论和ForStat软件是进行模型整合的有效方法和工具。像其它算法一样，参数初始值选择很重要，如果初始值选在最优解附近算法一定能够收敛，并且收敛速度很快，否则算法很可能不收敛，或收敛速度很慢。用户可以参照通常方法得到的参数估计值来选择参数初始值。

参考文献(References)

唐守正, 李勇. 2002. 生物数学模型的统计学基础. 北京: 科学出版社.

唐守正, 李勇. 1996. 一种多元非线性度量误差模型的参数估计及算法. 生物数学学报, 11(3): 23-27.

Tang Shouzheng, Wang Yonghe. 2002. A parameter estimation program for the error-in variable model. Ecological Modelling, 156(2-3): 225-236. DOI:10.1016/S0304-3800(02)00173-4

Tang Shouzheng, Li Yong, Wang Yonghe. 2001. Simultaneous equations, error-in variable models, and model integration in systems ecology. Ecological Modelling, 142(3): 285-294. DOI:10.1016/S0304-3800(01)00326-X