中国公共卫生  2015, Vol. 31 Issue (9): 1225-1229   PDF    
结构方程模型GLS与WLS性能比较
焦辛妮1,2, 汪东伟3, 王长义4, 刘艳1     
1. 哈尔滨医科大学卫生统计学教研室, 黑龙江 哈尔滨 150081;
2. 北海市疾病预防控制中心;
3. 黑龙江省出入境检验检疫局;
4. 深圳市南山区慢性病防治院
摘要目的 通过构建结构方程模型的全模型,比较广义最小二乘法(GLS)和加权最小二乘法(WLS)在不同特征数据中的性能差异。方法 建立包括12个外生显变量、3个外生潜变量和8个内生显变量、2个内生潜变量全模型的真模型和误设模型,运用SAS 9.1软件的IML模块生成模拟数据,通过CALIS过程进行模型拟合,采用两类错误频率对2种参数估计方法的性能进行评价。结果 分布特征为多元正态分布、轻度偏态分布和重度偏态分布的数据,在采用相关系数矩阵和协方差矩阵时,GLS和WLS的两类错误频率均随相关系数或样本含量的增加而呈现下降趋势; GLS法表现为第一类错误频率较大而第二类错误频率较小,3种分布n>200即显变量个数的10倍以上时第二类错误频率<0.05,而第一类错误频率只有在n≥1 000即显变量个数的50倍及以上时才近似<0.05;WLS法第二类错误频率几乎均为0,但第一类错误频率较大,在数据特征条件相同时其相关系数矩阵的第一类错误频率小于协方差矩阵的第一类错误频率。结论 GLS法与WLS法相比是比较稳健的结构方程模型参数估计方法。
关键词结构方程模型     参数估计     广义最小二乘法(GLS)     加权最小二乘法(WLS)     两类错误    
Comparison of performance of GLS and WLS method in structural equation modeling
JIAO Xin-ni1,2, WANG Dong-wei3, WANG Chang-yi4, et al    
Department of Health Statistics, School of Public Health, Harbin Medical University, Harbin, Heilongjiang Province 150081, China
Abstract: Objective To compare the difference in the performance of generalized least squares(GLS) and weighted least squares(WLS)in structural equation modeling(SEM)for the data with different characteristics.Methods We set a true model and a misspecified model including 12 exogenous manifest variables,3 exogenous latent variables,8 endogenous manifest variables,and 2 endogenous latent variables.Using Interactive Matrix Language(IML)module of SAS 9.1 software,we got a simulation of multi-feature data and using Covariance Analysis of Linear Structural Equations(CALIS) procedure we tested the model fit.Then we compared the performance of GLS and WLS methods using the frequency of the two types of error as the indicator.Results Whether the distribution of data is multivariate normal,slightly skewed or severely skewed,the relative frequency of the two types of errors shows a downward trend with the increase of the correlation coefficient and the sample size of GLS and WLS when matrix and covariance matrix are used in the analyses.The type I error of GLS method is somewhat great while the type II error is very small;when the sample size reaches 200(10 times of significant variable)the type II error is less than 0.05 and when the sample size reaches 1 000(50 times of significant variable)the typeⅠerror is less than 0.05 for the data with multivariate normal,slightly skewed or severely skewed distribution.The type II error of WLS is nearly 0 and the type I error is somewhat great;the frequency of type I error of the correlation matrix is lower than that of covariance matrix for the data with same characteristics.Conclusion GLS is more stable than WLS for parameter estimation in SEM analysis.
Key words: structural equation model     parameter estimation     generalized least square     weighted least square     two types of error    

结构方程模型(structural equation modeling,SEM)作为一种研究技术是在解决相关、回归和路径分析等常用统计方法不足时提出来的,不仅可以检测变量间的直接作用,还可以检测变量间复杂的间接作用,同时还能分析不能直接观测的潜在变量,对解释各种因素间的相互作用也更为准确合理[1, 2]。广义最小二乘法(generalized least squares,GLS)和加权最小二乘法(weighted least squares,WLS)是除极大似然估计(maximum likelihood estimation,ML)外广泛的SEM参数估计方法。本研究通过构建结构方程模型的全模型,比较GLS和WLS在不同特征数据中的性能差异,为更加准确地运用结构方程模型解决实际问题提供科学依据。

1 材料与方法 1.1 材料

运用SAS软件的IML模块,依据结构方程模型原理和算法设定包含20个显变量和5个潜变量的全模型(1个真模型和1个误设模型),通过Monte Carlo模拟方法实现多变量多特征数据的模拟。

1.1.1 模型的设定(图12)
图 1 全模型的真模型

图 2 全模型的误设模型

测量模型共有12个外生显变量(X1~X12)和3个外生潜变量(ξ1~ξ3)及8个内生显变量(Y1~Y8)和2个内生潜变量(η1~η2),真模型中每个外生潜变量分别由4个外生显变量来测量(见图1);误设模型将属于外生潜变量ξ3的显变量X10归为外生潜变量ξ2ξ2 对内生潜变量η1 的影响改成ξ2η2的影响(见图2)。

1.1.2 模拟条件的设定(表1)
表 1 模拟实验参数条件设定

依然考虑3个数据特征,即显变量间的相关系数(r)、样本含量(n)和数据分布类型(d),分别采用相关矩阵和协方差矩阵进行参数估计。

1.1.3 拟合效果评价指标

主要选择近似误差均方根(root mean square error of approximation,RMSEA)、非规范拟合指数(non-normed fit index,NNFI)和比较拟合指数(comparative fit index,CFI)3个拟合指数作为判断模型拟合效果的指标,RMSEA<0.10、NNFI>0.90和CFI>0.90表示模型拟合良好。

1.2 模拟数据的实现(表2)
表 2 偏度和峰度变量的转换系数

使用正态分布随机数函数X=rannor(0)实现多元正态分布数据的模拟,而多元轻度偏态和多元重度偏态分布数据则在多元正态分布数据矩阵的基础上使用Fleishman幂转换法实现,需转换每个变量到指定偏度和峰度的分布变量[3]。转换方程为Y=α+bz+cz2+dz3,其中αbc是转换系数,且α=-cz为正态分布变量(偏度和峰度的转换系数见表2)。

1.3 方法

应用SAS 9.1统计软件,利用CALIS过程进行模型拟合,采用两类错误频率对2种参数估计方法的性能进行评价,其中a表示第一类错误频率,b表示第二类错误频率,a+b表示两类错误频率之和。

2 结 果 2.1 GLS法和WLS法的性能 2.1.1 GLS法(表34)
表 3 相关矩阵分析时GLS法的两类错误频率

表 4 协方差矩阵分析时GLS法的两类错误频率

分布特征为多元正态分布、轻度偏态分布和重度偏态分布的数据,在采用相关矩阵和协方差矩阵时,GLS法的两类错误频率均随样本含量或相关系数的增加而减小,且b < a;协方差矩阵的a+b更小。当n1=200(即显变量个数的10倍,约为自由参数个数的5倍)时,3个相关系数的估计结果均显现出a>0.10,但b则随着相关系数的增加渐趋近于0;当n2=400时,b趋近于0,但a<0.05在相关系数增大至0.7时才会出现;当n≥1 000时,a+b < 0.10且随相关系数的增加a+b渐趋近于0。

2.1.2 WLS法(表56)
表 5 相关矩阵分析时WLS法的两类错误频率

表 6 协方差矩阵分析时WLS法的两类错误频率

与GLS法类似,分布特征为多元正态分布、轻度偏态分布和重度偏态分布的数据,在采用相关矩阵和协方差矩阵时,WLS法的两类错误频率均随样本含量或相关系数增大而减小,且b < a;而WLS法在各种条件下b均趋近于0,但a不仅受样本含量和相关系数的影响,也与矩阵类别有关。当a < 0.05在相关系数矩阵中需要n≥400且r≥0.5,而在协方差矩阵至少需要n≥1 000且r≥0.7。另外,在样本含量相对较少时WLS法相关系数矩阵的拟合效果要好于协方差矩阵。

2.2 模型的拟合效果(表7)
表 7 SAS-CALIS过程计算出的真模型参数估计值

对全模型的数据分析采用固定负荷法,把每个因子的第1个显变量的因子负荷固定为1(设定λ1,1、λ5,2、λ9,3、λ13,4、λ17,5的因子负荷为1),模型的自由参数共有46个(包括15个因子负荷、20个测量误差、3个因子方差、3个因子间协方差、2个结构模型的残差和3个结构模型的路径系数)。分析结果显示,15个显变量的因子负荷系数均>0.4,且t值均>2(而t0.05/2,165=1.974 4),差异有统计学意义(P < 0.05);20个测量误差、3个结构模型路径系数、因子f1与f2之间的协方差差异均有统计学意义(t>2,P < 0.05);RMSEA=0.012、NNFI=0.994和CFI=0.994,3种拟合指数均在可接受范围内,提示模型拟合效果良好。

3 讨 论

全模型中设定了12个外生显变量和8个内生显变量,每4个显变量对应1个潜变量,同时还分别设定了外生显变量间、内生显变量间及内外生显变量间的相关系数,但为了使模型不至于太过复杂,暂时未考虑内生潜变量之间的因果关系;对数据分布类型的设定不局限于单一的分布(如二项分布或指数分布),而是更接近实际情况的多元轻度或重度偏态分布;显变量间的相关系数设定为0.3、0.5、0.7 三水平,其原因是某些变量之间有极高相关(如相关系数>0.8)或某些变量可由其他数个变量线性组合而成会造成协方差矩阵的非正定现象[4]

Hu等[5]研究发现样本数据符合正态性假设时,若n<2 500使用WLS法所获得的估计值也不理想,当n<500使用GLS法估计会获得较佳的结果;虽然GLS法要求具有多元正态分布,但大样本即使数据不符合多变量正态性假设,也可采用GLS估计法[6]。因此,一般说来,当数据呈现非正态致使无法采用ML法和GLS法来估计参数时,才考虑使用WLS法[7],但使用WLS法要求大样本(通常n>1 000,若在任何分布下均能估计顺利则需要n>5 000),小样本使用WLS法没有实务应用价值也比较耗费计算机的运算时间[8]

本研究结果显示,全模型中无论数据的分布类型如何,无论采用相关系数矩阵还是协方差矩阵,GLS法和WLS法的第一类错误频率均大于第二类错误频率,且两类错误频率均随相关系数或样本含量的增加而呈现下降趋势,符合Marsh等[9]的研究结果,即从模型收敛和拟合指数等角度考虑样本含量越大越好;在数据特征相同的条件下,相关系数矩阵分析表现为WLS法的两类错误频率之和小于GLS法,但协方差矩阵分析则表现为GLS法的两类错误频率之和小于WLS法,提示2种参数估计方法的分析结果与矩阵有关。通常结构方程模型采用协方差矩阵分析,Cudeck等[10]发现,当模型中含有约束条件或在多组分析时,用相关矩阵可导致模型被拟合程序曲解,出现χ2值和其他拟合指数错误以及错误估计标准误等一系列问题;且2种参数估计方法对数据的分布类型均表现为敏感性相对较小,即3种分布(多元正态、轻度偏态和重度偏态)数据的两类错误频率及两类错误频率之和的差别较小,更支持了WLS法是公认的不受数据分布类型影响的说法[11]

与本课题组前期基于简单模型的研究相比,GLS法不论是相关系数矩阵还是协方差矩阵分析,其第一类错误频率表现为全模型大于简单模型;不论是全模型还是简单模型,GLS法在样本含量为显变量个数10倍时均表现出两类错误频率均随相关系数增大而减小,在样本含量为显变量个数20倍时均表现出第一类错误频率随相关系数增加而减小的同时第二类错误频率趋近于0。与GLS法相同的是,WLS法不论是相关系数矩阵还是协方差矩阵分析,其第一类错误频率也均表现为全模型大于简单模型;在样本含量为显变量个数20倍(WLS法需要较大样本量,故未设定样本含量为显变量个数10倍的情况)时其协方差矩阵分析在全模型和简单模型中均表现出第一类错误频率随相关系数增大而减小且第二类错误频率趋近于0。但相关矩阵分析则表现出在第一类错误频率随相关系数增大而减小的同时,简单模型的第二类错误频率随相关系数增加有波动的现象,而全模型的第二类错误频率则趋近于0,这也说明在使用WLS法进行实务操作时必须提供数据的渐近协方差矩阵[12]。虽然简单模型只考虑了测量模型,没有引入内生显变量及内生潜变量,但与全模型的分析结果比较一致,只是全模型的复杂性导致两类错误频率相对大些,充分说明了GLS和WLS法得到的参数估计是无偏的和渐近有效的[4]

参考文献
[1] 陆璐,王烈,孙晗潇,等.结构方程模型在糖尿病控制影响因素中应用[J].中国公共卫生,2008,24(6):740-741.
[2] 欧凤荣,丁海龙,高双,等.城市贫困人群生命质量影响因素结构方程模型[J].中国公共卫生,2012,28(6):867-868.
[3] Vale CD,Maurelli VA.Simulating multivariate nonnormal distribution[J].Psychometrika,1983,48(3):465-471.
[4] 候杰泰,温忠麟.结构方程模型及其应用[M].北京:教育科学出版社,2004:148-149,227-245.
[5] Hu LT,Bentler PM,Kano Y.Can test statistics in covariance structure analysis be trusted?[J].Psychological Bulletin,1992,112(2):351-362.
[6] 吴明隆.结构方程模型—AMOS的操作与应用[M].重庆:重庆大学出版社,2009:24-27.
[7] 方敏,黄正峰.结构方程模型下非正态数据的处理[J].中国卫生统计,2010,27(1):84-87.
[8] 王济川,王小倩,姜宝法.结构方程模型:方法与应用[M].北京:高等教育出版社,2011:13-16.
[9] Marsh HW,Balla JR,McDonald RP.Goodness-of-fit indexes in confirmatory factor analysis:the effect of sample size[J].Psychological Bulletin,1988,103(3):391-410.
[10] Cudeck R.Analysis of correlation matrices using covariance structure model[J].Psychological Bulletin,1989,105(2):317-327.
[11] Tomarken AJ,Waller NG.Structural equation modeling:strengths,limitations,and misconceptions[J].Annual Review of Clinical Psychology,2005,1(1): 31-65.
[12] 张岩波.潜变量分析[M].北京:高等教育出版社,2009:91-93.