Logistic回归模型在社会科学领域已得到广泛应用,如分层研究(升学、毕业、晋升、找工作等)、政治行为研究(投票、参与集体行动等)、市场营销(是否购买某品牌商品)、人口学研究(离婚、迁移、出生、死亡等)等,但很多研究在解释Logistic回归结果时常会遇到一些问题,其中一个常见的问题就是系数比较。系数比较问题包括两个方面,一是同一样本在模型中因变量相同而自变量不同时的系数比较,典型的是嵌套模型之间的比较;二是对不同样本(包括样本中的不同子群体或不同时间点数据)使用同一模型,然后对这些模型之间的系数进行比较。1这里的系数指发生比率的对数(log-odds ratio,LnOR)或发生比率(odds ratio,OR)。2
一般教科书或著作在介绍Logistic模型时存在两种路径:一是从回归的角度出发,与线性回归(OLS)进行类比;二是从列联表视角出发。这个视角虽然有助于理解和解释结果,却不利于理解回归(Hosmer and Lemeshow, 2000:X),所以,很多著作在介绍Logistic模型时都以回归作为起点,3但这也会混淆线性回归和Logistic回归的一些特性,系数比较是其中一个重要方面。早在1984年,温什普和迈耶(Winship and Mare, 1984)就已注意到这一问题,但直到近些年,尤其是埃里森(Allison,1999)的文章发表之后,这一问题才真正引起部分学者的重视。但对大多数Logistic回归的使用者来说,这个问题并未受到关注。在很多已发表的论文(包括中英文论文)中,都可以看到一些作者直接进行Logistic模型间和样本间的系数比较,忽略了其不同于OLS模型的地方。
本文对近年来就Logistic模型的系数比较问题的相关讨论做了一个简要综述,指出在Logistic模型的运用中可能存在的几个误区,并介绍已提出的一些解决之策。值得注意的是,本文所探讨的问题不仅适用于Logistic模型,也适用于其他Logit模型(如Ordinal Logit模型和Multinomial Logit模型)和Probit模型,但为了行文简洁,我们在此仅以Logistic模型为例进行讨论。本文先论述Logistic模型系数比较问题的来源,即未被观测到的异质性问题;然后介绍已有的解决策略,包括“y*标准化”、KBH分解、异质选择模型、平均偏效应(APE)和线性概率模型(LPM)方法;最后以教育递进率模型为例,比较不同策略的效果。
二、问题根源:未被观测到的异质性一些研究者在理应使用Logit模型的情况下(即因变量为定类或定序变量)却选择了线性回归模型,其中一个重要原因就是为了避免Logit模型之间系数难以直接比较的问题(胡安宁,2014;Wang and Xie, 2015)。为什么不能像线性回归模型那样对Logistic模型进行系数比较?在这一部分,笔者将介绍穆德(Mood,2010)对这一问题的阐释。他认为,根本问题在于未观测到的异质性(unobserved heterogeneity),即由未纳入模型的忽略变量(omitted variables)所引起的因变量变异情况。4
在一般的线性回归模型中,误差项往往被假定为服从均值为0,方差为某一常数的正态分布。所以线性回归的总方差是固定的,只要因变量不变,其相对于均值的总的离差平方和就不变。但是Logistic模型的总方差会随着自变量的加入或减少而变化。
首先,我们以潜变量的方式来看待二分变量。虽然观察到的因变量取值是1(成功)和0(失败),但可以假想因变量是未被观测到一种倾向性,即连续变量y*。当y* >0时,y = 1;当y* ≤0时,y=0。5以潜变量y*为因变量的模型如方程1所示,这和一般OLS模型是相同的,唯一的差别在于我们无法观测到因变量y*。在方程1中,y*的总方差由被解释的方差和未被解释方差两部分组成,但当我们用方程2来估计这一潜变量模型时,却把未被解释部分的方差(残差方差)设置为固定值。
为什么要把残差方差设为固定值?在线性回归模型中,因为因变量y是可观测的,所以可以对残差方差进行估计,但在二分因变量模型中,由于因变量y*是无法观测到的,所以必须对残差方差进行假定,否则方程就无法辨识(unidentified)(Long and Freese, 2001:102)。6之所以要对残差方差进行标准化,是因为二分因变量yi本身不含有尺度(标尺)信息,使方程中自变量系数βk的绝对大小不可确定,但它们之间的相对大小是可以被估计的(谢宇,2010:340)。在Logistic回归模型中,误差项被设定为服从标准Logistic分布,即残差的均值为0,方差为π2/3,约等于3.29。7
由于未被解释的残差方差被设定为固定值,所以,只要被解释的方差有所增长,那么因变量的总方差(及其标尺)就会相应增加。当因变量的标尺增加,b1也必然会增加。此时b1的大小不仅反映了x1的效应,也反映了模型中未被观测到的异质性程度。
$ y_i^* = \alpha + {x_{1i}}{\beta _1} + {\varepsilon _i} $ | (1) |
$ \ln \left[ {\frac{P}{{1 - P}}} \right] = a + {x_{1i}}{b_1} $ | (2) |
方程2左边的部分被定义为Logit,即发生比的自然对数(log odds)。为了方便接下来进行阐释,笔者把方程1写成方程3:
$ y_i^* = \alpha + {x_{1i}}{\beta _1} + \sigma {\varepsilon _i} $ | (3) |
与方程1相比,方程3把残差写作σεi,其中εi的方差固定为π2/3=3.29,而用σ进行调整,以使残差符合其真实的方差。由于σ无法被观测到,而且我们设定了εi的方差,因此Logistic模型方程2中的b1估计的其实是β1/σ (即方程3左右两边都除以σ),而非β1。8换言之,我们对真实的系数β1进行了调整,以使得残差方差等于标准Logistic分布的方差,即3.29。
为了进一步说明加入自变量对Logistic模型估计的影响,我们考虑存在忽略变量(omitted variable)x2的情况。假定真实的模型如方程4所示:
$ y_i^* = \alpha + {x_{1i}}{\beta _1} + {x_{2i}}{\beta _2} + \sigma {\varepsilon _i} $ | (4) |
其中,εi符合标准Logistic分布,方差为3.29(也即调整系数σ为1)。两个自变量x1和x2之间的关系如方程5所示:
$ {x_{2i}} = {\gamma _0} + {\gamma _1}{x_{1i}} + {v_i} $ | (5) |
其中γ0和γ1是需要估计的系数,vi是与方程4中的εi不相关的误差项。如果方程4忽略了x2,就会产生两个问题。一是估计偏误问题,把方程5带入到方程4中,得到x1的效应是“ β1+β2γ1 ”,即忽略x2情况下的β1也包含了x2的效应。9二是残差方差的增加问题。在方程4中,σ =1,即真实的残差方差就是3.29,那么b1估计的就是β1/σ = β1;但如果忽略了x2,真实的残差方差就变成了var (ε)+β22 var (v),这样
因此,如果我们从方程4中排除了x2,那么b1估计的就不是β1,而是如式6所示:
$ {b_1} = \left({{\beta _1} + {\beta _2}{\gamma _1}} \right)\left[ {\sqrt {3.29} /\sqrt {3.29 + \beta _2^2{\mathop{\rm var}} \left(v \right)} } \right] $ | (6) |
如果x1和x2不相关,那么式6就等于:
$ {b_1} = {\beta _1}\left[ {\sqrt {3.29} /\sqrt {3.29 + \beta _2^2{\mathop{\rm var}} \left({{x_2}} \right)} } \right] $ | (7) |
在线性回归模型中,如果忽略了与模型中与其他自变量无关的变量,就不会发生忽略变量偏误(omitted-variable bias),即对估计不会产生影响(谢宇,2010:105)。但由上述分析可知,在Logistic模型中,即使添加的变量与其他自变量无关,对系数估计也会产生影响。根据式7可知,这一问题会低估变量的效应(系数绝对值减小),而未被观测到的异质性大小取决于忽略变量的方差[var(x2)]及其对y的效应大小(β2)。
由于我们的模型所能解释的因变量变异的比例通常都不高,10即存在较多的忽略变量,所以,β22var(v)存在很大的增长空间,未被观测到的异质性问题始终萦绕不散。由式7可知,如果未观测的异质性与自变量无关,那么即使我们不知道未观测到异质性的大小,其影响方向也是可知的,即低估已有自变量的效应,因为调整系数σ >1。由于调整系数在同一模型中是固定的,所以它不会影响自变量效应的方向,以及同一模型中自变量效应之间的相对大小(Wooldridge,2002:470)。
因此,未被观测的异质性问题导致我们无法像线性回归那样对Logistic嵌套模型之间的系数直接进行比较。同样,我们也无法直接比较同一Logistic模型在不同群体中的效应,如比较同样一些因素对升学的效应是否存在男女差异、族群差异和时期差异。直接简单比较所隐含的假设是:不同的样本或同一样本的子群体之间具有相同的未观测到异质性。这是一个较强的假定,但往往不符合实际。
毋庸置疑,模型之间和样本之间某变量效应的比较是社会学定量研究关注的一个核心,不可能因为上述原因而放弃比较。一个便捷的替代选择是,尽量用连续性变量来替换二分类变量,但像升学、死亡之类的变量本身就是二分类的,没有连续性的变量可以替代。研究者针对这一问题已提出不少解决策略,虽然尚无定论,但都值得了解与借鉴。
三、应对策略 (一) 同一样本,不同模型之间的系数比较嵌套模型是定量研究中经常用到的分析策略,通过比较嵌套模型之间的系数,我们可以了解控制变量对核心自变量效应的影响。但在Logistic嵌套模型间的系数比较中,必须考虑标尺变化带来的影响。卡尔森等(Karlson, et al., 2013)指出,在比较嵌套模型的系数时,特定自变量的系数会受到其他自变量的“混杂效应”(confounding)和“标尺改变效应”(rescaling)两方面的影响。我们把方程3、方程4稍作更改(同时去掉了常数项,如方程3a、方程4a所示),分别称为“简化模型”(简称R)和“完全模型”(简称F)。11当x1和x2相关,且x2对y*存在独立效应时,就存在“混杂效应”。而“标尺改变效应”就是因上文所说的残差方差变化导致的问题,使得x1的系数在不同模型中并不遵循同一测量标尺。在嵌套模型比较中,我们真正感兴趣的是“混杂效应”,但由于观察到的系数差异还包含了“标尺改变效应”,所以直接比较可能会导致错误结论。
$ y_i^* = {x_{1i}}{\beta _{1R}} + {\sigma _R}{\varepsilon _i} $ | (3a) |
$ y_i^* = {x_{1i}}{\beta _{1F}} + {x_{2i}}{\beta _2} + {\sigma _F}{\varepsilon _i} $ | (4a) |
$ {b_{1R}} - {b_{1F}} = \frac{{{\beta _{1R}}}}{{{\sigma _R}}} - \frac{{{\beta _{1F}}}}{{{\sigma _F}}} \ne {\beta _{1R}} - {\beta _{1F}} $ | (8) |
其中, b是β的估计值。增加自变量后,残差方差一般会减小,即σR≥σF。所以如式8所示,一般而言,直接把两个嵌套模型系数相减得到的值会低估真正的“混杂效应”。
1. “y*标准化”“y*标准化”(y*-standardization)是针对上文提到的因变量的标尺不固定提出的。12温什普和迈耶(Winship and Mare, 1984:517)建议,可以把不同模型的系数估计值都根据潜在因变量的方差进行重新调整,那么系数在模型之间就可以比较了。具体而言,就是用系数除以各自模型潜在因变量的估计标准差SD(y*),然后进行比较。
$ SD\left({y*} \right) = \sqrt {{\mathop{\rm var}} \left({x'{\rm{b}}} \right) + {\mathop{\rm var}} \left(\varepsilon \right)} = \sqrt {{\mathop{\rm var}} \left({x'{\rm{b}}} \right) + 3.29} $ | (9) |
如式9所示(Karlson, et al., 2013:298;Long,1997:129),模型潜在因变量的估计标准差SD(y*)由两个部分组成:一是预测值的方差;二是残差的设定方差(3.29)。由于第二部分是固定的,所以模型间SD(y*)的差异就来自于第一部分。而第一部分预测值的方差又取决于模型所包含的自变量。如上文所述,当增加自变量时,预测值方差就会增加,导致潜在因变量的方差也相应增加。因此,“y*标准化”就是通过用系数除以y*标准差,即b/SD(y*),来减小预测值方差增加的影响,使系数表达出自变量变化一个单位,因变量变化多少个潜变量y*的标准差单位(standard-deviation-unit change in y*)。13需要注意的是,“y*标准化”方法仅适用于同一样本内不同模型之间的系数比较,因为我们不知道不同样本之间的未观测到异质性是否存在差异。在Stata软件中,在执行Logit模型命令之后运行“listcoef,std help”命令,可以直接输出y*标准化后的模型系数(Long and Freese, 2001:155)。
2. KHB分解
卡尔森等(Karlson, et al., 2013)提出了分解“混杂效应”和“标尺改变效应”的方法。KHB方法的核心是得到x2对x1回归后的残差
$ y_i^* = {x_{1i}}\beta _{1F}^* + {\widetilde x_{2i}}\beta _2^* + \sigma _F^*{\varepsilon _i} $ | (10) |
这两个等式的具体数学证明可参见卡尔森等(Karlson, et al., 2013:292)的研究,笔者在此仅进行简单阐释,帮助读者理解其基本逻辑。首先,由于
其次,从路径分析角度来看,方程4a和方程10的预测值是一样的。方程4a代表了x1对y*的直接效应和经过x2的间接效应,以及x2对y*的直接效应和经过x1的间接效应。方程10则代表了x1对y*的全部效应,和x2被x1线性解释以外的那部分变异(即
由于方程4a和方程10反映的同一个模型,所以它们不仅拥有相同的测量标尺,而且误差分布也相同。因此,β1F*和β1F的差异就是在控制标尺改变效应后的“混杂效应”。卡尔森等(Karlson, et al., 2013)提出了三种测量系数变化的指标:
(1) 差异测量:
$ b_{1F}^* - {b_{1F}} = \frac{{\beta _{1F}^*}}{{\sigma _F^*}} - \frac{{{\beta _{1F}}}}{{{\sigma _F}}} = \frac{{{\beta _{1R}}}}{{{\sigma _F}}} - \frac{{{\beta _{1F}}}}{{{\sigma _F}}} = \frac{{\left({{\beta _{1R}} - {\beta _{1F}}} \right)}}{{{\sigma _F}}} $ | (11a) |
(2) 比例测量:
$ \frac{{{b_{1F}}}}{{b_{1F}^*}} = \frac{{{\beta _{1F}}/{\sigma _F}}}{{\beta _{1F}^*/\sigma _F^*}} = \frac{{{\beta _{1F}}}}{{{\beta _{1R}}}} $ | (11b) |
(3) 百分比测量:
$ \frac{{b_{1F}^* - {b_{1F}}}}{{b_{1F}^*}} = \frac{{\left({\beta _{1F}^* - {\beta _{1F}}} \right)/{\sigma _F}}}{{\beta _{1F}^*/\sigma _F^*}} = \frac{{{\beta _{1R}} - {\beta _{1F}}}}{{{\beta _{1R}}}} \times 100\% $ | (11c) |
上述三种指标并无本质差异,只是以不同形式表达“混杂效应”的大小,选择何种指标取决于研究者表述的需要。差异测量(11a)是基于完全模型的标尺来测量“混杂效应”,与一般的Logit系数具有相同的性质。而比例测量(11b)和百分比测量(11c)都不受标尺的影响,因为它们本质上是比率,测量的是潜在倾向性的偏效应,而非Logit系数。
此外,还可以测量在控制“混杂效应”后的“标尺改变效应”。如式12所示,b1F*-b1F测量了“混杂效应”,而
$ \begin{array}{l} {b_{1R}} - {b_{1F}} = \frac{{{\beta _{1R}}}}{{{\sigma _R}}} - \frac{{{\beta _{1F}}}}{{{\sigma _F}}} = \frac{{{\beta _{1R}}}}{{{\sigma _R}}} - \frac{{\beta _{1F}^*}}{{\sigma _F^*}} + \frac{{\beta _{1F}^*}}{{\sigma _F^*}} - \frac{{{\beta _{1F}}}}{{{\sigma _F}}}\\ \;\;\;\;\;\;\;\;\;\;\;\; = \left({{b_{1R}} - b_{1F}^*} \right) + \left({b_{1F}^* - {b_{1F}}} \right) \end{array} $ | (12) |
卡尔森等(Karlson, et al., 2013)还发展出了统计量ZC,用以直接检验Logit系数改变量是否来自于控制“标尺改变效应”后的“混杂效应”。他们通过蒙特卡罗模拟数据分析指出,相比于“y*标准化”、APE和LPM三种方法,KHB方法的估计效果更好,结果更接近真实的系数差异。Stata软件中已经有khb命令可供使用。15
(二) 同一模型,不同组别或样本之间的系数比较对于不同群体或样本之间的Logistic模型系数比较,以往通常使用的方法有两种。一是使用交互项,即对特定的自变量和样本指示变量(indicator variable)进行交互,如果交互项系数显著,我们就认为该自变量的效应在两个样本间存在差异。二是对不同样本分别进行模型估计,然后进行Wald卡方检验(需要假定不同样本的系数服从独立的抽样分布),检验统计量如式13所示(Clogg,Petkova and Haritou, 1995)。其中,β1i和β2i分别代表两个样本的模型系数,SE(β1i)和SE(β2i)分别为其标准误,该统计量服从标准正态分布。
$ \frac{{{\beta _{1i}} - {\beta _{2i}}}}{{\sqrt {S{E^2}\left({{\beta _{1i}}} \right) + S{E^2}\left({{\beta _{2i}}} \right)} }} $ | (13) |
这两种方法都没有控制未观测到的异质性,其差别仅在于交互项检验假定其他变量对两个群体的作用是相同的。如果把所有解释变量都和指示变量进行交互,那就等同于分别在不同样本中进行模型估计,也即谢宇(2010:239)所说的“完全交互项”。但在Logit模型中,由于存在未观测到的异质性,模型系数并不代表真正的变量效应,因此难以在不同样本之间进行比较。这类似于在比较不同样本之间线性回归模型的标准化系数时所引发的问题(Allison,1999)。在讨论通径模型时,郭志刚(1999:157)指出,“标准化系数所反映的不仅是自变量对因变量的影响强度,而且还反映了模型中各变量的方差以及它们之间的协方差,甚至还反映了寓于误差项之内的未包括在模型中的那些变量的方差。16因此,标准化系数有特定样本的性质,不能用于不同情况或不同总体之间的比较”。譬如,在分析受教育年限对收入的影响是否存在性别差异时,我们应该比较教育变量的非标准化系数,因为在男女两个样本中,教育变量的测量都是基于同一标尺(受教育年限)。如果采用标准化系数,其测量标尺在男女两个样本中就可能存在差别。
上文已述,在Logit模型中,我们得到的系数已经用σ调整过了(如方程3和方程4所示),类似于线性回归模型中的标准化系数。如果两个样本的残差调整系数σ不同,那么这两个样本的模型系数所依据的标尺(残差标准差)就不同,所以无法直接进行比较。换言之,两个样本存在不同的未观测到异质性,即残差变异(residual variation)问题。霍特科(Hoetker,2004)的一系列模拟实验表明,即使样本间的残差方差只存在较小差异,直接用上述两种传统方法(交互项和卡方检验)来比较Logit系数仍然会带来很大偏差,有可能显示出根本不存在的差异,或掩盖真实的差异,甚至与真实差异相反。
埃里森(Allison,1999)利用一群生物化学家组成的样本(人年数据),探讨了性别对晋升副教授的影响。他分别对男性学者和女性学者进行Logistic模型估计后发现,论文数量对男性晋升的作用大约是女性的2倍。埃里森认为这一比较结果是不可靠的,因为女性比男性具有更异质化的职业发展模式,未观测变量对女性晋升的影响比男性更大。女性样本中的调整系数σ大于男性样本(σF>σM),根据式7可知,b= β/σ,所以,即使男女样本中各变量的真实效应βF和βM是相同的,我们所得到的女性样本系数bF也会小于男性样本系数bM,可见,未观测到的异质性对女性样本中论文系数的影响要大于男性。
埃里森(Allison,1999)提出一个颇为繁琐和复杂的程序来检测样本间Logistic系数是否存在差异,但一些模拟实验证明该程序只适用于部分情形。因为他的方法有两个重要前提假定:一是在检验残差方差是否相同时,需要假定两个样本的系数相同;二是在检验某变量系数存在差异时,需要假定在两样本之间至少有一个系数是相同的(Williams,2009:546),但实际情况经常不符合这两个假定。对于是否存在残差变异的初步判断,研究者可以参考埃里森(Allison,1999)提出的一个简便识别方法:如果一个群体的模型系数系统性和成比例的高于或低于另一个群体的系数,那就很可能就存在残差变异干扰。一般来说,当模型中加入较多的控制变量后,不同群体之间系数不可比较问题的严重性就会降低,因为未被观测到的异质性减小了(Allison,1999)。
1. 异质选择模型(heterogeneous choice model)威廉姆斯(Williams,2009)提出可以用异质选择模型来解决群体间Logit系数的比较问题,并认为埃里森(Allison,1999)的模型和豪斯等(Hauser and Andrew, 2006)的Logistic响应模型都是异质选择模型的子类型。异质选择模型也称位置标尺模型(location-scale model)。该模型不仅可以处理残差方差变异,还能处理其他来源的异方差(heteroscedasticiy)问题。
异质选择模型同时拟合两个方程,一个是选择方程(或位置方程),即传统的Logit模型估计;另一个是残差方差方程(或标尺方程),纳入那些会影响异方差性的变量,反映了潜在因变量在不同组别中是如何以不同标尺来测量的。异质选择模型的因变量可以是二分变量,也可以是定序变量。在因变量是二分变量的情况下,模型表达式如式14所示(这里使用的是转换的方式):
$ {\rm{Pr}}\left({{y_i} = 1} \right) = g\left[ {\frac{{{x_i}\beta }}{{\exp \left({{z_i}\gamma } \right)}}} \right] = g\left[ {\frac{{{x_i}\beta }}{{\exp \left({\ln \left({{\sigma _i}} \right)} \right)}}} \right] = g\left({\frac{{{x_i}\beta }}{{{\sigma _i}}}} \right) $ | (14) |
其中,g代表联结方程(本文中以Logit为例,但也可以是Probit、Complementary log-log、Log-log和Cauchit)。x是第i个观测的一组值,所有的x是决定选择结果的解释变量。z也是第i个观测的一组值,所有的z决定了群体之间在潜在因变量上的残差变异。z不仅可以包括性别、族群等分类变量,也可以包括与残差方差相关的连续变量。需要注意的是,z和x并不一定要包含相同的变量。17 β和γ是系数矩阵,它们分别表示x如何影响选择结果、z如何影响方差(更准确地说是调整系数σ的自然对数)。在式14中,分子被称为选择方程,分母被称为方差方程。简单来说,异质选择模型就是在控制残差变异情况下来估计Logit模型。
但异质选择模型并非灵丹妙药,如果模型设置错误(包括选择方程和方差方程),该模型仍有可能导致错误的结果。所以威廉姆斯(Williams,2009)建议研究者同时估计控制和未控制异方差性的模型,然后仔细考虑模型结果之间的差异是否由模型设置错误而引发。在Stata软件中可以用oglm(Ordinal Generalized Linear Model)命令对该模型进行估计(Williams,2010)。
2. 平均偏效应(APE)在Logit模型中,除了报告发生比率(odds ratio)之外,研究者也可以报告事件发生的概率(probability)预测值和自变量变化所引起的概率变化量(Petersen,1985)。如果要考察变量对结果变量发生概率的影响,首先需要对概率和Logit进行转换,两者关系是Logistic累积分布方程(CDF):
$ F\left({\beta {x_i}} \right) = \frac{{\exp \left({\beta {x_i}} \right)}}{{1 + \exp \left({\beta {x_i}} \right)}} $ |
其中βxi是第i个观测的Logit值。Logistic CDF的斜率就是Logistic概率分布方程(PDF),表达式如下:
$ f\left({\beta {x_i}} \right) = \frac{{\exp \left({\beta {x_i}} \right)}}{{{{\left[ {1 + \exp \left({\beta {x_i}} \right)} \right]}^2}}} $ |
CDF给出的是yi=1的概率P(yi=1),而特定取值P(yi=1)上的PDF则等于P(yi=1)×[1-P(yi=1)]。发生比率表示某自变量对Logit的影响是乘以一个恒定值,但自变量对因变量发生概率的影响却不能如此直观的表述。我们只能报告概率的变化,相关的指标包括“边际效应”(Marginal Effects,简称MFX)、“平均边际效应”(Average Marginal Effects,简称AME)和“平均偏效应”(Average Partial Effects,简称APE)。“边际效应”测量的是在x某一特定取值附近的成功概率的变化率,所以“边际效应”会随着x的取值变化而变化(鲍威斯、谢宇,2009:56-57)。Logit模型中x1的“边际效应”(MFX)是:
$ f\left({\beta {x_i}} \right){\beta _1} = \frac{{\exp \left({\beta {x_i}} \right)}}{{{{\left[ {1 + \exp \left({\beta {x_i}} \right)} \right]}^2}}}{\beta _1} $ | (15a) |
其中,β1是变量x1的发生比率对数(log odds-ratio)的估计值,βxi是第i个观测的Logit值,f(βxi)是βxi的Logistic分布的概率分布方程(PDF)。计算x1的“边际效应”时,需要把所有其他变量固定在某些取值上,一般选取均值(Mood,2010:75)。
未观测到的异质性会低估变量效应(即系数绝对值减小,如式7所示),但概率值则向0.5变化,导致P(yi=1)×[1-P(yi=1)]的值向其最大值0.25变动,所以概率变动值可以部分抵消对系数的低估。因此,研究者建议使用“平均偏效应”(APE)进行模型间、样本间的系数比较,因为它几乎不受与自变量无关的未观测异质性影响(Cramer,2007)。APE的表达式如式15b所示,计算的是x1取特定值或特定区间内,“边际效应”的平均数。譬如,我们可以取均值左右0.01个标准差范围的个案来计算APE。因此,APE本质上是“边际效应”在样本中的加权平均数,与“边际效应”一样,APE也会随着x1取值的变化而变化,从而体现分布的非线性特征。
$ \frac{1}{N}\sum\limits_{i = 1}^N {f\left({\beta {x_i}} \right){\beta _1} = \frac{1}{N}\sum\limits_{i = 1}^N {\frac{{\exp \left({\beta {x_i}} \right)}}{{{{\left[ {1 + \exp \left({\beta {x_i}} \right)} \right]}^2}}}} } {\beta _1} $ | (15b) |
虽然卡尔森等(Karlson, et al., 2013)认为APE的效果不如KHB好,但APE的优势在于不仅适用于嵌套模型间的系数比较,也适用于不同样本之间的系数比较,并且其解释是基于概率的,更易为读者理解。Stata软件中可用margeff命令计算APE,默认报告的是根据x1所有取值计算得到的APE值。18
3. 线性概率模型(LPM)最后介绍的方法是线性概率模型(Linear Probability Model,简称LPM),即运用线性回归来分析二分因变量。这一方法的争议颇多,因为Logit模型或Probit模型的合法性就是部分地建立在批判LPM之上的。从回归角度引介Logistic模型时,往往会指出,如果因变量是二分变量,不可以用线性回归进行估计,主要原因有三:首先,这违背了多元回归的假设,尤其是不同自变量的误差具有相同方差这一假设,即方差齐性(homoscedasticity);其次,预测值通常会超过符合逻辑的概率范围(0-1),即预测值取值范围的荒谬性;第三,模型设置错误,因为变量间关系不是线性的(郭志刚,1999;谢宇,2010:332)。
针对方差齐性问题,可以采用加权最小二乘法(Weighted Least Squares)或异方差稳健标准误(Heteroscedasticity-robust Standard Errors)来处理(鲍威斯、谢宇,2009:34;Mood,2010)。对于预测值超出[0,1]范围的取值荒谬性问题,谢宇(2010:338)认为是线性模型处理二分因变量存在的最大问题,温什普和迈耶(Winship and Mare, 1984:514)也认为这是更青睐Logit模型和Probit模型的原因。但朗(Long,1997)指出,在非二分因变量的线性回归中,预测值超出可能范围的情况并不鲜见,因此只要小于0和大于1的预测值数量不是太多,就不是一个太严重的问题。穆德(Mood,2010)认为只有第三个才是最严重的、目前难以解决的问题。LPM模型与Logit模型的最大区别在于,LPM模型假定连续自变量的“边际效应”(Marginal Effect)为常数,而Logit模型意味着偏效应的大小是递减的(伍德里奇,2003:520)。如果非线性很重要,那么LPM模型可能就会使读者对变量关系理解有误。但其优点在于系数比较更容易,系数理解更直观,因此研究者在实际分析中需要权衡利弊。
穆德(Mood,2010)建议,在需要进行嵌套模型间系数比较时,线性概率模型不失为一个值得考虑的选择。19如伍德里奇(2003:519)对已婚妇女的劳动力市场参与数据的分析分别运用了LPM模型、Logit模型和Probit模型,结果发现三个模型的结论一致,即每个模型所得到的系数符号都相同,而且具有统计显著性的变量也相同。卡尔森等(Karlson, et al., 2013)的模拟数据分析也表明,与简单直接比较Logit系数相比,LPM模型系数比较更接近真实的差异。
四、实例:教育递进率模型在这一部分,笔者以教育递进率模型为例,考察不同方法对估计结果的影响。教育递进率模型由迈耶(Mare,1980;1981)首次提出,但该模型不仅存在内生选择性问题,其教育转折方程的残差也不同,因而存在“标尺效应”问题,导致不同转折点方程中的系数相互之间无法直接进行比较(Holm and Jæger,2011)。本文使用CGSS2006数据分析同期群变量对被访者升学进入高中的影响,20同时控制性别、父母的职业(ISEI)和家庭藏书量。为了便于比较,我们选取了20—39岁的达到初中毕业水平的被访者,共3 132人。这些样本被划分为两个同期群,年轻的同期群(20—29岁)1 471人,年长的同期群(30—39岁)1 661人,变量描述统计见表 1。
数据分析分两个部分。第一部分通过嵌套模型来考察同期群效应是否会因为加入父母职业(ISEI)和家庭藏书量变量之后而发生变化。在嵌套模型比较中,运用Logistic模型简单比较、LPM(线性概率模型)简单比较、APE、“y*标准化”和KHB分解五种方法来考察同期群变量系数在两个嵌套模型之间的变化幅度。第二部分考察父母职业在不同的同期群中的效应是否存在差异,我探讨了Logistic简单比较(包括分群体模型和交互项分析)、LPM简单比较、APE比较和OGLM比较(异质选择模型)这四种方法得出的结果是否存在差异。
(一) 同期群的影响表 2的第一部分报告了Logistic模型和线性概率模型的估计结果。根据Logistic模型,直接比较简化模型R1和完全模型F1的年轻同期群变量(coh)系数,在加入新变量之后,coh系数降低了12.4% [(0.573-0.502)/0.573]。运用LPM方法,直接比较线性简化模型L1和线性完全模型L2的coh系数,该系数降低了14.7%[(0.136-0.116)/0.136]。然而,如表 2第二部分所示,利用“y*标准化”方法,得到模型R1和F1的潜变量估计标准差SD(y*)分别是1.837和2.147,Beta/SD(y*)减小了预测值方差增加的影响,那么从模型R1到F1,coh系数下降了25.1% [(0.312-0.234)/0.312]。
如表 2第三部分所示,运用KHB分解方法,coh系数降低了26.5%[(0.683-0.502)/0.682]。这里简化模型的同期群变量系数变成了0.683,比Logistic模型R1中的系数(0.573)大。这是因为KHB报告的系数是以完全模型F1的残差方差标尺来衡量的,21由于完全模型的残差方差增加了[“y*标准化”中的SD(y*)值揭示了相同的现象],因此, 若以F1模型的残差方差为标尺,简化模型的系数就会有所增加。根据表 2第四部分所示,从模型R1到F1,coh系数的APE值下降了16.5%[(0.127-0.106)/0.127]。可见,“y*标准化”和KHB分解这两种方法得到的结果基本吻合;无论是Logistic模型还是线性模型,简单的直接比较都低估了系数的改变程度。APE改变量虽然大于简单直接比较,但仍存在严重低估的问题。可能的原因在于,APE可用于模型间比较的一个前提假定是新加入自变量与核心自变量不相关(Cramer,2007),在本例中,即需要假定父母职业和家庭藏书量变量与同期群变量不相关,但方差分析显示父母职业和家庭藏书量两个变量在同期群之间均存在显著差异,不符合独立不相关假定。所以, 笔者建议研究者在比较Logit模型间系数时应进行y*标准化或KHB分解处理。
在嵌套模型的系数比较中,当完全模型的系数小于简化模型系数时,直接比较一般会低估减少量(如式8所示)。因此,如果简单直接比较显示差异显著,“标尺改变效应”就不会影响差异显著这一结论。但是,如果完全模型系数大于简化模型系数,就需要特别注意。我们往往会认为新加入变量抑制了核心自变量的效应,但这很可能是由于标尺改变导致系数的增加,使系数变化改变了方向,所以,在这种情况下,一定要进行“y*标准化”或KHB分解处理,避免得出错误的结论。
(二) 父母职业地位影响在同期群间的差异表 3呈现了样本间系数比较的Logistic、OGLM和LPM三种估计方法。模型F2中,母亲职业与同期群交互效应显著,表明在年轻同期群中,母亲职业对高中升学的影响更大。同样,直接比较两个分组模型的母亲职业系数,统计检验(方程13)表明两个同期群之间也存在显著差异。22但在模型O2中,考虑了残差的未观测异质性之后,交互效应就不显著了,即母亲职业的影响在两个同期群之间没有呈现显著差异。
如表 3所示,OGLM不仅报告了选择方程的估计结果(等同于Logistic方程的估计结果),还报告了方差方程的结果,即ln(sigma)值。模型O1的方差方程中的同期群系数表明,年轻同期群的残差标准差是年老同期群的75.2%[exp(-0.285)]。但模型O2的方差方程中的同期群系数不显著。这说明不同的同期群具有不一样的升学模式,例如,1999年的高校扩招影响到部分年轻同期群升入高中的机会和决策。
比较OGLM(O2)和线性概率模型(L3)这两个完全模型,我们可以发现系数的方向和显著性都一致,也即基本结论相同。在Logistic模型(F2)中,18岁时母亲职业与同期群的交互项具有显著性,但在OGLM(O2)和LPM(L3)中,该交互项都不具有显著性。因此,如穆德(Mood,2010)所言,在二分因变量模型中,线性概率模型有其自身的优势,是一个值得考虑的选择。如表 4所示,根据APE值所得到的结论一方面与直接比较Logistic模型(F2)系数所得到的结论接近,即母亲职业与同期群的交互项是显著的。另一方面,APE值的结果显示即使纳入交互项,同期群之间仍存在显著差异,与OGLM模型的结论接近。
模型F2是常用的交互项检验组际差异的方法,但交互项检验并没有考虑可能存在的未观测到异质性情况,而是假定两个同期群具有相同的残差方差。由于简化模型O1表明不同同期群的残差方差显著不同,但纳入交互项之后,模型O2的方差方程中的同期群系数变得不显著了。比较模型O2和模型F2中的系数,可以发现当考虑同期群的残差变异问题后,父母亲的职业变量都没有什么变化,最大的变化在于同期群变量和同期群与母亲职业的交互项。这是否表明加入交互项之后不存在残差变异问题了呢?这时需要考虑哪个模型最好地呈现了数据的情况,即进行模型选择。模型检验的指标都倾向于OGLM简化模型O1。从模型卡方来看,模型F2和O2分别比模型O1多1个和2个自由度,但是卡方增加值却很小,都不显著。就BIC而言,模型O1的BIC值比模型F1和O2要低不少。因此,OGLM简化模型O1是最好的,它表明在控制残差变异之后,母亲职业与同期群变量不存在显著的交互效应,而同期群之间存在显著差异。
所以, 在实际分析中, 应该遵循威廉姆斯(Williams,2009)的建议,即同时估计没有控制异方差和控制异方差的模型,比较两者的结果是否存在差异,并进行模型选择。而更重要的则是探究这种异方差产生的原因,这有利于我们加深对研究主题的理解,甚或打开一个新的解释路径。
五、小结本文简述了Logistic模型的系数比较问题,并介绍了学者提出的五种解决策略。由于存在未被观测到的异质性及相应的标尺改变问题,Logistic模型的模型间系数比较和组间系数比较不同于线性回归,不能像线性回归那样进行简单的直接差异比较。其他的Logit模型和Probit模型存在的问题和解决策略都和本文所介绍的内容基本相同,读者可参考推广。
表 5列举了二分因变量模型中系数比较的6种方法,其中发生比率(或发生比率的自然对数)是研究者常用的,但在诸多方法中,传统的Logistic系数直接比较法带来的偏误最大。在同一样本的嵌套模型比较中,当混杂效应越大时,传统直接比较法导致的偏误就越大(Karlson, et al., 2013)。“y*标准化”和KHB分解适用于模型间比较,但不适用于样本间比较。异质选择模型适用于样本间比较,但不适用于模型间比较。平均偏效应和线性概率模型可以进行模型间和群体间比较,但两者的假定都是线性模型,平均偏效应只有在不同的点取值才能体现出非线性,因此不能很好的拟合数据和反映数据的特征。上述这些方法可能使Logistic模型的系数比较变得更为繁琐,有时甚至难以进行比较,但正如霍特科(Hoetker,2004)所言,这虽然令人沮丧,但总胜过得到虚假结果。希望本文所介绍的方法对研究者有所裨益,以便于更好地理解多样化的社会群体和纷繁的社会现象。
1. 为了行文方便,下文把这两类比较分别简称为“模型间系数比较”和“样本间系数比较”。
2.谢宇(2010:335-336)把“odds ratio”译为“发生比率比”,本文在此延续郭志刚(1999)一书中的简洁译法,仍把“odds”译为“发生比”,把“odds ratio”译为“发生比率”。
3.从回归视角引介的例子包括郭志刚(1999)和谢宇(2010),有关列联表视角的讨论可参见鲍威斯、谢宇(2010:30-35)和唐启明(2012:288-289)的研究。
4.这一问题也被称做“残差变异”(residual variation)。对Probit模型中的这一问题分析,可参见伍德里奇(Wooldridge,2002:470-472)的研究。
5.转换(transformation)视角和潜变量视角是理解分类变量的两种主要路径(鲍威斯、谢宇,2009)。
6. “可辨识”是指如果根据充分或完备的观测数据能确定方程参数的唯一解,那么方程就是可辨识的,需要注意的是,辨识问题不是统计推论问题,和抽样无关,而是模型设置问题(贝里,2012:26-27)。
7.在Probit模型中,残差被设定为服从均值为0,方差为1的标准正态分布。有关潜变量的线性模型与非线性概率模型之间的对应关系可参见朗和弗瑞斯(Long and Freese, 2001:100-103)的研究。
8.因此,穆德(Mood,2010)强调,Logistic模型中估计出来的系数并不代表参数的真正效应。但这一问题在应用中并不严重,因为在非线性模型中,我们想要知道的往往是偏效应(partial effect),而非参数本身。所以对于需要确定解释变量效应的方向以及不同变量效应的相对大小而言,β/σ和β的效果是一样的(Wooldridge,2002:470;Cramer,2007)。但在比较不同样本间的Logit系数时,β/σ问题就显得至关重要。
9.当x1和x2相关时,这一问题在线性回归中也同样存在。
10.在一般线性回归中,相对应的是R2往往并不高,表明模型并未包含所有解释因变量变异的解释变量。
11.这里的简化模型和完全模型相当于谢宇(2010:138)所说的限制性模型和非限制性模型。
12.在此我们采用唐启明(2012:327)“y*标准化”的提法,以区别于线性回归模型中的“y标准化”。
13.标准化的另一原因在于潜在因变量本身没有量测单位,因而非标准化系数的大小没有意义(唐启明,2012:327)。
14.有关残差与偏回归估计的内容可参见谢宇(2010:149-152)的研究。
15.有关khb命令的描述可参见:http://fmwww.bc.edu/RePEc/bocode/k/khb.html,以及科勒等(Kohler,Karlson and Holm, 2011)的研究。
16.这等同于本文所说的未观测到的异质性。
17.一般来说,在实际研究中,z所包含的变量相对较少。Stata软件中oglm命令适用stepwise筛选功能,即只把那些显著影响残差变异的变量保留在方差方程中。
18.也即克瑞默(Cramer,2007)所说的ASE。margeff命令也可以计算在某些固定值(比如均值)上的偏效应。
19.在讨论序次因变量时,唐启明(2012:332)指出常规最小二乘法也是一种选择。在实际研究中,很多学者会用线性回归方法来分析序次因变量(胡安宁,2014;Wang and Xie, 2014)。
20. "b中国人民大学中国调查与数据中心中国综合社会调查项目2009" CGSS2006数据由中国人民大学社会学系与香港科技大学社会科学部联合实施,数据抽样方案详见《中国综合社会调查报告(2003-2008)》(中国人民大学中国调查与数据中心中国综合社会调查项目,2009)。
21.因此,针对同一个简化模型,如果采用了两个不同的完全模型,那么简化模型在两次KHB分解之后得到的两套系数是不同,因为所采取的衡量标尺是根据不同的完全模型而得到的。这和简单的嵌套模型比较不同,研究者需要注意。
22.限于篇幅,本文并未报告分同期群的Logistic模型结果。感兴趣的读者可向作者索取。
[] |
鲍威斯、谢宇. 2009. 分类数据分析的统计方法[M]. 任强, 等, 译. 北京: 社会科学文献出版社.
|
[] |
贝里, 威廉·D. 2012. 非递归因果模型[M]. 洪岩璧、陈陈, 译. 上海: 格致出版社.
|
[] |
郭志刚. 1999. 社会统计分析方法. 北京: 中国人民大学出版社.
|
[] |
胡安宁. 2014. 教育能否让我们更健康.
中国社会科学, 11061106(5): 116-130.
|
[] |
唐启明. 2012. 量化数据分析: 通过社会研究检验想法[M]. 任强, 译. 北京: 社会科学文献出版社.
|
[] |
伍德里奇, J. M. 2003. 计量经济学导论[M]. 费剑平、林相森, 译. 北京: 中国人民大学出版社.
|
[] |
谢宇. 2010. 回归分析. 北京: 社会科学文献出版社.
|
[] |
中国人民大学中国调查与数据中心中国综合社会调查项目. 2009. 中国综合社会调查报告(2003-2008). 北京: 中国社会出版社.
|
[] |
Allison Paul D.. 1999. Comparing Logit and Probit Coefficients Across Groups..
Sociological Methods & Research, 28(2): 186-208.
|
[] |
Clogg Clifford C., Eva Petkova, Adamantios Haritou. 1995. Statistical Methods for Comparing Regression Coefficients Between Models..
The American Journal of Sociology, 100(5): 1261-1293.
DOI:10.1086/230638
|
[] |
Cramer J.S.. 2007. Robustness of Logit Analysis: Unobserved Heterogeneity and Mis-Specified Disturbances..
Oxford Bulletin of Economics and Statistics, 69(4): 545-555.
DOI:10.1111/obes.2007.69.issue-4
|
[] |
Hauser Robert M., Megan Andrew. 2006. Another Look at the Stratification of Educational Transitions: The Logistic Response Model with Partial Proportionality Constraints..
Sociological Methodology, 36(1): 1-26.
DOI:10.1111/j.1467-9531.2006.00172.x
|
[] |
Holm Anders, Mads Meier Jæger. 2011. Dealing with Selection Bias in Educational Transition Models: The Bivariate Probit Selection Model..
Research in Social Stratification and Mobility, 29(3): 311-322.
DOI:10.1016/j.rssm.2011.02.002
|
[] |
Hoetker, Glenn. 2004. "Confounded Coefficients: Extending Recent Advances in the Accurate Comparison of Logit and Probit Coefficients Across Groups. " Working Paper, Oct. 22, 2004. University of Illinois at Urbana-Champaign. (www.public.asu.edu/.../research/Hoetker_confounded_wp.pdf).
|
[] |
Hosmer David W., Stanley Lemeshow. 2000. Applied Logistic Regression. New York: John Wiley & Sons.
|
[] |
Karlson Kristian B., Anders Holm, Richard Breen. 2013. Comparing Regression Coefficients Between Same-sample Nested Models Using Logit and Probit: A New Method..
Sociological Methodology, 42(1): 286-313.
|
[] |
Kohler Ulrich, Kristian B.Karlson, Anders Holm. 2011. Comparing Coefficients of Nested Nonlinear Probability Models..
The Stata Journal, 11(3): 420-438.
|
[] |
Long Scott J.. 1997. Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks: Sage Publications.
|
[] |
Long Scott J., Jeremy Freese. 2001. Regression Models for Categorical Dependent Variables Using Stata. Texas: Stata Press.
|
[] |
Mare Robert D.. 1980. Social Background and School Continuation Decisions..
Journal of the American Statistical Association, 75(370): 295-305.
DOI:10.1080/01621459.1980.10477466
|
[] |
Mare Robert D.. 1981. Change and Stability in Educational Stratification..
American Sociological Review, 46(1): 72-87.
DOI:10.2307/2095027
|
[] |
Mood Carina. 2010. Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It..
European Sociological Review, 26: 67-82.
DOI:10.1093/esr/jcp006
|
[] |
Petersen Trond. 1985. A Comment on Presenting Results from Logit and Probit Models..
American Sociological Review, 50(1): 130-131.
DOI:10.2307/2095348
|
[] |
Wang Jia, Yu Xie. 2015. Feeling Good About the Iron Rice Bowl: Economic Sectors and Happiness in Post-Reform Urban China..
Social Science Research, 53: 203-217.
DOI:10.1016/j.ssresearch.2015.05.008
|
[] |
Williams Richard. 2009. Using Heterogeneous Choice Models to Compare Logit and Probit Coefficients Across Groups..
Sociological Methods & Research, 37(4): 531-559.
|
[] |
Williams Richard. 2010. Fitting Heterogeneous Choice Models with Oglm..
The Stata Journal, 10(4): 540-567.
|
[] |
Winship Christopher, Robert D.Mare. 1984. Regression Models with Ordinal Variables..
American Sociological Review, 49(4): 512-525.
DOI:10.2307/2095465
|
[] |
Wooldridge Jeffrey M.. 2002. Econometric Analysis of Cross Sectional and Panel Data. Cambridge: MIT Press.
|