文章快速检索     高级检索
  南方经济  2017, Vol. 36 Issue (5): 66-82  
0

引用本文 

江求川. 中国代际收入流动性估计:基于随机系数模型[J]. 南方经济, 2017, 36(5): 66-82.
Jiang Qiuchuan. Estimation of Intergenerational Income Mobility in China: Based on Random Coefficient Model[J]. South China Journal of Economics, 2017, 36(5): 66-82.

基金项目

国家社科基金项目"中国收入差距的机会不平等测度与对策研究"(编号:15CJL016)的阶段性成果。作者感谢匿名评审专家对本文提出的宝贵意见,文责自负

作者简介

江求川, 郑州大学商学院, E-mail:jqchuan@zzu.edu.cn, 通讯地址:河南省郑州市科学大道100号附1号郑州大学商学院, 邮编:450000
中国代际收入流动性估计:基于随机系数模型
江求川     
郑州大学商学院
摘要:文章利用1989-2011年的中国健康与营养调查(CHNS)数据对中国的代际收入流动进行了分析。在充分控制生命周期偏误的前提下,文章通过构建随机系数模型进一步修正了模型设定偏误对估计结果的影响。实证结果表明,全国总体的代际收入弹性为0.6左右,农村内部为0.7左右,城市内部为0.5左右。我们发现,生命周期偏误倾向于导致低估代际收入弹性,但模型设定偏误对估计结果的影响方向并不确定。由于解决生命周期偏误的措施无法解决模型设定偏误,以住的研究有可能低估农村的代际流动,高估城市的代际流动。
关键词代际收入流动    控制函数    随机系数模型    
Estimation of Intergenerational Income Mobility in China: Based on Random Coefficient Model
Jiang Qiuchuan
Abstract: This paper investigates intergenerational income mobility in China using 1989-2011 household survey data from China Health and Nutrition Survey. We restrict the age of father and son and add polynomial of age and use Ⅳ estimation to control life-cycle bias. After that, in order to overcome the effect of model specification error, we build a random coefficient model for individual income. We estimate the model using control function method and treat the average effect of father's income as intergenerational income elasticity. The results show that the intergenerational elasticity is around 0.6 for the overall sample, 0.5 for urban and 0.7 for rural. The results also indicate that life-cycle bias may cause downward estimation. However, the method trying to eliminate life-cycle bias cannot eliminate specification error at the same time. This means standard specification of intergenerational income mobility model will have specification error and the estimate of intergenerational income elasticity will be inconsistent. According to our results, we thought there may be a down ward bias on intergenerational income elasticity in rural and a upward bias on intergenerational income elasticity in urban in previous research.
Key Words: Intergenerational Income Mobility    Control Function    Random Coefficient Model.    
一、 引言

收入流动是反映收入分布特征的重要方面,包括代内(intragenerational)和代际(intergenerational)的收入流动。代际收入流动反映的是父辈的永久收入对子辈永久收入的影响。与收入差距所反映的静态收入分布特征不同,代际收入流动揭示出收入分布的动态演变过程,代际收入流动性越强表明一个社会的机会公平程度越高,因此,较强的代际收入流动是社会进步的体现(Jantti and Jenkins, 2015)。

① 代内收入流动指的是同一代人在不同时点上的收入排序变动。代内流动与个人的努力程度和面临的收入风险有关,低收入群体的收入向上流动是收入差距缩小的重要途径(Jantti and Jenkins, 2015)。

早期的理论研究表明,父辈收入影响子辈收入的机制包括基因遗传和对子辈的人力资本投资(Becker and Tomes, 1979)。早期的实证分析表明,美国的代际收入弹性大约为0.2(Behrman and Taubman, 1985)。这一结论支持了美国是一个“机遇之地”的观点。然而,1990年代以后,学者们开始对前人的研究提出质疑。这些质疑主要基于两点理由:一是存在生命周期偏误,因为利用短期收入作为永久收入的代理变量会引入测量误差进而导致OLS估计存在偏差(Solon,1992);二是存在模型设定偏误,因为前期的研究假定父辈与子辈的收入是线性关系,而代际收入流动有可能是非线性的(Bratsberg et al., 2007)。针对生命周期偏误的常见解决方案有三种。一是为父辈收入寻找合适的工具变量(Solon,1992Dearden et al., 1997)。二是利用多期的收入平均值作为永久收入的代理变量以减少测量误差对估计结果的影响(Solon,1992Nybom and Stuhler, 2016)。三是利用最能反映永久收入的某些时点收入作为永久收入的代理变量(Gouskova et al., 2010Nybom and Stuhler, 2016)。针对关于子辈收入的非线性关系可以用分位数回归解决(Schnitzlein,2016亓寿伟,2016)。针对关于父辈收入的非线性关系可以用分样本回归(Bratsberg et al., 2007)或控制函数方法(Murtazashvili,2012)。

① 本文所说的“测量误差”是指无法精确地观测到永久收入。即便是精确地观测到短期收入,但由于这些收入不等同永久收入,我们仍用“测量误差”来表示。生命周期偏误是指不同的短期收入代理永久收入的效果不同。

中国收入差距的扩大,尤其是近几年有关“二代”问题和机会公平问题的凸显,进一步激发学者们对代际流动问题的关注王海港(2005)周兴、张鹏(2013)邸玉娜(2014)等的研究发现,中国的代际收入弹性大约在0.12-0.42之间。但这些文献均是利用短期收入作为永久收入的代理变量,因此估计结果可能存在偏差。最近的研究开始更多地关注代际收入弹性的估计误差问题。王美今、李仲达(2012)何石军、黄桂田(2013)都将CHNS(1989-2009) 数据分成两段,利用较新的几轮调查数据计算子代收入,利用较早的几轮调查数据计算父代收入,以尽可能合理地反映两代人的永久收入,从而减少估计偏差。胡洪曙、亓寿伟(2014)的处理方式是将子辈年龄限制在20-45之间。韩军辉、龙志和(2011)和Deng et al.(2013) 不仅考虑了样本年龄的选择问题还考虑了职业选取和同住的内生性等因素导致的样本选择偏误对估计结果的影响。Gong et al.(2012) 借助双样本两阶段最小二乘法估计出父辈永久收入的拟合值,以此为基础得到的代际收入弹性为0.63

② 中国居民收入的代内流动问题也是近些年比较受关注的话题,限于篇幅,本文没有列举这一类文献。

③ 另外一些文献也涉及到代际流动的估计,但这些文献的重点是由分析代际传递的内在机制(陈琳和袁志刚,2012陈琳,2015Yang and Qiu, 2016Qin et al., 2016)。

总体来看,现有文献虽然对中国代际收入流动问题进行了有益的探讨,但给出的结论仍然比较模糊。就其原因来看,有以下两点:一是数据来源不同,尤其部分研究使用的是截面数据,只能用短期收入作为永久收入的代理变量,导致估计偏误较大;二是虽然大部分研究都意识到样本年龄的选取对估计代际弹性至关重要,但实证中各个研究的样本年龄选取却相差甚远。考虑到中国在社会转型的过程中,不同人群的收入生命周期分布特征不同。关于样本年龄的筛选并不能单纯地借鉴国外经验。在无法准确估计中国居民收入的生命周期特征的情况下,应该采用多种年龄筛选方式提高结果的稳健性。此外,近期的研究主要将焦点放在处理生命周期偏误上,却忽略了代际收入流动有可能是非线性的。部分文献虽然考虑了关于子代收入的非线性问题(亓寿伟,2016),但关于父辈收入的非线性问题却鲜有研究。Fan(2016)虽然意识到父辈属于不同的收入阶层时代际收入弹性会有差异,但并没有考虑这种非线性关系对总体代际收入弹性估计的影响。

④ 在本文的评审过程中,我们按照评审专家的意见对各个研究的具体方法进行了仔细对比,结果发现既有文献关于样本年龄的选取均不相同,且差异较大。

⑤ 感谢评审专家指出这一问题。

为此,本文在现有研究的基础上,从两个方面进一步延伸中国代际收入流动问题的研究。首先,由于缺乏优质的长期面板数据,本文采取三种方式缓解生命周期偏误对估计的影响:一是沿用以往文献的做法,在样本筛选时对子辈和父辈的年限进行限制,尽可能选择能够代表永久收入的年龄段收入,并用多种选择方式提高结果的稳健性;二是对标准的代际收入流动方程进行扩展,引入了子辈年龄和父辈年龄的多项式控制估计偏误;三是采用Ⅳ估计方法。通过以上三种方式的结合,本文能够最大程度上提高估计结果的精确性。其次,代际收入流动可能与家庭特征有关,这会导致不同的家庭具有不同的代际流动,这种代际流动的异质性有可能表现为代际流动关于父辈的收入是非线性的。为了反映这种异质性,本文将代际流动方程设定为一个随机系数模型,并用Wooldridge(20032015)提出的随机系数模型的工具变量估计方法和控制函数估计方法进行估计。

我们的结论表明,中国的代际收入流动关于父代的收入存在显著的非线性关系。由于解决生命周期偏误的措施无法解决非线性关系引发的模型设定偏误。所以,这种非线性问题会导致代际收入流动估计出现偏差。利用控制函数方法估计修正后的模型发现,全国总体的代际收入弹性为0.6左右,农村内部为0.7左右,城市内部为0.5左右。

二、 模型设定

假定子代和父代永久收入的对数分别为Yc和Yo。标准的代际收入流动估计方程为

${{\rm{Y}}_{{\rm{ci}}}} = {\alpha _0} + \beta {Y_{{\rm{o}}i}} + {\varepsilon _i}$ (1)

β被称为代际收入弹性,是反映代际收入流动的最常用指标。式(1) 没有加入其他控制变量,这样可以保证β涵盖所有父代收入与子代收入相关的信息,这种相关性源于能力遗传、父代对子代的人力资本投资、家庭环境影响等多种因素。

(一) 生命周期偏误及修正方法

精确的永久收入是很难观测到的,实证分析中往往观测到的是父代在某个(或几个)时点s上的收入Yois和子代在某个(或几个)时点t上的收入Ycit,假定

${{\rm{Y}}_{cit}} = {\lambda _c}{Y_{ci}} + {\varepsilon _{cit}}$ (2)
${{\rm{Y}}_{{\rm{o}}is}} = {\lambda _o}{Y_{oi}} + {\varepsilon _{ois}}$ (3)

其中,εoisεcit不相关并且都和Yci与Yoi不相关。利用Yois和Ycit分别作为父代永久收入和子代永久收入的代理变量估计式(1) 可以得到

$plim({{\hat \beta }_{OLS}}) = \frac{{{\rm{cov}}({Y_{cit}},{Y_{{\rm{o}}is}})}}{{{\rm{var}}({Y_{{\rm{o}}is}})}} = \beta \frac{{{\lambda _{\rm{o}}}{\lambda _c}{\rm{var}}({Y_{oi}})}}{{\lambda _c^2{\rm{var}}({Y_{oi}}) + {\rm{var}}({\varepsilon _{ois}})}}$ (4)

式(4) 表明,在观测不到真实的永久收入时,利用OLS估计(1) 式通常无法得到β的一致估计。但式(4) 提供了修正的思路。注意到,当var(εois)=0且λco时,式(4) 是β的一致估计。因此可以从两个方面修正估计偏差,第一,用T期收入的平均值作为父代收入的代理变量,这时式(4) 中的var(εois)变为var(εois)/T,T越大var(εois)导致的偏差越小。第二,选择合适年龄段上的父辈收入和子代收入以使λc和λo比较接近。当var(εois)≠0且λco=1时,式(4) 是经典变量误差模型(CEV)的OLS估计。这时可以为父代的收入寻找合适的工具变量来消除估计偏差。Haider and Solon(2006)认为,35-42岁的个体收入能更好地代表永久收入,利用这一年龄段的收入,一方面可以使λc≈1和λo≈1,另一方面可以近可能减小var(εois)。因此,在没有长期面板数据的情况下,可以通过选择合适的年龄段收入作为代理变量并用工具变量估计方法解决估计偏差。

① 当然,正如本文的评审人所说,对中国而言35-42岁的收入是否能更好地作为永久收入的代理变量仍然是值得研究的问题。这也是本文没有直接按此标准进行年龄筛选,而是采取多种筛选方式的原因。

由于受到数据的限制,实证分析中很难通过选择合适的年龄有效地控制生命周期偏误。按照常规做法,为了尽可能降低生命周期偏误对估计结果的影响,可在标准模型(1) 中加入子代和父代年龄的多项式(Solon,1992)。

${{\rm{Y}}_{cit}} = {\alpha _0} + \beta {Y_{{\rm{o}}is}} + f(ag{e_{cit}},ag{e_{ois}}) + {\varepsilon _i}$ (5)

其中,f(agecit, ageois)为子代年龄agecit和父代年龄ageois的多项式,其具体形式将在实证过程中进行检验。

(二) 模型设定偏误及修正方法

父代与子代收入的关联可能与家庭特征有关,例如周兴、张鹏(2013)何石军、黄桂田(2013)等给出的代际收入流动矩阵都表明,父辈处于高收入阶层或低收入阶层时,子辈处于高收入阶层或低收入阶层的概率更大,但当父辈处于中等收入阶层时,子辈处于中等阶层的概率并没有明显大于处于其他阶层的概率。这说明代际收入流动可能关于父辈的收入是非线性的,换言之,不同的家庭特征很有可能具有不同的代际收入流动。为此,我们进一步将基本方程扩展为

${{\rm{Y}}_{cit}} = {\alpha _0} + {\beta _{\rm{i}}}{Y_{ois}} + f(ag{e_{cit}},ag{e_{{\rm{o}}is}}) + {\varepsilon _i}$ (6)

βi中的下标i表明式(6) 中父辈与子辈的收入之间不是简单的线性关系,而是一个随机系数(Random Coefficient)模型。这一模型在本文中的具体含义是,不同的家庭特征有不同的代际收入弹性。允许代际流动的异质性虽然具有非常重要的理论意义,但实证估计出每个家庭的代际流动系数却是几乎不可能的。因此,我们真正需要估计的是E(βi),即平均偏效应,这是代际收入流动的另一种度量指标。为了估计出E(βi),我们遵循Wooldridge(20032015)的做法,假定βi满足以下方程

${\beta _{\rm{i}}} = {\beta _0} + h(ag{e_{{\rm{o}}is}}){\beta _1} + {\upsilon _i}$ (7)

其中,E(υi)=0。按照Wooldridge(2003)的思路,我们令h(ageois)=ageois-E(ageois),这么做的目的是保证β0=E(βi)。β1用于反映代际流动的异质性是否与父辈年龄有关,当β1=0时,代际弹性的异质性由不可观测的因素υi导致。结合式(6) 和式(7),可将扩展后的方程写为

${{\rm{Y}}_{cit}} = {\alpha _0} + {\beta _0}{Y_{{\rm{o}}is}} + {\rm{h}}(ag{e_{ois}}){Y_{ois}}{\beta _1} + f(ag{e_{cit}},ag{e_{ois}}) + {\upsilon _i}{Y_{ois}} + {\varepsilon _i}$ (8)

我们关注的是式(8) 中的β0=E(βi)。但估计式(8) 面临两个问题:一是误差项υiYois+εi表明OLS估计得到不到β0的一致估计;二是常规的工具变量方法也存在着较大的潜在问题(Wooldridge,2003Wooldridge,2015)。第一个问题是显然的,为了看清楚第二个问题,我们假定存在变量Zi使得父辈收入满足

${{\rm{Y}}_{{\rm{o}}is}} = {\delta _0} + {\delta _1}f(ag{e_{cit}},ag{e_{{\rm{o}}is}}) + {\delta _2}{Z_i} + {\omega _i}$ (9)

式(9) 为寻找工具变量提供了依据,但在E(εi|agecit, ageois, Zi)=0这一常规的外生性假定下,Zi仍然和式(8) 的误差项υiYois+εi相关。即便是E(υi|agecit, ageois, Zi)=0也无法保证ZiυiYois+εi不相关

① 原因在于E(∈i|xi, zi)=E(υi|xi, zi)=0不能保证给定xi和zi之后εiυi的条件期望为0。

上面的分析表明,如果代际收入流动关于父代的收入存在异质性,在通常的模型设定方式和估计方法下,很难得到代际收入流动的合理估计。为了得到β0的一致估计,现有的文献提供了两种思路。一种是按照Wooldridge(2003)的做法,我们假定

(A1)E(εi|agecit, ageois, Zi)=0

(A2)E(υi|agecit, ageois, Zi)=0

(A3)cov(Yois, υi|agecit, ageois, Zi)=cov(Yois, υi)

Wooldridge(2003)证明,在(A1)-(A3) 成立的条件下,利用Zi作为Yois的工具变量仅仅是无法得到截距项的一致估计,β0的估计仍然是一致的。因为β0才是我们关注的焦点,所以工具变量方法仍然是一种选择

Wooldridge(2003)给出的假定是(A1)-(A3) 的一种特殊情况,但文中的证明思路同样适用本文。

③ 需要强调的是,这一方法和利用工具变量方法估计代际流动并非一回事,这里需要注意YcYo的经济含义是有区别的。

另一种方法按照Wooldridge(2015)的思路,我们假定

(B1)E(εi|agecit, ageois, Zi, ωi)=ηωi

(B2)E(υi|agecit, ageois, Zi, ωi)=ψωi

(B3)E(ωi|agecit, ageois, Zi)=0

在(B1)-(B3) 成立的条件下,

$\begin{array}{l} E\left( {{Y_{cit}}|ag{e_{cit}},ag{e_{{\rm{o}}is}},{Z_i},{Y_{ois}}} \right)\\ = {\alpha _0} + {{\rm{ \mathsf{ β} }}_0}{{\rm{Y}}_{{\rm{ois}}}} + {\rm{h}}\left( {{\rm{ag}}{{\rm{e}}_{{\rm{ois}}}}} \right){{\rm{Y}}_{{\rm{ois}}}}{{\rm{ \mathsf{ β} }}_1} + {\rm{f}}\left( {{\rm{ag}}{{\rm{e}}_{{\rm{cit}}}}{\rm{,ag}}{{\rm{e}}_{{\rm{oit}}}}} \right) + {\rm{ \mathsf{ ψ} }}{{\rm{ \mathsf{ ω} }}_{\rm{i}}}{{\rm{Y}}_{{\rm{oi}}}} + {\rm{ \mathsf{ η} }}{{\rm{ \mathsf{ ω} }}_{\rm{i}}} \end{array}$ (10)

式(10) 可以按照Wooldridge(2015)提供的控制函数思路进行估计。其基本步骤是:先用OLS估计式(9),得到${{\hat \omega }_i}$;再将${{\hat \omega }_i}$代入到式(10) 并用OLS估计此式。

三、 数据处理

本文使用的数据来自“中国健康与营养调查(CHNS)”1989 -2011年的9轮调查数据。该调查是中国疾病预防控制中心营养与食品安全所与美国北卡罗来纳大学人口中心合作的追踪调查项目。调查的前8轮覆盖了9个省(辽宁、黑龙江、江苏、山东、河南、湖北、湖南、广西、贵州),2011年的调查新增了北京、上海和重庆三个直辖市。调查采用的是多阶段分层整群随机抽样方法,样本覆盖各省的省会城市和低收入城市的市区及郊区、不同收入层级(低、中、高)的县城、城镇和村庄。2011年调查了7200户家庭中的30000余人。这套数据的长期面板特征非常适合代际流动问题的研究。

① 数据官方网站:http://www.cpc.unc.edu/projects/china/

从第7轮之后,CHNS不再提供截面数据。本文利用的是面板数据的家庭成员登记模块、编号模块、个人收入模块、教育模块等。我们先根据每个家庭成员的人口登记信息、与户主关系、个人ID、父亲ID等信息将子代与父代相匹配。然后根据匹配成功的个体的个人ID号与个体收入模块、人口信息模块、教育模块中的个人ID号匹配,分别得到年龄、教育、工作情况等信息。与大多数文献相同,本文的父代指父亲,因此如果某个个体的父亲ID匹配的结果是女性并且母亲的ID匹配结果是男性,我们以母亲的ID号作为父亲的ID号。在本文主要分析过程中,我们仅用儿子作为子代。这样处理的原因有两点:一是仅选用儿子作为子代样本是通常的做法(Jantti and Jenkins, 2015);二是由于CHNS仅调查当前同住的家庭成员或之前同住当前居住在附近村/社区的家庭成员,女儿成人后仍然和父母在一个家庭的情况相对较少。当然,代际流动的性别差异也是值得探讨的问题,为此本文将在稳健性分析部分考查父亲-女儿组合的样本。

选择合适的年龄段是本文控制生命周期偏误的措施之一。参照Haider and Solon(2006)何石军、黄桂田(2013)韩军辉、龙志和(2011)等研究,我们将子代年龄限制在35岁左右。但考虑到中国社会变迁的自身特点,不同人群的收入生命周期特征可能不同。为了尽可能得到比较稳健的结果,我们选取了以35岁为中心左右浮动5、7.5、10岁的子代,分别得到每年年龄在25-45、27.5-42.5和30-40岁之间的三种样本。国内许多研究对子代的年龄限制较弱,一般都选用20岁或25岁以上的子代样本,本文对子代年龄进行了更严格的限制,以减少生命周期偏误的影响。为了保证结果的稳健性,本文对父代的年龄同样采用了多种限制方式,对应子代的三组样本,父代的年龄分别限制在25-65、30-60、35-55段。我们将子代年龄在27.5-42.5之间且父代年龄在30-60之间的样本作为本文的基础样本;子代年龄在25-45之间且父代年龄在25-65之间的样本和子代年龄在30-40之间且父代年龄在35-55之间的样本用作稳健性分析,分别称为宽松样本和狭窄样本。

② 我们还尝试过其他几种年龄限制方式,包括更宽松的限制和更严格的限制。但当年龄限制更严时样本量快速下降,导致估计误差较大。

CHNS中的个人收入数据包含工资、奖金、利息等多个方面。我们删除了个人收入小于等于0和个人收入缺失的样本。为保证结果的可靠性,我们还删除每个样本中父代收入在最高1%或最低1%或子代收入在最高1%或最低1%的样本。个人收入是经过消费者价格指数调整后的数据。表 1是主要数据的统计描述。表 1统计的是非平衡面板数据。虽然CHNS目前有9轮数据,但能够成功匹配且观测了多轮的父子并不多。正是由于这个原因,本文在控制生命周期偏误上采用了工具变量、加入子代与父代年龄的多项式以及控制年龄段这三种方式。当然,在具体的实证分析中我们会对多年成功匹配的父子采用平均和不平均的两种方式。在工具变量估计过程中,我们选择父代教育作为父辈收入的工具变量,这是代际收入流动问题中最常用的做法(Solon,1992)

表 1 主要变量统计性描述

① 虽然在现有的研究中,利用父亲教育作为工具变量进行回归是比较常用的做法,但这并不意味着父亲的教育就是一个好的工具变量(Jantti and Jenkins, 2015)。寻找一个影响父亲永久收入但又与子辈永久收入无关的变量是一件非常困难的事。

四、 实证结果 (一) 代际收入流动矩阵

代际收入流动矩阵是反映代际收入流动性的一种简单且直观的方法。通过观察流动矩阵可以初步了解代际收入流动的特征,如观察代际流动是否关于父代的收入是非线性的。表 2是用基础样本计算得到的流动矩阵。父代收入和子代收入分别被5等分,第一行为处于最低20%的父代。矩阵的前5列是把基础样本当作混合截面数据得到的结果,第一列为收入处于最低20%的子代。矩阵的后5列是把基础样本中同一父代-子代组合不同年份的数据取平均后得到的结果。

表 2 流动矩阵

表 2反映出的重要特征是,如果父代处于低收入阶层,其子代处于低收入阶层的可能性更大。以收入处于最低20%的父代为例,其子代的收入处于最低20%的概率大约为42%,但子代的收入处于最高20%的概率却不足5%。类似地,如果父代处于高收入阶层,其子代处于高收入阶层的可能性更大。但如果父辈处于中等收入阶层,其子辈处于各个收入阶层的可能性相对平衡一些。也就是说,低收入阶层和高收入阶层传递到下一代的可能性比较大,而中等收入阶层传递到下一代的可能性相对小一些。这说明代际间收入阶层的传递概率与父代所处的收入阶层有关。因此,代际间收入流动性也有可能关于父代的收入并非是线性的,不同的家庭特征具有不同的代际收入流动性。换言之,代际收入流动具有异质性。

然而,以往的研究大多在线性假定下利用标准方程(1) 进行估计。表 2证明这种方法得到的估计结果可能存在较大的偏误。为了更直观地观察利用式(1) 进行估计存在的问题,我们可以按父代的收入高低将样本划分为几个子样本,然后分别用子样本进行回归。表 3是按父代收入阶层将总样本划分为低、中、高三个子样本后,再利用标准方程(1) 进行估计得到的结果。从表 3可以看出,代际收入弹性在不同的父代收入阶层之间存在明显的差异。各个子样本回归系数差异的Wald检验结果表明,除混合样本中子样本2和子样本3的代际收入弹性差异在15%的置信水平上显著,其余各个子样的回归系数差异均在5%以下的置信水平上是显著的。子样本之间代际收入弹性的差异说明,在估计中国的代际收入弹性时,关于父代收入的非线性特征是不可忽略的问题。

表 3 按父代收入三等分样本估计
(二) 基本结果

为了解决代际收入弹性关于父辈收入的非线性问题,我们分别用OLS和工具变量估计式(8),用控制函数方法估计式(10)。与标准方程(1) 或标准方程的扩展方程(5) 相比,式(10) 的最大特点是包含h(ageois)YoisωiYois,前者用于检验代际收入流动的异质性是否与观测到的父代特征有关,后者用于检验代际收入流动的异质性是否与无法观测的因素有关。式(8) 和式(10) 中还控制了年龄多项式f(agecit, ageois)用于缓解生命周期偏误的影响。在估计过程中f(agecit, ageois)被分别设置为常数项(0次多项式)、子代年龄和父代年龄的一次多项式、子代和父代年龄的二次多项式。

表 4是利用基础样本得到的结果。表 4反映出以下五个特征:第一,通过比较混合样本和平均样本的OLS结果可以发现,生命周期偏误会导致OLS估计低估代际收入弹性,这和理论分析的结果是一致的。第二,通过比较OLS结果和2SLS与CF结果可以发现,即便是限制父代与子代的年龄段,在没有长期面板的情况下,仅仅利用短期数据的平均仍然很难解决生命周期偏误导致的低估。第三,总样本和农村样本中的系数${{\rm{Y}}_{{\rm{ois}}}}*\left( {{\rm{ag}}{{\rm{e}}_{{\rm{ois}}}} - \overline {{\rm{ag}}{{\rm{e}}_{{\rm{ois}}}}} } \right)$是显著的,这说明从总体来看或从农村内部来看,代际收入弹性的异质性(非线性)与父代年龄有关。第四,${{\rm{Y}}_{{\rm{ois}}}}*{\rm{\hat w}}$的系数是显著的,这说明代际收入弹性的异质性与不可观测的父代特征有关。第五,比较2SLS和CF的结果可以发现,关于父代收入的非线性问题有可能导致工具变量回归也存在偏差。事实上,Murtazashvili(2012)的理论分析表明,在存在异质性的情况下,工具变量回归有可能低估也有可能高估代际收入弹性。我们的实证结果也在一定程度上反映出这一点,在农村和城乡混合的样本中,2SLS的结果要比CF结果小,而在城市样本中,2SLS的结果要比CF结果大。因此,模型设定偏误有可能导致低估农村的代际流动,高估城市的代际流动。

表 4 基础样本代际收入弹性估计

从代际收入弹性的大小来看,总体而言,代际收入弹性的大小约为0.588,即父代收入上升一个百分点时,子代收入平均上升0.588个百分点。城市居民的代际收入流动性比农村居民的代际收入流动性更强,城市内部的代际收入弹性为0.466,而农村内部的代际收入弹性系数为0.694。这可能是因为农村居民获取收入的途径相比城市居民而言相对单一,而更丰富的收入获得途径意味着人们有更多的选择机会,因此便于提高代际的收入流动。

(三) 稳健性分析 1. 采用不同的年龄限制

在无法获得长期面板数据时,为了降低生命周期偏误对估计结果的影响,应尽可能将父代和子代的年龄限制在能够代表永久收入的年龄段(一般认为在35-45岁左右比较合适)。本文对子代年龄的限制基本上符合这一要求,但由于数据限制,当子代年龄合适时,父代年龄往往过大,而当代年龄合适时,子代年龄往往过于年轻。而且中国社会经济发展的特殊性告诉我们不能简单地借鉴国外的经验进行年龄限制。因此,除了基础样本外,我们还选用了比基础样本的年龄限制更为宽松和更为严格的两个样本。表 5中分别汇报了这两个样本的估计结果。宽样本的结果和基础样本的结果基本一致。窄样本中城乡混合和农村子样本的结果也和前面的结果基本一致。城市样本的估计结果和基础样本的估计结果有所差别,虽然估计系数的符号是一致的,但不在统计上不显著。这主要是因为对年龄进行更严格的限制后,城市的样本量太少,导致估计的误差较大。

表 5 宽年龄限制和严年龄限制样本CF估计
2. 用工资收入和非工资性收入估计

除个人总收入之外,CHNS还记录了个人工资收入信息。按照基础样本的年龄限制方式,我们进一步筛选出父代和子代的工资收入均不缺失的样本,并剔除了父代或子代的工资收入处于最高1%或最低1%的样本。表 6是利用工资收入估计到得的结果。从总样本的结果看,代际工资收入弹性仍然比较显著,并且代际工资收入弹性同样存在异质性,即关于父代的工资收入是非线性的。当利用城市和农村的样本分别估计时,城市样本的估计结果与预期的是一致的,代际工资收入弹性是显著的。但农村样本的估计结果与前面利用个人收入数据得到的结果有比较大的差异。我们认为这可能是因为农村样本中工资性收入的误差较大所致。农村居民不像城市居民那样有相对稳定的工资性收入来源,农村居民获取工资性收入的时间以及获得的金额大小可能不像城市居民那样有规律,这会导致农村样本的工资性收入存在更大的测量误差。事实上,通过比较两个样本中工资收入的方差可以发现,农村样本中父代的工资收入标准差比城市中父代的工资收入标准差高3%,农村样本中子代的工资收入标准差比城市中子代的工资收入标准差高17%。

表 6 工资收入CF估计

根据工资性收入和总收入的信息,我们还可以计算出个人的非工资性收入。我们将基础样本中个人收入和个人工资性收入相同的人视为没有非工资性收入,并且只保留有非工资性收入的样本。回归结果汇报在表 7中。由于城市样本中大部分个人的个人收入与工资性收入相同,所以保留下来的城市样本只84个。城市样本的回归结果并不显著,但符号为正。农村样本的非工资性收入均是显著的。这和表 6的结果正好相反。我们认为,对于农村居民来说,非工资性收入也是其个人收入的重要部分,而且这些收入可能主要是一些经常性的农业经营性收入,因此相对稳定,测量误差相对更小,因此估计结果更为可靠。

表 7 非工资性收入CF估计
3. 至少观测到三轮数据的样本

前面的分析表明,生命周期偏误会导致低估代际收入弹性。虽然限制样本年龄可以在一定程度以缓解生命周期偏误的影响,但无法根本解决问题。在能够获取到长期面板数据的情况下,用多期数据的平均作为永久收入的代理变量是比较理想的做法。然而,CHNS最大的不足之处便是无法得到长期的面板数据。以本文使用的基础样本为例。在能够成功匹配的样本中(2476 (人年),1477对组合)至少观测到3轮数据的样本只有265组(371(人年)占总样本比为18%),而至少观测到4轮数据的样本仅为87组(106(人年)占总样本比为6%)。为了进一步考查本文结果的稳健性,我们用至少观测到3轮数据的样本进行估计。

表 8是用至少观测到三轮数据的265组样本估计的结果。为了便于比较,表 7还汇报了OLS估计结果。城乡混合样本的OLS估计得到的代际收入弹性系数为0.393,利用控制函数方法控制了不可观测的因素导致的异质性后,代际收入弹性增加到0.684。用城市样本得到的平均代际收入弹性系数在统计上不显著,这可是因为城市的样本量太少,导致估计误差较大所致。但代际收入弹性的系数大小看,CF估计结果仍然比OLS估计结果大,并且代际收入弹性关于父代收入的非线性关系仍然是显著的。农村样本得到的结果和前面的结果类似,但通过比较CF和OLS的结果可以发现,通过多期平均的方式也无法解决关于父代收入的非线性问题。

表 8 至少观测到三轮数据的样本CF估计
4. 代际流动的性别差异

由于可以匹配成功的父亲-女儿组合相对较少,所以本文的主要内容均用父亲-儿子样本进行分析。然而,代际流动的性别差异也是探讨代际流动的重要话题。为了考查这一问题,我们在按照基础样本的年龄限制方案筛选出423组父亲-女儿观测值表 9是估计结果。总体上看,父亲-女儿的代际收入弹性大小为0.75。城市样本估计结果表明父亲--女儿的代际收入弹性高达0.926。这些结果与Gong et al.(2012) 给出的结果类似。他们也发现城市居民的父亲-女儿代际收入弹性比父亲-儿子的代际收入弹性大,并且父亲-女儿的代际收入弹性高达0.97。农村居民的父亲-女儿代际收入弹性估计结果不显著。这可能与两方面的原因有关:一是农村居民的个人收入测量误差往往比城市大,因此在样本量少的时候估计效果会更差;二是农村居民可能有更强的重男轻女意识,父辈的资源可能更多地向儿子分配。

表 9 父亲-女儿组合的基础样本估计

① 我们也分别估计发父亲女儿组合的宽样本和窄样本。宽样本估计结果与表 9类似,但窄样本中城市和样本的样本量仅分别为58和74,估计结果均不显著。

① 不同的是Gong et al.(2012) 利用长期的混合截面数据和双样本两阶段最小二乘法解决父辈永久收入的代理问题。而本文则是重点考虑代际收入弹性关于父辈收入的非线性问题。由于数据有限,本文在处理永久收入代理问题上所用的方案是常规的方法。

五、 结论

代际收入流动是反映经济流动的重要指标,较高的代际收入流动性往往被视为社会进步的一种表现。过去30年里中国社会的收入差距快速上升,这一现象引发了人们对中国代际收入流动问题的探讨。然而,精确地估计中国的代际收入弹性却面临较大的障碍。第一大阻碍是缺乏高质量的长期面板数据用于消除生命周期偏误。本文的研究揭示了估计代际收入弹性面临的第二大阻碍,即代际收入弹性关于父代收入是非线性的,不同的家庭特征具有不同的代际收入流动,忽略这种异质性同样会导致估计结果出现偏差,并且这种偏差的方向难以判断。

本文综合考虑了生命周期偏误和非线性问题对估计代际收入弹性的影响。在处理生命周期偏误时,本文在限制样本年龄这一常用的方法基础之上,进一步引入了父代与子代年龄的多项式,并采用工具变量方法进行估计。在处理关于父代收入的非线性问题时,本文采用的控制函数估计方法。本文的主要实证结果表明:(1) 用标准的代际收入弹性估计方法有可能会导致低估中国的代际收入流动;(2) 如果代际收入流动关于父代的收入是非线性的,工具变量估计结果也会存在偏差,且偏误的方向无法确定;(3) 我国居民的代际收入流动关于父代的收入存在显著的非线性关系,且这种非线性关系主要是由不可观测的因素导致的。从代际收入弹性的结果看,全国总体的代际收入弹性大约为0.6左右,农村内部大约为0.7左右,城市内部大约为0.5左右。根据Jantti and Jenkins(2015)的总结,利用美国数据的研究结果表明,美国的代际收入弹性大约在0.2 -0.7之间,且大多数研究给出的结果在0.5左右。与这一数据相比,中国目前的代际收入流弹性处于稍高的水平。由于中国目前的收入差距也相对较大,如果代际收入流动持续减弱,可能会导致社会阶层的固化问题。因此,中国还需要进一步深化市场化改革,缩小行业间收入差距,同时要统筹城乡发展,拓宽农村居民的收入渠道。

参考文献
[] 陈琳, 2015, 《中国城镇代际收入弹性研究:测量误差的纠正和收入影响的识别》, 《经济学(季刊)》, 第 1 期, 第 33–51 页。
[] 陈琳、袁志刚, 2102, 《中国代际收入流动性的趋势与内在传递机制》, 《世界经济》, 第 6 期, 第 115–131 页。
[] 邸玉娜, 2011, 《代际流动、教育收益与机会平等——基于微观调查数据的研究》, 《经济科学》, 第 1 期, 第 65–74 页。
[] 韩军辉、龙志, 2011, 《基于多重计量偏误的农村代际收入流动分位回归研究》, 《中国人口科学》, 第 5 期, 第 26–35 页。
[] 何石军、黄桂田, 2013, 《中国社会的代际收人流动性趋势:2000-2009》, 《金融研究》, 第 2 期, 第 19–32 页。
[] 胡洪曙、亓寿伟, 2014, 《中国居民家庭收入分配的收入代际流动性》, 《中南财经政法大学学报》, 第 2 期, 第 20–29 页。
[] 亓寿伟, 2016, 《中国代际收入传递趋势及教育在传递中的作用》, 《统计研究》, 第 5 期, 第 77–86 页。
[] 王海港, 2005, 《中国居民收入分配的代际流动》, 《经济科学》, 第 2 期, 第 18–25 页。
[] 王美今、李仲达, 2012, 《中国居民收入代际流动性测度——"二代"现象经济分析》, 《中山大学学报(社会科学版)》, 第 1 期, 第 172–181 页。
[] 周兴、张鹏, 2013, 《代际间的收入流动及其对居民收入差距的影响》, 《中国人口科学》, 第 5 期, 第 50–59 页。
[] Becker G.S., Tomes N., 1979, "An Equilibrium Theory of the Distribution of Income and Inter-generational Mobility". Journal of Political Economy, 87(6), 1153–1189. DOI:10.1086/260831
[] Behrman J.R., Taubman P., 1985, "Intergenerational Earnings Mobility in the United States:Some Estimates and Test of Becker's Intergenerational Endowments Model". Review of Economic and Statistics, 67(1), 144–151. DOI:10.2307/1928446
[] Bratsberg B., RoV K., Raaum O., Naylor R., Jantti M., Eriksson T. and Osterbacka E., 2007, "Nonlinearities in Intergenerational Earnings Mobility:Consequences for Cross-Country Comparisons". The Economic Journal, 117(519), C72–C92. DOI:10.1111/ecoj.2007.117.issue-519
[] Dearden L., Machin S. and Reed H., 1997, "Intergenerational Mobility in Britain". Economic Journal, 107(1), 47–66.
[] Fan Y., 2016, "Intergenerational Income Persistence and Transmission Mechanism:Evidence from Urban China". China Economic Review, 41, 299–314. DOI:10.1016/j.chieco.2016.10.005
[] Gouskova E., Chiteji N. and Stafford F.P., 2010, "Estimating the Intergenerational Persistence of Lifetime Earnings with Life Course Matching:Evidence from the PSID". Labour Economics, 17(3), 592–97. DOI:10.1016/j.labeco.2009.04.009
[] Haider S., Solon G., 2006, "Life-cycle Variation in the Association Between Current and Lifetime Earnings". American Economic Review, 96(4), 1308–1320. DOI:10.1257/000282806779468508
[] Jantti, M. and Jenkins, S. P., 2015, "Income Mobility", in Handbook of Income Distribution (Vol 2). Eds. By Anthony B. Atkinson and Francois Bourguignon, pp. 807-935. Published by Elsevier.
[] Murtazashvili I., 2012, "An Alternative Measure of Intergenerational Income Mobility Based on a Random Coefficient Model". Journal of Applied Econometrics, 27(7), 1161–1173. DOI:10.1002/jae.v27.7
[] Nybom M., Stuhler J., 2016, "Heterogeneous Income Profiles and Lifecycle Bias in Intergenerational Mobility Estimation". Journal of Human Resources, 51(1), 239–268. DOI:10.3368/jhr.51.1.239
[] Qin X., Wang T. and Zhuang C.C., 2016, "Intergenerational Transfer of Human Capital and Its Impact on Income Mobility:Evidence from China". China Economic Review, 38, 306–321. DOI:10.1016/j.chieco.2014.10.005
[] Schnitzlein, D.D. "A New Look at Intergenerational Mobility in Germany Compared to the US", Review of Income and Wealth, doi:10.1111/roiw.12191.
[] Solon G., 1992, "Intergenerational Income Mobility in the United States". American Economic Review, 82(3), 393–408.
[] Wooldridge J.M., 2003, "Further Results on Instrumental Variables Estimation of Average Treatment Effects in the Correlated Random". Economics Letters, 79, 185–191. DOI:10.1016/S0165-1765(02)00318-X
[] Wooldridge J.M., 2015, "Control Function Methods in Applied Econometrics". The Journal of Human Resources, 50(2), 420–445. DOI:10.3368/jhr.50.2.420
[] Yang J., Qiu M., 2016, "The Impact of Education on Income Inequality and Intergenerational Mobility". China Economic Review, 37, 110–125. DOI:10.1016/j.chieco.2015.12.009