一、导论
中国的计划生育政策,特别是30 多年来独生子女政策的全面推行不仅产生了数以亿计的独生子女[1],而且创造了“双独”、“单独”和“双非” “双独”夫妇指夫妇双方均为独生子女;“单独”夫妇指夫妇中只有一方是独生子女;“双非”夫妇指夫妇双方都不是独生子女。等独具中国特色的夫妇类型[2]。研究这些夫妇类型一方面有助于我们辨识一些特殊的家庭结构(如“四二一”家庭结构),另一方面也有助于当前和未来生育政策的制定(如“双独二孩”政策和“单独二孩”政策都以夫妇双方是否是独生子女为条件)。所以,研究“双独”、“单独”和“双非”夫妇的数量、结构及其在未来的发展趋势是关系到家庭养老和生育政策调整等一系列重大决策的重要问题。
郭志刚等学者曾对这些问题进行过研究,但在研究时面临的一个技术难题是如何确定独生子女之间的婚配概率[3]。由于缺乏相关的数据资料,他们假定年轻人在择偶时不会刻意选择配偶的独生属性,即:假定独生子女和非独生子女之间的婚配是完全随机的(以下简称“随机婚配”假定)。虽然后来有学者对这个假定提出过质疑,但是由于缺乏充分的数据资料,“随机婚配”假定一直沿用至今,并成为后续研究者预测“四二一”家庭结构、“单独”和“双独”夫妇数量的前提和基础[4, 5, 6, 7]。但正如该假定的提出者郭志刚等人所指出的,“随机婚配”假定实则是在没有其他更好替代方案情况下的一个无奈之举,而一旦这个假定条件不能得到满足,则很有可能低估“双独”夫妇、“双非”夫妇和“四二一”家庭的数量,并高估“单独”夫妇的数量,从而影响相关政策的制定[3]。
为了检验该假定是否合理,郭志刚和许琪曾使用2010年中国家庭追踪调查数据研究了独生子女的婚配选择问题。他们发现独生子女更可能与独生子女结婚,且非独生子女也更可能与非独生子女结婚,所以“随机婚配”假定并不成立[8]。此后,宋健使用2009年中国城市青年调查数据又对该假定进行了检验,并得到了相同的结论[2]。但由于这两项研究的样本量都较小,其可靠性仍然存在争议。
本研究的主要目的是使用2005年小普查这一样本量更大、权威性更强的数据对“随机婚配”假定进行再检验。在研究时,我们还以独生子女的婚配选择问题为例讨论了嵌套模型中Logistic回归系数的可比性问题。虽然Logistic回归模型已经在社会科学领域得到了非常广泛的应用,但它的系数比较问题并未引起国内学者的足够重视。本文以一个实例说明直接比较Logistic回归系数时可能导致的错误,并提出了两种可行的解决方案。这对其他基于Logistic回归的学术研究同样具有指导意义。
二、数据和变量本研究使用的是2005年全国1%人口抽样调查(也称人口小普查)数据 实际使用的数据的抽样比约为1/500。。与历次人口普查和抽样调查数据不同的是,2005年调查登记了30岁及以下人口是否有兄弟姐妹,据此可以判断其是否为独生子女。
分析时,我们首先将样本限定为居住在家庭户中的在婚人口,然后根据同一户中的家庭成员关系对夫妻进行匹配。如果夫妻双方都为初婚,我们还根据双方填报的初婚年是否一致对数据进行校验,并删除初婚年不一致的样本。最后,我们保留双方年龄都在30岁及以下的夫妇(56118对);在删除缺失值以后,进入分析的夫妇对数为55981对。
分析的核心变量是夫妇双方的独生属性,据此可以判断夫妇所属的类型。如果夫妇双方都为独生子女,即为“双独”夫妇;如果仅有一方为独生子女,即为“单独”夫妇;如果双方都不是独生子女,即为“双非”夫妇。样本中,“双独”、“单独”和“双非”夫妇的数量分别为3410对、8484对和44087对,所占比例分别为6.1%、15.2%和78.7%。
除了夫妇双方的独生属性之外,分析时还考虑了双方的年龄、教育程度、户口性质和户籍地。因为在中国,城乡户籍、籍贯、年龄和教育程度是人们非常看重的四个择偶标准,而且这四重标准都与是否为独生子女密切相关[8]。所以,从这四个维度出发有助于我们探索夫妇在独生子女属性上的关联性。
表 1分“双独”、“单独”和“双非”三种类型对夫妇双方的上述特征进行了描述。结果显示,“双独”夫妇中户口为非农的比例明显大于“单独”和“双非”夫妇;且“双独”夫妇的户籍地落在北京、天津、上海等生育政策较严格省份的比例也比其他两类夫妇高;除此之外,“双独”夫妇的教育程度也是三类夫妇中最高的,这都与我们的预期相一致。
| 变量 | 丈夫 | 妻子 | ||||||
| 双独 | 单独 | 双非 | 合计 | 双独 | 单独 | 双非 | 合计 | |
| 户口性质(%) | ||||||||
| 农业 | 47.2 | 64.2 | 80.4 | 75.9 | 49.5 | 67.0 | 82.8 | 78.4 |
| 非农 | 52.8 | 35.8 | 19.6 | 24.1 | 50.5 | 33.0 | 17.2 | 21.6 |
| 户籍地(%) | ||||||||
| 北京 | 1.6 | 1.5 | 0.5 | 0.7 | 1.5 | 1.3 | 0.4 | 0.6 |
| 天津 | 8.4 | 4.5 | 1.6 | 2.5 | 8.1 | 4.1 | 1.6 | 2.3 |
| 河北 | 3.0 | 4.6 | 4.7 | 4.6 | 3.1 | 4.9 | 4.8 | 4.7 |
| 山西 | 4.3 | 4.3 | 6.6 | 6.1 | 4.3 | 4.3 | 6.5 | 6.1 |
| 内蒙古 | 2.2 | 2.0 | 2.9 | 2.7 | 2.3 | 2.0 | 2.9 | 2.7 |
| 辽宁 | 5.2 | 5.0 | 2.1 | 2.7 | 5.1 | 5.0 | 2.0 | 2.7 |
| 吉林 | 7.0 | 4.8 | 2.5 | 3.1 | 7.1 | 4.8 | 2.5 | 3.1 |
| 黑龙江 | 6.1 | 4.7 | 2.9 | 3.4 | 6.0 | 4.9 | 2.9 | 3.4 |
| 上海 | 6.7 | 3.8 | 0.5 | 1.4 | 6.4 | 3.1 | 0.4 | 1.2 |
| 江苏 | 6.1 | 6.5 | 2.8 | 3.5 | 6.4 | 6.6 | 2.7 | 3.5 |
| 浙江 | 1.6 | 2.9 | 1.8 | 2.0 | 1.6 | 2.8 | 1.7 | 1.9 |
| 安徽 | 2.4 | 3.0 | 5.3 | 4.8 | 2.3 | 3.3 | 5.3 | 4.8 |
| 福建 | 0.4 | 0.9 | 2.1 | 1.8 | 0.5 | 0.9 | 2.1 | 1.8 |
| 江西 | 0.9 | 1.4 | 3.0 | 2.6 | 1.0 | 1.5 | 3.0 | 2.6 |
| 山东 | 4.6 | 6.7 | 5.0 | 5.2 | 4.6 | 6.7 | 5.0 | 5.2 |
| 河南 | 4.2 | 4.0 | 4.8 | 4.7 | 4.3 | 4.1 | 4.9 | 4.8 |
| 湖北 | 2.5 | 3.1 | 3.1 | 3.1 | 2.5 | 3.2 | 3.2 | 3.2 |
| 湖南 | 3.1 | 3.0 | 3.1 | 3.1 | 3.2 | 3.0 | 3.1 | 3.1 |
| 广东 | 4.1 | 6.7 | 8.1 | 7.7 | 3.9 | 6.6 | 8.0 | 7.5 |
| 广西 | 0.9 | 1.4 | 2.5 | 2.2 | 0.9 | 1.4 | 2.6 | 2.3 |
| 海南 | 1.0 | 1.2 | 1.5 | 1.4 | 1.0 | 1.2 | 1.5 | 1.4 |
| 重庆 | 3.3 | 2.8 | 1.2 | 1.6 | 3.2 | 2.8 | 1.2 | 1.6 |
| 四川 | 5.9 | 4.7 | 2.8 | 3.3 | 5.9 | 4.8 | 2.8 | 3.3 |
| 贵州 | 1.0 | 1.2 | 3.4 | 3.0 | 1.1 | 1.3 | 3.5 | 3.1 |
| 云南 | 2.5 | 4.1 | 10.0 | 8.6 | 2.5 | 4.3 | 10.2 | 8.8 |
| 西藏 | 1.1 | 1.1 | 0.6 | 0.7 | 1.1 | 1.1 | 0.6 | 0.7 |
| 陕西 | 4.2 | 3.9 | 4.6 | 4.5 | 4.3 | 3.9 | 4.6 | 4.5 |
| 甘肃 | 2.8 | 2.9 | 3.8 | 3.6 | 2.8 | 2.9 | 3.8 | 3.6 |
| 青海 | 1.1 | 1.4 | 1.8 | 1.7 | 1.2 | 1.3 | 1.8 | 1.7 |
| 宁夏 | 0.6 | 0.6 | 2.1 | 1.8 | 0.4 | 0.6 | 2.1 | 1.7 |
| 新疆 | 1.4 | 1.5 | 2.4 | 2.2 | 1.4 | 1.5 | 2.4 | 2.2 |
| 教育程度(%) | ||||||||
| 未上学 | 1.1 | 1.7 | 1.7 | 1.6 | 2.4 | 3.1 | 4.4 | 4.1 |
| 小学 | 8.1 | 10.4 | 16.6 | 15.1 | 10.8 | 13.5 | 21.4 | 19.6 |
| 初中 | 44.4 | 53.8 | 60.7 | 58.7 | 43.5 | 53.7 | 57.9 | 56.4 |
| 高中 | 24.4 | 20.2 | 14.2 | 15.8 | 23.0 | 17.4 | 10.6 | 12.4 |
| 大专及以上 | 21.9 | 13.9 | 6.9 | 8.8 | 20.4 | 12.3 | 5.7 | 7.6 |
| 年龄(岁) | ||||||||
| 均值 | 27.0 | 26.7 | 26.8 | 26.8 | 25.7 | 25.4 | 25.4 | 25.4 |
| 标准差 | 2.4 | 2.5 | 2.5 | 2.5 | 2.7 | 2.7 | 2.8 | 2.8 |
| 样本量(对) | 3410 | 8484 | 44087 | 55981 | 3410 | 8484 | 44087 | 55981 |
不过,表 1显示“双独”夫妇的平均年龄是三类夫妇中最高的,这与我们的预期不太相符。因为一般来说,年轻队列中独生子女的比例较高,相应的年轻夫妇中“双独”出现的可能性也较大,所以“双独”夫妇的平均年龄应该比“单独”和“双非”夫妇小。我们认为,出现这种不一致的原因可能在于独生子女结婚普遍比非独生子女晚 这可能是因为独生子女大多出生于城市或相对发达的地区,且教育程度比较高。。所以,虽然年轻队列中独生子女的比例较高,但由于结婚晚,“单独”和“双非”夫妇反而比“双独”夫妇显得更加年轻。分析结果显示,15-30岁男性和女性人口中独生子女的比例分别占该年龄段人口的20.2%和17.0%;但在15-30岁在婚人口中,男女独生子女的比例却仅为占该年龄段人口的13.6%和13.7%,而且在越年轻的队列中,二者的差异越大,这就在很大程度上佐证了我们的猜测。与此同时,这一结果也提醒我们在分析时可能需要为不同人群赋予不同的权重,以反映他们在总人口中的构成比例,而加权对数据分析结果的影响我们在下面还将继续讨论。
三、分析结果 1. 双变量列联表分析为了检验“随机婚配”假定是否成立,我们首先使用双变量的列联表分析了夫妇双方在独生子女属性上的关联性。从表 2可以发现,根据夫妻是否独生子女交互分类以后,主对角线上的两个单元格的观测频数都明显大于期望频数 期望频数反映在“随机婚配”条件下应有的结果。,而非主对角线上两个单元格的观测频数都小于期望频数。这说明,独生子女更可能与独生子女结婚,且非独生子女也更可能与非独生子女结婚,而独生子女与非独生子女结婚的可能性则相对较小。
| 丈夫是否 独生子女 | 妻子是否独生子女 | 合计 | |
| 是 | 否 | ||
| 是 | 3410(1045.9) | 4220(6584.1) | 7630(7630) |
| 否 | 4264(6628.1) | 44087(41722.9) | 48351(48351) |
| 合计 | 7674(7674) | 48307(48307) | 55981(55981) |
| 注:表中数据为夫妻年龄都在30岁及以下的匹配成功的夫妇,括号内数据为期望频数。 | |||
经计算,独生子中与独生女结婚的比例为44.7%,而非独生子中与独生女结婚的比例仅为8.8%,二者相差35.9个百分点。 对该比例差的t检验结果非常显著(p<0.000),所以二者的差异是真实存在的。此外,我们还对该列联表的独立性进行了卡方检验,结果也是非常显著的(p<0.000),这 就再次拒绝了独生与非独生之间随机婚配的原 假设。根据表 2计算得到的独生子相对于非独生子与独生女结婚的优势比(odds ratio)为8.35,大大高于1。由此可见,夫妇双方是否为独生子女的关联性是很强的,“随机婚配”假定并不符合实际。
分城乡(见表 3)和年龄组(见表 4)来看,我们也能得到类似的结论。经计算,城镇和农村的优势比分别为7.95和7.78,25岁以下组和25-30岁组的优势比分别为7.02和8.76,且统计检验结果显示,上述所有优势比都显著大于1。所以,无论在农村还是城市,也无论夫妇的年龄大小,都呈现独生子女更可能与独生子女结婚,而非独生子女更可能与非独生子女结婚的规律。
| 居住地 | 丈夫是否 独生子女 | 妻子是否独生子女 | 合计 | |
| 是 | 否 | |||
| 农村 | 是 | 1028(274.2) | 1568(2321.8) | 2596(2596) |
| 否 | 2097(2850.8) | 24898(24144.2) | 26995(26995) | |
| 合计 | 3125(3125) | 26466(26466) | 29591(29591) | |
| 城镇 | 是 | 2382(867.7) | 2652(4166.3) | 5034(5034) |
| 否 | 2167(3681.3) | 19189 (17674.7) | 21356(21356) | |
| 合计 | 4549(4549) | 21841(21841) | 26390(26390) | |
| 注:表中数据为夫妻年龄都在30岁及以下的匹配成功的夫妇,括号内数据为期望频数。 | ||||
| 年龄组 | 丈夫是否 独生子女 | 妻子是否独生子女 | 合计 | |
| 是 | 否 | |||
| 25岁以下 | 是 | 894(286.9) | 1289(1896.1) | 2183(2183) |
| 否 | 1252(1859.1) | 12891(12283.9) | 14143(14143) | |
| 合计 | 2146(2146) | 14180(14180) | 16326(16326) | |
| 25-30岁 | 是 | 2516(759.3) | 2931(4687.7) | 5447(5447) |
| 否 | 3012(4768.7) | 31196(29439.3) | 34208(34208) | |
| 合计 | 5528(5528) | 34127(34127) | 39655(39655) | |
| 注:表中数据为夫妻年龄都在30岁及以下的匹配成功的夫妇,括号内数据为期望频数;年龄组根据夫妇的平均年龄划分。 | ||||
上面的分析结果否定了“随机婚配”假定,而且无论从全国还是从分城乡、分年龄组的分析结果看,夫妇双方是否为独生子女的关联性是很强的。是什么原因导致独生子女更可能与独生子女结婚?
一些有关婚姻同质性匹配(homogamy)的研究认为,具有相同特征的人更可能结婚,其原因主要有两个:一是偏好(preference)问题,即人 们在主观上更乐意选择与自己有相同特征的人组建家庭;二是机会(opportunity)问题,即一些结构性的因素限制了不同群体之间相互接触的机会,从而导致具有相同特征的人更可能结合在一起。
上述理论为我们研究独生子女之间的同质性婚配现象提供了很好的分析思路。一方面,从偏好的角度看,独生子女在成长经历、性格特征、生活方式等方面的相似性以及中国大多数省份允许“双独”夫妇生育二孩的政策规定都可能导致独生子女在择偶时更倾向于选择独生子女。另一方面,从机会的角度看,独生子女和非独生子女在城乡、地区、年龄和教育程度等方面的分布均存在显著差异,而中国人在择偶时总会对配偶的城乡属性、籍贯、年龄和教育程度进行严格筛选[8],这种择偶过程中不可避免的选择性也会导致独生子女更可能与独生子女结婚 。那么在中国,独生子女更可能与独生子女结婚的主要原因是什么?表 5使用Logistic回归模型研究了这一问题。
| 变量 | 模型1 | 模型2 |
| 妻子是独生子女 | 2.123*** (0.028) | 1.835*** (0.030) |
| 夫妻户口性质 | 未控制 | 控制 |
| 夫妻户籍地 | 未控制 | 控制 |
| 夫妻年龄 | 未控制 | 控制 |
| 夫妻教育程度 | 未控制 | 控制 |
| 截距 | -2.346*** (0.016) | -1.112*** (0.246) |
| 似然比卡方 | 5403.49*** | 8697.65*** |
| 伪R-square | 0.121 | 0.195 |
| 自由度 | 1 | 73 |
| 样本量 | 55981 | 55981 |
| 注:括号内的数据为标准误;*p<0.05,**p<0.01,***p<0.001。 | ||
表 5采用了嵌套模型的分析策略。模型1仅纳入妻子是否为独生子女这一个自变量。结果显示,该变量对丈夫是否为独生子女具有非常显著的影响,其回归系数为2.123,换算成优势比后为8.35,这说明总体来看,夫妇双方在独生子女属性方面具有非常强的相关性。为了研究这种相关性的来源,我们又在模型1的基础上控制了夫妇双方的户口性质、户籍地、年龄和教育程度。从模型2可以发现,在控制住这四组变量之后,妻子是独生子女这个变量的统计检验结果依然非常显著,但是与模型1相比,该变量的回归系数下降到了1.835,降幅为13.6%。这种下降反映出,新加入的四组变量对独生子女之间的同质性婚配现象有一定程度的解释力。如前所述,人们总是倾向于同自己有相同城乡属性、来自同一地域范围、具有相似年龄和教育程度的人结婚,这就在很大程度上限制了择偶的范围。特别地,由于独生子女在城市、生育政策较严格的省份、低年龄组和高教育程度的人群中分布较为广泛,而非独生子女在农村、生育政策较宽松的省份、高年龄组和教育程度较低的人群中分布比较广泛,人们在择偶时对城乡、户籍地、年龄和教育程度的选择在无形中会降低独生子女与非独生子女结婚的机会,并增加了独生子女之间和非独生子女之间结婚的机会。所以,当我们控制住夫妇双方的这些特征之后,夫妇在独生属性上的关联性下降了。
但是从模型1到模型2,妻子是独生子女这个变量的回归系数仅下降了13.6%。这似乎意味着人们在上述四个维度上的选择性并不是导致独生子女更可能与独生子女结婚的主要原因。夫妇独生属性之间的相关主要表现为二者的净相关。换言之,这种相关性更可能来源于独生子女择偶时对独生子女本身的偏好。但事实果真如此吗?在回答这个问题之前,我们需要首先探讨两个方法上的问题。
3. Logistic回归系数的可比性上述基于嵌套模型的分析建立在Logistic回归系数在不同模型之间可以相互比较这一前提之上。但遗憾的是,与线性回归模型不同,Logistic模型的回归系数并不直接可比[9, 10],其原因在于Logistic回归的误差项并不具有一个固定的可观测的测量尺度[11]。
我们可以用潜变量的方式来表示Logistic回归模型。定义一个连续潜变量y* 可以将y*理解为y=1的潜在倾向。,并规定当y*>0时,y=1;当y*≤0时,y=0。将y*表示为自变量 xk和误差项ε的一个线性函数,同时假定ε服从标准Logistic回归分布,可以证明公式(1)对y*所做的线性回归与公式(2)对取值为0和1的二分因变量y所做的Logistic回归是完全等价的。
由于未被解释的残差方差被设定成了固定值,只要被解释的方差有所增长,那么因变量y*的总方差也会有所增长。这意味着y*的总方差会随自变量数目的增多而增加(增加自变量通常会增加被解释的方差)。换言之,y*的测量尺度会随自变量的增多而增加。这导致在嵌套模型中,不同Logistic模型的回归系数是不可以直接比较的,因为全模型的回归系数总是要比简化模型来得大。
为了解决不同模型中Logistic回归系数的比较问题,温什普(Winship)和迈耶(Mare)建议,可以把不同模型的系数估计值都根据y*的标准差进行重新调整[12]。具体而言,就是用系数除以各自模型潜在因变量的估计标准差SD(y*),然后再进行比较[9]。SD(y*)的计算公式见公式(3)。这种方法也被称为“y*标准化”法。
表 6使用“y*标准化”法和“KHB分解”法重复了表 5的分析过程。结果显示,在不纳入控制变量的情况下,SD(y*)的估计值为1.955;而在纳入控制变量后,由于被解释方差的增加,SD(y*)增加到了2.107。根据前面的分析,这会导致完全模型的回归系数出现一定程度的膨胀,进而导致低估回归系数从简化模型到完全模型的真实变化。计算结果显示,经过y*标准化以后,简化模型的回归系数为1.086,完全模型的回归系数为0.871,从简化模型到完全模型,系数真实下降的百分比为19.8%,高于直接比较时的13.6%。
| 分类 | 简化模型 | 完全模型 | 下降百分比(%) | |
| Logistic回归 | 系数 | 2.123*** | 1.835*** | 13.6 |
| 标准误 | 0.028 | 0.030 | ||
| y*标准化 | 系数 | 1.086*** | 0.871*** | 19.8 |
| y*标准差 | 1.955 | 2.107 | ||
| KHB分解法 | 系数 | 2.309*** | 1.835*** | 20.5 |
| 标准误 | 0.031 | 0.030 | ||
| y*标准化(加权) | 系数 | 1.101*** | 0.746*** | 32.2 |
| y*标准差 | 1.988 | 2.610 | ||
| KHB分解法(加权) | 系数 | 2.973*** | 1.946*** | 34.5 |
| 标准误 | 0.198 | 0.185 | ||
| 注:1. 简化模型仅包括“妻子是独生子女”一个变量,完全模型除该变量外还纳入了“夫妻户口性质”、“夫妻户籍地”、“夫妻年龄”和“夫妻受教育程度”四组变量; 2. *p<0.05,**p<0.01,***p<0.001。 | ||||
如果换用“KHB分解”法我们也能得到类似的结论。从表 6可以发现,使用“KHB分解”得到的简化模型的回归系数为2.309,完全模型的回归系数为1.835,从简化模型到完全模型,回归系数下降了20.5%,同样高于直接比较时的结果。
综上所述,由于Logistic回归系数在嵌套模型之间不直接可比,表 5低估了夫妇双方的户口性质、户籍地、年龄和教育程度对独生子女同质性婚配现象的解释力。从表 6看,夫妇独生属性之间的关联性中约有20%的部分是由人们在择偶时对潜在配偶的城乡属性、户籍地、年龄和教育程度的选择过程引起的。这也通过一个实例说明,直接比较Logistic回归系数会导致错误的结论。特别地,它会低估从简化模型到完全模型回归系数的变化,这一点需要引起所有学者的高度重视。
4. 权重的影响最后还需讨论的一个问题是加权,这个问题与本文所使用数据的特点有关。前面曾经指出,本文使用的是在婚人口经匹配以后得到的夫妇数据,这个数据并不包含那些在2005年尚未结婚的人口。由于结婚与否与户口性质、户籍地、年龄、教育程度和是否为独生子女都密切相关,这导致在我们分析所用的样本中,夫妇双方在上述特征上的分布与15-30岁总人口中的分布均存在显著差异。具体来说,夫妇样本中户口为农村、户籍地在中西部省份、高年龄组、低教育程度和非独生子女的比例都明显偏高,而这些系统性差异的存在很有可能会影响到前面分析结果的准确性。
举例来说,在15-30岁男性人口中,城市独生子女的比例比农村高34.2个百分点;但在匹配样本中,城乡之间的差距仅为16.4个百分点。换言之,匹配样本中城乡户籍对是否为独生子女的解释力下降了。这主要是因为农村独生子女结婚比城市早,所以在已婚人口中独生子女在城乡分布上的差异不如在总人口中大。同理,户籍地、年龄和教育程度这三个变量在总人口中与独生子女的关联性也比在已婚人口中强。所以,如果不对数据加权,我们就很有可能低估这些变量对夫妇双方是否同为独生子女的解释力。
沿着这一思路,本文从城乡、户籍地(东、中、西部)、教育程度(是否受过高中及以上教育)、年龄组(25岁以下组和25岁及以上组)和是否为独生子女五个维度对原始数据进行加权。加权后,匹配数据在上述五个关键变量上的边缘分布将与15-30岁总人口中的边缘分布完全相同。然后,我们使用“y*标准化”法和“KHB分解”法再次重复了表 5的分析过程。从表 6可以发现,使用“y*标准化”法得到的简化模型的回归系数为1.101,完全模型的回归系数为0.746,回归系数的下降幅度为32.2%;使用“KHB分解”法得到的简化模型的回归系数为2.973,完全模型的回归系数为1.946,回归系数的下降幅度为34.5%。
综合来看,在加权以后,夫妇双方的户口性质、户籍地、年龄和教育程度能够解释夫妇独生属性之间关联性中的1/3。剩下的2/3有可能是因为独生子女对独生子女本身的偏好所引起,也有可能还存在其他重要的因果机制没有被发掘出来。但无论如何,前面的分析结果已充分说明,人们在择偶时对配偶城乡属性、户籍地、年龄和教育程度的严格筛选是导致独生子女更可能与独生子女结婚的重要原因。
四、小结和讨论以往有关生育政策调整的人口预测大都基于独生子女与非独生子女之间“随机婚配”的假定之上,虽然已有学者通过小规模的抽样调查数据对该假定提出过质疑,但由于研究的样本量较小,其可靠性依然存在争议。本文使用2005年人口小普查这一样本量更大且权威性更强的数据对“随机婚配”假定进行了更为严格的检验,与前人的研究结论相同,我们同样发现独生子女更可能与独生子女结婚,且非独生子女也更可能与非独生子女结婚,所以“随机婚配”假定并不符合实际。这一方面可能是因为独生子女本身已经构成了一条重要的择偶标准;另一方面,人们在择偶时对城乡户口、户籍地、年龄和教育程度的严格筛选也是导致独生子女更可能与独生子女结婚的重要原因。
由于“随机婚配”假定在现实中并不成立,以往基于该假定所做的人口预测不仅会低估“四二一”家庭、“双独”和“双非”夫妇的数量,而且会高估“单独”夫妇的数量 虽然一些人口学家使用的微观仿真模型在设定模型时考虑了婚配人群按城乡、居住地和年龄的匹配,这在一定程度上会提高独生子女之间的婚配概率;但本文的研究结果显示,人们在城乡、居住地、年龄和教育程度四个维度上的匹配并不能完全解释独生子女更可能与独生子女结婚的现象。所以,后续的预测研究还需将独生子女之间的同质性婚配现象充分考虑进来。[8]。“双独”和“单独”夫妇的数量一直是我们进行生育政策调整的重要基础,这意味着以往在制定相关政策时也很有可能存在数据不准的问题。以前几年实施的“单独二孩”政策为例,这一政策实施以来不仅没有出现一些学者担忧的生育率大幅反弹,反而是申报二孩生育的夫妇数量始终低于预期[14]。很多学者将这一现象归结为“单独”夫妇较低的生育意愿或者认为仍有大量“单独”夫妇处于观望之中,而很少有学者去怀疑预测得到的“单独”夫妇的数量是否失真这一根本性问题。虽然“单独”夫妇生育意愿不高可能是导致“单独二孩”政策“遇冷”的一个重要原因,但本文的分析结果说明还存在另外一种可能性,即现实中“单独”夫妇的数量可能远低于预期,所以对“单独二孩”政策“遇冷”原因的分析不能过于武断,而需综合考虑各方面的可能性。
由此可见,研究独生子女的婚姻匹配结果不仅能够帮助我们理解现实中的择偶过程,而且具有非常重要的政策含义。而任何政策的制定和评估都必须建立在数据准确的基础上,所以我们认为,很有必要在放松“随机婚配”假定以后对“双独”和“单独”夫妇的规模和比例进行重新测算。与一般的人口预测不同,对“双独”和“单独”夫妇进行预测涉及婚姻的匹配,所以研究者应当充分认识到婚姻匹配过程的复杂性,并在预测模型中将这种复杂性考虑进来,而不能继续想当然地应用不符合实际情况的假定。
最后,本文在分析时还讨论了Logistic回归系数的可比性问题。虽然Logistic回归模型已经在社会科学领域得到了非常广泛的应用,但迄今为止,它的系数比较问题并未引起国内学者的足够重视。目前绝大多数学者仍在沿用线性回归的思路来比较不同模型中的Logistic回归系数,而这很有可能会导致错误的结论。本文不仅从理论上分析了Logistic回归系数不可比的原因,而且以独生子女的婚配问题为例说明了直接比较Logistic回归系数时可能出现的错误,即:低估回归系数从简化模型到完全模型的真实变化。本文介绍的“y*标准化”法和“KHB分解”法是解决上述问题的两个常用方法,而且从分析结果看,这两种方法确实能在一定程度上缓解Logistic回归系数不可比所引起的问题。我们希望借此文呼吁更多的学者开始关注这一问题,从而提高中国定量社会科学研究的严谨性。
| [1] | 杨书章,王广州. 一种独生子女数量间接估计方法[J]. 中国人口科学, 2007(4):58-64. |
| [2] | 宋健. 婚配期望与选择中的独生子女属性[J]. 青年研究, 2015(1):11-19. |
| [3] | 郭志刚,刘金塘,宋健. 现行生育政策与未来家庭结构[J]. 中国人口科学, 2002(1):1-11. |
| [4] | 齐险峰,郭震威. "四二一"家庭微观仿真模型与应用[J]. 人口研究, 2007(3):32-40. |
| [5] | 郭震威,齐险峰. "四二一"家庭微观仿真模型在生育政策研究中的应用[J]. 人口研究, 2008(2):5-15. |
| [6] | 王广州. "单独"育龄妇女总量、结构及变动趋势研究[J]. 中国人口科学, 2012(3):9-18. |
| [7] | 张丽萍,王广州. "单独二孩"政策目标人群及相关问题分析[J]. 社会学研究, 2014(1):25-39. |
| [8] | 郭志刚,许琪. 独生属性与婚姻匹配:对"随机婚配"假定的检验[J]. 中国人口科学, 2014(6):26-35. |
| [9] | 洪岩壁. Logistic模型的系数比较问题及解决策略:一个综述[J]. 社会, 2015(4):220-241. |
| [10] | ALLISON P D. Comparing logit and probit coefficients across groups[J].Sociological Methods and Research, 1999, 28(2):186-208. |
| [11] | 鲍威斯,谢宇. 分类数据分析的统计方法[M]. 北京:社会科学文献出版社, 2009:40-43. |
| [12] | WINSHIP C, MARE R D. Regression models with ordinal variables[J]. American Sociological Review, 1984, 49(4):512-525. |
| [13] | KARLSON K B, ANDERS H, RICHARD B. Comparing regression coefficients between same-sample nested models using logit and probit:a new method[J]. Sociological Methodology, 2013, 42(1):286-313. |
| [14] | 陈友华,苗国. 意料之外与情理之中:单独二孩政策为何遇冷[J]. 探索与争鸣, 2015(2):48-53. |

