Wu Xiaogang, Division of Social Science, Hong Kong University of Science and Technology.
以定量分析为主要工具的社会学研究在中国发展方兴未艾。无论是从占同期论文发表的比例还是从增长的速度看,定量分析方法正越来越成为社会学实证研究的重要手段。不过,定量方法在社会学实证研究中的应用,仍然存在不少问题。尹海洁(2003)总结了中国社会学定量分析方法应用中主要存在的七个方面不足。风笑天(2005)强调,中国社会学发展尤其是定量分析亟待规范化,分析方法本身亟待规范和研究。陈云松和范晓光(2010;2011)认为,当前中国社会学定量分析领域普遍缺乏对内生性偏误的关注,从而使得研究结论缺少因果效力。实际上,定量分析在实证研究中所遇到的问题,对于整个社会科学来说并不陌生,在定量分析技术应用更普遍、时间更长的其他学科,这一问题或多或少地也存在。
要解决这些问题,一方面需要研究者加深对统计推断的理解,把理论和分析工具结合得更加紧密,另一个方面,则需要一个有力的学术透明化和开源机制,让他人可以验证研究成果,让数据和研究方法可以在更大范围内得以交流。而这个透明化和开源机制的核心和操作性层面,就是“复制性研究”(replication study)。对于定量分析,所谓复制性研究,就是利用某项研究的数据和估算相关模型所用的计算机程序代码,对该项研究的全过程进行再现,实现校验和拓展该项研究的目的。可以提供这些数据和程序代码供他人校验的,就是“可复制”的研究。这里所提及的校验(verification),指的是基于同样数据和同样统计模型的估算结果比较检验;这里提及的拓展(extension),则是基于相同的数据,用不同的模型,或者基于同样模型对不同数据或某一个假说进行检验1。
1.美国《应用计量经济学杂志》(JAE)则分别把校验和拓展称为“狭义复制”(narrow replication)和“广义复制”(wide replication)。Daniel Hamermesh(2007)在《加拿大经济学杂志》(CJE)第40卷第三期的“Viewpoint: Replication in Economics”一文中,把前者称为“纯复制“(pure replication),后者称为“科学性复制”(scientific replication)。
从当前西方社会科学发展的经验看,复制性研究在计量经济学中已经获得一定程度的应用,但在其他学科,特别是社会学中,仅见诸零星的呼声,中国刚刚起步的社会学定量分析领域也是如此。在本文中,将首先阐明复制性研究对于社会科学定量分析的重要性,然后结合近年来西方社会科学定量分析在复制性研究方面的经验、教训和争论,对复制性研究在中国社会学定量分析中的可行性以及主要障碍和对策进行论述。在此基础上,本文还将利用两个实例,简要说明复制性如何加深对社会现象和因果机制的理解。一个是本文第一作者和荷兰乌特勒支大学社会学系比蒂·沃克尔教授、亨克·弗莱普教授合作进行的社会学复制性研究项目中的一个子课题(Chen, Volker & Flap, 2012),另一个是本文第二作者和密歇根大学谢宇教授合作对被别人复制研究的回应(Xie & Wu, 2005)。最后,笔者提出倡导复制性研究、引入学术成果校验拓展机制所应达成的共识和目标建议。本文所论及的复制性研究的意义、争议和对策,对计量经济学和其他定量社会科学研究领域,也同样具有参考价值。
一、复制性研究何以必需当代定量社会学分析之所以应该通过数据共享和模型公开的方式进行复制和再现,是由多方面因素共同决定的。这些原因,既有学科特征和方法论特征层次上的,也有学科现状、发展和学术训练层次上的。笔者总结为六个方面,概述如下:
1. 社会科学的“集体性”特征决定了研究应该走向透明无论是政治学、经济学还是社会学,在当代社会都是一种“集体性”学术事业。首先,从纵向的角度,任何一项研究,都是建立在前人相关研究的结论和方法基础之上,并有待后人的检验和深化。社会科学理论的发展和方法的提高,依靠的就是这种集体智慧的积累。其次,从横向的角度,无论是问题的提出、思路的厘清,还是模型的选择、结论的形成,研究的全过程都极少处于封闭状态,研究者自觉或不自觉地,都会在一定的学术圈内通过交流而获益。最后,要了解一项研究成果的可信度以及对于学科的贡献度,就必须评估产生这个结论的全过程。这个评估,一方面依赖学者的自觉,另一方面也需要学术成果发表平台和第三方的认真检验。也就是说,学术伦理和学术规范,都要求研究成果和过程必须公开。因此,社会科学研究是一个集体参与、集体评估、相互促进和不断提高的互动过程。作为研究对象的数据和研究方法具象化的计算机程序代码,理应做到公开透明,以接受学术集体的检验,并成为学科的公共产品。
2. 定量分析的“简化性”特征要求研究过程接受校验从现实世界纷繁复杂的社会现象中抽取关键性的要素并加以概念化、操作化,然后在一定工作假设的基础上设置模型,对数据进行统计描述和回归分析并作出统计推断,本身就是一个对海量信息的筛选、消减、简化和仿真的过程。而这个过程是否合理与科学,往往对定量分析的结果具有重大的影响。从事社会科学定量分析的学者都非常清楚,模型的基本设置、变量的操作化和样本删除等方面的细微差别,都有可能“失之毫厘、差以千里”。尽管在一项严谨的定量分析中,一般都要进行稳健性与敏感性分析,以观察不同的模型设置、不同操作定义和不同样本方案是否会对统计结果产生大的影响,但这类分析仅仅是研究者自身的主观检验。从这个角度看,定量社会科学分析中确实存在“玩弄数据”的空间,即,不能排除研究者倾向于采用某个特定的模型设置、操作定义或样本选取方式,以导向符合自己意向的结论。尽管笔者相信社会学家对学术道德的自觉遵守和对学科规范的严格执行,亦相信审稿者的识别力和学术精神,但社会学家理应主动为“第三方”校验提供方便,尽最大可能公开所用数据和代码,以避“瓜田李下”之嫌。
3. 内生性问题呼吁对既往社会学定量分析进行拓展随着学科之间的不断融会贯通,旧有的研究结论和理论总会碰到新的挑战和质疑,需要接受更科学和更合理的分析方法的检验。这时,复制性研究,特别是拓展研究的价值就特别大。从目前社会学定量分析实践看,大量研究对内生性问题普遍缺乏关注。在社会科学中,通过定量分析验证一种理论或假说,其本质就是排除竞争性解释(competing explanation)。这些竞争性解释因子,既和因变量有关,又影响自变量。在回归模型设置层面,排除竞争性解释就是在模型中控制它们。但任何一个模型都不可能是“穷举”式的,如潜在的个体异质性,社会学家既无法通过观测获得数据,也无法在基于非实验数据的分析中加以控制。因此,竞争性解释因子往往会被遗漏,令人感兴趣的主解释变量成为“内生”的,导致定量分析的结果出现内生性偏误,失去了因果解释的效力。比如,经典的格兰诺维特的社会网络和林南的社会资源理论认为,嵌入在网络中的社会资本对于个体求职具有积极作用。但是,社会网的形成和特征,以及人们对关系网使用的偏好等等,都具有一定的选择性。这个选择性很可能就是社会资本理论的竞争性解释。亦即,20世纪80年代以来社会学定量分析所发现的社会资本对于求职的正面影响力,也许只是“物以类聚、人以群分”所导致的“伪相关”。美国北卡罗来纳大学(University of North Carolina, Chapel Hill)社会学系的莫维(Mouw,2003)曾就此进行过一项重要的复制性研究。首先,基于同样的数据和模型,他成功再现了马斯登等人(Marsden & Hurlbert, 1988)基于1977年底特律市民经典调查研究的结论,发现被访者的职业地位和帮助求职者的地位正相关; 但在进一步的拓展研究中,当被访者原职和帮助者之间职业是否相同这个因素被控制之后,原来显著的社会资本效应消失了。据此,莫维怀疑“有利于社会资源理论的证据,在很大程度上是帮助者与求职者间的同职信息流的假象”1。严格意义上说,不对内生性问题做出处理的社会学定量研究,其结论均缺乏“反事实”(counterfactual)框架之下的因果解释效力。基于这一点,笔者呼吁长期从事定量分析的社会学者,对自己或经典的研究成果进行校验和拓展。
1.尽管莫维的这一复制性研究被后来的进一步复制性研究者发现存在变量编码错误,但他对内生性问题的关注引发了社会资本研究领域的高度关注。具体参见陈云松和范晓光的《社会资本的劳动力市场效应估算:关于内生性问题的文献回溯和研究策略》,载于《社会学研究》2011年第1期。
4. 已发表的社会科学文献能被成功校验的比率偏低有趣的是,在定量分析技术应用历史较长的欧美计量经济学实证研究中,能够被成功复制校验的文献并不多,这一点不得不引起全体社会科学工作者对于论文结果可靠性的关注,更对中国定量社会学分析形成重要警示。美国《金融、信用和银行杂志》(MCB)在国家科学基金(NSF)的资助下,从1982起就要求投向该刊的论文提供数据和计算机程序代码。利用这个难得的数据,德瓦德、瑟斯比和安德森三人(Dewald, Thursby & Anderson, 1986)对该政策公布后1982年内92篇投稿进行了检查和复制尝试后发现,约有75%左右的作者根据要求提供了数据(或数据来源)及代码,但这些资料问题百出。有的不提供清晰来源,有的关键变量丢失,有的代码无法运行。最后,他们对其中9篇进行了校验复制,结果仅有2篇能够在作者的帮助下获得和发表论文里基本一致的结果。而其余的,即使在和作者多次沟通的情况下,也无法校验成功。这个结果公布后,在西方经济学界引起震动。作为美国最重要的经济学期刊之一的《美国经济学评论》(AER)迅速作出反应,要求在该刊发表论文的作者必须配合可能的校验要求,提供数据和程序代码。2003年,《美国经济学评论》正式要求投稿可被复制,并从2005年起全面执行。其后一大批主流学术期刊也开始紧紧跟随。2008年,为评估论文的可复制情况,《美国经济学评论》从2006-2008年发表的135篇定量分析论文中随机抽取了39篇,邀请了6名博士生进行校验(Glandon, 2010)。在这39篇中,仅仅有20篇提供了足够进行完整校验的数据和代码。最后,6位博士生对9篇论文进行了校验,发现只有5篇基本吻合,另外4篇存在不小的差异。美国计量经济学一流期刊实证分析论文的校验成功率如此之低,那当代定量社会学界的情况又当如何?
5. 复制性研究对社会学定量研究的教学和训练具有重要价值促进社会学研究规范化的重要途径之一就是加强社会学研究方法的教学与训练,而在这些教学与训练中,复制性研究往往是被忽视的项目。哈佛大学肯尼迪政府管理学院的教授加里金(Gary King)是复制性研究在政治学界的首倡者,他(King, 1995)认为复制性研究是一项教学的重要工具。笔者认为,复制性研究对于研究生阶段训练的好处在于:第一,现成的二手数据可以省略不必要的数据搜集时间;第二,针对已发表重要文献的复制,可以让研究生面对原始数据,深入理解和体会前人研究中变量的选择、概念的操作化、模型的选取和样本的处理等等非常具体的方法;第三,把自己的独立分析结果、复制校验结果和前人的发表成果进行比较,可以发现自己在定量分析方法上的不足;第四,通过这种校验,也有可能发现前人研究中的问题和瑕疵,并可能进而引发更有价值的研究和后续探讨。实际上,博士研究生阶段就对著名教授的重要论文进行校验并提出挑战的例子已经在计量经济学界出现,笔者将在下一节做一个介绍;第五,通过对不同数据和不同课题的校验分析,可以培养研究生敏锐的学术比较判断力,即针对不同的数据和不同的模型,分析比较方法和模型各自的局限性和优点。从各国或地区社会科学研究生教育实践来看,一些美国大学计量经济学博士的第二年考试,就是对一项前人研究进行复制校验。香港科技大学社会科学部的定量课程训练,目前也鼓励学生从事复制性研究。复制性研究是非常重要且有益的定量分析技术必修课程。
6. 复制性研究有助于中国定量社会学研究走向规范并形成后发优势三十年来,中国定量社会学分析的应用水平取得了长足进步,但距离规范化和本土化的双重要求仍有一定距离,特别是在数据共享和对高级定量分析方法的掌握和应用上,与其他学科和国家的社会学相比,仍相当滞后,这在本文前言中已有提及。中国处在社会转型时期,值得探讨和分析的新社会现象层出不穷,林南(Lin, 2003)甚至称当代中国为一个社会学研究最大的观察实验室。但因为数据交流不足和定量方法上的滞后,使中国很多社会学家,经常能够针对国情提出极富洞见的假说、理念、观点和理论,但在实证分析规范化研究方面,则略显得有些力不从心。这影响了中国社会学在国际主流社会学中的地位,更直接影响到社会学本土化的能力:因为本土化,并非技术方法的本土化,而是理论和概念的本土化。本土化的理论和现象,必须通过规范化的合理、科学、恰当的统计方法加以检验和解释。不过,从西方定量社会学分析领域来看,复制性研究虽由弗里斯(Freese,2007a)提出,但这个学术机制在主流期刊中尚未形成。从这个角度看,如果中国学者能够重视公开数据和程序代码,早日实现复制性研究常态化和制度化,毫无疑问会有利于学科的规范化发展,也会吸引更多的学者从事定量研究,鼓励中国学者对前人研究的结果进行校验和提高。因此,重视复制性研究,将会缩短中国在定量分析方法和数据等方面和国际社会学的差距,甚至形成后发优势:从一开始,就走一条公开、透明的开源社会学(open-source sociology)之路。
二、复制性研究何以可能要再现某项定量研究的全过程,需要很多条件,尽管有些条件目前还不是很成熟,但起码有以下几个方面的因素,为倡导和普及复制性研究提供了逻辑上的可能性和硬软件基础。
1. 数理统计自身的特点决定了结果必然可被校验定量分析的计算机程序代码本质上是对数据的处理和对模型算法的设计与执行指令。对于一类问题按照一定规则按部就班的求解过程称为算法,其特征就是明确而有限,每一个步骤都有确切和非随意性的规定。当前社会学定量分析的主流,都是通过计算机程序执行算法代码。相同的代码必然产生相同的结果,除非有人工添加噪音部分或计算机自行随机取值,否则执行结果必然是唯一的。既然结果是唯一的,就可以使用既定软件,对既定数据和既定模型算法所产生的研究成果进行校验。定量分析自身的特点决定了复制性研究是具有可行性的。当然,当算法出现必要的随机赋值指令时,结果就会不一样。而数据挖掘和机器学习中有大量的算法都具有一定随机性,两次计算结果不一样是常见的事。不过,从目前社会学定量分析实践看,不管是预测、验证还是拟合,研究工具主要还是线性和非线性回归,因此,定量分析结果唯一性仍然是成立的。这里值得注意的是软件版本的问题。不同版本的软件,在浮点运算和某些算法指令上存在差异和改进,因此必须尽量使用和原作者一样版本的软件。
2. 定量分析技术的不断提高使得拓展性复制成为可能同样的原始数据,用不同的模型进行分析,会产生不同的结果。这是因为,不同的模型所用的工作假设不同,只有采用那些最合理和最符合实际情况假设的模型,才能产生最可信的分析结果。在20世纪90年代,荷兰社会学家沃克尔和弗莱普(Volker & Flap, 1999)利用自己在前民主德国搜集的数据,就德国工人使用社会关系求职的回报率进行了定量研究。由于他们对被访者第一次走上工作岗位、1989年和1995年三个时间节点上的职业和社会网情况数据都进行了搜集,这实际上就是一个纵贯面板数据。不过,20世纪90年代的社会学定量分析尚未认识到内生性问题,因此他们针对不同的时间点,进行了多次最小普通二乘法(OLS)的回归分析。考虑到使用社会关系的选择性和社会网的内生性问题,显然OLS估计量会有偏误。随着社会学家对面板数据理解的加深,现在完全可以利用这个独特的数据,进行“固定效应模型”(fixed-effect model)分析,得出更为可靠的估计结果。本文的案例之一就是第一作者对他们1999年发表在Acta Sociologica上引用率很高的论文进行的一次校验和拓展研究。类似的,随着“多层线性模型”(multi-level model)在20世纪90年代的发展,对此前的研究论文数据进行拓展分析,有可能产生新的发现。
3. 互联网为定量分析的复制提供了便捷载体模型构成和数据来源一般在论文中都有详细讨论,而数据的电子备份和代码全文,学术期刊并不直接提供。其中技术处理的细节,类似样本的删节、数据的编码等等,有的会在论文里提及,有的则被略过。但这些处理细节,都会被详细记录在计算机程序源代码里。熟悉定量分析的人,可以直接阅读代码就可获得一个初步的判断。因此,电子数据和计算机程序代码是校验的基本载体。随着互联网的普及应用,把电子数据和程序代码上传公开几乎是举手之劳。哈佛大学的加里金(King, 2003)在《复制性研究的未来》一文中宣布,由哈佛大学和麻省理工合作的虚拟数据中心(VDC)正在建设之中,这个数据中心会使将来查询数据和程序代码和现在使用搜索引擎一样方便。其他被提及的数据寄存中心还包括密歇根大学的ICPSR出版物档案中心和Murry数据库等等。从中国的情况看,过去的社会调查数据存在很多“一次性使用”的浪费现象(风笑天,2005),这个问题现在已经得到重视。在数据公开方面,中国人民大学的“中国社会调查”(CGSS)开放数据库的建立和征集无疑是一个具有里程碑意义的事件,给中国社会调查数据储存提供了非常好的平台,大大推动了学术研究的开放性和资源共享:感兴趣的研究者只需要进行比较简单的注册申请就可以获得CGSS数据。在西方世界的中国研究中,加州大学洛杉矶分校的特里曼(Treiman)主持的1996年“中国社会变迁调查”(Life Histories and Social Change in Contemporary China)也是非常好的一个公开数据库,并产生了很多优秀期刊论文。不过,在程序源代码方面,目前中国主要期刊均未对此作出要求,也没有专门的数据库。从纯技术角度来看,程序源代码的电子文件体积远比数据文件要小,并不存在储存的技术性障碍。
4. 其他学科和国家的复制性研究实践提供了宝贵经验前文已经提及,经济学最重要的期刊之一《美国经济学评论》(AER)要求:文章被接受的作者,必须在正式发表前提供足以进行复制性研究的数据、程序以及其他必需的详细计算资料。著名的《应用计量经济学期刊》(JAE)还说明特别欢迎对已发表在本刊论文的复制和拓展研究,甚至专门有复制性研究的增刊。政治学的加里金和社会学的弗里斯都已经在各自领域大力倡导复制性研究。前者甚至呼吁在学位授予和终生教职授予等方面都要考虑提供了数据和计算机代码的论文更加突出的分量(King, 1995)。后者则倡导二手数据分析,并提出要克服障碍、建立共享数据和程序的开源社会学(open-source sociology)(Freese, 2007b)。实际上,在社会学领域,威斯康辛大学麦迪逊分校社会学系教授豪瑟早在1987年就在《美国社会学评论》(ASR)上提出类似概念,建议建立数据共享机制,打造科学社会学(Hauser, 1987)。美国社会学协会(ASA)的研究规范(13.04e)也提出要求,在文章发表后,社会学家应该允许他人对文章的结论进行校验。
5. 可复制的研究能提高学者和学术期刊的学术声望公开了数据和程序代码的研究,必然会获得同行的更多引用和关注。从学者自身角度考虑,研究可以被全程再现,意味着自己的研究成果理论上可以接收任何学者的严密审读和提问。这一方面可以促使学者在发表学术成果之前更加严谨,另外也会使学者在学界获得更加良好的声誉。起码敢于公开全部源代码,就意味着学者对于该项研究过程的充分信心。更重要的是,可以被复制校验的研究,必然会获得同行的更多关注和引用。发表文章是对一个学者研究贡献的肯定,而文章被后人引用的频率,则可能反映研究对于整个学科的长久影响力和贡献。从学术期刊的功能来看,任何一家期刊,其办刊目的旨在对一定研究领域内的优秀研究成果进行展示交流,接受更多读者的评论和分析。而定量分析的具体方法和技术过程,毫无疑问也是社会学研究中的重要组成部分。如果主要学术期刊所刊出的社会学定量分析文章,既给广大读者一个结论,又能够提供这个结论的产生过程以及所运用的方法,甚至是技术性处理的细节,那么,这篇文章对于这个领域的学术贡献就是双重的,期刊对于学科的贡献也就是双重的:既从结论性的观点和假说角度做出学术贡献,更能从方法论、数据和程序代码处理技巧等方面提供极为有用的模板,为后来者提供有用的工具。
三、如何看待和解决复制性研究引发的争议复制性研究要求数据共享和代码公开,这毫无疑问对作者、编辑、审稿者和读者提出了非常高的要求,因此实施难度可想而之,也确实引发了一些争论和担忧。在社会学界,西北大学的弗里斯因为提倡复制性研究,被芝加哥大学的社会学家阿伯特(Andrew Abbott)批评为其在重要期刊经常发文章而具有一种精英主义与高人一等的心态1。但即使是复制性研究的怀疑者,也不得不认可复制性研究的价值和理念,并认为复制性研究是最终值得鼓励和推广的,而障碍主要是来自于实施和技术层面。结合弗里斯的讨论以及各学科相关的经验教训,笔者从五个方面对复制性研究实施层面的主要担忧以及回应做一个概括。
1.具体讨论参见Freese(2007a)。
1. 数据使用权问题阿伯特认为复制性研究最大的操作层面障碍就是数据的保护权问题。很多个体层面的数据由一些社会学家小团体甚至个人搜集来,有的在搜集时就和被访者达成隐私条件,有的则希望做后续研究,不想被别人拿到数据而捷足先登。但弗里斯的回应则很简单,他所倡导的并非是要求让个人或者研究团体辛辛苦苦搜集来的数据全部无偿上网,而是要求作者和数据搜集者提供一个清楚明确的数据申请获得方式,感兴趣的人可以自己申请获得那些数据。弗里斯也指出,数据申请规则自然应该体现对隐私等问题的保护,但不可以有针对性地反对研究校验。使用自己的数据发表文章的作者,应该和期刊达成关于数据可以被用于校验目的的协议。
2. 作者、审稿人和校验者的额外负担阿伯特提出,如果作者必须提供数据和代码,工作量自然会增大。而一旦投稿人提供了数据和源代码,期刊编辑和审稿人是不是必须有一个运行程序进行校验的额外任务?对这两个问题,弗里斯的回答是:增加的工作量,保证了证据链和研究的声誉,是值得的。保存代码的工作,实际上也只是动动鼠标的事情,很简单。如果编辑或者审稿人对论文有信心,自然不见得需要重复运行程序。但如果真的有所担心,未尝不可。也即,数据和程序是作为一个备用的东西,如果需要,则请审稿人进行校验;如果不需要,也没有其他额外成本。至于这些数据和程序存放在哪里,弗里斯引用了加里金当年的提议,认为密歇根大学的ICPSR出版物档案中心最为理想。不过他也承认,复制性研究本身也存在主观性和复杂性,可能是几个月下来的辛苦校验,复制性研究者自己也没有十足把握确定究竟是自己搞错了,还是作者的错误。
3. 计算机程序代码公开之虞弗里斯非常细致地考虑到这样一个问题,有作者觉得自己的程序编写有一些小窍门而不愿公开,因为参考和学习这些小窍门的其他学者,显然在今后的论文中不会把这个作为“参考文献”的部分加以引用。弗里斯对此的批评是,第一,如果定量社会学领域连基本的程序编写能力都是稀缺的,那么这些窍门就更值得公开了;第二,弗里斯提醒研究者记住开放计算机程序的意义,记住自己作为代码编写者从其他无偿公开的代码(比如作为科学统计计算软件包R)中所获得的好处;第三,审稿人也应该考虑公开程序代码对社会学领域在方法论上的贡献。
4. 原始数据还是工作数据之争麦克库伦(McCullough,2007)对《金融、信用和银行期刊》(JMCB)1996-2003年之间的全部实证研究文章进行跟踪发现,尽管投稿者都提供了一定的信息,但能够真正进行复制性研究的,只有不到10%。原因之一就是,大量提供的原始数据无法直接校验。对于这个问题,《美国经济学评论》(AER)的做法颇值得借鉴,他们考虑实际情况,要求作者提供工作数据而非原始数据。也即,数据事先被处理好,可以直接被相应的程序直接调用。当然,这样就不可避免带来另外一个尴尬的可能:原始数据被删改。不过,从操作性层面上,这可以作为复制性研究初步阶段的实施方法。
5. 校验发现错误对作者带来的压力在弗里斯等人的公开讨论中,都没有提及“面子”问题。实际上,每一个从事定量研究的学者都可能会担心,如果一个无心的编程错误,在文章发表后被发现是多么尴尬。但实际情况并非如此。例如,前文提及的莫维对前人的研究进行复制拓展,发现“社会趋同性”也许是可以替代社会资本的另外一个解释。根据莫维(Mouw, 2003)公开的STATA执行文件,陈云松和范晓光(2011)发现其对“同职”的变量选取中出现了简单的技术性错误。而纠正错误之后,社会资本效应仍然是显著的。但重要的是,尽管后来对于莫维的复制研究的再次复制发现了这个错误,但这完全不影响莫维对于学科领域的贡献。因为莫维是社会资本实证分析领域第一个对内生性问题进行关注的社会学家。他对于这个领域的贡献在于对内生性问题的提出和解决策略分析,在于一个全新的视野和对模型识别策略的高度关注,而不会被一个数据的回归结果而影响。从这个角度,作为莫维错误的主要发现者的笔者之一,对他的学术贡献和尊敬没有丝毫减弱。
6. 对从事复制性研究的学者的指责经济学家们从一开始就有点忧心忡忡。比如,从事复制性研究的学者,有可能被认为缺乏原创性,校验别人的作品,甚至会被攻击为人格阴暗和刻薄。在计量经济学界,一件非常有影响力的学术争论事件就是围绕复制问题展开的。霍克斯比(Caroline Minter Hoxby)是哈佛大学和斯坦福大学经济学系著名教授,她2000年在《美国经济学评论》(AER)上发表了一篇重要论文,富有创造性地采用了区域内河流数量作为学校数量的工具变量,说明学校竞争可以提高教学质量(Hoxby, 2000)。文章发表后,现任普林斯顿大学副教授、当时尚是博士生的罗斯坦恩(Jesse M. Rothstein)为完成博士课程作业,向作者索取了数据和计算机程序代码进行复制校验。结果罗斯坦恩(Rothstein, 2005)发现霍克斯比的结论无法再现,且部分数据不能公开,结果引发了双方旷日持久的学术争辩。而等到霍克斯比反复和相关机构协商,把原始数据全部公开后,双方在估计量的稳健性方面仍然不能达成一致。两人几成仇敌,论战甚至上升到种族和性别歧视方面(霍克斯比教授是黑人女性)(Hoxby,2004)。不少学者认为罗斯坦恩过于吹毛求疵,为批评而批评,缺乏学术贡献,霍克斯比也认为罗斯坦恩把复制性研究等同于挑刺,不推翻前人结论誓不罢休,本身就是一个误区。笔者认为,技术层面上罗斯坦恩的批评和质疑并没有错。但作为校验者,应该更多着眼于理论可信度,并多从学术贡献的角度来把握一个挑刺的“度”。
四、两个复制性研究的实证分析案例复制性研究究竟如何提高社会学定量分析结果的可靠性,加深对社会现象和因果关系的理解?这里用两个例子来分别说明。
案例一:因果分析中的校验和拓展
陈云松和荷兰乌特勒支大学沃克尔教授、弗莱普教授(Chen, Volker & Flap, 2011)合作的一项校验拓展研究可以作为一个案例加以诠释。20世纪90年代,这两位荷兰社会学家对德国莱比锡和德累斯顿的工人进行了调查,试图验证两个基本假说:(1)在前民主德国,使用社会关系求职(using contacts)和不使用关系相比,对工人的地位获得具有正向效应;(2)在前民主德国,工人在求职中所使用的社会关系资源(帮助者的职业声望)和工人获得的工作的职业声望获得正相关。在数据搜集方面,他们对被访者在身处前民主德国期间的第一次走上工作岗位和1989年两个时间节点上的职业和社会网状况进行了跟踪。为测试这两个假说,他们分别对工人的初职年和1989年进行了各自两次回归分析,得出结论是:假说1不成立,假说2成立。
但是,对于假说1,考虑到使用社会关系并非一个随机决定,而很有可能是个人选择,OLS回归显然可能存在自选择偏误。而对于假说2,由于使用了关系的人很可能具有某些共同的非观测特质,因此必然存在样本选择问题。此外,物以类聚、人以群分,帮助者的职业声望很可能是一个内生的变量,也导致OLS估计量会有偏误。
随着计量方法和技术的不断提高,特别是随着社会学定量分析对内生性偏误的不断加深认识,以及对因果分析的不懈追求,20世纪80-90年代对社会资本的研究需要进行重新校验和拓展。于是,陈云松与沃克尔、弗莱普两位教授一起合作,对这篇他们1999年发表的研究进行了一次复制。两位荷兰教授负责提供原始数据和编码手册,陈云松负责复制研究的STATA程序编写和数据分析。对于假说1,他们首先用OLS模型(纳入他们论文中使用的全部变量)进行了校验(模型1和模型2);然后,采用一阶差分模型,将不随时间变化的个体异质性加以排除,使得模型回归结果在因果效应上更加具有说服力(模型4,其样本为初职和1989年工作不同的人)。对于假说2,同样先进行校验(模型5),然后分别使用单纯赫克曼二阶段模型(模型6和7)以及基于赫克曼二阶段法的一阶差分模型(模型8,其样本为初职和1989年工作都使用社会关系的人)。其中,赫克曼方法用来解决样本选择问题。具体的估计结果,假说1的诸模型见表 1,假设2的诸模型见表 2。
![]() |
表 1 关于“使用关系是否影响本人职业地位获得”的复制性研究 |
![]() |
表 2 关于“帮助者职业地位是否影响本人职业地位获得”的复制性研究 |
两个表格中的拓展研究结果发现,从模型1和2的结果看,各估计量和1999年的最初论文中的结果基本吻合,也即校验基本成功。从模型4看,拓展分析获得的一阶差分估计量在5%水平上不显著,说明使用社会关系与否和工人的职业地位获得关系不大。而这个估计量,因为排除了不随时间变化的个体差异性,比模型1-3具有更强的因果效力。注意,一阶差分估计量(模型4)比同样本的OLS估计量(模型3)要小。一个可能的社会学解释就是,能力作为个体异质性被OLS模型遗漏了。当能力和使用关系与否正相关,且和职业地位获得也正相关时,遗漏这个能力变量就会高估使用关系的影响力。因此可以推测,能力强的德国工人更倾向于使用熟人关系求职。
从表 2看,模型5和原论文中的结果基本一致。模型6与模型5相比,虽然都基于1989年使用了社会关系的人的样本,但模型6解决了样本选择问题。在模型6中,反米尔斯率的显著效应表明确实存在样本选择。注意,此时反密尔斯率的系数为正,而社会资源(帮助者的职业地位)的估计量比OLS模型要小。结合前面提及的能力强的人更倾向于找关系的结论,可以进一步解释,能力强的工人和能力弱的工人比,从社会网获得的收益要大一些。OLS模型样本并不随机,且多为能力强的个人,因此高估了社会资本的效应。最后,同样基于两次使用了社会关系的人,当模型8把赫克曼模型和一阶差分模型结合起来之后,帮助者的职业地位对于工人的职业地位获得仍然具有显著正向效应,且变得更大(比模型7大)。首先,这就非常有力地证明了社会资源的观点:帮助者的地位能够帮助求职;其次,一阶差分估计量变大表明遗漏变量和自变量与因变量的关系是反向的。对此,一个可能的解释就是:遗漏的是隐性的能力变量,因为能力应该和职业地位正相关,所以能力和帮助者的职业地位为负向相关。这就意味着,德国的工人在求职找关系过程中,能力弱的人会更加主动地找职业地位比较高的人,以此作为一种“补偿”策略。
案例二:学术批评与反批评
吴晓刚和谢宇2003年发表于《美国社会学评论》(ASR)上的文章“市场真的有回报吗?对中国城市教育与收入关系的研究”(Wu & Xie, 2003),超越了以往关于市场转型过程中的收入和教育回报的经验研究,重点强调在市场部门中的劳动者具有潜在的异质性。通过使用工作经历的数据,他们将这些分成了两种类型,即“早些进入市场的人”和“晚些进入市场的人”。由于中国市场转型的阶段性特征,“早些进入市场的人”和“晚些进入市场的人”是不一样的,把他们放在一组(市场部门),哪怕他们每个群体都和“留在国有部门的人”具有相同的教育回报率,也很有可能导致对教育的回报率在市场部门表面上看起来比在国有部门要高1。经验结果表明,晚些进入市场的人,而不是早些进入市场的人,能够享受到比留在国有部门的人显著更高的对教育的回报(见表 3模型1)。因此, 他们认为, 市场部门中对教育的高回报并非市场机制本身导致的,因为在不在市场部门本身是一个不断变动选择的过程。
1.参见边燕杰、吴晓刚和李路路(2008:129),图 1。
![]() |
表 3 对于“市场转型背景下教育回报率”的复制性研究 |
这一结果被瑞士一位从来没有研究过中国的当时在读博士生本·简恩(Ben Jann)挑战。他仅仅从统计方法的角度,认为应当对“早些进入市场的人”、“晚些进入市场的人”和“留在国有部门的人”的教育回报进行两两比较。尽管他在没有作者源代码的情况下利用已经公开的数据基本可以复制吴晓刚和谢宇的研究结果(见表 3模型2),但当他将参照组从“留在国有部门的人”换成“晚些进入市场的人”时发现,实际上教育的回报率在“早些进入市场的人”和“晚些进入市场的人”之间没有什么差别(见表 3模型3)。由此,他认为,吴晓刚和谢宇(2003)的结论“市场本身没有回报”还下得太早,至少数据不能支持这一结论,他建议要将所有组两两对照比较(Jann,2005)。
对这一复制研究,谢宇和吴晓刚(Xie & Wu, 2005)随后也在《美国社会学评论》作了回应,并借此机会对研究进行了进一步拓展。问题的焦点是,需不需要在作回归分析时,将所有组两两对照比较?他们不同意简恩的根本之处,并不在于统计方法在技术上正确不正确,而是在于统计方法应该怎样应用于社会学的研究当中。他们认为,统计方法在指导研究方面并不应该和所关注的实质性问题分离,简恩在“方法论上”的批评是误入歧途,因为他的批评仅仅局限于狭隘的统计方法,而缺乏对实质性研究问题和背后社会过程的理解,使得他对“早些进入市场的人”和“晚些进入市场的人”之间差异的检验,与吴和谢最初研究的实质性问题毫无关系。
吴和谢(Wu & Xie, 2003)通篇强调,将事实上具有异质性的劳动者作为单一群体而放在一起,可能是有问题的。Jann对文中所讨论的三个群体——“留在国有部门的人”、“早些进入市场的人”和“晚些进入市场的人”的处理,是假设它们是对称的,就像在实验设计中所看到的那样,所以可以借用通常在方差分析中用到的“多组比较”(multiple-group comparison)的方法。但是吴和谢(2003)关心的是由社会过程造成的组间和组内的异质性。上述三个群体的收入机制来源于累积性的历史过程,而这一历史过程无疑是非对称的,因此,这三个群体的收入机制在分析中也应该按照非对称性来处理。
当然,如果事实如吴和谢(2003)所预测的那样,那么为什么晚进入市场的人享有较高的教育回报率呢?吴和谢在2003年的文章的结尾做了一些讨论。在回应简恩的复制性研究中提出的质疑时,他们(2005)用倾向性分数匹配的方法,对这个问题进一步阐明。第一,他们的发现再一次证实了吴和谢(2003)的结果,虽然晚些时候进入市场确实可能享受更高的收入,但没有找到“早些时候进入市场就具有回报”的证据。第二,即使是“晚些进入市场的人”,随着他们进入市场倾向性的增加,“工作在市场部门”这一事件本身所带来的回报也会急剧下降。那些只有很低倾向性进入市场但实际却已进入市场的人,是那些在国有部门做得特别好的劳动者。对于一个自愿从国有部门转换到市场部门的人来说,进入到市场部门带来的收益必须要超过留在国有部门的收益。那些在国有部门做得很好、又不可能失去工作的劳动者,已经有很好的理由继续留在国有部门。对他们而言,只有当市场部门的吸引力大到不仅能够补偿。而且要多于在国有部门已享受到的优势的时候,他们才有可能向市场部门转换。只有那些拥有最好市场机遇的人,才会从国有部门转换到市场部门。因此,通过分析,他们明确揭示出隐含在2003年那篇文章中的所谓“内生性”(endogeneity)问题。在社会变革中,人们基于可以期望的结果来选择他们的路径,而这些可以期望的结果在劳动者之间并不是相同的(Xie & Wu,2005)。他们在这篇回应文章里揭示的社会过程,后来又有进一步的完善(Wu,2010)。
以上所举的两个例子展示了通过复制性研究进行的学术批评和反批评如何相互促进,深化对某些社会现象的认识,累积关于特定研究领域/对象的知识。不难发现,复制性研究通过校验和拓展,对研究课题和结论起到了验证回顾旧结论和启发开辟新议题的重要作用。这种分析模式,可以为社会学方法和理论的发展积累提供一定的借鉴。
五、建议和结语如何根据中国定量社会学研究发展的实际来认识和倡导复制性研究?笔者认为,学界的共识和主流学术期刊、学术机构对于复制性研究的引导和倡导,是让复制性研究发挥出作用的最重要因素。就复制性研究,应该可以达成以下共识:
第一,复制性研究是一项有利学科长远发展和个人学术进步的重要工具;第二,复制性研究的学术目的不在于追问前人的研究是否可以得到100%的精确再现(尽管理论上所有定量研究都应如此),而在于在前人研究的基础上开展拓展研究;第三,提供所需数据和代码是定量分析者遵守学术规范的承诺和姿态,即在有必要的情况下,为他人的复制性研究提供足够的帮助;第四,复制性研究者应认识到定量技术在社会学研究中的应用水平是一个由低到高的过程1,校验和拓展不是为了挑刺和苛求,而是着眼于理论贡献和学科进步。
1.感兴趣的读者不妨参见林彬、王文韬在《社会学研究》2000年第6期发表的《当代中国社会学经验研究及研究方法的分析与反思——90年代社会学经验研究论文的内容分析》。
同时,学术期刊和学术机构应在条件成熟的情况下确立关于论文可复制化的相关制度,将其作为学术研究方法规范化的重要内容。本文提出相关目标建议如下:
第一,期刊在投稿指南中应明确鼓励和倡导作者提供数据和计算机程序代码,重要期刊可尝试把提供数据和计算机程序代码作为投稿的硬性要求之一,并建立本刊刊发论文所用的数据与计算机程序资料库。在试行阶段,可以参考《美国经济学评论》的做法,仅要求作者提供工作数据和代码而非原始数据;第二,对投稿论文进行随机抽样校验,校验无法通过的不予刊用;第三,对于公开数据和程序代码的论文作者,在是否刊用文章等方面应给予相应的重视;对优秀和具有代表性和创新性的计算程序代码,也应视作对社会学分析的贡献;适当鼓励刊用复制性研究论文;第四,定期利用期刊所获数据和代码,对已发表论文进行评估校验并公开;第五,大学和学术机构应加强复制性研究在研究生训练课程中的应用。
中国社会学发展的规范化和本土化一直是很多学者关心的问题。实际上,不只社会学,包括政治学和经济学在内的其他社会科学的定量研究,都需要加强规范化和针对研究方法的研究。复制性研究作为一个研究策略,既对学者本身提出了更高要求,也能对推进学科发展起到重要的作用。毫无疑问,复制性研究是一个新生事物,即使在定量分析发展时间较长且有着更多积累的西方计量经济学界,围绕它的争议也一直不断。必须结合国情和学科发展实际,大力倡导和鼓励复制性研究,争取建立具有中国特色的规范化、透明化的开源社会学。
边燕杰、吴晓刚、李路路, 主编. 2008. 社会分层和流动: 国外学者对中国研究的新进展[M]. 北京: 中国人民大学出版社. Bian Yanjie, Wu Xiaogang, and Li Lulu (eds. ). 2008. Social Stratification and Mobility: The Overseas Scholar's Advanced Research on China. Beijing: China Remin University Press. |
陈云松, 范晓光. 2010. 社会学定量分析中的内生性问题——测估社会互动的因果效应研究综述. 社会(4). Chen Yunsong, Fan Xiaoguang. 2010. The Endogeneity Problem in Quantitative Analysis:A Review of Estimating Causal Effects of Social Interaction. Chinese Journal of Sociology(4). |
陈云松, 范晓光. 2011. 社会资本的劳动力市场效应估算:关于内生性问题的文献回溯和研究策略. 社会学研究(1). Chen Yunsong, Fan Xiaoguang. 2011. Measuring the Labor Market Effects of Social Capital:A Literature Review and Research Strategy of Dealing with the Endogeneity Problem. Sociological Studies(1). |
Chen, Yunsong, Beate Volker, and Henk Flap. 2012. "The Effects of Using Contacts under State Socialism: Evidence from First-Difference Analysis. " Working Paper.
|
Dewald W. G., Thursby J. G., Anderson R. G. 1986. Replication in Empirical Economics:The Journal of Money, Credit, and Banking Project. American Economic Review, 76: 4. |
风笑天. 2005. 社会学研究方法:走向规范化与本土化所面临的任务. 华中师范大学学报(哲学社会科学版)(6). Feng Xiaotian. 2005. Sociological Research Methods:The Tasks of Normalization and Indigenization. Journal of Central China Normal University(Humanities and Social Sciences)(6). |
Freese Jeremy. 2007a. Reproducibility Standards in Quantitative Social Science:Why Not Sociology?. Sociological Methods and Research 36. |
Freese Jeremy. 2007b. Overcoming Objections to Open-Source Social Science. Sociological Methods and Research 36. |
Glandon, P. 2010. "Report on the American Economic Review Data Availability Compliance Project. " Unpublished Working Paper, Vanderbilt University. https://www.researchgate.net/publication/267297306_Report_on_the_American_Economic_Review_Data_Availability_Compliance_Project
|
Hamermesh Daniel. 2007. Viewpoint:Replication in Economics. Canadian Journal of Economics, 40(3). |
Hauser Robert. 1987. Sharing Data:It's Time for ASA Journals to Follow the Folkways of a Scientific Sociology. American Sociological Review, 52(6). |
Hoxby Caroline. 2000. Does Competition among Public Schools Benefit Students and Taxpayers?. American Economic Review, 90(5). |
Hoxby, Caroline. 2004. "Competition among Public Schools: A Reply to Rothstein. " NBER Working Paper 11216. Cambridge, MA: National Bureau of Economic Research.
|
Jann Ben. 2005. Earnings Returns to Education in Urban China:A Note on Testing Difference among Groups. American Sociological Review, 70(5). |
King Gary. 1995. Replication, Replication. PS:Political Science and Politics, 28(3). |
King Gary. 2003. The Future of Replication. International Studies. Perspectives, 4(1). |
林彬, 王文韬. 2000. 当代中国社会学经验研究及研究方法的分析与反思-90年代社会学经验研究论文的内容分析. 社会学研究(6). Lin Bin, Wang Wentao. 2000. Analysis and Review on the Positive Study and Methodology in Modern China Sociology. Sociological Research(6). |
Lin, Nan. 2003. "Job Search in Urban China: Gender, Network Chains, and Embedded Resources. " In Creation and Return to Social Capital. Flap and Volker (eds. ). New York: Praeger.
|
Marsden Peter, Hurlbert Jeanne S. 1988. Social Resources and Mobility Outcomes:A Replication and Extension. Social Forces, 66: 4. |
McCullough B.D. 2007. Got Replicability-The Journal of Money, Banking and Credit Archive. Econ Journal Watch, 4: 3. |
Mouw Ted. 2003. Social Capital and Finding a Job:Do Contacts Matter?. American Sociological Review, 68: 6. |
Rothstein, Jesse. 2005. "Does Competition among Public Schools Benefit Students and Taxpayers-A Comment on Hoxby (2000). " NBER Working Papers 11215. Cambridge, MA: National Bureau of Economic Research.
|
Volker Beate, Henk Flap. 1999. Getting Ahead in the GDR:Social Capital and Status Attainment under Communism. Acta sociologica, 42(1). |
Wu Xiaogang. 2010. Voluntary and Involuntary Mobility and Earnings Inequality in Urban China. Social Science Research, 39(3). |
Wu Xiaogang, Xie Yu. 2003. Does the Market Pay Off:Earnings Returns to Education in Urban China. American Sociological Review, 68(3). |
Xie Yu, Wu Xiaogang. 2005. Reply:Market Premium, Social Process, and Statisticism. American Sociological Review, 70(5). |
谢宇. 2006. 社会学方法与定量研究. 北京: 社会科学文献出版社. Xie Yu. 2006. Sociological Methodology and Quantitative Research. Beijing: Social Science Academic Press. |
尹海洁. 2003. 试析近年我国社会学定量分析方法应用中的问题. 哈尔滨工业大学学报(社会科学版)(4). Yin Haijie. 2003. Problems in Application of Quantitative Method to Sociological Research in China. Journal of Harbin Institute of Technology(Social Sciences Edition)(4). |