在计量潮汐时代改革定量评价的探索与思考

引用本文

徐芳. 在计量潮汐时代改革定量评价的探索与思考[J]. 科学与社会, 2017, 7(1): 20-30. 复制到剪切板

XU Fang. Reflections on the Reformation of Quantitative Evaluation in the Metric Tide[J]. Science and Society, 2017, 7(1): 20-30. DOI: 10.19524/j.cnki.10-1009/g3.2017.01.020. 复制到剪切板

基金项目

中国科学院院士咨询项目（Y600921601）和国家自然科学基金项目（71201159）

作者简介

徐芳, 中国科学院科技战略咨询研究院副研究员 (项目)。研究方向为科技管理与评价、科技政策学


目录 Contents	摘要 Abstract	全文 Full text	图表 Figures/Tables	PDF PDF

在计量潮汐时代改革定量评价的探索与思考

徐芳

中国科学院科技战略咨询研究院

基金项目：中国科学院院士咨询项目（Y600921601）和国家自然科学基金项目（71201159）。

作者简介：徐芳, 中国科学院科技战略咨询研究院副研究员 (项目)。研究方向为科技管理与评价、科技政策学。

摘要: 当代科技评价已经成为构建科技竞争发展环境的重要基础，是科技战略管理和绩效管理的重要工具，以及公众理解科技的重要渠道。然而现阶段的科技评价已经在国内外科学界引发了复杂的混合效应。我们不禁反思：定量评价已经对科学拥有了真正的权力吗？本文从定量评价频遭诟病，却屹立不倒的原因入手，在总结目前国际科技评价现状及发展趋势基础上，以中国科学院20余年来研究所评价改革路径为案例，提出了完善我国科技评价，推进卓越科学研究的建议，期望为我国科技评价改革提供借鉴与参考。

关键词: 定量评价科技评价改革计量潮汐时代中国科学院研究所评价

一、定量评价对科学拥有了真正的权力？

当代科技评价已经成为构建科技竞争发展环境的重要基础，是科技战略管理和绩效管理的重要工具以及公众理解科技的重要渠道。完善的科技评价体系能够对科技活动创新、人才培养起到有效的激励作用。不仅如此，它对推动我国科技事业的持续进步和健康发展，促进我国科技资源进一步优化配置、营造自主创新的科技环境、推进“国家创新体系”战略任务的建立和发展，有至关重要的意义。

然而，现阶段的科技评价已经在国内外科学界产生了复杂的混合效应。大数据时代，基于数据和指标等证据的决策制定方式，促使科研管理人员对科研活动的跟踪分析更加关注。尽管某些文化和环境可以抵制过于简单的评价方法，但多数情况下，简单的定量评价引导了科研活动，扭曲了科研行为，甚至决定了科研职业生涯。对此，国内外学界纷纷发声，诟病定量评价。前坎特伯雷大主教罗文·威廉斯 (Rowan Williams) 将定量评价称之为是“科学界的新暴行”^[1]。2012年《旧金山宣言》指出科技评价中使用影响因子的“三不应”^[2]。2014年《莱顿宣言》提出，“要避免滥用评估指标的可操作性具体性 (如引用数) 和虚假的精确性 (如影响因子)。” ^[3]这些声音无时无刻不在提醒我们反思，包括影响因子、SCI论文、H指数 (高引用指数) 和项目数在内的评价指标，是不是已经对科学共同体和科学研究拥有了真正的权力？

科技评价改革是我国深化科技体制改革的重要内容之一。中共中央、国务院在《关于深化科技体制改革加快国家创新体系建设的意见》中指出，“要深化科技评价和奖励制度改革；根据不同类型科技活动特点，注重科技创新质量和实际贡献，制定导向明确、激励约束并重的评价标准和方法；基础研究以同行评价为主，特别要加强国际同行评价等”。为完善我国科技评价，本文从定量评价在我国频遭诟病却屹立不倒的原因入手，在总结目前国际科技评价现状及发展趋势基础上，以中国科学院20余年来研究所评价的探索与实践为案例，提出完善我国科技评价，促进高质量重大创新成果产出的建议，期望为我国高水平科研机构科技评价改革提供借鉴与参考。

二、定量评价频遭诟病为何屹立不倒

在计量潮汐时代 (The Metric Tide)^[4]，全球范围的科学或多或少都受到了定量评价的影响。但或许定量评价对中国的影响程度更深，范围更广。环顾当下，定量评价在中国频遭诟病，却屹立不倒。笔者认为，大致有以下三方面的原因：

首先，科技发展的交叉性和复杂性，在技术手段上对科技评价提出了更高要求。部分要求已经超出科学共同体能力范畴，导致对定量评价的依赖性增加。从科学发展历史看，科学已经从最初的兴趣行为逐渐转变为职业行为。当科学职业化而工业界和慈善机构又无法为科学这一职业活动提供足够资金时，科学家们开始要求政府对科学进行资助。作为回报，科学既要为知识创新作贡献，又要为经济社会作贡献。随着政府、企业、公众等不同利益相关者越来越主动地、深度地介入到科学研究过程中，科技问题日益交叉化，科学研究组织模式日益复杂化，科技活动也更富创新性和不确定性，在技术手段上对科技评价提出了更高要求。部分要求已经超出科学共同体能力范畴，导致对定量评价的依赖性增加。需要注意的是，这是科学自身发展导致的世界性问题。

其次，科学共同体自治和自律不足，科研诚信问题严重，科研环境呈恶化趋势。从这角度看，定量评价反而发挥着相对公正公平的作用。在目前大环境下，我国科学共同体自主性较弱，受官本位思想影响比较大，对行政权力仍有较强的依附性。同时，部分科研人员自律不足，且责任意识不够。少数科研人员不认真遵守已建立的评议规则和保密制度，或没有承担起作为同行在科技评价中应发挥的作用。另外，中国论资排辈现象较为严重，同行之间不愿互相得罪，没有为真理争论的传统，在鼓励原创、宽容失败方面做得较少，进一步削弱科学共同体在科技评价中的作用。反观定量评价，其中涉及到的许多数据和指标，是一种广义上的 (国内外) 专家评议结果，如SCI论文数和引用数等。从这角度看，定量评价发挥着相对公正公平的作用。

再者，多因素共同作用刺激了政府对科技投资，加强了政府对科技界的评估。定量评价在一定程度上减轻了管理压力，降低了管理成本。科技评价频遭诟病，问题根源不在于评价方法本身，在于简单粗暴的管理对评价结果的不恰当使用。科技评价作为最重要的导向工具，其结果往往与资源配置等科技管理决策紧密挂钩。近20年来的“科技评价热”主要是政府管理行为引起的。这是世界性的问题，但西方世界多为小政府大市场，科学 (及资源配置) 由市场或科学共同体自治，而我国行政主导过强，科学共同体较弱，政府手里掌握的资源过多。同时，我国国立科研机构现有的资源配置模式和薪酬制度导致机构过度依赖竞争性项目，科研人员热衷追求各种“帽子”。加上社会对政府的绩效问责，反过来又加强了政府对科技界的评估，刺激了政府对科技投资的冲动，制造了“科技泡沫”，引发了更激烈的资源竞争。从效率和效果角度看，定量评价在一定程度上减轻了管理压力，降低了管理成本，满足了管理需求。

如何在计量潮汐时代利用科技评价，服务科学创新，满足管理需求，或许国际科技评价的实践与发展趋势，以及中国科学院研究所评价的改革路径，有一定的参考与借鉴意义。

三、利用科技评价服务科学创新，满足管理需求 1. 国际科技评价实践：导向明确、主体多元、方法多样

发达国家科技评价可大致分为美国模式和欧洲大陆模式。美国模式更多地将科学技术作为生产力进行管理，科技评价服务服从于竞争发展的要求，其基本特点是以项目评价为基础、以绩效评估为导向，如美国能源部国家实验室的评估^[5]。美国政府部门和大型科研团体对其下属研究机构的资源配置主要基于项目竞争，除依托大科学装置的研究机构外，其他研究机构的运行经费主要来自竞争承担项目时获得的间接经费。项目负责人成为研究机构最重要的资源，研究机构必须想方设法凝聚更有竞争力的项目负责人，进而获得更多的研究项目和运行经费。美国国会和政府则通过实施《政府绩效与结果法案》(Government Performance and Results Act，GPRA) 以及项目评估定级工具 (Program Assessment Rating Tool，PART)，推动大型科研团体开展整体绩效评估，保证其战略规划服务国家目标。

欧洲大陆模式更多基于科学技术的文化特质，受传统科学研究理念影响，科技评价以保证研究质量为主要目的，更注重领域方向和科学家的水平，如德国马普学会的研究所评价^[6]。与美国相比，其科技管理是一种弱竞争模式，研究机构的经费以政府预算为主，并保持相对稳定，研究工作由研究机构自主部署和管理，学术带头人有较大的学术自主权，研究环境相对宽松。评价结果通常不直接与项目部署、人员薪酬、经费配置挂钩，主要体现对研究机构和科学家创新成就的认可，对其提供咨询与建议。

在美国模式和欧洲大陆模式之外，近年来国际科技评价发展呈现新趋势，主要表现为以下几个特点：

第一，发展第三方评估机构，建立多元化评估主体。为了保证科技评价公正、公平与公开的原则，提高评估机构与人员的专业性与独立性，各国都不同程度地引入第三方评估。从组织形式来看，第三方评估机构的类型十分广泛，包括中介机构、研究机构和大学等。从分工领域来看，国外第三方评估机构或是与政府形成分工，各自负责对不同领域的评估，如英国第三方评估机构负责具体科研项目、科研机构和科研人员的评估，而政府负责科技政策和科技发展计划的评估^[7]；或是根据政府需求在多个领域组织或展开评估工作，如日本各级政府在开展自评估的同时，也会根据需要组织第三方评估^[8]。

第二，引入“以证据为基础”的评估理念。自英国布莱尔政府将“基于证据的政策制定 (Evidenced-based policymaking)”^①引入政府管理，“以证据为基础 (Evidenced based)”的评估理念逐渐在英国科技界盛行^[9]。英国研究理事会 (Research Councils UK，RCUK) 以往采用专家组评议的方法，开展科研计划和项目的中后期评估。为突破专家评议的局限性，近年来英国开始引入“以证据为基础”的评估理念，即先由专业机构通过独立分析和评估提供评估所需证据，再开展基于这些证据的专家评议。无独有偶，英国2008年高等教育质量评估框架 (Research Excellence Framework，REF) 中关于研究活动力影响力的广度或深度评估，也是邀请专家基于被评机构提交的定量数据和案例等证据，进行通讯评议与会评^[10]。

① The Council for Museums, Archives and Libraries. http://www.informat.org/arta01.html#arta01fn1[2014-10]

第三，更加重视国际竞争力的比较分析。通过科技评价分析自我和竞争对手发展态势，已成为科技战略管理的重要基础。21世纪初美国国家科学院启动了主要学科研究领域 (如数学、免疫学和材料科学与工程等) 的国际标杆专家评议^[11]。由本领域学术专家、联系紧密的用户专家等组成的专家评审组主要回答三个关键问题：与其他国家和地区相比，美国在该领域以及相关领域的研究处在什么位置？影响美国这个研究领域绩效的关键因素是什么？基于美国和国际上该领域的当前发展趋势，美国在该研究领域上近期和长期的相对地位如何？

第四，强调专家的外部化和国际化，保证专家的权威性和独立性。引入外部专家 (尤其是国外专家) 是保证评估专家的权威性和独立性，提高评估质量的重要因素。许多国家在科技评价实践中都强调从外部甚至国外选择评估专家。英国生物技术与生物科学研究理事会 (Biotechnology and Biological Sciences Research Council，BBSRC) 对响应模式投资组合的评估中，要求评估小组由与BBSRC不密切相关的科学家组成^[12]。意大利规定各研究单位成立内部评估委员会时，至少有2名外国知名专家。德国科技评价中更强调外国专家的比例，例如负责马普学会外部专家评估工作的科学顾问委员会有70%的专家来自国外，德国对高校实施的“精英计划”的评估专家有85%来自国外^[13]。

第五，定量评价与定性评价相结合，网络指标日益成为重要参考。科技评价更加注重定量评价与定性评价的有机结合。基于数学工具、信息处理、现代科技管理技术的定量评价在科技评价中占有越来越重要的位置，网络指标在科技评价中日益成为重要参考。欧盟于2010年启动新的科研人员评估标准联合研究计划 (Academic Careers Understood through Measurement and Norms，ACUMEN)，正式引入网络指标及其相应的评价工具。如在线学术成果的被使用情况、学术博客被引用情况、科研成果所获得的网络评论情况、学术成果的微博引用情况、科研成果被社交网站的引用情况以及学术成果的网络视频受关注程度^[14]。

2. 中国科学院研究所评价实践：从数字指标到重大创新成果产出的导向转变

过去20余年，中国科学院通过不断改革研究所评价体系，一方面引导研究所活动与中国科学院不同时期的战略目标和研究所的特点相兼容，另一方面引导研究所科学活动从追求数字和指标，朝向真正的科学贡献、绩效和重大创新成果的产出。这条改革路径主要包括以下四阶段：

阶段一：在科技水平相对较低、同行水平和质量无法保障的情况下，选用定量指标评估研究所的状态和绩效，同时采用国际通行的定量指标评估基础研究。1993年中国科学院首次启用定量指标评估研究所的状态和绩效，同时对基础研究的评估选用国际通用的定量指标 (如SCI论文数等)。在当时条件下，定量评价方法促使中科院科研工作与国际接轨、面向学科前沿、参与国际竞争或者接受国际学术界的评议与检验，在短时期内有利于中科院科研产出数量和质量以及国际学术交流的能力快速提升，有助于国际知名度和国际影响力的提升，也有助于潜在优秀人才的遴选和挖掘。

阶段二：在科技水平提升到一定程度，为避免沉溺“数字游戏”，同时引导研究所发展方向与院战略目标相一致，简单机械的定量评价方法逐渐过渡为定量定性相结合的方法。上世纪90年代末，为鼓励和引导研究所根据知识创新工程目标开展基础性、前瞻性和战略性 (简称“三性”) 科研活动，中国科学院研究所评估改革为二元评价系统 (即目标完成情况评价和“三性”贡献评价)。与过去相比，评价指标以“三性”贡献为基础重新构建，由强调研究活动的近期直接“产出”(outputs)，扩展为关注影响覆盖学术界和社会经济的中长期“成果”(outcomes)。同时，评价标准进一步提升。以“高质量科学论文”为例，SCI论文中只有高端影响因子论文 (约占SCI论文总数的10%) 入选计分。进一步地，利用差异化权重明确政策导向。2002年新增了具有“一票决定权”的“重大创新贡献”指标，目的在于使在创新成果方面表现优异但在定量指标方面表现不佳的工作仍然得到“嘉奖”。

阶段三：为全面提升创新能力，建立综合质量评估、政策导向评估、科技布局评估、创新能力指数定量监测及发展态势分析为主体的多信号反馈评估体系。定量指标为决策过程提供基础数据支持。2005年是当时中国科学院实施知识创新工程的关键阶段，其核心目标在于提高研究所的创新能力。在此背景下，中国科学院总结以往定量评价经验，提出以综合质量评估为根本，建立政策导向评估、科技布局评估、创新能力指数定量监测及发展态势分析为主体的多信号反馈评估体系。该体系采用类似GDP指数的方式来计算研究所创新能力指数，实现研究所横向与纵向的比较，鼓励研究所各尽所能，发挥所长。综合质量评价体系结合了定量和定性信息，其中定量指标为各决策层提供了基础数据支持。

阶段四：根据研究活动类型提出分类评价体系，引入国际专家诊断评议，引导研究所科研产生重大创新成果。定量指标发挥其原本的作用，即为定性评议提供支撑。经过知识创新工程，研究所完成了重建工作，创新能力和研究水平得到快速提升。2012年中国科学院把科研评价作为改革的重要突破口，提出重大成果产出导向的评价体系，在国内外科学界产生了广泛的影响。该评价体系集国际专家诊断评估、五年绩效目标评估和年度定量数据监测方法三位一体，其中定量数据和指标主要在于把握机构发展态势，侧重发挥监测作用，为专家诊断评估和验收评估提供数据支撑作用。

四、改革科技评价，促进卓越的科学研究

我国20世纪90年代以来以SCI为代表的定量评价方法如雨后春笋般的兴起 (包括科研机构与高校)，是与我国当时科研水平和科研环境息息相关的。现如今，随着我国科技水平的提高，如何恰当地使用定量指标评估高水平的大型科研机构是一项艰巨的挑战，特别是当行政干预有时会导致定量指标产生过于积极或消极的影响。从国际做法和惯例看，定量指标在科技评价中的使用也是相当谨慎。英国高等教育基金会 (Higher Education Funding Council For England，HEFCE) 开展了为期几年的关于定量指标评价科研质量的试评估和前沿探索研究，直至2008年才提出在基础研究领域的研究产出质量中，采用文献计量学数据和指标与专家评审相结合的评价方法。日本产业技术综合研究所 (National Institute of Advanced Industrial Science and Technology, AIST) 对下属机构研究产出的评价主要邀请专家考察研究所阶段性进展，年度数据 (如论文、专利、标准、奖励、产品原型、学术交流活动、媒体宣传等) 仅作为监测指标。

为完善我国科技评价，营造和谐并充满活力的学术环境，推进卓越科学研究，促进高质量重大创新成果的产出，推动中国科学健康持续发展，加快国家创新体系建设，本文提出以下建议：

1.积极推进第三方评估的制度化规范化程序化。

第三方评估具有客观、公正、独立的特点，是完善国家治理体系的重要组成部分，也是提升国家治理能力的重要途径。只有抓紧建立和完善第三方评估制度，推动第三方评估制度化、规范化、程序化，尽快建立科学、有效的评估体系，科技评价才能走上健康发展的轨道，第三方评估的作用才能得到充分、有效的发挥。推动第三方评估制度化、规范化、程序化，既要确立第三方评估的法律地位，又要加强评估机构和人才队伍建设；既要探索适合国情的评估理论、评估方法和评估技术，也要强化财政、审计部门的监督；既要提供必要的经费保障，也要提高第三方评估的透明度。

2.推进科学共同体的自治和自律，完善同行评议制度。

其一，要加强科学价值观教育，树立正确的价值导向。引导科学界和全社会正确认识科学的价值，把探究真理，发现新知识和解决问题作为科学的核心使命。其二，提高科学共同体在维护科学精神、推进卓越研究方面的使命感和责任感，鼓励科学共同体内部开展平等自由的学术交流和学术批评，依靠科学共同体集体协作，形成择优汰劣、有效纠错的质量控制机制。其三，建立和完善信用制度和问责制度，制定道德和伦理审查的监管机制。加强科学道德与诚信建设，鼓励科学家有效防止和消除行政权力等非学术因素对科技评价过程和结果的干预，在制度上保障科学家评议过程中的合法权益，切实完善同行评议制度。

3.完善分类评价体系和方法，鼓励重大创新成果的产出。

由于机构使命差异化，研究领域多样化，发展阶段不一致，不同机构的科技评价内容和评价方法都应有所不同。在评估导向上，应朝向真正的科学贡献、绩效和重大创新成果的产出。在评价内容上，基础研究关键应着重评价成果的科学价值。应用研究应强化需求导向，突出应用价值。基础支撑性研究重点考察其为研究与发展活动提供服务的能力、水平和质量等。智库类研究着重评价为宏观决策和可持续发展提供科学建议和解决方案。在评价方法上，要体现个性化、多样化和工具化，既要针对各类评估对象制定个性化的评估指标，又要注重定性方法与定量方法 (如文献计量法、经济计量法、网络计量法) 的结合，还可借鉴美国PART评估、英国REF评估，开发简单易操作的科技评价工具，提高科技评价工作的效率和效果。

4.保障评估结果的精准使用，建立和完善结果反馈和跟踪制度。

科技评估作为科技管理的工具，决定了科技评估结果是涉及资源配置等科学技术决策的重要参考，是制定考核、激励、调整完善、问责等联动措施的依据。从本质看，科技评估问题有时候不在于评估方法本身而在于科技评估结果的使用出现了问题。科技评估结果的泛用、滥用、重复使用、跨领域使用和无限期使用，犹如推到了多米诺骨牌，最终污染了整个科技生态环境。为避免扭曲科技评估活动，也切实有效发挥科技评估对科技活动的积极促进作用，一方面要明确科技评估结果的使用对象、使用范围和使用时间，切实保障评估结果的精准使用、限期使用和适度使用。另一方面可以借鉴美国PART评估的经验，建立和完善评估结果的反馈和跟踪制度。在保证不被侵权、不泄密和保障国家安全的前提下，评估主体可以根据需要，采取适当的方式在一定范围内，将评估结果以及评估中发现的问题和提出的建议反馈给被评估对象。被评估对象要根据正反两方面的评估结果和建议，制定改进方案，并及时调整和改进自身的科学技术活动。

Reflections on the Reformation of Quantitative Evaluation in the Metric Tide

XU Fang

Institute of Science and Development, Chinese Academy of Sciences

Abstract: Modern science and technology evaluation has become an important foundation for constructing a competitive environment for science and technology development. It has become an important tool for science and technology strategic management, and an important channel for the public to understand science and technology. However, scientific and technological evaluation nowadays has triggered a complex mixed effect in the domestic and international scientific community. We cannot help to ask:does quantitative evaluation have a real power over science? This paper first summarized main reasons for frequently-criticized-but-still-developing quantitative evaluation and then proposed suggestions on how to improve China's S & T evaluation based on the summary of international S&T development and CAS institutes evaluation reformation history.

Key words: quantitative evaluation reform of scientific and technological evaluation Metric Tide Era institute evaluation of CAS

参考文献

[1]	Lawrence P.A. The Mismeasurement of Science. Current Biology, 2007, 17(15): 583-585. DOI: 10.1016/j.cub.2007.06.014.
[2]	Fathi M S. San Francisco Declaration on Research Assessment. Journal of Experimental Biology, 2013, 216(12): 533-534.
[3]	Hicks D, Wouters P, Waltman L, et al. Bibliometrics:The Leiden Manifesto for research metrics. Nature, 2013, 520(7548): 429-431.
[4]	Wilsdon J, Allen L, Belfiore E et al. The Metric Tide:Report of the Independent Review of the Role of Metrics in Research Assessment and Management. 2015, Available from http://dera.ioe.ac.uk/23424/2/2015_metric_tide_Redacted.pdf.[2016/09/15]
[5]	多纳德·莫尼汉, 斯蒂芬·拉沃图, 尚虎平, 郎玫, 马佳铮. 绩效管理改革的效果:来自美国联邦政府的证据. 公共管理学报, 2012, 9(2): 98-105.
[6]	周建中, 徐芳. 国立科研机构同行评议方法的模式比较研究. 科学学研究, 2013, 31(11): 1642-1648.
[7]	李新功. 借鉴国外科技评价经验完善我国科技评价体系. 科技进步与对策, 2007, 24(10): 135-139.
[8]	庞宇, 崔玉亭. 日本的政策评估体系和实践及其对中国科技评价的启示. 中国科技论坛, 2012, 1(3): 148-155.
[9]	欧阳进良, 杨云, 韩军, 施筱勇. 英国双重科研资助体系下的科技评价及其经验借鉴. 科学学研究, 2009, 27(7): 1027-1034.
[10]	徐芳, 刘文斌, 李晓轩. 英国REF科研影响力评价的方法及启示. 科学学与科学技术管理, 2014, 35(7): 9-15.
[11]	周建中, 代涛. 美国研究领域国际标杆评估的方法与启示. 科学学与科学技术管理, 2013, 34(5): 20-27.
[12]	国家自然科学基金委政策局. BBSRC生物化学与细胞生物学委员会对响应模式资助工作的评估报告 (上、下). 学科政策动态, 2007, 19.
[13]	陈乐生. 德国科学评估经验及其对中国科技评价实践的启示. 科研管理, 2008, 29(4): 185-189.
[14]	耿海英. 欧盟项目ACUMEN的研究人员评价方法及启示. 现代情报, 2016, 36(7): 34-40.