如何评价科研成果,是一个至关重要的问题,因为他对科研人员起着指挥棒的作用。一段时间以来,用科研论文的数量、刊登的刊物以及引用率为依据,是流行的做法。但这一做法,已引起越来越多的质疑。
其实,在科技评价问题上,主要以文章数量、刊登在何种刊物及引用率为依据,而不问文章解决的是什么问题,就和评价经济领域的成就时,只看GDP的总量,而不管其质量有类似之处。这是我国长期以来好大喜功,急于求成的社会浮躁心理的反映。对行政管理部门来说,却是一种省心省力的方法。
主要以GDP论英雄的做法,其弊端已越来越受到诟病。有人讽刺说,在这种指标体系下,盖房子和拆房子,修路和挖路都对增加GDP有贡献。目前,我国的GDP总量已位居世界第二,但经济发展的质量显然比发达国家的相去甚远。因此,近年来,不断有人在探讨并提出更合理的评价标准。同样地,单纯地以论文数量和引用率论英雄,也会带来不少副作用。其实,引用一篇文章,并不一定是正面引用。对文章观点提出质疑,也要引用该文,这和修房子和拆房子都增加GDP是一样的。最近统计,我国刊登在SCI刊物上的文章数,已列世界第二,并有望在不太远的将来名列第一。但将每年两院院士评选出的我国十大科技成就和世界十大科技成就相比,很容易看出二者的差距是非常明显的。我国至今还没有一项能引领世界科技发展的成就,而且短期内无法改变这一局面。形成这一局面的原因固然有很多,但评价科研成果的方法不好,是重要原因之一。
研究工作有三类:(1)基础研究,其主要目的是为认识世界而探索新现象和新规律;(2)技术科学研究,它是为推动或引领工程技术的发展而做的相关的科学层面的研究;(3)工程技术研究,它是直接为解决具体的工程技术问题服务的。三者成果的判定标准不完全相同,但在一点上是相同的,那就是最终都要经得起实践的考验。但考验有时需要较长的时间,而对一篇论文或一项成果尽快地做出恰当的评价,常常是有其必要性的。例如,投向刊物文章的取舍就不能等很长时间。因此,我们还是要探讨如何能既快又准地对科研成果做出评价。
二、 “伯乐识马”的科研成果评价方法美国加州理工学院教授、美国工程院院士、中国科学院外籍院士吴耀祖先生在一篇“试谈中国高等教育和良师益友”的文章中,讨论了应如何评价科研成果的问题。在分析了以SCI文章数及引用率作为学术评价标准导致的弊端后提出:“为学评价,上策是要能有自行评价之见,好似有了伯乐,一瞥便识千里马。”问题是,如何才能有伯乐的这种本领。
1904年,在德国海德堡举行了第三次国际数学大会。当时在汉诺威高等技术大学(Technische Hochschule Hanover)教力学的29岁的普朗特,在会上发表了一篇只有四页纸的论文。哥廷根大学的大数学家克莱因一眼看出了该篇论文的重要性,立即建议哥廷根大学将普朗特请来,与著名数学家龙格共同主持在第二年成立的应用数学和力学研究所,不久又专为普朗特成立了应用力学研究所。该研究所很快成为全世界的应用力学、特别是流体力学的学术中心。培养出了包括钱学森的老师冯·卡门在内的一大批力学杰出人才,同时大大推动了航空技术的发展。这应该是“一瞥便识千里马”的一个典型例子。
记得在多年前,看到一篇吴文俊先生和记者谈话的报道。谈话中,吴先生说自己在抗战胜利后,曾在陈省身先生正在筹建的中央研究院数学研究所工作,期间曾得到陈先生重要的指导。当时他在陈先生的鼓励下开始做研究工作,而当他把第一篇论文拿给陈先生看时,陈先生只是翻了翻,并没有仔细阅读,就说那篇论文不够好,原因是所选题目的方向不够好。陈先生建议吴先生改做另一方向的问题,吴先生说这一指导意见对自己日后的成长起了关键的作用。陈先生能“一瞥”就看出问题,和克莱因能“一瞥”就看中普朗特的论文有异曲同工之妙。不过一个是肯定,一个是否定,但都是“一瞥”就识别了。
两位大师能“一瞥”就看出论文的价值,靠的是什么,是很值得深究的问题。由于我本人是从事流体力学研究的,更熟悉流体力学的情况,因此下面以克莱因的例子进行分析。
克莱因虽然是一位数学家,但他对流体力学很了解,曾在哥廷根大学主持过流体力学的讨论会(19世纪的数学家了解流体力学是很自然的,因为理想流体力学的方程是拉普拉斯方程,很多数学家对其都有研究)。特别是,他还很关心德国工程技术的发展。他是世界上第一个明确提出工程技术的发展要依靠科学(之前,工程技术的发展很多是依靠经验),而科学的发展也要有意识地面向工程技术需求的人。这一思想后来被称为哥廷根学派思想,它通过普朗特、冯·卡门传到钱学森后,钱学森又进一步提出技术科学的思想。在20世纪初,已经知道很多工程技术都牵涉到流体的运动,特别是,航空技术已处于大发展的前夜。但当时已发展得相当充分的理想流体力学,却对解决很多重要的工程技术问题无能为力,其中也包括航空技术。问题出在,数学求解理想流体力学方程所得结果,在靠近物面的一薄层内与实际不符,而数学求解真实流体力学方程又过于困难。普朗特的论文,正是针对理想流体力学的这一不足之处而写的。因此,不言而喻,他所选的问题是推动整个流体力学发展的关键问题。而克莱因既了解当时流体力学的现状,也关心用流体力学成果去促进德国工程技术的发展,也就必然了解普朗特所选问题的重要性。作为大数学家,他对普朗特论文中为解决这一问题而提出的数学上的简化是否合理和可行,也不难做出正确的判断,从而“一瞥便识千里马”。
这样判断的结果,要比看文章发表的刊物和引用率更为可靠。普朗特的那篇划时代的论文,除了他的一个学生在三年后据此写出一篇博士论文外,很长时间内基本没有人引用。直到十几年后,才有越来越多的人引用。很快便成为流体力学中不可不学的内容。
由上述例子可见,要正确判断一项成果的价值,首先要看其选题是否针对该领域的重要问题,其次要看研究结果是否的确解决了提出的问题。要做到这两点并不是高不可攀的,但对评审人也有一定要求,那就是评审人对论文所属领域要有一个宏观了解。如果评审人只对自己从事的小范围问题有所了解,而对学科没有一个宏观的了解,那恐怕就不够了。陈省身先生对吴文俊先生的论文能“一瞥”便做出判断,显然也是因为陈先生对文章所涉领域有一个宏观的了解。这里的考虑,对前述三类研究成果的评价应该是都适用的。
三、 技术科学成果评价的其他要求对技术科学成果的评价,对评审人还有额外的要求。为了推动某一技术的发展,不仅要在科学上行得通,还要考虑实际的可行性,包括经济上的可行性。钱学森先生在其技术科学的思想中,就明确地提出了这一要求。2011年,英国的Philosophical Transaction of Royal Society有一期专门讨论流动控制问题,重点是对湍流的控制,目的是减少飞机飞行时的摩擦阻力。流体力学家们在他们的论文中提出了种种方案,单纯从科学上看,是可以达到减阻的目的。但是,在波音公司工作的一位流体力学家,在其提供的论文中就委婉但令人信服地指出了众多论文都没有考虑实际的可行性,所提方案不可能被用于飞机上。因此,要正确评价这类成果,评审人还应对论文所针对的工程技术领域有一定了解。而这往往是目前很多评审人所不具备的。
又如,被炒得很热的新能源汽车,有些研究成果从科学上看可能是正确的,但从技术或经济上的可行性看,就未必行得通。用铂做催化剂的燃料电池就是一例。按目前的技术水平,功率是80千瓦(中等轿车的功率)的燃料电池,所需铂约为60克。我国目前汽车全国保有量约为1.5亿辆,如果全部换用以铂做催化剂的燃料电池,所需铂就要9000吨。如果将全世界现有的汽车(超过12亿辆)都改用燃料电池,需铂72000吨。而目前全世界已探明的铂储量仅为18000吨,每年的产量只不过几十吨。这还只是就燃料电池本身而言,再考虑配套的燃料生产、储存和运输等问题,则实行以铂为催化剂的燃料电池这一新能源路线的技术和经济上的可行性就更要慎重考虑(除非单位功率燃料电池所需铂的用量能成量级地减少或世界探明的铂储量能成量级地增加)。目前,燃料电池的价格很贵,有些人呼吁通过政府补贴,尽快使之产业化,认为一旦大规模生产,价格可以下来。这恐怕是一厢情愿的想法。如果铂的储量不足以支持大规模生产,则规模大了,不仅价格不会下降,而且还会大幅上升。由此可见,对以用做汽车动力源为目标的燃料电池研究或开发成果的评价,不能孤立地仅考虑科学上正确与否。
以文章发表的刊物及引用率为依据的评价方法,显然不能正确反映湍流控制和燃料电池这类以应用为目标的研究成果的价值。事实上,从上世纪80年代后期开始,有关湍流控制的文章就大量出现,相互引用使得有些文章的被引用率很高,有人还由于鼓吹湍流控制而被选为美国工程院院士。但迄今为止,没有一项成果被有关部门采纳,而且也看不出今后有被采纳的可能,那位美国院士也早就放弃了湍流控制的研究。
单纯以论文发表刊物及引用率衡量其水平的方法,特别不适合用以评价解决重大工程技术问题的研究工作。重大工程技术问题一般是个复杂问题。解决它的关键往往不在于发现新的原理或定律,而是如何提出合理的简化模型,从而使得有可能加以研究、计算并解决。以种植防风林带的效果如何估算为例,就可以说明这一点。防风林带由大量树木组成,估算其效果就是估算在上游一定风级的风来袭时,林带下游风速分布。这是一个纯力学问题,不牵涉其它科学,也不牵涉比经典力学更深层次的问题,因此不存在更深的基础研究问题。同时,虽然林带由很多树木组成,但即使所有树木的形状完全相同,排列也非常整齐,也不能通过先对单棵树木的研究,然后综合出整个林带的作用。因此,只能直接对林带进行合理简化。同样,一棵树木由树干、树枝及树叶组成,但也不能通过先分别研究树干、数枝及树叶的作用而推出整棵树的作用。对防风林带这类问题的解决,同样需要很大的创造性,具有很大的价值。但写出的文章往往会被认为没有新的原理或定律,从而评价不高。而且,由于研究这类问题需要很大投入,一般不会有很多人或单位从事研究,而一旦有了合理可靠的近似解决方法,也就无需继续不断的研究,因此文章引用率也不会很高。
其实,有些学科,就是在解决一个个具体问题过程中逐渐成型的。它们并不是先通过所谓的基础研究和逻辑推导,得到一般性和系统性的规律后,再用以解决一个个具体问题,反而是通过解决一个个具体问题而提炼出来的。例如,用一般的运动稳定性理论,并不能解决飞机的飞行稳定性问题。飞机飞行力学中的理论和方法,是在解决具体的问题中逐渐系统化的。后来航天技术中,飞船又遇到飞行稳定性问题,而飞机飞行力学中的方法不能解决这一问题。同样,只能在解决一个个具体的飞船稳定性问题中,逐渐形成相关的稳定性理论。但在这种积累过程中,每一个具体问题的解决,看起来似乎并没有什么大的理论贡献,其价值常常会被低估。
在我国,除了有对一项具体科研成果的评价问题,还常常要对一个大项目,例如,国家自然科学基金重大项目、863项目、973项目等的成果做出评价。还有如教育部常做的对高校的学科评估等。这里同样有重点应放在什么地方的问题。目前,发表多少SCI文章等数量上的指标,在评价体系中往往起着重要作用。这是促使被评单位对成果进行包装的重要原因。例如,某著名高校的一个国家重点实验室在接受评估时,就把该校和实验室的工作并没有直接关系的文章列入其成果。在汇报材料一大本的情况下,评审人不可能审查每一篇文章,很难发现这类问题。
其实,这类评审同样可以用“伯乐识马”的办法。每一个大项目或每一个国家重点实验室,在成立时都有一个目标。在评审时可以把重点放在项目或实验室在一定时间段内最重要的几项成果上,例如,一到三项成果。如果这几项成果的确是针对所设目标而且水平很高,该项目或重点实验室就可认为基本达标。否则,即使成果数量再多,也不能认为合格。这样,被评审单位就不必费力对汇报材料进行包装,而会把精力放在如何提高科研水平上。而对少数几项成果的评价,当然就可用“伯乐识马”的办法。对学科评估也可采取类似方法,即把重点放在对该学科最高水平的几项成果做出评价上。只有这样,才能把大家的注意力引导到提高质量,而不是追求数量上去。
2012, Vol. 2
