兼顾重要性与可靠性的科学基金项目绩效评价方法

引用本文

杜元伟, 杨宁, 陈群, 等. 兼顾重要性与可靠性的科学基金项目绩效评价方法[J]. 中国海洋大学学报(社会科学版), 2018, (4): 70-78.

Du Yuanwei, Yang Ning, Chen Qun, et al. Performance Evaluation Method for Science Fund Project by Considering Both Importance and Reliability[J]. Journal of Ocean University of China (Social Sciences), 2018, (4): 70-78.

基金项目

国家自然科学基金项目“大规模协作模式下产品动态连续创新决策方法：基于大数据驱动视角”(71462022)；山东省软科学研究计划重点项目“山东省科技计划项目绩效评价研究”(2016RZE29001)；泰山学者工程专项“透明海洋驱动下海域资源环境承载力监测预警与可持续发展研究”(tsqn20171205)

作者简介

杜元伟(1981-)，男，吉林白山人，中国海洋大学管理学院教授，中国海洋大学海洋发展研究院研究员，主要从事管理决策与科研管理研究

文章历史

收稿日期：2018-04-12

Contents Abstract Full text Figures/Tables PDF

兼顾重要性与可靠性的科学基金项目绩效评价方法

杜元伟^1,2 , 杨宁¹ , 陈群¹ , 王素素¹

1. 中国海洋大学管理学院，山东青岛 266100;
2. 中国海洋大学海洋发展研究院，山东青岛 266100

收稿日期：2018-04-12

基金项目：国家自然科学基金项目“大规模协作模式下产品动态连续创新决策方法：基于大数据驱动视角”(71462022)；山东省软科学研究计划重点项目“山东省科技计划项目绩效评价研究”(2016RZE29001)；泰山学者工程专项“透明海洋驱动下海域资源环境承载力监测预警与可持续发展研究”(tsqn20171205)

作者简介：杜元伟(1981-)，男，吉林白山人，中国海洋大学管理学院教授，中国海洋大学海洋发展研究院研究员，主要从事管理决策与科研管理研究.

摘要：现有科学基金项目绩效评价并未区分指标权重与专家可靠性之间的性质差异，导致评价结果中可能存在科学有效性差的问题。为了解决上述问题，首先基于基本信任分配函数给出了能够反映两种参数性质特征和专家认知能力的科学基金项目绩效评价机理，然后分别基于ER规则和DS规则构建了能对专家在不同指标上评价信息进行补偿性融合的个体融合方法和能对所有专家个体融合结果进行非补偿性再融合的群体融合方法，最后给出了科学基金项目绩效评价的方法步骤。案例分析演示了提出方法的操作过程，验证了方法科学有效性。

关键词：绩效评价专家可靠性指标权重补偿性融合非补偿性融合

Performance Evaluation Method for Science Fund Project by Considering Both Importance and Reliability

Du Yuanwei^1,2, Yang Ning¹, Chen Qun¹, Wang Susu¹

1. College of Management, Ocean University of China, Qingdao 266100, China;
2. Institute of Marine Development Studies, Ocean University of China, Qingdao 266100, China

Abstract: The existing performance evaluation methods for the science fund projects do not distinguish the nature between the index weight and the expert reliability, which leads to the problems of poor scientific validity in the performance evaluation. In order to solve the above problems, the performance evaluation mechanism of the science fund project is proposed based on the basic belief assignment function, in which the nature of the two parameters and the cognitive ability of experts can be well reflected. Then, based on ER (Evidential Reasoning) rules and DS (Dempster-Shafer) rules, this paper respectively works out the compensatory individual fusion method to combine the information on different indicators, and the non-compensatory group fusion method to combine the information of all the experts. Finally, the procedure of performance evaluation for science fund projects are proposed. The case analysis demonstrates the proposed method to be feasible.

Key words: performance evaluation expert reliability index weight compensation fusion non-compensation fusion

一、引言

《科技评价工作规定(试行)办法》指出，政府管理部门及相关方面要委托评价机构或组织专家评价组，运用合理、规范的程序和方法，对科技活动及其相关责任主体所进行的专业化评价与咨询活动，旨在优化科技管理决策，加强科技监督问责，提高科技活动实施效果和财政支出绩效。国家863计划、国家973计划、国家自然科学基金、国家社科基金、教育部人文社科基金等科学基金项目是科技活动的重要组成部分, 它们对提升科技水平、促进经济增长、提高社会福利、增强国家竞争力起到了重要的支撑作用。目前已有专家学者从影响因素分析、指标权重确定、评价方法构建等方面对科学基金项目的绩效评价问题进行了研究。其一，在影响因素分析方面，现有成果主要是通过定量或者定性分析找出影响科学基金项目绩效评价的因素，为科学构建科学基金项目指标体系提供依据。^[1-3]例如：王长峰利用灰色模型及柯布道格拉斯生产函数就互联网的发展对科学基金项目的绩效影响进行定量分析。^[4]其二，在指标权重确定方面，现有成果主要是应用主观赋权、客观赋权、主客观交叉赋权等方法确定科学基金项目绩效评价指标的权重，进而依据该权重对各项指标上的绩效表现信息进行综合集成计算项目取得的绩效。如：Jung采用网络分析法(Analytic Network Process, ANP)、^[5]Nilashi采用决策试验和评价实验室(Decision Making Trial and Evaluation Laboratory, DEMATEL)和ANP相结合的主观赋权方法确定各项指标的权重；^[6]Charttirot采用逼近理想解排序法(Technique for Order Preference by Similarity to Ideal Solution, TOPSIS)等客观赋权方法确定指标权重；^[7]关于主客观交叉赋权法，Mohaghar采用将模糊集与ANP相结合的方法确定指标权重，^[8]Sangaiah等采用将模糊集、DEMATEL、TOPSIS等进行结合的主客观交叉赋权方法确定指标权重。^[9-10]其三，在评价方法构建方面，现有成果或者侧重于从项目产出视角构建能够确定项目绩效效果的评价方法，或者侧重于从项目投入与产出双重视角构建能够确定项目绩效效率的评价方法。如：在项目绩效产出评价方面，肖人毅、Feng、Liu、Gülçin分别采用统动力学仿真、专家系统整合法、智能决策支持法、多准则妥协解排序法(VIKOR)进行项目产出绩效评价；^[11-14]在项目绩效投入产出评价方面，吴建南、杨方娟、宋志红基于循证设计和倾向得分分层等方法得出科学基金资助确实提高科研产出的结论；^[15-17]李志兰、Chun、Karasaka采用数据包络分析(Data Envelopment Analysis, DEA)对科学基金的整体投入产出效率进行分析，得出加大科学基金的投入力度有助于提高产出效率的结论；^[18-20]段庆锋、杨雨昆采用DEA两阶段模型分析了科学基金项目投入产出效率问题并指出效率瓶颈在于知识生产阶段。^[21-22]

上述研究成果对丰富科学基金项目的绩效评价理论和方法起到了重要作用，也为启发本文研究思路、构建理论方法起到了借鉴作用。上述成果中的决策信息主要来源于专家对科学基金项目在各项评价指标上绩效表现的主观判断，最终绩效评价结果是对专家主观判断信息的综合集成。一些成果认识到知识经验、认知能力等诸多方面的差异可能会导致源于不同专家的决策信息的可利用程度并不相同，为此借鉴在多属性决策中利用指标权重对决策信息进行线性加权的融合思路，提出了利用专家权重对主观判断信息进行综合集成的应对策略。然而，多属性决策中的指标权重与群体决策中的专家可靠性是两个截然不同的概念。前者用于反映一个指标相对于另一个指标的重要程度，取决于决策者偏好，具有主观性和相对性，而后者常用于反映一个信源在一段时间内和一定条件下无故障地执行特定功能的能力或可能性，具有客观性和绝对性。需要注意的是，目前对于指标权重的内涵及其确定方法已经在业界达成共识，而专家可靠性确是一个近几年刚刚被关注的新概念。在群体决策领域，有关专家可靠性的研究成果并不多见，个别成果提出了专家可靠性的计算方法，如熵值法、偏离目标测算法等，^[23-25]其他成果则是直接根据统计信息给出专家可靠性的具体数值。^[26-27]本文中的专家可靠性将遵循第二种思路予以确定。由信息融合理论可知，基于指标权重的融合策略和基于可靠性的融合策略并不相同，前者应采用补偿性策略、后者应采用非补偿性策略(原因详见后文)。现有成果因融合策略选择不当而造成对科学基金项目绩效评价结果的科学有效性是有待商榷的。有鉴于此，本文在考虑指标权重与专家可靠系数之间性质差异的基础上，提出了兼顾重要性与可靠性的科学基金项目绩效评价方法。

二、科学基金项目绩效评价机理

科学基金项目绩效评价问题一般是基于专家对待评项目在各项评价指标上绩效表现判断来确定项目综合绩效表现的等级。下面从专家评价信息表达、个体补偿性融合、群体非补偿性融合三个层面构建科学基金项目的绩效评价机理。

基于基本信任函数的信息表达机理。在进行项目绩效评价时，专家需要对待评价项目在各项评价指标上的绩效表现情况进行判断，但是工作经验、专业背景等方面的差异使得各类专家都有自己擅长的领域，他们能对与自己领域相关性高的指标做出完备性评价，对相关性一般的指标做出相对完备的评价，对相关性低指标可能做不出任何的评价。因为专家在各项指标上给出评价信息的完备程度可能并不相同，所以为了有效地提取专家对科学基金项目在各个指标上绩效表现的不完备性评价信息，合理地描述专家的真实推断情况，本文利用证据理论中的基本信任分配函数(Basic Belief function，BBA)构建提取专家判断信息的表达机理。BBA函数是证据理论中的一种证据信息表达方式，能够利用局部不确定和全局不确定描述相对完备和不完备的推断信息。

基于指标权重的个体信息补偿性融合机理。个体信息融合是指为了得到某一专家对科学基金项目的综合性评价信息而对其在所有指标上给出的绩效评价信息进行融合的过程。当项目在某一指标上表现优秀，在另一项指标(如人才培养)表现中等，利用指标权重对两方面信息进行融合后得到的综合评价等级为良好是可能的。上述过程体现了专家评价在信息在不同指标之间是可以相互补偿的，故基于指标权重的个体信息融合要遵循补偿性融合策略。考虑到证据推理(Evidential Reasoning, ER)规则常被用于解决指标之间具有补偿性的多属性决策问题，^[28]故本文采用ER规则对专家在各项指标上的评价信息进行融合。

基于专家可靠系数的群体信息非补偿性融合机理。群体信息融合是指为了从专家群体视角得到他们对科学基金项目的综合性评价信息而对所有专家个体融合结果进行再融合的过程。如果某位专家认为科学基金项目整体绩效表现(经过个体融合得到的结果)一定不是优秀，而他又是绝对可靠的(给出无误信息的可能性是100%)，那么显然该项目最终评价等级一定不应该是优秀(否则会与该专家具有绝对可靠性相冲突)。这体现了专家之间非补偿性的特点，故基于专家可靠系数的群体信息融合应遵循非补偿性融合策略。考虑到证据理论(Dempster-Shafer Theory of Evidence, DS)中的Dempster规则具有“一票否决”的性质，能够反映证据融合的非补偿性特征，故本文采用该规则对群体信息进行融合。^[29]

兼顾重要性与可靠性的科学基金项目绩效评价机理可以描述为：先基于基本信任分配函数信息表达机理提取专家对科学基金项目在各项指标上的不完备性评价信息，再以专家个体为单位、利用ER规则对各项指标上的评价信息进行补偿性融合，最后利用Dempster规则对所有专家的个体评价结果进行非补偿性融合。上述绩效评价机理可描述为下图形式。

图 1 科学基金项目绩效评价机理

三、科学基金项目绩效评价方法 (一) 评价信息提取

基本信任分配函数是基于识别框架对决策问题可能正确方案的一种主观概率推断，其中允许存在局部不确定和全局不确定信息。设a_k为第k个科学基金项目，绩效评价等级采用优秀(E)、良好(G)、一般(A)、较差(P)、很差(W)共五个等级标度，则用于开展科学基金项目绩效评价的识别框架可表示为Θ＝(θ₁, θ₂, θ₃, θ₄, θ₅)=(E, G, A, P, W)；科学基金项目绩效评价的指标集合是：C={c_l|l=1, …, L}，c_l是绩效评价拟采用的第l个指标，ω_l是c_l的权重，ω_l≥0，一般要求∑_l=1^Lω_l=1；设参与科学基金项目绩效评估的专家集为：E={e_i|i=1, …, I}，e_i表示第i个专家，其可靠系数为r_i，0≤r_i≤1，i=1, …, I。请专家e_i结合自身经验以BBA函数的形式对项目a_k在指标c_l上的绩效表现进行评价，^[26]其给出的评价信息如式(1)所示。

$ B_{i,l}^k = \left\{ {\left( {\theta ,\beta _{i,l}^{k,\theta }} \right)\left| {\beta _{i,l}^{k,\theta } \ge 0} \right.,\theta \subseteq \mathit{\Theta },\sum\nolimits_{\theta \subseteq \mathit{\Theta }} {\beta _{i,l}^{k,\theta }} = 1} \right\},\forall i,l,k. $

(1)

其中，β_{i, l}^{k, θ}表示专家e_i认为项目a_k在指标c_l上隶属于等级标度θ的信度(主观概率)，θ为Θ的任意子集，i=1, …, I, l=1, …, L, k=1, …, K。

如专家评价信息为B_{i, l}^k={(θ₁, 0.5), ({θ₂, θ₃}, 0.3), (Θ, 0.2)}={(E, 0.5), ({G, A}, 0.3), (Θ, 0.2)}，表示专家e_i认为项目a_k在指标c_l上的表现有50%的概率是优秀、30%的概率是良好或一般但无法确定具体是其中的哪一个等级(表示局部不确定)。除此之外，e_i无法再给出其他信息了，故将1-50%-30%=20%的概率赋值给了识别框架(表示全局不确定)，表示θ₁、…、θ₅中的每个标度都可能会发生且发生概率为20%。

(二) 个体信息的补偿性融合

为了得到专家对科学基金项目在所有指标上的综合评价信息，需要以专家为对象开展个体融合。同前文所述，在进行个体融合时需要遵循补偿性融合策略、采用ER规则。该规则包括ER折扣和ER正交融合两部分。ER折扣是利用折扣系数对BBA函数中所有焦元的信度进行折扣处理并将由此而产生的剩余支持赋给幂集。^[30]对本文问题而言，折扣系数是指标c_l的权重ω_l，剩余支持是1-ω_l。若令P(Θ)为Θ的幂集，则利用指标权重ω_l对专家e_i评价信息B_{i, l}^k进行ER折扣的计算公式可表达为式(2)所示。

$ m_{i,l}^{k,\theta } = \left\{ \begin{array}{l} 0,\theta = \emptyset \\ {\omega _l}\beta _{i,l}^{k,\theta },\theta \subseteq \mathit{\Theta },\theta = \emptyset \\ 1 - {\omega _l},\theta = P\left( \mathit{\Theta } \right) \end{array} \right. $

(2)

ER正交融合是基于正交和原理对经过ER折扣处理后的多组证据信息进行递归计算的过程。以专家e_i为例进行正交融合的过程可表示为m_{i, l}^{k, θ}⊕…⊕m_{i, L}^{k, θ}，⊕表示利用ER规则进行正交计算，具体递归融合公式如式(3)—式(5)所示。具体而言：将专家e_i在对项目a_k第1项指标的评价信息m_{i, l}^{k, θ}与第2项指标的评价信息m_{i, 2}^{k, θ}按以下公式进行融合，前两项指标评价指标融合得到的结果m_{i, e(2)}^{k, θ}与第3项指标的评价信息m_{i, 3}^{k, θ}进行再融合，以此类推，直到将该专家对项目a_k在所有指标上的评价信息递归融合完毕为止。^[31]

$ \begin{array}{l} m_{i,e\left( l \right)}^k\left( \theta \right) = \left[ {m \oplus \cdots \oplus {m_l}} \right]\left( \theta \right) = \\ \left\{ \begin{array}{l} 0,\theta = \emptyset \\ \frac{{\tilde m_{i,e\left( l \right)}^k\left( \theta \right)}}{{\sum\nolimits_{\vartheta \subseteq \mathit{\Theta }} {\tilde m_{i,c\left( l \right)}^k\left( \vartheta \right)} + \tilde m_{i,c\left( l \right)}^k\left( {P\left( \mathit{\Theta } \right)} \right)}},\\ \theta \subseteq \mathit{\Theta },\theta = P\left( \mathit{\Theta } \right) \end{array} \right. \end{array} $

(3)

$ \begin{array}{*{20}{c}} {\tilde m_{i,e\left( l \right)}^k\left( \theta \right) = \left[ {\left( {1 - {\omega _l}} \right)m_{i,c\left( {l - 1} \right)}^k\left( \theta \right) + } \right.}\\ {\left. {m_{i,c\left( {l - 1} \right)}^k\left( {P\left( \mathit{\Theta } \right)} \right)m_{i,l}^k\left( \theta \right)} \right] + \sum\limits_{\theta ' \cap \theta '' = \theta } {m_{i,c\left( {l - 1} \right)}^k\left( {\theta '} \right)_{i,l}^k\left( {\theta ''} \right)} ,\forall \theta \subseteq \mathit{\Theta }} \end{array} $

(4)

$ \tilde m_{i,c\left( l \right)}^k\left( {P\left( \mathit{\Theta } \right)} \right) = \left( {1 - {\omega _l}} \right)\tilde m_{i,c\left( {l - 1} \right)}^k\left( {P\left( \mathit{\Theta } \right)} \right) $

(5)

式(4)由两部分组成，一部分被命名为个体支持有界和，该部分表示在证据融合过程中，专家e_i支持对一个命题θ的支持由于权重ω_l起着有限的作用，而其剩余支持1-ω_l这个数值对其他支持该命题的证据也起到限制作用，m_{i, c(l-1)}^k(P(Θ))m_{i, l}^k(θ)对被融合的证据起到限制作用。具体解释为专家e_i认为指标c_l表现等级为θ的支持程度由于指标权重ω_l而受到限制，而剩余支持1-ω_l这个数值对其他指标表现等级为θ的支持程度也起到限制作用。另一部分被命名为集体支持正交和，其中m_{i, c(l-1)}^k(θ′)m_{i, l}^k(θ″)测量的是所有证据对一个命题的直接或者一致支持程度。具体解释为专家e_i认为从指标c₁到指标c_l对项目a_i综合表现等级为θ的直接支持程度。

当专家e_i对a_k项目所有指标的评价信息全部递归融合完毕即进行了L次递归融合之后时，需利用式(6)将幂集所分配到的信度进行重新分配。m_{i, e(L)}^k记为专家e_i对项目a_k在所有指标上表现进行融合的个体融合结果，i=1, …, I, k=1, …, K。

$ m_{i,e\left( L \right)}^k\left( \theta \right) = \left\{ \begin{array}{l} 0,\theta = \emptyset \\ \frac{{\tilde m_{i,e\left( L \right)}^k\left( \theta \right)}}{{\sum\nolimits_{\theta ' \subseteq \mathit{\Theta }} {\tilde m_{i,e\left( L \right)}^k\left( {\theta '} \right)} }},\theta = \emptyset \end{array} \right. $

(6)

(三) 群体信息的非补偿性融合

为了得到所有专家对科学基金项目的综合评价信息，需要以项目为单位对所有专家给出的个体融合结果进行在融合。同前文所述，在进行群体信息融合时需要遵循非补偿性融合策略、采用Dempster规则。该规则包括Shafer折扣和DS正交融合两部分。Shafer折扣利用折扣系数对BBA函数中除识别框架外所有焦元的信度进行折扣处理并将由此而产生的剩余支持赋给识别框架。^[32]对本文问题而言，折扣系数是专家e_i的可靠系数r_i，剩余支持是1-r。Θ为识别框架，则利用专家可靠系数r_i对个体融合结果m_{i, e(I)}^k进行Shafer折扣的计算公式可表达为式(7)所示。

$ \bar m_{i,e\left( L \right)}^k\left( \theta \right) = \left\{ \begin{array}{l} {r_i}m_{i,e\left( L \right)}^k\left( \theta \right),\theta \subset \mathit{\Theta }\\ {r_i}m_{i,e\left( L \right)}^k\left( \mathit{\Theta } \right) + 1 - {r_i},\theta = \mathit{\Theta } \end{array} \right. $

(7)

DS正交融合亦是基于正交和原理对经过Shafer折扣处理后的多组证据信息进行计算的过程。具体而言，针对Shafer折扣后的专家评价信息$ \bar{m}_{i,e\left( L \right)}^{k}\left( \theta \right),i=1,\cdots ,I$，利用式(8)便可得到经过DS正交融合的结果m_k。需要说明的是，专家之间的个体评价结果难免会存在冲突，冲突因子K=$\sum\nolimits_{\bigcap\nolimits_{i}{{{\theta }^{i}}=\varnothing }}{\left[ \prod{_{i}\bar{m}_{i,e\left( L \right)}^{k}}\left( {{\theta }^{i}} \right) \right]} $，故为满足BBA函数的定义要求，需要利用归一化处理方式将冲突因子K予以剔除。^[30]

$ {m_k}\left( \theta \right) = \left\{ \begin{array}{l} 0,\theta = \emptyset \\ \frac{1}{{1 - K}}\sum\nolimits_{\bigcap\nolimits_i {{\theta ^i} - \theta } } {\prod\nolimits_i {\bar m_{i,e\left( L \right)}^k\left( {{\theta ^i}} \right)} } ,\theta \subseteq \mathit{\Theta } \end{array} \right. $

(8)

由式(8)的性质可知，若只要有一位绝对可靠的专家反对科学基金项目的绩效评价结果隶属于某个或某几个等级，则无论其他专家的意见如何，该项目的绩效评价结果一定不会隶属于这些评价等级。这体现了Dempster规则能够反映群体信息融合具有非补偿性的特点。

(四) 评价等级确定方法

由式(8)可知，m_k(θ)为所有专家对项目a_k最终绩效隶属评价等级的评价结果。因为m_k(θ)依然是一种BBA函数形式，其中可能存在着局部确定和全局不确定，所以为了确定项目a_k的最终隶属评价等级，需要对该结果进行转换处理。这里采用被业界学者广泛接受的且能兼顾信度函数和似然函数双重优势的Pignistic概率进行转换。^[30]依据Pignistic概率计算规则，确定项目a_k最终绩效隶属评价等级θ_n的计算公式如下：

$ p_n^k = Be{l_k}\left( {{\theta _n}} \right) + {\varepsilon _k} \cdot p{l_k}\left( {{\theta _n}} \right),n = 1, \cdots ,N $

(9)

其中，$ \begin{align}Be{{l}_{k}}\left( {{\theta }_{n}} \right)=\sum{_{\theta \subseteq {{\theta }_{n}}}{{m}_{k}}\left( \theta \right),P{{l}_{k}}}\left( {{\theta }_{n}} \right)= \sum\nolimits_{{{\theta }_{n}}\bigcap \theta \ne \varnothing }{{{m}_{k}}\left( \theta \right),{{\varepsilon }_{k}}} = \left[ 1-\sum\nolimits_{{{\theta }_{n}}\subseteq \Theta }{Be{{l}_{k}}\left( {{\theta }_{n}} \right)} \right]/\sum\nolimits_{{{\theta }_{n}}\subseteq \Theta }{P{{l}_{k}}}\left( {{\theta }_{n}} \right) \\ \end{align}$。

科学基金项目a_k绩效隶属评价等级θ_n的概率为p_n^k，k=1, …, K，n=1, …, N。若令p_n^*^k=max(p₁^k, …, p_N^k)，则项目a_k绩效评价结果应为第n^*个评价等级。如果p_n^*^k取值过小，那么意味着项目a_k绩效评价结果隶属于第n^*个评价等级的概率过低，当低到一定程度时则该评价结果可能无效。为此，本文建议设置一个评价结果有效性阈值δ，当p_n^*^k=max(p₁^k, …, p_N^k)≥δ时，则该项目评价结果有效，此时项目a_k绩效评价结果隶属于第n^*个评价等级；否则，项目a_k绩效评价结果无效，须由专家重新评价。当然，δ取值大小应由科学基金项目管理部门结合项目类型予以确定。当项目类型为重大、重点时，δ取值应较大，当项目类型为一般或自筹时，δ取值应较小。

(五) 专家可靠系数计算方法

关于可靠性的描述，多出现在电气工程领域，常用可靠性系数来刻画可靠性，以此为鉴，专家的可靠性由专家的可靠性系数来表示。^[33-38]在科学基金项目绩效评价中，每位专家都可以视为一个信源，则专家的可靠系数是专家对科学基金项目绩效评价问题给出无误信息的可能性，其值的确定可根据专家历史评价信息予以确定。由实际情况可知，大部分的科学基金项目都是可以顺利结题，只有极个别项目会存在不能结题或者延迟结题的情况。如果采用准确率，即专家认为可以结题的项目数和已经结题的项目数进行比较，则可能会导致这样一个现象，一位评审专家总是给出建议结题的评价结果，不考虑项目完成的质量，这位专家仍然具有较高的可靠性系数，这并不能很好地区分专家之间的可靠程度，故采用该种方法处理刻画专家可靠性系数存在问题。考虑到上述情况，本文建议构建混淆矩阵方法确定专家可靠系数。^[39]混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，不仅具有很好地描述误差的能力，且计算方法简单，易于理解和实际应用。

设Y、N分别表示专家建议结题、不建议结题的项目数，T、F分别表示该项目实际结题、实际未结题的项目数，则YT表示建议结题并实际已结题的项目数，YF为专家建议结题而实际没有结题的项目数，NT为不建议结题但实际已结题的项目数，NF为不建议结题且实际结果并没有结题的项目数。为计算专家可靠性，构造如下表所示的混淆矩阵。^[28]

表 1 混淆矩阵

专家的可靠性系数可由式(10)予以计算。

$ r = \frac{{YT + NF}}{{YT + YF + NT + NF}} $

(10)

例如：若专家共评价项目20项，给出评价结果中，“建议结题”16个，“不建议结题”4个，其中“建议结题”且“实际已结题”项目数为13，“不建议结题”且“实际未结题”项目数为2。根据式(10)计算可得到专家评价的可靠性r=0.75。不难发现，专家的可靠性并非一成不变，而是会根据专家评审结果的准确率予以动态调整。

(六) 方法步骤

遵循前文提出的科学基金项目绩效评价机理，基于评价信息提取、个体信息的补偿性融合、群体信息的非补偿性融合、评价等级确定方法等构建兼顾重要性和可靠性的科学基金项目绩效评价方法步骤。具体如下：

步骤1：相关决策参数确定。设采用五个等级标度Θ=(θ₁, …, θ₅)=(E, G, A, P, W)对科学基金项目为a_k进行评价，k=1, …, K。参与科学基金项目绩效评估的专家为e_i，其可靠系数r_i可由式(10)计算得到，r_i≥0，i=1, …, I。评价指标为c_l，其权重ω_l可由AHP、ANP等方法确定，一般存在∑_l=1^Lω_l=1，ω_l≥0，l=1, …, L。由科学基金项目管理部门结合项目类型予以确定项目的评价结果有效性阈值δ，0 < δ < 1。

步骤2：设定初始评价项目。令k=1，设定当前评价项目为a_k=a₁。

步骤3：提取专家评价信息。请专家e_i结合自己知识经验对当前评价项目的绩效表现进行评价，给出项目a_k在指标c_l上隶属于等级标度θ(θ∈Θ)的信度β_{i, l}^{k, θ}，并采用式(1)所示的BBA函数形式给出评价信息$ \begin{align}B_{i,l}^{k}=\left\{ \left( \theta ,\beta _{i,l}^{k,\theta } \right)\left| \beta _{i,l}^{k,\theta }\ge 0,\theta \mathit{\Theta } ,\sum\nolimits_{\theta \mathit{\Theta }}{B_{i,l}^{k,\theta }=1} \right. \right\}, i=1,\cdots ,I,l=1,\cdots L \end{align}$

步骤4：开展项目绩效的个体融合。基于式(2)利用指标权重ω_l对专家e_i的评价信息B_{i, l}^k进行ER折扣，得到折扣后的评价信息m_{i, l}^{k, θ}。遵循补偿性融合策略，基于式(3)—式(5)采用ER规则对专家e_i在各项指标上的评价信息进行递归融合，得到$ \tilde{m}_{i,e\left( L \right)}^{k}=m_{i,l}^{k}\oplus \cdots \oplus _{i,L}^{k}$，并基于式(6)对$\tilde{m}_{i,e\left( L \right)}^{k} $中的幂集信度进行重新分配，得到最终的个体融合结果m_{i, e(L)}^k，i=1, …, I，k=1, …, K。

步骤5：开展项目绩效的群体融合。基于式(7)利用可靠系数r_i对专家e_i的个体融合结果m_{i, e(L)}^k进行Shafer折扣，得到折扣后的个体评价信息$\bar{m}_{i,e\left( L \right)}^{k} $。遵循非补偿性融合策略，基于式(8)采用Dempster规则对所有专家的个体评价信息$\bar{m}_{i,e\left( L \right)}^{k} $进行融合，得到$ {{m}_{k}}=\bar{m}_{I,e\left( L \right)}^{k}\oplus \cdots \oplus \bar{m}_{I,e\left( L \right)}^{k},k=1,\cdots ,K$。

步骤6：确定绩效评价等级。基于式(9)计算项目a_k绩效隶属评价等级θ_n的Pignistic概率p_n^k，n=1, …, N。不妨令p_n^*^k=max(p₁^k, …, p_N^k)，若p_n^*^k≥δ，说明评价结果有效，项目a_k绩效评价结果隶属于第n^*个评价等级；若p_n^*^k < δ，说明评价结果无效，需要专家重新评价，转到步骤3。

步骤7：判断是否完成评价。令k=k+1。若k≤K，则说明还有项目a_k需要进行绩效评价，转到步骤3；若k>K，则说明已完成对所有项目的绩效评价，结束。

四、案例模拟分析——以某国家自然科学基金项目为例

为验证提出方法的科学有效性，本文以某国家自然科学基金项目为例进行案例分析。该科学基金项目于2012年立项，预期目标是通过借鉴吸收知识管理、行为科学、管理决策、信息融合等理论的基本观点和技术方法，针对知识网络中知识数量庞大、知识类型多样、知识主体复杂等特点，对知识网络中决策信息的提取问题开展研究，以期能够明确知识网络中关键知识主体的识别方法、揭示多元决策信息智能提取机理、建立多元决策信息智能提取模型。

参照《国家自然科学基金资助项目研究成果管理办法》和《国家自然科学基金资助项目结题/成果报告》，这里选用项目执行情况(c₁)、项目取得成果的总体情况(c₂)、成果转化应用(c₃)、人才培养情况(c₄)、应用前景情况(c₅)作为项目的绩效评价指标。设指标权重为(ω₁, …, ω₅)=(1.00, 1.00, 0.64, 0.92, 0.52)。为给专家开展绩效评价提供依据信息，在此给出项目原计划目标以及实际完成情况，具体如表 2所示。

表 2 项目计划情况以及完成情况信息表

指标	项目原计划目标	项目实际完成情况
项目执行情况	第1年完成主体识别方法；第2年完成信息提取机理；第3年完成信息提取模型；第4年完成案例应用；每年撰写论文3篇；构建知识网络信息提取机理和模型。	各年度均完成计划任务；第1-4年发表论文分别是8、5、7、7篇；出版专著1部；面向知识网络构建了一套多元决策信息智能提取模型方法体系。
项目取得成果	省级奖励1项；论文10-12篇，其中SCI 2-3篇，国家自然科学基金委认定期刊论文3-5篇；学术报告1次。	省级哲社三等奖2项；论文30篇，SCI 2篇，EI 7篇，中文核心7篇，CSSCI 11篇；学术专著1部；学术报告4次。
成果转化应用	本项研究属于基础研究，成果主要以论文和专著形式体现，无此类计划。	研究提出的关键知识主体识别方法、主客观知识融合方法可以申请专利或软著；拟将研究成果开发成决策支持系统，并以转让、许可等方式进行转化应用；决策支持系统开发完成后，能够产生一定的经济效益。
人才培养情况	培养中青年教师1-2人；出站博士后/毕业博士1-2人；毕业硕士2-3人。	培养3人，其中1名副教授破格晋升为教授，2名讲师晋升为副教授；5人，其中2名成员获得博士学位；5人，其中1名成员取得硕博连读资格, 2名成员取得硕士学位。
用前景情况	本项研究属于基础研究，成果主要以论文和专著形式体现，无此类计划。	研究成果被知识管理领域多篇论文引用；拟开发的决策支持系统，可以辅助企业做出科学决策，创造经济社会价值。

表 2 项目计划情况以及完成情况信息表

参与项目绩效评价的专家为e_i, i=1, …, 5。设五位专家历史上已对20个科学基金项目进行了评价，评价结果都记录在专家信用库中，具体如表 3所示。将表 3中数据代入式(10)计算专家可靠系数为(r₁, r₂, r₃, r₄, r₅)=(0.80, 1.00, 0.95, 0.90, 0.90)。不妨设项目的评价结果有效性阈值δ=70%。请专家eⁱ结合自己知识经验对该评价项目的绩效表现进行评价，给出BBA函数形式的评价信息B_{i, l}^k，k=1，i=1, …, 5，l=1, …, 5。不妨设专家评价信息具体如表 4所示。遵循前文步骤4和步骤5开展项目绩效的个体融合结果和群体融合结果如表 5所示。遵循步骤6，计算项目a_k绩效隶属评价等级θ_n的Pignistic概率如表 6所示。由表 6可知，该项目属于优秀(E)等级的概率为95.51%，大于阈值δ=70%。由此可知，该项目的绩效评价结果有效，最终评价等级为优秀(E)。

表 3 专家历史评价结果

表 4 专家评价信息

指标	专家	等级
指标	专家	优秀(E)	良好(G)	一般(A)	较差(P)	很差(W)	不知道
c₁	e₁	0.30	0.60	0.00	0.00	0.00	0.10
	e₂	0.80	0.00	0.00	0.00	0.00	0.20
	e₃	0.85	0.00	0.00	0.00	0.00	0.15
	e₄	1.00	0.00	0.00	0.00	0.00	0.00
	e₅	0.00	0.00	0.00	0.00	0.00	1.00
c₂	e₁	0.60	0.40	0.00	0.00	0.00	0.00
	e₂	0.75	0.00	0.00	0.00	0.00	0.25
	e₃	0.70	0.00	0.00	0.00	0.00	0.30
	e₄	1.00	0.00	0.00	0.00	0.00	0.00
	e₅	0.00	0.00	0.00	0.00	0.00	1.00
c₃	e₁	0.00	0.10	0.60	0.00	0.00	0.30
	e₂	0.00	0.40	0.30	0.00	0.00	0.30
	e₃	0.00	0.20	0.40	0.00	0.00	0.20
	e₄	0.00	0.00	0.60	0.00	0.00	0.40
	e₅	0.00	0.60	0.20	0.00	0.00	0.20
c₄	e₁	0.40	0.40	0.00	0.00	0.00	0.20
	e₂	0.70	0.20	0.00	0.00	0.00	0.10
	e₃	0.60	0.20	0.00	0.00	0.00	0.20
	e₄	0.60	0.00	0.00	0.00	0.00	0.40
	e₅	0.00	0.60	0.00	0.00	0.00	0.40
c₅	e₁	0.40	0.20	0.00	0.00	0.00	0.20
	e₂	0.00	0.70	0.00	0.00	0.00	0.30
	e₃	0.00	0.60	0.00	0.00	0.00	0.40
	e₄	0.00	0.00	0.60	0.00	0.00	0.40
	e₅	0.00	0.90	0.10	0.00	0.00	0.00

表 4 专家评价信息

表 5 个体/群体融合结果

表 6 评价等级的概率分布

因为本文核心思想是基于指标权重的个体融合采用补偿性融合策略、基于可靠性的群体融合采用非补偿性策略，所以这里分别从个体融合结果和群体融合结果两个方面对上述融合策略进行科学性分析。

从个体融合结果看可以得到以下结论：(1)专家e₁认为该项目绩效表现等级有46.49%的可能性为优秀，53.51%可能性为良好，该评价信息是否科学呢？由表 5可知，专家e₁在c₁、c₂、c₄三项指标上的评价信息与其他专家略有差距，专家e₁认为该项目在这些指标上的绩效表现为良好的可能性很大、其次为优秀，而其他专家则认为绩效表现为优秀可能性较大。由表 3可知，该项目在上述三项指标上的绩效表现均达到并超额完成了原计划目标，这说明专家e₁的评价信息可能是存在偏差的。本文方法通过可靠系数80%对存在偏差的信息进行了折扣处理，并未对项目最终绩效评价结果(优秀)产生不利影响，这体现了本文方法对评价信息进行折扣处理具有科学性。(2)专家e₄的个体融合结果是该项目100%属于优秀。由表 5可知，虽然专家e₄并没有认为该项目在指标c₃、c₄、c₅上100%为优秀，但是由于指标c₁、c₂的权重都为1(即这两项指标是绝对重要的)，而专家e₄又认为该项目在这两项指标上绝对优秀，所以其个体融合结果为绝对优秀，符合直觉判断。(3)专家e₅对项目在c₁、c₂的绩效表现均给出完全不知道的评价信息，这并未对其个体评价结果造成影响，体现了本文信息表达机理在允许专家结合自己的知识经验给出评价信息方面具有独特优势。

从群体融合结果看可以得到以下结论：(1)由表 6可知，专家e₂、e₃认为该项目有属于优秀的等级的可能性约为95%，二者可靠系数分别为100%、95%，可靠性强，项目的最终评价结果与二者的个体判断相一致，符合直觉逻辑。(2)专家e₄认为该项目100%一定属于优秀，即认为该项目一定不会是其他等级(如良好)，而最终评价结果并非100%优秀，在其他等级(良好)上也赋予了信度。由前文可知，当专家绝对可靠且他/她认为该项目一定不会是良好时，则该项目最终评价结果一定不会是良好。但专家e₄的可靠系数是90%而非100%，这与非补偿性融合中的“一票否定”规则并不冲突。(3)由表 5可知，该项目的每一项指标每位专家都没有给出较差、很差的评价信息，专家个体融合结果、群体融合结果在较差、很差等级上也均未赋予信度，符合直觉逻辑，这体现了本文采用ER规则和Dempster规则进行信息融合具有科学性。

五、结束语

现有科学基金项目绩效评价并未区分指标权重与专家可靠性之间的性质差异，从而容易导致评价结果可能存在科学有效性差的问题。为了解决上述问题，本文首先基于基本信任分配函数给出了能够反映指标权重与专家可靠性两种参数性质特征和专家认知能力的科学基金项目绩效评价机理。然后，基于ER折扣和ER规则构建了能够对专家在不同指标上评价信息进行补偿性融合的个体融合方法，基于Shafer折扣和Dempster规则构建了能够对所有专家个体融合结果进行再融合的群体融合方法。在此基础上，结合Pignistic概率和结果有效性阈值提出了科学基金项目隶属评价等级的确定方法，并基于专家历史评价信息构建了专家可靠系数的计算方法。最后，遵循本文提出的科学基金项目绩效评价机理，结合评价信息提取、个体融合方法、群体融合方法等给出了科学基金项目绩效评价的方法步骤。本文还以某国家自然科学基金项目为案例背景模拟了提出方法的具体操作过程、分析了方法在解决实际问题过程中的科学性。需要说明的是，本文方法侧重于从静态决策视角基于专家给出的评价信息予以综合集成，实现对科学基金项目绩效表现的最终评价，而对于需要专家之间通过彼此交互对科学基金项目绩效进行评价的动态决策问题并未涉及，这也是下一步要研究的重点问题。

参考文献

[1]	马亮, 吴建南, 时仲毅. 科研项目绩效的影响因素:医学科学基金面上项目的实证分析[J]. 科学学与科学技术管理, 2012, (07): 12-20. (0)
[2]	尚虎平, 赵盼盼. 项目申请者的哪些特征影响科研绩效提升?——一个面向国家自然科学基金产出的倒序评估[J]. 科学学研究, 2014, 32(09): 1378-1389. DOI:10.3969/j.issn.1003-2053.2014.09.013 (0)
[3]	郑石明, 任柳青. 青年科学基金项目绩效评价及其影响因素[J]. 中国科学基金, 2016, (03): 255-261. (0)
[4]	王长峰, 刘喜梅. 互联网发展对重大项目绩效影响的定量分析[J]. 科研管理, 2017, (04): 154-160. (0)
[5]	Jung U, Seo D W. An ANP approach for R&D project evaluation based on interdependencies between research objectives and evaluation criteria[J]. Decision Support Systems, 2010, 49(3): 335-342. DOI:10.1016/j.dss.2010.04.005 (0)
[6]	Nilashi M, Zakaria R, Ibrahim O, et al. MCPCM: A DEMATEL-ANP-Based Multi-criteria Decision-Making Approach to Evaluate the Critical Success Factors in Construction Projects[J]. Arabian Journal for Science and Engineering, 2015, 40(2): 343-361. DOI:10.1007/s13369-014-1529-1 (0)
[7]	Karavega C, Thawesaengskulthaib N, Chandrachaic A. A combined technique using SEM and TOPSIS for the commercialization capability of R&D project evaluation[J]. Decision Science Letters, 2015, , 379-396. DOI:10.5267/j.dsl.2015.3.004 (0)
[8]	Mohaghar A, Fathi M R, Faghih A, et al. An integrated approach of Fuzzy ANP and Fuzzy TOPSIS for R&D project selection[J]. Australian Journal of Basic and Applied Sciences, 2012, 2(6): 66-75. (0)
[9]	Sangaiah A K, Subramaniam P R, Zheng X. A combined fuzzy DEMATEL and fuzzy TOPSIS approach for evaluating GSD project outcome factors[J]. Neural Comput & Applic, 2015, 26(5): 1025-1040. (0)
[10]	Sangaiah A K, Gopal J, Basu A, et al. An integrated fuzzy DEMATEL, TOPSIS, and ELECTRE approach for evaluating knowledge transfer effectiveness with reference to GSD project outcome[J]. Neural Comput & Applic, 2017, 28(1): 111-123. (0)
[11]	肖人毅. 面向过程的科研项目评价方法研究[D]. 大连理工大学, 2011. (0)
[12]	Feng B, Mab J, Fan Z. An integrated method for collaborative R&D project selection Supporting innovative research teams[J]. Expert Systems with Applications, 2011, (38): 5532-5543. (0)
[13]	Liu O, Wang J, Mac J, et al. An intelligent decision support approach for reviewer assignment in R&D project selection[J]. Computers in Industry, 2016, (76): 1-10. (0)
[14]	Gülçin, Ozkan B, Karabulut Y G. Energy project performance evaluation with sustainability perspective[J]. Energy, 2017, , 549-560. (0)
[15]	吴建南, 马亮, 郑永和. 基于循证设计的科学基金绩效国际评估研究[J]. 科研管理, 2012, (06): 137-145. (0)
[16]	杨芳娟, 刘云, 宋赛赛. 基于循证设计的中国博士后科学基金整体资助绩效评估[J]. 科学学与科学技术管理, 2014, (08): 152-161. (0)
[17]	宋志红, 郭艳新, 李冬梅. 科学基金资助提高科研产出了吗?——基于倾向得分分层法的实证研究[J]. 科学学研究, 2016, (01): 116-121. DOI:10.3969/j.issn.1003-2053.2016.01.014 (0)
[18]	李志兰, 何学东. 基于DEA模型的自然科学基金投入产出效率分析——以浙江省自然科学基金为例[J]. 浙江大学学报(理学版), 2015, 42(2): 246-252. DOI:10.3785/j.issn.1008-9497.2015.02.020 (0)
[19]	Chun D, Sung junHong, Yang honChung. Influencing factors on hydrogen energy R&D projects: An ex-post performance evaluation[J]. Renewable and Sustainable Energy Reviews, 2016, (53): 1252-1258. (0)
[20]	Karasakal E, Aker P. A multicriteria sorting approach based on data envelopment analysis for R&D project selection problem[J]. Omega, 2016, , 1-14. (0)
[21]	段庆锋. 基于两阶段DEA的科学基金项目产出评价研究[J]. 统计与信息论坛, 2012, (11): 87-91. DOI:10.3969/j.issn.1007-3116.2012.11.014 (0)
[22]	杨雨昆. 基于DEA两阶段模型的基础研究项目绩效评价的研究[D]. 北京化工大学, 2016. (0)
[23]	吴坚, 梁昌勇, 李绩才. 群决策中专家决策意见的可靠性研究[J]. 合肥工业大学学报(自然科学版), 2009, (03): 366-368. DOI:10.3969/j.issn.1003-5060.2009.03.019 (0)
[24]	阮连法, 郑晓玲. 基于K-L测度值的熵方法在专家群决策可靠性分析中的应用[J]. 统计与决策, 2012, (22): 43-45. (0)
[25]	张洁, 朱建军, 刘思峰. 基于前景理论的随机概率信息群集结模型研究[J]. 中国管理科学, 2011, 19(专辑): 5-10. (0)
[26]	杜元伟, 权锡鉴. 考虑专家可靠性与属性权重差异的不完备型多属性群决策方法[J]. 系统工程, 2017, (07): 128-137. DOI:10.3969/j.issn.1001-2362.2017.07.085 (0)
[27]	杜元伟, 王素素, 杨宁, 等. 考虑专家知识结构的不完备型多属性大群体决策方法[J]. 中国管理科学, 2017, (12): 167-178. (0)
[28]	Du Y, Wang Y. Evidence combination rule with contrary support in the evidential reasoning approach[J]. Expert Systems With Applications, 2017, 88: 193-204. DOI:10.1016/j.eswa.2017.06.045 (0)
[29]	Yang J, Singh M G. An evidential reasoning approach for multiple-attribute decision making with uncertainty[J]. Transactions on systems, man, and cybernetics, 1994, 24(1): 1-18. DOI:10.1109/21.259681 (0)
[30]	杜元伟, 孙永河, 段万春. 证据理论的主客观整合推理方法[J]. 计算机工程, 2011, (06): 41-43. (0)
[31]	杜元伟, 杨娜. 大数据环境下双层分布式融合决策方法[J]. 中国管理科学, 2016, (05): 127-138. (0)
[32]	Yang J, Xu D. Evidential reasoning rule for evidence combination[J]. Artificial Intelligence, 2013, 205: 1-29. DOI:10.1016/j.artint.2013.09.003 (0)
[33]	郭经, 刘文霞, 张建华, 等. 孤岛微网信息物理系统可靠性建模与评估[J]. 电网技术, 2018, 42(5): 1441-1451. (0)
[34]	林帅, 贾利民, 王艳辉, 等. 基于Choquet积分的复杂机电系统可靠性测度及应用[J]. 应用基础与工程科学学报, 2018, 26(1): 214-227. (0)
[35]	刘文霞, 宫琦, 郭经, 等. 基于混合通信网的主动配电信息物理系统可靠性评价[J]. 中国电机工程学报, 2018, 38(6): 1706-1718. (0)
[36]	陈云翔, 罗承昆, 王攀, 等. 考虑可靠性的时域证据组合方法[J]. 控制与决策, 2018, (03): 463-470. (0)
[37]	喻勇, 司小胜, 胡昌华, 等. 数据驱动的可靠性评估与寿命预测研究进展:基于协变量的方法[J]. 自动化学报, 2018, (02): 216-227. (0)
[38]	彭寒梅, 郭颖聪, 昌玲, 等. 主从控制孤岛运行微电网的短期可靠性评估[J]. 电网技术, 2018, 42(2): 463-471. (0)
[39]	朱卫东, 刘芳, 王东鹏, 等. 科学基金项目立项评估:综合评价信息可靠性的多指标证据推理规则研究[J]. 中国管理科学, 2016, (10): 141-148. (0)