2. 安徽大学 计算智能与信号处理教育部重点实验室, 安徽 合肥 230601
2. Key Laboratory of Intelligent Computing and Signal Processing of Ministry of Education, Anhui University, Hefei 230601, China
科研合作网络作为一种典型的社会网络受到了复杂网络领域众多学者的关注,美国科学家Price出版的《Little science,big science》指出“科研合作已经成为当今科学发展的重要动力”[1]。科研合作有助于信息的传递和共享、研究者之间的交流、新时期复合型人才的培养等。同时对某一领域内科研合作网络的演化机制研究,可以发现与科研合作网络相关的新知识,对了解科研合作网的最新研究动态和发展方向有着重要的意义。
很多研究人员对科研合作网络的宏观动态演化进行了研究,Newman 发现生物化学、物理、高能物理和计算机科学4个数据库中论文合作网络都呈现小世界特征、度分布具有幂律特征[2]。Barabasie 等利用数学与神经科学8年合作网络,发现平均度随时间减少,定点分离度增加,网络度分布呈无标度特性[3]。Tomassini等[4, 5]分析了科研合作网络的时间演化规律,对平均度、聚类系数、平均路径长度、度分布的增长规律做出了实证研究。Almendral等[6]分析了欧洲框架内的机构间合作网络,发现了加速增长的无标度现象,表明新合作不断得到鼓励。Kim等[7]分析了韩国热点研究者科研合作网的2个组群和重叠节点的演化规律。胡枫等[8]利用平均场理论发现了作者的发表论文数分布符合幂律分布,并且分布的幂指数γ与合作领域作者增长速度相关。也有不少微观动态演化方面的研究,主要集中对个体工作者的研究。李季等[9]考虑到实际网络演化过程中广泛存在的节点数加速增长现象,提出了一种基于BA模型的节点数加速增长的网络模型。苑卫国等[10]对微博网络中用户特征量和增长率分布进行了研究。池丽萍[11]从微观角度研究了复杂网络演化过程中,通过删除节点和边,网络的平均度变化情况。Madaan等[12]分析了科研合作网中合作者和论文数随着时间的变化规律,发现每篇论文的合作者数分布符合幂律分布。Alves 等[13]研究了在科研合作网的演化过程中核心科研团队的演化规律。Nguyen等[14, 15]研究了科研合作网演化过程中社团的演化。
目前,研究者对科研合作网络演化的研究虽然从宏观和微观2个方面进行,分析科研合作网的网络属性随着时间演化的变化规律,但是对科研合作网的微观结构研究大部分基于节点自身的属性对演化网络的影响,而对网络中意见领袖和结构洞的演化研究甚少。因此本文立足于科研合作网络,从微观层面基于意见领袖和结构洞对学术会议科研合作网络进行分析,比较科研合作网5个重要节点作者发现的评价指标(PageRank值、聚集中心性、特征向量、介数中心性、接近中心性)以及研究意见领袖、结构洞的演化规律。
1 理论基础本文用到的重要节点评价指标如下:设图G=(V,E)是一个无向网络,其中V={v1,v2,…,vn}是所有节点的集合,E={e1,e2,…,em}是节点之间的边的集合。
1.1 度中心性度中心性[12]刻画的是节点直接影响力,不同规模的网络中有相同度值的节点有不同的影响力,为了进行比较,定义节点vi的归一化度中心性指标为
一个节点的重要性既取决于其邻居节点的数量,也取决于其邻居节点的重要性。记ECi为节点i的重要性度量值,那么,应该有[16]
介数指标(betweenness centrality)刻画了网络中的节点对于信息流动的影响力,则节点i的介数指标定义为[17]

接近中心性用来度量网络中节点通过网络对其他节点施加影响的能力。节点的接近中心性越大,表明该节点居于网络中心的能力越大。接近中心性的表达式为[12]
PageRank(PR)[18]是Google对网页重要性的评估,PageRank值的高低是衡量网页在Google搜索引擎中排名的重要参数之一。本文将PageRank值作为衡量节点重要性的指标。
2 结构洞和意见领袖的挖掘及演化Lou等认为创新的想法首先是由意见领袖传播到更广泛的群体,因此,某个个体与不同团队的意见领袖有联系,同时这个个体有可能成为结构洞占据者[19]。本节将提出意见领袖和结构洞两类重要节点在科研合作网上的动态演化。
为了能够清楚地对演化模型进行描述,下面给出结构洞和意见领袖挖掘及演化模型对应的算法。意见领袖和结构洞对应的算法(算法1)描述如下:
begin
1) 根据V和E生成图G
2) for v =1 to n //意见领袖的挖掘;计算每个节点对应的度中心性DC(v),特征向量EC(v),介数中心性BC(v),接近中心性CC(v),PR(v);
end for
3) sort(DC); //按照度中心性进行降序排序
sort(EC); //按照特征向量进行降序排序
sort(BC); //按照介数中心性进行降序排序
sort(CC); //按照接近中心性进行降序排序
sort(PR); //按照PageRank值进行降序排序
4) 找出按每个指标排序之后的前k节点即为对应的意见领袖
5) for v =1 to n //结构洞的挖掘,计算每个节点对应的约束度
end for
6) sort(C); //按约束度进行升序排序
7) 找出排序之后的前k节点即对应结构洞H=(h1,h2,…,hk)
End
算法1中步骤2,使用的重要节点衡量指标为PageRank值、度中心性、特征向量、介数中心性、接近中心性。分别用这几种指标来计算节点的重要性值,并按大小排序,其中PageRank算法基本思想是:每个到页面的链接都是对该页面的一次“投票”,被链接的次数越多,意味着该页面就越重要;PageRank是基于传统的随机游走模型,当网页A有一个链接指向网页B,就认为B获得了A对它贡献的分值,该值得多少取决于网页A本身的重要程度,即网页A的重要性越大,网页B获得的贡献值就越高。即本文中使用的PageRank值就是节点的链接数,节点PageRank值越大,此节点就越重要。PageRank算法[18]公式为
结构洞和意见领袖的演化算法(算法2)描述如下:
Begin
1) for v =1 to n
for t=1 to T
Gt={G1,G2,…,GT} //得到每个T时刻图G的集合
2) OL1={ol1,1,ol1,2,…,ol1,k}
OLT={olT,1,olT,2,…,olT,k} //得到每个t时刻网络图中的前k意见领袖
3) SH1={sh1,1,sh1,2,…,sh1,k}
SHT={shT,1,shT,2,…,shT,k} //得到每个t时刻网络图中的前k结构洞
4) 比较OL1,OL2,…,OLT // 比较连续t时刻前k意见领袖
5) 比较SH1,SH2,…,SHT // 比较连续t时刻前k结构洞
6)对比分析OL1,OL2,…,OLT和SH1,SH2,…,SHT之间的关系
end for
end for
End
其中PR(x)为网页x的PageRank值;PR(Yi)为连接到网页x的网页Yi的PageRank值;Cout(Yi)为网页Yi的出链接量;σ为阻尼系数,表示在任意时刻,用户到达某网页后并继续向后浏览的概率,阻尼系数越大,页面级别的收益越大,通常设定σ为0.85;n为网页总数。本文借鉴PageRank算法将网页链接价值概念重要性排名因素的思想。
算法1中步骤5使用的结构洞挖掘公式,是将约束度最小的节点作为合作网络的结构洞占据者,即按约束度系数来挖掘结构洞,其中节点i的网络约束系数的计算表达式[19]为
算法2中,按照上述介绍的PageRank算法和结构洞挖掘公式分别找出每个时刻t对应的前k意见领袖lt和前k结构洞ht,由每个时刻t的前k意见领袖和前k结构洞得到意见领袖集合L和结构洞H。分别分析集合L和集合H中前k意见领袖和前k结构洞随着时间的变化情况;最后对t=1 to T时间内意见领袖和结构洞的动态变化进行对比分析,找出意见领袖和结构洞演化规律。
3 实证分析 3.1 数据来源及处理本文的数据来源是DBLP数据库系统[20]中下载的作者合作关系数据以及清华大学ArnetMiner(研究者社会网络分析与挖掘系统)[21]系统下载的数据Topic 16。从DBLP数据库中选取人工智能与模式识别领域2005-2013年的6个会议,分为3个不同级别,A类:ICML会议、AAAI会议,B类:COLT会议、ECAI会议,C类:ICTAI会议、ICANN会议;具体的数据信息如表1。
类别 | 数据来源 | 节点数 | 边数 |
A类 |
ICML AAAI |
2 730 5 192 |
5 192 11 000 |
B类 |
ECAI COLT |
3 207 517 |
5 180 879 |
c类 |
ICTAI ICANN |
2 485 1 990 |
4 322 3 066 |
Topic 16 | 679 | 1 687 |
在不同级别的6个会议数据集上,分别按上述介绍的5种指标找出前5节点。图1给出了其中3个会议和Topic 16数据集按5个指标排序前5名作者的引用数之和的结果对比。
![]() |
图 1 按5个指标挖掘的前5节点引用数之和Fig. 1 The total citation of Top 5 nodes based on five indices |
从图1可以看出,3个不同级别会议数据集上,按PageRank值和度中心性找出的前5作者引用数之和大于按特征向量、介数中心性、接近中心性找出的前5引用数之和。并且在本文给出的另外3个数据上也有类似的结果。结果表明,在本文数据上,以引用数作为意见领袖衡量指标,PageRank值和度中心性指标比特征向量、接近中心性、介数中心性指标有较好的刻画节点重要性的能力。
3.2.2 结构洞的发现以3个不同级别会议和Topic16数据集为例,表2给出前10和Topic 16数据集结构洞,同时给出前10意见领袖作为对比。
AAAI | COLT | ICTAI | Topic16 | ||||
结构 洞 |
意见 领袖 |
结构 洞 |
意见 领袖 |
结构 洞 |
意见 领袖 |
结构 洞 |
意见 领袖 |
1 460 | 4 719 | 198 | 198 | 186 | 648 | 642 | 642 |
4 719 | 1 460 | 497 | 512 | 648 | 186 | 615 | 615 |
4 200 | 3 048 | 467 | 497 | 724 | 724 | 130 | 130 |
4 767 | 4 767 | 369 | 467 | 1 793 | 1 916 | 540 | 203 |
2 402 | 4 476 | 512 | 72 | 1 228 | 2511 | 203 | 540 |
3 374 | 512 | 264 | 518 | 853 | 926 | 226 | 226 |
4 476 | 389 | 72 | 290 | 830 | 744 | 305 | 590 |
1 980 | 4 200 | 335 | 141 | 926 | 853 | 174 | 305 |
1 345 | 2 402 | 451 | 335 | 1 611 | 1 793 | 590 | 174 |
389 | 1 980 | 364 | 369 | 1 523 | 1 523 | 114 | 497 |
表2中黑体节点编号即是结构洞又是意见领袖,在AAAI数据集上,前10结构洞占据者有7个都是意见领袖,Topic16数据集上,前10结构洞占据者有9个都是意见领袖,在其他几个会议上也有类似的结果,再此不给出说明。
实验结果表明,在3个会议数据集上,每个会议前10结构洞占据者大部分是意见领袖。说明此科研合作网中的科研交流是通过意见领袖产生的,意见领袖不仅领导团队内部的合作,对团队之间的合作也起着重要的作用。
3.2.3 意见领袖与结构洞的动态演化1) 意见领袖动态演化。
图2~4分别以ICML、ICTAI和COLT数据集为例,给出了2005年按PageRank值排序前3节点随着时间在网络中影响力排名变化。
![]() |
图 2 前3节点影响力排名变化(ICML)Fig. 2 Ranking of the Top 3 nodes influence(ICML) |
![]() |
图 3 前3节点影响力排名变化(ICTAI)Fig. 3 Ranking of the Top 3 node influence(ICTAI) |
![]() |
图 4 前3节点影响力排名变化(COLT)Fig. 4 Ranking of the Top 3 node influence(COLT) |
图中可以看出,在3个不同级别会议数据上,按PageRank值排名前3的节点在随后的年份中排名均有所靠后,同样在文本其他几个数据集上也有类似的结果,这说明该类会议每年有新的作者进入,新加入的作者与网络中作者有新的连接,每年的意见领袖变化较大。
2) 结构洞动态演化。
表3是前1结构洞占据者对应作者以及约束度。本文表中人名全部由首字母缩写给出。ICML中,2005-2011年,B.S一直是结构洞的占据者,2012-2013年,M.I.J成为结构洞。ECAI中,从2009年后,N.B就一直是结构洞占据者;ICANN中,从2008年后,M.F.B就一直是结构洞的占据者。并且这些结构洞占据者的约束度值随着年份逐年递减。
2005 | 2006 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 | |
ICML | B.S | B.S | B.S | B.S | B.S | B.S | B.S | M.I.J | M.I.J |
约束度 | 0.146 5 | 0.142 6 | 0.111 1 | 0.088 3 | 0.089 6 | 0.090 4 | 0.080 2 | 0.068 4 | 0.062 5 |
ECAI | A.L | A.L | F.C | F.C | N.B | N.B | N.B | N.B | N.B |
约束度 | 0.302 7 | 0.302 7 | 0.225 5 | 0.225 5 | 0.157 8 | 0.157 8 | 0.142 | 0.13 | 0.12 |
ICANN | A.B | A R.K | T. Z | M.F.B | M.F.B | M.F.B | M.F.B | M.F.B | M.F.B |
约束度 | 0.5 | 0.31 | 0.26 | 0.20 | 0.14 | 0.15 | 0.146 | 0.12 | 0.115 |
实验结果说明,在3个不同级别的会议数据集上,科研合作网随着时间动态演化,但每年网络中按约束度排名第1结构洞的占据者基本一致。并且这些第1作者占据结构洞的程度越来越大,即他们控制科研合作网中团队合作的能力越来越大,在动态的科研合作网中,对信息的交流与研究者合作起着越来越重要的作用。
3) 意见领袖与结构洞的演化关系。
在本文所给的科研合作网中,意见领袖和结构洞之间存在着相互转换的关系。表4以ICML会议、ICTAI会议和COLT会议为例,给出了每年意见领袖和第1 结构洞。
2005 | 2006 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 | ||
ICML | 意见领袖 结构洞 |
B.S B.S |
B.S B.S |
B.S B.S |
B.S B.S |
B.S B.S |
B.S B.S |
B.S B.S |
B.S M.I.J |
B.S M.I.J |
ICTAI | 意见领袖 结构洞 |
A.L A.L |
A.L A.L |
Y.W F.C |
T.M. K F.C |
B.O N.B |
B.O N.B |
N.B N.B |
N.B N.B |
N.B N.B |
COLT | 意见领袖 结构洞 |
A.B RA.S |
RA.S RA.S |
TZ YM |
T.M. K F.C |
M.B M.B |
YM YM |
M.B YM |
M.B M.B |
M.B M.B |
ICML会议中,2005-2011年的结构洞占据者B.S,在2012和2013年成为了意见领袖。ICTAI会议中,2010年的结构洞占据者N.B在2011-2013年成为了意见领袖。COLT会议中,2008年的结构洞占据者M.B在2012-2013年成为了意见领袖,2009年的结构洞占据者YM在2010-2011年成为了意见领袖。在其他3个会议也能得到同样的结论,这里不做详细图表说明。
实验结果表明,在人工智能与模式识别领域的6个会议的数据集上,结构洞随着网络的演化,有可能成为意见领袖,即促进团队之间合作交流的研究者,也有可能随着网络的演化成为团队中的领袖者。这些结构洞占据者成为合作网络中的领袖,他们在团队间是受关注的中间人,对促进团队的发展有重要影响。
4 结束语本文从微观结构层次,基于意见领袖和结构洞对学术科研合作网的动态演化进行研究,分析了人工智能与模式识别领域3个不同级别会议科研合作网的重要节点指标评价、意见领袖以及结构洞的演化特征。实验表明,在本文所给的数据集上,用引用数作为衡量意见领袖的影响力,发现按PageRank值、度中心性指标找出的重要节点的影响力比按特征向量、接近中心性、介数中心性找出的重要节点的影响力要大;在本文中的会议科研合作网中,随着时间的演化,每年的意见领袖变化比较大,而结构洞的变化相对稳定;结构洞的占据者大部分都是各自团队的领导者,并且这些作者在网络动态演化过程中占据结构洞的程度越来越大,即控制团队之间合作与信息传递的能力越来越强;最后还发现在该科研合作网络演化过程中,结构洞占据者有可能成为意见领袖,由合作网络中团队之间的中间人转变成为团队中的权威作者。未来我们的研究工作主要可从以下展开:将本文数据集上的实验分析结果运用在其他学术会议上,并将实验结果运用在学术会议的影响力预测上。
[1] | De SOLLA P D S. Little science, big science[M]. New York:Columbia University Press, 1963. |
[2] | NEWMAN M E J. The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(2):404-409. |
[3] | BARABÁSI AL, JEONG H, NÉDA Z, et al. Evolution of the social network of scientific collaborations[J]. Physica A:Statistical Mechanics and Its Applications, 2002, 311(3/4):590-614. |
[4] | TOMASSINI M, LUTHI L. Empirical analysis of the evolution of a scientific collaboration network[J]. Physica A:Statistical Mechanics and Its Applications, 2007, 385(2):750-764. |
[5] | PERC M. Growth and structure of Slovenia's scientic collaboration network[J]. Journal of Informetrics, 2010, 4(3):475-482. |
[6] | RONDA-PUPO G A, GUERRAS-MARTÍN L A. Dynamics of the scientific community network within the strategic management field through the Strategic Management Journal 1980-2009:The role of cooperation[J]. Scientometrics, 2010, 85(3):821-848. |
[7] | KIM H, YOON J W, CROWCROFT J. Network analysis of temporal trends in scholarly research productivity[J]. Journal of Informetrics, 2012, 6(1):97-110. |
[8] | 胡枫, 赵海兴, 何佳倍, 等.基于超图结构的科研合作网络演化模型[J].物理学报, 2013, 62(19):198901. HU Feng, ZHAO Haixing, HE Jiabei, et al. An evolving model for hypergraph-structure-based scientific collaboration networks[J]. Acta Physica Sinica, 2013, 62(19):198901. |
[9] | 李季, 汪秉宏, 蒋品群, 等.节点数加速增长的复杂网络生长模型[J].物理学报, 2006, 55(8):4051-4057. LI Ji, WANG Binghong, JIANG Pinqun, et al. Growing complex network model with acceleratingly increasing number of nodes[J]. Acta Physica Sinica, 2006, 55(8):4051-4057. |
[10] | 苑卫国, 刘云, 程军军.微博网络中用户特征量和增长率分布的研究[J].计算机学报, 2014, 37(4):767-778. YUAN Weiguo, LIU Yun, CHENG Junjun. Research on the user characteristics and growth rates distribution in microblog[J]. Chinese Journal of Computers, 2014, 37(4):767-778. |
[11] | CHI Liping. Measuring microscopic evolution processes of complex networks based on empirical data[J]. Journal of Physics Conference Series, 2015, 604(1):1-7. |
[12] | MADAAN G, JOLAD S. Evolution of scientific collaboration networks[C]//2014 IEEE International Conference on Big Data (Big Data). Washington, DC:IEEE, 2014:7-13. |
[13] | ALVES B L, BENEVENUTO F, LAENDER A H F. The role of research leaders on the evolution of scientific communities[C]//Proceedings of the 22nd International Conference on World Wide Web Companion. Rio de Janeiro, Brazil, 2013:649-656. |
[14] | GREENE D, DOYLE D, CUNNINGHAM P. Tracking the evolution of communities in dynamic social networks[C]//2010 International Conference on Advances in Social Networks Analysis and Mining (ASONAM). Odense:IEEE, 2010:176-183. |
[15] | VAN NGUYEN M, KIRLEY M, GARCIA-FLORES R. Community evolution in a scientific collaboration network[C]//2012 IEEE Congress on Evolutionary Computation (CEC). Brisbane:IEEE, 2012:1-8. |
[16] | 任晓龙, 吕琳媛.网络重要节点排序方法综述[J].中国科学, 2014, 59(13):1175-1197. REN Xiaolong, LYU Linyuan. Review of ranking nodes in complex networks[J]. Chinese Science Bulletin, 2014, 59(13):1175-1197. |
[17] | 王文钊, 王斌强.基于网络中心性分析的虚拟网络映射算法[J].计算机应用研究, 2015, 32(2):565-568. WANG Wenzhao, WANG Binqiang. Virtual network embedding algorithm based on analysis of network centrality[J]. Application Research of Computers, 2015, 32(2):565-568. |
[18] | RANI P, SINGH E S. An offline SEO (search engine optimization) based algorithm to calculate web page rank according to different parameters[J]. International Journal of Computers & Technology, 2013, 9(1):926-931. |
[19] | LOU Tiancheng, TANG Jie. Mining structural hole spanners through information diffusion in social networks[C]// Proceedings of the 22nd International Conference on World Wide Web. Rio de Janeiro, Brazil, 2013:825-836. |
[20] | LEY M. DBLP system[EB/OL]. (2015-03-01)http://dblp.uni-trier.de/xml/. |
[21] | TANG J. Social influence analysis in large-scale social network[EB/OL]. (2015-03-01).http://arnetminer.org/lab-datasets/soinf/. |