中国科技期刊研究  2015, Vol. 26 Issue (12): 1311-1318   PDF    
基于WoS和CSCD的肿瘤类高被引文章分析
倪明1, 闫雷2, 陆瑶1, 王琳辉1, 汤燕明1, 李广涛1    
1. 复旦大学附属肿瘤医院《中国癌症杂志》编辑部, 复旦大学上海医学院肿瘤学系, 上海市东安路270号 200032;
2. 中国医科大学医学信息学系, 辽宁省沈阳市沈北新区蒲河路77号 110122
摘要[目的]对WoS和CSCD数据库中1000篇肿瘤类高被引文献的特点进行分析,以期为杂志组稿约稿提供依据。[方法]分别检索2005-2014年间WoS和CSCD数据库中年被引频次前50的肿瘤类文献,分析其第一作者、总被引频次、发表后1~5年内被引频次、文章类型、作者单位、基金情况、学科分布、研究内容和研究方向等,并对其进行统计分析。[结果]WoS数据库中高被引文献的被引频次远高于CSCD数据库[(29218.5±16693.9)次vs. (552.3±308.7)次]。高被引文献中,论著类文章占比重较高(72.8%),且在文章发表后5年内,年被引频次波动不大。流行病学研究、大型临床多中心试验研究、指南类文章以及知名专家述评是被引用的热点文章。[结论]国内外文献学术质量仍存在较大差距。杂志组稿应从流行病类文章、知名专家述评以及多中心临床试验入手,以提高整体被引频次以及学术质量。
关键词高被引文章    引文分析    肿瘤    Web of Science    中国科学引文数据库    
The citation analysis of articles about cancer based on WOS and CSCD databases
NI Ming1, YAN Lei2, LU Yao1, WANG Linhui1, TANG Yanming1, LI Guangtao1    
1. Editorial Board of China Oncology, Fudan University Shanghai Cancer Center, and Department of Oncology, Shanghai Medical College, Fudan University, 270 Dong'an Road, Shanghai 200032, China;
2. Department of Medical Informatics, China Medical University, 77Puhe Road, Shenbei New Distance, Liaoning 200032, China
Abstract: [Purposes] The research analyzed the characteristic of 1000 highly cited cancer articles in Web of Science (WoS) database and Chinese Science Citation Database (CSCD), and was to provide the base for soliciting contribution.[Methods] The articles about cancer with top 50 citation frequency in these two databases from 2005 to 2014 were searched out in last 10 years. The characteristics of first author, citation frequency, citation frequency within 5 years after publishing, article type, authors' units, funding, subject distribution, research contents, etc. were explained.[Findings] We found that the citation frequency of the articles in WOS was far more than those in CSCD[(29218.5±16693.9) times vs. (552.3±308.7)times]. 72.8% of highly cited papers were articles, and there was no difference in citation frequency within 5 years after the articles were published. We need to pay more attention to the epidemiologic study, the multi-center clinical study, guidelines and reviews of famous experts which can get high citation frequency.[Conclusions] There is still a large gap of the academic quality between the articles in these two databases. We should pay more attention to articles of the epidemiologic study, multi-center clinical study, guidelines and reviews of famous experts for raising the citation frequency and academic quality of our journals.
Key words: Highly cited article    Citation analysis    Cancer    Web of Science    Chinese Science Citation Database    

期刊学术质量的高低是决定学术期刊学术地位的一个重要指标,而期刊学术质量的主要评价标准是期刊所刊登文章的学术质量。被引频次是文章质量的主要评价指标,被引频次越高,表示文章受到同行关注度越高,是目前行内研究的热点,其文章学术质量也就相应的越高[1, 2]。换个角度来讲,按照目前以影响因子的高低来评价期刊的学术质量,被引频次作为分子,被引频次越多,其影响因子越高,期刊的学术质量也越高[3, 4]。所以高被引频次文章是各杂志争夺的对象,也是各杂志组稿、约稿的主要对象[5]。对高被引文章特点的分析一直是期刊行业关注的主题,目前也有一些文章报道关于高被引文献的特征,如陈芳[5]、陈汐敏等[6]、张建合[7]、戴丽琼[8]的研究分别分析相应领域的几本核心期刊在CNKI数据库中高被引文献的特征,得出相关的规律,但是这些分析均局限在某几本核心期刊,且均用CNKI数据库作为来源数据库,也未对国内外数据库进行对比,存在一定的局限性。本研究立题从数据库的角度,来选择高被引文章,因为虽然杂志影响力高,但是并不代表每篇文章均为高被引,而反之亦然。故我们选择国内和国际两大权威数据库[ Web of Science(WoS)与 《中国科学引文数据库》数据库],打破了杂志的限制,主要分析2005—2014年发表的全部肿瘤类文章中年总被引频次前50的高被文章特点,并比较国内外两大数据库高被引频次文章的差异,寻找国内外肿瘤类高质量文章的特点,以期为国内杂志组稿、约稿提供参考。

1 材料与方法 1.1 材料来源

CSCD数据库是1989年中国科学院和国家自然科学基金委员会共同资助建立的数据库,目前有论文记录3714291条,引文记录38942322条,除具备一般的检索功能外,还提供新型的索引关系——引文索引,迅速从数百万条引文中查询到某篇科技文献被引用的详细情况,其专业性较强、数据完整、检索方便,被誉为"中国的SCI"[9]。WoS数据库是ISI数据库中的引文索引数据库(Science Citation Index,简称SCI),是Thomson ISI建设的3大引文数据库的Web版,由Science Citation Index Expanded (简称SCI Expanded)、Social Sciences Citation Index(简称SSCI)和Arts & Humanities Citation Index(简称A&HCI) 3个独立的数据库组成,共包括8 000多种世界范围内最有影响力、经同行专家评审的高质量期刊[10]。鉴于2个数据库引文的权威性,我们采用上述2个数据库进行检索。

以SU="oncology"分别检索CSCD数据库中2005—2014年发表的肿瘤类文献;以WC="oncology"分别检索Web of Science数据库中2005—2014年发表的肿瘤类文献,均按照文章发表年份检索,并按照总被引次数从高到低排序。选取每年被引频次前50的文章,下载全文,并简单定义为高被引文章。2个数据库,共获取文献1 000篇。

1.2 数据分析

采用EXCEL2010对文章主要数据进行录入整理,如第一作者、总被引频次、发表后1~5年内被引频次、文章类型、作者单位、基金情况、学科分布、研究内容和研究方向等,阅读全文,比较此类文献内在特点,找出共性特征。采用SPSS22统计软件对相关数据进行统计分析,被引频次均数的比较采用t检验,文章发表后1~5年内被引频次变化趋势比较采用χ2检验,以P<0.05为差异有统计学意义。

2 结果 2.1 文献被引情况分析 2.1.1 总被引频次情况

表1可见,2005—2014年间,CSCD数据库中每年被引频次最高的前50篇文献总被引频次为5 523次,平均(552.3±308.7)次,而WoS数据库中,每年被引频次最高的前50篇文献总被引频次为292 185次,平均(29218.5±16693.9)次,为CSCD数据库的52.9 倍,经两独立样本t检验,两者差异有统计学意义(F=25.76,t=-5.429,P=0.00,表1)。

表1 CSCD和WoS数据库中肿瘤类高被引文献10年总被引频次 (次)
2.1.2 文章发表后1~5年内被引情况的差异

对高被引文章发表后1~5年内的被引频次进行统计分析,结果发现,高被引文章发表后1~5年内被引频次基本比较平稳。经χ2检验进行两两比较,CSCD数据库中50篇高被引文章,除发表后第二年与第五年,差异有统计学意义外(χ2=31.55,P=0.045),其余差异均无统计学意义(P>0.05)。WoS数据库两两比较,差异均无统计学意义(P>0.05,详见图1,表2)。

图1 高被引文献1~5年平均被引频次

表2 高被引文章发表后1~5内被引用情况 (次)
2.1.3 每年被引频次前三的文章情况

我们把每年被引频次前三的文章(表3)摘出来分析发现,WoS中每年被引频次最高的均为大型的肿瘤流行病类文章,30篇文章中占13篇(13/30),且从被引频次上看,与后者拉开很大的差距。CSCD中,每年被引频次较高的为肿瘤流行病类文章(8/30),其次为知名的专家述评(3/30)。

表3 每年被引频次前三的文章情况
2.2 高被引文章的学科分布

CSCD中乳腺癌相关文章61篇,肝癌相关文章57篇,胃癌相关文章40篇,肺癌相关文章31篇,食管癌相关文章29篇,鼻咽癌相关文章24篇,脑部肿瘤相关文章21篇,妇科肿瘤相关文章22篇,胰腺肝胆肿瘤相关文章17篇,前列腺癌相关文章15篇,肠癌相关文章18篇,甲状腺癌相关文章9篇,血液肿瘤相关文章8篇,淋巴瘤相关文章6篇,其他肿瘤相关文章41篇。WoS中乳腺癌相关文章52篇,肺癌相关文章38篇,肠癌相关文章27篇,脑部肿瘤相关文章24篇,前列腺肿瘤相关文章19篇,妇科肿瘤相关文章14篇,血液肿瘤相关文章13篇,肝癌相关文章9篇,淋巴瘤相关文章8篇,胃癌相关文章8篇,胰腺肝胆相关文章6篇,食管癌相关文章4篇,骨肿瘤相关文章2篇,甲状腺癌相关文章1篇,软组织肿瘤相关文章1篇,其他肿瘤相关文章61篇,肿瘤相关文章214篇。

从结果中看出,乳腺癌、肺癌、脑部肿瘤及妇科肿瘤等是2005—2015年的研究热点,也可能与肿瘤流行病学有关,被引靠前的文章均是与高发病率肿瘤相关,相比低发肿瘤而言,发表文章数量较多,被引频次自然也较多。

2.3 高被引文章的研究类型

研究类型上:CSCD中,临床研究244篇(48.8%),基础研究98篇(19.6%),流行病学研究38篇(7.6%),转化研究31篇(6.3%),其他22篇;WoS中,临床研究150篇(30%),基础研究116篇(23.2%),流行病学研究44篇(8.8%),转化研究36篇(7.2%),其他13篇。 在临床研究中,WoS高被引文章有114篇为随机前瞻性对照临床试验,而CSCD中仅有3篇,而且都是非前瞻性的回顾性临床研究。

2.4 高被引文章的文献类别

500篇CSCD高被引文章中,论著类405篇(81.0%),综述类74篇(14.8%),指南类或指南解读类文章14篇(2.8%),短篇类7篇(1.4%)。500篇WoS高被引文章中,论著类323篇(62.6%),综述类146篇(29.2%),指南类31篇(6.2%)。

通过对文献类别进一步观察发现,虽然流行病类以及指南类文章占比较低,但是其普遍被引频次较高,排名靠前。对其进行Mann-whitney检验发现,CSCD中,指南类文章相比其他类文章而言,被引频次排名未见明显靠前,差异无统计学意义(z=-1.457,P=0.145),而流病类文章与其他文章相比,被引频次排名明显靠前,且差异有统计学意义(z=-4.276,P=0.000)。WoS中同样发现,指南类文章被引频次排名未见明显靠前,差异无统计学意义(z=-1.493,P=0.135),而流病类文章与其他文章相比,被引频次排名明显靠前,且差异有统计学意义(z=-3.427,P=0.001)。

2.5 高被引文章作者及单位情况

CSCD高被引文章平均作者数(5.4±2.9)人,WoS高被引文章平均作者数(11.3±10.1)人,表示WoS高被引文章作者数明显高于CSCD高被引文章作者数,经过独立样本t检验,差异有统计学意义(t=11.935,P=0.000)。

作者单位合著方面,CSCD中有130篇文献由2个及以上单位合著,占总文献的26%,平均作者单位(1.47±1.12)个,其中24篇文献合著单位大于等于4个,属于多中心研究。WoS中有414篇文献由2个及以上单位合著,占总文献的82.8%,平均作者单位(7.19±7.53)个,其中大于4个单位合著的有292个,大于10个的有138个,最多的达57个单位合著。经过独立样本t检验,作者单位数量方面差异有统计学意义(t=-16.79,P=0.00)。WoS高被引文章中,中国单位参与14篇文章,其中仅有4篇为第一作者单位。

2.6 高被引文章基金情况

500篇CSCD高被引文章中,有基金资助项目192项,其中国家级基金86项,省部级基金83项,其他类基金23项。500篇WoS高被引文章中,有基金资助的项目222项,其中国家级基金103项,制药公司资助84项,其他类45项。两者相比,差异无统计学意义。

3 讨论与启示 3.1 国内肿瘤类高被引文献被引频次较低

目前,我国科技类期刊的数量已经到达4953本之多,每年产出百万篇学术论文,仅次于拥有7000余本科技期刊的美国[11, 12],然而本文的分析结果显示,WoS数据库高被引文章的总被引频次远高于CSCD。国内文献被引频次普遍不高,尤其是对相关文献的引用率不高,这也导致了国内期刊整体的影响因子不高。究其原因可能:(1)因为国内参考文献录入不足,甚至存在作者对相关文献"引而不注"的情况[13];(2)期刊编辑部可能因为版面问题,存在删除参考文献的情况。(3)因为国内政策问题,国内高质量文章约有90%投向国外期刊[8],导致国内文章质量普遍不高,国内作者引用国内期刊的意愿低下。要加强对作者参考文献重要性的宣教,尊重前人的工作成果,使其补全最新的相关阅读的参考文献。编辑加工方面也尽量不要采用缩减参考文献的形式来缩减版面。从文章的内容来看,应该紧跟国际近期热点,多组织相关稿件,易受到较高的关注。

3.2 流行病类、指南类文章引用最高

本次研究发现,大样本的流行病类研究的被引频次普遍较高,高居每年高被引频次文章的前三名。此类文章有别于其他的基础及临床类文章,有其特殊的优越性,因为所有作者在论文写作时,均需要在前言或者背景中引用某肿瘤的发病率和死亡率情况,以说明该研究在该流行背景下的重要性。所以流行病类文献对期刊被引频次的提高不容忽视,是各个杂志组稿约稿的重点对象。从这个角度来讲,我们可以与国内或者省内的疾病预防控制中心加强联络,有目的性的向他们约稿,增加流行病类文献。同时也可以加强与各学科专委会的合作,组织各类指南和共识类文章。

3.3 论著类文献引用比例较综述类高

本次研究发现,高被引文献中,论著类文献占比较高,为72.8%,这一结果与韩国[14]的研究不同,韩国Korean Journal of Urology的高被引文献中,75%(15/20)为综述类文献。莫京等[15]的研究也表明,JCR收录的影响因子超过20的期刊有33种,其中有18种为综述类期刊,表明综述类文章应该有较高的被引频次,这一矛盾的出现可能与我们选择的高被引文献对象有关,我们选择的是每年被引前50的文章作为数据来源,但是综述类文章虽然容易受到引用,但是单篇被引总被引频次无法进入到前50,也可能是JCR收录的国际顶级期刊的综述都是知名专家的述评类文章,故引用次数较多,而国内综述多为研究生毕业综述类文章,质量相对较低,作者引用意愿不高。国内编辑在作者引用二次综述类文献时,也需要作者尽量能引用一次文献,这也可能是导致综述类文献被引频次较低的原因之一。聂兰英[16]等对我国11种医学影像学核心期刊的高被引论文分析进行分析发现,临床论著类论文占高被引论文比例最高,为64.8%;基础研究类文章次之,占13.6%,与本研究一致,可能是与影像医学的临床论文相对较多,而影像学的基础论文相对较少有关。从文章类型上讲,组稿时应多考虑论著类文献的篇幅,降低综述类文献篇幅,以提高杂志总被引频次。

3.4 文章发表5年内年被引频次波动不大

影响因子的计算公式为前两年的被引频次除以当年发表文献总数,公式的建立基于当年的研究发现,文章在发表后,第二年的被引次数达到峰值,后续的几年逐步衰减。在笔者对高被引文章发表后几年的被引频次研究发现,高被引文章的被引频次不随着时间的延长而衰减。WoS高被引文章虽然发表后第二年被引次数达到峰值,但是与其他年份相比,差异无统计学意义;CSCD的高被引数据更是显示每年递增的趋势。可能的原因是随着数据库以及网络的迅速发展,图书馆等数据存储方式有了较大的改变,导致读者的文献获取方式有了很大的改变,以往查阅馆藏纸质期刊的习惯,逐步被查阅电子文献替代,这样可以突破时间和空间上的限制。这对影响因子计算方式是否滞后产生了质疑,是否能够适当延长影响因子计算的时间年限,以符合当前作者的引用习惯。当然这个结果仅仅是从高被引文献数据中得出的,能否推广到所有的文章,有待进一步的研究进行验证。

3.5 多中心前瞻性临床研究被引频次较高

本次研究结果还发现,WoS中多中心前瞻性临床研究以其设计科学,证据级别较高等特点,是学者关注的热点,被引频次普遍较高,而且很多研究中有大型医药公司作为作者参与其中,而国内期刊认为公司参与文章写作,有软广告嫌疑。Matthew等[17]报道了对100篇放疗类高被引文献的研究也得出大型的多中心临床研究类文章是作者关注的热点,被引频次普遍较高。而国内CSCD高被引文章中,无一篇为前瞻性多中心研究,质量普遍较低,所以被引较低。在目前的政策体系下,如何向这些前瞻性多中心临床研究组稿约稿是各编辑部值得思考的问题。

4 小结

通过对CSCD和WoS中肿瘤类高被引文章的分析得出,国内文章与国外高被引文章相比,还有很大的差距,文章的学术质量还有待进一步的提高。国内期刊编辑部组稿约稿应该从流行病类文章、知名专家述评以及多中心临床试验入手,以提高整体被引频次以及影响力。

致谢:感谢中国医科大学信息学系崔雷老师对本课题以及文章的指导,感谢复旦大学附属肿瘤医院《中国癌症杂志》编辑部秦娟、彭曼、杨子辉同志对本课题给予的帮助。

参考文献
[1] SEGLEN P O. Citation frequency and journal impact:valid indicators of scientific quality?[J]. J Intern Med, 1991, 229(2):109-111.(1)
[2] 韩维栋,薛秦芬,王丽珍.挖掘高被引论文有利于提高科技期刊的学术影响力[J].中国科技期刊研究, 2010, 21(4):514-518.(1)
[3] CHRISTOPHER M M. Weighing the impact (factor) of publishing in veterinary journals[J]. J Vet Cardiol, 2015, 17(2):77-82.(1)
[4] HEGARTY P, WALTON Z. The Consequences of Predicting Scientific Impact in Psychology Using Journal Impact Factors[J]. Perspect Psychol Sci, 2012, 7(1):72-78.(1)
[5] 陈芳.动物医学类期刊高被引论文分析及其对编辑选题组稿的启示[J].中国科技期刊研究, 2012, 23(5):818-821.(1)
[6] 陈汐敏,接雅俐,蒋莉,等.从6种医学学报的高被引论文分析看如何提高医学学报类期刊的影响力[J].中国科技期刊研究, 2013, 24(4):666-670.(1)
[7] 张建合. 《编辑学报》高被引论文分析[J].编辑学报, 2010, 22(6):562-564.(1)
[8] 戴丽琼. 2006-2010年《中国肿瘤》高被引论文分析[J].预防医学情报杂志, 2012, 28(5):392-395.(2)
[9] Geophysics.中国科学引文数据库[EB/OL].[2015-02-06]. http://baike.baidu.com/link?url=AqleZJrtoBpmoUaZrP6N_Y3vrkuYZJsux8-UupMULiv7bJGl-_Uyu3zi4IobPYmVRJEvHQjoWD4SqVhOox8F7K.(1)
[10] 语花菲.Web of Science[EB/OL].[2015-02-06]. http://baike.baidu.com/link?url=TKSDnVO8LSut_bsSwe151C2BDm_heJQYWdPEqd1WU0mJdk0HiFhqU3leI2iYj3SgKiRRi7_zUD_0TN-hhMQh9a.(1)
[11] 游苏宁.对中国科技期刊的若干思考[J].编辑学报, 2014, 26(1):3-7.(1)
[12] 金碧辉,戴利华,刘培一,等.国外科技期刊运行机制和发展环境研究[J].中国科技期刊研究, 2006, 17(1):3-9.(1)
[13] 郭玲,陈燕.参考文献著录中的学术道德缺失现象及其防范[J].编辑学报, 2007, 19(1):8-10.(1)
[14] Sun Huh. How much progress has been made in journal metrics two years after the citation analysis of the Korean Journal of Urology?[J]. Korean J Urol, 2015, 56(4):276-279.(1)
[15] 莫京,任胜利. SCI收录的高影响因子期刊探析[J].中国科技期刊研究, 2010,21(2):138-141.(1)
[16] 聂兰英,王钢,金丹,等.我国11种医学影像学核心期刊的高被引论文分析[J].中国科技期刊研究, 2011, 22(3):377-380.(1)
[17] Matthew T Crockett, Ronan FJ Browne, Peter J MacMahon, et al. 100 classic papers of interventional radiology:A citation analysis[J]. World J Radiol, 2015, 7(4):79-86.(1)