中国科技期刊研究  2015, Vol. 26 Issue (8): 792-799   PDF    
我国数据出版前景探析
李小燕, 田欣, 郑军卫 , 侯春梅, 马瀚青    
中国科学院兰州文献情报中心, 甘肃省兰州市城关区天水中路8号 730000
摘要:【目的】分析数据出版相关环节、利益主体、发展现状与存在问题,给出我国数据出版发展建议。【方法】调研数据出版相关文献及国内外数据出版实例。【结果】数据出版涉及5个基本环节、3方利益主体和1个独立评价机构;存在3种数据出版形式和不同的数据引用格式。【结论】数据出版是未来科研成果出版的重要组成部分和发展趋势,我国应从政策上将数据出版纳入科学评价体系,制定规范数据出版和引用的国家标准;数据中心必须逐步转型并联合,做好数据版权保护和数据有效保存与重复利用;期刊编辑部应发挥联系各利益主体的纽带作用,做好宣传与引导,促进高质量数据的发表。
关键词科学数据    数据中心    数据期刊    数据论文    
The Prospect of China's Data Publishing
LI Xiaoyan, TIAN Xin, ZHENG Junwei , HOU Chunmei, MA Hanqing    
Lanzhou Library of Chinese Academy of Sciences, 8 middle Tianshui Road, Lanzhou 730000, China
Abstract: [Purposes] After analyzing related links, stakeholders, the current situation and problems of data publishing, this study aims at giving the developing proposals for our country.[Methods] This study surveyed related documents and international instances about data publishing.[Findings] Data publishing includes five basic parts, and it needs different departments cooperation to achieve, which involved three stakeholders of the data owner, publisher, data center and one independent rating agency. In this paper, data publishing was divided into three types-data center, journal network platform and self-storage, data journals. The data center is divided into data repository and IR, and the data journal is divided into data paper type, online platform type and data index type.[Conclusions] Data publishing is an important means to deepen the scientific data sharing. As a new data-sharing mechanism, data publishing in China is still in a exploration stage, it is necessary to absorb the foreign data publishing researches, to objectively analyze the challenges facing national data publishing, and to explore more beneficial and practical data publishing mechanism. Data publishing is an important part of future researches and development trends. Our policy should made it be included in the published scientific evaluation system,and develop national standards about normative data and references; the data center is necessary to get gradual transformation and cooperation with each other, and should make good data copyright protection and data effective preserve and reuse. Editorial departments should play the role of the link function for the various stakeholders' bond, improving information and guidance to promote the publication of high-quality data.
Key words: Science data    Data center    Data journal    Data paper    
0 引言

大数据时代和E-science环境下,科学数据作为发展科技和从事科研的基础资料,已成为最重要的新型战略资源[1, 2],将深度影响国民经济和科研创新。大数据时代,科研文献作为呈现科研成果的唯一方式,有一定的局限性。正如吉姆·格雷(Jim Gray)所言,E-science环境下的出版产物只是科研产出的冰山一角,而大量的原始科学数据才是科研产出的基石。因此,数据出版(Data Publishing/Data Publication)这一新概念便应运而生,其重要性也日益显现。2011 年,美国科学基金会(NSF)要求基金项目申请者必须提交相应的数据管理与共享计划(DMP)[3, 4],以便对研究过程中产生的数据进行有效管理。2012年,自然出版集团(NPG)为《自然神经科学》杂志开设的补充信息提交系统要求提交论文相关科研数据,并对提交的数据进行严格的同行评议。此外,GenBank数据库、GBIF(全球生物多样性)数据库等,也提倡作者在发表论文时将数据优先注册到相关数据库中[5, 6],试图促进原始数据(Primary Data)的共享。2012年Wiley推出了新期刊——GDJ数据期刊,以数据论文形式发表数据。在2013年,国际社会科学信息服务与技术协会(IASSIST)召开了主题为数据创新的第39届年会,并将科研期刊与数据间的关联列为年会的重要议题之一[7, 8]。 期刊与数据的关联集成很快成为一种新的发展趋势。Nature、PLoS 和Science等知名出版社旗下的部分期刊要求作者在文章正式发表前必须将相关数据一并进行发表或者公开,比如提交到Figshare仓储库或Dryad仓储库,并在相关论文中引用数据。部分出版社还创建了专门的数据期刊(Data Journal),发表数据论文(Data Paper),并将这种数据论文与发布在仓储库中的数据进行关联。数据出版将从机制上改变当前数据共享所面临的困境,从而改变出版机构与数据中心的关系,创造期刊出版与数据中心关联集成的新格局[5, 7]。然而,由于国内数据中心过去只关注历史数据的收集和整理,个人直接发布的数据较少,数据共享起步也较晚,且由于各种原因,数据出版在国内仍然是一个相对陌生的概念。基于此,本文在前人研究基础上,系统地归纳了数据出版各个流程的特征、出版利益机构之间的关系、数据出版的主要形式、引用格式及评价指标等,调研分析了国内数据出版现状及面临的问题与挑战,结合国内外出版案例,提出了在我国发展数据出版的建议。

1 数据出版

吉姆·格雷曾将数据出版表述为:“所有科学文献和科学数据均上网,而且它们之间具备可互操作性”,研究者可利用互联网共享,再利用科学数据,并且通过这些数据来分析或检验自己的科学研究过程及成果[8]。数据出版是使数据在互联网上可被重用的行为,通过数据出版,任何人可以访问、下载、分析数据,以用于科学研究或其他目的[9]。数据出版具有传统学术论文的出版方式,包括“数据提交、同行审议、数据发布和数据永久存储、数据引用和影响评价”等基本环节[5],但又与传统的学术出版有所不同,需要开展数据存储、管理、挖掘和共享服务。因此,数据出版需要出版社、期刊、数据中心等多家机构联合开展,以保障科学数据的知识产权,促进数据的重复利用和挖掘增值服务。

1.1 数据出版流程及利益主体

(1)主要流程

数据出版包括“数据提交、同行审议、数据发布与永久存储、数据引用和影响评价”5个基本环节[5, 10](图1),涉及3个关键步骤。1)提交数据组(集)到数据中心。数据拥有者首先将科学数据(包括原始数据和科研过程数据)提交到其他用户可访问的公共数据平台上(开放的数据中心或期刊网络平台),然后经同行审议环节对数据的完整性、针对性、科学性、真实性等进行评估,在此基础上科学数据将被逐步修改完善,最后在数据平台上发布并存储。2)提交数据论文和数据到期刊。科学家将撰写的数据论文提交到相关期刊(数据期刊或者接受数据论文的学术期刊)进行相关的评审工作,该流程与传统的期刊论文流程是一致的,不同之处是对数据论文评审的同时需要对提交的相关数据也进行评审。3)实现数据存储位置与数据论文的永久关联。数据中心发布数据时,应尽量使数据具有标准的引用格式和永久访问地址,使数据达到可被引用和追溯,即出版时给数据赋予DOI、URL等永久性的唯一识别符。数据论文引用DOI号,就可以实现论文与数据的永久关联和集成。只有科学数据被规范的存储,才能被规范的引用和获得更详细、全面的评价。数据引用应体现在各种学术产出成果中,不单是公开发表的专著、论文、报告及数据。

图 1 数据出版主要流程及相关利益主体 (据吴立宗等[5]略改,2013)

(2) 出版利益主体

数据出版涉及原始数据拥有者、出版方、数据中心3方利益主体,与1个评价机构(图1)。数据出版过程中不同利益主体和机构充当着不同的角色,各有优势也各有欠缺,需通过有机联合共同完成数据出版。

作者提交科学数据或数据集的态度,主要取决于成果产权的保护上。据彭洁等[1] 调研,近90%的科 学家们引用过科学数据,近50%的人倾向于在“论 文公开发表阶段”提交数据。这充分说明,大多数科研工作者对科学数据引用和共享的态度是很积极的,但对数据产权保护存有疑虑,如果出版方出版科学数据时明确产权,使数据产权有实质性保障,作者在提交、共享、传播科学数据方面将不再消极。

出版方参与科学数据出版的主要形式是利用“传统”方式将数据出版纳入到学术出版体系中来,可以直接开展数据注册、数据管理、数据存储、同行审议及出版工作。但出版方除了在数据存储与管理方面能力受限以外,也不能很好地满足后续数据集成与二次加工的需要[5]。而多数科研人员则更愿意将数据提交到专业领域的科学数据平台上,其次才考虑期刊联盟或用稿期刊建设的科学数据库[1]。在这一现实矛盾下,出版方除了需要弥补自身欠缺外,更需要与数据中心等机构建立合作关系。同时,出版方不仅要鼓励更多的作者共享数据,更要督促数据使用者规范引用数据,避免数据的多重链接和重复出版。

数据中心在数据资源和数据管理方面具有很大的优势,这些优势已经在国内外已有的专业数据中心得到体现。作为科学数据出版和共享的“集散地”,保证科学数据质量是数据中心的重要职责,这就需要数据中心为数据提供唯一永久标识符,厘清数据版权信息并规范数据存储和引用格式,同时还要建立数据发布和评审制度,如在数据出版新形势下发展起来的Dryad、Figshare等数据中心,对发布的数据均配以DOI号,并给出相应的数据引用格式。只有数据存储的可靠性高、数据质量有保障、提交数据过程简易、用户界面友好,才能组织更多作者提交高质量的研究数据,也才能吸引众多科研工作者使用其提供的数据[11]

评价数据影响程度的指标很多,如浏览次数、下载次数和引用次数等,其中数据引用次数是重要指标。鉴于此,GBIF 数据出版工作组提出了数据利用指标(Data Usage Index,DUI)[12, 13],以期通过数据访问量、下载量和引用次数等要素建立针对数据的评价指标;汤森路透在2012 年10月推出Data Citation Index (DCI,数据引文索引),希望通过文献与数据之间的相互引用建立数据评价指标,推动数据发现和知识互联[5]。但问题是目前数据引用规范体系尚未形成,而且国内很少有作者在论文中注明数据引用信息,给数据评价带来一定困难。要想走出这一困境,对数据评价进行全面而公正的评价,就需要数据评价机构与数据中心建立全面的合作关系,从而掌握较为详细的数据引用信息。

1.2 数据出版形式

依据科学数据发布机构,将数据出版分为 3 种形式(表1):第一种是将科学数据直接提交到数据中心,由数据中心给数据赋予唯一永久的标识符,分为数据仓储库和机构库2种形式;第二种是将与论文相关的科学数据作为附件形式上传到期刊自己的网络平台,并由期刊自行存储、管理,可称为期刊网络平台自存储形式;第三种为数据期刊,以传统论文形式发表数据,不同之处在于数据期刊出版的是描写数据本身的数据论文,数据论文主要描述相关数据组(集)的“What、 Where、 Why、 How、Who”等属性,并且将数据论文与相关数据进行关联,实现论文与数据的集成出版。这将成为一种新的出版模式,影响社会经济及科研创新。

表 1 不同数据出版形式及典型案例

(1) 机构知识库(IR)

机构知识库是为特定期刊或机构建立的科学数据库,影响范围小(表1)。以高校或科研机构图书馆为依托而构建的机构库,服务对象是高校或科研机构内部的学生与科研人员,或仅延伸至参与本机构项目的外部科研人员,因此,其支持发表的科学数据的范围有限[10],且在数据的保存期限上也有一定的限制。依托期刊构建的机构库的数据发表面向的研究人员和科研项目则要广泛一些。Ecological Archives机构知识库是典型的为期刊构建的科学数据库,具有完整的数据出版体系,支持论文附件、论文补充、数据论文3 种数据出版形式,但局限在仅存储美国生态学会创办期刊上的科学数据[10]。论文附件(Appendices)即论文主要内容的支持数据;论文补充(Supplements)则指不适合印刷的一些有效电子格式文件数据;数据论文(Data Paper)专用于出版数据,需同行评议。论文附件与论文补充所含信息,均是完成科学论文所需要的全部信息,而通过发表论文附件和论文补充对预防科学造假非常有效[10]。在数据引用方面,也只有少数大学机构库明确规定了数据引用格式。

(2)数据仓储库(Data Repository)

数据仓储库是由科学数据仓储库支持的、不限期刊种类、并支持使用者自由选择仓储库的数据出版形式[10],是数据发布存储的核心。科学家或作者将科学数据储存在数据仓储中,并通过对数据进行描述或引用从而与论文关联集成,促进数据的复用。为给论文评审提供依据、促进数据再利用,已有很多学术期刊要求作者在发表论文的同时将数据公开或存储在相关的公共数据仓储库中。如Figshare仓储库是仅让科研人员进行自由分享的平台,其理念是可发现、可共享和可引用,鼓励发布隐性数据(Negative Data)和图像,这既可避免其他研究者重复工作,也使相应数据在他人研究中得到佐证或合理解释,也可能成为重大科学发现的源头[14]。Dryad公共仓储库将数据存储过程与学术论文的出版紧密结合,对与科学出版物相关的数据提供发现、免费使用和引用服务[3],遵循开放数据原则,并与Nature、Science、PLoS等著名期刊社建立了合作关系[6]。Dryad仓储库的核心是论文与数据的集成提交服务[3, 15]。作者可在提交论文前,把数据提交至Dryad仓储库,若论文被采纳,作者还可把更多的个人数据文档集成到自己的数据包中,作者的数据包会获得唯一、稳定的Data Cite 标识符DOI,而DOI 可加在论文文本描述或参考文献中[3],在学术论文发表时作者可在论文材料和方法部分链接相应数据集地址,当数据集被引用时 Dryad会建议使用者引用原始论文和数据集[6]。Nature、PLoS Series、Science、 Molecular Biology and Evolution、Biology Letters等期刊社建立的数据期刊,要求作者将论文与仓储库中数据进行关联,实现论文与数据的集成出版[3];另外,数据仓储库提出了明确的数据引用格式,这有利于数据的永久存储和再利用。

但毕竟重新建库,需要更多的资金和人力等资源,而鼓励和促进已有大型数据库的积极转型,将会促进数据出版的跨越式发展。

(3)期刊网络平台自存储(Self-archiving)

在科学数据的数量较少时,一些期刊便要求作者将这些数据作为科学论文附件形式随论文一起发表,但是,发表数据有限,且需要考虑数据的长久保持问题。Pensoft公司要求在数据不超过20MB 时,作者可以随论文发表这些数据,并存储在出版社自己的网站上。再比如生物信息学Bioinformatics期刊,它的绝大多数论文都附带了科研过程中所使用的训练数据、测试数据及部分源代码[10]。在期刊自己的网站上发表的数据大都为Word、Excel、PDF、TXT等格式的附件数据,也大都为论文的补充性说明文件。

(4)数据期刊(Data Journal)

数据期刊是促进高质量数据出版的必然产物。Wiley 集团的副主席Mike Davis说:“目前,有一种活动愈来愈受重视——支撑关键发现的数据被更多的人访问,从而使数据的进一步分析和结果的解释得到促进。与此同时,不论是研究者创建和获取大型新数据集的能力,还是他们在更大范围的数据仓库中存储和检索数据的能力,都在迅速增强。因此,为了响应这一重要发展趋势,Wiley推出了新期刊GDJ。”在此之后,大量的数据期刊相继被创建[14]。在国内,中国科学院文献情报中心也正在筹备创建数据期刊,寒区旱区科学数据中心也与部分核心期刊建立了发表数据论文的合作协议,相应的期刊也为发表数据论文开设了专栏。数据期刊即发表数据论文的期刊,以描述数据集为首要目标,在出版时,所有与论文相关的材料(包括文本和数据)均被作为数据统一存储、处理[3]。按表现形式可分为短篇数据论文期刊、在线联机平台期刊、数据描述索引期刊3种类型(表1)。第一种以仅出版短篇的数据论文(数据短篇)为核心。数据短篇主要描述对象为数据集,描述内容为数据的收集与处理过程、软件工具、文件格式等细节[3, 15];通过数据短篇直接链接到存在数据中心的数据集。第二种是基于同行评议、开放获取的综合性联机出版平台,集数据出版和存储于一体,实现了科学数据与期刊文献的有效关联与集成,提供扩展的多媒体和语义增强服务。如Biodiversity Data Journal(BDJ)期刊平台,以一种导航的自动出版过程把写作、审稿、出版、存储、分发、互操作、收集和数据再利用全部集成完成[16]:在论文创作—出版过程中,实现了平台与外部数据的可互操作性;论文评审采用联机同行评议形式;出版论文为XML 格式,与论文、图表、其他数据及参考文献等有效的关联与集成[3]。第三种则以提供原始科学数据的分析和追溯线索为主,出版Data Paper以及一种新的Data Descriptor(数据描述)文章。如Scientific Data(SD)杂志出版的数据描述文章主要描述有科学价值的数据集,通过此类内容的索引,提供科学数据的共享及期刊文献的关联;而原始数据及其相关的数据描述则存储在外部数据存储库中。数据描述文章提供科学数据的广泛共享以及与期刊文献的关联,将被收录到一些重要的索引服务中[7, 14],对科学家来说这无疑是一种福音。

数据期刊与传统期刊的不同之处在于,数据期刊发表的是数据论文,重在描述数据本身,且数据期刊同时也要对数据做出相应的评价。作为科学研究的基础,数据能被发表,且被纳入科学评价体系,将在很大程度上刺激科研人员共享数据的积极性,科研人员将不再因找数据难、要数据难而困扰,这将为科学研究创新提供新的机遇。

1.3 数据引用(Data citation)

数据引用是科学数据应用的基本方式,能帮助科学家方便快捷地校验和复用数据,并跟踪数据的效用、创建与出版物的知识链接体系。自2011 年起,DataCite、OECD、DCC等致力于数据引用实践的国际组织先后发布了相关规范,其中DataCite[17]是数据引用领域的主力。

按不同数据的引用形式可分为3种数据引用,即对数据说明文档的引用、对数据相关论文的引用及对数据本身的引用[5]。据彭洁等[1]将科学数据按引用路径分为3种:期刊的学术论文——科学数据引用路径(如Nature、PLoS Biology)、数据中心的科学数据库引用路径(如寒区旱区科学数据中心、 European Molecular Biology Laboratory-DNA、GenBank 数据库)、科研人员的自引用路径(如数据堂平台、Dryad 数据存储)。这3种路径有其自身的特点:期刊的学术论文—科学数据引用路径能有效地发挥传统期刊的作用,在引用规范与流程等方面会起到积极的示范引导作用;数据中心的科学数据库引用路径能为各类科学数据中心在深化科学数据应用方面提供努力方向;科研人员的自引用路径需受专业平台的支撑,科研人员通过对平台工具的利用而表现出更强的自主性[1]。张静蓓等[18]通过对比国外各种数据引用规范,发现各种规范对数据引用时所出现的项目不尽相同,但创建者、标题、发布年份、发布机构等所有规范都具备,持久性标识码也日益受到重视(表2)。

表 2 国外不同规范针对数据引用时所具备的项目

但无论对哪种数据、何种路径进行引用,最主要是要建立对数据的永久链接,以便方便的获取数据。目前国际上推荐的“数据作者列表.数据标题(版本).数据出版/发布单位.数据出版/发布时间.数据唯一永久标识符.”[5, 19]引用格式,相对还是比较全面的,但针对期刊与数据的集成出版,数据引用格式中也应该反映期刊的一些相关信息,这对数据的共享更为有利。

2 我国数据出版现状及存在问题与挑战

数据出版是一种全新的数据共享机制,国内数据出版发展速度相对滞后,但也在做积极的探索。1988年,我国就加入了世界数据中心(WDC)开始探索科学数据共享;2002年,科技部从国家层面上组织实施“国家科学数据共享工程”,初步建立了国家级的数据中心体系,积累并共享了大量的科学数据。很多数据中心如WDC冰川(雪冰)冻土学科中心、中国西部环境与生态科学数据中心、中国科学院计算机网络信息中心国际数据镜像网站等,也均要求用户在使用数据时注明数据的来源,即引用数据。全球变化科学数据出版系统接受数据集(库)的投稿和出版,数据集(库)包括元数据、数据论文、实体论文3部分,出版的数据集(库)各有一个相对应的数据论文(中英文版)关联出版[20],数据集大小灵活,数据格式多样。自2014年开始到目前一共出版了3期45个数据集,数据下载次数已超过5万多次,作者人数达150位[21]。中国科学院文献情报系统也在积极关注科研论文和数据的集成出版,并正在尝试创建数据期刊。其中,中国科学院兰州文献情报中心主办的《遥感技术与应用》、《地球科学进展》等期刊与寒区旱区科学数据中心即将签署科学数据联合出版协议,旨在探索与解决科学数据出版中的数据知识产权保护、数字资源标识、数据出版授权、数据永久存储、管理和共享等一系列问题。期刊开设数据出版专栏,专门发表数据论文,与数据论文相关的科学数据则在数据中心发布,并将数据与论文通过DOI号实现关联集成。由于我国当前在此领域尚处于探索阶段,存在的问题和挑战也比较多。

(1)产权保护缺乏有效的保障,完善的数据引用机制也未完全建立

科研人员对数据出版比较关注数据存放的安全性和数 据的版权归属问题。 而数据出版的核心应 该是做好数据引用工作,只有规范的引用数据,数据产权才能得到保护,数据出版才能得到长效发展。 但数据产权在国内往往被置于知识产权的边缘地带,尊重和维护其产权既缺乏制度、机制保障,也未在业界达成道德共识。在数据引用方面,也很少有相关制度或标准规范要求在科研成果中显示和标识科学数据,更没有形成严格规范的数据引用标准以指导数据引用的实践,严重影响出版机构之间的数据互操作。在实际中,对数据引用的追踪仍主要依赖于人工操作,缺乏相应的技术工具的支持。如何在运行机制上克服研究数据引用存在的问题、建立规范的数据引用,是数据工作者、数据组织方及数据发布方共同的责任[22]

(2)在技术实施及后期维护上制约较多

在数据出版过程中,国内由于集群化的大型出版机构少,除了在技术层面上存在问题以外,由于经费问题,数据库的后期维护和扩展将成为制约中国数据出版的主要障碍。除技术标准需不断创新、数据需具备开放性与互操作性等前提条件外,坚持开放的、科学的发展理念,或许会成为将来科研和科技出版活动健康发展的决定性因素[8]

(3)各出版构成之间缺乏有机高效的合作机制

应从数据出版的角度调整数据中心的定位与数据管理机制,需更加重视针对数据作者的服务工作,促进数据中心与期刊/出版社的良性合作。需重新认识知识产权保护与数据共享之间的关系,数据出版要充分体现数据的署名权,严格保护知识产权,通过各方授权以解决数据集成与数据再利用的问题。出版方和发布方应同意并促成相关行业规范与硬性要求的建立。评价机构要结合传统论文评价方法提出针对科学数据的、可被广泛接受的评价指标与方法。学术界不仅应承认数据出版,还应将其纳入科研成果评价体系[5]

(4)科研数据的挖掘使用需要进一步深入

在大数据时代,谁拥有数据,谁就能主宰未来科学发展的方向。而科学数据的重点不在于“藏”而在于“用”。当前,我国亟需建立完整的数据出版体系,建立权威的科学数据中心,吸引更多的科研工作者发布最新的科学数据,积极尝试数据期刊,鼓励期刊发表数据论文,促进期刊论文与数据的关联集成,并将科学数据发展应用的重点转移到价值功能上,实现科学数据的增值服务。

3 加强我国数据出版的对策建议

数据出版,作为一种新的数据共享机制,可推动数据的共享与再利用、增加数据的价值,也将影响社会经济与科学创新。拥有数据,就拥有主动权。对科学数据进行有效存储、科学管理,发挥数据被重新挖掘和复用的价值,具有长远意义。针对目前我国数据出版的现状及数据出版的重要性,提出以下几点建议。

(1)国家应从政策上支持数据出版,将其纳入科学评价体系

虽然数据出版在国内被高度关注,但目前主要集中在数据中心和部分期刊出版方,以及部分数据科研人员,大多数人对数据出版概念还很陌生。主要原因是数据出版没被纳入科学评价体系,不被数据拥有者认可,即使数据出版方呼声再高,没有数据也是徒劳。大多数有价值的原始数据拥有者,也不一定是科学研究人员,比如油田上的基础数据等,可以说这些人是数据专家,但不一定是科研专家,如果数据出版能被纳入科学评价体系,数据论文被纳入评定职称范畴,将会激励一大批数据拥有者从事数据挖掘、分析和共享。基于中国国情,国家应从政策上将数据出版纳入科学评价体系,将数据论文纳入职称评定范畴。

(2)制定国家标准,建立数据出版和引用规范

没有规范和标准,就没有遵循的依据。只有建立合理的数据引用规范,数据能被有效的引用,就能为评价机构评价数据提供可靠的依据,从而建立更为完善的评价体系。数据引用规范应包括Author/Creator (创建者/责任者)、Title (标题)、Publication Year (发布年份) Publisher/Archive/Distributor(发布机构/存储机构/传播机构)、Url/Electronicretrieval Location /External Links (url/获取地址/外部链接)、永久识别符等主要要素,针对不同的数据发布形式,可建立针对性的引用格式。

(3)数据中心应逐步转型,形成开放的数据出版体系,积极做好数据引用

为数据出版重新建库,除耗时费力、维护等一系列问题外,最重要的是资金的制约。基于不同利益构建的数据库,也可能与已有数据库重复,造成资源浪费。国内目前已有很多相关专业领域的数据中心,但各自为阵,不利于数据的公开获取和复用。因此,鼓励现有数据中心在维护自身利益下逐步转型和联合,将会加速数据出版。数据中心作为数据出版的核心,应做好:数据的产权保护,将数据安全和产权保护列入知识产权维护的重要位置;规范存储,规范数据的存储格式和引用路径,尽快建立规范的数据引用机制和永久引用地址;逐步开放获取,并积极与期刊编辑部联合,促进数据的重复利用。

(4)作为科技文化传播者,期刊编辑部应发挥好纽带作用

就如Mike Davis所言,为了响应关键数据的存储和检索能力,建数据期刊势在必然。通过数据论文与数据存储位置永久关联,不仅有利于数据的被检索复用,更有利于数据使用者了解数据的来龙去脉,为科学发现的数据真实性提供验证。数据论文便于被收录到重要的索引平台中,将加速数据出版被纳入科学评价体系中。现有的学术期刊编辑部不仅具有成熟的出版学术论文的经验,还具有广泛的读作者群体,所以应该积极推动数据的出版,与被认证的各数据中心联合,建立完整的数据出版体系。编辑部应发挥好纽带作用,维护数据提交者的权利,加强数据出版宣传,并与数据中心建立长效的合作机制。编辑部不仅应鼓励作者发表传统科研论文的相关数据并与论文建立关联,更应该加紧建立数据期刊,发表数据论文,为数据的快速检索提供服务,并促成数据论文能被检索机构所收录。在数据期刊起步阶段,在常规的学术期刊中开设相关数据论文专栏不失为一条探索性成长的好途径。

致谢: 感谢审稿老师和编辑老师为本文提出的审稿和修改意见。

参考文献
[1] 彭洁,贺德方,张英杰.数字出版环境中科学数据引用的实现路径及策略调查分析[J].出版发行研究,2014(4):57-61.(5)
[2] 微软《第四范式: 数据密集型科学发现》发布.[DB/OL].[2013-11-10].http://it.chinabyte.com/252/12463252.shtml.(1)
[3] 马建玲,曹月珍,王思丽,等.学术论文与科学数据集成出版研究[J].情报资料工作,2014(2):82-86.(8)
[4] NSF Data Management Plan Requirements[EB/OL].[2011-02-10].http://www.nsf.gov/eng/general/dmp.jsp.(1)
[5] 吴立宗,王亮绪,南卓铜,等.科学数据出版现状及其体系框架[J].遥感技术与应用,2013,28(3):383-390.(10)
[6] 黄晓磊,乔格侠.生物多样性数据共享和发表:进展和建议[J].生物多样性,2014,22(3):293-301.(3)
[7] 邱春艳.期刊文献与科学数据的关联服务研究([J].情报资料工作,2014(2):63-66.(3)
[8] 徐丽芳,丛挺.数据密集、语义、可视化与互动出版:全球科技出版发展趋势研究[J].出版科学,2012,20(4):73-80.(3)
[9] GBIF. ORG. what is data publishing?[EB/OL]. [2015-02-06]. http://www.gbif.org/publishingdata/summary.(1)
[10] 何琳,常颖聪.国内外科学数据出版研究进展[J].图书情报工作,2014,58(5):104-110.(6)
[11] 杜伟,张静.科学研究数据的出版与获取[J].出版科学,2013,21(6):86-89.(1)
[12] Ingwersen Prter,Chavan Vishwas.Indicators for the data Usage Index(DUI):An Incentive for publishing primary biodiversity data through global information infrastruc ture[J]. BMC Bioinformatics, 2011,12(Suppl.15):S3.(1)
[13] Chavan V S,Ingwersen P.Towards a data publishing framework for primary biodiversity data:Challenges and potentials for the biodiversity informatics community[J]. BMC Bioinformatics, 2009,10(Suppl.14):S2.(1)
[14] 赵斌. Nature将推出数据杂志,开源期刊——Scientific data. 2013-10-16. http://blog.sciencenet.cn/blog-502444-733516.html.(3)
[15] 马建玲,曹月珍.研究数据管理工具发展研究[J].图书馆学研究,2014(15):40-47.(2)
[16] 刘凤红,崔金钟,韩芳桥,等.数据论文:大数据时代新兴学术论文出版类型探讨[J].中国科技期刊研究,2014,25(12):1451-1456.(1)
[17] DataCite. What is DataCite?[EB/OL].[2015-02-06].https://www.datacite.org /whatisdatacite.(1)
[18] 张静蓓,吕俊生,田野.国外科学数据引用研究进展[J].图书情报工作,2014,58(8):91-95,138.(2)
[19] 吴立宗,王亮绪,南卓铜,等.DOI在数据引用中的应用:问题与建议[J].遥感技术与应用,2013,28(3):377-382.(1)
[20] 刘闯.论全球变化科学研究数据出版[J].地理学报,2014,69(增刊):3-11.(1)
[21] 全球变化科学研究数据出版系统. 网站统计[EB/OL]. [2015-05-10]. http://www.geodoi.ac.cn/WebCn/Notice.aspx.(1)
[22] 李丹丹,吴振新.研究数据引用研究[J].图书馆杂志,2013(5):65-71.(1)