西南石油大学学报(社会科学版)  2017, Vol. 19 Issue (6): 70-75
国内外Data Curation研究综述及启示    [PDF全文]
肖玉    
西南石油大学档案馆, 四川 成都 610500
摘要: Data Curation是本世纪以来新兴的前沿领域,是在E-Science环境下提出的一项集持续性、动态性、增值性为一体的数据管理活动,具有重要的现实意义,引起了国内外学者的普遍关注。采用文献综述法,收集参考了大量相关文献资料,分析Data Curation提出的背景及意义,全面总结国外Data Curation在定义、流程、应用实践、教育发展等方面的发展状况。对比国内Data Curation的研究领域及现状,结合国外Data Curation研究情况,提出国内Data Curation的研究不足与空白,并提出我国Data Curation在机构设置、培训教育、应用实践、资金支持、学科交叉等方面的发展方向和研究重点,以期在E-Science环境下实现国内Data Curation的可持续发展,为我国今后深入研究提供参考依据。
关键词: Data Curation     E-science     档案     科学数据     生命周期    
A Review of Domestic and Overseas Researches on Data Curation
XIAO Yu    
SWPU Archives, Southwest Petroleum University, Chengdu Sichuan, 610500, China
Abstract: Data curation indicates the processes and activities related to data management and preservation with the capacity to add value to data in the context of E-science. Through close text analysis of the development and current situation of Data Curation at home and abroad, we summarize the definition, procedure researches, application and education about Data Curation, and explore the blank and hot spot in its research. We also find that researches on Data Curation in China are at the starting stage with focuses on overseas researches and their implication for Data Curation researches in China. According to the analysis, we conclude that more efforts should be made in Data Curation research institutes establishment, education, application and interdisciplinary researches for sustainable development of Data Curation in the context of E-science in China.
Key words: Data Curation     E-science     archives     scientific data     life cycle    
引言

在科技和计算机信息技术飞速发展的当代,海量的数据正以惊人的速度激增。简单的数据保管方式已不能满足用户的需求,如何对这些数据进行科学有效的管理和利用,成为学界尤其是高校亟待解决的重难点。Data Curation(简称DC)即是在E-Science环境下提出的一项集数据的持续性、动态性、增值性为一体的管理活动,最早于2002年由微软公司的研究员Jim Gray提出[1]。需要指出的是,美国学者常用Data Curation,英国学者常用Digital Curation。而国内学者对于Data Curation一词的翻译尚无官方或通用说法,暂处于“仁者见仁”的意译状态,如“数据策管”“数据监管”“数据监护”“数据管理”等[2-6]。但是,不论国内外学者如何界定DC,它的内涵通常都包含以下特征:(1)数据的科学性、多样性、差异性、增值性;(2)DC管理贯穿数据的整个生命周期;(3)DC的主要工作包括对科学数据的收集、筛选、评估、保存、维护、利用等系列活动。

DC的提出顺应了用户对数据的各种利用需求,能对数据从产生到二次利用乃至多次利用的过程进行有效的管理和维护。因此系统地梳理分析国内外DC相关的研究文献,全面了解掌握国内外相关研究内容和进展,周密思考国内DC的发展方向,是我国继续推进DC研究的基础和关键。

1 国外Data Curation的研究概述

本研究将“ Data Curation”“ Digital Curation”作为关键词,通过CNKI,ResearchGate,Google等国内外知名数据库,检索、整理与本研究相关的研究文献共102篇。统计发现,国外的研究内容主要集中在DC基础定义、DC流程研究、DC应用研究及DC教育四个方面。

1.1 Data Curation的基础定义

国外不少机构和组织都对DC作了基础定义,大致包含数字监护、数据监管之意。伊利诺伊大学将DC定义为数字监护的一个分支,即对学术、教学、科研有用的数据的整个生命周期的有效持续的管理,认为DC是发现和检索数据,维护其质量,增加其价值,并提供再利用的活动,包括认定、归档、管理、保存、检索和标注等过程[7]。2003年的电子科技监委会上,Philip Lord和Alison MacDonald将DC定义为:从数据生产角度出发的管理行为和促进行为,以确保数据不仅适用于当前,并可用于创造新数据和数据再利用[8]

另外一些机构对DC的定义还强调了DC的增值概念。英国Digital Cruation Centre(DCC)是数据监管的权威组织,它认为DC包含了数据整个生命周期中的维护、保存和增加研究数据价值的行为[9]。而校际联盟的政治和社会研究(ICPSR)也认为,DC是使指定数据尽可能被理解和可用的社会增值活动。

加利福尼亚大学圣地亚哥分校的科研信息化基础设施方案将DC定义为:“管理数据,以确保其适合于当前利用行为,并适用于后期研究和再利用。”数据处理过程是一个广泛的、有计划的和交互式的过程,归档和保存只是其中的小部分工作。该方案将“归档”定义为“正确选择、评估、存储和访问数据,以及保证数据逻辑和物理上的完整性、安全性和真实性”,将“保存”定义为“在技术环境中确保项目或数据集持续可访问。”

以上定义都存在不同程度的相似,都有可取之处。通过提炼,笔者认为较全面的DC定义应当包含:管理数据整个生命周期的活动;充分保持数据的完整性和真实性;确保数据经过正确的评估、选择并得以安全存储,以支持适时访问;在今后的技术环境中保持其可用性。

1.2 Data Curation的流程研究

DC是一个现代知识管理的循环过程。通常情况下,DC工作流程的每个环节都使用了单独的应用程序来支持该环节的正常运行,从而进一步实现对科学数据的自动化操作。L Dou和G Cao自制了一个元数据的Curation流程,名为开普勒科学数据工作流程。该流程通过各独立程序自动实现对数据的采集、评估和分类,再利用云端来实现数据的显示、共享和编辑,能够实现数据创作者、管理者、使用者三者之间互动合作[10],促进了DC的自动化。

2003年,DCC提出了一种DC模型,展现了与DC相关的科学数据的监管、出版及增值流程。该模型的构成可以分为三个层次:第一层次是指研究过程及出版过程中产生的传统科学数据;第二层次是指在第一层次的基础上,数据监管者对基础科学数据进行再研究,归档保管;第三层是DC的核心价值所在,是基于第二层次的更深层次的挖掘,即利用现代化的技术手段对数据进行不断地校正、描述、扩充,根据不同利用者的需求定制实用数据。该流程模型不仅考虑到了科学数据在研究者、管理者、使用者之间的有效传递,同时增强了数据研究、数据归档和长期保存利用等管理环节,以确保数据的真实、可靠、安全与增值[11]

笔者认为,DC流程既要考虑管理过程中科学数据收集、存储、维护的需求,也要充分考虑开发数据深度挖掘和数据再利用的需求。

1.3 Data Curation的应用实践

DC的最终目的在于科学数据的利用,以实现数据增值。2010年,美国国家科学基金会明确提出,今后的基金申请要一并提交长期保存数据和公开获取数据的计划。

国外DC的研究与发展已有十几年,美国的DC研究处于领先地位,成功的应用实例很多。美国博物馆和图书馆服务研究资助的黄石公园地球生物学项目[12],由高校的数据监管机构、图书档案机构、管理团等领域的学者专家共同承担。该项目基于场所实施DC,其模型包含诸如遗产数据、地球生物数据等丰富的数据类型,经过对数据的描述、收集、归档、存储后,科研人员进行共享以及再利用。DC过程包括前期的研究过程和后期的监管过程,涵盖计划阶段、调查阶段、处理分析阶段、评估阶段、标准化阶段和封装阶段。此外,成功的案例还有美国国家科学基金会的DataNet计划、麻省理工学院提供科学数据的保存和咨询服务、墨西哥大学的地球数据观测网项目、普渡大学的分布式数据监管中心项目、北卡罗莱纳大学的数据监管课程项目等。

1.4 Data Curation的教育发展

随着大数据时代的到来,数字文献的日益增多,许多科研机构尤其是人才汇集的高校,意识到加强DC研究与应用的重要性与迫切性,并试图通过培养DC专业人才来提高各机构DC的能力。美国是最早尝试进行DC职业教育的国家。早在2006年,美国伊利诺伊大学香槟分校的图情专业就在研究生课程计划中首次提出建立DC课程[13],北卡罗来纳大学教堂山分校的信息与图书馆学院也面向硕士研究生设立了“数字化存储”课程[14]。此外,约翰霍普金斯大学、康内尔大学、乔治亚理工大学等陆续开展了DC项目,涉及图书馆与信息科学、农业生物项目、工程等具有首创性、前瞻性、实践性的科研项目或课题[15-16]。DCERC(The Data Curation Education in Research Centers)项目对博士和硕士进行科学数据的专业指导,并通过针对性训练来提高他们对科研的驾驭能力[17]。同时,国外其他学者对DCERC模式起源、课程设置、评估等进行了详细介绍,他们认为开设DC相关课程对于学生和导师是“双赢”的,这种模式同样可以引申到其他的人文科学领域。此外,著名的学术期刊The International Journal of Digital Curation以及国际学术会议“ International Data Curation Conference”也为DC教育的交流提供了良好的平台,为DC教育走向成熟奠定了基础。

在课程设置方面,美国学者Swan等曾对美国和加拿大的52所设立图情专业的高校的课程设置状况进行调研,发现52所高校中有16所高校开设了DC专业课程,有31所高校开设了包含DC内容的课程,还有部分高校将其列为实验教学而非常规课程。在高校开设DC课程对培养DC专业人才起到了积极的促进作用,有力地推动了DC理论研究与开拓实践的发展[18],为我国DC教育在课程名称、课程介绍、教学目标、先修课程、阅读和作业、侧重点等方面积累了丰富的经验[19]。国外DC教育还具有以下明显特征:稳定的资金支持保证数据管理教育的实施,如英国DCC、美国NSF和IMLS等;加强产学研的合作,如大学图书馆与生物农业、工程等;DC教育的一整套体系已日趋成熟,且层次较高(硕士及以上),注重理论与实践结合等。

2 国内Data Curation研究概述

国外从21世纪初对DC及其相关问题进行了探索性研究,并将研究成果付诸实践,开设DC课程,积极开展DC研究项目,取得丰硕成果。相对于国外,目前国内关于DC的研究刚刚起步。笔者通过广泛阅读与DC相关的文献、新闻报道等,对国内相关文献进行归类、整理,发现我国的DC研究主要集中在三个方面。

2.1 对Data Curation的内涵界定及特征价值的研究

国内学者对DC的定义进行了广泛研究和总结,并对其特征和现实意义作了充分论述。杨鹤林、夏姚璜等就国外DC定义、内涵进行了详细的阐述,指明了DC的重要指导性意义,认为DC的数据来源多样化,数据存储方式差别较大大,涉及学科众多,因此DC具有管理持续性、数据增值性、数据跨区域性等特点[2]。王睛认为DC能够满足科研的需求、能扩大数据的共享、促进岗位的转型,具有很强的价值意义[6]。由于各学者对DC的认知不尽相同,因此对DC名称的译释也各有主张,杨鹤林将其定义为“数据监护”,任平将其翻译为“数据医疗”,卢志国和沈婷婷则认为“数据监管”更合其意[20],而互联网上还有“数据典藏”“数据管护”“数据保管”等译法[21]

2.2 对Data Curation综述及启示的研究

目前,国内学者对于DC的研究多集中于理论研究,归纳总结国外DC的发展历程、经验及启示。潘煦通过CiteSpace可视化工具,从国内文献发表时间、关键词、引用期刊及研究力量等方面对国内DC研究情况进行可视化分析;白美程等采用计量分析的方式,将国内DC研究进行了详细的数据归纳和总结,包括研究人员、学术期刊、研究机构等[22]。此外,李文文等[23]、曹霞[24]、高红文[25]、王芳[26]等学者也通过归纳总结,概述国内外关于DC研究的现状、热点,对我国DC研究提出了许多切实可行的建议。陈清文介绍了美国DC教育的发展情况,详细分析了DC课程设置,为我国DC教育发展提出了良好的建议[27]。王颖纯等调查了北美52所高校,详尽分析和比较各校教学体系中的课程名称、课程介绍、教学目标、先修课程、阅读和作业、侧重点等。尹春晓等通过分析国外13所高校DC教育课程体系特点,提出我国发展DC教育的思路[28]

2.3 学界对Data Curation的参与度

通过CNKI文献检索可知,国内关于DC的研究机构,95%集中在图情界,另有极少数档案和信息管理学界人员参与。由此可见,图书馆是常见的DC组织者和实施者,在DC中扮演着重要的角色,可以作为数据的开发者、数据专家的培养者、数据科研的参与者等。虽然国内DC引入较晚,但在大数据时代的驱使下,国内图情界对DC开展了积极而广泛的研究。其中,杨鹤林详细介绍了DC在构建认知、职业教育、环境调研、开发工具和政策引导方面取得的建设成果,以及在英国高校图书馆科研数据服务中获得广泛应用的现实,体现了高校图书馆在DC中的机遇[29]。时婉璐、赵美琳等总结了国外图书馆在DC上的应对经验,分析了图书馆在DC中发挥重要作用的原因,创新学科服务模式,为我国图书馆创新服务提供了契机、借鉴以及经验参考[30-31]。尹春晓等、陈亚平等认为,在DC环境下高校图书馆扮演着数据保管者、开发者、提供者以及科研参与者等角色[32-33]。此外,任树怀等分析了在DC环境下图书馆员发挥的重要作用、角色与职责[34];钟声详细分析了大数据与DC的关系,认为二者对高校图书馆的数据管理发挥着共同促进的作用[35];宋秀芬等将DC中基于生命周期的流程管理应用在高校图书馆中的数据管理上,并将其划分为几个阶段:收集、评价、组织、处理、再利用数据[36];介凤等分析了高校图书馆在大数据时代面临的机遇和挑战[37]

国外档案馆和档案研究机构也在DC中占据了重要地位。国外学界认为DC的过程离不开档案基础理论的指导,尤其是DC过程中的收集、鉴定、保存、管理、利用等环节更是和档案学理论保持了惊人的一致。然而国内档案馆对DC的引入相对较晚,中国科学院文献情报中心的毛天宇最先将DC引入档案界,主要就档案学理论在DC研究中的应用作了探讨,并对档案学界未来发展作出展望[38]

3 我国对Data Curation研究的未来之路

与国外相比,虽然DC研究近年来受到我国学者的重视,研究成果和人群也逐年增长,但由于我国DC研究尚处于起步阶段,目前的研究主要以国外研究介绍和对我国相关领域启示研究为主,这与DC引入我国的时间较短、给予DC研究的支持太少、理论成果未经实践检验等原因相关。笔者认为可以从以下几方面着手推进我国DC的发展。

3.1 建立国内权威的数据管理机构

早在2004年,英国便组建了DCC组织,以对英国国家数据进行管理维护,致力于研究和解决DC过程中存在的问题。然而,国内学界目前对DC的基本内涵尚未形成统一的认知,各持己见,缺乏官方定义,究其原因是没有一个官方认可的权威机构对DC的含义给予认定。2014年以来,尽管广东省、贵州省、广州市、成都市等省市陆续成立了大数据管理局,但仍需尽快建立国家数据管理机构,界定内涵,统一处理国家大数据发展过程中遇到的各类问题。

3.2 全面开展Data Curation的案例分析和实践研究

国内学者侧重于DC的理论研究,研究成果几乎仍停留于对国外研究成果的总结分析,而对国外相关实践案例的深入分析较少,缺乏足够的实践理论,于国内DC实践缺少针对性指导意义。此外,国内自主开展的DC项目较少,且未得到广泛推广学习。国内应加强对国内外DC重要实践案例的分析与研究,“走出去,引进来”,加强与国外开展DC研究的高校和科研机构的学术交流与合作,积极开创国内、国际DC实践项目,不断摸索实践,提高DC研究水平。

3.3 加强Data Curation教育,提高Data Curation意识

DC是数据高效驱动的复杂过程,要完成数据整个生命周期科学有效的管理,培养专业DC人才尤为重要。目前我国DC专业人才稀缺,计算机、图情及档案专业的课程设置不够先进,数据管理专业教育缺乏先例,已不能适应信息化时代迅猛发展的大数据对各大信息机构的实际需求。我们应当紧抓数字化科研契机,充分考虑国内外教育体系差异,以及不同文化特点等因素,借鉴国外经验,逐步在高校设置DC专业,或在计算机软件理论、图情管理、档案管理等相关专业开设DC专业课程,设置适合我国国情的DC教育课程体系,为我国DC项目发展作好人才储备。

3.4 加大对Data Curation研究的资金支持

专业的DC是集程序开发、数据挖掘等为一体的高技术含量的管理活动,其基础研究、实施、培训教育等方面都需要不菲的开销。因此,对DC的支持,不应仅仅局限于支持学术范围内的DC理论研讨,还应取得国家或权威机构的政策支持,增加DC专项资金投入。同时,通过吸引投资、用户收费、慈善事业等方法改善DC的资金需求,使DC的理论研究、实践推广以及人才培养等方面落到实处,助力于DC在我国的广泛应用。

3.5 力促相关学科对Data Curation的参与度

国外档案机构在DC中的参与程度不亚于图情机构。调查发现,许多档案机构虽然没有明文说明参与了DC研究,事实上,档案机构中管理的一些数据材料正是DC的内容。因此,国内档案界应当积极参与DC研究实践中来,正视DC带来的机遇与挑战,思考DC过程中档案工作者的角色定位与价值体现,包括在数据的鉴定评估过程中发挥的作用,通过协助描述、组织和提供智力控制来实现数据管理,从而为研究人员提供建议和指导,促进档案机构在信息时代的合理高速发展。此外,还应积极探索DC与教育、医学等其它学科的交叉,丰富DC研究内容,拓展研究的广度和深度,促进我国DC的发展。

参考文献
[1] Gray J, Szalay A S, Thakar A R, et al. Online Scientific Data Curation, Publication, and Archiving[J]. Proceedings of SPIE-The International Society for Optical Engineering, 2004(4846): 103–107.
[2] 杨鹤林. 数据监护:美国高校图书馆的新探索[J]. 大学图书馆学报, 2011, 29(2): 18–21.
[3] 张秋彦. 高校科学数据监护研究[J]. 情报科学, 2013(5): 45–48.
[4] 崔宇红. E-Science环境中研究图书馆的新角色:科学数据管理[J]. 图书馆杂志, 2012(10): 20–23.
[5] 秦健. E-science图书馆服务前沿: 学术图书馆的新创举[R]. 2011.
[6] 王晴. 国内Data Curation研究综述[J]. 情报资料工作, 2014, 35(5): 52–57.
[7] GSLIS at the University of Illinois. Specialization in Data Curation[EB/OL]. (2013-10-04)[2017-6-04]. http://www.lis.illinois.edu/academics/programs/specializations/datacuration.
[8] P Lord, A Macdonald. E-Science Curation Report Data curation for e-Science in the UK:An audit to establish requirements for future curation and provision[R].London:Twickenham, 2003.
[9] What is Digital Curation?[EB/OL](2013-10-10)[2017-06-04].http//:www.dcc.ac.uk/digital-curation/what-digital-curation.
[10] Dou L, Cao G, Morris P J, et al. Kurator:A kepler package for data curation workflows[J]. Procedia Computer Science, 2012, 9(11): 1614–1619.
[11] Lord P, Macdonald A, Lyon L, et al. From data deluge to data curation[C]//Uk E-Science All Hands Meeting, 2004:371-375.
[12] 刘桂锋, 卢章平, 沙振江. 美国高校数据管护实证研究及启示[J]. 情报理论与实践, 2015, 38(12): 137–142.
[13] Kelly K, Marlino M, Mayernik M S, et al. Model development for scientific data curation education[J]. International Journal of Digital Curation, 2013, 8(1): 255–264. DOI:10.2218/ijdc.v8i1.258
[14] Fulton B, Botticelli P, Bradley J. DigIn:a hands-on approach to a digital curation curriculum for professional development[J]. Journal of Education for Library & Information Science, 2011, 52(2): 95–109.
[15] Choudhury G S. Case study in data curation at Johns Hopkins university[J]. Library Trends, 2008, 57(2): 211–220. DOI:10.1353/lib.0.0028
[16] Walters T O. Data curation program development in U.S. universities:the georgia institute of technology example[J]. International Journal of Digital Curation, 2009, 4(3): 83–92. DOI:10.2218/ijdc.v4i3.116
[17] Palmer C L, Allard S, Marlino M. Data curation education in research centers[C]//Iconference 2011, Inspiration, Integrity, and Intrepidity, Seattle, Washington, Usa, February. DBLP, 2011:738-740.
[18] SWAN A. BROWN S. The skills, role and career structure of data scientists and curators:an assessment of current practice and future needs. 2008 report to the J1SC[EB/OL](2014-01-10)[2017-3-10]. http://www.jisc.ac.uk/media/documents/programme/digitalrepositories/dataskillscareersfinalreport.pdf.
[19] 王颖纯, 张忠慧, 刘燕权. 北美高校Data Curation教育状况调查研究[J]. 图书情报工作, 2014, 58(12): 32–38.
[20] 沈婷婷, 卢志国. 数据监管在我国高校图书馆的应用展望[J]. 图书情报工作, 2012, 56(07): 54–57.
[21] 夏姚璜. 欧美Data curation的实践及启示[J]. 信息资源管理学报, 2013(1): 53–58.
[22] 白美程, 阳广元. 我国Data Curation (DC)的研究进展分析[J]. 科技情报开发与经济, 2015, 25(24): 132–135. DOI:10.3969/j.issn.1005-6033.2015.24.049
[23] 李文文, 陈雅. 国内外Data Curation研究综述[J]. 情报资料工作, 2013(5): 35–38.
[24] 曹霞. 国内Data Curation研究现状与热点分析[J]. 图书情报工作, 2014, 58(18): 144–148.
[25] 高红文, 陈清文. 国外数据监管研究综述及启示[J]. 图书馆学研究, 2013(10): 2–4.
[26] 王芳, 慎金花. 国外数据管护(Data Curation)研究与实践进展[J]. 中国图书馆学报, 2014, 40(4): 116–128.
[27] 陈清文. 美国Data Curation职业教育研究综述及启示[J]. 情报理论与实践, 2015, 38(1): 135–138.
[28] 尹春晓, 鄢小燕. 国外高校数据管理专业教育现状研究与启示[J]. 图书馆杂志, 2014, 33(11): 62–69.
[29] 杨鹤林. 英国数据监护研究成果及其在高校图书馆的应用——DCC建设回顾[J]. 图书馆杂志, 2014, 33(3): 84–90.
[30] 时婉璐, 任树怀. 数据策管:图书馆服务的新创举[J]. 图书馆杂志, 2012(10): 24–27. DOI:10.3969/j.issn.1671-3982.2012.10.007
[31] 赵美玲, 秦卫平. 基于Data Curation的高校图书馆学科化创新服务研究[J]. 情报理论与实践, 2015, 38(10): 46–50.
[32] 尹春晓, 鄢小燕. 研究型图书馆在科学数据管理中的角色问题研究[J]. 图书馆学研究, 2014(15): 48–52.
[33] 陈亚平, 吴淑芬. 数据监管环境下高校图书馆的角色定位[J]. 宁波教育学院学报, 2015, 17(5): 110–112.
[34] 任树怀, 时婉璐. 论数据策管环境下学科馆员的角色定位[J]. 图书馆杂志, 2014, 33(9): 48–53.
[35] 钟声. 大数据驱动的高校图书馆数据监护探究[J]. 情报资料工作, 2014, 35(3): 103–106.
[36] 宋秀芬, 邓仲华, 金勇. 高校图书馆数据监护的流程管理研究[J]. 图书馆学研究, 2015(5): 35–40.
[37] 介凤, 王娟. 科研数据策管对我国高校图书馆的挑战[J]. 新世纪图书馆, 2015(8): 22–25.
[38] 毛天宇. 数字监护研究中档案学理论的应用及启示探析[J]. 档案学通讯, 2016(01): 34–38.