Print

出版日期: 2016-09-25
点击次数:
下载次数:
DOI: 10.11834/jrs.20166173
2016 | Volumn20 | Number 5





                              上一篇|





下一篇


论文
地球观测数据共享的发展和趋势
expand article info 李国庆1,2 , 张红月1,3 , 张连翀1,3 , 王媛媛1 , 田传召1,3
1. 中国科学院遥感与数字地球研究所 数字地球重点实验室, 北京 100094
2. 海南省地球观测重点实验室, 海南 三亚 572029
3. 中国科学院大学, 北京 100049

摘要

地球观测数据共享是地球科学和相关学科科研活动中非常重要的基础性工作,是对地观测信息生命周期中的重要环节。受到由资源提供者、资源消费者和资源加工者组成的社会生态系统发展变化的影响,共享模式经历了无共享、项目共享、部门共享、社会共享等渐进的4个发展阶段,并呈现出区域差异和阶段差异。地球观测数据共享的概念体系包含数据开放、数据共享、数据互联等不同层次的问题,并受到信息技术等使能技术的驱动。其中开放性代表数据在网络中可被访问的状态,共享性是对于数据重复使用的授权和模式,互联性则是强调可共享数据资源在科学含义上的相互理解。而地球观测数据共享的技术体系则包含数据开放技术、数据共享技术和数据出版与引用技术。目前地球观测领域的数据共享正在经历巨大的文化、政策、技术和应用变革,下一代的地球观测数据设施集中体现了数据的共享和协作,并将呈现国际化、多学科化、标准化、设施化、大数据化和公众社会化等新的技术特征,将对相关科学活动产生重大影响。

关键词

地球观测 , 数据共享 , 共享模式 , 社会生态系统 , 数据设施

Development and trend of Earth observation data sharing
expand article info LI Guoqing1,2 , ZHANG Hongyue1,3 , ZHANG Lianchong1,3 , WANG Yuanyuan1 , TIAN Chuanzhao1,3
1.Institute of Remote Sensing and Digital Earth Key Laboratory of Digital Earth, Chinese Academy of Sciences, Beijing 100094, China
2.Hainan Key Laboratory of Earth Observation, Sanya, 572029, China
3.University of Chinese Academy of Sciences, Beijing 100049, China

Abstract

Earth Observation data sharing plays fundamental role for earth science research, which is an important part in the EO data lifecycle. Affected by the changing of data sharing ecosystem with resource provider/consumer/processor relationship, the sharing mechanism is presenting itself in sequential phases of rear-sharing, project-sharing, department-sharing and public-sharing. Information technologies have always driving the changing of scientific agenda of data sharing, which now can be understood as data open, data sharing and data link. Open of data means the condition of accessible via network, sharing of data means authorized method to reuse data, and link of data means scientific cross-understanding and cooperation of different data resources. Comparing with the evolution history of data sharing policy in USA, China needs to improve its sharing mechanism to be multi-win and sustainable by a dynamic adjusted data sharing socio-ecosystem. The present technical framework of earth observation data sharing is built up with implementation components of data open, data sharing, data publication and data citation, and so on. Under the revolution on cultural, political, technical and application factors for earth observation data sharing, the Next Generation EO Data Infrastructure based on deeply and widely sharing is becoming a reality. The new technical trends of earth observation data sharing as Globalization, cross-disciplinary, standardization, facility-oriented, big-data and public-engagement, will heavily change the related scientific activities in near future.

Key words

earth observation , data sharing , sharing mechnism , social ecosystem , data infrastructure

1 引言

随着对地观测技术的进步和应用领域的扩展,对地观测科学研究活动也从单学科向多学科方向发展,对地观测研究围绕着信号—数据—信息—知识的数字化信息过程来展开,并构成了信息获取—信息传输—信息存储—信息加工—信息挖掘—信息呈现的数据全生命周期(李国庆等,2013)。对地观测活动从传感器、观测平台、数据传输与接收、数据处理、数据分发与共享经历了不同的发展阶段。其中对地观测数据的共享是应用的纽带,最近几年受到广泛关注和研究。

对地观测数据共享涉及诸多问题,包括技术方法、政策规范、国际行动等,由于对地观测数据具有大数据的典型特征(何国金等,2015),即海量、多源、多时相、高价值,另外异构、多尺度、非平稳等特征也对其共享造成了严峻考验。因此分析对地观测数据共享的现状和趋势十分必要,本文从对地观测数据的特征入手,总结阐述目前的数据共享概念体系、国内外发展阶段及政策环境、技术框架,最后概括出对地观测数据共享的几大发展趋势。

1.1 地球观测数据的特征

(1)行业特征。对地观测数据由不同地球观测机构产生,这些机构对数据都进行严格管理,数据的组织管理具有明显的机构和行业特征。不同机构间数据政策不一致,区域与行业的隔离降低了数据之间的关联性。数据提供者基于安全控制、运行成本及商业利益等因素与公众所要求的数据共享之间长期都存在着博弈。技术进步本身并没有彻底解决共享问题,放眼全球来看数据获取能力的增强、存档数据的增加,并没有必然性带来数据共享程度的大幅度提高。

(2)大数据特征。以用户需求为导向的对地观测活动,需要为不同应用需求的用户提供恰当的数据产品及信息资源,这就要求对地观测数据实时处理及快速分发。但由于传统信息模型所支持的数据量受限,数据传输、存储及时效性需求的制约等,对地观测活动中的大数据现象将引发传统科研模式的变化(安培浚等,2007)。从对地观测的信息学过程,可以清晰看到其大数据问题的发展趋势,从海量遥感数据的获取、存储、提取与分发、数值处理到数据挖掘和知识发现整个生命周期都体现了大数据的特点(高峰和安培浚,2008),包含对地观测在内的地球科学全面进入PB时代(Loft等,2001)。

(3)全球性特征。随着全球性的资源、环境问题日益凸显,全球尺度研究成为全世界科学家的关注焦点和研究重点。由于每个地球观测计划都有其在波谱、时间和空间上的特定性和局限性(Raffy,1994),因此全球性问题的研究就需要多个互补观测系统之间的合作,具体而言就是多个数据中心之间的协同工作。为了推进多学科交叉科学研究在解决全球性问题的进程,开放和共享多源、海量、分布式、异构的地球观测数据是必然之举。解决数据间壁垒问题,必须在开放和共享的基础上进一步解决互操作、实时传输、热点计算等时效性和科学性问题。

1.2 推动数据开放与共享是地球观测国际合作的核心

随着世界各国对地观测技术的快速发展,国际社会也面临加强国际上地球观测活动协调、降低无序发展、促进数据共享的挑战。几十年来,相关国际组织和国际协调计划不断出现,比如全球综合观测战略(IGOS)、国际对地观测卫星委员会(CEOS)、地球观测组织(GEO)等(国家遥感中心,2009)。

地球观测数据作为应用领域和覆盖面最广的科学数据,其开放和共享已经得到了国际组织的推动(冯筠等,2005)。国际科学组织对数据共享都表达了浓厚的兴趣并提出了数据共享的战略计划,并通过政策手段和加强同研究机构的联系来推进实施。GEO作为地球观测领域目前最大和最权威的政府间国际组织,其目的是推动建立全球综合对地观测系统(GEOSS),将协同观测、数据服务与社会受益领域应用相结合,以数据共享为核心服务于政府决策及领域实际应用,从而形成综合信息系统。GEO基础设施(GCI)的核心是数据共享,目的是克服行业间的、区域间的互操作及共享壁垒。其服务对象包含九大社会受益领域(GEO,2012):生物多样性、气候、减灾、天气、水资源、能源、健康、农业、生态系统,如图 1所示,底端的各对地观测平台涉及到模型、元数据、服务、产品及应用等,形成了天—空—地一体化的服务平台,通过数据共享服务于社会各行各业。在《GEO十年发展规划》中就指出“脱离数据共享无法达到地球观测的社会应用目标”。GEO提出的地球观测数据共享原则(Lengert等,2012)已经被国际社会和各国政府广泛接受。

图 1 GEO体系结构图
Fig. 1 Architecture of GEO

1.3 数据共享的概念体系

在数据科学中,有诸多与数据共享相关的概念。数据开放是开放式的数据获取,即数据被公开发布并且可以开放获取,数据开放是数据共享的前提和基础。没有开放的数据,数据共享便无从谈起。数据共享是核心,在数据开放获取的基础之上,需要克服获取的障碍,即行业分散管理的壁垒、数据库互操作的障碍等,通过数据共享相关技术来解决壁垒和障碍,实现数据共享。在开放共享的基础上,又发展了数据互联概念,数据互联是借助语义等技术来实现对元数据及数据属性的理解和联通,即能够在语义基础上发现链接更多的相关数据(Gurstein,2011)。

(1)数据开放。当前,人们对“数据开放”尚无统一的定义,不同的组织、机构有不同的理解,如“开放数据中心联盟”(Open Data Center Alliance,2011)将数据开放视为公司IT基础设施、云计算的应用模式与解决方案;学术出版和学术资源联盟(SPARC)认为数据开放是科学数据的一种新型学术出版模式、理念(谭健,2011)。科学数据开放访问,是指科学数据/研究数据能够没有任何障碍地被利用、学习、修改、复制和传播,或者仅因为要确保用户更好地获取数据而采取一些措施(左建安和陈雅,2013)。部分学者将其引申为包含数字化、网络在线、免费、版权赦免等的数据状态。一般而言,科学数据开放获取狭义上可以理解为可访问性使用,那就是数据通过网络的可获得性,要求数据资源能通过网络协议的方式来进行直接操作。联合国环境计划署联合国环境大会第一届会议的结论中提到数据开放的核心原则(European Environment Agency,2013),包括开放数据访问渠道、数据收集后用于多种用途的分享、可靠的数据和信息源管理、归档并跟踪数据和信息的使用情况、公众可通过多种方式获得数据和信息。

随着数据开放运动的深入,私有封闭数据比重会越来越小,开放数据就越来越多,这使得消除数据孤岛、信息孤岛,构建全球范围内开放、统一的数据互联网络空间将变得可能(李娟等,2009)。科学数据的价值体现在它们的使用上,相比于封闭的专有数据获取通道而言,数据开放对于数据的再利用和多学科数据互访有诸多优势。

目前开放数据主要通过以下4个方面实践:数据引用与追溯、数据互操作、数据的无限制复用以及数据语义互联(Koppenol和Divisional,2016)。国际社会政府数据开放政策的动力集中在3个方面(如图 2所示):加大民主监督和参政议政、产生服务和产品创新、加大执法力度。数据开放的举措和手段主要通过以下4个途径:教育和培训、志愿方法、经济手段、法律控制(Huijboom和Van den Broek,2011)。

图 2 各国开放数据政策的关注点
Fig. 2 Overview of the focus of the open data strategies of the countries studied

(2)数据共享。数据的共享性是利用数据已经具备的可访问性,通过政策协商和共享获取技术,使得更多的利益群体可以使用这些数据(Christine,2013)。数据共享是将开放数据的读写权限授权给用户,用户不仅可以查看数据,还可以对数据进行编辑等操作,即用户可以对异地存储管理的数据进行操作。另外数据共享使得数据的使用范围扩大,不再局限于数据的所有者和利益关联用户,更多用户甚至公众也可以使用开放的数据。研究表明,共享详细的科学数据可以提高文章的被引频次(Piwowar等,2007)。因此,数据共享的力度与科研活动密切相关,而且数据共享力度越大,其受益群体越广泛,也就越有利于数据的共享与传播,从而形成良性循环。

数据共享的层面可以是数据集、文件夹、数据库或特定应用层面,针对特定类型数据的共享目前主要是结构化数据,其中遥感数据是数据共享活动的典型代表。对地观测的研究对象是地球系统,而地球系统作为一个多学科组成的综合性巨系统,相关的多学科数据具有明显的分散性和异构性。在研究过程中往往需要综合多个数据生产部门的不同区域、不同时期、不同尺度、不同学科的数据资源。面对全球性和大尺度问题,仅依靠一个数据中心或机构掌握的数据资源很难满足。就地球观测数据本身而言,它以地球上的地物要素作为观测对象,对地学现象和规律的产生、发展过程进行解读,涉及的数据范畴也是多学科、分散且异构的,因此地球观测数据共享在实践过程中也需要通过多家配合、跨学科数据互操作。为此科学界一直都在探索数据共享应该遵从的基本原则和技术体系。

(3)数据互联。数据开放与数据共享主要关注数据互操作的连通性和便捷性,数据之间的理解则更多是通过数据互联技术来实现。虽然数据的互联性尚没有明确的定义,但学术界基本上都认可数据互联是数据开放的一种重要形态和目标(游毅和成全,2012)。万维网联盟(W3C)认为数据互联是将不同类型和来源的数据实体之间建立用资源描述框架(RDF)来描述的连接。数据互联的科学基础是对于同一对象进行描述的数据之间不是独立的,而是存在一定的联系和关联。

数据互联的原则由Berners-Lee在2006年首次提出(Berners-Lee,2006),并且为数据发布商实现网络数据提供广泛指导。有诸多技术文档扩展了该指导原则(Bizer等,2007Sauermann等,2011),并从数据互联社区中挑选最佳实践案例。通过数据互联实现数据语义网,可以通过HTTP(超文本传输协议)揭示并获取这些庞大的互联数据网络,强调数据的相互关联、相互联系以及有益于人和计算机所能理解的语境信息(Bizer等,2008)。

因此,从一定意义上讲,互联是跨学科数据融合使用的基础,因此实现数据互联也成为了数据开放的技术目的之一。

综上,数据的开放性代表数据的一种状态,这种状态允许其他人通过方便的方式(最常用的是网络协议)来接触和获取数据的简要信息和数据本身。数据的共享性可以被理解为一种对于数据重复使用的授权和模式,数据可访问性为这种重复使用提供了技术上的可能性和便利。那么数据的互联性则是强调通过将一系列可共享的数据资源连接在一起,为特定的科学命题提供多学科的完备数据集合。

2 地球观测数据共享的发展过程

受各地区发展水平差异性的影响,国际上尚没有形成统一的发展模型来划分世界各国的卫星遥感数据共享演化历程。但是从发展程度来看各国各学科的数据共享工作都呈现比较相似的特征,都会经历无共享—项目共享—部门共享—社会共享等渐进的4个发展阶段(图 3)。

图 3 地球观测数据共享的发展历程
Fig. 3 Development process of earth observation data sharing

2.1 地球观测数据共享的发展历程

地球观测数据的共享也符合这个趋势。

(1)无共享阶段(1990年以前)。这个时期地球观测数据工作的重点是进行数据库建设和应用服务,数据共享理念尚未形成,数据质量和数据标准的规范化程度较低,数据更多是用于本团队、本单位、本行业内部的使用,在这种文化之下外部的用户也缺乏数据共享的现实需求,共享活动不很普遍。

(2)项目共享阶段(1990年—2000年)。随着科学研究的问题尺度越来越大,科研方法上越来越强调交流与合作,项目实施过程中客观上需要更多的研究人员一起参与,同时数据的质量控制和数据交换的标准化程度也显著提高,在遥感科研项目内不同团队的数据共享开始出现。

(3)部门共享阶段(2000年—2010年)。随着气象、海洋、国土、农业、林业、水利等行业部门中遥感应用的不断深入,数据成本和利用效率成为新的问题,行业部门开始重视在行业内部各个项目之间进行地球观测数据的共享流动,共享工作进入到更加广泛的部门共享阶段,建设了大量行业性数据共享设施。

(4)社会共享阶段(2010年至今)。在互联网模式和科研信息化的大潮下,科学研究呈现扁平化特点,使得更多科研人员可以通过信息设施来使用昂贵科学仪器的成果,企业和公众也越来越重视科学数据中蕴含的价值,这些与地球观测数据生产者和运行者不存在功利关系的数据共享需求逐渐成为影响数据政策的越来越重要的因素,地球观测的共享也就进入到了社会共享阶段。

2.2 对我国产生影响的重要数据共享事件

(1)科技部推动EOS/MODIS数据共享。根据搭载中分辨率成像光谱仪(MODIS)传感器的TERRA和AQUA卫星的轨道,只需要2—3个地面站就可以实现中国全境覆盖接收(刘闯和孙九林,2000)。由于数据没有共享,虽然当时全国各个机构建立了数10个MODIS地面接收系统,但是一般用户仍然无法得到数据。为此2003年科技部启动的“国家EOS/MODIS共享平台建设”项目,对于这些资源进行整合和共享,这标志着我国大规模进行地球观测数据共享的开端。该项目整合后形成覆盖全国的由六站(中国气象局北京站、乌鲁木齐站、拉萨站、广州站;国家卫星海洋应用中心三亚站、北京站)组成的EOS/MODIS数据接收站网,实现了覆盖全国的EOS/MODIS数据稳定业务接收,并向设立在国家卫星气象中心的EOS/MODIS数据中心实时传输和共享。借助于这个项目的数据共享成果,在此后10多年中MODIS逐步成为我国遥感科学研究中最重要的数据源之一。

(2)中美推动中分辨卫星数据共享。在20世纪后期,以美国陆地卫星(Landsat)系列为主的中分辨卫星数据一直是遥感数据市场的主力。2007年11月中国宣布向非洲共享中巴资源卫星(CBERS)数据,以及为此专门在南非建立了中巴地球资源卫星(CBERS)02B星地面接收站,使非洲南部13个国家可免费使用20 m分辨率的CBERS数据。该事件直接推动了美国改变其中分辨卫星数据的共享政策,并在2008年由美国地质调查局(USGS)宣布其Landsat存档数据向公众免费开放,这些数据能追溯到20世纪70年代,存档的图像数量已超过280万张,是全世界最大的地球图像收集库。CBERS和Landsat数据由商业化到开放式政策的转变,代表着中分辨卫星数据共享时代的到来(Wulder和Coops,2014)。

(3)GEO发布地球观测数据共享原则。2009年,GEO第六次全体会议通过了GEOSS数据共享原则实施指南,明确提出了地球观测数据共享的3个原则:①在承认相关国际准则和各国政策、法规的情况下,所有GEOSS框架内的数据、元数据和产品都应保持完全的和开放的交换;②所有共享的数据、元数据和产品都应在最短的时间内以最低的成本提供获取;③鼓励将所有免费的或者不超过复制成本的共享数据、元数据和产品用于研究和教育。该原则目前已经被包含我国在内的各国政府和国际社会广泛接受并付诸实施。

(4)科技部发布中国国家综合地球观测数据共享平台。经过3年的建设,在2014年由科技部国家遥感中心牵头、国内主要遥感卫星数据中心等单位共同参与建设的国家综合地球观测数据共享平台开通。该平台是GEO数据共享思想在中国的具体实现,基于GEO数据共享三原则,制定了中国现阶段推进地球观测数据共享原则,即元数据免费共享、数据在线和开放、科研教育应用免费。国家综合地球观测数据共享平台是中国GEOSS的核心技术设施和国家地球观测数据共享设施,首次实现了包含气象、海洋、陆地等公益卫星和北京一号等商业卫星在内的8个卫星中心的互联互通和统一数据服务,可以为用户提供跨越多种卫星的一站式数据查询、数据下载服务。平台运行一年中就实现了2000万条以上元数据和270 TB精选数据集的汇聚和共享服务。国家综合地球观测数据共享平台的运行标志着我国地球观测数据共享工作进入到了社会化共享的阶段。

3 地球观测数据共享的社会和政策环境

3.1 可持续性数据共享的社会生态系统

地球观测数据共享政策实际上代表着各个利益相关方相互的复杂关系。在数据共享的生态系统中,最活跃的要素包含资源提供者、资源消费者和资源加工者。如图 4所示。资源提供者拥有数据,它希望通过数据的供给来获得自身的声望和经济利益,关注自身数据权益;资源消费者需要数据来进行研究和生产活动,它希望数据成本更低服务更好,但经常忽视数据版权等权益;资源加工者介于提供者和消费者之间,是由数据服务过程的专业化、精细化和便捷化需求而产生,它希望这种服务的价值最大化,但又经常会与资源提供者产生竞争关系。

图 4 地球观测数据共享的社会生态系统
Fig. 4 Social-ecological systems of earth observation data sharing

在这个生态系统中,每个要素都有各自的利益和诉求,可持续的数据共享模式则需要能够既尊重和兼顾各方合理的利益诉求,又保证整体的效率和经济性。对于各方利益关系的平衡模式,就会形成各种各样的数据共享政策。

下面以美国和中国为例说明地球观测数据共享政策的演变。

3.2 美国的地球观测数据共享政策演变

根据投资来源的不同,美国一方面将政府拥有、产生和政府资助产生的数据纳入“完全与开放”的共享管理机制;另一方面将商业公司投资产生的数据纳入“平等竞争”的市场化共享管理机制(左建安和陈雅,2013)。这两种管理机制互相补充、共同推动全社会对地球观测数据的共享和广泛应用。

1984年,美国通过《陆地遥感商业法案》首次为卫星遥感商业化提供法律保障。该法案规定了陆地卫星系统由政府和企业共同运作,政府对遥感数据分发特别是民用领域实行严格管理。

1992年,美国通过《陆地遥感政策法案》允许企业拥有并运营商业遥感卫星系统,以平衡遥感应用的商业利益和国家安全利益需求。

2003年,美国通过《美国商业遥感政策》进一步强调政府对企业运营遥感系统的依赖性,同时政府只对特定数据的收集和产品分发采取控制运行,而无法通过商业途径获得的社会公益性需求则通过政府运营的遥感系统为其提供有效服务(杨磊等,2013)。

随着奥巴马政府将大数据作为美国科技创新的新引擎,数据共享又一次成为美国政府推动的重点,而政府数据开发首当其中。虽然有Landsat的成功经验,但是政府数据开放的前期也是举步维艰,以地球观测和空间数据为主的政府数据所有者对于data.gov没有表现出过多的兴趣和热情。经过分析,美国政府认为需要调整生态系统的利益关系,要正视资源提供者(政府数据管理机构)的合理诉求,提出了边际成本补偿原则(涂子沛,2012),允许对于因为数据共享而产生的额外成本予以政府财政补偿。此举非常正确地解决了资源提供者所关注的问题,大大促进了政府数据开放。

3.3 中国的地球观测数据共享政策演变

中国的对地观测数据共享建设主要是由政府推动,相关部门陆续出台了一系列卫星遥感数据应用相关的指导性文件。

2007年,原国防科工委发布《关于鼓励国内用户使用中巴地球资源卫星数据的若干意见》,指出对国家该卫星中低空间分辨率数据产品公开免费分发、高分辨率数据产品授权免费分发。

2007年,原国防科工委、国家发改委印发《关于促进卫星应用产业发展的若干意见》(任志武,2008),提出要制定统一的对地观测遥感数据标准与政策,促进卫星遥感应用产业的形成。

2011年,国家环境保护部卫星环境应用中心印发《环境与灾害监测预报小卫星星座(HJ-1)数据产品分发管理办法》(孙中平等,2011)。针对不同服务对象确定遥感数据产品的分发级别和格式,对加强该遥感数据产品共享和利用作出明确规范。

2015年,国务院批准《国家民用空间基础设施中长期发展规划(2015年—2025年)》(国家发展改革委等,2015)。规划指出,“十三五”期间将着力完善数据共享服务机制,构建配套的标准规范体系,形成具备国际服务能力的商业化发展模式。

这些文件和政策的出台,促进了国产遥感卫星数据的广泛应用。但是由于缺乏更高层次的数据共享立法,上述行业性规范文件的效力范围有限,而且规范之间也存在不一致甚至冲突的地方。同时,对于数据共享生态系统中各方的利益关系缺乏客观的认识,一些核心的诉求得不到正视和解决,各种共享形成往往缺乏长期性和持续性。目前,中国政府已经认识到这些问题,正在从国家层面开展数据共享政策的顶层设计,致力于推动跨部门的数据共享,更加注重公众,企业和国际社会对数据的要求,以期建立更健康、更可持续的数据共享环境。

4 地球观测数据共享的技术框架

数据共享政策取决于其所处于的社会生态系统中,但是数据共享模式的实现则同时也需要由相关技术体系来保障。有些情况下,数据共享的使能技术也会促进数据共享政策的演化,为决策者提供更多博弈的选项和可能性。随着技术的发展和演变,数据共享的实现程度也会有不同形态。技术决定着数据共享的实现程度和可能性。下面从3个方面介绍数据共享相关的技术。

4.1 数据开放技术

从技术上来讲,数据开放更多是来自于信息技术的驱动和支撑,数据开放的技术内涵至少包含数据的可访问性。数据的可访问性最早主要是由科技文献领域的讨论和研究引发的,其技术指导性的原则是数据的无限制、无障碍获取。

数据开放的技术内涵是开放获取,对多源、异构分布式存储的数据实现开放式的互操作。数据开放在技术上包括使得数据资源可以被外部用户用常规手段发现、其概要性信息可以被外部用户用标准化技术查阅、其数据内容可以被外部用户用给定协议获取等3方面。

数据资源的发现一般采用注册和发现技术,采用约定的技术标准来对资源进行描述,然后在公共资源目录中进行登记。用户可以通过对于目录的操作来找到数据资源。目前常用的发现技术主要是OASIS(Organization for the Advancement of Structured Information Standards)标准化组织制定通用描述、发现与集成服务(UDDI)、网络服务描述语言(WSDL)等(Juric等,2009)。

资源概要信息的描述一般采用元数据技术。元数据是数据的抽象,每个领域的元数据标准差异很大。数据开放中的元数据更多是指数据交换层面的元信息,它比数据存档层面的元信息要简化很多,但是元信息的语义和语法标准化程度则要严格很多。

数据内容的获取一般采用互联网数据操作协议,这种协议类型很多,对于数据实体操作的能力也不尽相同。由于地球观测数据的存档管理有多种形态和实现模式,数据实体操作的协议也需要与此对应。

目前地球观测数据开放在技术实现上最主要就是开放地理空间信息联盟(OGC)的开放数据网络服务框架。这套技术体系涉及多个地理信息主题,其中地球观测数据交叉存在于多个主题,比如地球影像、要素收集、元数据等。目前的地球观测数据开放获取技术都是遵照OGC的互操作标准来实现的,便于与其他的地理信息交互融合。OGC体系可以实现不同组织管理的、采用不同技术、异构的分布式系统为用户提供一致的服务。OGC关于空间数据开放的ISO/TC211等规范已被各国采用。

4.2 数据共享技术

数据共享的技术内涵是利用数据已经具备的可访问性,通过互操作的技术手段来实现开放数据的共同使用,数据共享在技术上包含汇交技术和互操作技术等。

很多场景下,数据共享都狭义地表现为数据汇交1。数据汇交的基础是建立数据质量标准、交换层面的元数据标准。汇交尚没有被广泛接受的技术标准。在地球观测领域,数据汇交在部门数据共享阶段常用的模式往往伴随着对于数据格式和数据汇交地点、管理权限等严格约束,很多情况下都会采用私有协议来实现,这就会影响到更大程度、更大范围地共享,造成所谓的行业性“数据烟囱”。

1本文不区分数据汇聚和数据汇交。一般情况下这两个概念可以通用,但数据汇聚更多是指元数据层面,数据汇交则是物理数据层面。

互操作是一种更加宽容和低约束的技术体系,一般分为标准化(standardization)、联邦(federation)、收割(harvesting)和采集(gathering)4种实现途径(Arms,2000)。在跨机构互操作中,由于缺少系统建设阶段的沟通和预设的接口,收割方式有更大的优势。网格(grid)和Web服务技术是地球观测数据资源之间互操作中最常用的技术实现方式。

4.3 数据出版与引用技术

数字时代的数据出版是指在互联网上公开数据,并且支持除数据提供者之外的研究人员或者组织机构下载、分析、再利用以及引用数据(Klump等,2006)。“从广义上讲,任何将数据上传到互联网或者数据库并支持开放获取的行为都可以称之为数据出版”(Penev等,2011)。对科学数据而言,数据出版是指数据达到可引用和追溯的状态,核心内容是为数据引用提供标准的数据引用格式和永久访问地址(吴立宗等,2013)。科学数据出版是深化数据共享的重要手段,能够激励数据生产者发布和共享数据,又能保护数据的知识产权。数据出版涉及数据提交、同行审议、数据发布和永久存储、数据引用和影响评价5个基本环节,应由出版系统、数据中心和第三方数据评价机构协同实施。数据出版面临的关键问题包括:数据授权、数字资源唯一标识符、数据集成和数据稿源问题(Parsons和Fox,2013)。通过数据监控(data curation)技术可以确保数据的溯源性(provenance)、完整性(integrity)以及再利用的可靠性(reliable)(王晴,2014)。

数据引用是对特定数据集给出参考的新兴实践,使其他人可以方便地定位和获取数据集,提高数据集被发现的机会和重复利用的潜在性。通过对数据生产者和数据管家建立信用和问责机制,可以减少剽窃的可能性。数据集引用的主要组成部分(USGS,2015)包括作者、年份、题目、存档/分发者、获取日期、版本号以及永久定位符或标识符。永久标识符包括UUID、OID、LSID等,定位符包括URL地址、目录或者注册定位符(如DOIs、ARKS、Handles、URL、PURL、XRI)。理想的数据引用是在文章参考文献部分对数据进行引用,但当前阶段论文正文中的数据标注也应该算是一种数据引用方式。DOI数据标识目前已被广泛应用和推广,借助DOI可以很容易地建立科学数据与学术论文的联系,通过出版物方便跟踪数据集的影响度。

5 数据共享相关的国际机构和行动

数据共享受到国际社会的普遍关注,已成为国际科学计划和科学交流中的的重要内容。目前推动地球观测数据和空间数据共享的国际组织主要有地球观测组织、世界数据系统(WDS)、国际科技数据委员会(CODATA)和国际科研数据联盟(RDA)等。如前所述,GEO在地球观测数据共享方面起了关键性的推动作用,同时WDS、CODATA和RDA也在发挥重要作用。

5.1 国际科技数据委员会

国际科学联合会(ICSU)在1968年设立了的跨学科的数据科学组织(CODATA),致力于提高整个科技领域中有重要科学意义的数据在质量、可靠性、管理、可访问性、整编、评估和传播等方面的能力。

地球观测数据作为科技领域最为重要的数据资源之一,一直都是CODATA关注重点。通过与GEO、OGC等其他国际组织的合作,CODATA有效推动了地球观测数据共享的政策和新方法研究。其中最为重要的工作就是以CODATA专家为主提出了GEO的数据共享原则。

5.2 世界数据系统

世界数据系统是国际科学联合会设立的另外一个跨学科的科学数据组织,其前身是成立于1957年的世界数据中心(WDC)和天文与地球物理数据分析系统联盟(FAGS),两者在2008年合并后成立了世界数据系统(WDS)。与CODATA关注于科学数据的方法、政策和技术研究不同,WDS更加关注数据能力建设。WDS的世界数据中心认证机制被认为是国际上最权威的数据中心认证。目前通过该认证成为世界数据中心的机构接近100个,其中很大一部分都与地球观测数据相关。

WDS接受和支持GEO数据共享原则,并基于此制订了WDS数据政策,所有WDS成员必须做到数据开放和免费共享。为了适应更加广泛的机构间协同共享,WDS新增加了网络会员类型(network membeship),将从事汇聚汇交和代理服务的虚拟数据中心列为重要的数据资源类型。

5.3 国际科研数据联盟

国际科研数据联盟(RDA)是由欧洲、美国、澳大利亚等国家科研基金管理机构在2012年合作成立的政府间国际组织,并得到CODATA、WDS等相关组织的支持(王卷乐等,2014)。RDA以促进国际数据交换,推动数据驱动创新为使命,研究前沿数据科学问题,探索新的科学数据管理、交换和使用秩序和规则。

RDA以支持工作组、兴趣组方式推动科学数据政策、标准、技术研究和数据共享实践活动,汇聚了一大批数据科学家参与数据管理共享工作。目前重点关注的领域包含数据产权保护、数据唯一标识、数据服务全球气候变化、数据分析、数据存储政策、数据质量控制、数据出版、数据引用、数据评价等。而这些数据科学新技术和新思想会如何改变地球观测领域的数据管理和数据共享,吸引了国内外众多地球观测数据机构都在积极参与RDA的活动。

除了上述这些国际组织,另外比较重要的机构还有经济合作与发展组织(OECD)、贝尔蒙特论坛(Belmont forum)等也都对地球观测数据共享发挥着重要影响。

6 地球观测数据共享的趋势

随着地球观测数据获取能力的提升,更多学科意识到地球观测数据和信息对其研究的价值,以互联网+驱动的新型空间信息服务产业也迫切需要解决数据基础设施问题,地球观测数据的共享受到更加广泛的重视。目前的地球观测数据共享正在由机构和部门主导向社会主导过渡,下一代的地球观测数据共享设施将呈现出国际化、多学科化、标准化、设施化、大数据化和公众社会化的发展趋势。

(1)国际化。应对全球气候变化、经济和社会的全球化都需要地球观测技术提供全球空间信息保障,全球变化使得全球的科学家开始就全球性效应和全球尺度问题进行联合工作,传统的对地观测数据设施受制于所管理的数据类型在空间、时间和频谱维度上的限制,无法满足全球全时空覆盖的需求。时空频完备的全球数据很难从一个或者少数几个数据设施中获得,必须依赖全球范围的数据共享来为用户提供全球覆盖的数据服务,并为气候变化、人口增长、环境恶化等全球性课题提供决策支持(安培浚等,2007)。下一代地球观测数据共享的全球化特征不仅表现在数据对象的全球覆盖特性,也表现在数据资源的全球分布特点上。借助于“虚实结合”的数据资源组织机制,下一代空间数据设施可以方便地将分布在世界各地的数据资源连接起来形成服务于一定目标的数据设施。

(2)多学科化。对地观测数据作为全球和区域问题研究中极其重要的数据源发挥了巨大的作用。但是由于每个观测计划都有其在波谱、时间和空间上的特定性和局限性,全球性问题的研究就需要多个互补观测系统之间的合作,需要掌握综合理解和利用多种观测数据的能力。同时,全球变化应用、区域可持续发展、灾害减灾等科学问题的理解和认知,还需要除了地球观测数据之外更多学科数据的参与。ICSU发起的未来地球研究计划呼吁学者们起来开展地球系统的综合研究,既包括以往各项研究的综合,更特别强调了要与社会科学家一起对于当代地球面临的问题进行交互研究即交叉研究(陆大道,2014)。但就全球场景下的遥感信息反演问题,同样也表现出强烈的多学科数据共享趋势(李小文,2005),全球资源环境问题具有高度综合和交叉学科研究的特点,其特征参量的反演和同化中会涉及到地球圈层中各个要素之间的物理、化学、生物、人文过程,这些数据是进行全球变化定量反演所必需的。

(3)标准化。地球观测数据共享的技术基础就是标准化的互操作,标准化是实现地理信息共享的根本保障(杜道生,1997)。但标准化是一个尺度问题,在哪个层次进行标准化,对哪些要素进行标准化,这些都最终决定数据共享的政策制定和发展模式。下一代地球观测数据共享模式中,将更加关注数据管理、数据交换、数据共享等全生命周期的技术标准化,减少异构系统之间机器操作的难度。GEO制定了以GEOSS公共设施(GCI)为核心的技术标准体系,目前我国大部分的地球观测数据服务机构对于这些标准的支持还都比较差,更多采用项目或者部门自己定义、但又与国际规范不对应的技术标准,这无形中也造成了更多的数据孤岛。标准化也是国际化的基础,支持国际通用标准是将一个国家的数据和数据工具向全球推广的基础,掌握数据共享层面国际标准的发言权对于国家和机构地球观测实力的呈现具有重要意义。

(4)设施化。空间数据基础设施是指用于采集、处理、加工地理空间数据并进行管理、维护、分发服务和组织协调的基础设施体系(周志鑫等,2008)。空间数据设施的发展是空间尺度不断扩大的过程,由最开始的国家空间数据基础设施构建,进一步发展为区域空间数据基础设施构建,逐步扩大到全球空间数据基础设施构建。地球观测数据共享将呈现设施化的趋势,虽然开展数据共享工作的服务、系统在传统意义上不属于有形设施范畴,但是互联网时代赋予了这种虚拟的数据设施真实存在的意义。ICSU将WDC发展成为WDS,就是发现数据系统的概念比数据中心更能代表未来数据的服务能力。分布在世界各地的各种对地观测数据中心,将在下一代空间数据设施的连接下,面向特定专题,与高性能的信息化设施结合,动态形成大量专业化的虚拟数据设施。这些设施不仅可以汇聚和提供超大规模的数据,还具备对于数据进行深度加工和挖掘的计算能力。地球观测组织所推动建立的GEOSS就是一种下一代空间数据设施,在这种设施上管理和处理的都是超大规模的对地观测数据和空间数据。数据基础设施已经成为国家信息基础设施的重要类型。

(5)大数据化。地球观测、高能物理、天文、基因组学被认为是4个最重要的科学大数据场景(李国庆和邬延辉,2013)。从海量遥感数据的获取、存储、提取与分发、数值处理,到数据挖掘和知识发现,对地观测活动的整个生命周期体现了大数据的“4V”特性:数据量大(Volume)、数据来源和类型繁多(Variety)、数据信息密度不确定(Veracity)、数据变化快(Velocity)。美国陆地卫星5号(Landsat-5)在29年的运行期内产生了接近700 TB的数据,而Skybox微小卫星云星座全在轨后每天就可以产生500 TB的数据。科学家开展全球问题研究,一次全球5 m分辨率覆盖问题求解计算所需要共享交换的数据就达到5 TB。在下一代的数据共享中海量数据的发展、共享、交换和计算将成为不可回避的问题和基本特征。

(6)公众与社会化。科学家一直是地球观测数据共享的主要的服务对象,传统的以科学家为主导的地球观测流程中,通过专业人员运用专业知识来解决专业问题。而随着目前地球观测技术的发展,数据供应越来越多、应用场景越来越复杂、数据处理技术越来越强大,公众个性化的需求有可能被激活,相应地将演化出以公众为核心的地球观测数据共享流程。

公众在地球观测数据的共享中不仅仅数据共享的消费者,同时也可以是数据的提供者。目前的公众观测是随着社交媒体和大数据技术发展而出现的地球观测领域中的新技术,利用便携式设备(智能手机、平板电脑等)和社交网络所提供的功能,使公众有效参与到地球观测数据共享中,并且用于解决实际问题。包括以社区为基础的环境监测、数据收集、解译和信息发布系统。由于公众观测中存在数以亿计非专业的传感器,所采集的各种自然和社会观测数据种类各异,极大地丰富了地球观测信息来源的动态性和丰富性,但是对于这些数据的收集、管理、融合和处理又对现有数据共享技术提出了巨大的挑战。

7 结语

地球观测数据共享是地球科学和相关学科科研活动中非常重要的基础性工作,是对地观测信息生命周期中的主要一环。目前该领域的数据共享正在经历巨大的文化、政策、技术和应用变革,其结果也将对相关科学活动产生重大影响。对比国内外地球观测数据共享政策的历史演变,可以看出得益于数据共享中文化—政策—技术等全社会生态系统的治理,美国的数据共享状况更为成熟和全面。国内的地球观测数据共享也需要从其社会生态系统角度来进行规划和变革,以形成共赢和谐和动态调整的数据共享生态格局。

从地球观测数据共享的技术发展趋势来看,国际化与公众化是共享的方向、标准化和设施化是地球观测数据共享的技术手段,而多学科化和大数据化则是地球观测数据共享发展中需要面临和解决的重大科学问题。

参考文献(References)