收稿日期: 2016-09-19; 修改日期: 2016-09-29; 优先数字出版日期: 2016-11-25
基金项目: 国家重点研发计划(编号:2016YFA0600300)
第一作者简介: 吴炳方(1962—),男,研究员,研究方向为农业、水、生态遥感以及气候变化情景下的“粮食、水、能源”耦合机制研究。
E-mail:
wubf@radi.ac.cn
中图分类号: TP79
文献标识码: A
|
摘要
本文是国家重点研发计划“全球变化及应对”专项之“全球变化大数据的科学认知与云共享平台”项目介绍。针对中国全球变化数据“数据海量、信息缺乏、知识难觅”的困局,项目力图通过联合中国对地观测领域、大气科学领域、气候变化研究领域的优势力量,建成具有中国特色的全球变化大数据共享平台,践行破除信息数据“深藏闺中”的壁垒。该平台将集大数据快速汇聚、大尺度产品快速生成、不确定性分析、大数据驱动的全球变化敏感因子认知于一体,一方面为中国全球变化研究提供中国区域最好的全球变化大数据集,另一方面为在国际相关活动中,掌握全球变化问题的主导权,发出中国的倡议与声音提供应有的支持。
关键词
全球变化大数据平台 , 快速算法 , 不确定性 , 敏感因子分析
Abstract
China has substantial data, but less information and insufficient knowledge, which results in poor international influence in global change research; thus, changing this situation is urgent. In 2016, a new project of the National Key Research and Development Program on Global Changes and Adaptation entitled, “Big data on global changes: Data sharing platform and recognition”, is launched. The project attempts to establish a global change-big data (GloBiD) sharing platform to change the current situation. This paper introduces this project, which comprises the establishment of three fast processing systems of global data (i.e., multi-source data aggregation and processing system, fast production system on global satellite products with 30 m spatial resolution, and fast production system on FY satellite products), uncertainty analysis of multi-source data impact on global changes, and the recognition of sensitive factors of global change driven by big data. Cloud technology, cluster computing, Apache Spark engine, Apache HBase, and HDFS data storage technology are adopted to build the GloBiD sharing platform. This project will provide high-quality data for the global change research of China. It will also provide valuable information on the main problems of global change for policy making based on the recognition of sensitive factors. Hopefully, the establishment of scientific recognition and data sharing platform of global change data will promote the development of the global change research of China in the future.
Key words
global change big data platform , fast algorithm , uncertainty , sensitive factors recognition
1 引 言
高质量的数据是认知和应对全球变化的科学基础,从纷繁庞杂的数据中挖掘有效信息的大数据技术是中国全球变化研究发挥后发优势的契机。世界范围内全球变化数据产品多样,但尚未形成跨圈层、跨领域、跨行业大数据的集成和共享平台。同时,中国的全球变化相关数据增长迅速,但数据质量参差不齐、标准不一、应用性差、共享不畅,缺乏系统性的数据处理与知识挖掘能力,长期处于“数据海量、信息缺乏、知识难觅”([2016-09-19] http://zb.3snews.net/2016/0615/ 42242.html)的尴尬局面,导致中国区域特色全球变化数据集和具有世界影响力的成果缺失,在全球变化研究和应对中处于被动地位。
建立跨领域大数据平台是国家全球变化研究领域核心竞争力的标志。大数据研究正发展为科技,经济,社会等各领域的关注焦点,诸多国家已将大数据研究上升至国家战略层面( 郭华东 等,2014) 2012年联合国全球脉动计划发布《大数据开发:机遇与挑战》报告( Global Pulse,2012)。2014年美国总统执行办公室出台数据开放政策( United States,2014),2015年美国国家海洋和大气管理局(NOAA)启动建设跨领域海量数据与计算资源集成共享平台的大数据计划([2016-09-19] http://www.nws.noaa.gov/com/weather/readynation/ files/BigData8.3.2015.pdf)。2014年,欧洲中期天气预报中心(ECMWF)开始建设PB级的大数据获取与服务平台([2016-09-19] http://www. copernicus.eu/ sites/default/files/library/Big_Data_at_ECMWF_01.pdf)。同年,中国科学院遥感与数字地球研究所的全球变化敏感因子的空间观测机理与方法以及全球变化对地观测大数据框架等研究成果,荣获联合国“全球脉动”奖;2015年,中国气象局制定《促进大数据发展行动纲要》三年工作方案,推动在国家气象信息中心建设大数据服务平台。
对地观测是全球变化研究不可替代的手段。遥感大数据是遥感发展的前沿科学问题( 徐冠华 等,2016)。美国国家航空航天局(NASA)地球观测系统(EOS)累积102颗卫星数据产品,2016年5月4日欧空局(ESA)对外开放25颗卫星(GCMEs)的数据与产品,中国也开放了环境、风云等中低分辨率卫星数据。但不论国内还是国外,可捕捉全球变化细节信息的大尺度高分辨率遥感产品缺乏,直到近年才有所突破,2013年Google Earth Engine实现2000年—2012年全球30 m森林覆盖制图( Hansen 等,2013),2014年中国发布全球2000、2010年30 m土地覆盖数据( Jun 等,2014; Chen 等,2015),但长时序高分辨率的要素类数据产品还相当匮乏。同时,国内全球变化关键参数定量反演算法向业务部门移交少,导致数据多、产品少,算法多、业务系统少的局面。
数据的时空代表性和不确定性问题是导致全球变化结果不确定性的原因之一。IPCC第5次“气候变化评估报告”的风险预估信度有的偏低( IPCC,2014),因而在启动的第6次报告中强调独立评估不确定性的重要性。NCEP和ECMWF再分析资料已注重引入对地观测产品提升数据质量。国家气象信息中心通过地面、卫星和雷达数据的融合集成,发布了降水和土壤湿度融合产品。综合使用多源观测资料、数值模拟和融合集成数据可有效地降低全球变化研究的不确定性。
全球变化是自然与人类活动长期综合作用的结果,数据的不确定性与研究方法机理描述的局限性导致研究结果的信度偏低。现有研究手段无法清晰刻画其动力机制,面对海量数据无所适从,也无法挖掘数据的价值。“大数据时代”的到来以及数据密集型知识发现方法论为科学研究提供了全新的机遇与挑战( 郭华东,2014),联合国《大数据发展:机遇与挑战》( Global Pulse,2012)明确指出,从大数据内部及大数据之间可以揭示事件的趋势与模式。联合国环境署在第六次全球环境展望报告(GEO 6)的评估过程中首次集成全球三大环境数据中心的数据,来支撑报告的撰写。在大数据技术与全球变化研究方面,国内外处于同一起跑线,为中国在全球变化研究发挥后发优势提供了契机和机遇。建立全球变化大数据平台势在必行。
2 研究目标
面对中国在全球变化研究领域长期面临“数据海量、信息缺乏、知识难求”的尴尬局面,发挥现有的资源优势,突破部门分割的限制,建成中国第一个全球变化大数据云共享平台。为全球变化研究提供可直接应用的全球变化关键参数数据产品,是打破国立机构数据与信息“深藏闺中”的先行实践,也为跨部门、跨领域数据集成与共享提供范例;发展大数据集成分析技术体系,为全球变化研究的敏感因子与焦点问题认知提供数据与技术支撑,提升中国对全球变化的认知能力,塑造中国在国际全球变化认知中的后发优势,为中国的全球变化国际合作与话题引领提供有效的支撑。具体目标包括:
(1) 建成全球变化大数据云共享平台,集成大尺度全球变化数据产品快速生成系统,实现全球变化相关数据的生产、汇聚、管理、共享和云计算服务;
(2) 建成能直接应用于全球变化研究的能量平衡、水循环、碳循环、冰冻圈变化、海洋环境关键参数数据集(群);
(3) 形成全球变化大数据集成分析技术体系,完成多源数据的不确定性评估、全球变化敏感因子和焦点问题(或未来风险)时空特征分析及认知。
3 主要研究内容
“全球变化大数据的科学认知与云共享平台”项目由中国科学院遥感与数字地球研究所牵头,联合国家气象信息中心、南京大学、国家气候中心、国家卫星气象中心、中国科学院大气物理研究所共同承担,执行周期为2016年7月—2021年1月,共55个月。项目承担单位是我国对地观测、气候变化等领域的优势单位,在数据累积、算法研制、平台建设,特别是平台的业务化运行等方面具有明显的优势。项目共设置全球变化大数据云共享平台、大尺度全球变化数据产品快速生成方法、多源数据的不确定性对全球变化认知的影响、大数据驱动的全球变化敏感因子认知模型四个课题( 图1),开展五个方面的研究。
3.1 全球变化大数据云共享平台与云计算应用模型建设
研究分布式异构数据环境下不同数据节点间的信息交互、数据整合与集成、数据同步传输以及分布式协同机制,建立全球变化大数据汇聚业务流程;针对全球变化大数据特点,以及共享服务和云计算应用需求,研究制定数据集成、整合、存储与访问接口标准,建立可直接应用的全球变化关键参数数据库(群),实现分布式多源异构全球变化大数据的有效存储管理;研究数据共享安全控制技术,在保证数据安全防护下,如何通过用户定制和主题数据包的方式实现有效共享;基于混合云架构,研发由1个公有云数据平台和4个私有云数据节点构成的全球变化大数据云共享平台,提供共享服务;基于全球变化数据多维时空数据模型,研究全球变化研究算法封装策略以及模型在线高效加载和运行方案,研发基于云计算架构的全球变化数据实时处理和分析的在线数据云计算服务模型,实现全球变化大数据在线云计算服务。
3.2 大尺度全球变化数据产品快速生成技术与集成系统
开展全球变化关键参数数据需求分析,研究全球变化相关数据科学分类方法、分类标准和规范,研究各类资料的评价指标和准入控制阈值,开展多源数据的质量控制、检测与分析评估方法研究,研究面向气候变化的长序列数据产品误差订正、插补技术;研制数据流程和技术标准体系,建立适应各类数据特点的数据自动汇集、实时与历史一体化的数据产品快速处理和更新追加方法,研发全球变化基础数据产品快速集成处理系统。以Landsat、ERS、ENVISAT、ALOS、CBERS、HJ、Sentinel等系列卫星多类型遥感数据为基础,评价卫星数据时空代表性、云盖时空特征,开展30m分辨率的森林覆盖、火烧迹地、陆面水体、不透水面和耕地利用方式与强度、极地冰盖冻融6种全球变化关键参数的快速生成算法研究。
研究多源遥感数据的互补、融合和产品时空扩展技术,光谱指数和地形指数相结合的山体阴影和水体区分技术,基于光谱指数优选及自适应阈值确定的森林覆盖信息提取技术,不透水面与高反照率等地物分离技术,耕地与草地光谱时空特征差异分离技术;研究面向大尺度数据处理的多层次混合并行计算模型、基于多目标优化的大规模并行优化方法以及基于分布式阶段性暂存的大规模数据访问优化方法,研究海量遥感数据大尺度全球变化数据产品快速生产算法集成技术和自动化、持续化、规模化工程实现方法;研究数据质量及不确定性评价方法。基于国家高科技研究发展计划(863计划)“星机地综合定量遥感系统与应用示范”项目研发的算法,针对极轨风云卫星中分辨率数据,开展陆表水体、植被覆盖度、叶面积指数、海洋表面温度、蒸散、光合有效辐射、光合有效辐射吸收比率、NPP、GPP、反照率、发射率、云雪覆盖率等12种全球变化关键参数算法的优化、鲁棒性增强等方面的研究,构建高性能计算环境和集成系统,结合畸变校正之后的FY1/3数据,实现5种现有FY数据产品的快速更新以及上述12种全球变化关键参数业务化生产。
3.3 数据的不确定性对全球变化认知的影响
针对全球变化大数据云共享平台中的多源数据,研究全球变化关键参数之间的相关性,数据产品的绝对精度、相对精度、噪音等因素以及时空尺度转换与时序数据插补的不确定性对于相应的要素时空分异特征检测的影响;研究数据时间序列的长度与精度对相应全球变化过程的趋势性、突变性、周期性等规律的检测与识别的影响;研究空间数据和台站数据本身的质量、精度及其对时空分异的刻画能力,评估不同数据及其特征对刻画全球变化现象的不确定性,开展全球变化相关数据的时空代表性及不确定性评估。
基于不同时空分辨率的多源数据,利用陆面过程模式、区域-全球气候模式、水文模式、大气化学输送模式等数值模式设计模拟试验;基于以上多尺度、多过程的数值模拟结果进行集成分析,探讨不确定性影响在全球变化过程模拟中的传递机理,研究数据不确定性/时空代表性差异对于全球变化时空规律认知的影响。
3.4 全球变化关键参数的星地融合集成研究
基于多源的全球变化关键参数数据产品,依据本项目全球变化相关数据的时空代表性及不确定性评估结果、多尺度多过程的数值模拟结果以及地面观测数据,对比和分析全球变化关键参数的季节、年际和年代际变化特征,揭示其区域差异和全球关联性。针对所选全球变化关键参数,分别发展相应的数据融合集成方法;基于不确定性、时空代表性等评估先验知识,结合其他辅助信息建立模糊集合理论的融合方法,生成土地覆盖融合集成数据产品;利用多种统计分析方法和技术手段,基于混合像元分解、加权平均、神经网络、卡尔曼滤波、贝叶斯估计、聚类等算法,开展全球地表温度、降水、土壤水分、植被生产力、地表蒸散发、大气CO 2浓度产品数据融合集成。应用新生成的高质量与高精度的星地数据融合产品,综合多种统计分析方法和技术手段,开展深入的时空变化规律研究,以期加深对相关全球变化关键格局和过程的科学认识。
3.5 全球变化敏感因子时空特征的大数据认知模型,构建大数据集成分析
技术体系围绕全球变化“碳、水安全和贫困”3大焦点问题(或未来风险),研究相关全球变化敏感因子准确认知方法,分析全球变化的敏感因子间、敏感因子与焦点问题间的关联性以及趋势性变化规律,形成针对3大焦点的大数据集成分析技术。
在全球变化大数据平台与“碳、水”数据包的支撑下,重点挖掘高亚洲冰雪变化与下游水资源变化的关联,干旱与半干旱地区的耗水量与耕地利用方式、城市扩张、人工水体等的关联,全球干旱与气候变化、耕地利用方式和农业灌溉的关联,建立全球水安全问题认知模型;挖掘以CO 2浓度而纽带的,森林与CO 2浓度变化,海洋初级生产力与海洋环境及陆表人类活动关联机制,形成以全球森林碳汇强度、海洋初级生产力与海洋动力机制和人类活动耦合的碳认知模型;挖掘贫困与全球夜间灯光、粮食生产、耕地利用方式、不透水面等关联机制,建立全球贫困分布及变化认知模型。依托全球变化大数据平台的分布式时空大数据云处理服务,概化形成全球变化风险的关联挖掘、分布差异发现、异常探测、聚簇发现时空认知技术,人类活动贡献的大数据关联挖掘技术,整合形成大数据驱动的敏感因子时空挖掘集成分析技术体系。
4 预期效益
项目将形成全球变化研究的大数据及分析技术,培养一支在全球变化研究领域有竞争力的研究队伍,促进中国全球变化研究上新的台阶;在技术上,通过中国遥感卫星地面站、国家气象信息中心、国家卫星气象中心、国家气候中心的跨部门数据整合,大气科学、遥感科学、地理科学、生态学、计算机科学的跨学科交叉,发展形成以大数据共享平台为依托,以大数据挖掘为手段的“碳、水、贫困”相关的全球变化敏感因子的综合认知分析技术;通过本项目的实施将建成中国首个全球变化大数据云共享平台,依托国家气象信息中心丰富的业务化与共享服务经验,支撑全球变化领域大数据的发展。
4.1 科学价值
全球变化大数据云共享平台以大数据驱动与挖掘为手段,通过敏感因子、因子间、因子与全球变化焦点问题间的关联,构建的大数据驱动的全球变化敏感因子认知模型,认知全球变化“碳、水、贫困”敏感因子变化规律、耦合机制、敏感因子与全球变化焦点问题的关联关系,有效揭示森林扰动与CO 2浓度,全球不同区域水安全、全球贫困时空分布规律等,揭示了纷繁庞杂的全球变化大数据背后隐藏的自然与人类活动的贡献,构成了大数据驱动的敏感因子科学认知方法。
通过全球变化大数据关键参数的时空代表性和不确定性评估方法、全球变化现象的检测与认知方法、模式模拟的全球变化研究结果定量评估,评价多源数据时空代表性和不确定性,揭示碳、水等全球变化焦点问题的不确定性产生的根源。基于大尺度的高分辨率全球变化产品快速生成方法与星地融合集成技术,形成新的高质量全球变化关键参数数据产品,促进对地观测学科与气候变化学科认知的逐步融合,为全球变化提供好的数据支撑。
4.2 社会、经济、生态效益
拟建成的中国首个全球变化大数据共享平台,实现了4个数据中心的10 PB全球变化相关数据的共享,是对国务院《促进大数据发展行动纲要》的积极响应,也为跨部门、跨领域数据集成与共享提供示范,是打破信息数据“深藏闺中”的先行实践。其中,6个全球尺度30 m的全球变化典型要素的快速生产、风云数据畸变消除的自主全球变化产品生产、星地融合的降低数据产品不确定性产品生产,为平台提供源源不断的数据支撑。形成12套涵盖能量平衡、水循环、碳循环、冰冻圈变化和海洋环境关键参数数据产品,为中国全球变化研究提供自主的数据与大数据集成分析技术,有利于提升中国在全球变化研究的竞争力,同时为全球变化国际合作与话题引领提供有效的支撑。
基于17年的全球农情遥感监测与粮食安全研究积累,针对与“碳、水与贫困”相关的全球变化3大焦点问题,利用关联分析、异常检测与聚簇发现等大数据技术,探索敏感因子间、敏感因子与焦点问题间的关联机制,构建认知模型,形成大数据集成分析技术;提升碳、水安全与贫困的认知水平,增强中国对全球变化焦点问题的认知能力,避免跟随导致的盲从,有助于厘清中国在碳减排、水安全、贫困消除所做的重大贡献,形成中国在全球变化认知中的后发优势。平台开放的数据资源及大数据在线云计算服务,可为全球变化研究提供定制化的个性服务,极大减少全球变化研究数据寻觅、下载、处理所消耗的时间,节省数据购买产生的费用。同时,平台也能为众智、众创大数据的挖掘分析,实现数据驱动的知识发现,提升科学大数据的核心价值,实现数据的增值,创造条件。
5 结 论
本文简要介绍了国家重点研发计划“全球变化及应对”专项之“全球变化大数据的科学认知与云共享平台”的研究背景与意义、研究目标、研究内容、预期效益。2016年7月—2021年1月,项目预期将建成中国首个全球变化大数据平台,一方面为中国全球变化研究提供中国区域最好的全球变化大数据集,另一方面为在国际相关活动中,掌握全球变化问题的主导权,发出中国的倡议与声音,提供应有的支持。
参考文献(References)
-
Chen J, Chen J, Liao A P, Cao X, Chen L J, Chen X H, He C Y, Han G, Peng S, Lu M, Zhang W W, Tong X H, Mills J.2015.Global land cover mapping at 30m resolution: a POK-based operational approach. ISPRS Journal of Photogrammetry and Remote Sensing, 103 : 7–27. DOI: 10.1016/j.isprsjprs.2014.09.002.
-
Global Pulse. Big data for development: challenges & opportunities. UN Global Pulse: New York 2012 .
-
Hansen M C, Potapov P V, Moore R, Hancher M, Turubanova S A, Tyukavina A, Thau D, Stehman S V, Goetz S J, Loveland T R, Kommareddy A, Egorov A, Chini L, Justice C O, Townshend J R G.2013.High-resolution global maps of 21st-century forest cover change. Science, 342 : 850–853. DOI: 10.1126/science.1244693.
-
(IPCC. 2014. Climate change 2014: synthesis report//Core Writing Team, Pachauri R K and Meyer L A, eds. Contribution of Working Groups I, II and III to the Fifth Assessment Report of the Intergovernmental Panel on Climate Change. Geneva, Switzerland: IPCC.)
-
Jun C, Ban Y F, Li S N.2014.China: open access to Earth land-cover map. Nature, 514 : 434 DOI: 10.1038/514434c.
-
(United States. 2014. Executive Office of the President//Podesta J, ed. Big data: seizing opportunities, preserving values)
-
(Xu G H, Liu Q H, Chen L F and Liu L Y. 2016. Remote sensing for China’s sustainable development: Opportunities and challenges. Journal of Remote Sensing, 20(5):679-688(徐冠华,柳钦火,陈良富,刘良云.2016.遥感与中国可持续发展:机遇和挑战.遥感学报,20(5):679-688) [DOI: 10.11834/jrs.20166308]) http://www.jors.cn/jrs/ch/reader/view_abstract.aspx?file_no=r16308&flag=1
-
(Guo H D.2014.Big Data, Big Science, Big Discovery——Review of CODATA Workshop on Big Data for International Scientific Programmes. Bulletin of Chinese Academy of Sciences, 29(4): 500-506 (郭华东.2014.大数据大科学大发现——大数据与科学发现国际研讨会综述.中国科学院院刊, 29(4): 500-506) [DOI: 10.3969/j.issn.1000-3045.2014.04.014]) http://www.cnki.com.cn/Article/CJFDTOTAL-KYYX201404014.htm
-
(Guo H D, Wang L Z, Chen F, and Liang D. 2014. Scientific big data and digital Earth. Chinese Science Bulletin, 59: 1047-10549 (郭华东,王力哲,陈方,梁栋. 2014. 科学大数据与数字地球.科学通报, 59: 1047-1054) [DOI: 10.1360/972013-1054]) http://www.cnki.com.cn/Article/CJFDTOTAL-KXTB201412001.htm