Print

出版日期: 2016-09-25
点击次数:
下载次数:
DOI: 10.11834/jrs.20166190
2016 | Volumn20 | Number 5





                              上一篇|





下一篇


论文
地理国情大数据研究框架
expand article info 张继贤1 , 顾海燕2 , 鲁学军3 , 侯伟2 , 余凡2
1. 国家测绘产品质量检验测试中心, 北京 100830
2. 中国测绘科学研究院, 北京 100830
3. 中国科学院地理科学与资源研究所, 北京 100101

摘要

地理国情监测作为大数据时代测绘地理信息领域一个新的、重要战略方向,其发展迫切需要顶层设计与新型技术的支撑,需要建立一种灵活、高效、低成本的大数据处理模式与服务方式。本文以地理国情监测与大数据研究相结合为切入点,阐述了地理国情大数据的分类及特点,提出了云计算环境下地理国情大数据研究架构,并从地理国情大数据存储、处理、挖掘、应用服务4个方面探讨了地理国情大数据云平台建设思路。本文将有助于地理国情监测的生产方式与服务模式变革,推动地理国情监测的广泛应用与产业化发展。

关键词

地理国情监测 , 大数据 , 地理国情大数据 , 云计算

Research framework of geographical conditions and big data
expand article info ZHANG Jixian1 , GU Haiyan2 , LU Xuejun3 , HOU Wei2 , YU Fan2
1.National Quality Inspection and Testing Center for Surveying and Mapping Products State, Beijing 100830, China
2.Chinese Academy of Surveying and Mapping, Beijing 100830, China
3.Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China

Abstract

Geographical Conditions Monitoring (GCM) is a novel and important aspect in the development of geoinformation science in the age of big data. Its development needs top-level design, new technology, and the establishment of a more flexible, efficient, and low cost service mode. This paper first explains the sources and characteristics of Geographical Condition and Big Data (GCBD), which mainly comprises eight types of data, namely, Earth observation data, basic geographic information data, geographical condition census data, geographical condition monitoring change data, ground observation data, survey and investigation data, statistics data, and public source geospatial data. GCBD involves five Vs, namely, volume, variety, velocity, veracity, and value, and exhibits the characteristics of regionality, objectivity, and dynamicity. A research framework of GCBD in the cloud computing environment is then presented. A deep transformation of "geographical data, geographical information, and geographical conditions" must be achieved through the establishment of a "space-aviation-ground" integrated monitoring network, a big data warehouse and cloud computing center, and a big data service environment to provide active, intelligent, integrated, and specialized service for the public, enterprises, and governments. Finally, building a cloud platform of GCBD is discussed from the perspectives of data storage, processing, mining, and application service. The cloud platform can fulfill the requirements of GCM in rapid data processing, data mining, intelligent service, and public application. The establishment of the GCBD framework can significantly change the service mode of GCM and promote its wide application and industrialized development.

Key words

geographical conditions monitoring , big data , geographical conditions and big data , cloud computing

1 引言

地理国情监测作为大数据时代测绘地理信息领域一个新的、重要发展方向,更加强调高质量的监测数据,更为灵活的存储方式,更为高效的计算模式,更为先进的数据挖掘方法,更为丰富的信息表达方式,更为个性化的服务模式,更有价值的地理国情信息(GEO/CEOSS,2014李德仁等,2012Blaschke等,2011)。

随着信息技术的发展,互联网、物联网、云计算等的兴起,全球数据信息量呈指数式爆炸增长,大数据(bigdata)应运而生,全球已全面进入大数据时代。美国奥巴马政府发起了《大数据研究和发展倡议》,斥资2亿美元用于大数据研究(Kalil,2014);英国政府预计在大数据和节能计算研究上投资1.89亿英镑;欧盟将大数据作为Horizon2020计划优先领域;法国政府宣布投入1150万欧元,用于7个大数据市场研发项目;日本在新一轮IT振兴计划中,将发展大数据作为国家战略层面提出,重点关注大数据应用技术;韩国推出大数据中心战略。大数据已经深入到政府、电信、金融、互联网、零售、医疗、智慧城市、能源、制造业、教育、军事、旅游等领域,这些领域与数据技术切合度较高,将产生较大的应用前景(中国计算机学会,2014)。中国大数据时代已经到来,政府和行业高度重视大数据科研,国家“863”计划、国家重大科技专项、物联网“十三五”发展规划等将“大数据”列为优先研究领域,国务院2015年8月发布了《促进大数据发展行动纲要》(国发〔2015〕50号)。

国家公共领域对大数据的运用主要集中在电力行业、智能交通、电子政务、司法系统等方面(中国计算机学会,2014TheCCFTaskForceonBigData,2014),百度、阿里巴巴、腾讯、中国电信等国内企业布局了大数据发展规划,加速推进大数据应用(中国市场调查网,2014)。

在测绘地理信息领域,位置大数据、地理大数据、对地观测大数据等应用而生,已经成为地理国情监测和智慧城市建设的重要战略资源(Killpack,2011)。刘经南院士指出地理国情进入全面、实时、协同性和公众监测的新时代,也就是产生和使用大数据的时代(刘经南等,2014)。Goodchild与郭华东院士在《新一代数字地球》一文中指出“大数据和数据密集型科学的问世加速了数字地球进程,民众科学的新形式和“新地理”概念也为下一代数字地球指明方向”(Goodchild等,2012)。

随着大数据科学与技术的快速发展,地理国情监测对先进技术手段的迫切要求,必然推动了其与大数据的相互融合与渗透,由此催生了地理国情大数据。其优势体现在:(1)地理国情权威、客观、准确,是大众、政府、企业科学决策的重要依据,国家开展的第一次全国地理国情普查,掌握了权威、客观、准确的地理国情。(2)地理信息技术与产业的全面发展,为其建立与发展奠定了基础;大数据受到政府、企业的关注与认可,已经上升为“国家战略”,是实现地理国情价值的无形力量。(3)地理国情大数据的研究使得地理国情信息来源泛在化、数据获取实时化、数据处理自动化、信息分析智能化、信息应用多元化、服务内容多样化、服务方式主动化、服务主体社会化(Zhang等,2015李维森,2013李德仁,2013周星和桂德竹,2013)。

为适应大数据时代地理国情监测的发展需求,本文阐述了地理国情大数据的分类及特点,提出其研究框架与主体技术,以及地理国情大数据云平台建设思路。

2 地理国情大数据分类及特点

2.1 地理国情大数据分类

地理国情是从地理的角度分析、研究和描述国情,即以地球表层自然、生物和人文现象的空间变化和它们之间的相互关系、特征等为基本内容,对构成国家物质基础的各种条件因素做出宏观性、整体性、综合性的调查、分析和描述。例如,对国土疆域概况、城市布局和城镇化扩张、孕灾环境与灾害分布等基本状况的调查、分析和描述等。地理国情综合反映了一个国家或区域人地关系的协调程度,是国家和地区科学发展、可持续发展、和谐发展的重要决策依据(李维森,2013李德仁,2013)。

地理国情监测是综合利用全球卫星导航定位、航空航天遥感、地理信息系统等现代测绘技术,综合各时期已有测绘成果档案,对地形、水系、交通、地表覆盖等要素进行动态和定量化、空间化的监测,并统计分析其变化量、变化频率、分布特征、地域差异、变化趋势等,形成反映各类资源、环境、生态、经济要素的空间分布及其发展变化规律的监测数据、地图图形和研究报告(李维森,2013)。

地理国情监测数据主要包括遥感对地观测数据、基础地理信息数据、地理国情普查数据、地理国情监测变化数据、各类地面观测数据、各类调查与考察数据、统计数据、众源地理空间数据等8种类型。

(1)遥感对地观测数据。通过航天、航空或地面遥感获得的数据,是地理国情监测的稳定数据源,可以满足地理国情的动态、常规监测需求。按数据空间分辨率可以分为低、中、高空间分辨率遥感数据;按电磁波的光谱段可以分为可见光、热红外、微波、LiDAR遥感数据。该数据的特点是获取范围大、重访周期短、数据体量大、时效性强。从数据量看,目前,地理国情普查所使用的数据就达到200TB。从增长速度看,呈量级增长,如资源三号卫星数据,重访周期仅5d,一年内的数据量就可达数百TB。

(2)基础地理信息数据。该数据是指通用性最强,共享需求最大,几乎为所有与地理信息有关的行业采用,作为统一的空间定位和进行空间分析的基础地理单元,内容包括数字线划图(DLG)、数字高程模型(DEM)、数字栅格地图(DRG)、数字影像地图(DOM)、地名数据、土地覆盖数据等,特点是数据体量大、信息量大、应用面广、现势性好,具有极高的共享性和社会公益性。全国1:5万基础地理信息数据达12.3TB,从增长速度看,按照图幅计算,图幅数呈现大幅增长趋势,2012年与2011年相比,增长速度达到15%(见图 1表 1)。《基础测绘条例》规定,基础测绘成果实行定期更新与及时更新制度,定期更新至少5年1次,快速变化区域至少1年更新1次,预测今后将以15%的速度增长,数据量剧增。

图 1 2007年—2012年基础地理信息产品生产现状
Fig. 1 Status of basic geographic information products in 2007—2012

表 1 2007年—2012年基础地理信息产品生产数量
Table 1 Basic geographic information products in 2007—2012

下载CSV 
/幅
类型 2007 2008 2009 2010 2011 2012
DLG图 15602 19094 15949 23573 365410 393029
DEM图 746 6866 3237 1270 83671 135185
DRG图 4316 12154 3661 11696 8231 9813
DOM图 - - - - 333776 392482
合计 20664 38114 22847 36539 791088 930509
注:数据来自国家测绘地理信息局测绘统计年报2007年—2012年(国家测绘地理信息局,2013)。

(3)地理国情普查数据。从遥感对地观测数据中提取得到的地理信息,是地理国情监测的本底,包括数字正射影像、地表覆盖分类数据、地理国情要素数据。特点是数据体量大、精度高、信息量大、应用面广、现势性好。据估计,地表覆盖与地理国情要素矢量数据可达2.4TB。

(4)地理国情监测变化数据。是指面向不同监测专题,对不同时相的地理空间信息进行对比和变化监测的结果,包括遥感影像变化监测图斑、地形变化数据、属性变化数据。特点是数据体量大、精度高、信息量大、应用面广、现势性好。随着时间的推移,形成不同时间序列的变化数据,按照1年更新1次计算,预测今后将以15%的速度增长,数据量剧增。

(5)各类地面观测数据。以传感器为数据采集的工具,常年进行监测,是分析规律、建立模型、验证模型、预测预报的重要数据源,包括大地测量数据、遥感影像解译样本数据等。此外,气象、水文、地震、交通、林业、农业、海洋资源、地质与矿产资源等专题数据也是地理国情监测的数据来源。该类数据的特点是观测频率高、数据类型多、数据体量大、数据具有可比性。

(6)各类调查与考察数据。根据特定目的,不定期进行调查、考察形成的数据资料,如全国性资源环境调查数据、青藏高原综合科学考察数据、全国经济普查数据、全国土地调查数据等,此类数据是地理国情监测研究中非常宝贵的基础数据资料,是对研究结果进行验证的最直接、最有效的数据源。特点是数据不可重复获得、具有历史性。

(7)统计数据。以社会经济数据为主,一般以行政区划为单元进行定期数据采集,是反映国民经济和社会现象的数字资料以及与之联系的其他资料,也是反映人地关系是否协调、社会发展是否和谐的重要指标,是地理国情监测研究不可缺少的数据。特点是具有相关性、准确性、及时性、可比性、可衔接性。

(8)众源地理空间数据。通过网络工具、GPS终端、带GPS的笔记本、PND(PortableNavigationDevice)以及各种定位传感器、RFID(RadioFrequencyidentification)得到的地理空间数据,此类数据为地理国情监测提供了一种新的数据获取模式。特点是数据获取容易、数据量大、时序性高、成本低,具有不确定性、高现势性、社会性、开放性等典型特征。

综上,从数据量、增长速度、准确度、应用价值看,地理国情监测数据是天然的“大数据”,由此催生了地理国情大数据。它是面向地理国情监测,以国家地理空间框架和信息化测绘体系为支撑,以遥感对地观测数据及基础地理信息数据为主体,通过整合地理国情普查数据、地理国情监测变化数据、各类地面观测数据、各类调查与考察数据、统计数据、众源地理空间数据而形成。

2.2 地理国情大数据特点

从数据量、增长速度、准确度、价值等方面看,地理国情大数据除具备大数据的5V特征外,还具有区域性、客观性、动态性等特征。

(1)5V特征。Volume-海量:由于地理国情监测数据的自生长性,随着时间的推移,数据会自动增加,现有数据量达10PB,未来将达E、Z级;Variety-异构性:地理国情监测数据来源多样,经过不同手段获得的数据存储格式及提取和处理方法各不相同,直接导致数据模型的不一致和数据的异构性;Velocity-时效性:采集实时性,处理高效性;Veracity-准确性:遥感结合地面调查,确保了数据真实、准确;Value-高价值:地理数据与社会经济统计数据相结合,能够产生反映资源、环境、生态、经济要素的空间分布及其发展变化规律的地理国情。

(2)区域性。地理国情监测强调从主要提供基本比例尺地形图和基础地理信息数据的服务向动态、实时、按需定制的地理国情信息服务的转变,弱化了地图分幅、制图比例尺等概念,可按照作业区域、地理单元等灵活组织数据生产,也可按地域需求、频率需求灵活提供地理国情监测技术与信息服务。

(3)客观性。地理国情大数据是自然和人文地理要素空间形态的直接表达,是不以人的主观意志为转移的客观存在。其能够客观、公正地监测、统计、分析地表自然和人文信息的变化。

(4)动态性。地理国情大数据随着时间推移不断发展变化,反映的是地理要素的空间分布和时空演变规律,能够为中国可持续发展和科学管理提供全面、综合、持续、现势性的地理国情动态信息,促进中国重大事项、重要项目的科学决策、科学评价、科学管理。

3 地理国情大数据技术架构

3.1 总体架构

地理国情大数据离不开云计算,面向大数据的持续增长,传统架构虽然能够进行扩充,但其IT架构和数据处理方式已无法有效应对地理国情大数据环境,如果将大数据存放于传统数据库中,则无法保证有效性与实用性(Snijders等,2012)。因此,必须将地理国情大数据置于云计算环境下,通过采用统一设计、分类建设模式,采用分布式数据库及并行处理技术如MapReduce、Hadoop(Bertolucci,2013Shim,2012),建立可扩展、可成长、透明化地理国情大数据技术架构(图 2)。

图 2 地理国情大数据技术架构
Fig. 2 Overall architecture of geographical conditions and Big Data

通过构建天空地一体化监测网、设立地理国情大数据仓库及地理国情大数据云计算中心、建立地理国情大数据云服务环境,实现地理国情大数据技术的“地理数据—地理信息—地理国情”深度转化,为社会公众、企事业单位和政府机构提供主动、智能、综合、个性化的服务。

(1)天空地一体化监测网。建立“天基—空基—地基”的跨平台地球空间数据一体化获取网络,充分利用基础地理信息数据、各类调查与考察数据、各类地面观测数据等,形成满足地理国情监测的天空地一体化监测网,提升对全球、全国、区域、局部的自主、全天时、全天候、多种观测、多源数据获取能力。

(2)地理国情大数据仓库。面向多源、异构、多维地理国情大数据的共建共享与集成应用,基于互联网、云计算、大数据等技术,实现地理国情大数据的网络化存储、一体化管理、增量级联更新、网络监管等,为地理国情大数据在国家、部门、行业和社会公众的应用提供数据资源保障。

(3)地理国情大数据云计算中心。运用人工智能、机器语言和统计分析等知识,实现地理国情大数据的高效处理与深度计算,主要包括平台引擎、运行监控、运行管理等组件,提供数据处理、影像解译、基本统计、分析挖掘等。

(4)地理国情大数据云服务环境。面向社会公众、政府部门、行业用户,通过统一认证和不同的网络,提供统一的基础架构级服务、平台级服务、应用级服务。基础架构级服务是在物理服务器硬件平台之上对物理计算资源进行抽象,虚拟出一个虚拟计算资源池,为用户提供统一、高性能、安全的云计算环境服务。平台级服务是提供数据处理服务、影像解译服务、数据分析服务、应用服务管理等。应用级服务是面向具体的应用(如生态文明监测、国土空间格局监测)而提供的服务。

3.2 关键技术

围绕地理国情大数据技术架构,为实现地理国情大数据的获取、处理、解译、表达、建模、服务等,需要重点突破天空地一体化对地观测、多元数据基准统一与一致性表达、地理国情大数据计算范式等关键技术。

(1)天空地一体化对地观测技术。强大的对地观测技术是地理国情大数据获取的最重要手段,由于缺乏统一的科学布局,传感器模式不一,获取的数据差别较大,空、天、地传感器之间数据耦合困难,难以综合利用,无法满足地理国情监测的要求。应将对地观测资源全局组织、多传感器协同观测、地理国情大数据决策服务作为一个有机整体来研究,着力构建空天地一体化对地观测网络,突破飞行器轨道自主定位技术、平台直接互联共享机制等技术,确定多平台多系统间的相互关系和交互机制,定义主要的接口和协议,构成一个立体的、高效的、实时以及高覆盖度的对地观测系统(李德仁等,2012),全面感测、传送、整合和分析包括基础地理信息数据、各类地面观测数据在内的各类地理国情监测数据,为地理国情的“感、传、智、用”架构体系建设创造条件。

(2)多元数据基准统一与一致性表达。多元数据的基准数据统一包括地理国情多元数据的结构化、结构化与非结构化数据的基准统一两个部分。前者主要是针对空天地一体化对地观测网络获取的遥感数据进行处理,包括高精度影像配准、多特征影像一体化融合,目标是建立一套基于地理空间多级网格的地理国情监测数据多尺度、一体化数据基准。后者主要是通过研究非结构化数据存储管理、信息发布、内容检索等技术,解决地理信息数据与非结构化地表参数、互联网获取数据之间的基准统一问题。在此基础上,研究非结构化数据与结构化数据的相似性和相互关系,将两者进行整合,研究它们的统一数据基准。在一致性表达方面,发展地理空间网格技术,将结构化与非结构化的地理信息进行统一表达,为地理国情大数据的处理打下坚实基础。

(3)深度学习和智能化知识发现技术。深度学习是人工智能的一个新领域,与人工构造特征的方法来比,更适合于大数据的处理(Zeiler和Fergus,2014),利用深度学习处理地理国情大数据时,应加强基于物理模型的深度模型学习算法,并探索新的地理信息特征提取模型。知识发现是近年来兴起的在大量数据中提取可信的、新颖的、潜在有用的、能被人理解的模式的高级处理过程,所抽取的信息是隐含的、未知的,并且具有潜在应用价值(Han等,2011)。针对地理国情大数据的特点,利用空间数据挖掘与知识发现相结合的方式从这些带有时空信息的数据中挖掘出规律性的时空知识,为地理国情决策提供辅助支持。

(4)地理国情大数据计算范式。地理国情大数据的计算应该是定量计算与定性分析的结合,是一种新的科学计算范式,可以先以计算模型的建立入手,构造模型的关键在于能够表达地理系统的复杂结构以及人地关系。模型一般应具有:

●层级性,使研究者可从不同侧面、不同层次上分析地理国情大数据;

●扩展性,计算模型能容纳其他任何标准化的大数据和数学模型;

●能动性,模型应具有自适应和自更新能力,能深刻反映现实原型,并在某些时空特征上超越现实原型;

●特征性,模型能反映地理国情要素间的因果关系、关联关系等;

●通用性,模型能具有一定的通用性,适应于不同层次、不同模式的地理国情大数据计算,尽可能地完成各类地理国情大数据的处理、分析与服务,形成一个规范化、科学化的新型地理国情大数据计算模型。

(5)地理国情大数据服务模式。应在物联网、云计算等现代信息技术支持下,研究地理国情大数据的高效整合、分布式管理、快速检索、快速发布、在线服务共享等技术,实现基于政务内网的涉密地理国情监测信息服务和基于国际互联网的非涉密地理国情监测信息公共服务。此外,应努力探索面向公众的地理国情大数据服务模式,以便形成良好的生态产业链,促进地理国情大数据的健康持续发展。

4 地理国情大数据云平台

云计算为地理国情大数据处理提供了一个很好的平台,是大数据时代的唯一选择,也是唯一可行的处理方式,能够更加迅速地处理大数据的丰富信息,并更方便地提供服务(罗军舟等,2011Wang等,2011)。

地理国情大数据云平台自底向上分为3层:IaaS层、PaaS层和SaaS层(图 3)。

图 3 地理国情大数据云平台架构
Fig. 3 Cloud platform architecture of geographical conditions and big data

IaaS层作为基础设施服务层,提供集群管理服务。硬件层面上,通过在操作系统层之下虚拟化的方式对集群主机硬件状态进行监视和控制(包括计算能力分配、动态内存管理、在线迁移等),在软件层面上,能够进行服务部署,并能够对平台上各主机节点上部署的服务进行监测。

PaaS层作为平台级层,为上层应用提供支撑。其中,重要的服务有:平台存储服务、数据处理服务、影像解译服务、大数据分析服务、数据服务引擎、应用服务管理等。

SaaS层为云端服务簇,提供了生态文明专题、国土空间格局专题、重大工程实施专题和其他专题等,为政府机构、企事业单位、社会公众提供主动、智能、综合和个性化的服务。

4.1 地理国情大数据存储

云平台的存储系统支持多种存储方式,以适应不同形式的数据存储需求以及满足不同效率的访问需求。地理国情大数据云平台管理的诸多数据在形式上大体可分为空间数据、属性数据、非结构化数据、切片缓存数据等四大类。其中对空间数据和属性数据实现图属一体化管理,即以矢量数据管理方式进行管理;非结构化数据如图件、Word、Excel等以FTP和数据库编目的方式管理;切片缓存数据采用文件目录的方式进行管理。

4.2 地理国情大数据处理

地理国情大数据处理主要负责遥感对地观测数据的辐射、几何、融合、镶嵌、信息提取、变化检测等处理,以及地理空间数据的抽取、转换和装载等,为后续的数据挖掘提供一系列较细粒度的处理操作,地理国情大数据处理的结构如图 4所示。

图 4 地理国情大数据数据处理结构
Fig. 4 Processing structure of geographical conditions and big data

地理国情大数据处理包括底层数据部分、后台数据处理部分和用户交互接口部分。

底层数据部分主要是各类地理国情大数据,此外,还提供多种形式的数据隐私保护机制和数据安全控制机制。

后台数据处理部分首先进行数据的有效性验证,然后针对不同的数据源,通过工作流形式调用不同的处理功能,形成后续大数据挖掘算法易于识别和处理的数据。

用户交互接口部分主要负责大数据处理的用户交互过程,包括数据的显示与管理、任务的调度与管理。

4.3 地理国情大数据挖掘

数据挖掘是从大量的数据中挖掘出有用的信息,提供决策支持(Chang等,2008),基于云计算的大数据挖掘结构如图 5所示。

图 5 地理国情大数据挖掘结构
Fig. 5 Data mining structure of geographical conditions and big data

地理国情大数据挖掘可以直接面向数据库,也可以是经过大数据处理系统处理后的数据。在地理国情大数据挖掘中包括各种数据挖掘算法,比如并行聚类分析算法、并行分类算法以及并行关联分析算法等。大数据挖掘出的有用信息经由用户接口提供给各种应用系统。

4.4 地理国情大数据应用服务

地理国情大数据应用服务是整个云平台提供数据和服务的对外窗口,是解决用户如何发现数据、浏览数据、使用数据、申请数据、交换数据等问题的工具。该服务能够支持方便、灵活、快捷的信息查询,提供任意词检索方式检索数据库,支持信息动态更新和发布,能够为政府机构、企事业单位、社会公众提供主动、智能、综合和个性化的地理国情信息服务。

5 结语

本文以地理国情监测与大数据相结合为切入点,阐述了地理国情大数据的分类及特点。地理国情大数据是地理国情监测与大数据相互融合与渗透的产物,蕴含着“地理数据—地理信息—地理国情”相互转换机理。

地理国情大数据技术离不开云计算,本文提出了可扩展、可成长、面向云计算环境下的地理国情大数据技术研究架构,以及需要攻克的关键技术,并从地理国情大数据存储、处理、挖掘、应用服务4个方面探讨了地理国情大数据云平台建设思路,旨在为地理国情大数据的顶层设计提供参考。

要真正理解与用好地理国情大数据,不但要凝练出地理国情大数据的科学问题和核心技术,而且更重要的是遵循“从实践中来,到实践中去”的原则,在实际应用中去了解地理国情大数据的重要意义、理解地理国情大数据的科学规律、发现地理国情大数据的应用价值。

参考文献(References)