文章快速检索  
  高级检索
分布式遥感空间在线分析处理的多维分析模型及其旱情应用
李继园1, 孟令奎1 , 2, 张 文1, 段红伟1    
1. 武汉大学 遥感信息工程学院,湖北 武汉 430079;
2. 水利部 水利信息中心,北京,100053
摘要:近年来,空间在线分析处理(spatial on-line analytical processing,SOLAP)技术已逐渐应用于遥感多维分析研究领域,但其计算性能仍面临大规模数据的挑战。本文借鉴数据密集型计算模式Map-Reduce在OLAP领域的相关应用研究,提出一种基于该模式扩展的遥感数据SOLAP立方体模型。在数据分级分块基础上,对现有模型在分布式环境下进行了适应性改进,并在Map-Reduce支持下,通过引入多维地图代数将该模型中的SOLAP计算转化为基于栅格块粒度的并行地图代数操作。以遥感旱情应用为例阐述了模型的构建与应用过程,并实现了原型。试验结果证明了该模型在大规模数据处理情况下具有较好加速性能与可扩展性。
关键词空间在线分析处理     数据密集型计算     旱情监测    
A Distributed Multi-dimensional SOLAP Model of Remote Sensing Data and Its Application in Drought Analysis
LI Jiyuan1, MENG Lingkui1 , CAI Yang2, ZHANG Wen1. DUAN Hongwei1     
1. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China;
2. Water Information Centre, Ministry of Water Resources, Beijing 100053, China
First author: LI Jiyuan(1985—), male, PhD candidate, majors in spatial data warehouse and big data analysis.E-mail: homegis.lee@gmail.com
Abstract: SOLAP has been applied to multi-dimensional analysis of remote sensing data recently. However, its computation performance faces a considerable challenge from the large-scale dataset. A geo-raster cube model extended by Map-Reduce is proposed, which refers to the application of Map-Reduce (a data-intensive computing paradigm) in the OLAP field. In this model, the existing methods are modified to adapt to distributed environment based on the multi-level raster tiles. Then the multi-dimensional map algebra is introduced to decompose the SOLAP computation into multiple distributed parallel map algebra functions on tiles under the support of Map-Reduce. The drought monitoring by remote sensing data is employed as a case study to illustrate the model construction and application. The prototype is also implemented, and the performance testing shows the efficiency and scalability of this model.
Key words: SOLAP     data-intensive computing     drought monitoring    
1 引 言

空间在线分析处理(spatial on-line analytical processing,SOLAP)通过扩展OLAP技术到GIS中,建立了一种有效的多维多层次空间数据快速分析和挖掘方法[1]。随着遥感数据的广泛应用以及地图代数语言在空间分析与建模方面的快速发展,近年来一些学者已在概念上提出利用SOLAP多维模型支持以遥感影像为代表的连续场时空分析(R-SOLAP)[2, 3, 4, 5]。该类方法将空间几何对象离散化的栅格作为空间度量,并基于封闭式地图代数实现时空聚集计算。由于对地观测平台持续产生大规模遥感数据流,对R-SOLAP计算性能提出了很高的要求,已远远超出单机的分析能力。目前有少数面向多维栅格分析的分布式/并行数据库可缓解遥感数据仓库所面临的大数据压力。例如,Oracle在单机并行模式下研究利用地图代数扩展GeoRaster[6];文献[78]则基于数组代数提供MOLAP操作,并扩展至高性能并行机。然而,这类方法目前还未出现SOLAP扩展,其并行模式的扩展性和容错性在大数据环境下还面临一定的挑战。

数据密集型计算技术为解决此问题提供了一种新途径。其典型计算模式MapReduce (简称MR) 具有较强的容错和伸缩能力[9]。基于MR模式的开源框架Hadoop(http://hadoop.apache.org/)已能扩展至上千个普通计算节点,且已应用于科学数据密集型领域[10, 11]。在MR模式支持下,海量数据的OLAP分析可通过实时计算,而非预计算所有方体来满足性能要求。此类研究已逐渐成为大数据分析研究热点,但主要还集中在数值文本数据[12, 13, 14]。尝试在MR环境下建立R-SOLAP方体模型,可为遥感多维分析及数据挖掘提供有力支撑。尽管当前已有学者研究利用MR处理遥感影像,但在R-SOLAP多维分析上的应用仍处于起步阶段[15, 16]

基于以上出发点,本文提出了一种以MR扩展的分布式栅格多维模型(Tile-Cube)以支持大规模数据的R-SOLAP分析。Tile-Cube模型在分布式环境下适应性地改进了现有R-SOLAP,并引入多维地图代数[17],将SOLAP计算解构为栅格块粒度上的并行地图代数操作,进而表达为MR任务流。同时,Tile-Cube以透明接口屏蔽了数据密集型计算复杂性。本文以遥感旱情分析为例阐述了其构建与应用过程。性能测试结果证明了此模型在大规模数据情况下的加速性能和可扩展性。

2 基于Map-Reduce的分布式R-SOLAP方法概述 2.1 Map-Reduce简介

Map-Reduce通过映射(Map)和规约(Reduce)函数实现大规模数据并行操作,如图 1所示,每个MR Job(一个完整的批处理过程)以Key-Value(K-V)数据集为输入,执行:①Map阶段接收到K-V数据分片后执行用户定义函数,并输出中间K-V到本地;②Shuffle阶段对中间结果分组排序后发送至Reduce端;③远程节点上的Reduce阶段执行用户函数,处理分组数据集,并输出最终结果到分布式存储。利用组合Key可实现多维数据集操作,基于多个链接Job可建立复杂处理流程。在典型的MR环境中,计算节点即存储节点(data/compute node,DCN)。任务调度可通过本地化计算(移动计算到数据所在节点)而减少传输,增强计算的可伸缩性[9, 10]

2.2 R-SOLAP概述

一般的,SOLAP立方体可定义为一个三元组〈D,M,Γ〉,其中:①D=d1,d2,…,dn为维集合,维定义为元组〈L,→〉,L是维中有限层次集合l1,l2,…,lj,每个lL中有若干成员,→代表两个层次间的聚集关系(如lilj表示由li向lj聚集)。D包括空间维和非空间维,空间维每层内成员为空间几何对象。②M={m1,m2,…,mn}为度量集合,度量是若干维确定的某个对象属性值,包括数值和空间度量。③Γ={f1,f2,…,fn}为聚集函数,是具体度量的计算方法。SOLAP方体是一种抽象且互动性较强的模型,强调多维视角的空间信息发现。基于此模型,可定义或执行各种SOLAP操作,如切块(dice)、切片(slice)、上卷(roll-up)、钻取(drill-across)及旋转(pivoting)等。

然而,SOLAP模型以离散空间几何数据为操作对象,无法适用于表达连续地理现象的遥感信息。因此,R-SOLAP以空间几何对象Ogeom为边界离散化栅格,建立了新的空间度量形式——栅格对象:Oras=〈R,Ogeom〉,并以几何对象层次作为空间维度来支持栅格对象的时空聚集[3, 4, 5]。R-SOLAP操作是聚集函数的N维泛化,依赖于地图代数。因此要实现R-SOLAP操作向上述MR Job的转化,需要将相应地图代数函数转化为MR Job的Map和Reduce阶段。现有R-SOLAP模型基于二维地图代数,尽管在时空多维操作方面作了定义和描述,但在二维空间中实现SOLAP计算向多维数据集的MR计算转化仍然具有一定复杂性,如时间维在映射和规约函数中无法直接纳入时空域的统一分析模式中,且SOLAP操作的后期扩展也受到限制。

2.3 分布式R-SOLAP架构

笔者引入多维地图代数(multi-dimensional map algebra,MMA)作为中间抽象层以辅助R-SOLAP向MR Job的转化[17]。地图代数通常包括Local、FocalZonal函数及各种操作算子[2],如图 1(a)(b)所示(由于本文未用到Focal函数,故不赘述)。MMA将这些函数和操作扩展至三维或多维数据模型,实现了一体化的时空分析,如图 1(c)(d)所示。

图 1 传统地图代数与多维地图代数示意图 Fig. 1 Traditional and multidimensional map algebra

MMA方体可视为SOLAP方体中每个维上只有一个层级的方体子集,因此更符合SOLAP的多维分析模式。分布式环境下,利用MMA计算的数据可并行性,将MMA方体分割成块。每个块的Key为其维标示,Value为块栅格值,从而可建立多维K-V数据集。以该数据集为输入,SOLAP操作可转化为封装在MR Job中的并行地图代数计算。图 2给出了R-SOLAP的分布式架构,包括客户端和MR环境。客户端提交SOLAP查询后,MR环境中的SOLAP驱动器将请求解析为MMA计算,然后转化为相应的MR Job,并提交至环境中主节点的调度队列。当前Job中的子任务被自动调度到多个DCN执行,最终处理结果在存储端汇集,并返回至客户端。要实现上述过程,首先需要在MR环境下建立R-SOLAP模型的描述与存储机制;其次需要在MMA支持下研究SOLAP计算向MR阶段的转化机制,这两者都需要向上层分析屏蔽底层分布式复杂性,从而使得分析人员无须关心空间基础设施的运行机制与原理。

3 分布式R-SOLAP实现机制 3.1 Tile-Cube模型

分布式环境下,栅格一般被分割为大小一致的数据块以实现基于数据并行的均衡存储与计算。建立分布式R-SOALP模型需顾及几个方面:首先,由于遥感数据的多源化和多时空尺度化,需要基于统一的格网划分以支持同一时空尺度内的封闭式地图代数运算。其次,连续地理现象被离散化为一系列地理单元后,需要建立基于单元的时空对象表达方法以支持空间维聚集。此外,多样化遥感数据类型及其衍生数据间的复杂关系,很难用方体中的维层聚集关系来表达。基于以上分析,对原模型的适应性改进如下:

图 2 分布式R-SOLAP架构图 Fig. 2 Distributed architecture of R-SOLAP

(1) 度量Tile。以Geodetic投影下基于2n+1×2n划分的全球空间信息多级格网为空间维基本层[18],将栅格划分为具有各向同性的数据单元(Tile)。作为方体中的基本空间度量,Tile也是分布式环境下的基本存储与计算单元。此时,几何对象Ogeom覆盖的Tile集合可粗略地表达栅格对象为〈{S},Ogeom〉。

(2) Tile的空间支持。由于格网层可灵活表达地理对象,各种空间维层次 (如行政区或流域层级)都可构建于格网层之上。一般的,下层对象与上层间的聚集关系为N∶1 (如N地区∶1省),但图 3显示Tile AB在表达上层对象时出现了1 (tile):N (对象) 和N∶N的映射关系。记Tile度量T中由Ogeom所覆盖的部分为Tgeom,记以T为地理边界的几何对象集为GT,称为tile的空间支持。则在tgeom的支持下可建立TgeomOgeomN∶1或1∶1映射关系,此时栅格对象可准确表达Tgeom,Ogeom〉。Tile的空间维聚集可产生多种度量形式,如Tile→数值度量,Tile→空间几何度量,或Tile→栅格度量 (分辨率降低)。为简化Tile-Cube模型描述,下文仅考虑第一类情况。

图 3 Tile与上层地理对象间的聚集关系 Fig. 3 Relations between tile and upper geometry objects

(3) 方体间聚集。不同数据类型建立不同的方体,因此一个面向主题应用的方体集合可表示为〈C1,C2,…,Cn,{}〉,显式声明了方体间的聚集关系,如〈C1,C2C3表示C1C2通过F计算得到C3

(4) K-V集合。MMA方体在SOLAP方体内的时空范围M可描述为式(1)。式中,u为方体类型;MD表示MMA方体在SOLAP方体的D维取值集合;d1,d2,…,dnD中l层上的成员子集。如c1,c2,…,cm表示空间维单元集合(由经纬框、矢量边界或地名定义的Ogeom转换为地理单元编码集),t1,t2,…,tn可表示时间维取值集合(由查询时间边界条件定义或离散时间成员组成)。从而,一个MMA方体的时空范围(Key值)和相应的Tile集合(Value值)共同建立了MR Job的多维K-V集合

由于K-V数据库具有良好的扩展性,并能与MR自然集成以实现分布式并行查询与写入,本文采用K-V数据库HBase建立Tile-Cube多维存储事实表。作为事实表的索引项,行健(RowKey)被设计为“空间维编码+类型编码+时间维编码”(空间维地理单元采用Morton编码),使得Tile在表中能按照空间维(c)→数据类型(u)→时间维(t)顺序排列,保证了同一地理单元上的Tile可存储在相同或相近物理区域,从而显著减少MMA的网络传输。行健、列和时间戳共同映射的存储单元,用以存储Tile或数值度量。Tile-Cube对应的空间支持文件(即格网划分后的矢量数据)预先缓存于各计算节点,每个Tile可通过RowKey指向本地空间支持。此外,各节点上部署的方体描述文件定义了SOLAP方体、各维信息及其与表结构间的映射关系。数据访问接口通过该文件可将M解析为索引内容,并通过HBase内建扫描器(SCAN)执行分布式查询,最后返回结果到MMA方体中,从而完成数据到视图的映射。

3.2 分布式R-SOLAP计算

由前文描述可知,Tile-Cube中的R-SOLAP计算实质是将相应MMA转化为Map和Reduce阶段中基于Tile的并行地图代数。下文以Mean操作及其MMA函数应用(LocalMeanZonalMean)具体阐述R-SOLAP中钻过和上卷操作的具体实现机制。

(1) 钻过操作(drill-across):钻过操作是方体类型由u1,u2,…,un聚集到uo的过程,该操作通过连接同一地理位置的度量而进行各种分析(如回归计算、数据融合等),可视为多个MMA方体执行Local函数。若聚集函数为LocalMean,则输出方体元素可由式(2)计算,式中,Tcuit为各输入方体在位置〈c,ui,t〉上元素。而该计算又可转换为对一组输入瓦片Tcuit执行传统地图代数函数LocalMean图 4(a)显示了利用植被条件指数方体CVCI和温度条件指数方体CVCI基于公式(CVCI×λ+CVCI×(1-λ)=CVHI)计算植被健康指数方体CVHI的实例[19]。当λ=0.5,该计算即LocalMean

(2) 上卷操作(roll-up):上卷计算是对Tile在时间或空间维或时空维的聚集过程,可分别利用统计区域为时间区域Ztime、区域Zgrid以及时空方体区域Zcube的MMA Zonal函数来计算。其中,时间维上卷是方体的时间维成员由li层的t1,t2,…,tn聚集到上层lj成员to的过程,若聚集方法为Mean,则该过程可视为方体CZtime为统计区域的多时相遥感信息合成,表达为ZonalMeanC,Ztime。其输出元素可基于一组时间序列瓦片执行LocalMean来求得,如式(3)所示。图 4(b)给出了利用该操作将日度NDVI按均值合成为旬度NDVI的实例


空间维上卷是空间维格网层成员c1,c2,…,cn聚集到上层成员go的过程。若聚集方法为Mean,则该过程可视为方体CZgrid为统计区域,基于ZonalMeanC,Zgrid计算落入每个区域内的输入元素均值。区域g0的统计值lgout可由式(4)计算,其中,n表示g0内Tile的个数。图 4(c)给出的地区代表值统计过程显示,该计算可分为Tile内聚集和Zgrid内聚集:首先每个Tile结合其空间支持执行3.1节所述映射过程,以GTciut(g0)(GT中属于g0的部分)为区域,执行Tile粒度上的ZonalSum和ZonalCount而得到中间结果(sum&count),然后分别在区域A和B内汇集结果,执行f=∑sumn/∑countn以统计各区域内元素均值。

图 4 Tile-Cube中的R-SOLAP计算及MR阶段示意图 Fig. 4 Computations and MR phases of R-SOLAP in Tile-Cube

由上述分析可知,由于Tile的引入,SOLAP操作需要在两个步骤内完成:即Tile粒度上的处理和聚集区域内的计算,并可转化为MR Job的Map和Reduce阶段任务,如图 4(d)所示。在钻过和时间维上卷的Map阶段中,每个mapper读取输入方体中的Tile,传递至Reduce端,Reduce对Map分组结果执行Local计算。空间维上卷的Map阶段中,每个mapper读取Tile后执行Tile粒度上的Zonal计算,Reduce对Map分组结果执行区域内聚集。Map的输入Key为Tile的多维标示〈c,u,t〉,根据不同的聚集方向(如uuo,cgo,t→to)输出不同Key值(〈c,uo,t〉,〈go,u,t〉,〈c,u,to〉),从而将中间结果按照聚集区域分组并输入Reduce阶段。若方体在时空域执行上卷,则聚集方向为c,t→go,to,且Map输出Key为〈go,u,to〉。除Mean外,Tile-Cube还实现了Local/Zonal函数的其他操作算子,如计算类(Add/Sub/Multiply),统计类(Max/Min)以及比较类(GreatThan/LessThan/Equal)。由各种函数和操作定义的Map和Reduce阶段共同构建了MR Job执行库(SOLAP Lib)。由于Map和Reduce基于K-V实现通信,因此Map和Reduce阶段可重组建立新的Job,以扩展模型中维层聚集和方体间聚集关系。

结合2.3节的分布式架构,R-SOLAP向MR Job的转化与执行过程可描述如图 5所示。SOLAP驱动器基于SOLAP Lib将客户端SOLAP请求转化为MR Job程序,基于方体定义文件(Cube)将数据查询范围解析为数据库SCAN条件,同时配置Job其他参数,最终提交至Hadoop主节点上的Job Tracker。DCN上的Task Tracker轮流向Job Tracker申请子任务。SCAN将在DCN上执行分布式查询,且每个节点上的查询结果作为本地输入,以执行该Job的Map任务。Reduce则收集Map分组结果,完成处理并执行入库及后处理(如投影与图表绘制)。

4 试验与分析

基于Hadoop0.23.0/HBase0.92.0(默认配置)在具有1Gbps理论网速的刀片集群(8个计算节点,1个管理节点,各节点配置4个双核2.4GHz CPU和12GBRAM)上建立分布式环境。利用Java编程语言和集成了GDAL(http://www.gdal.org/)的MMA(http://code.google.com/p/mdma/),实现了现有遥感旱情监测与分析系统的一个Tile-Cube实例,并通过下述测试证明模型的加速优势。系统利用实时接收MODIS(moderate resolution imaging spectrometer)数据合成遥感地表特征参数(如植被信息NDVI和地表温度LST等)的日度、旬度和月度信息,并累计历史同期值;然后基于这类参数构建各时期旱情指数VCI、TCI及VHI。采用2011年全国及周边地区250mMODIS数据,预先完成投影和1.25°×1.25°(n=7)格网划分并入库。

图 5 R-SOLAP计算的MR Job执行过程 Fig. 5 Execution of MR Job of R-SOLAP
4.1 旱情应用流程及性能测试

上述旱情计算涉及大量信息的多时相聚集以及长时序历史数据分析。为支持此应用,构建了如图 6(a)所示的Tile-Cube模型,包含若干方体。各方体对应一类信息或参数,且共用时间维和空间维。其中,空间维可为流域或行政区层级,方体度量包括Tile和区域统计值。所有计算过程都可用维层次及方体间聚集函数来描述。由于存储资源限制,预先完成所有方体计算并不现实,在查询度量不存在情况下可利用SOLAP操作语言实时计算。图 6(b)给出仅日度NDVI存在的情况下,VCI地区均值统计的查询实例及SOLAP操作语句。计算流程为:首先通过时间维上卷(spatial roll-up)对日度NDVI进行聚集方法为Mean的旬合成。然后,将合成结果与历史累计方体ChNDVI连接,执行drill-across以计算VCI旱情指数。为得到各行政地区的旱情分布概况,在地区Zone的支持下利用空间维上卷(time roll-up)聚集各地区VCI均值。图 8(a)显示了长江流域中下游部分省份在2011年4月中旬和5月上旬的VCI计算结果,表明5月份旱情已从上游地区和湖北扩大至中游湖南和江西等多省地区。

图 6 Tile-Cube模型的旱情监测应用 Fig. 6 Application of Tile-Cube in drought monitoring

试验基于上述VCI均值统计过程,考察了Tile-Cube (称为MR模式)的加速性能。将原有旱情应用系统(IDL编写的单机串行批处理程序)作为加速比计算基准(称为Legacy),并基于R-SOLAP方法以多线程方式(6个)设计客户端/服务器环境下的并行查询程序(称为C/S模式)作为对比。为避免数据索引对C/S执行时间造成影响,每次试验前将所需数据存储于同一目录,客户端先发出请求,服务器读取所需Tile执行所有计算并出图。每次测试后清除中间和结果数据以避免缓存对下次测试带来影响。试验分别在上述模式下执行一组测试,数据量为1.3GB(1旬部分地区)、15.9GB(1旬)、48.4GB(1个月)、142.6GB(3个月)、552.1GB(12个月)。其中,Legacy模式完成时间分别为1.3min、17.7min、49.7min、145min、538.4min。测试C/S和MR模式(满节点)随该数据量变化的时间开销(包括MR每步计算时间),计算加速比如图 7(a)所示。

图 7 MR模式和C/S模式的R-SOLAP加速性能对比 Fig. 7 Performance comparison of R-SOLAP based on MR mode and C/S mode

此计算流程包含3个串联MR Job,包括NDVI合成(NDVI Job)、VCI计算(VCI Job)和VCI统计(VCI-Stat Job)。由于MR启动延迟较大,该计算在小数据量情况下效率明显低于Legacy和C/S模式。当数据量增长至15.9GB时,其总体加速性能可超过C/S并继续上升,到达16.5倍加速比后开始趋于稳定,此时集群吞吐速率已达饱和状态。在1年的数据处理中,MR的每步计算效率分别达到Legacy的20.1,17.4和15.4倍。结果显示MR模式加速性能随数据量增大而稳步提高,持续增长情况下可保持稳定,具有较好的数据可扩展性。

图 7(b)(c)所示,试验同时测试了两种模式随节点增长的执行时间变化。当数据量为15.9GB时,在节点增长前期加速性能缓慢,3个节点后才超过C/S模式;节点增长后期,其数据并行度增大,达到Legacy模式的7.2倍。当数据量为48.4GB时,MR模式执行效率能很快超过C/S,实现16.5倍加速。该结果表明在数据量较大时MR模式随节点增长的加速性能发挥明显,具有较好的节点可扩展性。与现有方法相比,除性能优势外,Tile-Cube可方便地执行统一的时空域分析。为进一步了解各地区内每种地物对旱情响应的敏感性,在地表分类Zone和月度Zone共同建立的时空方体Zone支持下,利用时空域上卷统计各地物VCI月际变化。图 8(b)显示了湖北石首市在3—5月份VCI分类统计情况。这段时期该市持续高温无雨,土壤严重失墒。其中水田受灾严重,对干旱反应灵敏,5月份VCI降幅达75%,其他地物则有不同程度灾情变化。

4.2 性能影响因素分析

上述试验显示了数据增长对加速性能的影响。为进一步考察数据在时间维或空间维的增长模式对性能的影响差异,图 9(a)(b)测试了在数据总量为6000个Tile的6组数据(cell×time)情况下,NDVI旬合成(time roll-up)和NDVI区域统计(spatial roll-up)的网络与时间开销。测试5次取均值。结果显示,随着空间范围的缩小,时间维增大,二者执行时间均单调递增,且幅度不同。由于模型为遵循计算本地化,将对应相同cell的一组Tile存储在同一或相近区域,而不同cell的Tile在集群中分散存储,因此空间范围扩大会提升SOLAP加速性能。而时间序列过长且空间范围较小的情况下节点易满载,多余任务被分配至其他节点增加了传输开销,因此优化措施中需要兼顾两者平衡。

图 8 旱情应用实例的分析结果 Fig. 8 Results of drought analysis examples

Tile的大小与单个Map/Reduce任务量有直接关系,因此影响到MR Job性能。图 9(c)在3种格网划分(0.625°×0.625°、1.25°×1.25°、2.5°×2.5°)情况下进行上述1旬数据的NDVI旬合成(time roll-up),VCI计算(drill-across)和VCI区域统计(spatial roll-up),测试5次取执行时间均值。结果显示spatial roll-up和drill-across的执行效率均随Tile变大而减小,这是由于小粒度划分易产生大量Map小任务,进而导致线程管理与调度开销增大。理论上,格网每细分一层,Map数将增多4倍。相反,time roll-up执行效率随Tile粒度变化呈上升趋势,其Reduce阶段需执行计算复杂度较高的多天合成,因此任务的小粒度划分增大了并行数,反而有助于加速处理。该结果显示计算复杂度高的查询任务采用小粒度Tile可获得较好的加速性能。此外,网速/内存额度/MR任务重叠率等均对此模型有不同程度影响,如何在特定处理中,合理调配各因素以优化模型性能是下阶段研究重点。

图 9 不同维度上的数据量变化和tile size对R-SOLAP操作的影响 Fig. 9 Impact of data size changing along different dimensions and tile size on R-SOLAP
5 结 语

科学数据密集型计算被誉为科学发展的第四模式[19]。本文基于其典型计算模式Map-Reduce扩展了遥感SOLAP多维分析模型,为其面临的大数据挑战提供了一种简单高效的解决方法,并成功应用于水利部水利信息中心旱情日常分析系统中。下一步将改进试验方法,基于Oracle GeoRaster构建单机模型与本文模型测试对比,并尝试利用Shared Nothing方式优化遥感SOLAP计算效率[20]。同时,将基于该模型研究建立易用的MDX(multi dimensional expressions)查询语言,以支持SOLAP操作和初步的数据挖掘功能。

参考文献
[1] BÉDARD Y, RIVEST S, PROULX M. Data Warehouses and OLAP: Concepts, Architectures and Solutions[M]. Hershey: IRM Press, 2007:298-319.
[2] TOMLIN C D. GIS and Cartographic Modeling [M]. New York: ESRI Press, 2012:2-10.
[3] GÓMEZ I L, GÓMEZ S, VAISMAN A. Analyzing Continuous Fields with OLAP Cubes[C]//Proceedings of the 14th International Workshop on Data Warehousing and OLAP. Glasgow: ACM, 2011:89-94.
[4] GÓMEZ L, GÓMEZ S,VAISMAN A. A Generic Data Model and Query Language for Spatiotemporal OLAP Cube Analysis[C]//Proceedings of the 15th International Conference on Extending Database Technology. Berlin: ACM,2010:300-311.
[5] VAISMAN A,ZIMÁNYI E. A Multidimensional Model Representing Continuous Fields in Spatial Data Warehouses[C]//International Conference on Advances in Geographic Information Systems. Washington: ACM, 2009,17:168-177.
[6] XIE Q Y, ZHANG Z H,SIVA R. In-database Raster Analytics: Map Algebra and Parallel Processing in Oracle GeoRaster [C]//XXII Congress of the International Society for Photogrammetry and Remote Sensing. Melbourne:[s.n.],2012:91-96.
[7] REINER B, HAHN K, HÖFLING G, et al. Hierarchical Storage Support and Management for Large-Scale Multidimensional Array Database Management Systems[C]//International Conference on Database and Expert Systems Applications. Berlin: Springer, 2002:689-700.
[8] GUTIERREZ A G,BAUMANN P. Modeling Fundamental Geo-Raster Operations with Array Algebra[C]// Proceedings of the Seventh IEEE International Conference on Data Mining Workshops. Washington: IEEE, 2007:607-612.
[9] DEAN J,GHEMAWAT S. MapReduce: Simplified Data Processing on Large Clusters[C]//Symposium on Operating Systems Design and Implementation. San Francisco: USENIX, 2004:137-150.
[10] WHITE T. Hadoop: The Definitive Guide [M]. California: O’Reilly Media, 2009:10-11.
[11] HEY T, TANSLEY S, TOLLE K. The Fourth Paradigm: Data-Intensive Scientific Discovery [M]. Washington: Microsoft Corporation, 2009:1-5.
[12] NANDI A, YU C, BOHANNON P, et al. Distributed Cube Materialization on Holistic Measures[C]//Proceedings of the 27th IEEEInternational Conference on Data Engineering. Hannover: IEEE, 2011:183-194.
[13] ABELLÓ A, FERRARONS J, ROMERO O. Building Cubes with MapReduce[C]//Proceedings of the ACM 14th International Workshop on Data Warehousing and OLAP. Glasgow: ACM, 2011:17-24.
[14] LEE S, KIM J, MOON Y, et al. Efficient Distributed Parallel Top-Down Computation of ROLAP Data Cube Using MapReduce[C]//Proceedings of the 14th International Conference on Data Warehousing and Knowledge Discovery. Vienna: Springer, 2012:168-179.
[15] GOLPAYEGANI N, HALEM M. Cloud Computing for Satellite Data Processing on High End Compute Clusters[C]//Proceedings of IEEE International Conference on Cloud Computing. Bangalore: IEEE, 2009:88-92.
[16] ERMIAS B T. Distributed Processing of Large Remote Sensing Images Using Map Reduce [M]. Saarbrücken: Lap Lambert Academic Publishing, 2011:45-48.
[17] MENNIS J. Multidimensional Map Algebra: Design and Implementation of a Spatio-Temporal GIS Processing Language [J]. Transactions in GIS, 2010, 14(1):1-21.
[18] LI Denren, XIAO Zhifeng, ZHU Xinyan, et al. Research on Grid Division and Encoding of Spatial Information Multi-Grids [J]. Acta Geodaetica et Cartographica Sinica, 2006, 35(2):52-70. (李德仁, 肖志峰, 朱欣焰,等. 空间信息多级网格的划分方法及编码研究[J]. 测绘学报, 2006, 35(2):52-70.)
[19] KOGAN F N. Application of Vegetation Index and Brightness Temperature for Drought Detection [J]. Advances in Space Research, 1995, 11:91-100.
[20] ABOUZEID A, BAJDA-PAWLIKOWSKI K, ABADI D, et al. HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads[C]//Proceedings of the VLDB Endowment. Lyon: VLDB Endowment, 2009:922-933.
http://dx.doi.org/10.13485/j.cnki.11-2089.2014.0098
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

李继园,孟令奎,蔡阳,等
LI Jiyuan, MENG Lingkui, CAI Yang, et al
分布式遥感空间在线分析处理的多维分析模型及其旱情应用
A Distributed Multi-dimensional SOLAP Model of Remote Sensing Data and Its Application in Drought Analysis
测绘学报,2014,43(6):627-636
Acta Geodaeticaet Cartographica Sinica, 2014, 43(6): 627-636.
http://dx.doi.org/10.13485/j.cnki.11-2089.2014.0098

文章历史

收稿日期:2013-03-26
修回日期:2014-04-11

相关文章

工作空间