文章快速检索  
  高级检索
基于多级信息网格的海量遥感数据存储管理研究
李爽1, 程承旗2, 童晓冲3, 陈波2, 翟卫欣1     
1. 北京大学遥感与地理信息系统研究所, 北京 100871;
2. 北京大学工学院, 北京 100871;
3. 信息工程大学地理空间信息学院, 河南 郑州 450001
摘要:随着遥感探测技术的高速发展,空间信息呈爆炸式增长。针对目前现有遥感数据存储管理系统数据量大、数据来源丰富、查询检索慢等问题,本文提出了一种基于GeoSOT网格的遥感数据组织方案,并首次在关系型数据库中增加数组数据类型的剖分网格编码列,来存储遥感影像元数据中空间信息,对数据进行逻辑剖分索引,从而实现影像数据的统一存储与空间区域检索。试验选择Kingbase关系型数据库作为测试平台,通过模拟全球范围的影像数据,与Oracle平台进行对比试验。结果表明本文的检索效率具有明显优势,可有效提高遥感数据整合、检索效率,为现有遥感数据存储中心或管理系统提供了一种高效、可行的方案。
关键词:GeoSOT网格    遥感影像    元数据    数组数据结构    倒排索引    
A Study on Data Storage and Management for Massive Remote Sensing Data Based on Multi-level Grid Model
LI Shuang1, CHENG Chengqi2, TONG Xiaochong3, CHEN Bo2, ZHAI Weixin1     
1. Institute of Remote Sensing and GIS, Peking University, Beijing 100871, China;
2. College of Engineering, Peking University, Beijing 100871, China;
3. Institute of Surveying and Mapping, Information Engineering University, Zhengzhou 450001, China
Foundation support: High-Resolution Earth Observation System National Key Foundation of China (Nos. 11-Y20A02-9001-16/17; 30-Y20A01-9003-16/17)
First author: LI Shuang (1992—), female, PhD candidate, majors in global subdivision model and data integration. E-mail: lishuang0928@foxmail.com
Corresponding author: CHENG Chengqi, E-mail: ccq@pku.edu.cn
Abstract: With the rapid development of remote sensing technology, spatial information is exploding. For current remote sensing data storage management system, their data volume, rich data sources, query retrieves slow and other issues are problems to be solved. This paper then proposed a remote sensing data organization scheme based on GeoSOT. By firstly adding a GeoSOT code column which is array format in relational database, spatial information in the metadata can be stored and logically subdivided, in order to achieve unified storage and retrieval of image data space area. We compare our method with Oracle platform by simulating worldwide image data. Experimental results show that the retrieval efficiency of this article has obvious advantages and can effectively improve the integration of remote sensing data, retrieval efficiency. Our approach also offers a more effective storage management program for existing storage center or management system.
Key words: GeoSOT     remote sensing data     metadata     array     inverted index    

随着航空航天对地观测技术的快速发展以及各种应用传感器性能的普遍提升,地球空间信息资源日益丰富。高空间分辨率、高光谱分辨率和高时间分辨率的对地观测数据被大量获取与制备,数据量正在呈几何阶数增长,已经从GB级、TB级迈向PB级[1-3]。海量遥感影像如何才能有序、高效地存储、组织、管理与查询,形成统一的存储组织规范,从而实现遥感数据的有序存储和高效访问,已经成为空间信息科学领域急需解决的问题。

通过对比分析国内外典型的海量遥感数据存储中心或管理系统,包括NASA EOS[4]、ESA[5]、Google Maps[6]、Google Earth[7]、Bing Maps[8]、World Wind[9]、Microsoft TerraServer[10]、Map World、中国资源卫星应用中心 (CCRSDA)、国家卫星气象中心 (NSMC)、国家卫星海洋应用中心 (NSOAS)[11]等存储系统 (表 1),可知单纯使用基于卫星条带的文件存储还有一定占有率,该方法对海量数据的快速访问和查找能力存在明显不足。在海量数据时代,通过数据库中进行有效存储管理,如采用多分辨率影像金字塔和特定分辨率影像分块技术,才是实现海量遥感影像的有序存储和高效访问的有效途径[12]。但是影像金字塔技术由于采用由低到高、数据量由小到大的多级分辨率金字塔结构,因此会牺牲物理存储空间,导致遥感影像的数据量呈倍数增长。

表 1 国内外典型遥感影像存储管理系统汇总 Tab. 1 Comparision of overseas and domestic research on typical remote-sensing image storage and management system
存储系统 物理存储架构 数据组织 数据格式 数据存储管理
NASA EOS 分布式集群存储系统与云计算平台 基于地球科学规律和时空记录的卫星轨道条带或景 HDF-EOS 商用数据库和Linux文件方式
ESA 分布式集群存储系统与三级分层存储 基于时空记录的卫星轨道条带或景 CEOS、HDF、Geo-TIFF等 商用数据库和文件方式
Google Maps 分布式集群存储系统与云计算平台 基于四叉树瓦片数据层和墨卡托投影 256×256像素 (JPEG/PNG) BigTable和GFS
Google Earth 分布式集群存储系统与云计算平台 WGS坐标系瓦片层叠加和可利投影 512×512~2048×2048像素 (JPEG/PNG/GeoTIFF) BigTable和GFS
Bing Maps 分布式集群存储系统与云计算平台 基于四叉树瓦片数据层和墨卡托投影 512×512像素 (JPEG/PNG) Windows Azure和SQL Server数据库
World Wind 集中式集群存储系统 基于球面网格瓦片数据层和可利投影 512×512像素 分布式文件系统
Microsoft TerraServer 集中式集群存储系统 UTM区域划分和数据瓦片 200×200像素 (JPEG/GIF/TIFF) 基于Blob和SQL Server数据库
Map World 分布式集群存储系统 基于经纬度坐标系的影像金字塔瓦片 256×256像素 (JPEG/PNG) 商用数据库和文件方式
CCRSDA 集中式集群存储系统与三级分层存储 影像瓦片 GeoTIFF 商用数据库和文件方式
NSMC 集中式集群存储系统与三级分层存储 卫星轨道条带或景 HDF 商用数据库和文件方式
NSOAS NAS三级分层存储 卫星轨道条带或景 HDF 商用数据库和文件方式

由此可知基于分块技术的遥感影像存储及管理具有重要意义。针对此热点问题,文献[3, 13]曾提出基于GeoSOT的网格剖分理论,但没有探讨出一种影像管理的可行方法,其中最大问题就是一个空间位置对象可能对应多个空间网格编码,存在大量数据冗余。本文基于以程承旗教授为首的研究团队提出的GeoSOT剖分网格理论,提出一种海量遥感影像分块存储方案,该方案首次采用扩展的支持数组的关系型数据库来存储影像数据元数据,其中空间信息通过GeoSOT一个或多个编码存在数组列,有效解决了一对多可能产生的冗余问题,之后对遥感数据进行逻辑剖分索引,从而实现对全球海量遥感影像的有序存储和高效访问,为空间信息用户提供全球统一的区位剖分面片集合框架,也为现有存储中心或管理系统提供一种更加有效的存储管理方案。

1 GeoSOT空间信息区位标识模型 1.1 GeoSOT剖分网格与编码

GeoSOT全称为“2n及整型一维数组的全球经纬度剖分网格”(geographical coordinates subdividing grid with one dimension integral coding on 2n-Tree,GeoSOT),是一种将地球表面空间剖分为网格的剖分与编码方法[2]

GeoSOT网格剖分方案基于经纬度坐标空间定义。剖分具体实现的主体思路有两方面:①对每一层级坐标空间采用四分结构,形成全四叉树递归剖分结构 (图 1);②网格编码仍保持整数型度、分、秒。为满足以上两点要求,将经纬度坐标空间进行扩展:从地理空间中的180°×360°空间扩展到512°×512°空间,将每度的60′空间扩展到64′;将每分的60″空间扩展到64″。在逐级递归剖分的过程中,若遇到没有实际地理意义的区域 (即扩展后新加入的区域),不再向下剖分。GeoSOT剖分体系由32级网格构成,其地理空间覆盖大到全球、小到厘米,形成全球整度、整分和整秒的四叉剖分系统[14]

图 1 GeoSOT网格模型与编码方法 Fig. 1 GeoSOT discrete grid model and data managing method

根据GeoSOT网格的剖分框架设计,GeoSOT网格编码的总体结构分为3段,即度级、分级、秒级及秒以下网格编码,如图 2所示。网格编码长度隐含网格层级,编码越长表明层级越高、网格越小;0级网格编码为G,对应全球范围。编码有4种表达形式:四进制1维编码,二进制1维编码,二进制2维编码和十进制2维编码。4种形式可相互转换。

图 2 GeoSOT网格编码结构 Fig. 2 GeoSOT code structure

1.2 GeoSOT剖分标识的特点

根据GeoSOT网格与编码方案,其编码具有如下特点[15]

(1) 编码的唯一性。根据GeoSOT的划分规则,每一个单元网格在地球表面均有唯一空间区域与之对应,其编码也具有全球唯一性。

(2) 编码的递归性。由于下一级单元网格由上一级单元网格递归划分而得,因此同一区域不同层级的单元网格对应的编码也具有递归性,且编码长度越短,表示的区域范围越大。

(3) 编码的一维性。GeoSOT可用一个字符串或一个二进制数同时表示一个经纬度坐标的经度和纬度两个值。由于GeoSOT编码为一维编码,所以在GeoSOT编码列上建立索引,直接通过GeoSOT编码进行查询,可以提升查询速度。

由以上特性可知基于GeoSOT空间信息区位标识模型建立遥感影像存储系统,可以使空间数据和查询条件均与地球表面某些特定的剖分网格建立联系,为海量遥感数据的有效管理和高效查询提供支持。

2 基于GeoSOT的遥感影像存储方案

影像存储方案主要包括网格编码的生成、影像元数据标准化、影像数据的存储与查询3个模块。其中网格编码的生成是从已有编码代数模型的算法库中提取并优化,基于面数据的编码方法改进为遥感影像元数据的空间编码生成算法。影像元数据的标准化则是根据标准和实际需求制定标准化模板,在模板中增加了GeoSOT编码列,方便数据入库和管理。影像数据的存储与查询。影像数据的存储与查询则首次通过引入数组数据格式,有效解决了一个对象对应多个编码的冗余问题,并将文档索引中的倒排索引引入编码数组,使得可行性和高效性得到了验证和提升。

2.1 网格编码的生成

GeoSOT空间对象编码是以某一剖分层级下的单个面片或面片集合来表达空间对象的空间位置和区域范围。由于遥感影像一般覆盖一个空间区域,因此这里主要探讨面数据的编码方法[14]

首先根据面数据的空间范围信息得到最小外包矩形 (MBR-minimum bounding rectangle,MBR),并计算出不同层级网格中与MBR适应的剖分层级level,作为对应网格的层级,然后计算出面数据覆盖level层的GeoSOT面片集合,通常一个面数据可能覆盖level层1个、2个或4个面片。若手动选定层级,则一个面数据可能覆盖该层级4个以上的面片。

面数据的剖分编码步骤如下:

步骤1:根据面数据边界点的经纬度坐标,计算空间数据的MBR (left, right, down, up)。

步骤2:将left、right、down、up转为GeoSOT编码值leftGeoSOT、rightGeoSOT、downGeoSOT、upGeoSOT,计算MBR中长和宽中的较大值size=MAX[(rightGeoSOT-leftGeoSOT), (upGeoSOT-downGeoSOT)],然后确定空间数据对应的GeoSOT剖分层级level=32-[log2size],其中MAX () 为取参数中的最大值运算,[]为取整运算。

步骤3:依次对MBR的四角点按点数据的编码方法计算在level层级下的剖分编码,取四角点内区间范围得到剖分编码集,即为最终结果。

不同来源的遥感影像,其覆盖的地表范围和大小均不相同,根据上述算法可确定出层级和面片个数。此外,也可以根据实际应用中的需求,既能指定特定层级根据经纬度范围生成多个面片来存储,也可以选择最多生成面片个数来对应出相应层级,继而进一步生成面片来存储。

2.2 影像元数据标准化

遥感影像多采用“栅格数据+元数据”的结构存储。遥感影像的元数据,是对原始影像的抽象,通过对元数据的检索和管理可以避免直接操作大数据量的原始影像,是实现遥感影像的共享的关键[16]。但考虑不同来源的遥感影像其元数据结构并不相同,这种方式难以直接适应多种来源遥感影像的存储与管理。因此,为了方便数据存储,提高共享查询处理效率,必须对元数据进行标准化。

遥感影像元数据多采用可扩展标记语言 (extensible markup language,XML) 格式进行存储。XML以其良好的可扩展性、很强的灵活性、严格的语法要求,在处理多种格式的空间数据方面具有很大优势。

数据标准化的具体过程是从不同来源的遥感数据中的元数据XML头文件中读出行列号、覆盖范围、获取时刻和其他属性信息,与设计的遥感影像数据XML模板 (表 2) 中的字段逐一比对,同时根据影像覆盖的空间范围计算得到GeoSOT编码集合,最终生成标准化的XML文档,进而方便数据存储和管理,提高共享查询处理效率。本文所采用遥感影像元数据标准化模板是基于ISO19115地理信息元数据标准的结构与内容,针对遥感影像数据类型与应用方向,运用统一建模语言与数据字典,对遥感影像元数据的结构与元素进行描述和定义而来[17],具体模板见表 2

表 2 遥感影像元数据标准化模板 Tab. 2 Standard template of remote sensing metadata
序号 列名 元数据名称 数据类型 备注
1 ID 唯一标识符 NUMERIC (16, 0)
2 FileName 文件名 VARCHAR (250) 默认为卫星影像文件名
3 GridCode 剖分网格编码 NUMERIC (32, 0)[]
4 Level 层级 NUMERIC (10, 0)
5 SatelliteID 卫星标识 VARCHAR (10)
6 SensorID 传感器标识 VARCHAR (20)
7 SceneID 景编号 VARCHAR (20)
8 DataType 数据类型 VARCHAR (20)
9 Resolution 分辨率 NUMERIC (10, 0)
10 ProductLevel 产品级别 VARCHAR (10)
11 ImageTime 成像时间 DATE 统一格式为:yyyy-MM-dd HH:mm:ss
12 RecordTime 入库时间 DATE 统一格式为:yyyy-MM-dd HH:mm:ss
13 CenterLatitude 中心点纬度 NUMERIC (16, 10)
14 CenterLongtitude 中心点经度 NUMERIC (16, 10)
15 TopLeftLatitude 左上点纬度 NUMERIC (16, 10)
16 TopLeftLongtitude 左上点经度 NUMERIC (16, 10)
17 TopRightLatitude 右上点纬度 NUMERIC (16, 10)
18 TopRightLongtitude 右上点经度 NUMERIC (16, 10)
19 BottomLeftLatitude 左下点纬度 NUMERIC (16, 10)
20 BottomLeftLongtitude 左下点经度 NUMERIC (16, 10)
21 BottomRightLatitude 右下点纬度 NUMERIC (16, 10)
22 BottomRightLongtitude 右下点经度 NUMERIC (16, 10)
23 FilePath 数据集路径 JSON
24 ThumbAddress 拇指图路径 JSON

参考地理空间元数据标准,抽取或新增影像共24项元数据,作为遥感影像元数据标准化模板,提供最常用的影像数据。其中,GridCode和level通过空间位置信息计算出GeoSOT编码和层级,作为空间查询的索引项,同时支持编码二进制的各种运算;FilePath、ThumbAddress表示数据集、拇指图的路径,为JSON格式;常见的数据源有已有数据库中的记录、文件系统 (操作系统) 中的文件。

2.3 影像数据的存储与查询

基于地球空间剖分编码和网格编码生成算法建立影像数据剖分关联模型,使影像数据的空间信息和查询条件均与地球表面某些特定的剖分网格建立联系,为海量遥感数据的有效存储、高效查询提供支持。影像数据剖分关联分为存储和查询两个部分 (图 3)。

图 3 影像数据剖分关联模型 Fig. 3 Subdivision correlation model of remote sensing data

2.3.1 基于数组格式的存储关联

一个XML文档对应遥感影像数据表的一条元素。在影像元数据入库之前,首先参考遥感影像元数据标准化模板中的字段及其数据类型 (表 3),在数据库中创建影像数据表。影像元数据入库的核心在于XML文档结构到数据库结构的映射,即每碰到一个内部节点,创建对应的抽象数据类型,将XML文档中各元素的属性值填入对象中的相应域[18]

表 3 试验结果 Tab. 3 Experiment result
查询方式 矩形查询 多边形查询
Kingbase+编码数组 Kingbase+编码 Oracle+编码 Oracle Spatial Kingbase+编码数组 Kingbase+编码 Oracle+编码 Oracle Spatial
平均时间/ms 10.49 11.54 90 1 191.25 25.14 26.83 280.63 1 571.25
准确性/(%) 89.6 89.6 89.6 97.5 89.2 89.2 89.2 96.2
完整性/(%) 100 100 100 100 100 100 100 100

首先采用GeoSOT剖分网格编码来对具有空间位置信息的影像数据进行关联,即通过空间编码生成运算,将空间信息转换为GeoSOT剖分编码 (集)。编码生成运算是在影像元数据标准化这一过程中实现的。在将空间信息关联到GeoSOT剖分编码 (集) 之后,再将标准化后的XML文档入库,把影像数据与GeoSOT编码的关联关系保存到影像数据表中。

通常一个空间位置对象不是很规则,可能覆盖多个网格编码,在遇到这种情况时,传统的关系型数据库需要重复其他属性列 (非编码列) 来进行多行存储,将会造成大量的数据冗余,如图 4所示。本文采用改进的关系型数据库存储标准化后的影像元数据描述信息,即对关系型数据库进行扩展,使用数组数据结构来存储网格编码,一个对象的编码列可一次性存入多个编码值。

图 4 编码存储结构 Fig. 4 Structure of arrays

图 4中,Codeij为第i个对象所对应编码集中的第j个编码,Attributesi为第i个对象的非编码列。通过使用数组来存储编码,有效解决了一对多的空间与属性对应关系问题,避免了数据冗余。

2.3.2 基于倒排索引的查询关联

空间数据检索的本质就是按一定条件对空间实体的图形数据和属性数据进行查询检索,形成一个新的空间数据子集[19]。基于剖分的空间检索其基本思路是将被检索的空间范围,关联为一组充满查询区域的面片,按照每个面片的编码查找相应面片的索引记录,从而快速匹配出所要检索的数据或目标。通过空间范围索引检索出数据或目标后,根据表中FilePath等路径信息,访问原始影像数据。为了使查询加快,通常对查询涉及的一列或多列排序,建立索引。考虑数组结构是一种不同于传统关系型数据库的数据结构,具有变长性,可参考文档格式建立索引。

文档索引中的倒排索引区别于正向索引,不是由记录来确定属性值即正向索引,而是由属性值来确定记录的位置,即通过统计每个单词在各个文档中出现的频数,从而根据单词快速获取包含这个单词的数据列表[20]。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。针对海量遥感数据的元数据存储过程中一个空间位置对象可对应多个编码的情况,可在数组数据类型的GridCode编码一列上建立倒排索引,即根据查询选定的某一个或多个关联到的剖分编码,快速获取包含关联编码的编码数组。倒排索引模型见图 5

图 5 倒排表模型结构 Fig. 5 Structure of inverted files

图 5中,Codei为查询条件中的编码,arrayi为编码出现的数组,posi为编码在arrayi数组中出现的具体位置。通过使用倒排索引,可在查询时根据编码快速获取包含这个编码的数据列表,从而大大加快了数据表的查询速度。

3 试验及分析

本试验的目的是验证GeoSOT编码的可行性与高效性,同时与Oracle平台进行黑盒对比,从而探索一种新的海量遥感数据存储管理方法。具体设计为:基于GeoSOT剖分网格和编码模型,结合网格编码生成算法,模拟全球范围的仿真影像数据的元数据。将影像元数据标准化的网格编码以数组数据类型存入Kingbase数据库系统中,建立倒排索引进行查询检索。同时与“在Oracle平台上使用网格编码”、“Oracle Spatial”两种情况对比,验证编码检索的效率。其中,所有关系型数据库都可以类似于Oracle、Kingbase在现有库表增加一列存储编码,而只有类似于Kingbase支持数组结构的数据库,才能将编码以数组的形式存入库表中。

3.1 试验数据与试验环境

3.1.1 试验数据

在Microsoft Visual studio 2010 C#平台模拟生成卫星影像数据元数据作为试验数据。

步骤1:随机生成一个坐标 (left, down),left的取值范围是[-180°, 180°),down的取值范围是[-90°, 90°);

步骤2:随机生成沿东西方向的长度length和南北方向的长度width,length、width的取值范围是 (0°, 1°];

步骤3:根据生成的left和length计算,right=left+length,如果right>180°,则right=right-360°;up=down+width,如果up>90°,则up=90°。

3.1.2 试验环境

利用Microsoft Visual studio 2010 C#作为开发平台,Kingbase (金仓数据库管理系统)、Oracle作为后端数据库系统,版本为Kingbase V8、Oracle 11 g,在CPU主频为2.27 GHz、内存为32 GB、存储容量2 TB的服务器上进行了试验验证。

其中,金仓数据库管理系统 (Kingbase ES) 是北京人大金仓信息技术股份有限公司自主研发的通用数据库管理系统 (DBMS),支持多维数组的数据存储格式。

3.2 编码查询效率

根据仿真数据的空间分辨率,选择GeoSOT网格第11层级进行查询效率的试验验证。由于编码在Kingbase中可存为数组、非数组两种格式,因此设计4组对比试验:Kingbase平台下使用编码数组、编码 (非数组) 和Oracle平台下使用编码 (非数组形式)、Oracle Spatial。其中,编码数组列建立倒排索引,编码 (非数组) 列建立B树索引,Oracle Spatial根据的空间列建立R树空间索引。

在全球范围内任意选择不同区域 (没有相交关系) 的矩形、多边形区域进行查询,返回全部属性列,并记录返回数据的数目和测试时间。其中,通过编码查询的时间包括由经纬度转编码和编码查询范围两个部分。最终试验结果取多次查询的平均值,包括查询时间统计对比、查询准确性和完整性共三部分 (表 3)。其中,查询时间统计对比如图 6所示。

图 6 检索效率结果 Fig. 6 Retrieve efficiency results of rectangle (a) and polygon (b)

表 3中查询结果的准确性是指验证查询出的结果是否都符合查询条件,完整性是指库中符合条件的数据都已被查出。

此外,为了模拟真实环境,试验还选择AQUA、IKONOS2、LANDSAT-7、ORBVIEW3、QUICKBIRD2、SPOT-4、WORLDVIEW1 7颗卫星的数据,进行第9层级的剖分,并进行基于行政区划边界的查询,即查询并返回某行政区划覆盖卫星信息。

根据图 7可知采用本文设计的试验方案,对真实影像数据也可以显著提升查询效率。

图 7 行政区划查询时间对比 Fig. 7 Comparision of retrieval time in different administrations

3.3 测试结果分析

首先是编码的查询效率试验方面。通过对比Oracle平台下的不同试验,可知在相同查询条件下,无论是矩形还是多边形,编码的查询效率均优于Oracle Spatial的效率,平均时间提升了一个数量级及以上;通过对比Kingbase平台下的试验,可验证编码采用数组数据结构存储并采用倒排索引的效率是优于用非数组形式直接存储编码的,经分析有两个原因:①采用数组的数据结构有效避免了编码列需要冗余存储的问题,从而减少了表中的总数据量;②倒排索引针对数组结构非常适用。通过两个平台4组试验的对比,验证了利用编码数组查询的高效性。

在检索结果的准确性方面,Oracle Spatial的检索准确性最高,即查出来的结果有96%以上都符合查询条件,检索区域为外包矩形时还略高于外包多边形。使用编码无论是编码列还是数组来存储空间位置信息,Oracle、Kingbase两个平台结果一致,准确性都低于Oracle Spatial。使用编码来进行查询准确率不够高是因为基于网格查询时,会额外多出一部分不属于检索区域的空间区域,会返回比原始查询条件更大的范围。查询准确率会随着网格尺度越来越小而增大。

在检索结果的完整性方面,4组试验检索结果集的完整性均为100%,即查出了所有符合条件的数据,完整性整体很好。

综上,基于GeoSOT的遥感影像存储方案在进行空间范围的查询时具有较高的效率,完整性为100%,准确率还有待进一步优化。

4 结论

通过汇总分析国内外典型的海量遥感数据存储中心或管理系统,可知针对目前现有遥感数据存储管理系统数据量大、来源丰富、查询检索慢等问题,基于分块技术的遥感影像存储及管理具有重要意义。本文基于GeoSOT空间信息区位标识模型,尝试以一种倒排网格索引机制来解决传统关系型数据库储存海量遥感数据的问题,设计了一套剖分编码生成、影像元数据标准化、编码以数组格式存储和基于倒排索引查询的存储方案。该方案首次采用扩展的支持数组的关系型数据库来存储影像数据元数据,其中空间信息通过GeoSOT一个或多个编码存在数组列,有效解决了一对多可能产生的冗余问题,之后对遥感数据进行逻辑剖分索引,从而实现对全球海量遥感影像的有序存储和高效访问。最后通过试验验证,对比Oracle平台的存储查询效率,得出以下结论:综合GeoSOT剖分网格理论和网格编码方案适用于遥感影像的逻辑分块存储;用数组格式存储编码并建立倒排索引不仅方案可行,还能显著提升数据查询效率;基于Kingbase平台进行试验验证,完整性为100%,准确率有待进一步优化。

综上而言,基于GeoSOT的存储方案通过对现有的遥感数据建立逻辑剖分索引,实施代价不大,试验验证查询效率高,是一种高效、可行的方案,也为现有存储中心或管理系统提供一种更加有效的存储管理方案。在保证准确率使用较高层级的基础上优化查询、考虑不同影像其分辨率与层级的关系等是笔者进一步需要考虑的问题。


参考文献
[1] 李德仁, 张良培, 夏桂松. 遥感大数据自动分析与数据挖掘[J]. 测绘学报, 2014, 43(12): 1211–1216. LI Deren, ZHANG Liangpei, XIA Guisong. Automatic Analysis and Mining of Remote Sensing Big Data[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(12): 1211–1216. DOI:10.13485/j.cnki.11-208.2014.0187
[2] 程承旗, 任伏虎, 濮国梁, 等. 空间信息剖分组织导论[M]. 北京: 科学出版社, 2012. CHENG Chengqi, REN Fuhu, PU Guoliang, et al. An Introduce to Spatial Information Subdivision Organization[M]. Beijing: Science Press, 2012.
[3] 程承旗, 关丽. 基于地图分幅拓展的全球剖分模型及其地址编码研究[J]. 测绘学报, 2010, 39(3): 295–302. CHENG Chengqi, GUAN Li. The Global Subdivision Grid Based on Extended Mapping Division and Its Address Coding[J]. Acta Geodaetica et Cartographica Sinica, 2010, 39(3): 295–302.
[4] ESFANDIARI M, RAMAPRIYAN H, BEHNKE J, et al. Earth Observing System (EOS) Data and Information System (EOSDIS)-Evolution Update and Future[C]//Proceedings of IEEE International Geoscience and Remote Sensing Symposium. Barcelona:IEEE, 2007:4005-4008.
[5] ALBANI S, GIARETTA D. Long-term Preservation of Earth Observation Data and Knowledge in ESA Through CASPAR[J]. International Journal of Digital Curation, 2009, 4(3): 4–16. DOI:10.2218/ijdc.v4i3.127
[6] GIBIN M, SINGLETON A, MILTON R, et al. An Exploratory Cartographic Visualisation of London Through the Google Maps API[J]. Applied Spatial Analysis and Policy, 2008, 1(2): 85–97. DOI:10.1007/s12061-008-9005-5
[7] GUO Wei, GONG Jianya, JIANG Wanshou, et al. OpenRS-Cloud:A Remote Sensing Image Processing Platform Based on Cloud Computing Environment[J]. Science China Technological Sciences, 2010, 53(S1): 221–230. DOI:10.1007/s11431-010-3234-y
[8] SCHWARTZ J. Bing Maps Tile System[EB/OL].[2016-03-20].http://msdn.microsoft.com/en-us/library/bb259689.aspx.
[9] BOSCHETTI L, ROY D P, JUSTICE C O. Using NASA's World Wind Virtual Globe for Interactive Internet Visualization of the Global MODIS Burned area Product[J]. International Journal of Remote Sensing, 2008, 29(11): 3067–3072. DOI:10.1080/01431160701733023
[10] 吕雪锋, 程承旗, 龚健雅, 等. 海量遥感数据存储管理技术综述[J]. 中国科学:技术科学, 2011, 41(12): 1561–1573. LÜ Xuefeng, CHENG Chengqi, GONG Jianya, et al. Review of Data Storage and Management Technologies for Massive Remote Sensing Data[J]. Science China Technological Sciences, 2011, 41(12): 1561–1573.
[11] 李志刚, 蒋捷, 翟永, 等. 面向分布式服务聚合的"天地图"总体技术架构[J]. 测绘地理信息, 2012, 37(5): 13–15. LI Zhigang, JIANG Jie, ZHAI Yong, et al. "TIANDITU" Technical Architecture for Supporting Distributed Service Aggregation[J]. Journal of Geomatics, 2012, 37(5): 13–15.
[12] 原发杰. 一种新的海量遥感瓦片影像数据存储检索策略[D]. 成都: 电子科技大学, 2013. YUAN Fajie. A New Strategy of Storage & Retrieval for Massive Tile Data of Remote Sensing Images[D]. Chengdu:University of Electronic Science and Technology of China, 2013.
[13] 宋树华, 程承旗, 濮国梁, 等. 全球遥感数据剖分组织的GeoSOT网格应用[J]. 测绘学报, 2014, 43(8): 869–876. SONG Shuhua, CHENG Chengqi, PU Guoliang, et al. Global Remote Sensing Data Subdivision Organization Based on GeoSOT[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(8): 869–876. DOI:10.13485/j.cnki.11-2089.2014.0103
[14] 金安, 程承旗, 宋树华, 等. 基于Geohash的面数据区域查询[J]. 地理与地理信息科学, 2013, 29(5): 31–35. JIN An, CHENG Chengqi, SONG Shuhua, et al. Regional Query of Area Data Based on Geohash[J]. Geography and Geo-Information Science, 2013, 29(5): 31–35.
[15] 金安. 地球空间剖分编码代数模型及应用初探[D]. 北京: 北京大学, 2013. JIN An. Global Subdivision Code Algebra Model and its Application[D]. Beijing:Peking University, 2013.
[16] 冯敏, 诸云强, 张鸣之, 等. 多源遥感影像共享平台的设计与实现[J]. 地球信息科学, 2008, 10(1): 102–108. FENG Min, ZHU Yunqiang, ZHANG Mingzhi, et al. Design and Realization of Multi-source Remote Sensing Images Sharing Platform[J]. Geo-information Science, 2008, 10(1): 102–108. DOI:10.3724/SP.J.1047.2008.00102
[17] 盛震宇, 冯钧. 基于XML Schema的水利元数据可视化方法[J]. 电子器件, 2013, 36(4): 540–545. SHENG Zhenyu, FENG Jun. A Hydrology Metadata Visualization Method Based on XML Schema[J]. Chinese Journal of Electron Devices, 2013, 36(4): 540–545.
[18] 徐周, 黄上腾. 基于XML实现数据库间信息交换的方法[J]. 计算机工程, 2001, 27(4): 177–179. XU Zhou, HUANG Shangteng. XML-based Method of Information Exchanging Between Databases[J]. Computer Engineering, 2001, 27(4): 177–179.
[19] 李满春, 陈刚, 陈振杰, 等. GIS设计与实现[M]. 2版. 北京: 科学出版社, 2011. LI Manchun, CHEN Gang, CHEN Zhenjie, et al. GIS Design and Application[M]. 2nd ed. Beijing: Science Express, 2011.
[20] 代万能. 倒排索引技术在Hadoop平台上的研究与实现[D]. 成都: 电子科技大学, 2013. DAI Wanneng. Study and Implementation of Inverted Index on Hadoop[D]. Chengdu:University of Electronic Science and Technology of China, 2013. http://wap.cnki.net/lunwen-1013331660.html
http://dx.doi.org/10.11947/j.AGCS.2016.F013
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

李爽,程承旗,童晓冲,陈波,翟卫欣
LI Shuang, CHENG Chengqi, TONG Xiaochong, CHEN Bo, ZHAI Weixin
基于多级信息网格的海量遥感数据存储管理研究
A Study on Data Storage and Management for Massive Remote Sensing Data Based on Multi-level Grid Model
测绘学报,2016,45(S1): 106-114
Acta Geodaetica et Cartographica Sinica, 2016, 45(S1): 106-114
http://dx.doi.org/10.11947/j.AGCS.2016.F013

文章历史

收稿日期: 2016-08-20
修回日期: 2016-10-20

相关文章

工作空间