地理实体数据库研究与实践 | ![]() |
基于地图要素的传统GIS系统地理信息数据库已无法满足现代GIS的应用需求,文献[1-3]提出了全空间信息系统的构想,阐明了其基本概念和特征,利用地理实体描述多粒度时空对象,再基于多粒度时空对象构建全空间信息系统。
地理实体区别与基础地理信息的关键点在于,它可被视为管理对象,能够方便地实现地理信息与社会、经济、自然资源等专题信息的挂接,是各类信息聚合载体[4]。随着我国社会经济的发展及自然资源管理国家战略、城市精细化管理快速推进,各领域对地理信息提出了更高的应用需求。国土资源部发文要求各地探索建立基于地理实体的成果采集和管理模式,逐步推动现有国家基础地理信息数据库向地理实体数据库的转型,发展以地理实体为主要表现形式的公共产品[5], 所以建立地理实体数据库是地理信息应用及管理的必然趋势。
本文在国内外地理实体研究的基础之上,基于上海市新型基础测绘体系建设试点项目“智能化全息测绘——基于地理实体的全息数据采集与建库”,以能落地建设为目标,探索科学合理的地理实体的分类与编码,研究实践地理实体数据库建设方法,希望有助于上海市地理信息服务转型升级,提高地理信息公共服务的能力。
1 国内外研究现状自地理实体概念提出以来,很多国家已开展了地理实体及基于地理实体的地理信息数据库建设的研究及实验。Lee等[6]采用Bootstraps算法从各种材料中提取国家、州、城市、河流、山脉、岛屿等地理实体,满足信息提取及自动问答系统的需要。美国地理信息数据委员会在2008年发布了“地理信息框架数据内容系列标准”,对地籍、行政管理单元、水系、交通均采用面向实体的数据模型FGDC[7];欧洲议会通过了建设欧盟空间信息基础设施的决议,推出了与FGDC类似的一系列标准。
国内在研建地理信息公共服务平台期间推出了《地理信息公共服务平台地理实体与地名地址数据规范》,对院落、房屋、政区、道路、铁路、河流等重要对象构建地理实体[8],在2018年又推出了《地理实体空间数据规范》。贾丹等[9]针对目前国内实体数据构建现状,提出了全国地理实体的生产组织模式。浙江、江苏、重庆、四川等多地也开展了地理实体研究,一些项目还进行了数据生产试验。时空大数据平台建设大纲经过多年的不断改进,在2019年将地理实体数据纳入到基础时空数据系列中,以DLG(digital line graphic)为基础采集地理实体,并赋予唯一编码,作为与其他行业和专题数据进行关联的基础,增加“三域”标识,扩充相应的地理实体类API(application programming interface)及服务[10]。
不过,总体而言,国内地理实体的研究目前还处于探索阶段。国家相继出台了两部有关地理实体的相关标准,但还是属于局部探索或顶层设计,难以满足传统地理信息数据库向地理实体数据库转型的实际需求;也提出了地理实体的生产建库的诸多设想, 但缺乏实际操作层面的指导,国内尚未有成熟的地理实体数据库建成果。
2 地理实体分类与编码改进由于地理实体在学科、领域、颗粒度、应用范围以及时间上的多样性和差异性,使得实际使用的地理实体的分类体系多种多样,不同学科之间、行业之间、不同应用需求之间,乃至科学家群体之间对地理实体的分类不一致[5]。
国内目前的地理实体分类体系,基本采用了一致的方法,分为基本地理实体和扩展地理实体。基本地理实体指易于从基础地理信息数据成果中提取的通用性强的地理实体,包括行政区实体、境界实体、道路实体、河流实体、湖泊实体、房屋实体、院落实体。扩展实体可根据数据源情况进行定义。
上海市目前正在实施的新型基础测绘是要满足超大城市的精细化管理需求,要支撑多行业的业务管理,所以上海新型基础测绘项目提出智能化全息测绘、基于地理实体、能采尽采、不同要素不同精度等理念。显然目前的地理实体的分类体系及涵盖面无法满足项目的需求,也无法满足时空大数据的管理与应用。
因此,本文考虑了不同行业的需求,参考了多个行业规范,采用线分类法将实体类型分为门类、亚门类、大类、中类和小类5个层次。根据地理信息的来源和使用的普遍性将地理实体划分为基础类、专业类和综合类等3个门类形。基础类分为基础地理实体、综合管线实体、基础地质实体、土地与房产宗地实体等7个亚门类;专业类实体根据应用领域分为自然资源实体、环境与生态实体、灾害与灾难实体、经济与社会实体等6个亚门类,形成了覆盖面比较广的地理实体分类体系。
目前国际国内对地理实体编码有比较多的研究,一致认为,地理实体的标识码必须要体现唯一性,是其全球唯一的身份识别码,作为数据提取、分析、共享等用途的唯一标识,同时能在一定程度上反应其地理位置和类别属性。从新型基础测绘及时空大数据库的实际需求出发,地理位置不但要体现其平面位置,还要体现出地下、地面、空中等位置特性。
近两年来,较多标准开始将时间也纳入到编码中,一般使用实体采集时间。实体采集时间其实对时间信息的可用性是非常小的,特别是在基础地理信息数据库建设中,有很多历史数据无法知晓其采集时间,但可生产地理实体。且实体属性中本就有多个时间戳,作为其基本属性。故本文将时间戳作为基本属性,而未纳入编码中。
在GIS编码研究中,平面位置码有采用行政区划编码、地理网格编码、外包矩形坐标编码,也有研究使用实体质心坐标编码的方式。在早期的编码体系中,较多的采用行政区划编码,但由于行政区划的变动较大,对编码的稳定性产生巨大的影响,行政区划级别多,采用哪一级编码也是比较难的问题,另外行政区划不规则,均匀性很差,对编码也不利,因此,在现在的地理信息编码体系中,采用行政区划编码的已越来越少,目前大多数使用了地理格网。
考虑到上海的实际应用及这些位置编码的优缺点,平面位置码采用上海市DLG产品的分幅格网及格网编号进行编码,编码组成为地理实体外包矩形的左下角格网编号+右上角格网编号。采用这样的小格网,可避免一个个网中同类实体太多,同时与业务管理也可自然衔接上。外加1位Z坐标方向的位置码,标识地下、地上、空中的空中位置。
3 地理实体概念及“三域”表达方法要建立地理实体数据库,必须从地理世界的认知角度,基于数据库建立地理实体的概念模型,需要设计地理实体的空间、时间和属性“三域”的概念模型及表达方法。
3.1 如何理解地理实体人们对地理世界的认知和表达,是随着技术、工具的发展而不断提高的,有了地学及数学理论及工具,人们利用地图要素实现对地理世界的认知和表达,地图得以问世;当计算机技术、数据库技术及GIS技术发展,地图搬到了计算机中,基于地图要素建立了相应的地理信息数据模型,4D产品代表了传统GIS时代对地理世界的认知。现在,建设数字孪生城市,要将现实世界搬到计算机中,用数字城市映射物理城市,将其作为数字底座,满足各行各业、满足专业及大众的地理信息需求,原有的基于地图要素的数据模型已无法实现,需要从人的认知习惯的基于语义层面的地理实体模型,建立数据库模型。
现实世界包括从微观到宏观的各个尺度范畴,目前的资源及技术手段还无法做到对具有无限的复杂性的所有地理实体进行描述,一般依据当前的需求,限定一定尺度或范围,研究有限的地理实体。例如,在进行城市规划时,需要将建筑物整体作为一个实体对象;在消防救援时,需要把一栋建筑物里的楼层、户、消防设施等分别作为实体对象。
3.2 多形态空间表达地理实体最基本的特征是其空间特征,需要采用多种数据和模型进行空间表达。首先是表现形式,地理实体在不同的情况下有不同的可视化表现形式,可以是点、线、面、体,或者照片、影像、点云、文字等,是人们在进行交流、记录、表现等场合,根据实际需求采用的一种对实体的表现形式。如图 1所示,一幢房屋,在旅游地图中是一个点,在DLG产品中是由两个封闭面组成,在三维场景中以三维模型表示等。其次是表达精度,根据需要可采用概略、抽象、精细等不同精度级别。
![]() |
图 1 房屋实体表达方式 Fig.1 Expressions of Building Entity |
建立地理实体数据库,需要建立便于计算机存储和利用的地理实体数据模型。地理实体数据采用面向实体的构模方法。空间图形要素的点、线、面、体等定义为实体的图元[5],以图元为数据的构成单元,当前阶段一般研究点、线、面及体图元。图元层与原基础地理数据库的要素有很大的交集,处在同一层次。图元层为地理实体数据的构成层,用点、线、面、体等几何图形表达;一个地理实体可由多个图元构成,可挂接社会经济及各类专题信息。
3.3 多时态表达方法从时间跨度上看,有的事务变化是离散的、缓慢的,需要放在时点跨度很大的时间轴上才能看得出变化,比如地名、地层的演变;有些事务是比较规律,可按年度、季度、月度进行统计,比如道路里程的变化、税收、产业变化等,但在更短的时间内则看不出太大的变化,或者是在较短时间内的变化对整体趋势演进的意义不大;还有些事务的变化剧烈,主要在极短时间内发生的快速位移,需要频繁采集、显示,才能感知其趋势,如各种流数据。实体的时态模型是在实体空间模型的基础上增加时间维度,分辨率依据不同实体类型,从年、月、日到时、分、秒,甚至毫秒,基本能满足现实世界中绝大部分时态的刻画,从而对时空数据进行一体化组织。
3.4 可任意扩展的属性表达方法在不同领域中,对同一个实体,有千百种不同的属性描述,为了管理及利用的便利性,将地理实体的属性分为通用属性及可无限扩展的专业属性。通用属性是指实体编码、名称等在各种领域中一般都取得共识的属性,其中实体编码作为实体唯一身份。专业属性是指各专业部门根据管理需要赋予实体的专业性、行业性的属性内容。例如一个院落,除了编码、名称等基本属性信息外,还有许可、竣工等信息,这两种信息作为其扩展属性,还可以有更多属性信息可扩展增加。
4 数据库逻辑模型 4.1 逻辑结构通过通用的地理实体数据库逻辑结构,来对多粒度实体对象本体、实体间的相互关系、实体与图元间的关系等进行逻辑表达,如图 2所示。
![]() |
图 2 实体模型逻辑表 Fig.2 Tables of Entities and Relations |
通过实体表存储各类地理实体数据,此表以索引的方式进行存储。在生产管理中各种数据实体分别存储在不同实体表,便于生产更新及管理。在利用时,采用非结构化数据库,提高利用查询操作,可以实现快速的查询和实体的分类统计。
通过实体间关系表用来记录实体间的关联关系。地理实体间存在多种关联关系,既包括业务关系,又包括空间关系。表中的关联类型字段可以根据实际的数据业务关系进行扩展,形成数据字典。
实体分类表记录所有地理实体的分类,是数据实体的基础字典表。在此表中记录分类对应的地理实体数据表的表名,从而找到此类实体分类对应的数据表。根据地理实体分类编码的设计,在系统设计的阶段,即可完成此表数据的初始化。
通过实体扩展管理表,来管理和记录实体表相关联扩展信息,该表是数据实体的基础字典表。经过对数据实体的分析,实体的扩展属性表是与实体分类相对应,每类实体分类对应的扩展属性表是相同的,因此,实体扩展管理表与实体分类表进行关联。实体扩展表包括扩展属性表、网格关联表、业务信息表、专题信息表等,不同实体建模时,定义相关的扩展信息表。
实体分类图元关系表,管理和记录实体分类所对应的图元表,记录图元表的表名,该表是数据实体的基础字典表。
4.2 物理存储为了满足各种类型的海量实体数据和图元数据的存储与管理,充分考虑每类实体数据结构的特点,科学有效的设计数据的存储架构,规划统一的实体数据存储环境,形成地理实体的物理存储模型,实现地理实体数据的一体化存储与管理。
在设计实体数据的物理存储时,结合实体逻辑模型,根据各类数据格式、内容、数据量的不同,采用索引库、关系型数据库、空间数据库与分布式文件存储的存储混合模式,实现地理实体数据的存储与管理。
索引库主要用来存储实体汇总表,数据从实体表中,同步入到索引库中,实现对海量实体数据的快速检索和分类统计等。索引库采用高扩展的分布式全文检索引擎ES(elastic search),提供全文索引功能,支撑内容管理,实现文本数据等非结构化数据的提取和处理。ES可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。
实体数据存储采用传统关系型数据库PostgreSQL,主要用于存储实体相关的数据表。PostgreSQL数据库除了支持常规的数据类型外,还可以支持JSON类型,支持地理信息处理扩展,系统稳定性强、性能高、功能强大。关系型数据库主要存储实体表、实体历史表、实体图元关系表、实体分类表、实体分类图元关系表、实体扩展管理表、实体间关系表,以及实体扩展属性表等数据表,这些数据表中记录都是结构化数据,可以通过PostgreSQL数据库的分布式、集群、分区等特性,提高海量实体数据的读取、写入、删除、检索的性能。
非结构化的图元数据,包括三维模型、点云数据、倾斜摄影、专题数据以及其他类型的数据, 采用分布式文件存储,实现海量非结构化数据的。对象存储可以提供分布式、海量、安全和高可靠的存储能力,支持存储容量和吞吐能力的弹性扩展,满足PB(1 PB=1 024 TB)级海量数据存储需求,并具有无限扩展存储的能力。同时,基于对象存储的多备份冗余和最终一致性机制,保证数据安全可用。
5 地理实体数据的生产及更新模式设计地理实体数据来源广泛,包括传统基础地体信息数据库、点云、影像、三维模型、时空大数据、动态实时数据、各行业地理信息等。由于基础地理信息数据库的要素图形与地理实体的二维图元的要求非常接近,三维模型库中的三维模型与地理实体的三维图元的要求非常接近,因此在建设地理实体数据库的初级阶段,本文优先选择基础地理数据库及三维模型库并进行改造升级,作为地理实体的图元层。
在地理实体的生产管理过程中,采用实体的大致范围边界,作为实体的概略图形,没有明确边界的或边界不太重要的,采用其中心线或中心点作为概略图形,极大方便实体数据的生产、质检、更新等工作。如图 3中左边的房屋实体由两个图元组成,取该实体的范围边界(实际为两个图元合并后形成)作为该房屋实体的概略图形。
![]() |
图 3 房屋实体面图元及概略图形 Fig.3 Geometric Primitives and Outline Figure of Building Entity |
地理实体内容广泛,多粒度,多时态。上海目前还没有建立全市的基础地理实体底板数据库,因此在现阶段,需根据复杂程度、应用需求等,分区域分类别重点建立基础地理实体数据库,先利用基础地理数据人机交互建立房屋、院落、交通、水系、行政区域等复杂实体,对井盖、路灯、消防设施等网格部件,采取从已有资料中自动化提取等方式建立。
在新型基础测绘试点过程中,选取黄浦区作为首期实验区,完成了地理实体分类体系及编码方案,并对新型基础测绘中急需的基础地理实体及要素进行了初步编码,对实体的构建方法进行了设计。后期选取了张江(高科技园区)进行扩大试点,利用该区域进行实体数据规范设计及生产实验,并初步形成了智能化全息测绘相关标准体系、全息数据成果以及基于地理实体的数据库样本。
地理世界是在不断变化的,地理实体数据库也要及时得到更新和维护,才能保持其现势性和准确性。上海测绘院目前建立了基于多测合一、季度更新、年度更新基础地理信息的更新机制,还开展了地理市情监测、新型基础测绘、土地房屋利用变更调查等多种专项调查测绘工作,为地理实体的变化更新打下了很好的基础。
每一种更新流程,所重点关注的对象可能不完全一致。如多测合一,主要关注的是建筑、院落及其内部设施、以及规划竣工指标,市情监测过程中重点关注的是用地变化,土地房屋利用变更调查主要关注工商企业院落、房屋,调查其用地性质、入驻单位的变化等,季度更新、年度更新主要关注基础测绘内容。所以,地理实体的更新维护工作,需要分解到每一种更新工作中。
6 结束语本文结合当前城市精细化管理的实际应用,提出了满足多领域同时兼顾应用管理实际的实体分类及编码方法,研究了地理实体空间、时间和属性“三域标识”的表达,讨论了数据库及实体生产更新方法,并通过试生产进行理论方法的验证。在应用过程中还要不断完善,才能很好满足不同的需求。生产过程、更新维护模式也需要与信息化手段、互联网加及大数据技术相匹配。同时地理实体数据库是新时期地理信息应用的基础设施,其在概念、标准、生产模式、更新模式上都还处在探索阶段,数据库的建设复杂、内容多、任务艰巨,需要投入大量的人力物力,做好阶段性生产规划。
[1] |
周成虎. 全空间地理信息系统展望[J]. 地理科学进展, 2015, 34(2): 129-131. |
[2] |
张江水, 华一新, 李翔. 多粒度时空对象建模的基本内容与方法[J]. 地理信息世界, 2018, 25(2): 12-16. DOI:10.3969/j.issn.1672-1586.2018.02.003 |
[3] |
华一新, 周成虎. 面向全空间信息系统的多粒度时空对象数据模型描述框架[J]. 地球信息科学学报, 2017, 19(9): 1142-1149. |
[4] |
闾国年, 俞肇元, 周良辰, 等. 地理实体分类与编码体系的构建[J]. 现代测绘, 2019, 42(1): 1-6. DOI:10.3969/j.issn.1672-4097.2019.01.001 |
[5] |
徐磊. 《测绘地理信息事业"十三五"规划》印发[N]. 中国测绘报, 2016-09-09(第1版)
|
[6] |
Lee S W, Lee G G, A Bootstrapping Approach for Geographic Named Entity Annotation[OL]. [2005-11-10]. https://link.springer.com/chapter/10.1007%2F978-3-540-31871-2_16, 2005
|
[7] |
FGDC. Geographic Information Framework Data Content and Standard(FGDCSTD-014. X- 2008)[OL]. [2008-08-09]. https://www.fgdc.gov/standards/projects/framework-data-standard, 2008
|
[8] |
卫东, 周耀学, 黄国平. 山西省地理信息公共服务平台建设[J]. 测绘地理信息, 2012, 37(5): 67-69. |
[9] |
贾丹, 王维. 基于地理实体的基础测绘生产组织模式探索[J]. 测绘通报, 2017(4): 125-129. |
[10] |
郝利娟, 刘冬枝. 智慧城市时空大数据云平台建设技术大纲研究[J]. 地理空间信息, 2019, 17(6): 33-35. |