| 政务空间数据关系融合技术研究和实现 |
2. 地理空间信息与数字技术国家测绘地理信息局工程技术研究中心, 陕西 西安,710054
2. Research Center for Spatial Information and Digital Technology, State Bureau of Surveying and Mapping, Xi'an 710054, China
随着信息化时代的快速发展,整个社会产生了大量的信息资源。从数据规模来说,政府掌握着大量的、权威的、关键的数据,是数据时代的财富拥有者。但许多政府部门各自为政,资源分散且共享程度低,资源实际利用率严重不足。2015~2016年,国务院相继发布了《关于促进大数据发展的行动纲要》《政务信息资源共享管理暂行办法》等重要文件,对加快推动政府数据开放共享利用提出了明确要求,使得这些数据得以聚集,挖掘隐藏在海量政务数据背后的巨大信息价值成为可能。
建立并维护多源政务数据之间的融合关系,可使用传统关系型数据库的实体建模实现数据融合。但随着多源政务数据的不断加入,信息之间的关系越来越多,复杂程度将急速增长,传统关系模型已无法满足要求,不能很好地支持如社交网络等应用的多层复杂关系的管理与查询[1]。本文主要从技术角度出发,通过研究图数据库相关技术,将图数据库技术与政务空间数据相结合,分析研究政务空间数据之间的关系,建立政务空间数据的关系融合,实现基于图数据库的政务空间数据的关系融合,为政务数据的融合、开发、应用探索技术路线。
1 政务空间数据关键技术政务信息资源是指政务部门在履行职责过程中制作或获取的,以一定形式记录、保存的文件、资料、图表和数据等各类信息资源,包括政务部门直接或通过第三方依法采集的、依法授权管理的和因履行职责需要依托政务信息系统形成的信息资源等[2]。按照信息的来源渠道,约有80%~90%的信息资源是来源于政府机构的政务信息资源[3]。
在电子政务建设形成的电子政务信息资源中,存在着一类特殊的、具有空间属性特征的政务数据,在数据获取、管理、共享、交换、服务以及应用等方面都存在很大的特殊性[4]。这类特殊的信息资源被称为政务地理空间信息资源。它是地理空间信息资源与政务信息资源的交集,兼具两者特性[5]。
政务空间数据之间的融合重点在于不同部门产生的政务空间数据之间的关系融合,将更多权威的、专业的、详尽的政务信息并联在一起,发掘更大的数据价值。
1) 图数据库(graph database)。图数据库的基本含义是以“图”这种数据结构存储和查询数据[6], 是大数据时代的一种新型数据库。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对[6]。图数据库的设计目的就是存储和处理各种多维度的关系,它善于处理大量的、复杂的、互联的、多变的网状数据,可快速解决复杂的关系问题,因此在海量、复杂融合关系数据的存储、管理及检索应用上比关系型数据库更有优势。
2) Neo4j Spatial。本文主要使用图数据库的典型代表Neo4j作为实现政务空间数据融合的数据库。Neo4j Spatial是Neo4j的一个扩展插件,可实现对地理空间数据的操作。它将空间数据映射到图模型(graph model),而使得Neo4j具有空间数据的导入、存储、查询等功能。Neo4j Spatial支持的地理要素遵循OpenGIS的规范,包括点、线段、面、多点、多线段等简单要素。Neo4j Spatial使用R树作为空间索引,主要集成了Lucene的索引库,支持的空间查询包括覆盖、被覆盖、包含、相交等[7]。一般而言,R树会将叶子结点(COUNT, LEVEL, < OIi, MBRi>)上的几何要素分组并用它们的数据矩形来表示,比PostGIS所使用的优化过的GiST索引要低效,因而Neo4j在范围查询上的效率不及PostGIS,但它对适合图模型的数据(如网络数据)操作效率非常高[8]。因此,Neo4j在符合图数据模型的分析中(如邻近搜索、路径分析等)应用优势非常大。
2 融合模型研究建立关系融合的传统方法是利用传统关系型数据库的实体建模来建立关系融合模型,通过建立关系表记录来维护数据之间的关联关系。但是这种模型无法适应大数据量、高复杂度的关系管理,执行效能低、维护成本高[1]。本文引入本体论概念进行建模。对于互联网Web内容,本体是对Web信息之间关系的精确描述。传统的互联网Web内容只是供Web浏览者进行阅读和数据共享,而本体实现对Web内容的形式化与结构化描述,使得计算机也能够在“理解”的前提下更好地处理、利用Web上的信息和知识。因此,本体是语义Web的基石[9]。
图数据库Neo4j通过属性图模型来管理和存储数据。它将数据抽象组织为“节点”(Node)和“关系”(Relationship)两类。节点与节点之间通过“关系”建立联系。节点可以带标签(Label),节点和关系都可以带属性(Property)。节点与关系可以被赋予属性,一般用键值对表示。图存储方式直接将整个数据集建模成一个大型的网络结构,采用一系列图操作实现对数据的应用与管理[10]。
2.1 融合技术路线与流程实现数据融合步骤如下:
1) 对政务空间数据进行数据清洗和空间化,去除具有冗余、无效、信息缺失等问题的“脏数据”,形成高质量的政务空间数据集。
2) 利用本体论对政务空间数据进行建模,将数据集抽象离散成单一而保留关系的数据“节点”。然后,利用Neo4j将建模后的数据进行存储管理,并在数据库内建立各数据之间的关联关系。
3) 基于Neo4j的融合检索引擎开发并封装成面向应用的融合检索通用接口,实现融合数据的检索与分析。
融合技术流程如图 1所示。
![]() |
| 图 1 融合技术流程 Fig.1 Flow Chart of Fusion Technology |
2.2 融合技术实现
本文以人口、法人、宏观经济、自然地理等电子政务四大基础库数据为数据样本开展政务空间数据融合的试验。样本中人口约3 800万,法人约68万,宏观经济约7万,自然地理库中的地名地址约2.6万,行政区划约1 300个。四大基础数据相互之间既独立又关联(图 2),如法人数据和人口数据可由法人身份证信息关联,人口数据和地理信息数据可由人口户籍地址、居住地地址关联,法人数据和自然地理数据可由法人单位地址关联等,并且人口数据中户籍地地址、居住地地址,法人数据中的法人住所以及宏观经济数据中的行政区划都具备空间信息特征[11, 12]。
![]() |
| 图 2 四库关系图 Fig.2 Relationship of Basedata |
电子政务四大基础库数据经过清洗、空间化、融合建模、入库等处理后形成四大基础库融合数据库。本文基于此开发了关系图谱查询系统。该系统通过输入个人姓名、身份证号码、企业代码、企业名称等基本信息或位置空间选择等方式,利用数据可视化的表达方式完整展示个人的家庭、社会、企业之间的关系网,从而可全面、综合、多角度地分析了解个人、家庭、企业及社会之间的内在关系及空间关系(图 3)。
![]() |
| 图 3 关系图谱 Fig.3 Relation Map |
3 结束语
本文从技术角度对政务空间数据的关系融合进行了研究,利用图数据库建立了以电子政务四大基础库数据为代表的政务空间数据库,并以关系图谱查询系统为应用案例展示政务空间数据融合后的应用价值。该系统从技术角度实现了政务空间数据的融合与信息挖掘。受技术及数据量的限制,笔者在海量政务数据方面未做进一步测试。随着政务大数据思想的提出和各省政务信息资源共享政策的出台,各政府部门、各行业产生的政务数据将逐步地共享,汇聚形成巨大的数据资源池。在未来,更多的电子政务数据可参与到数据融合,发生巨大的“化学”反应,产生巨大的数据价值。在技术方面,可将大数据、云计算等技术与图数据库技术相结合,实现海量政务空间关联关系数据的实时查询,深度挖掘大数据中的隐藏关联关系,释放潜在的信息价值,为政府开展科学的信息决策提供信息和支撑力量,进一步提高政府信息化治理和管理水平。
| [1] |
王余蓝. 图形数据库NEO4J与关系据库的比较研究[J]. 现代电子技术, 2012, 35(20): 77-79. |
| [2] |
穆勇, 蒋余浩, 王薇. 公共治理视野下的政务信息资源开放[J]. 观察与思考, 2017(3): 51-57. |
| [3] |
付哲, 彭凯, 李军, 等. 政务地理空间信息资源管理与共享服务应用体系研究与实践[J]. 电子政务, 2010(1): 21-29. |
| [4] |
百度百科.政务地理空间信息资源[OL].[2018-07-18].https://baike.baidu.com/item/政务地理空间信息资源/4581983
|
| [5] |
穆勇, 彭凯, 谢力民, 等. 政务信息资源目录体系建设理论与实践[M]. 北京: 北京大学出版社, 2009.
|
| [6] |
郭朝晖, 王红新. 基于MGE广州基础地理信息数据库建设[J]. 测绘信息与工程, 2007, 32(4): 45-47. |
| [7] |
康雨豪, 王玥瑶, 夏竹君, 等. 利用POI数据的武汉城市功能区划分与识别[J]. 测绘地理信息, 2018, 43(1): 81-85. |
| [8] |
郭薇, 郭菁. 空间数据库索引技术[M]. 上海: 上海交通大学出版社, 2006: 104-105.
|
| [9] |
余传芳. 基于领域本体的协同式网络课件制作系统[J]. 远程教育杂志, 2011(1): 85-86. |
| [10] |
康杰华, 罗章璇. 基于图形数据库Neo4j的RDF数据存储研究[J]. 信息技术, 2015(6): 115-117. |
| [11] |
廖理. 基于Neo4j图数据库的时空数据存储[J]. 信息安全与技术, 2015, 6(8): 43-44. |
| [12] |
曹建成, 王凯, 王乃生, 等. 电子政务四大基础数据库融合设计研究[J]. 测绘技术装备, 2017, 19(4): 5-9. |
2020, Vol. 45




