测绘地理信息   2020, Vol. 45 Issue (4): 20-25
0
空间约束地址模型及推理匹配方法研究[PDF全文]
朱峰1, 赵婷婷1, 刘洋1    
1. 山东科技大学测绘科学与工程学院,山东 青岛,266590
摘要: 复杂多变的中文地址结构使得在进行地址匹配时存在一定的局限性,影响地址匹配效率。针对该问题,研究了适合空间推理的空间约束地址模型。在分析中文地址的结构特点以及地址描述中存在的问题的基础上,以地址要素间的空间关系为切入点,构建该模型。进行推理匹配时,首先借助空间约束关系进行推理识别;然后,采用深度优先、集合查找的策略,同时正向推理所在城市作为集合查找左边界;最后,逆向推理最小目标地址要素直到获取最优目标地址。以中文地址作为实验数据进行推理匹配的可行性验证。试验结果表明,顾及空间关系的推理匹配方法可以有效解决地址描述的多样性和空间约束不一致性等问题,极大地提高了检索效率和匹配成功率。
关键词: 地址匹配    空间关系    地址模型    推理匹配    
Research on Spatial Constrained Address Model and Reasoning Matching Method
ZHU Feng1, ZHAO Tingting1, LIU Yang1    
1. College of Geodesy and Geomatics, Shandong University of Science and Technology, Qingdao 266590, China
Abstract: The complex and variable Chinese address structure makes certain limitations in address matching and affects address matching efficiency. In view of the above problems, this paper studies the spatial constrained address model suitable for spatial reasoning. Based on the analysis of the structural characteristics of the Chinese address and the problems in the address description, the model is constructed by taking the spatial relationship between the address elements as the entry point.When reasoning matching, the spatial constraint is used for reasoning recognition, first, the depth first search and set strategy is found by the left boundary. Finally reverse reasoning minimum target address elements until obtaining the optimal target address. This paper takes a random sample of 3 500 Chinese address as the experimental data reasoning, to verify the feasibility. The test results show that, considering the spatial relation reasoning matching method can effectively solve the diversity and space constraints address description inconsistency problem, greatly improves the efficiency of retrieval and matching success rate.
Key words: address matching    spatial relation    address model    reasoning matching    

随着计算机技术的逐步发展,数字化城市逐渐成为当今社会最炙手可热的建设进程之一,空间数据与非空间数据的共享整合已经成为整个社会的迫切需求,若能合理利用这些信息势必会给数字化城市建设和人类社会生活带来诸多便利,而这一切的实现需要地址匹配技术的支持。地址匹配技术作为一种将地址定位信息转换成可以被用于地理信息系统(geographic information system,GIS)的地理坐标的方式,使得GIS可以通过对地理数据的集成、存储、检索、操作和分析,生成并输出各种地理信息[1]。经历了近些年的发展,地址匹配技术取得了长足的进步,越来越多的与空间位置相关的信息被应用到地址匹配当中来。

符合一定标准和规范的地址数据,不但对地址数据的质量提供保障,还可以在某种层面上满足地址匹配和查询定位的要求。在国外比较有代表性的是开放地理空间联盟(Open GIS Consortium,OGC),它制定了诸如Gazetteer、Geoparser、Geocoder以及GML等几个相关规范[2]。国内方面,有2001年发布的《地名分类与类别代码管理编制规则》(GB/T18521-2001),其针对地名类别及相应的编码进行细分与规范[3]。美国将地理编码技术最早应用于人口普查工作, 采用的是双重独立地图编码系统[4]。之后, 又有国内外学者研究了地理信息要素分类映射的编码技术[5]。随着中国大规模开展地名地址数据库的建设,地址模型的研究也在不断深入。程昌秀等[6]在采用最大正向匹配算法进行地址分词的同时,在层级地址模型中按照自定义规则不断缩小搜索范围,取得不错的效果。陈细谦等[7]对城市地理编码系统应用与研究进行了探索,阐述编码系统的体系结构。

中文地址数据具有来源广泛、标准不一的特点,地址数据处于无序管理、随意命名和缺乏权威性的混乱状态。因此,本文在传统的中文分词和匹配方法理论基础上,结合中国城市信息化进程发展形势、信息共享平台的搭建以及当前国内地名地址数据的结构特点,以地址要素间的空间关系作为切入点,研究了空间约束地址模型与结构,并详细介绍顾及空间关系的地址推理匹配策略。最后, 以德州市地名地址数据库作为数据基础进行了匹配验证。

1 中文地址匹配基本理论 1.1 中文地址匹配原理与方法

中文地址匹配技术是指将文本表示的地址字符串通过中文分词、标准化等环节进行处理以后得到地址要素,然后与包含空间位置信息的标准地址数据库的数据进行查询匹配,最后根据匹配结果的坐标信息将待匹配地址定位到电子地图上。中文地址匹配的主要流程是:①将输入的待匹配的地址字符串进行数据预处理,使用中文分词技术对待匹配地址进行地址解析处理,将地址分解成多个最小地址要素;②将分词产生的地址要素词组根据构建的地址模型进行标准化处理;③将标准化后的地址要素运用合适的地址匹配算法与标准地址数据库中的数据进行查询匹配,如果查找成功则返回该记录;④获取返回地址记录的位置坐标信息,并根据该位置信息将待匹配地址定位到电子地图上。

然而中文地址基本以非规范化的形式出现,直接使用完整地址字符串进行匹配,其匹配准确率极低,因此, 需要提取地址中的地址要素,将其分割成独立的地址要素个体并确定其要素类型。

1.2 空间推理匹配方法

空间推理一般指的是使用空间目标的形状、位置和方位等信息以及目标之间存在的空间关系来解决空间问题,从已知空间实体和空间关系推理出未知空间信息的过程,其中,空间关系是指实体之间的拓扑关系,包括相交、包含、邻接等[8]

推理匹配属于自然语言理解范畴,主要通过推理来判断地址要素之间存在的空间关系,而地址匹配与一般的空间推理不同,其最终目的不是分析空间关系,而是借助地址要素之间的空间关系来获取待匹配地址的空间位置。基于空间推理的匹配方法对于大量存在的非结构化地址描述可以直接利用地址要素之间的空间关系进行推理判断,地址要素间的包含关系推理如山东省包含青岛市,青岛市包含黄岛区,黄岛区包含前湾港路,前湾港路包含579号,579号等价山东科技大学。

2 空间约束地址模型的构建

地址模型的构建是建设标准库的基础,也是进行空间推理匹配的关键所在,针对目前非结构地址大量存在的现实以及地址要素间的空间特征,构建适用于空间推理的地址模型需要兼顾地址要素层次结构关系及空间约束情况,因此,本文提出一种基于地址要素间空间关系的空间约束地址模型,为后续匹配空间推理奠定数据基础。

2.1 传统地址模型

目前对于规范化的中文地址描述多采用结构化的层级模型来表达,地址中前后两个地址要素之间构成层次隶属关系,根据地址级别大小进行排列组成一条完整的地址字符串,层次模型一般采用“有向树”的数据结构来表示各类地址要素以及它们之间的联系,树中每一个节点代表一个地址类型,树状结构表示地址要素之间的联系。树的根是数据库中级别最高的行政区划要素,末端叶子是最小地址要素,其层级模型表达如图 1所示。

图 1 层级地址树状模型示例 Fig.1 Level Address Tree Model Demonstration

整个标准地址地名由行政区域、基本区域限定物、局部点位置3大类要素构成。这种层级标准模型可以完整地描述规范化的中文地址,但是在地址库构建和匹配方面却存在一定弊端。首先,标准层级通常约束单一,结构化死板,没有包含地址要素之间存在的空间关系,此外,在进行地址匹配时对于非结构的地址描述匹配精度不高,例如,按照层级模型存储“青岛市/黄岛区/前湾港路/888号/致远中学”,待匹配地址为“青岛市黄岛区辛安街办致远中学”,按照上述结构化存储、正向扫描的方法,当扫到“黄岛区”往下就迷路了。所以,选择地址模型不仅要考虑地址的完整性和有效性,也应该顾及地址匹配的效率和准确率。

2.2 空间约束地址模型

行政区划部分包含了省、市、区、街道办事处、社区(村)等类型,其对应的地址实体以面要素形式出现,存在层层包含关系,但是在行政区划部分存在如下情况:①中国的省、市、县3级目前不存在重名情况[9],但县级以下较低的行政区划名称存在重名,造成歧义;②行政区划在地址描述中存在表达多样性问题,易出现某一级区划缺失或采用别名、简称的方式,增加匹配难度;③城市内部的道路出现跨区的情况,使得道路与行政区划在空间上不能构成严格的所属关系,道路上一级区域限定容易出现歧义。为此,本文将城市内部的地址要素归为“城市”所有,将城市作为其区域限定,避免行政区划的多样性及冗余描述等情况,将城市内部的局部区域限定划分为有街道和没有街道两种情况:①有街道:城市包含街道,街道包含最小目标地址要素;②无街道:城市包含子目标地址要素。

本文在以街道作为区域限定的地址描述中组成“城市-街道-最小目标要素”的3级非结构化地址形式,其中,城市是指在空间关系上包含该街道的最小区域限定所代表的城市名称,将其作为街道的上级区域限定,最小目标地址要素即地址匹配的最终目标实体,一般对应地理实体中的点要素,即门牌号、院落、POI(point of interest)以及院落内部的楼牌号(建筑物)等。对于地址中不以街道作为区域限定的地址,比如乡(镇)级别地址、行政机构类等,则以“城市+子目标要素”的形式描述,其中,子目标要素指城市以下级别的最小目标地址要素,并且该最小目标要素在城市内部具有唯一性。“城市+子目标要素”示例:山东省青岛市经济技术开发区其辛安街道办事处,城市+最小目标要素,黄岛辛安镇。

对于中文地址的表达多样性和不规范性,通过有限状态机地址模型来表示中文地址的空间约束表达形式,有限状态机通过一个有向图表示,包含状态节点(地址要素)和有向弧,通过六元组形式表示:

$ M = \left( {Q, I, U, \delta , {q^0}, F} \right) $ (1)

式中,Q表示状态集合,Q={Ai};Ai表示状态节点迁移到第i个地址要素时所形成的地址要素子集,Ai={X0X1∪…∪Xi};Xi表示第i个地址要素;I表示输入信号集合;U表示输出信号集合;δ表示状态转移函数:Q×IQ, 根据前后两个状态节点的空间约束关系判断状态迁移方式;q0表示初始状态, q0Q, 并且q0=A0; F代表终止状态。

在有限自动机地址模型中,从开始节点到终止节点的某一条路径代表一个地址描述模式,如图 2所示。如“开始—城市—街道—POI—终止”,而城市则有“省+市+区”或者“省+区”等不同的描述形式。有向弧代表状态转移的方向,同时包含了地址要素间空间约束关系。空间约束地址模型认为,空间关系作为一种空间约束,可以应用在空间推理中,以减少匹配的计算量并加快查询效率,从而帮助匹配地址的确定。

图 2 有限自动机空间约束地址模型 Fig.2 Finite Automata Spatial Constraint Address Model

3 基于空间约束模型的标准地址库设计

地址推理匹配首先要构建相应的标准地址库,作为匹配的参考库。基于空间约束模型的地址库采用结构化和非结构化相结合的方式进行存储,通过结构化的层次结构存储基于空间约束模型表达的中文地址及其空间坐标,通过非结构化的地址要素实体属性表达地址要素类型及地址要素间空间约束关系,两种地址模型通过地址的唯一编码进行关联。

3.1 地址要素分类与实体类型

本文根据地址结构的特点,并参照《数字城市地理信息公共平台地名/地址编码规则》中对地址要素制定的标准,本文将地址要素划分为行政区划、街道、院落、门址、楼址、POI共6部分,如表 1所示。

表 1 地址要素分类表 Tab.1 Address Element Classification

本文将地址要素数据按照其对应的地理实体进行组织,将地理实体几何特征分为点、线、面3种形式,如表 2所示。地址实体通过shp格式数据进行存储。

表 2 地址要素对应地理实体几何形式 Tab.2 Geometric Representation of Geographical Entities

3.2 地理要素实体逻辑结构

地址是对地理实体位置的结构化语言表述,因此,地址原始数据通过对应的地理实体来进行组织来构建地址参考库,并通过地址要素编码一一对应。在地址参考库中,地址实体数据包含了属性和坐标数据。

为了解决行政区划描述的多样性及降低数据存储的冗余,将各级行政区划分别存储。

此外,为了更加全面的解决地址表达的多样性,地址库中不仅包含空间隶属关系,还包括简称、曾用名的代表名称多样性的信息,属性表中的部分字段如表 3所示。

表 3 地址属性表 Tab.3 Address Attribute

3.3 数据存储结构

本文将行政区划表示的区域限定通过地址所在城市来表示,其他地址要素分段存储, 根据具体地址数据结构组成不同,该部分允许为空,地址的空间坐标信息存入字段Geometry中,用于地址匹配完成后的空间定位,将每个地址要素的编码进行顺序排列组成地址完整编码,缺失的地址要素部分用数字“0”补齐。标准地址库的结构如表 4所示。

表 4 标准地址库结构 Tab.4 Standard Address Library Structure

4 基于空间约束地址模型的推理匹配方法

地址推理匹配的核心思想是针对不同的地址描述构建有限自动机地址模型,通过选择符合当前地址描述的地址路线,借助空间约束关系进行推理识别,将其转化为空间约束地址表达模式,最后与地址库进行匹配得到最终目标地址。匹配的过程采用启发式策略,基本思想是将所推理区域划分左右边界,以正向推理所在城市作为集合查找的最左边界, 然后逆向推理最小目标地址要素获取最优目标地址,匹配搜索采用深度优先、集合查找的策略,在逆向推理时利用空间约束关系寻找以当前节点为起点,上一级地址要素为父节点的局部路径。基本算法流程如下。

1) 数据初始化。①读取待匹配地址字符串T, 对字符串T利用中文分词工具进行地址解析处理,获取解析后的地址要素字符串Rs=segment(T);②对Rs中的地址要素进行标准化处理,将结果写入数组A={X0, X1, …, Xi}, 其中Xi代表第i个地址要素,每个地址要素由地址要素类型、位置索引、地址要素名称3部分组成,即Xi={AddType, PositionIndex, Value}。

2) 地址模式提取。①初始化有限自动状态机M=(Q, I, U, δ, q0, F),其中,Q=null, I=A, U=null, q0=A0, F=Xi(Xi为集合A中的最后一个地址要素);导入状态转换函数δ={δi}; ②从i=0开始顺序遍历集合A, 按照转换函数δ中定义的转换逻辑进行推理转换,每完成一次转换就将结果添加到状态集合Q中,直到Xi=F结束;③遍历地址要素集合Q,提取经过空间约束一致性处理的行政区划部分,根据空间约束关系将其转化为对应城市名称,最后将处理结果赋给输出集合U

对于不同的地址要素类型,状态转换函数δ基本具有相同的执行逻辑,其主要思想是根据前后两个状态节点的空间约束关系来判断状态迁移,基本原则是①空间约束级别倒置、混乱(后者包含前者)的情况根据前后包含关系进行调整排序;②空间约束关系弱(相邻)或者不存在约束关系的地址要素进行过滤;③存在等价的情况选择保留其中一个地址要素,去掉冗余元素,对于门牌号和POI名称同时存在的情况,保留POI去掉门牌号。

3) 推理匹配阶段。推理匹配的基本思想是通过正向推理所在城市作为集合查找左边界,限定搜索范围,然后采用深度优先、集合查找的策略逆向推理最小目标地址要素,直到获取最优目标地址为止,逆向推理时利用空间隶属关系寻找以当前节点为起点,上一级地址要素为父节点的局部路径。

4) 匹配登记。对于匹配成功的记录,则获取其对应的空间位置坐标,并将目标点显示在地图上,对于匹配失败的地址记录则返回结果,进行人工干预辅助匹配定位。

5 匹配实验与结果分析

本文研究对象主要针对城市地址数据,数据来源主要依托德州市地名地址数据库建设项目,选取德城区和经济开发区两个行政区作为实验区。地址实体数据主要依托大比例尺(1:500)基础地理信息,通过实地调查获取了行政区划、道路、院落、门址、楼名楼号、院落、兴趣点等类型的地址数据,完成了德州市城区地理实体抽取以及地名地址数据库的建设。存储形式如表 5所示。

表 5 POI地址库 Tab.5 POI Address Library

匹配实验的样本数据主要来自两个方面:城市相关职能部门地名地址相关的空间数据;网络中存在的海量空间数据。其中主要包含经济户口类地址数据、机构类地址数据、居民小区类地址数据等具有典型中文地址代表性的数据。

为了检验基于空间约束模型及推理匹配算法的优劣,本文采用基于空间约束地址模型的推理匹配策略和基于传统层级地址模型的全文检索匹配方法两种方式进行匹配结果比较,实验的基本方案流程如图 3所示。

图 3 地址匹配实验流程图 Fig.3 Flow Chart of Address Matching Experiment

并通过匹配率和准确率进行算法有效性检验,其中匹配率是匹配成功的地址与总地址的比率,反映匹配成功的概率,准确率是匹配正确的地址与地址总数的比率,反映匹配结果的准确性,另外,通过记录匹配时间来反映地址匹配的效率。

推理匹配结果图如图 4所示。匹配实验的统计结果如图 5所示。其中,准确率的统计是通过人机交互的方式,对匹配结果的位置进行人工检查。

图 4 地址匹配可视化结果 Fig.4 Address Matching Visualization Results

图 5 匹配结果对比图 Fig.5 Comparison of Matching Results

基于空间约束地址模型的推理匹配结果显示的匹配率和准确率均能达到90%以上,其中,企业类和机构类的匹配率略低,而居民小区的匹配率达到了98%,这说明基于空间推理的地址匹配策略是切实有效的,对于匹配失败的数据,经研究发现,大部分是因为地址库中数据未收录导致的,还有一部分是由于地址使用了错别字,POI名称重复所致。此外,使用空间推理匹配方法基本能匹配成功并获得唯一匹配结果。匹配算法对标准名称数据库的质量和覆盖面有较强的依赖性,因此,如何结合实际需要,规范数据存储形式,完善数据管理体系,增加数据准确性与可用度,是进一步提升数据匹配成功率和匹配精度的关键所在。

6 结束语

本文以中文地址为研究对象,以地址要素之间的空间关系为切入点,提出了顾及空间关系的空间约束地址模型,将该地址模型应用到地址匹配中,研究了基于空间约束模型的空间推理匹配方案,并设计了中文地址推理匹配原型系统,对匹配方法进行了有效性验证,希望通过本文研究,能对地址匹配提供了理论、方法和技术借鉴。

参考文献
[1]
应申, 李威阳, 贺彪, 等. 基于城市地址树的地址文本匹配方法[J]. 地理信息世界, 2017, 24(6): 81-86. DOI:10.3969/j.issn.1672-1586.2017.06.017
[2]
廖志文. 空间数据服务的本体化检索[J]. 微电子学与计算机, 2012, 29(2): 192-196.
[3]
曾庆友, 严萍, 田晓阳. 数字城市地理空间框架建设地名分类的探讨[J]. 城市勘测, 2014(2): 60-62. DOI:10.3969/j.issn.1672-8262.2014.02.015
[4]
刘德刚, 叶良茂, 周刚. 基于ArcGIS GeoDatabase的宗地拓扑模型建模与实现[J]. 微计算机信息, 2007(24): 155-156. DOI:10.3969/j.issn.1008-0570.2007.24.060
[5]
周丽珠, 周奎, 雷雨. 天津市陆海地理信息要素分类映射与编码方法[J]. 城市勘测, 2016(5): 40-42. DOI:10.3969/j.issn.1672-8262.2016.05.010
[6]
程昌秀, 于滨. 一种基于规则的模糊中文地址分词匹配方法[J]. 地理与地理信息科学, 2011, 27(3): 26-29.
[7]
陈细谦, 迟忠先, 金妮. 城市地理编码系统应用与研究[J]. 计算机工程, 2004(23): 50-52.
[8]
申世群.定性空间推理及其在空间数据检索中的应用研究[D].吉林: 吉林大学, 2011 http://cdmd.cnki.com.cn/Article/CDMD-10183-1012257738.htm
[9]
华林甫. 中国地名学源流[M]. 湖南: 湖南人民出版社, 2002.