测绘地理信息   2019, Vol. 44 Issue (2): 53-56
0
基于矢量地图数据的地名信息自动获取与融合方法[PDF全文]
符浩军1,2, 范承啸1, 张海勃1    
1. 西安测绘总站,陕西 西安,710054;
2. 地理信息工程国家重点实验室,陕西 西安,710054
摘要: 提出了一种基于矢量地图数据的地名信息自动获取与融合方法。首先,分析了矢量地图数据与地名数据之间的相关关系;然后,从属性、空间、元数据3方面基于现有地理数据成果,设计了基于矢量地图的地名信息自动提取策略;在此基础上,以提取的地名信息集为处理对象,提出了一种地名信息自动融合算法,保证了所提取地名信息的属性唯一和实体完整。实验表明,采用该方法不仅能从现有矢量地图数据中有效地获取地名相关信息满足地名工程建设要求,而且充分利用了现有地理数据成果,避免了地名信息的重复建设。该方法为地名相关工程建设中地名数据的生产、更新提供一种新思路。
关键词: 地名数据     矢量地图数据     自动提取     信息融合     唯一性     完整性    
Method of Geo-Name Automatic Acquisition and Information Fusion Based on Vector Map Data
FU Haojun1,2, FAN Chengxiao1, ZHANG Haibo1    
1. Xi'an Information Technique Institute of Surveying and Mapping, Xi'an 710054, China;
2. State Key Laboratory of Geo-Information Engineering, Xi'an 710054, China
Abstract: A method of geo-name information automatic acquisition and fusion based on vector map data is proposed in this paper. Firstly, the correlation between vector map data and geo-name data is analyzed. From aspects of attributes space and meta-data, based on the available geography data resources, a strategy for geo-name information automatic extractingfrom vector map data is designed. Based on the extracted geo-name information collection, an algorithm of geo-name information fusion is proposed to guarantee connotation uniqueness and integrality of extracted geo-name information. The experiment results show that the proposed method cannot only effectively extract the correlative geo-name information, but also can make full use of the existing geographical data, avoiding duplicate construction and providing a new idea for geo-name entity data predicting and updating in geo-name relative engineering construction.
Key words: geo-name data     vector map data     automated extraction     information fusion     connotation uniqueness     integrity    

地名信息作为最基础的地理信息,既是国家安全和发展的战略资源,又是群众生产生活必不可少的基础资源;地名数据是国家基础信息的重要主体和国家信息化建设的战略支撑。联合国专家组设立了地名数据自动化处理工作组,专门负责地名信息化建设的协调工作。世界各国也把地名信息化建设提高到国家信息化基础工程的战略位置,积极发挥其在经济发展、社会管理、军事外交、公众服务中的支撑平台作用。

由于现实中地名信息的复杂性和多样性,相关地名工程建设都沿用传统的数据生产模式,即地名标注、实地勘测、数据录入和成果汇总的数据生产流程。这种数据生产模式人为可控性强、数据成果质量好,且对于地名的细节信息能较完整地表达。但此模式存在数据表达模型简单[1-3]、生产方式陈旧[4-8]、数据组织冗余[9-11]等问题,耗费大量的人力、财力、时间,不利于地名数据工程的建设;另外,经过几十年的发展和积累,在基础地理框架数据建设领域积累了海量的矢量地图数据成果,其中包含了大量质量较好的地名相关信息。基础地理框架数据以地图要素为核心来进行数据的组织和表达,分幅的数据管理方式使地名信息被人为割裂,造成了存储过于分散重复等问题。虽然两者在数据组织、管理、表达等方面存在较大的差异,但是通过相关信息的提取、处理,基于基础地理框架数据进行地名相关信息生产的思路可行[12-17]

本文以现有矢量地图数据成果为数据源,依据地名数据建设要求,对地名相关信息自动获取与融合,为地名相关工程建设中地名数据的生产、更新提供一种新思路。

1 地名与矢量地图相关性

矢量地图数据是表示地图图形元素的几何位置和属性信息的数据,它主要通过点、线、面等数据结构,采用坐标的形式对地理实体进行表达。地名是赋予某一特定空间位置上自然或人文地理实体的专有名称,在地图中是以注记的形式存在。地图注记包括了地名的属性、空间等相关信息,主要为地图显示和数字制图使用。地名与矢量地图的相关关系如图 1所示。从地名数据的角度看地图注记信息,主要涵盖了以下内容。

图 1 地名与矢量地图的相关关系 Fig.1 Correlation Between Vector Map Data and Geo-Name

1) 地名属性信息。地名属性信息是描述地名质量和数量特征的数据,部分属性信息可直接通过地图数据获取,如地名对应的名称、实体类型、编码等,有些属性信息则隐含在地图数据中,可通过地图信息再挖掘的方式获取,如行政区划代码、地名类别、地名级别等。

2) 地名空间信息。地名空间信息是描述地名空间位置和几何形状的数据。部分空间信息可直接在地图中抽取,如地名对应的定位点、标注位置、实体个数、实体几何类型等,这些信息已经包含在地图数据中;有些地名空间信息通过地图间接表达出来,需要经过再挖掘的方式获取,如地名对应的实体外接矩形范围、实体数据等。

3) 地名元数据信息。地名元数据信息是关于地名数据的数据,用来描述地名数据的内容、状况、质量、特征等说明性信息。如数据来源、数据源生产单位及时间、图幅号、图廓角点坐标、图幅范围、质量描述、数据尺度等信息,可从地图元数据直接获取。

综上所述,矢量地图数据中大量的地名相关信息可直接或间接地从矢量地图数据中抽取,处理后可得到满足地名工程建设要求的信息,避免了重复建设;地名数据特有且通过矢量地图无法获取的地名相关信息,可通过补录的方式进行信息完善。这样的数据生产模式节省成本,有效提升工作效率。

2 地名信息自动获取与融合方法

依据地名数据建设要求,从属性信息、空间信息、元数据信息3方面,对矢量地图数据中的相关地名信息进行直接抽取或挖掘提取;在此基础上,依据地名数据的唯一性和完整性要求,对提取的地名数据进行融合处理,得到符合地名工程建设要求的地名数据。

2.1 地名信息提取策略

地名信息提取流程如图 2所示。以分幅的矢量地图数据为单位,依据地名建设相关内容,从地图元数据中抽取相关地名元数据信息;从地图注记要素层出发,分析注记要素层与其他要素层的相关关系,追找散布于其他要素层中地名对应的属性、空间等信息;对地名属性、空间等相关信息进行抽取或挖掘提取;将提取的信息汇总,形成地名数据集。

图 2 地名信息提取流程图 Fig.2 Flow Chart of Geo-Name Information Acquisition

地名元数据信息如地名名称、实体类型、编码等地名属性信息,以及定位点、标注位置、实体个数、实体几何类型等地名空间信息,都包含在矢量地图数据中。可依据注记层与其他要素层的对应关系,建立相关地名信息的映射表,直接从矢量地图中进行数据抽取。

对于其他信息如行政区划代码、地名地理实体、地名外接矩形等,需要基于地图数据进行信息的再挖掘。行政区划代码通过定位点、几何数据与相关境界数据进行关系判别,可获取国家、省、市、县等各级区划代码。地名地理实体信息可通过抽取地名对应于图上的几何图形数据,使得属性与几何数据形成“一对多”的逻辑实体模式,通过相关实体化方法,得到真正意义上的实体数据。地名外接矩形信息可在地名地理实体信息的基础上,直接计算实体的外接矩形,可得地名外接矩形信息。地名分级信息需要分类处理,如属于居民地类的地名可通过行政区划代码设定地名级别,河流类的地名可通过河流代码获取相应的地名级别,境界类的地名根据境界等级进行地名分级设置。

2.2 地名信息融合算法

矢量地图数据的分幅使跨图幅地名存在多次提取的情况,同时,同一注记在单幅地图内可能会多次标注,单幅地图内同一地名存在多次提取的情况。在提取的地名数据集中,存在一个地名对应多条提取记录的现象。导致提取的地名所对应的属性信息多义、实体不完整等问题。地名建设和应用需要保证地名数据的唯一性和完整性,所以对提取的地名数据集进行融合处理。地名信息融合处理流程如图 3所示。

图 3 地名信息融合处理流程图 Fig.3 Flow Chart of Geo-Name Information Fusion

地名数据的融合处理。将提取的地名数据集的每一条记录与其他记录进行比较,将同一地名的多条数据记录进行属性唯一性处理和空间归并处理,将其统一到同一数据记录。其具体算法流程如下。

1) 基于所抽取的地名数据集,以单条数据记录为起始,递进与所有地名数据记录进行循环匹配判别。

2) 在循环匹配过程中,以属性、空间为条件,进行同一地名的匹配判别处理。属性判别以地名对应的名称、类别等属性信息作为匹配因子,空间判别以地名对应的实体类型、实体间距离等作为匹配因子,将现实中归属于同一地名的数据记录归并。为提高判别的可靠性,可定制不同要素类型的匹配因子,如居民地要素层可增加选取行政区划代码作为匹配因子。

3) 对同一地名的不同数据记录的属性信息进行融合处理。如跨两幅相邻1:5万图幅的数据,可取对应的1:10万图幅号;比对两条记录中行政区划代码不同之处,取两者相同的区划代码作为新的行政区划代码值;按照大类、中类、小类顺序,取相同值作为新的编码。地名属性融合后,同一地名对应的属性信息记录有且唯一。

4) 对同一地名的不同数据记录的空间信息进行融合。提取的地名数据在地名属性融合后的数据集,其属性信息记录与空间信息记录是“一对多”的关系。依据距离、类别等进行线实体连接、面实体合并等处理,最后按照点、线、面、多点、多线、多面和几何集合等类型进行地名实体的组织和表达。

5) 对所有抽取的地名数据集进行循环遍历处理,直至结束,形成新的地名数据集。

提取的地名数据集经过融合处理后,现实意义中的地名在数据集中有且只有一条记录对应,且属性信息具有唯一性,其实体类型多样,但实体信息也具有唯一性。这样保证了所提取地名数据的有效性。

3 实验与分析

采用的地名源数据为某区域矢量地图,图幅数为1 542幅。实验内容包括了地名信息提取、地名信息融合等内容。

3.1 地名信息提取分析

对1 542幅矢量地图进行注记统计,共计有348 071条注记信息。对实验数据进行地名信息提取,总计获取地名数据348 071条,验证了提取策略的有效性。将提取的结果存入Windows Ser-ver2012数据库,为加快检索与处理效率,将地名属性信息与地名空间信息分开存储,两者通过唯一关键字建立对应关系。

3.2 地名信息融合分析

用地名信息融合方法对提取的地名数据集进行融合处理,累计处理85 716条数据记录。以长江为例,基于地图数据所提取的长江属性记录和空间记录各有2 385条,且属性与空间信息是“一对一”关系。用融合方法处理后的地名实体的显示效果如图 4所示。融合处理后的属性及空间记录仅为一条,保证了处理后地名数据的唯一性和完整性,实验结果论证了融合处理的有效性。

图 4 融合处理后地名实体显示效果 Fig.4 Result Geo-Name Entity of Visible Experiment After Fusion

4 结束语

基于现有地图数据成果,本文提出一种基于矢量地图的地名信息自动获取与融合方法。在充分分析地名与地图相关性的基础上,通过设计地名信息的提取策略,有效从地图数据中获取到地名相关信息,从属性、空间等方面着手,建立了地名信息的融合算法。实验结果表明,提出的方法能高效获取到地名相关信息,且经过融合处理后,有效保证了所提取信息的唯一性和完整性,具有较高的实用价值。

参考文献
[1]
曾庆亚.吉林省行政区划沿革数据库中地名数据的组织研究[D].长春: 东北师范大学, 2014 http://cdmd.cnki.com.cn/Article/CDMD-10200-1014372521.htm
[2]
唐国礼, 王豫华. 基于MapGIS的数字郴州地名地址数据库建设[J]. 测绘地理信息, 2017, 42(1): 108-114.
[3]
黄大宁, 邬群勇, 满旺, 等. 县级地名时空数据库的设计与实现[J]. 测绘科学, 2014, 39(11): 121-125.
[4]
李金良, 张雪英, 樊晓春. 汉语地名时空信息的一体化表达[J]. 地理与地理信息科学, 2010, 26(6): 6-10.
[5]
倪淑洁. 省级1:1万地名数据的核查及采集方法[J]. 中国地名, 2007(3): 74-75.
[6]
王平, 薄正权. 地名地址数据采集方法与实践[J]. 城市勘测, 2013(2): 54-57. DOI:10.3969/j.issn.1672-8262.2013.02.013
[7]
邹利平, 杜清运. 省级地名管理数据库数据组织与更新策略探讨[J]. 中国地名, 2007(8): 66-67.
[8]
史宜南, 代侦勇, 刘鹏. 二三维一体化的数字地名管理系统开发与关键技术研究[J]. 测绘地理信息, 2015, 40(1): 84-86.
[9]
王柳, 王桂敏. 浅谈无级地名数据库及其管理系统的建设[J]. 测绘科学, 2006, 31(3): 109-110. DOI:10.3771/j.issn.1009-2307.2006.03.039
[10]
唐权, 陈珺.基于地理实体的地名地址库构建方法研究[C]. 2013年江苏省测绘学会年会, 南京, 2013
[11]
陈刚, 范玉松, 张博涵. 面向公开地图表示的地名数据集及地名服务系统的设计与实现[J]. 测绘与空间地理信息, 2014, 37(9): 54-56. DOI:10.3969/j.issn.1672-5867.2014.09.016
[12]
何望君, 刘纪平, 张福浩, 等. 一种客户端政区四色地图高效着色方法[J]. 测绘地理信息, 2018, 43(4): 116-119.
[13]
陈盛银. 地理信息系统电子地图设计[J]. 测绘与空间地理信息, 2012, 35(12): 93-95. DOI:10.3969/j.issn.1672-5867.2012.12.030
[14]
王飞, 蔡忠亮, 蒋子捷, 等. 移动环境下的矢量地图快速显示方法[J]. 测绘地理信息, 2018, 43(4): 111-115.
[15]
白荣华, 杜慧, 郭彦辉. Corel PowerTRACE X5栅格图矢量化在地图集编制中的应用[J]. 测绘与空间地理信息, 2012, 35(10): 221-223. DOI:10.3969/j.issn.1672-5867.2012.10.076
[16]
张雪颖. 基于数据和资料现状的省级电子地图矢量数据更新技术[J]. 测绘与空间地理信息, 2012, 35(9): 161-163. DOI:10.3969/j.issn.1672-5867.2012.09.051
[17]
何猛, 蔡忠亮, 任福. 移动地图中的矢量瓦片组织方法研究[J]. 测绘地理信息, 2015, 40(2): 74-76.