2. 武汉大学 测绘遥感信息工程国家重点实验室,湖北 武汉 430079
2. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
1 引 言
目标匹配技术是空间数据集成更新和融合的关键技术。为保持空间数据的现势性,需要通过不同的数据源对空间数据进行更新,目标匹配是更新中的重要环节,正确有效的匹配方法是数据更新的关键步骤[1, 2]。矢量空间数据匹配的目的就是要识别不同数据源中表示同一地物的要素,即同名实体的匹配,其匹配方法一般可分为几何匹配、拓扑匹配和语义匹配,其中几何和拓扑匹配利用的是空间数据的空间信息,而语义匹配则是基于空间数据的非空间信息[3, 4]。拓扑匹配依赖于匹配实体的拓扑关系,微小的拓扑差异将会致使匹配失败,语义匹配对匹配实体属性数据类型的一致性及数据的完整性要求较高,所以常采用几何匹配进行同名实体的识别[5]。
几何匹配主要是依据实体之间几何形状的相似程度进行匹配,其关键就是更相近地描述实体之间的几何相似度。当前常用的几何相似度描述特征有面积、形状、长度、角度、方向、Hausdorff距离、外接矩形等[12, 13, 14, 15],但它们不利于图形的全局特征的有效描述,因此对几何图形形状的描述子关键是既要能对几何图形形状的全局特征有效描述又要能对其局部特征进行有效描述,既要满足平移、旋转和缩放的不变性又要满足形状的紧致性和对噪声干扰的鲁棒性,具有良好的几何图形形状区分能力,因此通常采用傅里叶描述子进行几何图形形状的描述[16, 17, 18]。
由于实体的凸凹几何形状往往对其外形特征有着决定性作用[14],而面实体的边界线在某点两侧割线的夹角正是对边界线在该点的弯曲程度和凸凹性的反映。基于此,本文提出用一种基于弯曲度半径复函数的傅里叶形状描述子来度量匹配实体之间的几何形状相似度,并选择面实体的空间位置、形状和大小等特征,通过加权综合构建面实体的综合空间相似度度量模型,利用此模型进行矢量空间数据的匹配。
2 基于弯曲度半径复函数的傅里叶形状描述子将几何形状边界线用一个有序点集表示为S={pi=xi,yi,i=1,2,…,n},其中,n为边界线上的点数。取点集中所有点坐标的均值为该几何形状边界线的几何中心点,记为C,则其坐标为
式中,xi、yi为边界线上的任一点的坐标。
定义1:将边界线上任一点pi到几何中心点C的距离称为边界线在该点的中心距离(也称为半径),记为ri,则有
定义2:将边界线上任一点pi沿边界线顺时针方向和逆时针方向分别扫描弧长l(ri/2)(l∈[0,L],L为边界线周长),得到边界线上两点pi1和pi2,将线段pi1pi和线段pipi2在点pi处的夹角θi称为边界线在点pi处的弯曲度。
设线段pi1pi和线段pipi2分别为向量Ai和Bi,则有
已知cosθi=cos(θi-π),所以可以设定
则有θi∈0,π/2且满足下面条件
如图 1所示。
|
| 图 1 匹配实体边界线弯曲度示意图 Fig. 1 The bending degree of the matching entity boundary line at one point |
已知复数的几何形式为z=a+bi,三角形式为z=r(cosθ+isinθ),通过欧拉方程eiθ=cosθ+isinθ将三角形式中的cosθ+isinθ替换为eiθ,即为复数的指数形式z=reiθ。
定义3:设边界线上某点为起始点,记为p0,沿逆时针方向扫描边界线弧长l(l∈[0,L],L为边界线周长),得到边界线上一点,记为pj,边界线在点pj处半径和弯曲度分别记为rj和θj,由此可得复数zj=rjeiθj。显然,当l改变时,点pj的位置也随之发生改变,rj和θj也必然发生改变,即复数zj随l改变而发生改变,因此以l为自变量,以zj为因变量的复函数fzj,称为弯曲度半径复函数。
由定义 3可知,弯曲度半径复函数满足旋转和平移不变性,用半径最大值rjmax、弯曲度绝对值最大值|θj|max( |θj|max=π/2)和边界线周长L对rj、θj和l进行归一到[0,1]。经过归一化处理后,弯曲度半径复函数满足缩放不变性。
下面通过试验对弯曲度半径复函数描述能力进行测试分析,如图 2所示。图 2(a)为测试用例,其中左图为一湖泊实体,提取其边界线如图中粗体边缘线所示,右图为对左图中实体边界进行较大幅度光滑处理所得几何形状,显然,两者具有全局相似性和明显的局部差异性。利用弯曲度半径复函数对实体a和b进行形状描述,图 2(b)、(c)、(d)分别为两种实体的复函数三维曲线图和复函数中的实部和虚部曲线图,其中均以边界线在任一点处的半径(即复函数的实部)为x轴,弯曲度(即复函数的虚部)为y轴,弧长为z轴,从图(c)和图(d)中分别可以看出弯曲度半径复函数的实部能够很好地反映实体几何形状的整体特征,复函数的虚部对实体几何形状的局部特征能够进行很好的描述。
|
| 图 2 弯曲度半径复函数描述能力测试 Fig. 2 The descriptive power test of the bending radius complex function |
在实体匹配中,由于实体边界线的形状起始点不一定一致,上述弯曲度半径复函数对起始点有依赖性,需要进行起始点独立性和紧致性处理。
首先,对边界线弯曲度半径复函数在弧长区间[0,1]进行等间隔离散化并重采样m个点l0、l1、…、lm-1,采样点的分布要均匀且近似表达实体边界线,其中m=2T,T是满足2T>n的最小整数。重采样后边界线弯曲度半径复函数为f(zli),其中i=0,1,…,m-1。
其次,对f(zli)进行快速傅里叶变换,形式为[17]
由于函数f(zli)为周期性函数,边界线起始点变化时,其傅里叶系数的振幅将保持不变,所以为了满足边界线起始点的独立性,取其傅里叶系数的振幅作为形状描述子向量的分量,即|Fn|;同时为了使形状描述子更加紧致和在形状相似性度量中保持获取边界线上点数一致,取m个系数的前k个,构造向量a=[|F0| |F1| … |F(k-1)|],向量a即为基于弯曲度半径复函数的形状描述子。
由上述可知,傅里叶形状描述子a满足旋转、平移、缩放不变性,且满足形状紧致性和边界线起始点独立性。利用a可度量两个形状的差异度和相似度。
设两个不同形状为A和B,相应的形状描述子记为aA和aB,A和B之间的形状差异度定义为两个特征向量之间的欧氏距离,即
式中,Dshape(A,B)∈[0,1],则A和B之间的形状相似度可表示为
式中,Sshape(A,B)∈[0,1]。
3 综合空间相似度度量模型及匹配 3.1 综合空间相似度度量模型地图实体的空间图形相似关系主要表现在空间维数、大小、形状、长度、面积等特征上,其中面实体图形相似关系主要表现在空间位置、形状和大小(面积)上[19]。据此,本文将面实体的空间位置、形状、大小等相似度通过加权综合构建一种综合空间相似度度量模型。设待匹配实体为A和B,其综合相似度指标由向量x=[a1 a2 a3]T和y=[b1 b2 b3]T表示,其中各个分量分别为位置、形状和大小(面积)分量,实体A和B之间的差异度为Dcomposite(A,B),相似度为Scomposite(A,B)。Dcomposite(A,B)采用加权的Jffreys & Matusita距离(也称为杰氏距离,为欧氏距离的修正距离[20]。)来度量,则有
式中,i=1,2,3;ωi为权系数;
ωi=1;(
)为实体A和B之间第i个分量的差异度,|
|∈[0,1],Dcomposite(A,B)∈[0,1]。由此可知实体A和B之间的相似度度量式为
式中,Scomposite(A,B)∈[0,1]。
空间位置和大小(面积)差异度用类似文献[3]中方法进行度量。
(1) 空间位置差异度度量式为
式中,xA,yA和xB,yB分别为实体A和B的几何形状中心点,坐标取值同式(1),dmax(A,B)为实体A和B任意边界上两点间距离的最大值。
(2) 形状差异度度量式为式(6),即形状差异度分量Dshape(A,B)=|
|。
(3) 大小(面积)差异度度量式为
式中,AreaA和AreaB分别为实体A和B的面积,Areamax为实体A和B面积中的最大值。
将空间位置、形状、大小(面积)3个分量代入式(9),即可得到实体A和B的综合空间相似度。
3.2 基于综合空间相似度度量模型的匹配步骤设已知两个实体集分别为A={a0,a1,…,am}和B={b0,b1,…,bn},且以A为源实体集、B为目标实体集。根据3.1 所述相似度度量模型,本文采用双向匹配方法:先在B中查找和A中每一个实体匹配的目标,然后对B中没有在A中找到匹配目标的每一个实体再在A中查找其匹配的目标[7]。具体匹配步骤为:
(1) 对数据的坐标系进行统一。
(2) 通过待匹配实体ai(i=0,1,…,m)的最小外接矩形确定该实体的候选匹配集。
(3) 获取待匹配实体ai和候选匹配实体bj(j=0,1,…,n)的几何中心位置和面积,并求取两个实体的空间位置差异度Dlocation(ai,bj)和大小差异度Darea(ai,bj)。
(4) 提取待匹配实体ai和候选匹配实体bj的边界线,并根据设定弧长计算各个点半径(即中心距离)和弯曲度,然后进行归一化处理。
(5) 依据实体边界线上各点的半径和弯曲度组成的复数,对其进行快速傅里叶变换,取傅里叶变换系数的模组成向量,计算两个实体特征向量的欧氏距离,获得两个实体的形状差异度Dshape(ai,bj)。
(6) 分别通过随机取样、根据实体中心坐标进行分布取样和根据实体面积大小进行特征取样,3次提取已匹配实体对为正例样本,计算各个差异度权值系数和综合空间相似度阈值。
(7) 根据步骤(3)和(5)中所获得3个差异度和步骤(6)中的权值系数,计算待匹配实体ai和候选匹配实体bj的综合空间相似度Scomposite(ai,bj),将候选匹配实体集中综合空间相似度大于阈值者作为待匹配实体的匹配对象。
4 试验与分析 4.1 匹配试验本文试验数据为某省区域内不同年份同比例尺水系数据。试验方式参考文献[21],选取正例样本,通过对正例样本的分析获得数据的各个相似度对应权值和综合相似度阈值。
试验对2000年和2010年两个年份的1∶10 000面状水系图层数据中的要素实体进行匹配,匹配采用双向匹配策略。通过对已匹配实体进行多次取样,计算各个样本对的差异度和综合相似度,得到各个差异度的权值和综合空间相似度阈值,并依此对数据源中待匹配实体进行匹配试验,结果如表 1所示。图 3为选取部分实例。
| 待匹配图层 | 候选匹配图层 | w1 | w2 | w3 | sim0 | n1 | n2 | r | P/(%) | R/(%) |
| layer2000 | layer2010 | 0.26 | 0.31 | 0.43 | 0.567 8 | 407 | 349 | 343 | 98.28 | 84.28 |
| layer2010 | layer2000 | 0.25 | 0.31 | 0.44 | 0.584 9 | 440 | 361 | 354 | 98.06 | 80.45 |
| 注:w1、w2、w3分别为位置、形状、大小差异度权值系数;sim0为综合空间相似度阈值;n1、n2、r分别为图层中的实体数、匹配结果集中的实体数、匹配结果集中匹配正确的实体数;P和R分别为查准率和查全率 | ||||||||||
|
| 图 3 匹配实例 Fig. 3 Matching examples |
假定以历史数据为待匹配数据,现势数据为候选匹配数据进行匹配为正向匹配,反之为反向匹配,下同。在图 3中,阴影表示部分为2000年数据,实线表示部分为2010年数据。图 3(a)为反向匹配中的误匹配实例,A2和B1被匹配,但是A2为新增实体且在正向匹配中B1与A1匹配;图 3(b)为通过双向匹配确认实例,正向匹配中B2和A3一对一匹配,反向匹配中A3和B2一对一匹配,但是A4和B2、B3一对二匹配,因此确定A4和B3匹配。匹配结果见表 2。
| 匹配方向 | 实体对 | Dlocation | Dshape | Darea | Scomposite | 匹配结果 |
| 正向匹配 | B1:A1 | 0.521 911 49 | 0.000 014 47 | 0.000 001 6 | 0.733 876 32 | 是 |
| 反向匹配 | A2:B1 | 0.800 667 51 | 0.227 001 73 | 0.029 501 71 | 0.579 733 05 | 否 |
| 正向匹配 | B2:A3 | 0.430 636 24 | 0.000 014 04 | 0.000 003 79 | 0.780 417 74 | 是 |
| B3:A3 | 0.562 990 64 | 0.347 088 57 | 0.232 897 | 0.621 742 58 | 否 | |
| B3:A4 | 0.564 038 67 | 0.000 023 01 | 0.000 000 48 | 0.712 395 59 | 是 | |
| 反向匹配 | A3:B2 | 0.430 636 24 | 0.000 014 04 | 0.000 003 79 | 0.784 681 88 | 是 |
| A4:B2 | 0.562 990 5 | 0.347 085 37 | 0.232 900 27 | 0.625 231 47 | 否 | |
| A4:B3 | 0.564 038 67 | 0.000 023 01 | 0.000 000 48 | 0.717 980 66 | 是 |
在图 3(c)中,A5和B5,A6和B6通过正反双向匹配均为一对一关系,确定为一对一匹配,而B7和A9、A10、A11,B8和A7、A8、A12在正向匹配时为一对多关系,在反向匹配时为多对一关系,通过正反双向匹配确定A11和B7匹配、A12和B8匹配。匹配结果见表 3。
| 匹配方向 | 实体对 | Dlocation | Dshape | Darea | Scomposite | 匹配结果 |
| 正向匹配 | B5:A5 | 0.805 852 22 | 6.96E-06 | 6.60E-07 | 0.589 094 39 | 是 |
| 反向匹配 | A5:B5 | 0.805 852 22 | 6.96E-06 | 6.60E-07 | 0.581 266 89 | 是 |
| 正向匹配 | B6:A6 | 0.440 172 41 | 6.95E-06 | 6.60E-07 | 0.775 555 24 | 是 |
| 反向匹配 | A6:B6 | 0.440 172 41 | 6.95E-06 | 6.60E-07 | 0.771 279 7 | 是 |
| 正向匹配 | B7:A11 | 3.22E-05 | 0.578 592 14 | 2.35E-06 | 0.672 698 86 | 是 |
| B7:A9 | 0.333 517 33 | 0.614 557 13 | 0.966 197 63 | 0.263 885 59 | 否 | |
| B7:A10 | 0.190 393 99 | 0.838 488 57 | 0.980 383 92 | 0.201 195 12 | 否 | |
| 反向匹配 | A11:B7 | 3.22E-05 | 0.578 592 14 | 2.35E-06 | 0.677 853 53 | 是 |
| A9:B7 | 0.333 517 33 | 0.614 557 13 | 0.966 197 63 | 0.265 697 64 | 否 | |
| A10:B7 | 0.190 393 99 | 0.838 488 57 | 0.980 383 92 | 0.205 379 89 | 否 | |
| 正向匹配 | B8:A12 | 4.77E-05 | 0.292 836 42 | 9.92E-06 | 0.834 346 71 | 是 |
| B8:A7 | 0.358 687 91 | 0.559 714 26 | 0.966 715 93 | 0.274 598 67 | 否 | |
| B8:A8 | 0.245 917 11 | 0.404 428 25 | 0.963 944 67 | 0.323 004 45 | 否 | |
| 反向匹配 | A12:B8 | 4.77E-05 | 0.292 836 42 | 9.92E-06 | 0.836 955 58 | 是 |
| A7:B8 | 0.358 687 91 | 0.559 714 26 | 0.966 715 93 | 0.275 872 34 | 否 | |
| A8:B8 | 0.245 917 11 | 0.404 428 25 | 0.963 944 67 | 0.323 766 24 | 否 |
对匹配算法性能评估除了通常采用的衡量匹配精度的查准率和衡量匹配全面性的查全率之外,还有衡量匹配效率的匹配耗时和匹配速度等指标,为了更好地进行直观比较分析,本文增加漏匹配实体数指标。采用这5个衡量指标对本文算法和文献[3]中算法进行比较,所用试验数据均为本文试验数据,表 4为比较结果。
分析表 4可知,本文算法由于对实体形状采用了傅里叶形状描述子进行描述,相比文献[3]算法中单纯采用中心距离描述实体形状更加有效,在匹配时间不增加的情况下减少了漏匹配率,从而提高了匹配效率和查全率。
5 结 论面状矢量要素匹配是矢量空间数据匹配和融合更新中最重要的一部分,要素实体的几何特征是决定匹配的关键,本文提出的形状描述方法对要素实体几何形状的整体特征和局部细节特征都能够进行有效的描述。经试验验证,利用本文所构建的相似度度量模型能够很好地实现同名实体的匹配,说明本文算法在空间数据融合更新中具有实际应用价值;通过与其他算法比较,本文算法可以提高匹配速度和减少漏匹配率,说明该算法要优于所比较的现有算法。
实体匹配一般涉及各种不同数据,如不同数据源、不同尺度和不同时相等,匹配情况比较复杂,本文模型主要针对同比例尺或相近比例尺下的面状同名实体匹配,下一步研究工作将针对如何利用此模型或其相应的改进模型进行线状同名实体匹配及对跨大比例尺(比例尺相差5倍以上)下的不同几何类型同名实体匹配进行深入研究。
| [1] | PAN Yuchun, ZHONG Ershun, ZHAO Chunjiang. A Study on Update Technologies for Spatial Database [J].Geo-Information Science, 2004, 6(1):36-40.(潘瑜春,钟耳顺,赵春江.GIS空间数据库的更新技术[J].地球信息科学,2004,6(1):36-40.) |
| [2] | GUO Li. Theory and Method Research on Multi-sources Geospatial Vector Data Fusion [D].Zhengzhou: PLA Information Engineering University, 2008. (郭黎.多源地理空间矢量数据融合理论与方法研究[D].郑州:信息工程大学,2008.) |
| [3] | HAO Yanling, TANG Wenjing, Zhao Yuxin, et al. Areal Feature Matching Algorithm Based on Spatial Similarity[J].Acta Geodaetica et Cartographica Sinica, 2008,37(4):501-506.(郝燕玲,唐文静,赵玉新,等.基于空间相似性的面实体匹配算法研究[J].测绘学报,2008,37(4):501-506.) |
| [4] | ZHAO Binbin. A Study on Multi-scale Vector Map Objects Matching Method and Its Application [D].Changsha: Central South University, 2011.(赵彬彬.多尺度矢量地图空间目标匹配方法及其应用研究[D].长沙:中南大学,2011.) |
| [5] | XU Feng, DENG Min, ZHAO Binbin, et al. A Detailed Investigation on the Methods of Object Matching [J]. Journal of Geo-Information Science, 2009, 11(5): 657-663.(徐枫,邓敏,赵彬彬, 等.空间目标匹配方法的应用分析[J].地球信息科学,2009,11(5): 657-663.) |
| [6] | ZHANG Qiaoping, LI Deren, GONG Jianya. Areal Feature Matching among Urban Geographic Databases [J].Journal of Remote Sensing, 2004, 8(2):107-112.(张桥平,李德仁,龚健雅.城市地图数据库面实体匹配技术[J].遥感学报,2004,8(2):107-112.) |
| [7] | TONG Xiaohua, DENG Susu, SHI Wenzhong. A Probabilistic Theory-based Matching Method [J]. Acta Geodaetica et Cartographica Sinica, 2007, 36(02):210-217.(童小华,邓愫愫,史文中.基于概率的地图实体匹配方法[J].测绘学报,2007,36(2):210-217.) |
| [8] | MASUYAMA A. Methods for Detecting Apparent Differences between Spatial Tessellations at Different Time Points [J]. International Journal of Geographical Information Science, 2006, 20(6): 633-648. |
| [9] | WALTER V, FRITSCH D. Matching Spatial Data Sets: a Statistical Approach [J]. International Journal of Geographical Information Science, 1999, 13(5): 445-473. |
| [10] | DENG M, LI Z L, CHEN X Y. Extended Hausdorff Distance for Spatial Objects in GIS [J]. International Journal of Geographical Information Science, 2007, 21(4): 459-475. |
| [11] | YANG Chuncheng, ZHANG Qinpu, TIAN Xiangchun, et al. A Closest Distance Computation Method for Simple Polygons Considering Geometry Shape Similarity [J]. Acta Geodaetica et Cartographica Sinica, 2004, 33(4):311-318.(杨春成,张清浦,田向春,等.顾及几何形状相似性的简单多边形最近距离计算方法[J].测绘学报,2004,33(4):311-318.) |
| [12] | MOUNT D M, NETANYAHU N S, LE MOIGNE J. Efficient Algorithms for Robust Feature Matching [J]. Pattern Recognition, 1999, 32(1): 17-38. |
| [13] | YANG Chuncheng, HE Liesong, XIE Peng, et al. Clustering Analysis of Geographical Area Entities Considering Distance and Shape Similarity [J]. Geomatics and Information Science of Wuhan University, 2009, 34(3):335-338.(杨春成,何列松,谢鹏,等.顾及距离与形状相似性的面状地理实体聚类[J].武汉大学学报:信息科学版,2009,34(3):335-338.) |
| [14] | XIE Ping, MA Xiaoyong, ZHANG Xianmin, et al. A New Fast Algorithm for Complex Polygons Matching[J]. Computer Engineering, 2003,29(16):177-178,181.(谢萍,马小勇,张宪民,等.一种快速的复杂多边形匹配算法[J].计算机工程,2003,29(16):177-178,181.) |
| [15] | TAN Guozhen, GAO Wen, ZHANG Tianwen. Similarity Measures for Polygons Representation [J]. Journal of Computer-Aided Design & Computer Graphics, 1995, 7(2):96-102.(谭国真,高文,张田文.多边形表示的相似度量[J].计算机辅助设计与图形学学报,1995,7(2):96-102.) |
| [16] | TANG Luliang, LI Qingquan, YANG Bisheng. Shape Similarity Measuring for Multi-resolution Transmission of Spatial Datasets over the Internet [J]. Acta Geodaetica et Cartographica Sinica, 2009, 38(4):336-340.(唐炉亮,李清泉,杨必胜.空间数据网络多分辨率传输的几何图形相似性度量[J].测绘学报, 2009,38(4):336-340.) |
| [17] | WANG Bin. A Fourier Shape Descriptor Based on Multi-Level Chord Length Function [J]. Chinese Journal of Computers, 2010, 33(12):2387-2396.(王斌.一种基于多级弦长函数的傅里叶形状描述子[J].计算机学报,2010,33(12):2387-2396.) |
| [18] | STAIB L H, DUNCAN J S. Boundary Finding with Parametrically Deformable Models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1992, 14(11): 1061-1075. |
| [19] | YAN Haowen, CHU Yandong. On the Fundamental Issues of Spatial Similarity Relations in Multi-scale Maps [J]. Geography and Geo-Information Science, 2009, 25(4):42-44, 48.(闫浩文,褚衍东.多尺度地图空间相似关系基本问题研究[J].地理与地理信息科学,2009,25(4):42-44,48.) |
| [20] | ZHANG Yu, LIU Yudong, JI Zhao. Vector Similarity Measurement Method [J].Technical Acoustics, 2009, 28(4): 532-536.(张宇,刘雨东,计钊.向量相似度测度方法[J].声学技术,2009,28(4): 532-536.) |
| [21] | AN Xiaoya, SUN Qun, XIAO Qiang, et al. A Shape Multilevel Description Method and Application in Measuring Geometry Similarity of Multi-scale Spatial Data [J]. Acta Geodaetica et Cartographica Sinica, 2011,40(4):495-501,508.(安晓亚,孙群,肖强,等.一种形状多级描述方法及在多尺度空间数据几何相似性度量中的应用[J].测绘学报,2011,40(4):495-501,508.) |


