2.南京师范大学地理科学学院,江苏南京 210046
2.School of Geography Science,Nanjing Normal University,Nanjing 210046, China
1 粗集在空间数据处理中的应用
粗集理论是一种新的研究不完备知识的数学方法,其主要思想是在保持数据分类能力不变的前提下,通过属性约简产生决策或分类规则。目前粗集理论与空间信息科学相关应用概括起来主要表现在以下3个方面:① 利用粗集方法作GIS专题应用方面的属性数据研究,其代表如文献[1]基于粗集理论研究居民地属性知识的约简和结构化选取方法;② 针对栅格地图数据或遥感数据,利用粗集的格计算特性,提高数据分类精度,例如文献[2]将粗集理论引入到遥感图像分类的过程中,包括特征选取、分类规则挖掘及不确定性度量,对经典算法进行改进;③ 运用粗集对GIS数据的不确定性进行分析建模,典型的如文献[3]运用粗集理论来系统地描述和表达空间目标位置数据、属性数据以及空间关系数据的不确定性,文献[4]利用粗集理论提出适合于描述确定和模糊区域或两个模糊区域目标间拓扑空间关系的扩展模型。总的来说,这3方面的应用一种是利用粗集的分类思想做关于属性数据的约简和重要性评价分析,一种是利用粗集格计算特性进行图像识别及其知识挖掘,另一种是利用粗集近似思想分析GIS数据的不确定性。本文基于粗集对空间数据处理即地图综合的研究属于第1类,虽然文献[1]对居民地进行结构化选取时,提出了选取的基本思路,并且文献[5]将其应用到GIS点群综合中,但两者均没有根据空间信息的特殊性对粗集的方法进行相应的改进,因此,本文针对以上不足,提出一种具有普适性的将粗集应用于地图综合中的方法。 2 空间目标信息的获取及其特点
在对空间目标进行分析和应用的过程中,常常需要综合考虑目标的空间信息与属性信息,以此来判断目标的重要性,进而根据应用目的对目标进行处理。因此,空间信息表应尽量包括影响目标重要性的各种信息,这样才能使目标重要性的判断结果更加可靠。一般情况下,空间信息表中的各种信息的来源及其获取由以下两个部分组成。
(1) 目标的空间信息:包括目标自身的空间信息及各类目标间由于空间相关性所产生的空间信息。目标自身的空间信息主要包括目标的几何信息、拓扑信息、位置信息等,这些信息可以通过采取对空间目标进行结构化描述并量化表示的方法来获取,文献[5]中有详细说明。目标之间的空间信息是由于目标在空间中不是孤立存在的,邻近[6, 7]的其他类型目标会对被分析处理目标的重要性产生影响。这些信息的获取,需要利用一定的空间分析手段如缓冲区分析等来获取,一般来说,并没有一个通用的算法,必须根据实际情况具体分析。
(2) 目标属性信息:又称目标的非空间数据,是用来描述地理数据中属性特征部分的数据[8]。属性信息的自动获取是目标重要性判断中一个难点。某些属性信息可以从数据库中获取或从目标的属性编码中获取,如时令河、消失河段等;而有些属性信息需要通过空间运算等方式获得。
在获取目标的各种空间信息和属性信息后,将其作为条件属性构建空间目标的信息表,如表 1所示。
U | 条件属性 | 决策属性 | |||
c1 | c2 | … | cm | d | |
x 1 | v 11 | v 12 | … | v 1m | null |
x 2 | v 21 | v 22 | … | v 2m | null |
| | | | | |
x n | v n1 | v n2 | … | nv 2m | null |
根据粗集方法的应用特点,空间信息表中的决策属性值代表各空间目标在某一应用目的条件下的状态信息,即依据应用目的,对空间目标进行分类。但在利用粗集的属性约简方法对空间目标进行重要性评价之前,通常是无法事先确切地知道空间目标的重要性,也就无法准确地对空间目标进行分类,即在空间信息表中不包含决策属性。因此,针对空间信息属性决策表的特殊性,将粗集的方法应用到空间信息分析的过程中,需要对其进行相应的处理,包括信息表的离散化过程及决策属性的处理,以使其能有更广泛的应用范围。 3 粗集在无决策空间信息属性表中的应用
空间信息属性表的离散化实质是根据目标的条件属性取值对目标进行分类的过程。但无决策空间信息属性表的离散化与粗集属性决策表的离散化目的有所不同:粗集属性决策表的离散化目的是对各条件属性引入尽可能少的断点以区分目标;而对于无决策属性的空间信息表,离散化的目的是反映空间目标分级与离散化的结果之间的联系。基于这一区别,笔者先对空间信息表中连续型数据进行离散化以计算目标的模糊重要性,再以此对空间目标分配模糊决策属性,用以满足粗集的应用需要。 3.1 空间目标模糊分类方法
鉴于空间信息表的离散化目的,本文选择无监督离散化方法[9]中的k-means聚类方法对连续型条件属性进行离散化。在给定分类数k的前提下,该方法能很好地反映数据的分布特征。k值可根据制图知识来确定[10]。
在粗集理论中,条件属性的重要性是根据条件属性对决策属性分类能力的影响来确定的,因此,评价空间目标之前,必须先对空间信息表添加决策属性。尽管在排序之前,无法准确地对目标进行分类,即无法确定每个空间目标的决策属性,但是,可以根据条件属性的取值模糊地确定目标所属的类别。基于这一思路,本文提出根据空间信息表的应用目的即在地图比例尺缩小的情况下对空间目标进行选取,给空间目标添加模糊决策属性的方法。
根据综合阈值α的定义[11],假设空间信息表中目标已按其重要性升序排序,则在综合阈值范围内的空间目标在综合的过程中被删除的可能性要大于在综合阈值范围之外的空间目标,又由于空间目标的重要性是由条件属性的取值及条件属性的重要性确定的,因此,在条件属性重要性计算出来之前,条件属性的取值能在一定程度上反映空间目标的重要性程度。基于此,可以根据条件属性的取值,将空间目标模糊地划分为3个类别:第1类,综合过程中删去的可能性很大;第2类,综合过程中删去和保留的可能性大致相当;第3类,综合过程中保留的可能性很大。
如表 2对树状河网进行选取。首先采取k-means聚类算法将连续型条件属性离散化为正自然数,并且相对大小顺序与离散化前的大小顺序相关联;然后将离散化后的所有条件属性标准化为正向指标——指标值越大对目标的重要性程度贡献越大,若指标为负向指标,则对指标k按v′ik=max1≤i≤n{vik}-vik+1进行运算,其中,vik为目标i的指标k取值,v′ik为标准化后的取值,n为总的目标数。对于空间目标xi,设其离散化并标准化为正向指标后的条件属性取值为vik(k=1.2,3,…),引入定义:目标的模糊重要性程度Wf
式中,Wf,i为目标i的模糊重要性程度;m为条件属性项数目。利用式(1)计算出每个空间目标的模糊重要性程度,并按升序排序,然后以综合阈值α为界,从处于综合阈值范围内的目标中选取出Wf较小的元素划分到第1类,从处于综合阈值范围外的目标中选取出Wf较大的元素划分到第3类,将剩余的目标划分到第2类。在根据模糊重要性程度Wf划分类别即添加决策属性的时候应根据以下几条原则粗略划分:① Wf相同的目标必须划分到相同的类别;② 随着综合过程的进行,当前被综合的目标数逐渐趋于要综合的目标数,从而使综合阈值α趋于0,此时,可以只划分第2类和第3类两类。例如,对升序排列后的信息表,从处于综合阈值范围内的目标中选出前60%划分到第1类,从处于综合阈值范围外的目标中选出后60%划分到第3类,将其他的目标划分到第2类;并按原则①进行适当调整。 3.2 动态排序的方法
空间信息表添加模糊决策属性后,可用知识库K=(U,R)表示,对于知识C,DR,知识D对C的依赖度可描述为
当C为条件属性,D为决策属性,对于每个条件属性ci∈C,其重要性程度通过式(3)求得 在条件属性重要性计算出来后,对于每个空间目标xi,其重要性计算公式为式中,wk条件属性k的重要性程度。
由于空间目标间的相关性,目标的删除对局部区域空间目标的分布密度、分布格局以及空间关系会产生影响,因此,需要利用动态的方法[11]对空间目标的重要性进行评价。该动态选取的方法能较好的保留被选取目标的空间分布特征。 4 试验分析
本次试验以某城市高校分布为数据对象,如图 1中黑色圆点所示,共有114个目标。在对地图点群目标进行综合的时候,不仅要考虑各点自身的空间信息及属性信息,同时也要充分考虑点群总体的结构特征及局部个体的相对重要性,以此来保证综合的质量。
首先对数据对象的空间信息进行提取,点群的凸壳层次嵌套[5](c1)可以描述点群最外围的轮廓以及全部点目标的层次结构,处在外围的点比处在内部的点对点群的总体分布的影响程度相对要大;由于点目标本身没有形状面积,所以用点的Voronoi图(c2)来描述每个点所控制的面积,对于单个点来说,它所控制的面积越大,则它影响的区域越广,综合时保留下来的可能性越大;点的一阶邻近密度(c3)可以表示点所处区域的局部密度,点所处区域局部密度越小,则点的生存空间越大,综合过程中保留的可能性越大。接下来对点群的属性信息进行提取,高校的等级或类别(c4)可以表示高校的办学水平及影响力,办学水平越高的学校(在属性决策表中表现为属性取值越大)综合时保留的可能性越大;高校的占地面积(c5)可以体现出高校的办学规模,规模越大的学校,重要性程度相对越高。计算出以上各条件属性取值构建如表 1所示的无决策属性信息表。
构建出信息表后,利用k-means聚类方法对所有连续型字段进行离散化。试验中,被综合目标较少,故将表中凸壳层次合并为2个区间,其他连续型条件属性离散化为3个区间。将信息表离散化后,根据模糊分类的方法对信息表添加决策属性(d)。
利用动态排序的方法对数据表中目标进行排序,将比例尺分别综合到原比例尺1/2,1/4,及1/8,根据开方根公式[11]保留的目标数分别为81、57、41。综合结果如图 1所示。从综合到不同比例尺下排序的结果对比会发现当综合阈值发生变化时,对于同一目标,排序的结果并不一样,这也更进一步说明了排序过程的动态性,即实时考虑空间中目标状态的变化对相邻目标重要性的影响。
在进行动态排序的过程中,将比例尺综合到原比例尺1/2时,每次构建的信息表中的条件属性重要性如表 3所示。由表 3可以得出,基于粗集的动态排序方法不仅可考虑到被综合目标空间信息(c1,c2,c3)并且可以考虑到被综合目标的属性信息(c4,c5)。因为粗集在计算条件属性重要性时不依赖于任何先验性的信息,而只与信息表自身的数据分布特征有关,所以在循环构建信息表的过程中,条件属性的重要性在每次构建的信息表中并不一致,这体现了粗集在处理数据时的自适应性。
c 1 | c 2 | c 3 | c 4 | c 5 | |
1 | 0.280 702 | 0.192 982 | 0.526 316 | 0.508 772 | 0.210 526 |
2 | 0.190 000 | 0.190 000 | 0.310 000 | 0.480 000 | 0.250 000 |
3 | 0.197 802 | 0.197 802 | 0.197 802 | 0.439 560 | 0.296 703 |
4 | 0.258 824 | 0.247 059 | 0.082 353 | 0.552 941 | 0.223 529 |
5 | 0.231 707 | 0.390 244 | 0.085 366 | 0.487 805 | 0.158 537 |
空间数据分析与处理是一个复杂而重要的问题,本文根据地图综合中空间信息的特殊性即所获取的信息表中无决策属性,提出了相应的解决方法:先对信息表中连续型字段离散化并计算其模糊重要性Wf,然后结合属性决策表的应用目的,根据Wf添加决策信息,再利用粗集属性约简的方法计算出条件属性的重要性,最后采取动态排序的方法对需排序的空间目标重要性进行判断。
该方法将信息表中条件属性的离散化看做是对被综合目标各种属性进行分级以区分目标的过程,避开了如何获取最优的信息表离散化结果的问题;并且该方法解决了如何将粗集属性约简的方法应用到无决策属性的空间信息表中的问题;目标动态排序的过程能考虑目标状态变化对相邻目标重要性的影响,使综合结果更加合理。在处理决策属性的过程中,采取的是模糊的手段,而决策粗糙集理论[12]对模糊决策有很强的处理能力,因此,进一步规范决策属性的处理方法是需要研究的问题。
[1] | SONG Ying, HE Zongyi, SU Weimin. Attributes Reduction and Structured Selection in Automatic Cartographical Generalization Based on Rough Set[J]. Geomatics and Information Science of Wuhan University, 2005, 30(4): 329-332.(宋鹰, 何宗宜, 粟卫民. 基于Rough集的居民地属性知识约简与结构化选取[J]. 武汉大学学报:信息科学版, 2005, 30(4): 329-332.) |
[2] | WU Zhaocong, YI Lina, QIN Maoyun. Granular Approach to Object-oriented Remote Sensing Image Classification[C]//Proceedings of the 4th International Conference on Rough Sets and Knowledge Technology, RSKT’09. Gold Coast: Springer, 2009. |
[3] | DENG Min, LI Zhilin, CHENG Tao. Rough-set Representation of GIS Data Uncertainties with Multiple Granularities[J]. Acta Geodaetica et Cartographica Sinica, 2006, 35(1): 68-74.(邓敏, 李志林, 程涛. 多粒度的GIS数据不确定性粗集表达[J]. 测绘学报, 2006, 35(1): 68-74.) |
[4] | LI Dajun, LIU Bo, CHENG Penggen, et al. Description of Topological Relation for Fuzzy Spatial Objects Based on Rough Set[J]. Acta Geodaetica et Cartographica Sinica, 2007, 36(1): 76-81.(李大军, 刘波, 程朋根, 等. 模糊空间对象拓扑关系的Rough描述[J]. 测绘学报, 2007, 36(1): 76-81.) |
[5] | LI Wenjing, LIN Zhiyong, LONG Yi. Application of Rough Set Idea to Points Object GIS Generalization[J]. Geomatics and Information Science of Wuhan University, 2008, 33(9): 896-899.(李雯静, 林志勇, 龙毅. 粗集分类思想在GIS点群综合中的应用[J]. 武汉大学学报:信息科学版, 2008, 33(9): 896-899.) |
[6] | AI Tinghua. A Spatial Field Representation Model Based on Delaunay Triangulation[J]. Acta Geodaetica et Cartographica Sinica, 2006, 35(1): 75-80.(艾廷华. Delaunay三角网支持下的空间场表达[J]. 测绘学报, 2006, 35(1): 75-80.) |
[7] | AI Tinghua, LIU Yaolin. A Method of Point Cluster Simplification with Spatial Distribution Properties Preserved[J]. Acta Geodaetica et Cartographica Sinica, 2002, 31(2): 175-181.(艾廷华, 刘耀林. 保持空间分布特征的群点化简方法[J]. 测绘学报, 2002, 31(2): 175-181.) |
[8] | GAO Wenxiu, WU Hehai, GONG Jianya, et al. Thematic Data Generalization in GIS[J]. Geomatics and Information Science of Wuhan University, 2002, 27(5): 505-510.(高文秀, 毋河海, 龚健雅, 等. GIS中专题属性数据综合的若干问题[J]. 武汉大学学报:信息科学版, 2002, 27(5): 505-510.) |
[9] | LIU H, HUSSAIN F, TAN C L, et al. Discretization: An Enabling Technique[J]. Data Mining and Knowledge Discovery, 2002, 6(4): 393-423. |
[10] | GUO Qingsheng, LI Liusuo, JIA Yuming, et al. Quality Evaluation of Statistical Data Classification Considering Spatial Autocorrelation[J]. Geomatics and Information Science of Wuhan University, 2006, 31(3):240-243, 251.(郭庆胜, 李留所, 贾玉明, 等. 顾及空间自相关的统计数据分组质量评价[J]. 武汉大学学报:信息科学版, 2006, 31(3):240-243, 251.) |
[11] | LI Wenjing, QIU Jia, Lü Lei. An Improvement Selection Method of GIS Information Generalization Based on Rough Set[J]. Geomatics and Information Science of Wuhan University, 2011, 36(5):588-592.(李雯静, 邱佳, 吕垒. GIS信息综合中一种改进的粗集选取方法[J]. 武汉大学学报:信息科学版, 2011, 36(5):588-592.) |
[12] | LIU Dun, YAO Yiyu, LI Tianrui. Three-way Decision-theoretic Rough Sets[J]. Computer Science, 2011, 38(1):246-250.(刘盾, 姚一豫, 李天瑞. 三枝决策粗糙集[J]. 计算机科学, 2011, 38(1):246-250.) |