文章快速检索  
  高级检索
不完备信息系统中测试代价敏感的可变精度分类粗糙集
鞠恒荣1, 马兴斌1, 杨习贝1,2, 祁云嵩1, 杨静宇2
1. 江苏科技大学 计算机科学与工程学院,江苏 镇江 212003;
2. 南京理工大学 计算机科学与技术学院,江苏 南京 210094
基金项目: 国家自然科学基金资助项目(61100116,61203024);江苏省自然科学基金资助项目(BK2011492,BK2012700);江苏省高校自然科学基金资助项目(11KJB520004,13KJB520003);高维信息智能感知与系统教育部重点实验室(南京理工大学)基金资助项目(30920130122005);江苏省普通高校研究生科研创新计划项目资助项目(CXLX13_707)    
摘要: 在不完备信息系统中,可变精度分类关系是限制容差关系的改进形式,但其并未考虑数据集中属性的测试代价。为解决这一问题,提出了基于测试代价敏感的可变精度分类粗糙集模型。进一步地,通过分析传统启发式算法没有考虑测试代价以及回溯算法的时间消耗等因素,提出一种新的属性重要度测量,并在此基础上设计了一种新的启发式算法。通过实验对比分析,说明了新提出算法的有效性。
关键词: 属性约简     不完备信息系统     测试代价敏感     变精度分类粗糙集    
Test-cost-sensitive based variable precision classification rough set in incomplete information system
JU Hengrong1, MA Xingbin1, YANG Xibei1,2, QI Yunsong1, YANG Jingyu2
1. School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang 212003,China ;
2. School of Computer Science and Technology,Nanjing University of Science and Technology,Nanjing 210094,China
Abstract: In an incomplete information system,the precision-variable classification relation is an improvement of the limited tolerance relation. However,the test costs of the data concentration attributes are not taken into account. To solve this problem,a test-cost-sensitive-based precision-variable precision classification rough set is proposed. Furthermore,the traditional heuristic algorithm does not take the importance of the test costs of the attributes into account,and backtracking algorithm is very time-consuming. Therefore,not only was a new importance of the attribute proposed,but a new heuristic algorithm was also presented for obtaining reduction with minor test costs. The experimental results show the effectiveness of the new algorithm by comparing it with the other algorithms.
Key words: attribute reduction     incomplete information system     test cost sensitive     variable precision classification rough set    

作为一种处理不精确、不确定性问题的数学工具,粗糙集理论[1] (rough set)由波兰学者Pawlak提出后便受到了广泛关注[2-4]。然而由于数据测量的误差、数据获取的限制等原因,导致了所面临的信息系统往往是不完备的。为处理这类问题,王国胤[5]提出了限制容差关系。进一步,杨习贝[6]提出了一种新的基于可变精度分类的拓展粗糙集模型,对限制容差关系进行了改进。然而,在实际工程应用中,数据的获取是需要付出一些成本或代价的,称其为测试代价。针对该问题,Min等[7-11]率先将测试代价引入到粗糙集的约简问题中,终究未能将测试代价引入到不完备信息系统环境下粗糙集本身的近似模型上。

1 基本概念

形式化地,信息系统可表示为四元组,其中U={x1,x2,…,xm}为研究对象的有限集合,称为论域;AT={a1,a2,…,an}为描述对象的全部属性所组成的集合;为属性集合AT的值域,其中Va为属性a的值域; 为信息函数,表示对每一个xU,aAT,f(x,a)∈Va。特别地,当信息系统中属性集A=ATD(其中AT为条件属性集合,D为决策属性集合)时,信息系统也被称为决策系统。

定义1[6] 设S为不完备信息系统,,由A决定的可变精度分类关系记为VAα,且

(1)

式中:PA(x)={aA: f(x,a)已知},α∈[0,1],| X | 表示集合X的基数,IU为恒等关系且

定义2[6] 设S为不完备信息系统,,对于任意的XU,X基于可变精度分类关系VAα的下、上近似集合分别记为:

式中:表示对象x的可变精度容差类。

2 测试代价与可变精度分类粗糙集

不完备信息系统环境下的粗糙集模型未考虑数据的代价问题,Min等[8]将测试代价引入到信息系统中,具体的描述见定义3。

定义3[8] 一个测试代价敏感的不完备决策系统TCSIIDS为一个五元组,U,ATD,Vf的含义与第1节所示相同,为测试代价函数(R+表示正整数集),即,其中表示单个属性ai的测试代价。本文假设所有属性的测试代价均为正整数,即,

定义4 令TCSIIDS为测试代价敏感不完备决策系统,其中AAT,∀x,yU,∀aA,定义特征函数如下所示:

式中:Pa(x)={aA: f (x,a)已知}。

定义5 设TCSIIDS为测试代价敏感不完备决策系统,其中AAT,由A决定的可变精度分类关系记为

其中:α∈[0,1]。

定义6 设TCSIIDS为测试代价敏感不完备决策系统,AAT,对于∀XU,X基于可变精度分类关系的下、上近似集分别记为

式中:表示在测试代价敏感不完备决策系统中对象x的可变精度容差类。

3 属性约简

属性约简是粗糙理论的主要研究内容之一。然而,寻找决策表的最小约简已被证明是一个NP-hard问题,在处理大规模数据时计算时间代价很大,针对这一问题,许多学者提出了许多高效的约简算法,启发式搜索方法就是其中的一个典型代表。

定义7 设TCSIIDS为测试代价敏感不完备决策系统,α∈[0,1],U/IND(D)={X1,…Xn}表示根据决策属性得到的所有决策类的合集,那么U/IND(D)的近似质量可定义为

定理1 令TCSIIDS为测试代价敏感不完备决策系统,,若,则有

证明 根据定义6,定理1易证。

定义8 令TCSIIDS为测试代价敏感不完备决策系统,α∈[0, 1],AAT为一个约简当且仅当

令TCSIIDS为测试代价敏感决策系统,α∈[0, 1],,的重要度为

可以看出,LSigin(ai,B,D)反映了ai从当前条件属性集A中删除后近似质量的变化,相应地也可定义

式中:aiAT-A,LSigout(ai,A,D)用以度量向属性集A增加属性ai后近似质量的变化。根据上述属性的重要度可以设计启发式属性约简算法。Min等在文献[11]中设计了传统的启发式算法(记为算法1)。其算法复杂度为

Min等从获取约简的测试代价最小出发设计出新的约简算法,即回溯算法(记为算法2)。其算法复杂度为。详细算法见文献[11]。

3.1 考虑属性测试代价的启发式算法

由上文可知回溯算法的时间复杂度为。考虑到现实生活中存在着大量高维属性的数据,这样一种机制将会大大制约属性约简的时间。为解决这一问题,本文依然从启发式算法的角度出发,将属性的测试代价考虑到属性重要度定义中。为此,给出如下的属性融合重要度定义。

式中:θ≤0。可以看出,TCSLSigin(ai,AT,D)是LSigin(ai,AT,D)与之和。当θ=0时,无论属性的测试代价取何值,都有,这说明TCSLSigin(ai,AT,D)的大小与属性测试代价的大小无关,仅与LSigin(ai,AT,D)的值有关。随着θ值的不断减小,的值也不断减小(本文随机产生测试代价在[10,100]),此时在TCSLSigin(ai,AT,D)中所占的比重也越来越小,表明属性测试代价在属性的重要度中的影响作用越来越小。根据新的属性融合重要度,不难设计出综合考虑了测试代价的启发式算法,具体算法流程见算法1。

算法1 基于测试代价敏感不完备决策系统TCSIIDS综合考虑测试代价的启发式算法

输入:测试代价敏感不完备决策系统TCSIIDS,α;

输出:约简red及约简的测试代价c*(red)。

1)计算;令θ=0,;

2) ;

3) ,计算属性ai的重要度TCSLSigin(ai,AT,D);

4)若,则,计算;

5)若,则重复以下循环,否则转6);

,计算TCSLSigout(ai,red,D);

②若,则;

6),若,则red=red-ai,tmp=c*(red);

7);

8)若θ大于给定阈值,则(此处δ为步长,δ>0)且重复2)~7),否则转9);

9)输出red及c*(red)。

3.2 实验分析

本节将通过实验,对比算法1、算法2和算法3。表 1列出了实验中使用的4组测试数据的基本信息,所有数据集均下载于UCI数据集。由于UCI数据集中的大部分数据不含有测试代价,所以在本组实验中为每个数据集的属性随机增加了取值在[10,100]之间的测试代价。

表 1 实验数据基本信息 Table 1 Data sets descriptions
Data ID Data sets Samples Attributes Decision
Classes
1 Bridges 108 12 7
2 Credit Approval 263 15 3
3 Heart-Disease 303 14 5
4 Hepatitis 155 19 2

由于基于测试代价敏感的可变精度分类粗糙集模型的下、上近似集由阈值α控制,因此,在实验中选取了10组不同的α值分别对比3个算法的测试代价,在算法3的第8步中,给定阈值设为-5,步长δ为0.5,即重复求得10次约简,取其中的最小测试代价作为输出。具体的实验结果见图 1

图 1 3种约简算法所求得的测试代价对比 Fig. 1 Comparisons among test costs obtained by three algorithms

图 1的实验结果,可以得到: 1)传统的启发式算法所获取的约简的测试代价最大,回溯算法所约简的测试代价最小,而综合考虑测试代价的改进的启发式算法得到约简的测试代价则是基于两者之间。2)从图 1的4个子图可以发现,3种算法的测试代价随α值的不断增加呈现先增加达到一定峰值后再下降的大致趋势,从实验的角度可看出α值在这3个算法中发挥着调节正域的作用。

4 结束语

本文将测试代价引入不完备信息系统中,提出了基于测试代价敏感的可变精度分类粗糙集模型。进一步地,通过分析传统启发式约简算法未考虑测试代价以及回溯约简算法为获取最优测试需要消耗大量时间的不足,本文对传统属性重要度测量进行了改进,并根据新的属性重要度测量设计了一种新的启发式算法用以获取测试代价次优的约简。实验表明,总体而言,改进的启发式算法是寻找约简测试代价次优的合适方法。

参考文献
[1] PAWLAK Z. Rough sets-theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic, 1991 .
[2] HU Q H, CHE X J, ZHANG L, et al. Rank entropy based decision trees for monotonic classification[J]. IEEE Transactions on Knowledge and Data Engineering , 2012, 24 (11) : 2052-2064 DOI:10.1109/TKDE.2011.149
[3] HU Q H, PAN W W, ZHANG L, et al. Feature selection for monotonic classification[J]. IEEE Transactions on Fuzzy Systems , 2012, 20 (1) : 69-81 DOI:10.1109/TFUZZ.2011.2167235
[4] LUO G Z, YANG X B. Limited dominance-based rough set model and knowledge reductions in incomplete decision system[J]. Journal of Information Science and Engineering , 2010, 26 (6) : 2199-2211
[5] 王国胤. Rough集理论在不完备信息系统中的扩充[J]. 计算机研究与发展 , 2002, 39 (10) : 1238-1243 WANG Guoyin. Extension of rough set under incomplete information systems[J]. Journal of Computer Research and Development , 2002, 39 (10) : 1238-1243
[6] 杨习贝, 杨静宇, 於东军, 等. 不完备信息系统中的可变精度分类粗糙集模型[J]. 系统工程理论与实践 , 2008, 28 (5) : 116-121 YANG Xibei, YANG Jingyu, YU Dongjun, et al. Rough set model based on variable parameter classification in incomplete information systems[J]. System Engineering-Theory and Practice , 2008, 28 (5) : 116-121
[7] MIN F, HE H P, QIAN Y H, et al. Test-cost-sensitive attribute reduction[J]. Information Sciences , 2011, 181 (22) : 4928-4942 DOI:10.1016/j.ins.2011.07.010
[8] MIN F, LIU Q H. A hierarchical model for test-cost-sensitive decision systems[J]. Information Sciences , 2009, 179 (14) : 2442-2452 DOI:10.1016/j.ins.2009.03.007
[9] MIN F,ZHU W. Test-cost-sensitive attribute reduction based on neighborhood rough set[C]//2011 IEEE International Conference on Granular Computing. Kaohsiung,China,2011: 802-806.
[10] MIN F, ZHU W. Attribute reduction of data with error ranges and test costs[J]. Information Sciences , 2012, 211 : 48-67 DOI:10.1016/j.ins.2012.04.031
[11] MIN F, HE H P, QIAN Y H, et al. Test-cost-sensitive attribute reduction[J]. Information Sciences , 2011, 181 : 4928-4942 DOI:10.1016/j.ins.2011.07.010
DOI: 10.3969/j.issn.1673-4785.201307010
中国人工智能学会和哈尔滨工程大学联合主办。
0

文章信息

鞠恒荣, 马兴斌, 杨习贝, 祁云嵩, 杨静宇
JU Hengrong, MA Xingbin, YANG Xibei, QI Yunsong, YANG Jingyu
不完备信息系统中测试代价敏感的可变精度分类粗糙集
Test-cost-sensitive based variable precision classification rough set in incomplete information system
智能系统学报, 2014, 9(2): 219-223
CAAI Transactions on Intelligent Systems, 2014, 9(2): 219-223
http://dx.doi.org/10.3969/j.issn.1673-4785.201307010

文章历史

收稿日期: 2013-07-05
网络出版日期: 2013-11-05

相关文章

工作空间