2. 北京信息科技大学 计算机学院, 北京 100101
为了更好地处理不完备信息系统,对改进粗糙集模型中的容差关系和量化容差关系进行了分析,提出了一种新的量化容差关系.新量化容差关系从已知属性和未知属性关联的角度,考虑不同属性取值之间的相吸性和相斥性,结合泛逻辑中的广义相关系数,定义属性间的广义相关因子,在新量化容差相似度计算中使用该广义相关因子参与计算,并给出了具体的计算方法,证明了新的量化容差关系的基本性质. 最后通过实例对该量化容差关系进行了验证.
2. School of Computer Science, Beijing Information and Technology University, Beijing 100101, China
To get better effect in the processing of incomplete information system the tolerance relation and the valued tolerance relation in the extension rough set model was studied and a new valued method was proposed. The new valued tolerance relation is affected by correlation between the known attributes and the unknown attributes. The correlation and repellency between the different objects' attributes values were considered and the general correlation factor was defined based on the generalized correlativity in universal logic. The new valued tolerance similarity between the individual objects is related to this factor and a particular computing method is given. The characters of the new valued tolerance relation were proved reasonably and an instance was given to illustrate its usage at last.
粗糙集理论[1]是1982 年由波兰数学家Pawlak 提出的一种处理不精确、不确定和模糊数据的新型数学工具,但传统的粗糙集模型无法处理不完备信息系统,为此在不完备信息系统中需要进行数据补齐或对粗糙集模型进行扩充.数据补齐主要采用某种方法对所有未知属性值进行填补,如现有的c4.5、删除法、最大频率法等[2],将不完备信息系统转化为完备信息系统,然后用经典粗糙集理论来处理.模型扩展主要是将经典粗糙集理论中的不可分辨关系(这一等价关系)扩充为非等价关系,直接处理不完备信息系统.例如,Kryszkiewicz提出的容差关系[3]、Stefanowski等提出的非对称相似关系[4]以及量化容差关系[5]、王国胤提出的限制容差关系[6]、Grzymala-Buss提出的特征关系[7]等,都是对粗糙集运算模型的扩充.
泛逻辑理论[8]是21世纪初由何华灿教授提出的,它是在二值逻辑、多值逻辑和模糊逻辑的基础上,研究人工智能领域中的不确定性、不完全性以及模糊性的一种柔性逻辑,更适合于现实世界的推理规则.泛逻辑和粗糙集都适用于处理不精确、不确定的问题,而这为应用泛逻辑中一些概念来扩充粗糙集运算模型带来了可行性与便利性.
1 容差关系和量化容差关系一个信息系统S=(U,A,V,F) ,其中U为非空论域,记U={x1,x2,…,xn};A为非空有限属性集,A=C∪{d},C为条件属性集,d为决策属性; Va为属性a∈A的值域,V=∪a∈AVa;F为U×A到V的关系集,它指定了U中每个对象x的属性值(对象x在a上的属性值记为a(x)).若$\forall $a∈C使得V中不含空值,即a(x)≠$\emptyset $,则称S是完备信息系统;否则,若存在对象x∈U和条件属性a,使得a(x)未知,则称S是不完备信息系统.当信息系统不完备时,需要对粗糙集中原等价关系扩充为非等价关系来进行处理,这种扩充的非等价关系概述中已做了介绍,这里主要研究其中的量化容差关系.
1.1 容差关系当不完备信息系统S中所有未知属性值是遗漏型时,对非空属性子集B$ \subseteq $A,Kryszkiewicz提出了如下容差关系:
\[{T_B} = \left\{ {\begin{array}{*{20}{c}} {\left( {x,y} \right) \in {U^2}|\forall b \in B,}\\ {\left( {b\left( x \right) = b\left( y \right) \vee b\left( x \right) = * \vee b\left( y \right) = * } \right)} \end{array}} \right\}\] | (1) |
对任意对象x∈U的容差类为
\[{T_B}\left( x \right) = \left\{ {y \in U|\left( {x,y} \right) \in {T_B}} \right\}\] | (2) |
容差关系满足自反性和对称性,但不一定满足传递性.
1.2 量化容差关系对于不完备信息系统中的个体,可以根据已知信息的相同程度来刻画它们之间的相近似程度.据此,Stefanowski 等提出了基于量化容差关系的扩充粗糙集模型[5].
在不完备信息系统S中,$\forall $b∈A,记Vb={b(x)|x∈U∧b(x)≠*},若U中对象对每个属性的取值独立且均匀分布,则任意对象$\forall $x,y∈U关于属性子集的相似度可定义为
\[\begin{array}{*{20}{c}} {R_b^1\left( {x,y} \right) = }\\ {\left\{ {\begin{array}{*{20}{l}} {1,b\left( x \right) = b\left( y \right) \wedge b\left( x \right) \ne * \wedge b\left( y \right) \ne * }\\ {0,b\left( x \right) \ne b\left( y \right) \wedge b\left( x \right) \ne * \wedge b\left( y \right) \ne * }\\ {1/\left| {{V_b}} \right|,b\left( x \right) = * \vee b\left( y \right) = * } \end{array}} \right.} \end{array}\] | (3) |
容差关系所描述的样本对象之间相似度的取值范围是{0,1},该量化容差关系将样本对象相似度的取值范围扩充到了[0, 1],但需要知道属性取值的概率分布等相关知识. 文献[9]中称该量化容差关系为I型量化容差关系.
量化容差关系还有不同的改进模型,在文献[10]中定义了改进的量化容差关系为
\[R_b^{11}\left( {x,y} \right) = \left\{ {\begin{array}{*{20}{l}} {1,b\left( x \right) = b\left( y \right) \wedge b\left( x \right) \ne * \wedge b\left( y \right) \ne * }\\ {0,b\left( x \right) \ne b\left( y \right) \wedge b\left( x \right) \ne * \wedge b\left( y \right) \ne * }\\ {\frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }},\left( {b\left( x \right) = {b_j} \wedge b\left( y \right) = * } \right) \vee \left( {b\left( y \right) = {b_j} \wedge b\left( x \right) = * } \right)}\\ {\sum\limits_{i = 1}^m {{{\left( {\frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }}} \right)}^2},b\left( x \right) = * \wedge b\left( y \right) = * } } \end{array}} \right.\] | (4) |
对于量化容差关系的改进还有许多,如文献[9]中总结的Ⅲ型量化容差关系、王金山等[11]提出的基于决策条件概率的量化容差关系、李龙澍等[12]提出的协调的量化容差关系、Gao等[13]提出的基于θ的限制容差关系等.
2 广义相关性基础上的量化容差关系前面介绍的量化容差关系虽然考虑了已知属性的相似程度,但并未考虑属性间的相互关联.一般情况下,数据的属性间不是完全独立的,一些属性的取值有着相吸或者相斥的关系.如“身高”和“体重”取值是相吸性关联的,又如 “风力”和“空气污染指数”取值是相吸性关联的,“温度”、“风力”和“穿衣指数”取值是相吸性关联的,等等.而一些属性间有着相斥性关联,如“多汗”和“发烧”取值有着相斥的关系,“多汗”则“发烧”的可能性就要小.
2.1 广义相关系数针对各种相关性,在何华灿教授提出的泛逻辑理论中给出了广义相关性的定义,称既考虑相容相关又考虑相克相关的相关性为广义相关性.广义相关性是一种互相关性,它可用表示互相关程度的广义相关系数h∈[0, 1]来刻画:h=1表示最大相吸状态,h=0.75表示独立相关状态,h=0.5表示最大相斥状态,h=0.25表示僵持状态,h=0表示最大相克状态. 其中h∈[0.5,1]是相容相关,h∈[0,0.5)是相克相关[8].
对于属性来说,只考虑相容相关(h∈[0.5,1])的情况,其中h=1表示最大相吸状态,即由一个属性的取值可以完全确定另一个属性的取值;h=0.75表示独立相关状态,即2个属性之间取值互不影响,在一个属性条件下另一个属性取值概率和无条件下取值概率相同;h=0.5表示最大相斥状态,即2个属性的取值空间互不相交,一个属性取某值时另一个属性就不会取某值.
为将属性取值间的广义相关性量化的表示出来,定义广义相关因子hij及广义相关矩阵H[hij]m×m为
\[{h_{ij}} = \left\{ {\begin{array}{*{20}{l}} {0.5,{a_i}和 {a_j}相互排斥 }\\ {x,x \in \left( {0.5,0.75} \right),{a_i}和{a_j}有一定的相斥性 }\\ {0.75,{a_i}和 {a_j}相互独立 }\\ {x,x \in \left( {0.75,1} \right),{a_i}和 {a_j}有一定的相关性 }\\ {1,{a_i}和 {a_j}完全相关 } \end{array}} \right.\] | (5) |
定义 在不完备信息系统S中,$\forall $b∈A,Vb为目前已知U中的对象在属性b上的取值集合,记Vb={b(x)|x∈U∧b(x)≠*},对象属性间的广义相关性由H矩阵确定,则任意对象$\forall $x,y∈U关于属性子集的相似度可定义为
\[\begin{array}{*{20}{c}} {R_b^{\rm{h}}\left( {x,y} \right) = }\\ {\left\{ {\begin{array}{*{20}{l}} {1,b\left( x \right) = b\left( y \right) \wedge b\left( x \right) \ne * \wedge b\left( y \right) \ne * }\\ {0,b\left( x \right) \ne b\left( y \right) \wedge b\left( x \right) \ne * \wedge b\left( y \right) \ne * }\\ \begin{array}{l} {P^{\rm{h}}}\left( {{b_i}|{a_j}} \right),\left( {\left( {b\left( x \right) = {b_i} \in {V_b} \wedge b\left( y \right) = * } \right) \vee \left( {b\left( y \right) = {b_i} \in {V_b} \wedge b\left( x \right) = * } \right)} \right) \wedge \\ \left( {{h_{ba}} = {{\max }_{c,c \ne b}}\left( {{h_{bc}}} \right)} \right) \wedge \left( {a\left( x \right) = a\left( y \right) = {a_j} \ne * } \right) \end{array}\\ {\sum\limits_{{b_i} \in {V_b}} {\left( {{P^{\rm{h}}}{{\left( {{b_i}|{a_j}} \right)}^2}} \right),\left( {b\left( x \right) = * \wedge b\left( y \right) = * } \right) \wedge \left( {{h_{ba}} = {{\max }_{c,c \ne b}}\left( {{h_{bc}}} \right)} \right) \wedge \left( {a\left( x \right) = a\left( y \right) = {a_j} \ne * } \right)} } \end{array}} \right.} \end{array}\] | (6) |
Ph(bi|aj)的具体计算:找到hbm=minc,c≠b(hbc).
1) 如果hbm<0.75且m(x)=m(y)=ml≠*,则$V_b^{{m_l}} = \left\{ {b\left( x \right)|x \in U \wedge b\left( x \right) \ne * \wedge m\left( x \right) = {m_l}} \right\}$,当前缺失属性b(x)=*可能的取值只在$V_b^{{m_l}}$中,则
\[{P^{\rm{h}}}\left( {{b_i}|{a_j}} \right) = \frac{{{k_{{b_i}|{a_j}}}}}{{k_{{a_j}}^{{m_l}}}}\] | (7) |
2) 如果hbm≥0.75,则
\[{P^{\rm{h}}}\left( {{b_i}|{a_j}} \right) = P\left( {{b_i}|{a_j}} \right) = \frac{{{k_{{b_i}|{a_j}}}}}{{{k_{{a_j}}}}}\] | (8) |
补充说明:
1) 当b(y)=*或b(x)=*时,若其他属性数据中不存在a(x)=a(y)=aj≠*,则
\[R_b^{\rm{h}}\left( {x,y} \right) = {P^{\rm{h}}}\left( {{b_i}|{a_j}} \right) = P\left( {{b_i}} \right) = \frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }}\] | (9) |
当b(y)=*且b(x)=*时,若其他属性数据中不存在a(x)=a(y)=aj≠*,则
\[\begin{array}{*{20}{c}} {R_b^{\rm{h}}\left( {x,y} \right) = \sum\limits_{{b_i} \in {V_b}} {{{\left( {{P^h}\left( {{b_i}|{a_j}} \right)} \right)}^2} = } }\\ {\sum\limits_{{b_i} \in {V_b}} {{{\left( {P\left( {{b_i}} \right)} \right)}^2} = \sum\limits_{i = 1}^m {{{\left( {\frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }}} \right)}^2}} } } \end{array}\] | (10) |
2) 当$\left( {{h_{ba}} = \mathop {\max }\limits_{c,c \ne b} \left( {{h_{bc}}} \right)} \right) \wedge \left( {a\left( x \right) = a\left( y \right) = {a_j} \ne * } \right)$,如果该最大值hba=0.75,即2属性取值相互独立时,有
\[{P^{\rm{h}}}\left( {{b_i}|{a_j}} \right) = P\left( {{b_i}} \right) = \frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }}\] | (11) |
3) 当$\left( {{h_{ba}} = \mathop {\max }\limits_{c,c \ne b} \left( {{h_{bc}}} \right)} \right) \wedge \left( {a\left( x \right) = a\left( y \right) = {a_j} \ne * } \right)$时的a有多个时,可以取在每个a条件下计算Rbh(x,y)后求算术平均值.
性质 1) 当属性相互独立时,Rbh退化为RbII;
2) 当各个属性相互独立且取值均匀分布时,Rbh退化为RbI.
证明 1) 属性相互独立时:
① 当b(x)=b(y)∧b(x)≠*∧b(y)≠*时,由Rbh定义知,Rbh(x,y)=1,这和RbII(x,y)的定义是相同的.
② 当b(x)≠b(y)∧b(x)≠*∧b(y)≠*时,由Rbh定义知,Rbh(x,y)=0,这和RbII(x,y)的定义是相同的.
③ 当(b(x)=bj∧b(y)=*)∨(b(y)=bj∧b(x)=*)时,因为属性取值相互独立,也就是相关因子均为0.75,所以广义相关性矩阵H的元素除对角线外都应为0.75.此时${{h_{ba}} = \mathop {\max }\limits_{c,c \ne b} \left( {{h_{bc}}} \right)}$=0.75,即a可以取任意一个不同于b且有值的属性.根据概率中的定理,此时P(x|y)=P(x),因此Ph(bi|aj)=P(bi|aj)=P(bi)=$\frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }}$,与RbII(x,y)中定义相同.
④ 当b(x)=*∧b(y)=*时,因为属性取值相互独立,由上面③知Ph(bi|aj)=P(bi|aj)=P(bi)=$\frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }}$,则${\sum\limits_{{b_i} \in {V_b}} {\left( {{P^{\rm{h}}}{{\left( {{b_i}|{a_j}} \right)}^2}} \right) = \sum\limits_{i = 1}^m {\left( {\frac{{k_b^i}}{{\sum\limits_{i = 1}^m {k_b^i} }}} \right)} } ^2}$,其中Vb={b1,b2,…,bm},与RbII(x,y)中定义相同.
所以,当属性相互独立时,Rbh退化为RbII,证毕.
2) 由1)知,当属性相互独立时,Rbh退化为RbII;而当属性取值均匀分布时,RbII退化为RbI[9]. 所以,当各个属性相互独立且取值均匀分布时,Rbh退化为RbI,证毕.
3 实例分析以某医院有关流感诊断的原始数据信息表S0=(U,A,V,F) (见表 1)为例,进行对比分析.论域U={x1,x2,x3,x4,x5,x6,x7,x8,x9 }. 属性集合a={a1,a2,a3,a4,d},分别代表多汗、咳嗽、头痛、体温和决策属性是否为流感. 其中,a1、a2、a3取值集合为{0,1,2,3},分别代表{无症状,轻微,较严重,严重};a4取值集合为{0,1,2,3},分别代表{偏低,正常,偏高,高};d取值集合为{1,2},分别代表{不是,是}.“*”表示遗漏值.
1) RbI量化容差关系得到的量化容差矩阵TI如表 2所示,设各个属性取值均匀分布.
2) RbII量化容差关系得到的量化容差矩阵TII如表 3所示.
3) 设属性广义相关性矩阵H如表 4所示.
根据基于广义相关性的量化容差关系Rbh的定义,可以得到如表 5所示的量化容差矩阵Th.
由于实际中缺失或遗漏的值是某些对象的部分属性值,对其进行填充也应是在已知属性条件下进行,所以使用相关属性条件下的相似度Rbh更符合实际情况.而且,通过相斥属性排除掉一些取值后再在相关属性条件下计算条件概率,减少了参与计算的对象数量,使计算更加简单.
4 结束语分析了容差关系和量化容差关系的特点,对量化容差关系进行了改进,考虑了已知属性的相似程度及已知属性和未知属性取值间的广义相关性,构造了新的量化容差度的计算方法,并用实例说明了新的容差度的计算更实用、更简捷.
[1] | Pawlak Z. Rough set[J]. International Journal of Computer and Information Science, 1982, 11(5): 341-356.[引用本文:1] |
[2] | Grzylama-Busse J W,Hu Ming. A comparison of several approaches to missing attribute values in data mining[C]//Proceedings of the Second International Conference on Rough Sets and Current Trends in Computing RSCTC 2000. Banff, Canada. Berlin: Springer, 2000:340-347.[引用本文:1] |
[3] | Kryszkiewicz M. Rough set approach to nncomplete information systems[J]. Information Sciences,1998, 112: 39-49.[引用本文:1] |
[4] | Stefanowski J, Tsoukias A. Incomplete information tables and rough classification [J]. Computational Intelligence,2001, 17(3): 545-566.[引用本文:1] |
[5] | Stefanowski J,Tsoukias A. Valued tolerance and decision rules[C]//Volume 2005 of Lecture Notes in Artificial Intelligence. Berlin:Springer, 2001: 212-219.[引用本文:2] |
[6] | 王国胤. Rough集理论在不完备信息系统中的扩充[J]. 计算机研究与发展, 2002, 39(10):1238-1243. Wang Guoyin. Extension of rough set under incomplete information system[J]. Journal of Computer Research and Development, 2002, 39(10): 1238-1243.[引用本文:1] |
[7] | Grzymala-Busse J W. Rough set strategies to data with missing attribute values[C]//Workshop Notes,Foundations and New Directions of Data Mining,the 3rd International Conference on Data Mining. Melbourne,FL,USA:[s.n.], 2003: 56-63.[引用本文:1] |
[8] | 何华灿, 王华, 刘永怀, 等. 泛逻辑学原理[M]. 北京: 科学出版社, 2001.[引用本文:2] |
[9] | 官礼和. 基于粗糙集理论的不完备信息处理方法研究[J]. 重庆邮电大学学报, 2009, 21(4): 461-466. Guan Lihe. Processing incomplete information methods based on rough set[J]. Journal of Chongqing University of Posts and Telecommunications, 2009, 21(4): 461-466.[引用本文:3] |
[10] | 邓耀进, 李仁发. 一种粗糙集理论中量化容差关系的改进[J]. 计算机工程与科学,2009, 3l(10): 105-108. Deng Yaojin, Li Renfa. An improvement on the valued tolerance relation in the rough set theory[J]. Computer Engineering and Science, 2009, 3l(10): 105-108.[引用本文:1] |
[11] | 王金山,王磊. 基于一种新的量化容差关系的变精度粗糙集模型[J]. 东华理工大学学报: 自然科学版, 2013, 36(1):96-100. Wang Jinshan, Wang Lei. Variable precision rough set model based on a new quantitative tolerance relation[J]. Journal of East China Institute of Technology: Natural Science Edition, 2013, 36(1): 96-100.[引用本文:1] |
[12] | 李龙澍, 纪霞, 汤伟. 基于新型协调量化容差关系的不完备数据填补方法[J]. 计算机应用与软件,2009, 36(6): 31-33,166. Li Longshu, Ji Xia, Tang Wei. A completing method for incomplete data based on a new harmonized valued tolerance relation[J]. Computer Applications and Software, 2009, 36(6): 31-33, 166.[引用本文:1] |
[13] | Gao Yuqin, Fang Guohua, Liu Yaqin. θ-improved limited tolerance relation model of incomplete information system for evaluation of water conservancy project management modernization[J]. Water Science and Engineering, 2013, 6(4): 469-477.[引用本文:1] |