2. 上海大学 计算机工程与科学学院,上海 200444
2. School of Computer Engineering and Science, Shanghai University, Shanghai 200444, China
粗糙集理论[1-2](rough set theory)是分析、处理不精确和不确定数据的有效工具。由于粗糙集理论中的等价关系在实际应用中局限性较大,各种基于二元关系的扩展粗糙集模型[3-8]得以发展。目前,粗糙集理论已经广泛应用于数据挖掘、机器学习与模式识别等研究领域。
集值信息系统是重要的单值系统的扩展模型,其中集值是用来描述不精确和缺失的信息,集值信息系统在现实生活中的应用广泛。近年来,许多学者对集值系统做了深入、大量的研究工作。Guan等[9]提出最大相容类的定义解决了同一相容类中对象不一定两两相似的问题,并且提出A-相对约简和E-相对约简。Qian等[10]提出基于优势关系的合取型集值序信息系统和吸取型集值序信息系统并构建了两种粗糙集模型。杨习贝等[11]在集值系统中提出模糊优势关系,考虑到了对象之间的优势程度。Huang等[12]提出概率集值信息系统和基于巴氏距离的
Skowron等[15]认为差别矩阵方法虽然可以求得数据集的所有约简,但是其效率相对于启发式算法较低,故应用性较差。由于现实生活中数据信息量的不断增大,集值系统中属性约简算法的效率需要做进一步研究。罗川等[16]在集值序决策系统中通过计算粗糙近似提出了基于增加和删除策略的增量式算法;Zhang等[17]在集值系统中提出了构造关系矩阵的基本方法并且通过研究属性集变化时关系矩阵变化的性质,得到了关系矩阵更新的增量式方法;刘莹莹等[18]在集值信息系统中通过定义一种新的相似度,提出基于相似度的启发式算法;马建敏等[19]在集值信息系统中引入信息量等概念,提出一种新的启发式约简算法。
1 基础知识 1.1 集值信息系统相关基础知识定义1 集值信息系统是一个四元组SIS =
若属性集合由条件属性集合
为方便起见
例1 表1为集值决策系统
定义2 集值信息系统
${{{T}}_A} = \{ (x, y) \in U \times U|\forall a \in A, a(x) \cap a(y) \ne \varnothing \}\text{。}$ |
等价关系在集值信息系统不再成立,
定义3 集值信息系统
X 的下近似是在相容关系 A 下确定属于 X 的全体对象集合,而 X 的上近似是在相容关系 A 下可能属于 X 的全体对象集合。
根据定义3可得:
定义4 集值决策系统
定义5 集值决策系统
${\gamma _A}(D) = \frac{{|{\rm{POS}}_A(D)|}}{{|U|}}$ |
近似分类质量刻画了在相容关系A下可以正确划分到决策属性集合
定义6 集值决策系统
1)
2)
定义7 集值决策系统
${\rm{Sig}}^{{\rm{inner}}}(a, A, C, D, U) = {\gamma _A}(D) - {\gamma _{A - \{ a\} }}(D)$ |
内部属性重要度刻画了属性集合中的每个属性的初始重要度,用于选择不可缺少的属性子集,在算法中用于计算属性约简的核属性集合。
定义8 集值决策系统
${\rm{Sig}}^{{\rm{outer}}}(a, A, C{\rm{, }}D, U) = {\gamma _{A \cup \{ a\} }}(D) - {\gamma _A}(D)$ |
外部属性重要度刻画了属性在信息系统的重要程度,用于在搜索过程中选择属性,在迭代过程中,每轮选择外部属性重要度最大的属性加入到候选属性集合中,直到候选属性子集满足终止条件,从而获得属性约简。
对于给定集值决策系统
根据文献[20]给出集值信息系统下经典正域属性约简算法(positive region reduction algorithm,PRRA),见算法1。
算法 1 PRRA
输入 集值决策系统
输出 集值决策系统SDS的一个属性约简 R。
1)
2)计算
3)若
计算
4)对 R 中的每个条件属性
①计算
②若
5)返回 R。
由算法1可得,在3)迭代的过程中,每次选取一个属性重要度最大的属性加入到 R 中,在这个过程中需要不断地计算整个论域上的正域,从而使得算法计算量非常大,效率不够理想,很难应用在大规模数据集下。
例2 表1为集值决策系统
采用PRRA算法对表1约简过程如下。
1)表1中经求其核属性集为
2)对
根据定义8计算
由于属性
3)去除集合 R 中的冗余属性,由于
故算法PRRA得到约简,
Qian等[21-22]提出了正向近似的加速原理。本节在文献[21-22]算法的基础上介绍集值信息系统下的正域属性约简算法的加速原理以及相关性质,给出了算法的伪代码描述和两个算法的时间复杂度对比与分析。
定理 1 集值决策系统
该定理表明,如果两个属性集合存在包含关系,则这两个属性集合相对于决策属性D的正域也存在包含关系。证略。
定理 2 集值决策系统
${\rm{POS}}_{{P_{i + 1}}}(U, D) = {\rm{PO}}{{\rm{S}}_{{P_i}}}(U, D) \cup {\rm{PO}}{{\rm{S}}_{{P_{i + 1}}}}({U_{i + 1}}, D)\text{。}$ |
式中:
定理3 集值决策系统
证明 设
定理4 集值决策系统
证明 设
定理5 集值决策系统
证明 根据定义
$\begin{array}{c}\displaystyle\frac{{{\rm{Si}}{{\rm{g}}^{{\rm{outer}}}}(a, A, C, D, U)}}{{{\rm{Si}}{{\rm{g}}^{{\rm{outer}}}}(a, A, C', D, {U^ * })}}= \displaystyle\frac{{\gamma _{A \cup \{ a\} }^{(C, U)}(D) - \gamma _A^{(C, U)}(D)}}{{\gamma _{A \cup \{ a\} }^{(C', {U^ * })}(D) - \gamma _A^{(C', {U^ * })}(D)}} = \\ \displaystyle\frac{{{\rm{|}}{U^ * }{\rm{|}}}}{{{\rm{|}}U{\rm{|}}}}\frac{{{\rm{|POS}}_{A \cup \{ a\} }^C(U, D){\rm{|}} - {\rm{|POS}}_A^C(U, D){\rm{|}}}}{{{\rm{|POS}}_{A \cup \{ a\} }^{C'}({U^ * }, D){\rm{|}} - {\rm{|POS}}_A^{C'}({U^ * }, D){\rm{|}}}} = \\ \displaystyle\frac{{{\rm{|}}{U^ * }{\rm{|}}}}{{{\rm{|}}U{\rm{|}}}}\frac{{{\rm{|POS}}_{A \cup \{ a\} }^C(U, D){\rm{|}} - {\rm{|POS}}_A^C(U, D){\rm{|}}}}{{{\rm{|POS}}_{A \cup \{ a\} }^C({U^ * }, D){\rm{|}} - {\rm{|POS}}_A^C({U^ * }, D){\rm{|}}}} = \\ \displaystyle\frac{{{\rm{|}}{U^ * }{\rm{|}}}}{{{\rm{|}}U{\rm{|}}}}\frac{{{\rm{|POS}}_{A \cup \{ a\} }^C(U, D){\rm{|}} - {\rm{|POS}}_A^C(U, D){\rm{|}}}}{{{\rm{|POS}}_{A \cup \{ a\} }^C(U, D){\rm{|}} - {\rm{|POS}}_A^C(U, D){\rm{|}}}} = \displaystyle\frac{{{\rm{|}}{U^ * }{\rm{|}}}}{{{\rm{|}}U{\rm{|}}}}\end{array}$ |
因为
定理2表明,计算属性重要度时由于删除正域和冗余属性集合后属性重要度保持不变,这样在计算属性约简时,每次迭代过程中可以删除候选集合产生的正域和冗余属性集合,使得算法效率提升。
算法 2 QPRRA
输入 集值决策系统
输出 集值决策系统 SDS 的一个属性约简 R。
1)令
2)对条件属性
3)计算
4)计算
5)若
6)对
①计算
②若
7)返回R。
在算法2中,候选属性集合的正域随着每轮迭代过程选择属性重要度最大的属性加入而增大,因此在计算正域时,可以通过叠加的方式计算,无需重新直接计算新的D关于约简属性集合的正域,证略。
算法2原理流程如图1所示。集值信息系统的快速正域约简算法(quick positive region reduction algorithm,QPRRA)。
Download:
|
|
算法2无需首先求出核属性,直接迭代选择属性重要度最大的属性加入候选属性集合,因此对于无核的数据集算法效率提升。在约简过程中,根据属性重要度的保序性,即定理5,算法在每轮迭代过程中删除正域和冗余属性,使得数据集规模缩小,算法效率提升。在图1中,A对应算法步骤2),计算当前轮次需评估的属性重要度,B对应算法步骤3),删除当前轮次的正域,C对应算法步骤4),删除当前轮次的冗余属性集合。
Download:
|
|
下面比较分析PRRA算法和QPRRA算法的时间复杂度。令
例3 表1为集值决策系统
采用QPRRA算法对表1进行3轮约简。
第1轮迭代过程:计算
第2轮迭代过程:计算
第3轮迭代过程:计算
去除 R 中的冗余属性,由于
为了证明提出算法的有效性,实验选取了6组UCI标准数据库(http://archive.ics.uci.edu/m-l/)中的数据集,为了得到集值数据集对这6组数据集进行预处理,在条件属性集上随机对10%的数据进行对应属性上的并集操作,如表2所示。
所有实验在PC机上进行,操作系统为Microsoft Windows 7(64 b),处理器及其型号为Inter Core i5-2450M,内存为4 GB,所有算法均使用MATLAB7.11.0(R2010b)编写实现。在实验中,分别用上述2种约简算法对6组UCI数据集进行处理,比较它们约简所耗费的时间。实验中,将上述6组数据集分别分为10等份,用来记录两个算法的时间差异。例如,假设数据集有1 000个对象,第1号数据集用来表示1~100个对象,第2号数据集用来表示1~200个对象,以此类推,第10号数据集用来表示1~1 000个对象。实验一共分为3个部分。第1部分为算法PRRA、算法QPRRA、基于相似度的集值信息系统属性约简算法[18](SRA)和基于信息量的集值信息系统属性约简算法[19](IRA)的约简结果长度和计算时间的比较。第2部分为算法PRRA、QPRRA、SRA和IRA随着论域的增大算法计算时间变化的实验。第3部分为数据集Lung Cancer迭代过程中对象和属性的变化。
表2给出了6组数据集的对象数、特征数和类别数的对比,从表中可以看出,本文选取了不同规模的数据集,最大规模数据集为QSAR Bio-degradation,对象数有1 044个,最小规模数据集为Lung Cancer,对象数有32个,最大特征数数据集SCADI,特征数有206个,而Flag的特征数为29个,在数据集中为特征数最少的。6组数据集有不同的类别数,最大类别数数据集QSAR Biodegrada-tion,类别数为9,数据集Lung Cancer和Molecular Biology类别数最小为2。表3给出了算法PRRA、QPRRA、IRA和SRA的计算时间和选择特征数的对比,可以看出,算法QPRRA和PRRA约简结果长度优于算法SRA和IRA,算法QPRRA效率明显优于算法PRRA和IRA。图2为4种算法的实验对比。
从图2和表3可以看出,算法QPRRA效率优于其他3个算法效率,在数据集QSAR Biodegra dation上,算法SRA略优于算法QPRRA。例如,对于数据集Lung Cancer,算法PRRA时间耗费为37.9 s,算法QPRRA时间耗费为5.2 s,加速比达到了7.2,实验效果明显。因为对于核为空的数据集而言,QPRRA算法无需计算核属性集合,节省了算法求核的时间,并且在每轮迭代过程中,不仅删除了当前轮次候选属性集合产生的正域,也删除了当前轮次产生的冗余属性集合,使得数据集规模不断变小,算法运行时间缩短。从表4可得,Lung Cancer数据集核为空,在每轮迭代过程中删除了正域和冗余属性,使得数据集规模缩小,算法效率提升。
本文提出了一种在集值信息系统下的正域属性保持约简快速算法,算法无需计算核属性集合,直接开始迭代选择属性重要度最大的属性加入候选属性集合,每轮迭代过程中删除一部分正域,使得数据集对象数不断减少,算法效率提升,在删除一部分正域的同时,删除冗余的属性集合,使得算法的效率进一步提升。实验选取6组UCI数据集对提出算法的有效性进行验证,实验表明:提出算法的效率优于经典算法效率,实现了对经典算法的优化,尤其是在无核数据集上加速效果明显,因为省去了计算核属性集的时间,这使得该算法能更好地应用于较大规模数据的处理。本文是基于删除正域和冗余属性机制基础上进行的研究,对每次迭代过程中产生正域和冗余属性较少的数据集加速效果不够明显,故提出算法的普遍适用性是未来研究方向之一。
[1] | PAWLAK Z. Rough sets[J]. International journal of computer and information sciences, 1982, 11(5): 341-356. DOI:10.1007/BF01001956 (0) |
[2] |
王国胤, 姚一豫, 于洪. 粗糙集理论与应用研究综述[J]. 计算机学报, 2009, 32(7): 1229-1246. WANG Guoyin, YAO Yiyu, YU Hong. A survey on rough set theory and applications[J]. Chinese journal of computers, 2009, 32(7): 1229-1246. (0) |
[3] | MIAO Duoqian, ZHAO Yan, YAO Yiyu, et al. Relative reducts in consistent and inconsistent decision tables of the Pawlak rough set model[J]. Information sciences, 2009, 179(24): 4140-4150. DOI:10.1016/j.ins.2009.08.020 (0) |
[4] | LI Hua, LI Deyu, ZHAI Yanhui, et al. A novel attribute reduction approach for multi-label data based on rough set theory[J]. Information sciences, 2016, 367/368: 827-847. DOI:10.1016/j.ins.2016.07.008 (0) |
[5] | YAO Yiyu, ZHAO Yan. Attribute reduction in decision-theoretic rough set models[J]. Information sciences, 2008, 178(17): 3356-3373. DOI:10.1016/j.ins.2008.05.010 (0) |
[6] | JIA Xiuyi, SHANG Lin, ZHOU Bin, et al. Generalized attribute reduct in rough set theory[J]. Knowledge-based systems, 2016, 91: 204-218. DOI:10.1016/j.knosys.2015.05.017 (0) |
[7] |
张楠, 苗夺谦, 岳晓冬. 区间值信息系统的知识约简[J]. 计算机研究与发展, 2010, 47(8): 1362-1371. ZHANG Nan, MIAO Duoqian, YUE Xiaodong. Approaches to knowledge reduction in interval-valued information systems[J]. Journal of computer research and development, 2010, 47(8): 1362-1371. (0) |
[8] | HU Qinghua, ZHAO Hui, XIE Zongxia, et al. Consistency based attribute reduction[C]//Advances in Knowledge Discovery and Data Mining. Berlin, Heidelberg, Germany, 2007: 96–107. (0) |
[9] | GUAN Yanyong, WANG Hongkai. Set-valued information systems[J]. Information sciences, 2006, 176(17): 2507-2525. DOI:10.1016/j.ins.2005.12.007 (0) |
[10] | QIAN Yuhua, DANG Chuanyin, LIANG Jiye, et al. Set-valued ordered information systems[J]. Information sciences, 2009, 179(16): 2809-2832. DOI:10.1016/j.ins.2009.04.007 (0) |
[11] |
杨习贝, 张再跃, 张明. 集值信息系统中的模糊优势关系粗糙集[J]. 计算机科学, 2011, 38(2): 234-237. YANG Xibei, ZHANG Zaiyue, ZHANG Ming. Fuzzy dominance-based rough set in set-valued information system[J]. Computer science, 2011, 38(2): 234-237. DOI:10.3969/j.issn.1002-137X.2011.02.055 (0) |
[12] | HUANG Yanyong, LI Tianrui, LUO Chuan, et al. Dynamic variable precision rough set approach for probabilistic set-valued information systems[J]. Knowledge-based systems, 2017, 122: 131-147. DOI:10.1016/j.knosys.2017.02.002 (0) |
[13] | WEI Wei, CUI Junbiao, LIANG Jiye, et al. Fuzzy rough approximations for set-valued data[J]. Information sciences, 2016, 360: 181-201. DOI:10.1016/j.ins.2016.04.005 (0) |
[14] | ZHANG Hongying, YANG Shuyun. Feature selection and approximate reasoning of large-scale set-valued decision tables based on α-dominance-based quantitative rough sets [J]. Information sciences, 2017, 378: 328-347. DOI:10.1016/j.ins.2016.06.028 (0) |
[15] | SKOWRON A, RAUSZER C. The discernibility matrices and functions in information systems[C]//Intelligent Decision Support Theory and Decision Library. Dordrecht, Netherlands, 1992: 331–362. (0) |
[16] | LUO Chuan, LI Tianrui, CHEN Hongmei, et al. Fast algorithms for computing rough approximations in set-valued decision systems while updating criteria values[J]. Information sciences, 2015, 299: 221-242. DOI:10.1016/j.ins.2014.12.029 (0) |
[17] | ZHANG Junbo, LI Tianrui, RUAN Da, et al. Rough sets based matrix approaches with dynamic attribute variation in set-valued information systems[J]. International journal of approximate reasoning, 2012, 53(4): 620-635. DOI:10.1016/j.ijar.2012.01.001 (0) |
[18] |
刘莹莹, 吕跃进. 基于相似度的集值信息系统属性约简算法[J]. 南京大学学报 (自然科学版), 2015, 51(2): 384-389. LIU Yingying, LYU Yuejin. Attribute reduction in set-valued information system based on similarity[J]. Journal of Nanjing university (natural sciences), 2015, 51(2): 384-389. (0) |
[19] |
马建敏, 张文修. 基于信息量的集值信息系统的属性约简[J]. 模糊系统与数学, 2013, 27(2): 177-182. MA Jianmin, ZHANG Wenxiu. Information quantity-based attribute reduction in set-valued information systems[J]. Fuzzy systems and mathematics, 2013, 27(2): 177-182. DOI:10.3969/j.issn.1001-7402.2013.02.028 (0) |
[20] | 苗夺谦, 李道国. 粗糙集理论、算法与应用[M]. 北京: 清华大学出版社, 2008. (0) |
[21] | QIAN Yuhua, LIANG Jiye, PEDRYCZ W, et al. Positive approximation: an accelerator for attribute reduction in rough set theory[J]. Artificial intelligence, 2010, 174(9/10): 597-618. (0) |
[22] |
钱宇华, 梁吉业, 王锋. 面向非完备决策表的正向近似特征选择加速算法[J]. 计算机学报, 2011, 34(3): 435-442. QIAN Yuhua, LIANG Jiye, WANG Feng. A positive-approximation based accelerated algorithm to feature selection from incomplete decision tables[J]. Chinese journal of computers, 2011, 34(3): 435-442. (0) |