郑州大学学报(理学版)  2018, Vol. 50 Issue (1): 39-46  DOI: 10.13705/j.issn.1671-6841.2017108

引用本文  

范会涛, 冯涛. 基于聚类思想的加权条件熵及属性约简[J]. 郑州大学学报(理学版), 2018, 50(1): 39-46.
FAN Huitao, FENG Tao. The Weighted Conditional Entropy and Attribute Reduction Based on Clustering[J]. Journal of Zhengzhou University(Natural Science Edition), 2018, 50(1): 39-46.

基金项目

国家自然科学基金项目(61300121, 61573127, 61502144);河北省自然科学基金项目(A2014205157);河北科技大学博士科研启动基金项目(QD201228)

通信作者

冯涛(1980—),女,河北石家庄人,副教授,主要从事粗糙集及近似推理研究,E-mail: fengtao_new@163.com

作者简介

范会涛(1990—),男,河北邢台人,硕士研究生,主要从事粗糙集及近似推理研究,E-mail:fanhuitao5@163.com

文章历史

收稿日期:2017-04-29
基于聚类思想的加权条件熵及属性约简
范会涛 , 冯涛     
河北科技大学 理学院 河北 石家庄 050018
摘要:通过聚类分析的方法得到信息粒与对象权重的确定方法,同时将对象权重与熵理论知识相结合定义了一种加权条件熵.最后基于新定义的加权条件熵得到一种改进的属性重要度确定方法和相应的属性约简算法,并且用UCI中的几组数据集验证了该算法的可行性和合理性.
关键词相容关系    聚类分析    加权条件熵    约简    
The Weighted Conditional Entropy and Attribute Reduction Based on Clustering
FAN Huitao , FENG Tao     
School of Sciences, Hebei University of Science and Technology, Shijiazhuang 050018, China
Abstract: Information granules and a method to determine the weight of the object were obtained by using clustering analysis. At the same time, a weighted conditional entropy was defined by combining the object weights with the entropy theory. Finally, an improved method to determine the attribute significance and the corresponding attribute reduction algorithm were obtained based on the new definition of weighted conditional entropy. Experiments were performed on UCI data sets. And the results showed that the proposed algorithm was feasible and reasonable.
Key words: compatibility relation    cluster analysis    weighted conditional entropy    reduction    
0 引言

粗糙集理论是20世纪80年代提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法[1].由于粗糙集理论无需提供问题所需处理的数据集合以外的任何先验信息,可充分体现数据的客观性.因此,粗糙集理论被广泛应用于数据挖掘、模式识别、人工智能等领域[2-3].随着现实世界中大量应用数据在结构和形式上日益复杂化和多样化,基于划分和等价关系的经典粗糙集模型已经很难满足大量现实问题的实际需要,于是有些学者将论域的划分扩展为覆盖,将等价关系扩展为非等价关系,提出了一些新的粗糙集模型.

粗糙集利用信息粒对数据集合的近似,描述对象之间的不确定关系.而信息粒化过程在很大程度上取决于对象之间的关系,既可以采用基于等价关系、相似关系、邻域关系的方法对信息进行粒化,也可以利用聚类分析的方法对信息进行粒化,由聚类分析得到的相似类可视为信息粒.在聚类分析的粒化方面,文献[4]提出了一种基于数据聚类的信息粒化方法,文献[5]提出了基于聚类的数值数据信息粒化方法.因此,可以利用聚类分析的粒化结果与粗糙集理论相结合进行知识约简.

属性约简是一种删除不相关和冗余属性的降维方法.基于信息熵、正域、可辨识矩阵、决策成本和知识粒度等已提出了许多启发式属性约简算法[6],文献[7-8]分别提出了基于近似决策熵、强化正域的属性约简方法,文献[9]提出了一种最小测试代价约简的改进算法,文献[10]提出了基于贴近度的协调序决策系统属性约简算法,文献[11]提出了基于α信息熵的模糊粗糙属性约简方法.然而这些方法都把对象平等对待,但是现实生活中对象的权重往往都不相同.文献[12]提出了基于代价敏感的对象权重确定方法,并将该权重用于粗糙集的约简之中,但是该权重确定方法过分依赖专家,使得权重的确定受到较大的主观因素的影响.本文结合粗糙集理论与聚类分析的方法,给出了一种新的对象权重确定方法与加权熵的定义方式,并提出一种相容关系下的属性约简算法.

1 预备知识

首先,在给出新的约简算法之前先回顾一下关于粗糙集和熵的相关知识和已有结论.

定义1[2]  设S=(U, A=CD, V, f)是一个信息系统,U为非空有限论域,C为条件属性集,D为决策属性集. $\bigcup\limits_{a \in A} {{V_a}} $为属性值的集合,f:U×AV为信息函数,表示U中每个对象x的属性值.

(1) 对于每个属性子集BA,等价关系RB={(x, y)(x, y)∈U2, ∀bB, f(x, b)=f(y, b)};由RB生成的等价类记为[x]RB={y(x, y)∈RB}. ${R_B} = \bigcap\limits_{b \in B} {{R_b}} $构成论域U的一个划分,记作U/RB,简记为U/B

(2) 设RU上的等价关系,[x]RU上的由R生成的等价类,XUU上的子集,记R(X)={xU|[x]RX},R(X)={xU|[x]RX≠∅},则称R(X)为X的下近似,R(X)为X的上近似.若R(X)≠R(X),则称XR粗糙集,否则称XR精确集.

信息熵是粗糙集的一种不确定性度量,度量了信息系统提供的平均信息量的大小.经典粗糙集中信息熵和条件信息熵的定义如下.

定义2[13]  设S=(UCDVf)是一个信息系统,U为非空有限论域,C为条件属性集,D为决策属性集.PU上的概率分布,BCU,令U/B={X1, X2, …, Xn},P(Xi)=|Xi|/|U|,|·|表示集合中包含元素的个数,则U/B的信息熵$ H\left( B \right) =-\sum\limits_{i = 1}^n {P\left( {{X_i}} \right){{\log }_2}P\left( {{X_i}} \right)} $.设Ψ={Z1, Z2, …, Zn},Φ={Y1, Y2, …, Ym}是U上的两个划分,则ΦΨ下的条件信息熵$H\left( {\mathit{\Phi} /\mathit{\Psi} } \right) =-\sum\limits_{i = 1}^n {P\left( {{Z_i}} \right)} \sum\limits_{j = 1}^m {P\left( {{Y_j}/{Z_i}} \right){{\log }_2}P\left( {{Y_j}|{Z_i}} \right)} $,其中P(Yj|Zi)=|Zi|∩|Yj|/|U|.

条件信息熵度量了两个属性集之间的依赖程度,即表示知识Φ从知识Ψ中所获得的信息量.

定义3[14]  设M=(a1, a2, …, an),N=(b1, b2, …, bn)表示两个n维向量,0表示零向量,$\left\| \mathit{\boldsymbol{M}} \right\| = \sqrt {\sum\limits_{i = 1}^n {{{\left( {{a_i}} \right)}^2}} } $$\left\| \mathit{\boldsymbol{N}} \right\| = \sqrt {\sum\limits_{i = 1}^n {{{\left( {{b_i}} \right)}^2}} } $表示向量MN的模(二范数),则向量MN的余弦相似度定义为

$ \cos \left( {\mathit{\boldsymbol{M}}, \mathit{\boldsymbol{N}}} \right) = \\ \begin{align} \left\{ \begin{array}{l} 0, \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;&\mathit{\boldsymbol{M}} = {\bf{0}}或\mathit{\boldsymbol{N}} = {\bf{0}}, 但\mathit{\boldsymbol{M}} \ne \mathit{\boldsymbol{N}}, \\ \left( {\mathit{\boldsymbol{M}}, \mathit{\boldsymbol{N}}} \right)/\left( {\left\| \mathit{\boldsymbol{M}} \right\| \times \left\| \mathit{\boldsymbol{N}} \right\|} \right) = \sum\limits_{i = 1}^n {\left( {{a_i} \times {b_i}} \right)/\left( {\sqrt {\sum\limits_{i = 1}^n {{{\left( {{a_i}} \right)}^2}} } \times \sqrt {\sum\limits_{i = 1}^n {{{\left( {{b_i}} \right)}^2}} } } \right)}, \;\;\;\;\;\;&\mathit{\boldsymbol{M}} \ne {\bf{0}}且\mathit{\boldsymbol{N}} \ne {\bf{0}}, \\ 1, \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;&\mathit{\boldsymbol{M}} = \mathit{\boldsymbol{N}} = {\bf{0}}. \end{array} \right. \end{align} $

若将余弦相似度应用于信息系统的对象中,由于信息系统中的属性值往往都是正数,若信息系统出现负值时,利用文献[15]中的公式a′=(aamin)/(amaxamin)对数据进行模糊化处理,将属性值归一化为[0, 1]区间上的值后再对对象求余弦相似度.因此,余弦相似度在信息系统中有如下性质.

性质1  设S=(U, CD, V, f)是一个信息系统,MN分别表示对象xixj在属性集CD上的属性值构成的向量,0表示零向量,则对象xixj的余弦相似度cos′()满足以下性质:

(1) 0≤cos′(M, N)≤1; (2) cos′(M, M)=1;

(3) cos′(0, N)=0,其中N0; (4) cos′(M, N)=cos′(N, M).

定义4[16]  设S=(U, CD, V, f)是一个信息系统,U为非空有限论域,m:2U→[0, 1]是一个映射,若满足m(∅)=0且$\sum\limits_{{X_i} \subseteq U} {m\left( {{X_i}} \right) = 1} $,则称m:2U→[0, 1]是一个mass函数.

定义5[2]  设S=(U, CD, V, f)是一个决策信息系统,U为非空有限论域,C为条件属性集,D为决策属性集.记RC={(xi, xj): fl(xi)=fl(xj)(alC)},RD={(xi, xj): fd(xi)=fd(xj)(adD)},若RCRD,则称(U, CD, V, f)为协调决策信息系统,否则称(U, CD, V, f)为不协调决策信息系统.

定义6[2]  设S=(U, CD, V, f)是一个决策信息系统,Bk(kr)为所有决策约简集,记$Core = \bigcap\limits_{k \le r} {{B_k}}, K = \bigcup\limits_{k \le r} {{B_k}-Core}, I = U-\bigcup\limits_{k \le r} {{B_k}} $.aCore时称a为决策核心,称Core为决策核心集;aK时称a为决策相对必要属性,称K为决策相对必要属性集;aI时称a为决策不必要属性,称I为决策不必要属性集.

2 一种基于聚类思想的相容关系

经典粗糙集中的关系都是等价关系,但是现实生活中的关系往往都是非等价关系.因此,结合聚类思想给出一种新的相容关系,并利用这种相容关系构造信息粒.在聚类分析中,余弦相似度常常用于衡量两个个体间差异的大小.余弦相似度利用余弦值表示向量的相似程度,两个向量的余弦值越接近1,则两个向量越相似.余弦值等于1,则两个向量相等,可以用聚类分析中的这种想法去构造信息系统中的相似类.但是在粗糙集中不仅要度量两个对象属性值构成的向量的夹角,还要度量它们的模.显然,余弦相似度无法满足度量向量模的要求.例如设对象x1x2的属性值构成的向量分别为M=(2,4)和N=(3,6),可得MN的余弦相似度为1,即x1x2归为一类,但是在粗糙集中,这样的结果显然不符合实际,因此对此相似性度量进行了改进.给出如下新的相似性度量的定义.

定义7  设S=(U, A=CD, V, f)为一个信息系统,U为非空有限论域,C为条件属性集,D为决策属性集,xi, xjUMN分别表示对象xixj在属性集A下的属性值构成的向量,则对象xixj的sim相似度simA(xi, xj)=cos′(M, N)×(1-‖M‖-‖N‖/max{‖M‖, ‖N‖}),其中|·|表示绝对值,规定当M=N=0时,‖M‖-‖N‖/max{‖M‖, ‖N‖}=0.

由sim相似度定义得$si{m_A}\left( {{x_1}, {x_2}} \right) = 1 \times \left( {1-\left| {\sqrt {20}-\sqrt {45} } \right|/\max \left\{ {\sqrt {20}, \sqrt {45} } \right\}} \right) = 2/3 $,消除了对应成比例的对象相似度为1的弊端.下面讨论改进的相似性度量的一些性质.

性质2  在信息系统S=(U, A=CD, V, f)中,∀xi, xj, xkUMNQ分别表示对象xixjxk在属性集A下的属性值构成的向量,0表示零向量,则sim相似度满足以下性质:

(1) 0≤simA(xi, xj)≤1; (2) simA(xi, xi)=1;

(3) simA(xk, xj)=0,其中Q=0N0;(4) simA(xi, xj)=simA(xj, xi);

(5) 若simA(xi, xj)=1,则必有M=N.

定义8  设S=(U, A=CD, V, f)为一个信息系统,U为非空有限论域,C为条件属性集,D为决策属性集,A=CD的值集是全序集.根据sim相似度定义如下一种新的关系:

$ R_A^\varepsilon = \left\{ {\left( {{x_i}, {x_j}} \right)|si{m_A}\left( {{x_i}, {x_j}} \right) \ge \varepsilon, \forall {x_i}, {x_j} \in U} \right\}, $

其中0≤ε≤1,称RAε为信息系统S=(U, A=CD, V, f)确定的A上的一个sim二元关系.

性质3  设S=(U, A=CD, V, f)为一个信息系统,RAε为由A生成的sim二元关系,0≤ε≤1,则sim二元关系满足以下性质:

(1) 自反性:(xi, xi)∈RAε; (2)对称性:(xi, xj)∈RAε,则(xj, xi)∈RAε.

证明  (1)因为simA(xi, xi)=1≥ε,所以(xi, xi)∈RAε;

(2) 若(xi, xj)∈RAε,则有simA(xi, xj)≥ε,又因为simA(xj, xi)=simA(xi, xj)≥ε,所以(xj, xi)∈RAε.

注:sim二元关系不满足传递性,即若(xi, xj)∈RAε,(xj, xk)∈RAε,则(xi, xk)∈RAε未必成立.设对象x1x2x3的属性值构成的向量分别为M=(2,3,4,5)、N=(3,4,6,7)和Q=(2,6,4,1),令阈值ε=0.68,由于simA(x1, x2)=0.7≥0.68,simA(x1, x3)=0.75≥0.68,即(x1, x2)∈RAε,(x1, x3)∈RAε,但是simA(x2, x3)=0.55≤0.68,即(x2, x3)∉RAε.因此,RAε是一个相容关系.

定义9  设S=(U, A=CD, V, f)为一个信息系统,U为非空有限论域,C为条件属性集,D为决策属性集,RAεU上关于A的相容关系.设(U, RAε)为近似空间,由(U, RAε)产生的相容类为RAε(xi)={xj:(xi, xj)∈RAε},并且U/RAε={RAε(xi):xiU},此时U/RAε为论域U上的一个覆盖;对任意XU,记$\underline {R_A^\varepsilon } $(X)={xi:RAε(xi)RX},$\overline {R_A^\varepsilon } $(X)={xi:RAε(xi)RX≠∅},则称$\underline {R_A^\varepsilon } $(X)为X的sim下近似,$\overline {R_A^\varepsilon } $(X)为X的sim上近似.基于sim下近似与sim上近似得到的粗糙集称为sim粗糙集.

性质4  对于任意的X, YU,sim上、下近似满足以下性质:

(1) $ \underline {R_A^\varepsilon } \left( X \right) \subseteq X \subseteq \overline {R_A^\varepsilon } \left( X \right);$(2) $\underline {R_A^\varepsilon } \left( \emptyset \right) = \emptyset = \overline {R_A^\varepsilon } \left( \emptyset \right), \underline {R_A^\varepsilon } \left( U \right) = U = \overline {R_A^\varepsilon } \left( U \right); $

(3) $\overline {R_A^\varepsilon } \left( {X \cup Y} \right) = \overline {R_A^\varepsilon } \left( X \right) \cup \overline {R_A^\varepsilon } \left( Y \right); $ (4) $\underline {R_A^\varepsilon } \left( {X \cap Y} \right) = \underline {R_A^\varepsilon } \left( X \right) \cap \underline {R_A^\varepsilon } \left( Y \right); $

(5) $ X \subseteq Y \Rightarrow \underline {R_A^\varepsilon } \left( X \right) \subseteq \underline {R_A^\varepsilon } \left( Y \right);$ (6) $X \subseteq Y \Rightarrow \overline {R_A^\varepsilon } \left( X \right) \subseteq \overline {R_A^\varepsilon } \left( Y \right); $

(7) $ \underline {R_A^\varepsilon } \left( {X \cup Y} \right) \supseteq \underline {R_A^\varepsilon } \left( X \right) \cup \underline {R_A^\varepsilon } \left( Y \right);$ (8) $\overline {R_A^\varepsilon } \left( {X \cap Y} \right) \subseteq \overline {R_A^\varepsilon } \left( X \right) \cap \overline {R_A^\varepsilon } \left( Y \right); $

(9) $\underline {R_A^\varepsilon } \left( { \sim X} \right) = \sim \overline {R_A^\varepsilon } \left( X \right); $ (10) $\overline {R_A^\varepsilon } \left( { \sim X} \right) = \sim \underline {R_A^\varepsilon } \left( X \right). $

3 基于聚类思想的对象权重确定方法

现有的权重确定方法主要集中在属性权重上,虽然属性权重会对决策和约简产生较大的影响,但在现实生活中对象权重也会对约简结果产生影响.一些学者利用代价敏感和AHP方法在对象权重的确定方法上做出了一些成果,但是这些方法都受到较大的主观因素的影响.因此,利用聚类分析的思想构造二元关系的方法来给出对象权重,从而降低主观因素的影响.

定义10  设S=(U, A=CD, V, f)是一个信息系统,X={X1, X2, …, Xn}表示由关系RAε生成的覆盖,其中Xi为包含xi的相容类,p表示U上的概率分布,则相容类Xi的mass函数定义为

$ m\left( {{X_i}} \right) = p\left( {{X_i}} \right)/\sum\limits_{{X_i} \in X} {p\left( {{X_i}} \right)} . $

易证m(Xi)满足mass函数的基本性质,因此是一个mass函数.mass函数是2U上的概率分布函数,可以构造出2U上的每个信息粒的一个不确定性度量——粒的权重.

定义11  设S=(U, A=CD, V, f)是一个信息系统,对于x, yURAε(x)和RAε(y)分别表示由属性集A生成对象xy的相容类,|·|表示集合的基数,则x的权重定义为

$ \omega \left( x \right) = m\left( {R_A^\varepsilon \left( x \right)} \right)/\left| {y|R_A^\varepsilon \left( x \right) = R_A^\varepsilon \left( y \right)} \right|. $

定义12  设XYU,若令ω(X)、ω(Y)和ω(XY)分别表示XYXY的权重,ω(xi)是xiU的权重,则XY的权重ω(XY)=ω(X)+ω(Y)-ω(XY).特别地,$ \omega \left( X \right) = \sum\limits_{{x_i} \in X} {\omega \left( {{x_i}} \right)} $.

性质5  设S=(U, A=CD, V, f)是一个信息系统,ω(xi)是对象xiU的权重,则ω(xi)满足以下性质:

(1) 0 < ω(xi)≤1;(2) $\sum\limits_{{x_i} \in U} {\omega \left( {{x_i}} \right) = 1} $.

证明  (1)设RAε(xi)={xj:(xi, xj)⊆RAε}是包含xi的相容类,由自反性知(xi, xi)⊆RAε,即有xiRAε(xi),所以RAε(xi)≠∅,由于xi∈{xj|RAε(xi)=RAε(xj)},所以|{xj:RAε(xi)=RAε(xj)}|>0.由已知可知pU上的概率分布,所以p(RAε(xi))>0,因而0 < m(RAε(xi))=p(RAε(xi))/$\sum\limits_{R_A^\varepsilon \left( {{x_i}} \right) \subseteq U/R_A^\varepsilon } {p\left( {R_A^\varepsilon \left( {{x_i}} \right)} \right)} $ < 1,从而有0 < ω(xi)=m(RAε(xi))/|{xj|RAε(xi)=RAε(xj)}|≤m(RAε(xi))/|{xi}|≤m(RAε(xi))≤1,所以得0 < ω(xi)≤1;

(2) 设RAε(xi)={xj:(xi, xj)⊆RAε}是包含xi的相容类,X={X1, X2, …, Xn}是由关系RAε生成的相容类,则$ \sum\limits_{{x_i} \in U} {\omega \left( {{x_i}} \right)} = \sum\limits_{{X_n} \in X} {\sum\limits_{\left\{ {{x_i}|R_A^\varepsilon \left( {{x_i}} \right) = {x_n}} \right\}} {\omega \left( {{x_i}} \right)} } = \sum\limits_{{X_n} \in X} {m\left( {{X_n}} \right)} = 1.$

4 基于加权条件信息熵的属性重要度确定方法与约简算法

信息熵是信息论的主要内容之一,它可以对信息量进行量化度量.知识从信息中获得,所以知识也是一种特殊的信息[13].因此,熵理论也可用于粗糙集的研究中.下面给出一种基于对象权重的加权条件熵的定义方式,并提出了基于加权条件熵的属性重要度确定方法和属性约简算法.

定义13  设S=(U, A=CD, V, f)是一个信息系统,X={X1, X2, …, Xn}表示由关系RAε生成的相容类,|·|表示集合的基数,则由X得到的加权信息熵${H_\omega }\left( X \right){\rm{ = }}\left( {4/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} \cdot \left( {\left| {{X_i}} \right|/\left| U \right|} \right) \cdot \left( {1-\left| {{X_i}} \right|/\left| U \right|} \right) $.因为|Xi|/|U|=1/2时,(|Xi|/|U|)·(1-|Xi|/|U|)=1/2×(1-1/2)=1/4达到最大值.因此,选择4/n而非1/n会使得加权信息熵具有一些特殊的性质.

性质6  由X得到的加权信息熵满足以下性质:

(1) $0 \le {H_\omega }\left( X \right) \le \left( {1/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{x_i}} \right)} $; (2)对于∀XiX,若Xi=U,则Hω(X)=0;

(3) 若所有的相容类权重都相同,即ω(X1)=ω(X2)=…=ω(Xn)=ω时,则当|Xi|/|U|=1/2时,Hω(X)取得最大值,并且Hω(X)=ω.

证明  (1)因为0≤(|Xi|/|U|)·(1-|Xi|/|U|)≤1/4,所以有$0 \le \left( {4/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} \cdot \left( {\left| {{X_i}} \right|/\left| U \right|} \right) \cdot \left( {1-\left| {{X_i}} \right|/\left| U \right|} \right) \le \left( {4/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} \times 1/4 = \left( {1/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} $,即$ 0 \le {H_\omega }\left( X \right) \le \left( {1/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{x_i}} \right)} $

(2) 对于∀XiX,若Xi=U,则${H_\omega }\left( X \right) = \left( {4/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} \cdot \left( {\left| {{X_i}} \right|/\left| U \right|} \right) \cdot \left( {1-\left| {{X_i}} \right|/\left| U \right|} \right) = $$\left( {4/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} \cdot \left( {\left| U \right|/\left| U \right|} \right) \cdot \left( {1-\left| U \right|/\left| U \right|} \right) = \left( {4/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} \times 1 \times \left( {1-1} \right) = 0 $

(3) 因为ω(X1)=ω(X2)=…=ω(Xn)=ω,所以有${H_\omega }\left( X \right) = \left( {4/n} \right) \cdot \sum\limits_{i = 1}^n {\omega \left( {{X_i}} \right)} \cdot \left( {\left| {{X_i}} \right|/\left| U \right|} \right) \cdot \left( {1-\left| {{X_i}} \right|/\left| U \right|} \right) = $$\left( {4/n} \right) \cdot \sum\limits_{i = 1}^n \omega \cdot \left( {\left| {{X_i}} \right|/\left| U \right|} \right) \cdot \left( {1- \left| {{X_i}} \right|/\left| U \right|} \right) = \left( {4\omega /n} \right) \cdot \sum\limits_{i = 1}^n {\left[{1/4-{{\left( {\left| {{X_i}} \right|/\left| U \right|-1/2} \right)}^2}} \right]} $$\le \left( {4\omega /n} \right) \cdot \sum\limits_{i = 1}^n {\left( {1/4} \right)} = \left( {4\omega /n} \right) \times n/4 = \omega $,当且仅当|Xi|/|U|=1/2时等号成立.

令~Xi表示Xi的补集,由于ω(~Xi)与ω(Xi)不一定相等,因此,Hω(~X)和Hω(X)不一定相等,即加权信息熵不满足对称性.新定义的加权信息熵满足上面几条性质,符合加权信息熵的条件.下面给出相应的加权条件熵的定义.

定义14  设S=(U, CD, V, f)是一个决策信息系统,U为有限非空论域,C为条件属性集,D为决策属性集.X={X1, X2, …, Xn}是由相容关系RCε产生的U上的一个覆盖,D={D1, D2, …, Dm}是由等价关系RD产生的U上的一个划分,ω(XiDj)表示集合XiDj的权重,则X相对于D的条件熵${H_\omega }\left( {D|X} \right) = \left( {4/\left| U \right|} \right) \cdot \sum\limits_{j = 1}^m {\sum\limits_{i = 1}^n {\omega \left( {{X_i} \cap {D_j}} \right)} } \cdot \left( {\left| {{X_i} \cap {D_j}} \right|/\left| U \right|} \right) \cdot \left[{1-\left| {{X_i} \cap {D_j}} \right|/\left| {{X_i}} \right|} \right] $.

性质7  X相对于D的加权条件熵满足以下性质:

(1) Hω(D|X)≥0; (2)若RCεRD,则Hω(D|X)=0; (3)若$ R_C^\varepsilon \not\subseteq {R_D}$,则Hω(D|X)>0.

证明  (1)因为∅≤XiDjU,∅≤XiDjXi,所以0≤|Xi|∩|Dj|/|U|≤|U|/|U|=1,0≤|Xi|∩|Dj|/|U|≤|Xi|/|Xi|=1,又因为ω(XiDj)≥0,4/|U|>0,所以由加权条件熵公式知${H_\omega }\left( {D|X} \right) = \left( {4/\left| U \right|} \right) \cdot \sum\limits_{j = 1}^m {\sum\limits_{i = 1}^n {\omega \left( {{X_i} \cap {D_j}} \right)} } \cdot \left( {\left| {{X_i} \cap {D_j}} \right|/\left| U \right|} \right) \cdot \left[{1-\left| {{X_i} \cap {D_j}} \right|/\left| {{X_i}} \right|} \right] \ge 0 $

(2) 因为RCεRD,所以对于任意的Xi存在一个DjXiDj,即XiDj=Xi,因此有|Xi|∩|Dj|/|Xi|=1,所以${H_\omega }\left( {D|X} \right) = \left( {4/\left| U \right|} \right) \cdot \sum\limits_{j = 1}^m {\sum\limits_{i = 1}^n {\omega \left( {{X_i} \cap {D_j}} \right)} } \cdot \left( {\left| {{X_i} \cap {D_j}} \right|/\left| U \right|} \right) \cdot \left[{1-\left| {{X_i} \cap {D_j}} \right|/\left| {{X_i}} \right|} \right] = 0 $

(3) 因为$R_C^\varepsilon \not\subseteq {R_D} $,则存在一个Xi对于任意的Dj${X_i} \not\subseteq {D_j} $,所以XiDjXi,又因为XU上的一个覆盖,DU上的一个划分,所以一定存在XiDjXiDj≠∅,故存在一个ω(XiDj)>0与0 < |XiDj|/|Xi| < 1,4/|U|>0,所以得${H_\omega }\left( {D|X} \right) = \left( {4/\left| U \right|} \right) \cdot \sum\limits_{j = 1}^m {\sum\limits_{i = 1}^n {\omega \left( {{X_i} \cap {D_j}} \right)} } \cdot \left( {\left| {{X_i} \cap {D_j}} \right|/\left| U \right|} \right) \cdot \left[{1-\left| {{X_i} \cap {D_j}} \right|/\left| {{X_i}} \right|} \right] > 0 $.

现有的属性约简算法主要是在对象重要度相同的基础上给出的,但是在现实生活中,对象的重要性往往都是不相同的.虽然文献[12]考虑了对象权重对约简的影响,但是其考虑的对象权重需要依赖专家的先验知识得到,增加了主观因素对约简算法的影响.为了降低这种影响,根据聚类分析与粗糙集相结合所得的属性重要度与熵理论给出新的基于加权条件熵的属性约简算法,该算法是一种基于熵不变的约简算法.

定义15  设S=(U, CD, V, f)是一个信息系统,U为有限非空论域,C为条件属性集,D为决策属性集.若对于BC,有Hω(D|B)=Hω(D|C),且对于B的任何真子集B′都有Hω(D|B′)≠Hω(D|C),则称BC的一个熵约简.

定理1  设S=(U, CD, V, f)是一个信息系统,U为有限非空论域,C为条件属性集,D为决策属性集,则有

(1) 若S为协调信息系统,则Hω(D|C)=0;

(2) 若S为不协调信息系统,则Hω(D|C)>0;

(3) 若S是一个协调信息系统,a是决策核心,则有H(D|C)=0,Hω(D|C-{a})>0;

(4) 若S是一个不协调信息系统,a是核心属性,则有Hω(D|C-{a})≠Hω(D|C).

定义16  对于加权目标信息系统Sω=〈U, W, C·D, V, f〉,U为有限非空论域,C为条件属性集,D为决策属性集,W为权重集合.设BC,则对于任意属性aCB,属性a对属性集B的内部属性重要度为SGF(a, B, D)in=|Hω(D|B)-Hω(D|Ba)|;属性a对属性集B的外部属性重要度为SGF(a, B, D)out=|Hω(D|B)-Hω(D|Ba)|.

基于给出的内部属性重要度和外部属性重要度,提出了两种启发式约简算法,见表 1.算法首先选取信息系统的核心属性,然后添加外部属性重要度大的属性,最后再删除多余属性即可得到最终约简.算法1和算法2分别介绍了协调信息系统和不协调信息系统的属性约简算法.

表 1 信息系统的属性约简算法 Table 1 Attribute reduction algorithm for information system

例1  为了说明算法的合理性,以表 2的信息表为例进行仿真计算.

表 2 信息表 Table 2 Information table

给定阈值ε=0.6,可得sim相容类RCε(x1)=RCε(x3)={x1, x2, x3, x4, x5, x7}, RCε(x2)=RCε(x4)=RCε(x5)=RCε(x7)={x1, x2, x3, x4, x5, x6, x7, x8}, RCε(x6)=RCε(x8)={x2, x4, x5, x6, x7, x8}, U/{d}={{x1, x2, x3}, {x4, x5, x7, }, {x6, x8}}.因为计算的加权条件熵为Hω(D|C)=0.234 1,即原信息系统是不协调信息系统,所以设定参数θ=0.002,根据mass函数的定义可得m[RCε(x1)]=m[RCε(x3)]=0.3,m[RCε(x2)]=m[RCε(x4)]=m[RCε(x5)]=m[RCε(x7)]=0.4,m[RCε(x6)]=m[RCε(x8)]=0.3,由权重定义可得ω(x1)=ω(x3)=0.15,ω(x2)=ω(x4)=ω(x5)=ω(x7)=0.1,ω(x6)=ω(x8)=0.15.

由重要度定义求得a1的内部重要度SGF(a1, B, D)in=|Hω(D|B)-Hω(D|Ba1)=0,同理可得a2, a3, a4的内部重要度SGF(a2, B, D)in=0.013 3,SGF(a3, B, D)in=0.124,SGF(a4, B, D)in=0,又由于原信息系统是不协调的信息系统,所以根据SGF(ai, B, D)>0.002得RED={a2, a3}.又由于此时满足Hω(D|C)-Hω(D|B∪{amax}) < θ,再逐个删除多余属性即得最后约简RED={a2, a3}.

为了验证所提出的算法在大数据中的有效性,从UCI数据库找出几组数据分别与文献[11, 17]中的α-FRS算法和FNRS算法进行了对比实验,进行约简之前按照文献[11, 17]的方法对有数据缺失的对象进行了删除,并将处理后的数据集描述列于表 3中.对几组数据集选取合适的εθ值,本文算法与α-FRS算法和FNRS算法的约简结果对比分别列于表 4表 5中.数据集Ecoli在不同参数下的约简结果列于表 6中.

表 3 数据集描述 Table 3 Description of data sets

表 4 α-FRS算法与本文算法约简结果的比较 Table 4 The reduction comparison of α-FRS and the proposed algorithm

表 5 FNRS算法与本文算法约简结果的比较 Table 5 The reduction comparison of FNRS and the proposed algorithm

表 6 数据集Ecoli在不同参数下的约简结果 Table 6 The reduction with different thresholds on the data of Ecoli

根据表 6参数的变化可以看出,随着ε的减小,信息系统会变得不协调,而参数θ的变大会使得约简越来越小.根据专家的经验对数据集设置合适的εθ值,就能得到一个合适的约简结果.

5 结束语

将粗糙集理论与聚类分析的方法相结合提出了一种新的对象权重的确定方法,并且将对象权重与熵理论相结合给出了一个新的加权条件熵的定义,同时给出了基于加权条件熵属性重要度的新定义.最后基于此属性重要度给出了属性约简算法,并且用UCI中选取的几组数据集验证了该算法的合理性和有效性.

参考文献
[1]
PAWLAK Z. Rough sets[J]. International journal of computer and information sciences, 1982, 11(5): 341-356. DOI:10.1007/BF01001956 (0)
[2]
张文修, 仇国芳. 基于粗糙集的不确定决策[M]. 北京: 清华大学出版社, 2005. (0)
[3]
汤建国, 佘堃, 祝峰. 覆盖粗糙集的技术与方法[M]. 成都: 电子科技大学出版社, 2013. (0)
[4]
雷聪聪. 一种基于数据聚类的信息粒化方法[D]. 郑州: 郑州大学, 2010. (0)
[5]
钱宇华. 复杂数据的粒化机理与数据建模[D]. 太原: 山西大学, 2011. http://wenku.it168.com/d_001099748.shtml (0)
[6]
JING Y G, LI T R, HUANG J F, et al. An incremental attribute reduction approach based on knowledge granularity under the attribute generalization[J]. International journal of approximate reasoning, 2016, 76: 80-95. DOI:10.1016/j.ijar.2016.05.001 (0)
[7]
江峰, 王莎莎, 杜军威, 等. 基于近似决策熵的属性约简[J]. 控制与决策, 2015, 30(1): 65-70. (0)
[8]
史博文, 李国和, 吴卫江, 等. 基于强化正域的属性约简方法[J]. 计算机应用研究, 2017, 34(1): 107-109. (0)
[9]
何华平, 陈光建. 一种最小测试代价约简的改进算法[J]. 郑州大学学报(理学版), 2015, 47(1): 74-77. (0)
[10]
孟慧丽, 张倩倩, 徐久成. 基于贴近度的协调序决策系统属性约简算法[J]. 郑州大学学报(理学版), 2016, 48(3): 90-93. (0)
[11]
潘瑞林, 李园沁, 张洪亮, 等. 基于α信息熵的模糊粗糙属性约简方法[J]. 控制与决策, 2017, 32(2): 340-348. (0)
[12]
刘金福, 于达仁, 胡清华, 等. 基于加权粗糙集的代价敏感故障诊断方法[J]. 中国电机工程学报, 2007, 27(23): 93-99. DOI:10.3321/j.issn:0258-8013.2007.23.018 (0)
[13]
于迎春. 覆盖粗糙集中基于信息熵的几个定义[J]. 商业文化, 2012(2): 344. (0)
[14]
陈大力, 沈岩涛, 谢槟竹, 等. 基于余弦相似度模型的最佳教练遴选算法[J]. 东北大学学报(自然科学版), 2014, 35(12): 1697-1700. DOI:10.3969/j.issn.1005-3026.2014.12.006 (0)
[15]
QIAN Y H, WANG Q, CHENG H H, et al. Fuzzy-rough feature selection accelerator[J]. Fuzzy sets and systems, 2015, 258: 61-78. DOI:10.1016/j.fss.2014.04.029 (0)
[16]
张文修, 梁怡, 徐萍. 基于包含度的不确定推理[M]. 北京: 清华大学出版社, 2005. (0)
[17]
WANG C Z, SHAO M W, HE Q, et al. Feature subset selection based on fuzzy neighborhood rough sets[J]. Knowledge-based systems, 2016, 111: 173-179. DOI:10.1016/j.knosys.2016.08.009 (0)