2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006;
3. 运城学院 数学与信息技术学院,山西 运城 044000
2. Key Laboratory of Ministry of Education for Computational Intelligence and Chinese Information Processing, Taiyuan 030006, China;
3. School of Mathematics and Information Technology, Yuncheng University, Yuncheng 044000, China
粗糙集理论是由Pawlak[1]提出的一种处理不精确、不确定和模糊信息的数学工具,目前已被广泛应用于病症诊断、金融风险和机器故障分析等问题中[2-4]。不确定性度量是粗糙集理论中的一个重要研究问题,它在属性约简、规则获取中发挥着重要的作用。
目前,国内外学者已经对经典粗糙集理论的不确定性度量问题做了系统的研究[5-13]。这些研究大多基于完备描述的信息系统。现实问题中,由于属性度量的高代价性、评价者对问题的判断水平不足或数据输入人员的疏忽问题,常存在属性值缺失的非完备信息系统。这种非完备信息系统中的不确定性度量对于非完备知识获取等相关问题的求解也至关重要。近年来,研究者对非完备信息系统或非完备决策系统的不确定度量取得了一系列非常重要且有意义的研究成果[14-16]。文献[17]对3种类型的决策表(完备、非完备和最大一致块)计算粗糙集的模糊性和粗略决策。文献[18]在非完备决策系统中定义了一种条件熵。而进一步研究发现,该条件熵对知识粒度不具有单调性,这使得评估不完备决策系统中的不确定性变得不那么合理。文献[19]进一步研究非完备决策系统的不确定性度量,提出对知识粒度变化敏感且具有单调性的条件熵。虽然这些度量值随着知识粒度的变化而改变,但没有充分考虑由于属性值缺失引起的不确定性。因此,构造既具有知识粒度单调性又可体现属性缺失的不确定性度量具有重要的意义。
非完备多属性决策问题是一类重要的多属性决策问题。属性权重的合理设定是获得可信决策结果的保障;属性缺失值填充是有效集结不同属性信息的关键。目前属性权重确定方法大都基于完备描述的多属性决策问题。文献[20]基于熵权法设定属性权重。文献[21]利用优势粗糙集中属性的综合优势度来确定多属性决策中的属性权重。文献[22]基于信息量确定属性权重。上述赋权方法是从信息论的角度来计算的属性权重,不再依赖于数据分布,且具有客观性。属性缺失值的填充方法通常使用统计分析法和最近邻法等填充方法将非完备系统完备化,然而,在特定情况下,这些填充方法填充的结果会与实际数据产生偏离,从而导致不尽合理的决策结果。
本文考虑条件属性值缺失的情形,提出了一种新的条件熵用以刻画非完备决策系统中的知识不确定性程度,同时分析新的条件熵具有有界、单调以及完备可退化的特性。此外,将新条件熵应用于非完备多属性决策问题求解中,提出一种基于条件熵的非完备多属性决策方法。该方法以条件熵为统领,确定属性权重并以最小条件熵为准则选择填充值,以此更加客观地求解现实中存在的非完备多属性决策问题,并获得合理有效的决策结果。最后应用房屋评测实例说明所提方法的有效性与合理性。
1 相关概念 1.1 基本定义信息系统
若在信息系统
若
在非完备信息系统中,由于一些缺失值的存在,完备信息系统中的等价关系已不适用于辨别任意两个对象间的关系。Kryszkiewicz[23]运用较弱的相容关系刻画非完备信息系统中对象之间的相似性关系,进一步刻画概念的上、下近似。
定义1[23] 相容关系
$ T(P) \!=\! \{ (u,v) \in U \!\times\! U\left| {\forall a \!\in\! P,a(u) \!=\! a(v)} \right. \!\vee a(u) \!=\! * \vee a(v) \!=\! *\} $ | (1) |
非完备信息系统中的信息熵在文献[14]中首次进行了深入的探讨与研究。
定义2[14] 在非完备信息系统
$H(P) = - \frac{1}{U}\sum\limits_{i = 1}^{\left| U \right|} {\log \frac{{\left| {{T_P}({u_i})} \right|}}{{\left| U \right|}}} $ | (2) |
式中:
文献[14]对非完备信息系统的不确定性度量进行了研究,文献[18]进一步考虑了非完备决策信息系统中的不确定性度量,提出了条件信息熵的概念。
定义3[18]
${H_1}(Q\left| P \right.) = - \frac{1}{{\left| U \right|}}\sum\limits_{i = 1}^m {\log \frac{{\left| {{T_Q}({u_i}) \cap {T_P}({u_i})} \right|}}{{\left| {{T_P}({u_i})} \right|}}} $ | (3) |
其中
文献[19]进一步对文献[18]中的条件信息熵进行了改进,提出一种满足单调性的条件熵度量公式。
定义4[19] 设
${H_2}(D\left| B \right.) = - \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{T_B}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}} } \log \frac{{\left| {{T_B}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_B}({u_i})} \right|}}$ | (4) |
其中
然而,定义3及定义4并没有明显地刻画出非完备决策系统的属性值缺失程度的特点,如果此属性(或属性集)的信息变得更粗糙(即此属性或属性集上有更多的缺失值),则在该属性集下的不确定性应该更大,但有时上述不确定性度量值却保持不变,相关实例见例1。
例1 表1与表2是2个给定的决策信息表。论域与条件属性集分别为
1) 由相容关系分别计算6个对象在属性
$ \begin{array}{l} {S_{{A_1}}}({u_1}) = \{ {u_1}\} \\ {S_{{A_1}}}({u_3}) = \{ {u_3},{u_6}\} \\ {S_{{A_1}}}({u_5}) = \{ {u_4},{u_5},{u_6}\} \\ {S_{{A_1}}}({u_2}) = \{ {u_2},{u_6}\} \\ {S_{{A_1}}}({u_4}) = \{ {u_4},{u_5}\} \\ {S_{{A_1}}}({u_6}) = \{ {u_2},{u_3},{u_5},{u_6}\} \\ {S_{{A_2}}}({u_1}) = \{ {u_1}\} \\ {S_{{A_2}}}({u_3}) = \{ {u_3},{u_6}\} \\ {S_{{A_2}}}({u_5}) = \{ {u_4},{u_5},{u_6}\} \\ {S_{{A_2}}}({u_2}) = \{ {u_2},{u_6}\} \\ {S_{{A_2}}}({u_4}) = \{ {u_4},{u_5}\} \\ {S_{{A_2}}}({u_6}) = \{ {u_2},{u_3},{u_5},{u_6}\} \\ \end{array} $ |
由此,可知
$\begin{gathered} \left| {{S_{{A_1}}}({u_1})} \right| = \left| {{S_{{A_2}}}({u_1})} \right|,\left| {{S_{{A_1}}}({u_2})} \right| = \left| {{S_{{A_2}}}({u_2})} \right| \\ \left| {{S_{{A_1}}}({u_3})} \right| = \left| {{S_{{A_2}}}({u_3})} \right|,\left| {{S_{{A_1}}}({u_4})} \right| = \left| {{S_{{A_2}}}({u_4})} \right| \\ \left| {{S_{{A_1}}}({u_5})} \right| = \left| {{S_{{A_2}}}({u_5})} \right|,\left| {{S_{{A_1}}}({u_6})} \right| = \left| {{S_{{A_2}}}({u_6})} \right| \\ \end{gathered} $ |
2)根据定义3,计算2个非完备决策系统的条件熵分别为:
$\begin{array}{l} {H_1}(d\left| {{A_1}} \right.) = - \dfrac{1}{{\left| U \right|}}\displaystyle\sum\limits_{i = 1}^m {\log \dfrac{{\left| {{T_d}({u_i}) \cap {T_{{A_1}}}({u_i})} \right|}}{{\left| {{T_{{A_1}}}({u_i})} \right|}}} = \\ - \dfrac{1}{6} \times \left( 0 + 0 + \log \dfrac{1}{2} + 0 + 0 + \log \dfrac{3}{4} \right) {\rm{ = }}0.235\;8 \end{array}$ |
${H_1}(d\left| {{A_2}} \right.) = - \frac{1}{6} \times \left(0 + 0 + \log \frac{1}{2} + 0 + 0 + \log \frac{3}{4}\right){\rm{ = }}0.235\;8$ |
3) 根据定义4,计算2个非完备决策系统的条件熵分别为:
$\begin{array}{l} {H_2}(d\left| {{A_1}} \right.) = - \displaystyle\sum\limits_{i = 1}^{\left| U \right|} {\displaystyle\sum\limits_{j = 1}^m {\dfrac{{\left| {{T_{{A_1}}}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}} } \log \dfrac{{\left| {{T_{{A_1}}}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_{{A_1}}}({u_i})} \right|}} = \\ \quad - \left[ {0 + \dfrac{2}{6}\log \dfrac{2}{2} + 2 \times \dfrac{1}{6}\log \dfrac{1}{2} + \dfrac{2}{6}\log \dfrac{2}{2} + \dfrac{3}{6}\log \dfrac{3}{3} + } \right.\\ \quad\quad\quad\qquad \left. {\left( {\dfrac{1}{6}\log \dfrac{1}{4} + \dfrac{3}{6}\log \dfrac{3}{4}} \right)} \right] = 0.874\;2 \end{array} $ |
$\begin{array}{l} {H_2}(d{\left| A \right._2}) = - \left[ {0 + \dfrac{2}{6}\log \dfrac{2}{2} + 2 \times \dfrac{1}{6}\log \dfrac{1}{2} + \dfrac{2}{6}\log \dfrac{2}{2} + } \right.\\ \qquad\qquad \left. {\dfrac{3}{6}\log \dfrac{3}{3} + \left( {\dfrac{1}{6}\log \dfrac{1}{4} + \dfrac{3}{6}\log \dfrac{3}{4}} \right)} \right] = 0.874\;2 \end{array}$ |
从以上计算可以看出表1与表2两个非完备决策信息系统的两种条件熵都相同,但实际上由于属性值缺失程度不同,它们所蕴含的信息不同,所以非完备决策信息系统的不确定性也应该不同。
2 非完备决策系统中的条件熵在经典粗糙集理论中,产生不确定性的原因主要有两个方面:1)信息粒度带来的知识不确定性;2)粗糙集边界引起的集合不确定性。然而对于非完备信息系统,经过分析发现:已有的不确定性度量方法在同一非完备信息系统中,相同属性集下的属性值缺失程度不同所形成的系统会得到相同的度量值,这时,如果直接应用已有的度量公式来度量非完备信息系统的不确定性,就存在一定的局限性,因为已有的度量方法只考虑了非完备信息系统中由于知识粒度引起的不确定性以及由粗糙集边界带来的集合不确定性,而没有考虑由于属性值缺失所引起的不确定性。针对以上问题,本文在非完备信息系统中提出一种考虑缺失值程度的不确定性度量,并进一步考虑了非完备决策信息系统中的不确定性度量,提出新的条件熵,讨论了其相关性质。从新的角度验证并说明条件熵能够更加精确地度量非完备决策系统的不确定性。
通过以上分析,将完备信息系统下的不确定性度量公理化定义推广到非完备信息系统中,提出如下非完备信息系统中不确定性度量满足条件。
定义5 设
1) 非负性:
2) 不变性:若
3) 单调性:
基于上述条件,构造出非完备信息系统中知识的不确定性度量。
定义6 设
${H_\alpha }(P) = - \frac{{{2^\alpha }}}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\frac{{\left| {{T_P}({u_i})} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i})} \right|}}{{\left| U \right|}}} $ | (5) |
式中:
基于上述分析,构造出非完备信息系统中目标概念的不确定性度量。
定义7 设
${H_\alpha }(X\left| P \right.) = - \frac{{{2^\alpha }}}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\frac{{\left| {{T_P}({u_i}) \cap X} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i}) \cap X} \right|}}{{\left| {{T_P}({u_i})} \right|}}} $ | (6) |
定义7给出了非完备信息系统中目标概念的不确定性度量,该度量不但反映了非完备信息系统中由于知识粒度及集合引起的不确定性,还反映了由于属性值缺失所引起的不确定性。
定理1 设
证明 式(6)是由2部分因子组成,其中一个因子为
设
${T_P}({u_i}) = {Y_i} \cup {Y_i}^c,\left| {{T_P}({u_i})} \right| = \left| {{Y_i} \cup {Y_i}^c} \right| = \left| {{Y_i}} \right| + \left| {{Y_i}^c} \right| = {x_i} + {y_i}$ |
所以
$\begin{array}{l} H(X\left| P \right.) = - \displaystyle\sum\limits_{i = 1}^{\left| U \right|} {\dfrac{{\left| {{T_P}({u_i}) \cap X} \right|}}{{\left| U \right|}}\log \dfrac{{\left| {{T_P}({u_i}) \cap X} \right|}}{{\left| {{T_P}({u_i})} \right|}}} = \\ \qquad\qquad - \displaystyle\sum\limits_{i = 1}^{\left| U \right|} {\dfrac{{{x_i}}}{{\left| U \right|}}\log \dfrac{{{x_i}}}{{{x_i} + {y_i}}}} \end{array}$ |
易知函数
1)非负性:易知
对于任意
2)不变性:若
$\begin{gathered} H(X\left| P \right.) = - \sum\limits_{i = 1}^{\left| U \right|} {\frac{{\left| {{T_P}({u_i}) \cap X} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i}) \cap X} \right|}}{{\left| {{T_P}({u_i})} \right|}}} = \\ - \sum\limits_{i = 1}^{\left| U \right|} {\frac{{\left| {{T_Q}({u_i}) \cap X} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_Q}({u_i}) \cap X} \right|}}{{\left| {{T_Q}({u_i})} \right|}}} = H(X\left| Q \right.) \end{gathered} $ |
又必须在属性集
则得到
$ {H_\alpha }(X\left| P \right.) \!=\! G({\alpha _P}) \ H(X\left| P \right.) \!=\! G({\alpha _Q}) \ H(X\left| Q \right.) \!=\! {H_\alpha }(X\left| Q \right.) $ |
3)单调性:因为函数
由此可知,式(6)是非完备信息系统下的一种不确定性度量。
考虑非完备信息系统中目标概念的不确定性程度,可诱导出非完备决策系统中知识的不确定性度量。
定义8 设
$H(D\left| P \right.) = - \frac{{{2^\alpha }}}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})} \right|}}} } $ | (7) |
性质1 设
性质1表明本文构造的条件熵满足不确定度量的不变性条件,即若2个知识
性质2 设
证明 1) 当
由
$\frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})} \right|}} = \frac{{\left| {{T_P}({u_i})} \right|}}{{\left| {{T_P}({u_i})} \right|}} = 1$ |
则
$\log \frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})} \right|}} = 0$ |
根据定义8得
$\sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})} \right|}}} } \ne 0$ |
又
2)当
当所有条件属性值缺失时,即
因此,决策属性
性质3 设
证明 由于
$\begin{gathered} - \sum\limits_{i = 1}^{\left| U \right|} {\frac{{\left| {{{T'}_P}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{{T'}_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})'} \right|}}} \geqslant \\ - \sum\limits_{i = 1}^{\left| U \right|} {\frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})} \right|}}} ,(j = 1,2, \cdots ,m) \\ \end{gathered} $ |
则
$\begin{gathered} - \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{{T'}_P}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{{T'}_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})'} \right|}}} } \geqslant \\ - \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})} \right|}}} } \\ \end{gathered} $ |
又因为改变后的非完备决策系统
$\frac{{{2^{\alpha '}}}}{{\left| U \right|}} > \frac{{{2^\alpha }}}{{\left| U \right|}}$ |
所以
$H'(D\left| P \right.) > H(D\left| P \right.)$ |
性质3表明由定义8构造的条件熵满足不确定性度量的单调性条件,即若2个知识
性质4 非完备决策系统
${H_{{\rm{DS}}}}(D\left| P \right.) = - \sum\limits_{i = 1}^n {{{(\frac{{\left| {{X_i}} \right|}}{{\left| U \right|}})}^2}\sum\limits_{j = 1}^m {\frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| {{X_i}} \right|}}\log \frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| {{X_i}} \right|}}} } $ | (8) |
证明 完备决策系统中无缺失值,即
$\begin{gathered} H(D\left| P \right.) = - \frac{{{2^\alpha }}}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_P}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_P}({u_i})} \right|}}} } = \\ - \frac{1}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{{\left[ {{u_i}} \right]}_P} \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{{\left[ {{u_i}} \right]}_P} \cap {Y_j}} \right|}}{{\left| {{{\left[ {{u_i}} \right]}_P}} \right|}}} } = \\ - \frac{1}{{\left| U \right|}} \sum\limits_{i = 1}^n {\left| {{X_i}} \right|\sum\limits_{j = 1}^m {\frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| {{X_i}} \right|}}} } = \\ - \sum\limits_{i = 1}^n {\frac{{\left| {{X_i}} \right|}}{{\left| U \right|}}\sum\limits_{j = 1}^m {\frac{{\left| {{X_i}} \right|}}{{\left| U \right|}} \frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| {{X_i}} \right|}}\log \frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| {{X_i}} \right|}}} } = \\ - \sum\limits_{i = 1}^n {{{(\frac{{\left| {{X_i}} \right|}}{{\left| U \right|}})}^2}\sum\limits_{j = 1}^m {\frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| {{X_i}} \right|}}\log \frac{{\left| {{X_i} \cap {Y_j}} \right|}}{{\left| {{X_i}} \right|}}} } \end{gathered} $ |
完备决策信息系统中属性
多属性决策广泛存在于现实生活中,它主要包括选择、分级及排序。排序是指根据属性信息将系统中的整个对象集形成全序。分级是指根据一定准则将对象划分成若干类,若分类的个数等同于对象的个数时,就将分级转化为排序。但在实际情况下,决策结果多数以分级的形式存在,因此可将决策系统中的分级看作初步决策,进而利用条件熵计算决策系统的属性权重,及对属性缺失值进行填充,在此基础上,通过计算加权平均值来获得细粒度的排序,使得排序结果更合理。
3.1 基于条件熵的属性权重确定方法定义9 设
${\rm{Sig}}({a_i}) = 1 - \dfrac{{{h_i}}}{{\displaystyle\sum\limits_i^m {{h_i}} }}$ | (9) |
其中
基于条件熵的属性重要度定义具有如下性质:
性质5 设
证明 1) 由性质2可知,
2) 要使
由式(9)可知
性质6 设
由以上性质知,
定义10 设
${\omega _i} = \dfrac{{{\rm{Sig}}({a_i})}}{{\displaystyle\sum\limits_{i = 1}^m {{\rm{Sig}}({a_i})} }}$ | (10) |
设
非完备决策系统中缺失值的平均填充值:
${\rm{F}}{{\rm{l}}_{ -\rm avg}}({u_i},{a_j}) = \dfrac{{\displaystyle\sum\limits_{{u_k} \in {U_j}^\prime } {f({u_k},{a_j})} }}{{\left| {{U_j}^\prime } \right|}}$ | (11) |
其中
非完备决策系统中缺失值的众数填充值:
${\rm{F}}{{\rm{l}}_{ - od {\rm{e}}}}({u_i},{a_j}) = od {\rm{e(}}{V_{{a_j}}}/\{ * \} )$ | (12) |
其中
$\begin{gathered} {\rm{F}}{{\rm{l}}_{ - \,od \,e - d}}({u_i},{a_j}) = \,od \,{\rm{e}}\{ f({u_k},{a_j})\left| {d({u_k},{a_j})} \right. = d({u_i},{a_j}) \,\\ {u_k} \in U\} \end{gathered}$ | (13) |
利用
${v^*} = {\rm{arg}}\mathop {\min }\limits_{v \in Fl} H(d\left| {C,v} \right.)$ | (14) |
为该缺失值的填充值。若
算法 基于条件熵的多属性排序方法
输入 非完备决策信息系统
输出 全序化结果
1)基于相容关系,计算每个对象在每个属性
$ \begin{gathered} T(a) = \{ ({u_i},{u_j}) \in U \times U\left| {a({u_i}) = a({u_j})} \right. \vee a({u_i}) = * \vee a({u_j}) = \\ *,a \in C\} ,\mathop {}\nolimits^{} {T_a}({u_i}) = \{ {u_j} \in U\left| {({u_i},{u_j}) \in T(a)} \right.,\forall a \in C\} \\ \end{gathered} $ |
2)利用条件熵的定义,计算决策属性
$H(d\left| a \right.) = - \frac{{{2^\alpha }}}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {{T_a}({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {{T_a}({u_i}) \cap {Y_j}} \right|}}{{\left| {{T_a}({u_i})} \right|}}} } $ |
3)利用基于条件熵的属性权重方法,根据式(9)、(10)计算每个属性
4)利用式(11)~(14)对非完备决策系统进行填充。
5)在填充后的系统中,计算每个对象在属性集
${D_C}({u_i}) = \sum\limits_{j = 1}^{\left| C \right|} {{\omega _j} f({u_i},{a_j})} $ | (15) |
以某鉴定机构对危旧房屋评估受损水平的多属性决策问题为例进行分析。鉴定机构负责人派出2位专家根据房屋装修质量
1)计算10个对象在属性
$ \begin{gathered} {T_{{a_1}}}({x_1}) = \{ {x_1},{x_5},{x_6},{x_8},{x_9}\} ,\;\;{T_{{a_1}}}({x_2}) = \{ {x_2},{x_3},{x_5},{x_6},{x_{10}}\} \\ {T_{{a_1}}}({x_3}) = \{ {x_2},{x_3},{x_5},{x_6},{x_{10}}\} ,{T_{{a_1}}}({x_4}) = \{ {x_4},{x_5},{x_6},{x_7}\} \\ {T_{{a_1}}}({x_5}) = \{ {x_1},{x_2}, \cdots ,{x_{10}}\} ,\;\;\;\;\;\;{T_{{a_1}}}({x_6}) = \{ {x_1},{x_2}, \cdots ,{x_{10}}\} \\ {T_{{a_1}}}({x_7}) = \{ {x_4},{x_5},{x_6},{x_7}\} ,\;\;\;\;\;\;{T_{{a_1}}}({x_8}) = \{ {x_1},{x_5},{x_6},{x_8},{x_9}\} \\ {T_{{a_1}}}({x_9}) = \{ {x_1},{x_5},{x_6},{x_8},{x_9}\} ,\;\;{T_{{a_1}}}({x_{10}}) = \{ {x_2},{x_3},{x_5},{x_6},{x_{10}}\} \end{gathered} $ |
类似地,可得到所有对象在其他3个属性
2)分别计算决策属性
$ \begin{array}{l} \left| {Q({x_i})} \right| = 2,\alpha = \dfrac{{\left| {Q({x_i})} \right|}}{{\left| {{a_1}} \right|}} = 2,{h_1} = H(d\left| {{a_1}} \right.) = 3.822\;7\\ \left| {Q({x_i})} \right| = 1,\alpha = \dfrac{{\left| {Q({x_i})} \right|}}{{\left| {{a_2}} \right|}} = 1,{h_2} = H(d\left| {{a_2}} \right.) = 1.397\;7\\ \left| {Q({x_i})} \right| = 2,\alpha = \dfrac{{\left| {Q({x_i})} \right|}}{{\left| {{a_3}} \right|}} = 2,{h_3} = H(d\left| {{a_3}} \right.) = 3.492\;1\\ \left| {Q({x_i})} \right| = 3,\alpha = \dfrac{{\left| {Q({x_i})} \right|}}{{\left| {{a_4}} \right|}} = 3,{h_4} = H(d\left| {{a_4}} \right.) = 10.372\;6 \end{array} $ |
3)由式(9)分别计算属性
$ \!\!\begin{array}{l} {\rm{ Sig }}({a_1}) = 1 - \dfrac{{{h_1}}}{{\displaystyle\sum\limits_{i{\rm{ = }}1}^4 {{h_i}} }} = 0.799,{\rm{ Sig }}({a_2}) = 1 - \dfrac{{{h_2}}}{{\displaystyle\sum\limits_{i{\rm{ = }}1}^4 {{h_i}} }} = 0.927\\ {\rm{ Sig }}({a_3}) = 1 - \dfrac{{{h_3}}}{{\displaystyle\sum\limits_{i{\rm{ = }}1}^4 {{h_i}} }} = 0.817,{\rm{ Sig }}({a_4}) = 1 - \dfrac{{{h_4}}}{{\displaystyle\sum\limits_{i{\rm{ = }}1}^4 {{h_i}} }} = 0.457 \end{array} $ |
由式(10)计算各属性权重分别为
$ {\omega _{{a_1}}} = {\rm{0}}{\rm{.266}},{\omega _{{a_2}}} = {\rm{0}}{\rm{.309}},{\omega _{{a_3}}} = {\rm{0}}{\rm{.272}},{\omega _{{a_4}}} = {\rm{0}}{\rm{.152}}。$ |
4)利用条件熵方法对非完备决策系统进行填充:
首先得到房屋评测系统中
$ \begin{gathered} {\rm{F}}{{\rm{l}}_{ -\rm avg}}({u_5},{a_1}) = \{ 2\} ,{\rm{F}}{{\rm{l}}_{ - \,od \,e - d}}({u_5},{a_1}) = \{ 1,3\} \\ {\rm{F}}{{\rm{l}}_{ - \,od \,{\rm{e}}}}({u_5},{a_1}) = \{ 1,2\} \end{gathered} $ |
由此可得
类似地,可得其他7个缺失值填充的所有可能值:
$ \begin{gathered} f({x_6},{a_1}) = 1.5{\text{或}}f({x_6},{a_1}) = 1{\text{或}}f({x_6},{a_1}) = 2\\ f({x_3},{a_2}) = 1\\ f({x_4},{a_3}) = 3\\ f({x_8},{a_3}) = 3 \end{gathered} $ |
$ \begin{gathered} f({x_2},{a_4}) = 2{\text{或}}f({x_2},{a_4}) = 3\\ f({x_7},{a_4}) = 2\\ f({x_{10}},{a_4}) = 2 \end{gathered} $ |
所以以下对
1)当
计算当
2) 类似地,分别将
$ {H^1}(d\left| C \right.) = - \frac{{{2^\alpha }}}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {T_C^1({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {T_C^1({u_i}) \cap {Y_j}} \right|}}{{\left| {T_C^1({u_i})} \right|}}} } = 0 $ |
$ \begin{gathered} {H^2}(d\left| C \right.) = - \frac{{{2^\alpha }}}{{\left| U \right|}} \sum\limits_{i = 1}^{\left| U \right|} {\sum\limits_{j = 1}^m {\frac{{\left| {T_C^2({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \frac{{\left| {T_C^2({u_i}) \cap {Y_j}} \right|}}{{\left| {T_C^2({u_i})} \right|}}} } = \\ - \frac{{{2^{1.75}}}}{{10}} \times (4 \times \frac{1}{{10}} \times \log 2(\frac{1}{2})) = 0.1345 \end{gathered} $ |
$ {H^3}(d\left| C \right.) = - \dfrac{{{2^\alpha }}}{{\left| U \right|}} \displaystyle\sum\limits_{i = 1}^{\left| U \right|} {\displaystyle\sum\limits_{j = 1}^m {\dfrac{{\left| {T_C^3({u_i}) \cap {Y_j}} \right|}}{{\left| U \right|}}\log \dfrac{{\left| {T_C^3({u_i}) \cap {Y_j}} \right|}}{{\left| {T_C^3({u_i})} \right|}}} } = 0 $ |
比较3个度量值,由式(14)得
3) 当
由相容关系计算得:当
在填充后的系统中,根据式(15)及3)的属性权重,计算非完备决策信息系统中每个对象的加权平均值,则取值为:
$ \begin{gathered} {D_C}({x_1}) = 2.422,{D_C}({x_2}) = {\rm{1}}{\rm{.151}},{D_C}({x_3}) = {\rm{1}}{\rm{.423}}\\ {D_C}({x_4}) = {\rm{2}}{\rm{.693}},{D_C}({x_5}) = {\rm{2}}{\rm{.137}},{D_C}({x_6}) = {\rm{1}}{\rm{.503}}\\ {D_C}({x_7}) = {\rm{1}}{\rm{.955}},{D_C}({x_8}) = {\rm{2}}{\rm{.579}},{D_C}({x_9}) = {\rm{1}}{\rm{.569}}\\ {D_C}({x_{10}}) = {\rm{2}}{\rm{.004}} \end{gathered} $ |
最终全序化结果为:
${x_4} \succ {x_8} \succ {x_1} \succ {x_5} \succ {x_{10}} \succ {x_7} \succ {x_9} \succ {x_6} \succ {x_3} \succ {x_2}$ |
在初始评测等级中,优、良、中、差分别对应的分类为
为了进一步说明本文基于条件熵的多属性决策方法的可行性,现将本文所提方法与其他排序方法在2个完备信息和2个非完备信息的算例中进行比较分析。由于本文需要进行初步决策,所以将其他排序方法获得的结果按照1∶1∶1的比例分成3类或4类视为分级结果,进而利用本文排序方法将分级转化为排序。对比结果如表5~8所示。
文献[24]采用熵权法确定属性权重,并基于优势关系的排序方法将具有完备信息的对象进行排序,获得的结果与本文获得的排序结果大致相同,但仍然存在主观因素。条件熵可用于评估属性的重要性,因此本文根据条件熵越小,属性越重要的特征确定属性权重,更客观、更合理地解决排序问题。
文献[25]提出一种新的排序模型将对象排序,然而利用该模型得到的排序结果存在明显的“并列”现象。本文在获得的排序结果基本一致的情况下,既考虑了条件属性与决策属性之间建立的关联性,又将并列的对象区分开,使得到的排序结果更合理。
文献[26]基于
文献[27]提出基于加权
对比分析:
1)从排序方法上看,由于条件属性集中每个属性的重要度不同,本文利用提出的新条件熵计算决策系统的属性权重,能够避免排序问题中赋权方法带来的主观性。对于属性值缺失的情形,本文以最小条件熵为准则对属性缺失值进行填充,并利用基本的加权求和方法获得细粒度的排序,能够避免计算量较大的问题。
2)从排序结果上看,本文提出基于条件熵的多属性决策排序方法,能够有效地解决由分级结果的粗粒度到排序结果的细粒度的转换,获得合理的排序结果。
5 结束语本文首先针对非完备决策系统中属性值缺失导致系统不确定性的问题,构造一种新型的考虑条件属性缺失度的目标概念条件熵与决策知识条件熵。性质分析表明本文所提出的条件熵在体现不确定性时会更加敏感,是一种合理的不确定性度量。具有当系统缺失值增加时,新的条件熵增大;当知识粒度变细时,新条件熵随之减小的性质。其次,基于本文所提出的新的条件熵,设计了基于条件熵的属性权重确定及最小条件熵非完备属性取值补充方法,以解决属性权重完全未知的非完备多属性决策问题。最后通过与其他排序方法比较分析,说明了该方法能有效利用粗粒度的分级信息,获得更加合理有效的细粒度的排序结果。
[1] | PAWLAK Z. Rough sets[J]. International journal of computer and information science, 1982, 11(5): 341-356. DOI:10.1007/BF01001956 (0) |
[2] |
苗夺谦, 张清华, 钱宇华, 等. 从人类智能到机器实现模型—粒计算理论与方法[J]. 智能系统学报, 2016, 11(6): 743-757. MIAO Duoqian, ZHANG Qinghua, QIAN Yuhua, et al. From human intelligence to machine implementation model: theories and applications based on granular computing[J]. CAAI transactions on intelligent systems, 2016, 11(6): 743-757. (0) |
[3] |
梁吉业, 钱宇华, 李德玉, 等. 大数据挖掘的粒计算理论与方法[J]. 中国科学(信息科学), 2015, 45(11): 1355-1369. LIANG Jiye, QIAN Yuhua, LI Deyu, et al. Theory and method of granular computing for big data mining[J]. Scientia sinica informationis, 2015, 45(11): 1355-1369. (0) |
[4] |
王国胤, 张清华, 马希骜, 等. 知识不确定性问题的粒计算模型[J]. 软件学报, 2011, 22(4): 676-694. WANG Guoyin, ZHANG Qinghua, MA Xi’ao, et al. Granular computing models for knowledge uncertainty[J]. Journal of software, 2011, 22(4): 676-694. (0) |
[5] | PAWLAK Z. Vagueness and uncertainty: a rough set perspective[J]. Computational intelligence, 1995, 11(2): 227-232. DOI:10.1111/j.1467-8640.1995.tb00029.x (0) |
[6] | DÜNTSCH I, GEDIGA G. Uncertainty measures of rough set prediction[J]. Artificial intelligence, 1998, 106(1): 109-137. DOI:10.1016/S0004-3702(98)00091-5 (0) |
[7] | WIERMAN M J. Measuring uncertainty in rough set theory[J]. International journal of general systems, 1999, 28(4/5): 283-297. (0) |
[8] | CHAKRABARTY K, BISWAS R, NANDA S. Fuzziness in rough sets[J]. Fuzzy sets and systems, 2000, 110(2): 247-251. DOI:10.1016/S0165-0114(97)00414-4 (0) |
[9] |
苗夺谦, 王珏. 粗糙集理论中知识粗糙性与信息熵关系的讨论[J]. 模式识别与人工智能, 1998, 11(1): 34-40. MIAO Duoqian, WANG Jue. On the relationships between information entropy and roughness of knowledge in rough set theory[J]. Pattern recognition and artificial intelligence, 1998, 11(1): 34-40. (0) |
[10] | LIANG Jiye, WANG Junhong, QIAN Yuhua. A new measure of uncertainty based on knowledge granulation for rough sets[J]. Information sciences, 2009, 179(4): 458-470. DOI:10.1016/j.ins.2008.10.010 (0) |
[11] |
王国胤, 于洪, 杨大春. 基于条件信息熵的决策表约简[J]. 计算机学报, 2002, 25(7): 759-766. WANG Guoyin, YU Hong, YANG Dachun. Decision table reduction based on conditional information entropy[J]. Chinese journal of computers, 2002, 25(7): 759-766. DOI:10.3321/j.issn:0254-4164.2002.07.013 (0) |
[12] |
黄国顺, 文翰. 基于严凹函数的粗糙集不确定性度量[J]. 软件学报, 2018, 29(11): 3484-3499. HUANG Guoshun, WEN Han. Uncertainty measures of rough set based on strictly concave functions[J]. Journal of software, 2018, 29(11): 3484-3499. (0) |
[13] |
黄国顺, 曾凡智, 陈广义, 等. 基于严凸函数的知识粒度与相对粒度[J]. 模式识别与人工智能, 2013, 26(10): 897-908. HUANG Guoshun, ZENG Fanzhi, CHEN Guangyi, et al. Knowledge granularity and relative granularity based on strictly convex function[J]. Pattern recognition and artificial intelligence, 2013, 26(10): 897-908. DOI:10.3969/j.issn.1003-6059.2013.10.001 (0) |
[14] | LIANG J, SHI Z, LI D, et al. Information entropy, rough entropy and knowledge granulation in incomplete information systems[J]. International journal of general systems, 2006, 35(6): 641-654. DOI:10.1080/03081070600687668 (0) |
[15] | DAI Jianhua, XU Qing. Approximations and uncertainty measures in incomplete information systems[J]. Information sciences, 2012, 198: 62-80. DOI:10.1016/j.ins.2012.02.032 (0) |
[16] | QIAN Yuhua, LIANG Jiye, WANG Feng. A new method for measuring the uncertainty in incomplete information systems[J]. International journal of uncertainty, fuzziness and knowledge-based systems, 2009, 17(6): 855-880. DOI:10.1142/S0218488509006303 (0) |
[17] | QIAN Yuhua, LIANG Jiye, DANG Chuangyin. Consistency measure, inclusion degree and fuzzy measure in decision tables[J]. Fuzzy sets and systems, 2008, 159(18): 2353-2377. DOI:10.1016/j.fss.2007.12.016 (0) |
[18] | DAI Jianhua, XU Qing, WANG Wentao, et al. Conditional entropy for incomplete decision systems and its application in data mining[J]. International journal of general systems, 2012, 41(7): 713-728. DOI:10.1080/03081079.2012.685471 (0) |
[19] | DAI Jianhua, WANG Wentao, XU Qing. An uncertainty measure for incomplete decision tables and its applications[J]. IEEE transactions on cybernetics, 2013, 43(4): 1277-1289. DOI:10.1109/TSMCB.2012.2228480 (0) |
[20] | YANG Jiping, QIU Wanhua. A measure of risk AND A decision-making model based on expected utility and entropy[J]. European journal of operational research, 2005, 164(3): 792-799. DOI:10.1016/j.ejor.2004.01.031 (0) |
[21] |
吕跃进, 张旭娜, 韦碧鹏. 基于优势关系粗糙集的模糊综合评价的权重确定[J]. 统计与决策, 2012(20): 44-46. LV Yuejin, ZHANG Xuna, WEI Bipeng. Rough set based on dominance relation of fuzzy comprehensive evaluation of the weight[J]. Control and decision, 2012(20): 44-46. (0) |
[22] |
李佳, 梁吉业, 庞天杰. 一种基于优势粗糙集的多属性决策排序方法[J]. 南京大学学报(自然科学), 2016, 52(5): 844-852. LI Jia, LIANG Jiye, PANG Tianjie. A sorting method of multi-attribute decision making based on dominance rough set theory[J]. Journal of Nanjing University (Natural Sciences), 2016, 52(5): 844-852. (0) |
[23] | KRYSZKIEWICZ M. Rough set approach to incomplete information systems[J]. Information sciences, 1998, 112(1/2/3/4): 39-49. (0) |
[24] |
王利东, 田晓娟, 杨艳冰. 基于熵权与优势关系的教学效果评价方案[J]. 数学的实践与认识, 2014, 44(10): 8-12. WANG Lidong, TIAN Xiaojuan, YANG Yanbing. The comprehensive evaluation of teaching based on entropy weight and dominance relation[J]. Mathematics in practice and theory, 2014, 44(10): 8-12. (0) |
[25] |
翁世洲, 吕跃进, 莫京兰. 基于优势关系的排序模型及其保序性约简理论[J]. 广西师范大学学报(自然科学版), 2013, 31(3): 37-44. WENG Shizhou, LV Yuejin, MO Jinglan. Ranking model and its order-preserving reduction theory based on dominance relations[J]. Journal of Guangxi Normal University (Natural Science Edition), 2013, 31(3): 37-44. DOI:10.3969/j.issn.1001-6600.2013.03.007 (0) |
[26] |
施玉杰, 杨宏志, 徐久成. 先验概率优势关系下的粗糙集模型研究[J]. 南京大学学报(自然科学版), 2016, 52(5): 899-907. SHI Yujie, YANG Hongzhi, XU Jiucheng. The study of rough set model under α-prior probability dominance relation[J]. Journal of Nanjing University (Natural Sciences), 2016, 52(5): 899-907. (0) |
[27] |
李佳, 梁吉业, 庞天杰. 基于加权α优势关系的多属性决策排序方法
[J]. 模式识别与人工智能, 2017, 30(8): 761-768. LI J, LIANG Jiye, PANG Tianjie. Sorting method of multi-attribute decision making based on weighted α dominance relation [J]. Pattern recognition and artificial intelligence, 2017, 30(8): 761-768. (0) |