郑州大学学报(理学版)  2025, Vol. 57 Issue (2): 51-60  DOI: 10.13705/j.issn.1671-6841.2023139

引用本文  

黄彪, 韩邦合. 不协调广义多尺度序决策信息系统的知识获取[J]. 郑州大学学报(理学版), 2025, 57(2): 51-60.
HUANG Biao, HAN Banghe. Knowledge Acquisition of Inconsistent Generalized Multi-scale Ordered Decision Information Systems[J]. Journal of Zhengzhou University(Natural Science Edition), 2025, 57(2): 51-60.

基金项目

国家自然科学基金地区面上项目(61862055)

通信作者

韩邦合(1981—),男,副教授,主要从事不确定性推理与集值偏好关系研究,E-mail: bhhan@mail.xidian.edu.cn

作者简介

黄彪(1998—),男,硕士研究生,主要从事粗糙集与多尺度信息系统研究,E-mail: 657847087@qq.com

文章历史

收稿日期:2023-06-10
不协调广义多尺度序决策信息系统的知识获取
黄彪, 韩邦合    
西安电子科技大学 数学与统计学院 陕西 西安 710126
摘要:针对不协调广义多尺度序决策信息系统中的最优尺度组合和IF-THEN知识获取问题,首先,提出了集值优势矩阵的概念,给出了其判断序决策信息系统是否协调的条件。然后,在不协调的广义多尺度序决策信息系统中,引入基于优势关系的广义决策概念,同时通过定义区间值优势关系的方法,构造了新的协调广义多尺度序决策信息系统,并设计了通过集值优势矩阵求最优尺度组合的算法,挖掘了隐藏在不协调广义多尺度序决策信息系统中的决策规则。最后,通过实验验证了所提广义决策最优尺度组合的有效性。
关键词广义多尺度序决策信息系统    集值优势矩阵    广义决策    属性约简    决策规则    
Knowledge Acquisition of Inconsistent Generalized Multi-scale Ordered Decision Information Systems
HUANG Biao, HAN Banghe    
School of Mathematics and Statistics, Xidian University, Xi′an 710126, China
Abstract: Aiming at the problem of optimal scale combination and IF-THEN knowledge acquisition in inconsistent generalized multi-scale ordered decision information systems, the concept of set-valued dominance matrix was firstly proposed, and the conditions for judging whether an ordered decision information system was consistent were given. Then, in the inconsistent generalized multi-scale ordered decision information system, the concept of generalized decision based on dominance relation was introduced. At the same time, a new consistent generalized multi-scale ordered decision information system was constructed by defining the interval-valued dominance relation, and an algorithm for finding the optimal scale combination through the set-valued dominance matrix was designed. The decision rules hidden in the inconsistent generalized multi-scale ordered decision information system were mined. Finally, the effectiveness of the proposed optimal scale combination of generalized decision was verified by experiments.
Key words: generalized multi-scale ordered decision information systems    set-valued dominance matrix    generalized decision    attribute reduction    decision rules    
0 引言

粗糙集理论最初由Pawlak[1]提出,它以各种信息系统、决策信息系统为研究对象,通过定义论域上的等价关系,把不可区分的对象组合在一起构成论域的划分,并通过属性约简[2-3]来挖掘信息系统里的最简决策规则,达到知识发现的目的。随着粗糙集理论的不断发展,经典粗糙集理论的缺点日益明显,考虑经典粗糙集理论信息系统中的属性值都是符号数据的问题,以及日常生活很多数据都是有序的,如考试成绩、价格波动等,Greco等[4]提出了一个基于优势关系的粗糙集模型,即优势粗糙集。该模型的研究对象为有序数据,如序信息系统、区间值序信息系统、直觉模糊值序信息系统等,它用优势关系代替经典粗糙集中的等价关系,构造近似空间达到知识发现的目的。

另外,传统粗糙集模型的研究对象为信息系统,它的每个对象、每个属性只能取唯一的值,称之为单尺度信息系统。然而,在实际的生活中,人们处理的数据可能是多层次、多尺度的。为此,Wu等提出了多尺度决策信息系统的概念,简称Wu-Leung[5]模型,并研究了协调和不协调多尺度决策信息系统的最优尺度组合[6-10]、知识获取[11]的问题。接着,Li等在Wu-Leung模型的基础上提出了广义多尺度决策信息系统[12]的概念,并给出了互补模型、格模型的算法求最优尺度组合和知识获取。随后,Huang等[13]、Wu等[14]分别研究了在协调和不协调的情况下,决策属性也具有多尺度的广义多尺度决策信息系统的最优尺度选择问题,尤其在不协调中引入广义决策函数的方法值得称赞。

上述针对广义多尺度决策信息系统的研究主要基于等价关系[5-14]的,而基于优势关系[15-16]来研究广义多尺度序决策信息系统的最优尺度组合很少。尽管张嘉茹等[15]和杨烨等[16]分别研究了决策属性为多尺度的协调、不协调广义多尺度序决策信息系统的最优尺度选择问题和知识获取问题,但文献[16]所提出的广义决策未像文献[14]一样给出构造新的协调广义多尺度决策信息系统的方法,它重新定义了协调和最优尺度选择,不是传统最优尺度选择定义的延续。另外,所定义的广义决策最优尺度很大概率会是最细尺度,从代价来看未必是最优的。这些是当前基于优势关系的不协调广义多尺度序决策信息系统研究的不足。

为了弥补上述不足,本文在文献[13-18]和传统协调和最优尺度定义基础上,引入更加有效的广义决策并消除不协调性,构造协调广义多尺度序决策信息系统,并借助集值优势矩阵来讨论研究不协调广义多尺度序决策信息系统的最优尺度组合、属性约简和知识获取问题。最后,通过实验验证了所提广义决策最优尺度组合的有效性。

1 基础知识

定义1[19]  信息系统是一个二元组(U, A),其中U={x1, x2, …, xn}是一个非空有限对象集,A={a1, a2, …, am}是一个非空有限属性集,$\forall a \in A$,亦表示映射a: UVaVa为属性a的取值域。

定义2[15]  设L为非空集合,≤为L上的二元关系,若下面条件1)~4)成立,称二元组(L, ≤)为一个全序集。

1) 自反性:$\forall x \in L, x \leqslant x$

2) 反对称性:$\forall x, y \in L, x \leqslant y, y \leqslant x \Rightarrow x=y$

3) 传递性:$\forall x, y, z \in L, x \leqslant y, y \leqslant z \Rightarrow x \leqslant z$

4) ≤是线性序:$\forall x, y \in L, x \leqslant y \text { 或 } y \leqslant x$

如果一个信息系统(U, A)属性a的取值域Va是全序集(对不同a,在没有歧义的情况下,本文均用≤或者≥表示对应的线性序,且假设属性值域均为实数),那么这个属性就称为一个准则。如果信息系统(U, A)的所有属性都是准则,则该信息系统(U, A)称为一个序信息系统。若决策属性dA也是一个准则,称(U, A∪{d})是一个序决策信息系统。

对于一个序决策信息系统(U, A∪{d}),(U, A∪{d})中的广义决策[17-18]

$ \delta_A(x)=\left[l_A(x), u_A(x)\right],$

其中:

$ \begin{aligned} l_A(x) & =\min \left\{d(y): y R_A^{\geqslant} x, y \in U\right\}, \\ u_A(x) & =\max \left\{d(y): x R_A^{\geqslant} y, y \in U\right\}。\end{aligned} $

广义决策反映了关于准则集A对象x根据优势原则可能属于决策类的区间,常用于不协调序决策信息系统中的分类和约简[17-18]uA(x)和lA(x)为该区间的上、下界。若$\forall x \in U, l_A(x)=u_A(x)$均成立,则称序决策信息系统是协调的;否则,称为不协调的。

2 广义多尺度序决策信息系统 2.1 集值优势矩阵

定义3  设(U, A∪{d})是一个序决策信息系统,U={x1, x2, …, xn}, 记

$ \begin{aligned} & D_{i j}=\left\{a \mid a\left(x_i\right) \geqslant a\left(x_j\right), a \in A \cup\{d\}\right\}, \\ & i, j=1, 2, \cdots, n, \end{aligned} $

则称Dijxi支配xj的集值优势集,即Dij刻画了xi不比xj差的准则集合,称D=(Dij)n×n为(U, A∪{d})的集值优势矩阵。

命题1  设(U, C)=(U, A∪{d})是一个序决策信息系统,如果$\exists i, j=1, 2, \cdots, n$, 使得{a1, a2, …, am}⊆Dij, dDij成立,则称(U, A∪{d})是不协调的;否则,称(U, A∪{d})是协调的。

2.2 广义多尺度序决策信息系统

在现实生活中,很多属性值数据都是有序的,所以基于优势关系研究广义多尺度序决策信息系统的最优尺度是非常有意义的。下面介绍广义多尺度序决策信息系统的定义和相关性质。

定义4[15]  对于全序集(L1, ≤1)和(L2, ≤2),若映射g: (L1, ≤1)→(L2, ≤2),∀x, yL1,有x1yg(x)≤2g(y),则称映射g为保序的。

定义5  广义多尺度序信息系统是一个二元组S=(U, C),其中: U={x1, x2, …, xn}是一个非空有限的对象集; C={a1, a2, …, am}是一个非空有限的属性集。若属性ajIj个等级尺度,则一个广义多尺度序信息系统可以表示为$S=\left(U, \left\{a_j^k \mid k=1, \right.\right.\left.\left.2, \cdots, I_j, j=1, 2, \cdots, m\right\}\right)$,其中:$a_j^k: U \rightarrow V_j^k$是一个满射函数;Vjk是属性aj在第k个尺度下的值域;≤jkVjk上的线性序,即(Vjk, ≤jk)是一个全序集。对j=1, 2, …, m,1≤kIj-1,存在一个保序的满射函数

$ g_j^{k, k+1}:\left(V_j^k, \leqslant_j^k\right) \rightarrow\left(V_j^{k+1}, \leqslant_j^{k+1}\right), $

使得$a_j^{k+1}=g_j^{k, k+1} a_j^k$,即

$ a_j^{k+1}(x)=g_j^{k, k+1}\left(a_j^k(x)\right), x \in U, $

$g_j^{k, k+1}$称为序信息粒度转换函数。

另外,称S=(U, C∪{d})是广义多尺度序决策信息系统,其中(U, C)是一个广义多尺度序信息系统,$d \notin\left\{a_j^k \mid k=1, 2, \cdots, I_j, j=1, 2, \cdots, m\right\}, d: U \rightarrow V_d$,是一个决策属性且(Vd, ≤d)是全序集。

定义6[5]  设S=(U, C)为一个广义多尺度序信息系统,若将条件属性aj(1≤jm)限制在该属性的第lj(1≤ljIj)个尺度下,记为L=(l1, l2, …, lm),则L称为S的条件属性的一个尺度组合。S的所有尺度组合记为$\varsigma=\left\{\left(l_1, l_2, \cdots, l_m\right) \mid 1 \leqslant l_j \leqslant I_j, \right.j=1, 2, \cdots, m\}$

定义7[5]  设S=(U, C)为一个广义多尺度信息系统,对于两个尺度组合$L_1=\left(l_1^1, l_2^1, \cdots, l_m^1\right) \in \zeta, L_2=\left(l_1^2, l_2^2, \cdots, l_m^2\right) \in \varsigma$。若$\forall j \in\{1, 2, \cdots, m\}$,都有lj1lj2,则称尺度组合L1L2细,记L1L2。若L1L2,且$\exists j \in\{1, 2, \cdots, m\}$,使得lj1lj2,则称尺度组合L1严格细于L2,记L1<L2

$ \begin{aligned} & \forall j \in\{1, 2, \cdots, m\}, L_1=\left(l_1^1, l_2^1, \cdots, l_m^1\right) \in \varsigma, \\ & L_2=\left(l_1^2, l_2^2, \cdots, l_m^2\right) \in \varsigma, \text { 定义 } \\ & L_1 \wedge L_2=\left(l_1^1 \wedge l_1^2, l_2^1 \wedge l_2^2, \cdots, l_m^1 \wedge l_m^2\right), \\ & L_1 \vee L_2=\left(l_1^1 \vee l_1^2, l_2^1 \vee l_2^2, \cdots, l_m^1 \vee l_m^2\right), \end{aligned} $

其中:$l_j^1 \wedge l_j^2=\min \left(l_j^1, l_j^2\right) ; l_j^1 \vee l_j^2=\max \left(l_j^1, l_j^2\right)$。那么

$ L_1 \leqslant L_2 \Leftrightarrow L_1 \wedge L_2=L_1 \Leftrightarrow L_1 \vee L_2=L_2, $

且($\varsigma $, ≤, ∧, ∨)是一个有界格,其中最大元为(I1, I2, …, Im),最小元为(1, 1, …, 1)。

显然,对于一个广义多尺度序决策信息系统,可以分解成$\prod\limits_{j = 1}^m {{I_j}} $个序决策信息系统且具有相同的决策属性d,也可以分解得到$\prod\limits_{j = 1}^m {{I_j}} $个不同的集值优势矩阵,即定义7中格结构的每个节点加上决策属性d对应于一个集值优势矩阵。

定义8[5]  设S=(U, C∪{d})为一个广义多尺度序决策信息系统,L=(l1, l2, …, lm)∈$\varsigma $S的一个尺度组合,定义关于准则集CL的优势关系$R_{C^L}^{\geqslant}$、对象x的优势类$[x]_{C^L}^{\geqslant}$

$ \begin{aligned} & R_{c^L}^{\geqslant}=\left\{(y, x) \in U \times U \mid a_j^{l_j}(y) \geqslant a_j^{l_j}(x), \forall a_j^{l_j} \in C^L\right\}, \\ & {[x]_{c^L}^{\geqslant}=\left\{y \in U \mid a_j^{l_j}(y) \geqslant a_j^{l_j}(x), \forall a_j^{l_j} \in C^L\right\}=} \\ & \left\{y \in U \mid(y, x) \in R_{c^L}^{\geqslant}\right\}。\end{aligned} $

性质1  设$S=(U, C \cup\{d\})=\left(U,\left\{a_j^k \mid k=1,\right.\right.\left.\left.2, \cdots, I_j, j=1,2, \cdots, m\right\} \cup\{d\}\right)$为一个广义多尺度序决策信息系统,$Q_1=\left(K_1, d\right)=\left(k_1^1, k_2^1, \cdots, k_m^1, d\right), Q_2=\left(K_2, d\right)=\left(k_1^2, k_2^2, \cdots, k_m^2, d\right)$。若Q1Q2K1K2对应的集值优势矩阵分别为DQ1DQ2DK1DK2,则性质1)~4)成立。

1) $K_1 \leqslant K_2 \Rightarrow R_{C^{K_1}}^{\geqslant} \subseteq R_{C^{K_2}}^{\geqslant}, [x]{ }_{C^{K_1}}^{\geqslant} \subseteq[x]{ }_{C^{K_2}}^{\geqslant}$

2) $\forall B \subseteq C \Rightarrow R_C^{\geqslant} \subseteq R_B^{\geqslant}$

3) 如果$K_1 \leqslant K_2, a_j^{k_j^1} \in D_{i_1, i_2}^{K_1}\left(a_j^{k_j^1} \in D_{i_1, i_2}^{Q_1}\right)$,则$a_j^{k_j^2} \in D_{i_1, i_2}^{K_2}\left(a_j^{k_j^2} \in D_{i_1, i_2}^{Q_2}\right), i_1, i_2=1, 2, \cdots, n$

4) $K_1 \leqslant K_2 \Rightarrow\left|D_{i_1, i_2}^{K_1}\right| \leqslant\left|D_{i_1, i_2}^{K_2}\right|, i_1, i_2=1, 2, \cdots, n$, 其中$\left|D_{i_1, i_2}\right|$表示集值优势矩阵中项Di1, i2的元素个数。

3 不协调广义多尺度序决策信息系统的最优尺度组合

在本节中,基于优势关系引入广义决策,研究了不协调广义多尺度序决策信息系统中的最优尺度组合,并用于生成单尺度序决策信息系统和提取决策规则。

3.1 不协调广义多尺度序决策信息系统的广义决策

定义9  设$S=(U, C \cup\{d\})=\left(U, \left\{a_j^k \mid k=1, \right.\right.\left.\left.2, \cdots, I_j, j=1, 2, \cdots, m\right\} \cup\{d\}\right)$是一个广义多尺度序决策信息系统,L1=(1, 1, …, 1),如果存在i, j=1, 2, …, m, 使得$\left\{a_1^1, a_2^1, \cdots, a_m^1\right\} \subseteq D_{i j}^{C_1^{L_1} \cup\{d\}}, d \notin D_{i j}^{C^{L_1} \cup\{d\}}$成立,即序决策信息系统(U, CL1∪{d})不协调,则S被称为不协调的;否则,称S是协调的。

性质2  设$S=(U, C \cup\{d\})=\left(U, \left\{a_j^k \mid k=1, \right.\right.\left.\left.2, \cdots, I_j, j=1, 2, \cdots, m\right\} \cup\{d\}\right)$为一个广义多尺度序决策信息系统,$\forall L_1, L_2 \in \mathcal{\varsigma}, L_1<L_2$。如果SL1=(U, CL1∪{d})是不协调的,则SL2=(U, CL2∪{d})也是不协调的;如果SL2=(U, CL2∪{d})是协调的,那么SL1=(U, CL1∪{d})也协调。

证明  根据性质1易证。

由于L是最优尺度组合当且仅当L是协调的,且所有比L粗的尺度组合都不协调,则根据性质2可知,若最细尺度组合和决策属性d形成的序决策信息系统不协调,那么广义多尺度序决策信息系统S的所有尺度组合和决策属性d形成的序决策信息系统都不协调,则我们无法直接遍历S的尺度组合的格结构寻找最优尺度。于是,为了确定S的最优尺度组合,我们在给定尺度组合下,定义广义多尺度序决策信息系统的广义决策。

定义10  设

$S=(U, C \cup\{d\})=\left(U, \left\{a_j^k \mid k=1, 2, \cdots, I_j, j=\right.\right.1, 2, \cdots, m\} \cup\{d\})$是一个广义多尺度序决策信息系统,K=(L, d)=(l1, l2, …, lm, d),在诱导的序决策信息系统(U, CL∪{d})中定义广义决策函数

$ \delta_{C^L}(x)=\left[l_{C^L}(x), u_{C^L}(x)\right], $

其中:

$ \begin{aligned} l_{c^L}(x) & =\min \left\{d(y): y R_{C^L}^{\geqslant} x, y \in U\right\} ; \\ u_{C^L}(x) & =\max \left\{d(y): x R_{C^L}^{\geqslant} y, y \in U\right\} 。\end{aligned} $

$ R_{\delta_{c^L}}^{\geqslant}=\left\{(y, x) \in U \times U \mid \delta_{c^L}(y) \geqslant \delta_{c^L}(x)\right\}, $

$R_{\delta_{c^L}}^{\geqslant}$表示广义决策δCL诱导的优势关系,通过用广义决策δCL替换(U, CL∪{d})中的决策属性d,我们就能得到一个新的序决策信息系统(U, CL∪{δCL})。为了得到(U, CL∪{δCL})的集值优势矩阵,就需要定义广义决策δCL的优势关系。在具体问题中,常采用3种方法定义区间值优势关系。

定义11  设w1=[u1, v1], w2=[u2, v2],定义任意两个区间值的优势关系方法为

1) 下界偏好关系:[u1, v1]≤[u2, v2]⇔u1u2

2) 上界偏好关系:[u1, v1]≤[u2, v2]⇔v1v2

3) 直觉偏好关系:

$ \begin{aligned} & \quad\left[u_1, v_1\right] \leqslant\left[u_2, v_2\right] \Leftrightarrow \frac{1}{2}\left(u_1+v_1\right)<\frac{1}{2}\left(u_2+\right. \\ & \left.v_2\right) \text { 或 } \frac{1}{2}\left(u_1+v_1\right)=\frac{1}{2}\left(u_2+v_2\right) \text { 且 } \frac{1}{2}\left(v_1-u_1\right) \geqslant \\ & \frac{1}{2}\left(v_2-u_2\right) 。\end{aligned} $

定理1  如果采用上述3种方法定义区间值优势关系,则用广义决策δCL替换(U, CL∪{d})中决策属性d得到的序决策信息系统(U, CL∪{δCL})是协调的。

证明  采用定义11的1)定义区间值优势关系,即证

$ \forall x, y \in U, y R_{c^L}^{\geqslant} x \Rightarrow l_{c^L}(x) \leqslant l_{c^L}(y)。$

$ \begin{aligned} & H_1=\left\{d\left(z_1\right): z_1 R_{c^L}^{\geqslant} x, x, z_1 \in U\right\}, \\ & H_2=\left\{d\left(z_2\right): z_2 R_{c^L}^{\geqslant} y, y, z_2 \in U\right\} 。\end{aligned} $

由于$y R_{c^L}^{\geqslant} x \text {, 有 }[y]_{c^L}^{\geqslant} \subseteq[x]{ }_{c^L}^{\geqslant}$所以H2H1,即min(H1)≤min(H2),故lCL(x)≤lCL(y)。

同理可证,定义11的2)和3)定义区间值优势关系也成立。

综上,由定义11知,用广义决策δCL替换(U, CL∪{d})中的决策属性d得到的序决策信息系统(U, CL∪{δCL})是协调的。

$G_\delta^L=\left(U, C \cup\left\{\delta_{C^L}\right\}\right)=\left(U, \left\{a_j^k \mid k=1, 2, \cdots, \right.\right.\left.\left.I_j, j=1, 2, \cdots, m\right\} \cup\left\{\delta_{C^L}\right\}\right)$

显然,GδL是由尺度组合L诱导生成的广义多尺度序决策信息系统,决策属性为δCL,且GδL是协调的。

定义12  设S=(U, C∪{d})是一个不协调的广义多尺度序决策信息系统,L=(l1, l2, …, lm)∈$\varsigma $L1=(1, 1, …, 1)∈$\varsigma $。如果$\exists i, j=1, 2, \cdots, n$, 使得$\left\{a_1^{l_1}, a_2^{l_2}, \cdots, a_m^{l_m}\right\} \subseteq D_{i j}^{c^L \cup\{{\delta}_{c^{L_1}{ }^{}}\}}, d \notin D_{i j}^{c^L \cup\{{\delta}_{c^{L_1}{ }^{}}\}}$成立,则称(U, CL∪{δCL1})是广义决策不协调的;否则,称为广义决策是协调的。

定理2  设广义多尺度序信息系统GδL=(U, C∪{δCL})的集值优势矩阵为DGδLK=(k1, k2, …, km)∈$\varsigma $。如果$\exists i, j=1, 2, \cdots, n$, 使得$\left\{a_1^{k_1}, a_2^{k_2}, \cdots, \right.\left.a_m^{k_m}\right\} \subseteq D_{i j}^{G_\delta^L}, \delta_{c^L} \notin D_{i j}^{G_\delta^L}$成立,则序决策信息系统(U, CK∪{δCL})不协调;否则,(U, CK∪{δCL})协调。

定理3  设$S=(U, C \cup\{d\})=\left(U, \left\{a_j^k \mid k=1, \right.\right.\left.\left.2, \cdots, I_j, j=1, 2, \cdots, m\right\} \cup\{d\}\right)$是一个不协调的广义多尺度序决策信息系统,L, K$\varsigma $L < K。如果(U, CL∪{δCL1})是广义决策不协调的,则(U, CK∪ {δCL1})也是广义决策不协调的;如果(U, CK∪{δCL1})是广义决策协调的,则(U, CL∪{δCL1})也是广义决策协调的。

定理3表明,给定一个不协调广义多尺度序决策信息系统S,若广义决策δCL1与较粗尺度组合形成的序决策信息系统协调,那么它一定与较细尺度形成的序决策信息系统协调。这一结论将帮助我们在不协调的广义多尺度序决策信息系统定义和寻找最优尺度组合。

3.2 不协调广义多尺度序决策信息系统的最优尺度

定义13  设$S=(U, C \cup\{d\})=\left(U, \left\{a_j^k \mid k=1, \right.\right.\left.\left.2, \cdots, I_j, j=1, 2, \cdots, m\right\} \cup\{d\}\right)$是一个不协调的广义多尺度序决策信息系统,L1=(1, 1, …, 1), L=(l1, l2, …, lm)∈ $\varsigma $ 。若不存在i, j=1, 2, …, n, 使得$\left\{a_1^{l_1}, a_2^{l_2}, \cdots, a_m^{l_m}\right\} \subseteq D_{i j}^{G_\delta^{L_1}}, \delta_{c^{L_1}} \notin D_{i j}^{G_\delta^{L_1}}$成立,则序决策信息系统(U, CL∪{δCL1})是协调的,即称尺度组合LS中广义决策协调的。如果尺度组合LS中广义决策协调的,且∀L′=(l1, l2, …, lm)∈ $\varsigma $ , L < L′, L′都不是S中广义决策协调的,则称L=(l1, l2, …, lm)∈ $\varsigma $S的广义决策最优尺度组合,简称最优尺度组合。

由于条件属性aj具有Ij个尺度,则$\varsigma $中所有尺度组合的数量为$\prod\limits_{j = 1}^m {{I_j}} $每个尺度组合加上决策属性δCL1可代表一个集值优势矩阵。又因为($\varsigma $, ≤, ∧, ∨)是一个有限格,所以可以从上到下搜索格结构($\varsigma $, ≤, ∧, ∨)求最优尺度组合。L=(l1, l2, …, lm)∈$\varsigma $S的最优尺度组合,当且仅当L为格($\varsigma $, ≤, ∧, ∨)中使得(U, CL∪{δCL1})协调的最大元素。于是我们设计了一种基于定义13寻找一个最优尺度组合的算法,见算法1。最糟糕的情况下,该算法的时间复杂度为$O\left(\prod\limits_{j = 1}^m {{I_j}} \times|U|^2\right)$

算法1  在不协调广义多尺度序决策信息系统中求最优尺度组合的算法。

输入:一个不协调广义多尺度序决策信息系统

$ \begin{aligned} & \quad S=(U, C \cup\{d\})=\left(U, \left\{a_j^k \mid k=1, 2, \cdots, I_j, j=\right.\right. \\ & 1, 2, \cdots, m\} \cup\{d\})。\end{aligned} $

输出:S的一个最优尺度组合。

1. 计算$\boldsymbol{D}^{G_\delta^{L_1}} ; M \leftarrow \varnothing$

2. For  i, j=1 : n

3.  If δCL1$\notin D_{i j}^{G_\delta^{C^{L_1}}}$

4.   $M \leftarrow D_{i j}^{G_\delta^{C^{L_1}}}$

5.  End if

6. End for

7. Queue←NULL;(l1, l2, …, lm)←(I1, I2, …, Im)

8. L0←(l1, l2, …, lm);Queue.put (L0)

9. While (Queue≠NULL)

10. LQueue.get( )

11. If CLM

12.  Return (L)

13. End if

14. For k=1 : m

15. If (lk>1)

16.   L←(l1, l2, …, lk-1, lk-1, lm);Queue.put(L)

17.  End if

18. End for

19. End while

3.3 不协调广义多尺度序决策信息系统的知识获取

本小节主要研究不协调广义多尺度序决策信息系统的知识获取,分为属性约简和规则提取。序决策信息系统的属性约简是在所有对象的基础上,保持序决策信息系统协调性不变的最小属性子集。

定义14  设$S=(U, C \cup\{d\})=\left(U, \left\{a_j^k \mid k=1, \right.\right.\left.\left.2, \cdots, I_j, j=1, 2, \cdots, m\right\} \cup\{d\}\right)$是一个不协调的广义多尺度序决策信息系统,L=(l1, l2, …, lm)∈$\varsigma $S的最优尺度组合。对$\forall B \subseteq C^L=\left\{a_1^{l_1}, a_2^{l_2}, \cdots, \right.\left.a_m^{l_m}\right\}$,若不存在i, j=1, 2, …, n, 使得$B \subseteq D_{i j}^{c^L \cup\{{\delta}_{c^{L_1}{ }^{}}\}},\delta_{C^{L_1}} \notin D_{i j}^{c^L \cup\{{\delta}_{c^{L_1}{ }^{}}\}}$成立, 存在i, j=1, 2, …, n, ∀bB,使得B-{b}⊆$D_{i j}^{c^L \cup\{{\delta}_{c^{L_1}{ }^{}}\}}, \delta_{C^{L_1}} \notin D_{i j}^{c^L \cup\{{\delta}_{c^{L_1}{ }^{}}\}}$成立,则称BCL的一个约简。

序决策信息系统中的决策规则一般形式为tst是规则的条件部分,s是规则的决策部分。对同时满足决策规则的条件部分和决策部分的对象,称为支持该条规则的对象。决策规则的确定度为$r=\mid t \wedge s \mid / t$,确定度体现了根据条件部分能得出决策部分的可信度。对于不协调广义多尺度序决策信息系统,与文献[20]类似,根据最优尺度组合和属性约简就可以提取确定规则与可能规则,其规则形式为

$ \begin{aligned} & \left(a_1^{k_1}, \geqslant, r_1\right) \wedge\left(a_2^{k_2}, \geqslant, r_2\right) \wedge \cdots \wedge \\ & \left(a_m^{k_m}, \geqslant, r_m\right) \Rightarrow\left(d, \geqslant, r_d\right)。\end{aligned} $

显然确定规则的确定度为1,可能规则的确定度小于1。

例1  假设$S=(U, C \cup\{d\})=\left(U, \left\{a_1^1, a_1^2, a_2^1, \right.\right.\left.\left.a_2^2, a_2^3, a_3^1, a_3^2\right\} \cup\{d\}\right)$是一个广义多尺度序决策信息系统,如表 1所示,则该广义多尺度序决策信息系统共有12个尺度组合,即L1=(1, 1, 1), L2=(2, 1, 1), L3=(1, 2, 1), L4=(1, 1, 2), L5=(2, 2, 1), L6=(2, 1, 2), L7=(1, 2, 2), L8=(1, 3, 1), L9=(2, 3, 1), L10=(1, 3, 2), L11=(2, 2, 2), L12=(2, 3, 2)。显然,L1=(1, 1, 1)和L12=(2, 3, 2)分别为格($\varsigma $, ≤, ∧, ∨)中最小元和最大元,格结构如图 1所示。

图 1 尺度组合的格结构 Fig. 1 Lattice structure of scale combination

例2  在例1中,需要解决问题1)~3),

1) 判断S是否是协调的;

2) 确定S的最优尺度组合;

3) 确定S的属性约简和决策规则。

1) 计算在尺度组合L1=(1, 1, 1)下,序决策信息系统(U, CL1∪{d})的集值优势矩阵,篇幅原因,在此不具体展示。显然$\left\{a_1^1, a_2^1, a_3^1\right\} \subseteq D_{11, 4}^{C_1^{L_1} \cup\{d\}}, d \notin D_{11, 4}^{C^{L_1} \cup\{d\}}$,所以广义多尺度序决策信息系统S是不协调的。

2) 根据广义决策的定义,在最细尺度L1=(1, 1, 1)下,可计算得到表 1中第10列所示的广义决策函数δCL1(x)。由于S不协调,则替换决策属性dδCL1,并分别采用定义11的3种方法定义广义决策δCL1的区间值优势关系,以此来分别求最优尺度组合。

表 1 一个广义多尺度序决策信息系统 Tab. 1 A generalized multi-scale ordered decision information system

① 采用定义11的1)定义区间值优势关系,根据定理1可知(U, CL1∪{δCL1})是协调的。另外可得$G_\delta^{L_1}=\left(U, C \cup\left\{\delta_{C^{L_1}}\right\}\right)$的集值优势矩阵$\boldsymbol{D^{G_\delta^{L_1}}}$,由于矩阵太大和篇幅原因,在此只展示$G_\delta^{L_1}=\left(U, C \cup\left\{\delta_{C^{L_1}}\right\}\right)$的集值优势矩阵中不含决策属性δCL1的项,如

$ \boldsymbol{D}^{\sigma_\delta^{L_1}}=\left[\begin{array}{ccccccc} & x_1 & x_2 & x_8 & x_9 & x_{10} & x_{12} \\ x_1 & & & & \left\{a_1^2, a_2^1, a_2^2, a_2^3\right\} & & \\ x_2 & & & &\left\{a_1^2, a_2^1, a_2^2, a_2^3, a_3^2\right\} & \\ x_3 & \left\{a_2^3\right\} & \left\{a_2^3\right\} & \left\{a_2^1, a_2^2, a_2^3\right\} & \left\{a_2^1, a_2^2, a_2^3\right\} & \left\{a_1^1, a_1^2, a_2^1, a_2^2, a_2^3\right\} & \left\{a_2^3, a_3^2\right\} \\ x_4 & \varnothing & \varnothing & \left\{a_1^1, a_1^2\right\} & \varnothing & \left\{a_1^1, a_1^2, a_2^1, a_2^2, a_2^3\right\} & \left\{a_1^2\right\} \\ x_5 & \varnothing & \varnothing & \left\{a_1^1, a_1^2\right\} & \varnothing & \left\{a_1^1, a_1^2, a_2^1, a_2^2, a_2^3\right\} & \left\{a_1^2\right\} \\ x_6 & \left\{a_2^3\right\} & \left\{a_2^3\right\} & \left\{a_2^2, a_2^3\right\} & \left\{a_2^3\right\} & \left\{a_2^1, a_2^2, a_2^3\right\} & \left\{a_2^3, a_3^1, a_3^2\right\}\\ x_7 & \varnothing & \varnothing & \varnothing & \varnothing & \left\{a_2^1, a_2^2, a_2^3\right\} & \left\{a_3^1, a_3^2\right\} \\ x_8 & & & & \left\{a_2^3\right\} \\ x_{10} & & & & \varnothing \\ x_{11} & \left\{a_2^3\right\} & \left\{a_2^3\right\} & \left\{a_1^1, a_1^2, a_2^2, a_2^3\right\} & \left\{a_2^3\right\} & \left\{a_1^1, a_1^2, a_2^1, a_2^2, a_2^3\right\} & \left\{a_1^1, a_1^2, a_2^3\right\} \\ x_{12} & & & & \left\{a_2^1, a_2^2, a_2^3\right\} & &。\end{array}\right] $

对于$C^{L_{12}}=\left\{a_1^2, a_2^3, a_3^2\right\}$,由于$\left\{a_1^2, a_2^3, a_3^2\right\} \subseteq D_{2, 9}^{G_8^{L_1}}=$\left\{a_1^2, a_2^1, a_2^2, a_2^3, a_3^2\right\}, \delta_{c^{L_1}} \notin D_{2, 9}^{G_\delta^{L_1}}$, 故$\left(U, C^{L_{12}} \cup\left\{\delta_{c^{L_1}}\right\}\right)$不协调。

对于$C^{L_{10}}=\left\{a_1^1, a_2^3, a_3^2\right\}$,由于不存在i, j=1, 2, …, n, 使得$\left\{a_1^1, a_2^3, a_3^2\right\} \subseteq D_{i j}^{G_\delta^{\delta_1}}, \delta_{L^{L_1}} \notin D_{i j}^{G_\delta^{L_1}}$成立,故(U, CL10∪{δCL1})协调。

同理,也可计算得到(U, CL11∪{δCL1})不协调,(U, CL9∪{δCL1}), (U, CL6∪{δCL1})协调。

根据最优尺度组合的定义和图 1的格结构,可知最优尺度组合为(2 3 1), (1 3 2)。

② 采用定义11的2)和3)分别定义区间值优势关系,计算过程在此不具体描述,方法与①一样,可分别得最优尺度为(2 1 2)和(1 1 2), (2 1 1)。

3) 选择定义11的1)所得的最优尺度组合L9=(2, 3, 1)为例求其属性约简。

由于可求得不存在i, j=1, 2, …, n, 使得

$ \left\{ {a_1^2, a_3^1} \right\} \subseteq D_{ij}^{{L_9} \cup \{ {\delta _{{c^{{L_1}}}}}\} }, {\delta _{{C^{{L_1}}}}} \notin D_{ij}^{{L_9} \cup \{ {\delta _{{c^{{L_1}}}}}\} },$

$ \begin{aligned} & \left\{a_1^2\right\} \subseteq D_{4.8}^{{L_9} \cup \{ {\delta _{{c^{{L_1}}}}}\} }, {\delta _{{C^{{L_1}}}}} \notin D_{4.8}^{{L_9} \cup \{ {\delta _{{c^{{L_1}}}}}\} }, \\ & \left\{a_3^1\right\} \subseteq D_{7.12}^{{L_9} \cup \{ {\delta _{{c^{{L_1}}}}}\} }, {\delta _{{C^{{L_1}}}}} \notin D_{7.12}^{{L_9} \cup \{ {\delta _{{c^{{L_1}}}}}\} }。\end{aligned} $

所以,根据定义14知{a12, a31}是序决策信息系统(U, {a12, a23, a31}∪{δCL1})的一个约简。

又因为{a12, a23},{a23, a31},{a23}均不是(U, {a12, a23, a31}∪{δCL1})的约简,所以{a12, a31}是(U, {a12, a23, a31}∪{δCL1})的唯一一个约简。

因此可得

$S=(U, C \cup\{d\})=\left(U, \left\{a_1^1, a_1^2, a_2^1, a_2^2, a_2^3, a_3^1\right.\right.\left.\left.a_3^2\right\} \cup\{d\}\right)$。在L9=(2, 3, 1)下的部分序决策规则为

r1: (a12, ≥, 9)∧(a31, ≥, 93)⇒(d, ≥, 2),该规则的支持对象为x2, x9,确定度为1;

r2: (a12, ≥, 7)∧(a31, ≥, 71)⇒(d, ≥, 1),该规则的支持对象为x1, x2, x3, x8, x9, x10, x12,确定度为1;

r3: (a12, ≥, 8)∧(a31, ≥, 58)⇒(d, ≥, 2),该规则的支持对象为x1, x2, x4, x8, x9, x12, 确定度为$\frac{3}{4}$

r4: (a12, ≥, 8)∧(a31, ≥, 85)⇒(d, ≥, 3),该规则的支持对象为x1, x8, x9,确定度为$\frac{3}{4}$

4 实验与分析

为了验证本文提出的算法1的有效性,即验证所提出的广义决策最优尺度组合是合理的。本节在一些公开的数据集上进行数值实验,这些数据集来自加州大学欧文分校(UCI),具体信息如表 2所示。

表 2 数据集的描述 Tab. 2 Description of the dataset

由于这些数据集对应的信息系统的条件属性是单尺度的,所以必须将数据集预处理转换成多尺度信息系统。采用文献[11]方法获得多尺度信息系统,步骤如下。

1) 通过$a^1(x)=\left\lfloor\left(a(x)-m_a\right) / \mathit{std}(a)\right\rfloor$计算得到属性a的第一个尺度,其中a(x)是原始数据集对象x的属性值,mastd(a)分别是属性a的最小值和标准差,$\lfloor y\rfloor$表示满足zy的最大整数z

2) 为了模拟数据有序的分类任务,首先计算样本在条件属性下的平均值,接着具有较大平均值的样本被分配较大的类标签,具有较小平均值样本被分配较小的类标签。考虑类标签的数量远小于样本数量,在基于平均值对类标签进行赋值过程中,采用根据类标签数量进行批量赋值的方法。例如,对于数据集iris,我们按照平均值的顺序将其分成3个数量相等的部分,并按照对应顺序为样本分配标签值。然后为了保证不协调性,随机选择5%的样本且使选择的每个类标签样本个数相等,并用其余类标签值平均替换原有标签值,就获得了不协调序决策信息系统。

3) 在第一个尺度的基础上,从下到上依次合并属性值来得到后续的尺度,直到当前尺度级的属性值域不超过3个,如假设属性a的第1个尺度的属性值域为a1={0, 1, 2, 3, 4, 5},则a2={1, 2, 3, 4, 5},a3={2, 3, 4, 5}, a4={3, 4, 5},故属性a有4个尺度。

显然,通过步骤1)~3)求得的广义多尺度序决策信息系统是不协调的,并利用算法1和定义11三种不同方法就可求得最优尺度组合,结果如表 3所示。表 3还显示了最优率和平均尺度,最优率表示尺度级 2的属性百分比,平均尺度为所有尺度的平均值。如数据集iris包含4个属性,在定义11的3种定义区间值优势关系方法下,最优尺度组合分别为(1, 3, 2, 2), (2, 1, 2, 1), (1, 1, 2, 1)。与最细尺度组合相比,最优率分别为0.75, 0.50, 0.25,平均尺度分别为2.00, 1.50, 1.25。

表 3 数据集的最优尺度组合 Tab. 3 Optimal scales combination of the dataset

通过使用MATLAB R2020b提供的分类器K近邻(KNN, K=3)、分类回归树(CART)来评估算法所求得的最优尺度组合的性能。为了进行充分的比较,采用三种不同尺度组合比较,即最细尺度组合、最粗尺度组合、最优尺度组合。

实验中使用这些分类器的默认参数设置,采用三重交叉验证,即对于每个数据集,选择2/3的样本作为训练集,其余1/3的样本作为测试集。分类准确率作为评价指标。重复实验10次,计算分类准确率的平均值和标准差作为最终结果。实验结果如表 4~5所示。在此需要说明的是,表 4~5中最优尺度组合的三个分类准确率数据是在定义11的三种不同区间值优势关系定义方法下得到的,即相当于三个不同参数所得的结果。而最细尺度组合和最粗尺度组合不受其影响,三种定义方法下所得结果均相同。

表 4 最优尺度组合在分类器KNN上的分类性能比较 Tab. 4 The comparison of classification performance of optimal scale combination on classifier KNN 

表 5 最优尺度组合在分类器CART上的分类性能比较 Tab. 5 The comparison of classification performance of optimal scale combination on classifier CART 

表 4~5可以看出,对于分类器KNN,在iris数据集上,最优尺度组合取得了最大分类准确率;分类器CART在数据集iris和vertebral-column-3c上的最优尺度组合也取得了最大分类准确率,说明将单尺度信息表转换为多尺度信息表并求得的最优尺度组合可以在一定程度上提高分类性能。相比最细尺度组合,所有数据集的最粗尺度组合分类效果较差,主要在于尺度不断合并过程导致大量信息丢失。但对于大多数数据集,最优尺度组合的分类精度与最细尺度组合分类精度接近,理论上代价也降低了,说明所提出的广义决策最优尺度组合是有效的,在一定条件下能取得较好的决策结果。

5 总结

目前,广义多尺度决策信息系统的研究大多基于等价关系,而基于优势关系进行的研究仍然较少。本文定义序决策信息系统的集值优势矩阵和广义多尺度序决策信息系统,并给出了通过集值优势矩阵判断序决策信息系统是否协调的方法。针对不协调广义多尺度序决策信息系统的最优尺度组合、知识获取问题,引入广义决策的概念,用理论证明了用广义决策δCL替换序决策信息系统中的决策属性d能得到新的协调序决策信息系统。基于此,利用集值优势矩阵给出了求不协调广义多尺度序决策信息系统最优尺度组合和属性约简方法,这一方法简单且无须每次计算条件属性和决策属性的优势类。在下一步的研究中,考虑深入研究集值优势矩阵的性质,以此研究最优尺度组合的启发式算法。

参考文献
[1]
PAWLAK Z. Rough sets[J]. International journal of computer & information sciences, 1982, 11(5): 341-356. (0)
[2]
王君宇, 杨亚锋, 赵佳亮, 等. 基于粒化可拓决策的属性约简算法研究[J]. 郑州大学学报(理学版), 2022, 54(5): 72-81.
WANG J Y, YANG Y F, ZHAO J L, et al. Research on attribute reduction algorithm based on granulation extension decision[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(5): 72-81. DOI:10.13705/j.issn.1671-6841.2021358 (0)
[3]
刘东君, 陈红梅. 高斯核模糊粗糙集中基于粒子群算法的属性约简[J]. 郑州大学学报(理学版), 2018, 50(3): 53-59.
LIU D J, CHEN H M. Attribute reduction in Gaussian kernel based fuzzy rough sets based on particle swarm optimization[J]. Journal of Zhengzhou university (natural science edition), 2018, 50(3): 53-59. DOI:10.13705/j.issn.1671-6841.2017068 (0)
[4]
GRECO S, MATARAZZO B, SLOWINSKI R. Rough approximation of a preference relation by dominance relations[J]. European journal of operational research, 1999, 117(1): 63-83. DOI:10.1016/S0377-2217(98)00127-1 (0)
[5]
WU W Z, LEUNG Y. Theory and applications of granular labelled partitions in multi-scale decision tables[J]. Information sciences, 2011, 181(18): 3878-3897. DOI:10.1016/j.ins.2011.04.047 (0)
[6]
WU W Z, LEUNG Y. Optimal scale selection for multi-scale decision tables[J]. International journal of approximate reasoning, 2013, 54(8): 1107-1129. DOI:10.1016/j.ijar.2013.03.017 (0)
[7]
张清华, 张雪秋, 庞国弘. 多尺度决策系统中代价敏感的最优尺度组合[J]. 控制与决策, 2021, 36(10): 2369-2378.
ZHANG Q H, ZHANG X Q, PANG G H. Cost-sensitive optimal scale combination in multi-scale decision systems[J]. Control and decision, 2021, 36(10): 2369-2378. (0)
[8]
XU Y H, WU W Z, TAN A H. Optimal scale selections in consistent generalized multi-scale decision tables[C]//International Joint Conference on Rough Sets. Cham: Springer International Publishing, 2017: 185-198. (0)
[9]
ZHU Y J, YANG B. Optimal scale combination selection for inconsistent multi-scale decision tables[J]. Soft computing, 2022, 26(13): 6119-6129. DOI:10.1007/s00500-022-07102-y (0)
[10]
BAO H, WU W Z, ZHENG J W, et al. Entropy based optimal scale combination selection for generalized multi-scale information tables[J]. International journal of machine learning and cybernetics, 2021, 12(5): 1427-1437. DOI:10.1007/s13042-020-01243-y (0)
[11]
WU W Z, QIAN Y H, LI T J, et al. On rule acquisition in incomplete multi-scale decision tables[J]. Information sciences, 2017, 378: 282-302. DOI:10.1016/j.ins.2016.03.041 (0)
[12]
LI F, HU B Q. A new approach of optimal scale selection to multi-scale decision tables[J]. Information sciences, 2017, 381: 193-208. DOI:10.1016/j.ins.2016.11.016 (0)
[13]
HUANG Z H, LI J J, DAI W Z, et al. Generalized multi-scale decision tables with multi-scale decision attributes[J]. International journal of approximate reasoning, 2019, 115: 194-208. DOI:10.1016/j.ijar.2019.09.010 (0)
[14]
WU W Z, NIU D R, LI J H, et al. Rule acquisition in generalized multi-scale information systems with multi-scale decisions[J]. International journal of approximate reasoning, 2023, 154: 56-71. DOI:10.1016/j.ijar.2022.12.004 (0)
[15]
张嘉茹, 吴伟志, 杨烨. 协调广义决策多尺度序信息系统的知识获取[J]. 模式识别与人工智能, 2022, 35(9): 789-804.
ZHANG J R, WU W Z, YANG Y. Knowledge acquisition for consistent generalized decision multi-scale ordered information systems[J]. Pattern recognition and artificial intelligence, 2022, 35(9): 789-804. (0)
[16]
杨烨, 吴伟志, 张嘉茹. 不协调广义决策多尺度序信息系统的最优尺度选择与规则提取[J]. 计算机科学, 2023, 50(6): 131-141.
YANG Y, WU W Z, ZHANG J R. Optimal scale selection and rule acquisition in inconsistent generalized decision multi-scale ordered information systems[J]. Computer science, 2023, 50(6): 131-141. (0)
[17]
DEMBCZYŃSKI K, GRECO S, KOTŁOWSKI W, et al. Quality of rough approximation in multi-criteria classification problems[M]. Berlin: Springer Press, 2006: 318-327. (0)
[18]
DEMBCZYNSKI K, GRECO S, SŁOWIŃSKI R. Second-order rough approximations in multi-criteria classification with imprecise evaluations and assignments[M]//Lecture Notes in Computer Science. Berlin: Springer Press, 2005: 54-63. (0)
[19]
杨蕾, 张晓燕, 徐伟华. 序决策信息系统中基于差别信息树的分配约简[J]. 郑州大学学报(理学版), 2019, 51(2): 84-89.
YANG L, ZHANG X Y, XU W H. Assignment reduction based on discernibility information tree in ordered decision information systems[J]. Journal of Zhengzhou university (natural science edition), 2019, 51(2): 84-89. DOI:10.13705/j.issn.1671-6841.2018140 (0)
[20]
GRECO S, MATARAZZO B, SLOWINSKI R. Rough approximation by dominance relations[J]. International journal of intelligent systems, 2002, 17(2): 153-171. (0)