2. 北京理工大学 管理与经济学院,北京 100081
2. School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China
粗糙集[1]、形式概念分析[2]和因素空间[3]是在1982年同时诞生的3个数学流派。3种理论都明确地把知识与思维过程作为数学描述的对象,可被视为智能数学的代表。其中,在数据库中最早付诸实践的是粗糙集。其领军人物Polkowski和Skowron[4]在1989发表的《粗糙集与知识发现》一文引领了第十届国际人工智能大会上所提出的KDD(数据库知识发现)的新潮流。粗糙集用属性所构建的信息系统来描写事物,用各种细化的熵指标来实现信息的标度,为数据知识挖掘提供了理论基础。相比之下,Wille的形式概念分析就没有那么明确的实际背景。他的理论是在被埋没了12年之后,才被人们发现的。他的《形式概念分析》一书围绕概念格提取这一主题而展开,数学严谨。集合论向世人强调了任何概念的外延都是一个集合。但若反过来问:任何集合都一定是概念的外延吗?就不好回答了。Wille明确地回答:No!他第一次明确地从数学上提出了内涵与外延之间的对合性条件,只有满足对合性的集合和属性对才能形成概念。这是他的重要贡献。在这一点上粗糙集的用词就显得太粗糙了。它把由任一映射所形成的划分都叫做知识,那么,任一集合都可以由其特征函数形成一个划分。由此可推得:任一集合必是某概念的外延,这就与Wille的理论产生了矛盾。人工智能要运用概念进行识别与搜索,内涵是我们识别事物的依据,外延是我们实现搜寻的结果,如果内涵与外延不相一致,那么人工智能就不具备实践的前提。这不能不说是粗糙集在用词上的一个疏忽。
在对属性的称呼上也存在着矛盾。例如,颜色有红、黄、蓝
以上矛盾并没有影响粗糙集与形式概念的融合,二者求同存异,彼此互补,都得到了良好的发展[5-6]。Wille的形式背景表以属性值来分列,而粗糙集的信息系统表以属性名来分列,前者的应用效率是比不上后者的。所以,粗糙集在应用邻域一直先行。在跨世纪的年代里,粗糙集在属性约简方面一度在机器学习的应用邻域走红,当时,特征提取仍然是人工智能的瓶颈,特征要靠专家的经验来提取,这就必须限定识别空间的维数。在高维度数据面前,如何降低维度是最大的关键。于是,粗糙集的属性约简方法被人们视为新的希望。出现了大量应用属性约简来提取特征的研究[7-9]。尤其是支持向量机与属性约简相结合[10],更使人注目。遗憾的是,这个时期不太长久,属性约简目前已经减弱了。因为属性约简要用到一个概念工具,叫做区分矩阵(或差异矩阵)。正是由于这个概念的奇特性影响了事态发展。为了说明这件事情,需要回顾一下有关定义。
1 粗糙集信息系统在粗糙集中,一个信息系统(或称知识表达系统)被描述成一个四元组S=(U, A, V, f),其中U是对象的非空集合,A是属性名的集合,V是属性值的集合,f是从对象x就着属性A向V所作的映射。为了便于理解,我们对以下所引用的定义符号都略有改变。
定义1[11] 矩阵
$\alpha (x,y) = \left\{ {a \in A\left| {f(x,a) \ne f(y,a)} \right.} \right\}$ | (1) |
这个定义的奇特之处在于矩阵中的元素
定义2[11] 区分函数∆的定义为
$\Delta = \prod\nolimits_{\left( {x,y \in U \times U} \right)} {\left( {\sum {\alpha (x,y)} } \right)} $ | (2) |
在这里设A={a1, a2,
对于上述内容,应用工作者多看不懂,数学工作者则想不明。有一连串问题:对于属性a为什么要指定一个布尔变量,指定后的运算意义和根据是什么不太明确。布尔变量的析取(∨或∑)合取(∧或∏)对于属性来说究竟是什么意思?若不存在将对象x与y分开的属性名,为什么对a(x, y)指定布尔变量1而不是0?为什么区分函数的极小析取范式中的所有合取项就是S的全部属性约简粗糙集?如此等等都阻碍了人们的理解和应用。
最关键的问题是,粗糙集从未定义过属性名之间的运算,而区分矩阵这一工具所要操作的就是属性名运算。这就形成一种理解障碍。人们曾想通过实际经验来越过障碍,但是,粗糙集中的属性指的是属性名而不是属性值。我们都有属性值之间的运算经验,要把“头发金黄”与“身材高大”这两个属性值进行“且”的运算,我们能理解这种运算结果就是属性值“头发金黄而且身材高大”。可是,要把“身材”与“发色”这两个属性名来加以或、且、非的运算,我们便无从想象了。
其实,这里只差一步,就是应当对属性名称定义运算,给这些运算以合理解释,这个理解障碍就能克服。属性约简的方法就能继续向前发展,降温的应用领域就能重新热起来。而这方面的工作,因素空间早就做了。因素就是粗糙集中所说的属性名。因素空间特地定义了因素之间的运算。本文就是要用因素空间的理论来解释区分矩阵。并给属性约简提供新的发展思路。
2 因素空间中分辨过程的因素约简因素空间是汪培庄[12]在1982年提出的以智能描述为主题的数学理论,曾在知识表示和人工智能领域发挥过重要作用,近年来,又以数据科学为重点,为大数据处理提供坚实的数学基础[13-15]。
因素f是串领属性的关键词。红,黄,蓝,百,黑
定义3[10] 称集合族
1) 指标集
2) X(0)={∅};
3) 对任意
$(\forall s,t \in T)(s \ne t \Rightarrow s \wedge t = {\rm{0}})$ |
则
4)
$f:D(f) \to X(f){\kern 1pt} {\kern 1pt} (D(f) \subseteq U)$ |
F叫做因素集,其最大、最小元1和0分别叫做全因素和零因素,X(f)叫做f-性态空间。
所谓一个因素空间就是以因素为指标集的一族属性状态空间,而这些因素之间有运算,构成一个布尔代数F=(F, ∨, ∧, c)。运算符∧、∨分别表示因素的分解与综合,其中难以理解的是分解。这要通过因素在粗细上所形成的序关系来说明。因素的考量维度有多寡之分。考虑的维度少,对象就朦胧难分,考虑的维度多,对象才能彼此分离。越大越细,越小越抽。如果因素f所作的划分比因素g的划分更细的话,我们就称f比g大,记作f≥g。f比g大当且仅当对任意u, v∈U, 若f(u)=f(v)则g(u)=g(v)(或者,若g(u)≠g(v)则f(u)≠f(v))。
不难证明,(F, ≥)是一个偏序集。而且布尔代数的运算就是依托这个序关系而建立起来的:f∨g=sup(f, g);f∧g=inf(f, g)。若把序关系形象地说成是上下级关系,f∨g就是f与g的最小公共上司,f∧g就是f与g的最大公共下级。所以,我们把因素的(∨,∧)运算不做析取–合取运算,而是反过来叫做综合–分解运算。因素是分析与综合的工具。分解∧是将因素由大变小(由粗变细)的过程,而综合∨是使因素由小变大(由细变粗)的反过程。F=(F, ∨, ∧, c)形成一个布尔代数,因素是其中的布尔变量。最大、最小元1和0分别叫做全因素与零因素。一个因素不能分解成除自己与零因素之外的下级因素(简称因子)叫做质因素或原子因素。对于区分事物来说,因素合得越大,区分的能力就越强,这是一条最基本的原则。
因素空间中的因素就是粗糙集中所说的属性名。因素空间中所说的属性,就是粗糙集中的属性值。因素空间对区分矩阵的诠释,是从对事物的分辨开始的。
定义4 给定因素空间,称因素
粗糙集的区分矩阵是对对象两两分辨的因素集为元素的矩阵。由于因素本身就是布尔变量,就无需再作什么指定。因素之间早就定义了综合与分解的运算,并且约定,一组相对简单的因素
命题1 若f能分辨A,且
证明 f能分辨A的意思是,对任意
命题2 若f能分辨A,且B⊆A,则f能分辨B。
证明显然成立。
定义5 称因素空间是正则的,如果能保证:f∧g能分辨A,只要f与g都能分辨A。
虽不能证明所有因素空间都是正则的,但正则性却是普遍地近似的存在着。
命题3 在正则因素空间里,若f1能分辨A1, A2,
证明由命题2知,对任意j=1, 2,
定义6 给定A⊆U,由
f(u, v)是能区分u与v的因素的最大下级公共因素。这样的因素越少,公共下级因素就越大,当没有这样的因素时,公共下级因素就取最大。全因素应当能区分所有的对象。对角线上的元素全是1。这也解释了定义中的约定为什么是合理的。
定义7 对任意A⊆U记
$d\left( A \right) = \vee \{ f\left( {u,v} \right)|u,v \in A\} = \vee \{ \wedge \{ f|f\left( u \right) \ne f\left( v \right)\} |u,v \in A\} $ |
叫做A的因素区分函数。
注意,这里的区分函数就是定义2中所说的区分函数,只不过把析取与合取的符号互相颠倒罢了。
命题4 在正则的因素空间中,若区分矩阵中不出现最小元0,A的因素区分函数就是能分辨A的最小因素。
证明 在正则的因素空间中,由命题2.3知f(u, v)能分辨u与v。因
设g能分辨A,则对任意u, v∈A, u≠v, 都有g(u)≠g(v)。于是,
证毕。
注意,粗糙集用区分矩阵提取的是极小属性约简,本文提出的是最小因素。这看起来是一大进步,但是,命题4中要求区分矩阵不出现0分解,这是一个太强的约束,现实意义不大。
定义8 设因素f、g都能分辨A,且f<g,则称在分辨A上f是对g的约简因素,从f到g,叫做是一次因素约简。固定A=U,g=全因素1,1的约简因素就叫约简因素。因素约简问题就是要找出约简因素,越小越好。因素空间对此提供了另一种现实的因素约简的途径,一是概念划分中以分辨度来实现的因素约简算法,一是决策表以决定度来实现的因素约简算法,其复杂度为O(m2n),这里m、n分别表示对象和因素的个数。
3 结束语因素空间中所说的因素是事物生成与思维描述的第一要素。它与粗糙集的属性名相通,但却有更深刻的涵义,它是事物的质根,是广义的基因,它不是被动地描述事物,而是引领着人们的思考,出点子,想办法,都指的是因素,抓注意矛盾,也抓的是因素。运用因素之间的运算,除了能说清楚什么是区分矩阵以外,还能在属性约简的实际算法上作贡献。用区分函数来约简属性是一种理想的方式,其算法很难实现,粗糙集用区分矩阵求极小属性存在着N-hard困境,有的文献要用到整值规划,后者的复杂性已被证明是指数型的,不存在多项式算法。因素空间可以提供简捷的算法。
[1] | PAWLAK Z. Rough sets[J]. International journal of computer and information sciences, 1982, 11(5): 341-356. (0) |
[2] | WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts[M]. Ordered sets. Springer. 1982: 445-470. (0) |
[3] |
汪培庄, SUGENOM. 因素场与模糊集的背景结构[J]. 模糊数学, 1992(2): 45-54. WANG Peizhuang, SUGENO M. The factors field and background structure for fuzzy subsets[J]. Fuzzy mathematics, 1992(2): 45-54. (0) |
[4] | POLKOWSKI S L, SKOWRON S A. Rough sets in knowledge discovery 2 [M]. Physica-Verlag HD, 1989. (0) |
[5] |
叶东毅, 陈昭炯. 一个新的差别矩阵及其求核方法[J]. 电子学报, 2002, 30(7): 1086-1088. YE Dongyi, CHEN Zhaojiong. A new discernibiligy maatrix and the computation of a core[J]. Acta electornica sinica, 2002, 30(7): 1086-1088. (0) |
[6] |
王昊, 朱惠, 邓三鸿. 基于形式概念分析的学科术语层次关系构建研究[J]. 情报学报, 2015(6): 616-627. WANG Hao, ZHU Hui, DENG Sanhong. Study on construction of hierarchy relationship of subject terms based on formal concept analysis[J]. Journal of the China society for scientific andtechnical information, 2015(6): 616-627. (0) |
[7] |
李元诚, 方廷健. 一种基于粗糙集理论的SVM短期负荷预测方法[J]. 系统工程与电子技术, 2004, 26(2): 187-190. LI Yuanchen, FANG Tingjian. Approach to forecast short-term load of SVM based on rough sets[J]. Systems engineering and electronics, 2004, 26(2): 187-190. (0) |
[8] |
张腾飞, 肖健梅, 王锡淮. 粗糙集理论中属性相对约简算法[J]. 电子学报, 2005, 33(11): 2080-2083. ZHANG Tengfei, XIAO Jianmei, WANG Xihuai, et al. Algorithms of attribute relative reduction in rough set theory[J]. Acta electornica sinica, 2005, 33(11): 2080-2083. (0) |
[9] |
戎晓霞, 刘家壮, 马英红. 基于Rough集的决策表属性最小约简的整数规划算法[J]. 计算机工程与应用, 2004, 40(11): 24-25. RONG Xiaoxia, LIU Jiazhuang, MA Yinghong. Integer programming algorithm for finding minimal reduction in decision table based on rough set[J]. Computer engineering and application, 2004, 40(11): 24-25. (0) |
[10] | XU Y, WANG L. Fault diagnosis system based on rough set theory and support vector machine[C]//Proceedings of the Fuzzy Systems and Knowledge Discovery, Second International Conference. Changsha, China.2005. (0) |
[11] |
张文修. 粗糙集理论与方法 [M]. 北京: 科学出版社, 2001. ZHANG Wenxiu. Theory and method of rough set[M]. Beijing: Science Press, 2001. (0) |
[12] |
汪培庄, 李洪兴. 知识表示的数学理论 [M]. 天津:天津科学技术出版社, 1994. WANG Peizhuang, LI Hongxing. A mathematical theory on knowledge representation[M]. Tianjin: Tianjin Scientific and Technical Press, 1994. (0) |
[13] |
汪培庄. 因素空间与因素库[J]. 辽宁工程技术大学学报: 自然科学版, 2013, 32(10): 1-8. WANG Peizhuang. Factor spaces and factor data-bases[J]. Journal of Liaoning technical university: natural science, 2013, 32(10): 1-8. (0) |
[14] |
汪培庄, 郭嗣琮, 包研科, 等. 因素空间中的因素分析法[J]. 辽宁工程技术大学学报: 自然科学版, 2014, 33(7): 865-870. WANG Peizhuang, GUO Sicong, BAO Yanke, et al. Factorial analysis in factor space[J]. Journal of Liaoning technical university: natural science, 2014, 33(7): 865-870. (0) |
[15] |
刘海涛, 郭嗣琮. 因素分析法的推理模型[J]. 辽宁工程技术大学学报, 2015, 34(1): 124-128. LIU Haitao, GUO Sicong. The reasoning model for factorial analysis[J]. Journal of Liaoning engineering technical university, 2015, 34(1): 124-128. (0) |