西北大学学报自然科学版  2017, Vol. 47 Issue (3): 330-335  DOI: 10.16152/j.cnki.xdxbzr.2017-03-003

数学·形式概念分析理论专题研究

引用本文 

钱婷, 贺晓丽. 区间集概念格的构造理论研究[J]. 西北大学学报自然科学版, 2017, 47(3): 330-335. DOI: 10.16152/j.cnki.xdxbzr.2017-03-003.
[复制中文]
QIAN Ting, HE Xiaoli. The construction theoretical research of interval-set concept lattices[J]. Journal of Northwest University(Natural Science Edition), 2017, 47(3): 330-335. DOI: 10.16152/j.cnki.xdxbzr.2017-03-003.
[复制英文]

基金项目

国家自然科学基金资助项目(11371014, 11071281, 61472471)

作者简介

钱婷,女,山东聊城人,博士,从事形式概念分析、三支决策等研究。

文章历史

收稿日期:2017-04-06
区间集概念格的构造理论研究
钱婷, 贺晓丽     
西安石油大学 理学院, 陕西 西安 710065
摘要:区间集概念格是对形式概念分析理论的扩展, 也是形式概念分析与区间集理论相结合的产物。区间集概念所反映的是人类认知的动态描述, 它比形式概念更复杂, 而在此基础上形成的区间集概念格也更为复杂。文中在研究区间集概念格与概念格之间关系的基础上, 提出了一种构造区间集概念格的方法, 其主要思想是将概念格中的形式概念在某种合适规则下融合成区间集概念。最后给出了该方法相应的算法。
关键词形式概念分析    区间集    区间集概念格    构造    
The construction theoretical research of interval-set concept lattices
QIAN Ting, HE Xiaoli     
College of Science, Xi′an Shiyou University, Xi′an 710065, China
Abstract: Interval-set concept lattice is an extension of formal concept analysis (FCA), which is a product of the combination between FCA and the interval-set theory. Interval-set concept is a reflection of the dynamic description of human cognition, and it is more complicated than formal concept. On the basis of the formation, the interval set concept lattice is also more complicated. Aiming at the construction simplification of an interval set concept lattice, the connections between the Interval-set concept lattice and the concept lattice are studied, and furthermore an approach to constructing the interval set concept lattice is proposed. The main idea is to fuse formal concept of the corresponding concept lattice into interval-set concept under some rules. Lastly, the corresponding algorithm of constructing interval-set concept lattice is given.
Key words: formal concept analysis    interval set    interval set concept lattice    construction    

为了重建格理论, 实现哲学中概念与概念层次结构的数学化描述, 德国数学家Wille R.于1982年提出了形式概念分析理论(Formal Concept Analysis, FCA) [1-2]。FCA通过内涵和外延的依赖关系及概念的层次关系直观简洁的反映隐藏在数据集中的信息, 所以近年来它在中医药成分分析[3], 专家系统[4], 数据挖掘[5]以及软件工程[6-7]等领域得到了广泛的应用。

与其他理论相结合进行研究也是FCA的一个重要的研究方向。由此产生了一系列新的概念格模型[8-19]。例如, Düntsch和Gediga在文献[8]中把粗糙集中的上下近似引入形式概念分析, 提出了面向属性概念格。类似地, Yao[9]给出了面向对象概念格的定义。随后, Ma等[10]研究了面向对象概念格的构造方法。结合三支决策, Qi等[11-12]提出了三支概念格。随后, Qian等[13]利用背景的运算研究了三支概念格的构造方法。刘琳等[14]基于三支概念格研究了决策形式背景上的规则提取理论。

区间集概念格[15]是将区间集理论[16]与概念格理论相结合而产生的一种新的概念格模型。其本质思想是把概念中表示外延与内涵的集合推广到区间集, 利用区间集所反映的不确定信息把经典概念扩展到区间集概念。区间集概念格继承并推广了概念格的方法和技巧, 是研究概念动态变化的有效工具。后来, 在不完备背景上, Yao在文献[17]中将区间集理论与三支概念分析结合, 提出了区间集算子并对文献[18]中的概念格给出了相应的区间集表示。

区间集概念格被提出之后, 关于区间集概念的计算目前只有利用定义计算的方法, 即先求出对象集(属性集)的所有区间集, 再利用区间集算子判断是否可以生成区间集概念。据计算, 若对象(属性)集所含元素的个数是n(m), 那么所需要遍历的所有区间集的个数为3n(3m)。而用形式概念的定义计算所有经典概念, 只需遍历的所有子集的个数为2n(2m), 因此, 利用定义计算区间集概念的方法计算量十分大。然而, 区间集概念格的其他方面研究又离不开区间集概念格的建造。因此, 寻找新的方法构造区间集概念格势在必行。

本文在回顾形式概念分析、区间集以及区间集概念格相关理论的基础之上, 研究了区间集概念格与经典概念格的联系, 进而提出了一种基于经典概念格构造区间集概念格的方法, 并在此基础上给出了相应的算法, 分析了其时间复杂度。

1 相关概念及基本理论 1.1 形式概念分析

形式概念分析的研究基础是刻画对象与属性之间的二元关系的数据集——形式背景, 而以此为基础获取的格结构模型是该理论的核心数据结构——概念格, 其能生动简洁地体现概念之间的泛化和特化关系[1-2]

定义1  [1]设(G, M, I)为一个形式背景, 其中G={g1, …, gp}为对象集, 每个gi(ip)称为一个对象; M={m1, …, mq}为属性集, 每个mj(jq)称为一个属性; IGM之间的二元关系, IG×M。若(g, m) ∈I, 则表示对象g有属性m, 也记为gIm

GM均为有限集合时, 形式背景(G, M, I)可以用一个有限二维表来表示。

在对象子集XG和属性子集AM上定义一对对偶算子如下:

X*={m|mM, ∀gX, gIm},

A*={g|gG, ∀mA, gIm}。

X*表示X中所有对象共同具有的属性集合, A*表示共同具有A中所有属性的对象集合。如果一个二元组(X, A)满足X*=A, 且A*=X, 则称(X, A)是一个形式概念, 简称概念。其中, X称为概念的外延, A称为概念的内涵。

L(G, M, I)表示形式背景(G, M, I)的全体概念, 在偏序关系(X1, A1)≤(X2, A2)⇔X1X2(⇔A1A2)下, 可以证明

(X1, A1)∧(X2, A2)=(X1X2, (A1A2)**),(X1, A1)∨(X2, A2)=((X1X2)**, A1A2),也是概念, 从而L(G, M, I)是格, 并且是完备格, 称其为形式背景(G, M, I)的概念格(文中称为经典概念格)。若对于任意的gGmM, 都有g*≠∅, g*M, m*Gm*≠∅, 则称形式背景(G, M, I)为正则的形式背景。

例1  表 1是形式背景(G, M, I), 其中G={1, 2, 3, 4}, M={a, b, c, d, e}, 显然其为正则的非净化的形式背景。其概念格如图 1所示。

表 1 形式背景(G, M, I) Tab. 1 A formal context (G, M, I)

图 1 L(G, M, I) Fig. 1 L(G, M, I)
1.2 区间集基本理论

由于信息的不完备性, 很难精确地用一个子集来描述论域上概念的外延。而区间集利用粗糙集下、上近似的思想, 通过一个下界和上界对论域的子集进行描述, 由此可给出该集合的真实外延。下面我们首先回顾区间集的基本概念[16]

定义2[16]  设U是有限论域, P(U)为U的幂集。定义 =[Xl, Xu]={XP(U)|XlXXu}, 其中XlXuU。称其为U的区间集。

  ①区间集P(U)的子集; ②记U上所有区间集的全体为IP(U); ③对于任意的XP(U), X可以看成是由区间集[X, X]退化得到的。

类似于经典集合之间的运算, Yao给出了区间集间的运算[16]

定义3[16]  设U是有限论域, =[Xl, Xu], =[Yl, Yu]∈IP(U), 定义

1.3 区间集概念格基本理论

文献[15]将区间集理论与形式概念分析结合,在形式背景(G, M, I)上, 定义了IP(G)与IP(M)之间的一对映射, 即对于任意的 =[Xl, Xu]∈IP(G), , 有。其中(*, *)是(G, M, I)中的对偶算子。进而, 根据fg的定义, 文献[15]给出了区间集概念以及区间集概念格的定义。

定义4[15]  设(G, M, I)为一个形式背景, IP(G), 。若满足, 则称序对为区间集形式概念, 简称为区间集概念, 称为区间集概念的区间集外延, 称为区间集概念的区间集内涵。

IL(G, M, I)表示形式背景(G, M, I)上所有区间集概念的全体。设是形式背景(G, M, I)的任意两个区间集概念, 记, 则称的特化区间集概念, 或的泛化区间集概念, 区间集概念之间的这种特化——泛化关系“ ”是所有区间集概念构成的集合IL(G, M, I)上的一个偏序关系。故而IL(G, M, I)连同特化——泛化关系构成一个完备格, 其上确界和下确界分别定义为

称完备格(IL(G, M, I), )为区间集概念格。

例2  (续例1)表 1的区间集概念格如图 2所示。

图 2 IL(G, M, I) Fig. 2 IL(G, M, I)
2 区间集概念格与概念格的联系

由于区间集概念格的概念形成算子是由概念格中的概念形成算子给出的, 因此, 区间集概念与形式概念、区间集概念格与经典概念格有着必然的联系。本节从元素及代数结构上研究区间集概念格与经典概念格之间的关系。

定理1  设(G, M, I)为形式背景, L(G, M, I)及IL(G, M, I)分别为其经典概念格及区间集概念格, 则对于任意([X, Y], [B, A])∈IL(G, M, I), 都有(X, A), (Y, B)∈L(G, M, I)。

证明  因为([X, Y], [B, A])∈IL(G, M, I), 由区间集概念的定义知: f([X, Y])=[Y*, X*]=[B, A]且g([B, A])=[A*, B*]=[X, Y]。从而X*=A, Y*=BA*=X, B*=Y。由形式概念的定义知:(X, A), (Y, B)∈L(G, M, I)。

例3  (续例1)由图 2所示, ([1, 124], [ab, abde])∈IL(G, M, I), 故根据定理1知(1, abde), (124, ab)∈L(G, M, I)。事实上, 通过图 1可验证这一结论。

反过来, 通过一个形式概念, 也可以构造出一个区间集概念, 如下定理所示。

定理2  设(G, M, I)为形式背景, L(G, M, I)及IL(G, M, I)分别为其经典概念格及区间集概念, 则对于任意(X, A)∈L(G, M, I), 都有([X, X], [A, A])∈IL(G, M, I)。进一步, 若(G, M, I)为正则的形式背景, 则对于任意(X, A)∈L(G, M, I), 都有如下结论成立:

([∅, X], [A, M]), ([X, G], [∅, A])∈IL(G, M, I)。

证明  因为(X, A)∈L(G, M, I), 所以由形式概念的定义知X*=AA*=X。因而有f([X, X])=[X*, X*]=[A, A]且有g([A, A])=[A*, A*]=[X, X]。又由区间集概念的定义知([X, X], [A, A])∈IL(G, M, I)。

当(G, M, I)是正则的, 则∅*=MM*=∅。从而有g([A, M])=[M*, A*]=[∅, X], 并且f([∅, X])=[X*, ∅*]=[A, M]。由区间集概念的定义知([∅, X], [A, M])∈IL(G, M, I)。同理可证([X, G], [∅, A])∈IL(G, M, I)。

事实上, 满足一定条件的两个不同形式概念也可以生成一个区间集概念。因此, 下面将定理2推广成如下定理。

定理3  设(G, M, I)为形式背景, L(G, M, I)及IL(G, M, I)分别为其经典概念格及区间集概念格。若(X, A)∈L(G, M, I), (Y, B)∈L(G, M, I), 且XY, 则([X, Y], [B, A])∈IL(G, M, I)。

证明  因为(X, A), (Y, B)∈L(G, M, I), 所以X*=A, A*=XY*=B, B*=Y。故有f([X, Y])=[Y*, X*]=[B, A]且g([B, A])=[A*, B*]=[X, Y]。又因为XY, 所以由算子*的性质知BA。故[X, Y]∈IP(G)且[B, A]∈IP(M)。从而, 由区间集概念的定义知([X, Y], [B, A])∈IL(G, M, I)。

例4  (续例1)由图 1所示, (1, abde), (124, ab)∈L(G, M, I)且概念外延1⊆124, 故由定理3可知([1, 124], [ab, abde])∈IL(G, M, I)。事实上, 通过图 2可验证这一结论。

基于上述形式概念与区间集概念之间的关系, 我们将建立概念格与区间集概念格之间的关系。

定理4  设(G, M, I)为形式背景, L(G, M, I)及IL(G, M, I)分别为其经典概念格及区间集概念格。则存在一个映射h:L(G, M, I)→IL(G, M, I), 使得h(L(G, M, I))为IL(G, M, I)的一个子格。

证明  定义h:L(G, M, I)→IL(G, M, I), 对于任意的(X, A)∈L(G, M, I), 都有h((X, A))=([X, X], [A, A])。由定理2知([X, X], [A, A])∈IL(G, M, I)。显然hL(G, M, I)到IL(G, M, I)的映射。因此h(L(G, M, I))是IL(G, M, I)的子集。

任取h((X, A)), h((Y, B))∈h(L(G, M, I)),按照h的定义及IL(G, M, I)中两元素上下确界的计算公式, 有h((X, A))∨h((Y, B))=([X, X], [A, A])∨([Y, Y], [B, B])= =(gf([XY, XY]), [AB, AB])=([(XY)**, (XY)**], [AB, AB]), 又由h的定义及L(G, M, I)中两元素上下确界的计算公式, 有h((X, A)∨(Y, B))=h((XY)**, AB)=([(XY)**, (XY)**], [AB, AB]), 显然h((X, A))∨h((Y, B))=h((X, A)∨(Y, B))。又因为(X, A)∨(Y, B)∈L(G, M, I), 从而h((X, A))∨h((Y, B))∈IL(G, M, I)。同理, 对于任意的h((X, A)), h((Y, B))∈h(L(G, M, I)), 都有h((X, A))∧h((Y, B))∈IL(G, M, I)。因此可知h(L(G, M, I))为IL(G, M, I)的一个子格。

通过定理4的证明, 我们很容易知道存在的映射h是从L(G, M, I)到IL(G, M, I)的一个格同态。另外若(G, M, I)为正则形式背景, 则对于任意(X, A)∈L(G, M, I), 定义h((X, A))=([∅, X], [A, M])或者h((X, A))=([X, G], [∅, A]), 则其为L(G, M, I)到IL(G, M, I)的一个格同态。

3 区间集概念格的构造方法及其算法

根据上一节关于概念格与区间集概念格之间的关系, 本节利用概念格的构造方法构造区间集概念格。

定理5  设(G, M, I)为形式背景, L(G, M, I)及IL(G, M, I)分别为其经典概念格及区间集概念格。则有:

IL(G, M, I)={([X, Y], [B, A])|(X, A), (Y, B)∈L(G, M, I)且XY}。

证明  为了书写方便, 记Δ={([X, Y], [B, A])|(X, A), (Y, B)∈L(G, M, I)且XY}。对于任意的([X, Y], [B, A])∈Δ, 由定理3知([X, Y], [B, A])∈IL(G, M, I)。从而很容易知ΔIL(G, M, I)。反之, 对于任意的([X, Y], [B, A])∈IL(G, M, I), 由定理1知(X, A), (Y, B)∈L(G, M, I)。又因为[X, Y]为区间集, 所以由区间集的定义知XY。故ΔIL(G, M, I)。综上所述Δ=IL(G, M, I), 即IL(G, M, I)={([X, Y], [B, A])|(X, A), (Y, B)∈L(G, M, I)且XY}。

事实上, 定理5给出了一种利用其概念格构造其相应区间集概念格的方法。下面, 给出这种方法的相应算法。

输入:形式背景(G, M, I)。

输出:区间集概念格IL(G, M, I)。

Step1.令IL(G, M, I)=∅。

Step 2.调用概念格求解算法Inclose2[20]计算概念格L(G, M, I)=Inclose2((G, M, I))。

Step 3. While((X, A), (Y, B)∈L(G, M, I))

     {

        If(XY)

        {

IL(G, M, I)=IL(G, M, I)∪{([X, Y], [B, A])}

         }

     }

假设|G|, |M|, |L(G, M, I)|, 分别表示G, M, L(G, M, I)所含元素的个数。在算法中, Step 2利用Inclose 2[20]计算出了所有概念, 时间复杂度为O(|L(G, M, I)||G||M|2), Step 3是将概念转化成区间集概念的过程, 时间复杂度为O(|L(G, M, I)|2/2)。很容易发现算法的时间复杂度主要由Step 2以及Step 3提供。所以算法的时间复杂度是O(|L(G, M, I)||G||M|2+|L(G, M, I)|2/2)。

4 结语

将问题简化研究是目前知识发现研究领域的一个重要手段。区间集概念格的构造理论研究亦不例外。作为形式概念分析的推广, 区间集概念格的研究尚处在起步阶段。我们针对区间集概念格的构造问题, 借助于概念格的构造理论提出了一种构造区间集概念格的方法, 此方法更为简洁地构造了区间集概念格。另外, 此内容的研究也将为更深一步的研究区间集概念格理论提供了一种具体的研究思路。例如区间集概念格的约简理论, 探讨是否可以通过概念格的约简直接寻找区间集概念格的约简等理论。

参考文献
[1]
GAMTER B, WILLE R. Formal Concept Analysis:Mathematical Foundations[M]. New York: Springer-Verlag, 1999.
[2]
WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts[M]//Rival I(ed.), Ordered Sets.Reidel: Dordrecht-Boston, 1982: 445-470.
[3]
洪文学, 栾景民, 张涛, 等. 基于偏序结构理论的知识发现方法[J]. 燕山大学学报, 2014(5): 394-402. DOI:10.3969/j.issn.1007-791X.2014.05.004
[4]
JIANG G Q, CHUTE C G. Auditing the semantic completeness of SNOMED CY using formal concept analysis[J]. Journal of the American Medical Informatics Association, 2009, 16(1): 89-102. DOI:10.1197/jamia.M2541
[5]
KAYTOUE M, KUZNETSOV S O, NAPOLI A, et al. Mining gene expression data with pattern structures in formal concept analysis[J]. Information Sciences, 2011, 181(10): 1989-2001. DOI:10.1016/j.ins.2010.07.007
[6]
GANAPATHY V, KING D, JAEGER T, et al. Mining security sensitive operations in legacy code using concept analysis[M]//IEEE Computer Society, Proceedings of the 29th International Conference on Software Engineering. Minneapolis, MN: IEEE Computer Society, 2007: 458-467.
[7]
TONELLA P. Using a concept lattice of decomposition slices for program understanding and impact analysis[J]. IEEE Transactions on Software Engineering, 2003, 29: 495-509. DOI:10.1109/TSE.2003.1205178
[8]
DVNTSCH I, GEDIGA G. Modal-style operators in qualitative data analysis[M]//KUMAR V, TSUMOTO S, ZHONG N, et al.Proceedings of 2002 IEEE International Conference on Data Mining, Maebashi City: IEEE, 2002: 155-162.
[9]
YAO Y Y. Concept lattices in rough set theory[M]//DICK S, KURGAN L, PEDRYCZ W, et al.(Eds.).Proceedings of 2004 Annual Meeting of the North American Fuzzy Information Processing Society.Banff, Alberta, Canada: IEEE, 2004: 796-801.
[10]
MA J M, CAI M J. Concept acquisition approach of object-oriented concept lattices[J]. International Journal of Machine Learning and Cybernetics, 2017, 8(1): 123-134. DOI:10.1007/s13042-016-0576-1
[11]
QI J J, WEI L, YAO Y Y. Three-way formal concept analysis[M]//MIAO D, PEDRYCZ W, SLEZAK D, et al.(eds.), RSKT. Shanghai, China: Springer, 2014, 8818: 732-741.
[12]
QI J J, QIAN T, WEI L. The connections between three-way and classical lattices[J]. Knowledge-Based Systems, 2016, 91: 143-151. DOI:10.1016/j.knosys.2015.08.006
[13]
QIAN T, WEI L, QI J J. Constructing three-way concept lattices based on apposition and subposition of formal contexts[J]. Knowledge-Based Systems, 2017, 116: 39-48. DOI:10.1016/j.knosys.2016.10.033
[14]
刘琳, 钱婷, 魏玲. 基于属性导出三支概念格的决策背景规则提取[J]. 西北大学学报(自然科学版), 2016, 46(4): 481-487.
[15]
徐伟华, 李金海, 魏玲, 等. 形式概念分析:理论与应用[M]. 北京: 科学出版社, 2016: 69-88.
[16]
YAO Y Y. Interval-set algebra for qualitative knowledge representation[M]//OSMAN A, CARL K C, WALDEMAR W K.Proceedings of the 5th International Conference on Computing and Information. Sudbury, Ontario, Canada: IEEE, 1993: 370-374.
[17]
YAO Y Y. Interval sets and three-way concept analysis in incomplete contexts[J]. International Journal of Machine Learning and Cybernetics, 2017, 8(1): 3-20. DOI:10.1007/s13042-016-0568-1
[18]
LI J H, MEI C L, LV Y J. Incomplete decision contexts:approximate concept construction, rule acquisition and knowledge reduction[J]. International Journal of Approximate Reasoning, 2013, 54(1): 149-165. DOI:10.1016/j.ijar.2012.07.005
[19]
魏玲, 万青, 钱婷, 等. 三元概念分析综述[J]. 西北大学学报(自然科学版), 2014, 44(5): 689-699.
[20]
ANDREWS S. In-close2, a high performance formal concept miner[M]//ANDREWS S, POLOVINA S, HILL R, et al.(eds.). Conceptual Structures for Discovering Knowledge-Proceedings of the 19th International Conference on Conceptual Structures (ICCS).Derby, England: Springer, 2011: 50-62.