2. 太原理工大学 信息工程学院,山西 太原 030024;
3. 同济大学 嵌入式系统与服务计算教育部重点实验室,上海 201804;
4. 同济大学 计算机科学与技术系,上海 201804
2. College of Information Engineering, Taiyuan University of Technology, Taiyuan 030024, China;
3. Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University, Shanghai 201804, China;
4. Department of Computer Science and Technology, Tongji University, Shanghai 201804, China
通过模拟人类的概念认知思维,Wille[1]教授于1982年在格论基础上发展了面向概念建模的概念格理论。作为格论的重要应用分支,概念格具有坚实的数学理论基础,其中概念、格代数结构、对偶伽罗瓦连接等是核心要素。近年来,伴随着概念格自身理论发展以及与粗糙集[2-3]、模糊集等的深度融合,其理论体系日趋成熟,应用范围也得到了极大的拓展。
粗糙集无需借助先验知识,且符合人类的近似思维,易于理解,因此受到了国内外学者的广泛关注[4]。近年来,对于不完备信息的处理,粗糙集已经取得了大量的研究成果。把缺失值理解为任何可能值,Kryszkiewicz[5-6]提出了基于容差关系的拓展粗糙集模型,其中容差关系满足自反性和对称性,随后,将缺失值视为不存在或是不允许比较的未知值,Stefanowski[7]提出了基于不对称相似关系(满足自反性和传递性)的粗糙集拓展模型,结合上述2种模型的优点,王国胤[4]进一步提出了基于限制容差关系(满足自反性和对称性)的扩充模型,该模型相对以往模型更加符合实际,Leung等[8]将极大相容类视为一个粒,探讨了不完备信息系统中的知识获取,张文修[9]将不完备信息系统理解为一个集值信息系统,并探讨了面向集值的相容关系。
目前,关于不完备信息系统已有大量的研究成果,然而对于不完备形式背景的分析处理尚处于起步阶段[10-16]。从研究对象来讲,形式背景本质上是一种特殊的信息系统,它们之间存在着天然联系,具有较强的相容性,这也意味着面向不完备信息系统的知识获取方法对于不完备形式背景的处理具有一定的借鉴作用。事实上,将不完备信息系统中的方法推广到不完备形式背景中,也是一项非常有意义的研究工作,其不仅能为不完备形式背景的分析处理提供必要的支撑,而且也有助于概念格与粗糙集的理论融合。
考虑到不完备形式背景的普遍性以及经典概念格的局限性,在概念格框架体系中,本文融入了粗糙集中的粒化思维,探讨了概念格视角下的信息粒化,提出了基于等价类和基于极大相容类的知识获取方法。这些方法一方面有助于概念格与粗糙集的融合,另一方面也为探索不完备形式背景的分析处理机制提供了有益思路。
1 概念格基本知识通常,称
定义1 在
${{{X}}^ * } = \{ \, m \in {{M}}|\;(x, m) \in {{I}}, \;\forall x \in {{X}}\, \} $ | (1) |
${{{B}}^ * } = \{ \, x \in {{G}}|\;(x, m) \in {{I}}, \;\forall m \in {{B}}\, \} $ | (2) |
式中
$({{{X}}_1}, {{{B}}_1}) \leqslant ({{{X}}_2}, {{{B}}_2}) \Leftrightarrow {{{X}}_1} \subseteq {{{X}}_2} \Leftrightarrow {{{B}}_2} \subseteq {{{B}}_1}$ |
基于上述认识和理解,一个格代数结构
对象和属性之间的关系如果存在缺失,则称
等价类、极大相容类等是粗糙集中的基本粒。在粒内部,不同对象往往拥有相同的特征和相近的特征值,这就意味着粒内部不同对象之间的特征值是可以相互借鉴的。据此,本文尝试在概念格理论框架内探讨基于二元关系的信息粒化。
二元关系与形式背景存在着天然联系,它们之间可以相互表示。通常,二元关系有2种不同的类型,即内部二元关系和外部二元关系。其中,内部二元关系存在于单个集合的内部,例如,偏序集
推论1 内部二元关系是一种特殊的外部二元关系。例如,虽然
推论2 内部二元关系与外部二元关系均可以表示为形式背景。在下文中,无论是内部还是外部二元关系均统一表示为形式背景。
在粒化思维下,对于数据集的分析和处理,人们通常注重的是集合,而非单个元素;注重的是集合之间的关系,而非单个元素之间的关系。
定义2 设
对于任意
定义3 称
定理1 在关系背景
1)
2)
证明 当
定义4 设
定理2 在关系背景
证明 当
对于任意
假设
反过来,当
在定理2中,对于任意
定义5 设
${\bf{Sim}}(x, y) = \frac{{|{\bf{Sa}}{{\bf{m}}_ - }(x, y)| + \, \delta \times \, \, |{\bf{La}}{{\bf{c}}_ - }(x, y)|}}{{|{\bf{Sa}}{{\bf{m}}_ - }(x, y)| + \;\delta \, \times |{\bf{La}}{{\bf{c}}_ - }(x, y)| + \;\kappa \; \times |{\bf{Di}}{{\bf{f}}_ - }(x, y)|}}$ | (3) |
式中:
${\bf{Sa}}{{\bf{m}}_ - }(x, y) = \left\{ {\, a \in {{M}}|m(x) = m(y) = 1\;\, {\rm{or}}\, \;m(x) = m(y) = 0\, } \right\}$ | (4) |
${\bf{La}}{{\bf{c}}_ - }(x, y) = \left\{ {\, m \in {{M}}|\;m(x) = * \;\, {\rm{or}}\, \;m(y) = * \, } \right\}$ | (5) |
$ \begin{split} & \qquad\qquad\qquad\qquad\quad{\bf{Di}}{{\bf{f}}_ - }(x, y) =\\ & \left\{ {\, m \in {{M}}|m(x) = 0\;{\rm{and}}\;m(y) = 1, \;\, {\rm{or}}\;m(x) = {\rm{1}}\;{\rm{and}}\;m(y) = {\rm{0}}\, } \right\} \end{split} $ | (6) |
参数
当
为避免单一粒度认知的片面性,对于任意缺失值的估计,用户可以设置多个阈值参数
定义6 设
准则1 在不完备形式背景
若
其中
$(\alpha \;\beta ) = \left( {\begin{array}{*{20}{c}} {{\textit{λ}}_{\rm{1}}}&{{\textit{λ}}_{\rm{2}}}& \cdots &{{\textit{λ}}_N} \end{array}} \right) \times \left( {\begin{array}{*{20}{c}} {{\rho _{{\textit{λ}}_1}}(x, m, 1)}&{{\phi _{{\textit{λ}}_1}}(x, m, 0)} \\ \vdots & \vdots \\ {{\rho _{{\textit{λ}}_N}}(x, m, 1)}&{{\phi _{{\textit{λ}}_N}}(x, m, 0)} \end{array}} \right)$ |
$ \begin{aligned} & {\rho _{\lambda_i}}(x, m, 1) = \frac{{\, \left| {\, \{ \, y \in {{[x]}_{\lambda_i}} \, |\, \, m(y) = 1\, \} \, } \right|}}{{|{{[x]}_{\lambda_i}}|}}\, \, \\ & {\phi _{\lambda_i}}(x, m, 0) = \frac{{\, \left| {\, \, \{ y \in {{[x]}_{\lambda_i}} \, |\, \, m(y) = 0\, \} \, } \right|}}{{|{{[x]}_{\lambda_i}}|}}\, \, \end{aligned} $ |
基于上述判定准则,用户可以对不完备形式背景进行预处理,从而得到一个完备的形式背景。接上例,对于
$\left( \!\!{\begin{array}{*{20}{c}} {\rm{1}}&{{\rm{0}}{\rm{.8}}}&{{\rm{0}}{\rm{.6}}} \end{array}}\!\! \right) \times \left( \!\!{\begin{array}{*{20}{c}} {{\rm{0}}{\rm{.00}}}&{{\rm{0}}{\rm{.50}}} \\ {{\rm{0}}{\rm{.33}}}&{{\rm{0}}{\rm{.33}}} \\ {{\rm{0}}{\rm{.44}}}&{{\rm{0}}{\rm{.33}}} \end{array}}\!\! \right) = \left(\!\! {\begin{array}{*{20}{c}} {{\rm{0}}{\rm{.53}}}&{{\rm{0}}{\rm{.97}}} \end{array}}\!\! \right)$ |
其中
类似地,用户也可以判定其它缺失值,相应的判定结果如表4所示。在此基础上,复用经典概念格生成算法,用户可以从表4生成一个格代数结构,如图1所示。
Download:
|
|
在不完备形式背景
$\begin{array}{l} {{{R}}_\sigma } = \{ \left. {\, \, (x, y) \in {{G}} \times {{G}}\, } \right|\, \, {\bf{Sim}}(x, y) \geqslant \sigma \, \} ,0 \leqslant \sigma \leqslant 1 \end{array} $ |
式中
准则2 设
若
其中
$(\overset{\frown} {\alpha } \;\, \overset{\frown} {\beta } \, ) \!=\! (\, |{{\cal{D}}_1}|\;\,|{{\cal{D}}_2}|\; \cdots \;\, |{{\cal{D}}_N}|\, )\;\, \!\times \!\;\, \left( {\begin{array}{*{20}{c}} {{{\overset{\frown} {\rho } }_1}(x, m, 1)}&{{{\overset{\frown} {\phi } }_1}(x, m, 0)} \\ \vdots & \vdots \\ {{{\overset{\frown} {\rho } }_N}(x, m, 1)}&{{{\overset{\frown} {\phi } }_N}(x, m, 0)} \end{array}} \right)$ |
$ \begin{split} & {\overset{\frown} {\rho } _i}(x, m, 1) = \frac{{\, \, \left| {\, \left\{ {\, x \in {{\cal{D}}_i} \, |\, \, m(x) = 1\, } \right\}\, } \right| + {\rm{1}}\;}}{{\, \left| {\, \left\{ {\, x \in {{\cal{D}}_i} \, |\, \, m(x) = 0\, } \right\}\, } \right| + {\rm{1}}}} \\ & {\overset{\frown} {\phi } _i}(x, m, 0) = \frac{{\, \, \left| {\, \left\{ {\, x \in {{\cal{D}}_i} \, |\, \, m(x) = 0\, } \right\}\, } \right| + {\rm{1}}\;}}{{\left| {\, \left\{ {\, x \in {{\cal{D}}_i} \, |\, \, m(x) = 1\, } \right\}\, } \right| + {\rm{1}}}} \end{split} $ |
在表5中,当
$(3\, \;3\, \;3\, \;{\rm{2}}) \times \left( {\begin{array}{*{20}{c}} {\rm{1}}&1 \\ {{\rm{1/3}}}&3 \\ {{\rm{1/3}}}&3 \\ 2&{{\rm{1/2}}} \end{array}} \right) = (9\;\, 22)$ |
即可判定
类似地,用户也可以判定其它缺失值,相应的判定结果如表6所示。在此基础上,复用经典概念格生成算法,用户可以从表6生成一个格代数结构,如图2所示。
Download:
|
|
基于准则1和准则2的模型本质上都属于间接处理模型,即需要对原始数据集进行预处理,给出缺失数据的估算值,进而复用经典理论对完备形式背景进行分析处理。
在不完备形式背景
$ \begin{aligned} {{R}} = & \{ \, (x, y) \in {{G}} \times {{G}}|m(x) = m(y)\;{\rm{or}}\;m(x) = \\ & * \;{\rm{or}}\;m(y) = * , \;\forall m \in {{M}}\, \} \end{aligned} $ |
下文中,由上述相容关系决定的极大相容类的集合记为
准则3 在任一极大相容类中,不同对象在同一属性下应具有相同的属性值。在此情形下,一个极大相容类
当
定义7 设
$ \begin{aligned} {{{X}}^ + } = & \{ \, m \in {{M}}|\, \, \left( {m(x) = 1} \right)\, {\rm{or }}\\ & \left( {\, \exists {\cal{D}} \in \varDelta , \, \, x \in {\cal{D}}, \, \, {{{V}}_m}({\cal{{{D}}}}) = 1\, } \right), \;\forall x \in {{X}}\, \} \end{aligned} $ |
对于任意集合
$ \begin{aligned} {{{B}}^ + } = & \{ \, x \in {{G}}|\;\, \left( {m(x) = 1} \right)\, {\rm{or }} \\ & \left( {\, \exists {\cal{D}} \in \varDelta , \, \, x \in {\cal{D}}, \, \, {V_m}({\cal{D}}) = 1\, } \right), \;\forall m \in {{B}} \, \} \end{aligned}$ |
与定义1中的经典算子相类似,从上述算子出发同样可以导出一个格代数结构,相关证明过程与经典算子类似,在此不再详述。
例如,在表5中,从定理2和定义7出发,可判定{1}、{2}、{3, 4}、{5}、{6}、{7, 8}、{7, 9}是极大相容类,如表7所示,进而基于定义7中的算子生成图3所示的格代数结构。除(79, abce)之外,图3、图2中的其他结点均一致,这也从侧面反映了这样一个事实,即无论是基于准则2,还是基于准则3,所构造的模型可能会得到相似的结论。
Download:
|
|
定义8 称
$({\cal{D}}, \, \, m) \in {{J}} \Leftrightarrow {{{V}}_m}({\cal{D}}) = 1$ |
在粒化背景
$\overset{\frown} {X} ' = \{ \, m \in {{M}}|\, \, ({\cal{D}}, \, \, m) \in {{J}}, \;\forall {\cal{D}} \in \overset{\frown} {{{X}}} \, \} $ |
对于任意
${{B}}' = \{ \, {\cal{D}} \in \Delta |\;\, ({\cal{D}}, \, \, m) \in {{J}}, \;\forall m \in {{B}} \, \} $ |
其中,
基于准则3的知识获取模型,其本质是将分析尺度放大,以极大相容类为研究对象,而非单个对象。在准则3下,任意
定理3 若
${{X}} = \bigcup\nolimits_{{\cal{D}} \in \overset{\frown} {{{X}}} } {\cal{D}} $ |
证明 由定义7和定义8即得。证毕。
与准则1和准则2最大的不同是,基于准则3的知识获取模型无需对缺失信息进行预判定并给出估算值,而是直接在原始不完备形式背景上建立知识获取模型。
5 实例分析表8是一个以医院病例为原型而得到的不完备形式背景,其中Pi(i=
当
当
事实上,表9中的完备化结果与下述事实性规则是吻合的,这也在一定程度上反应了准则1和准则2的合理性和有效性。例如,当患者体温是“very high”时,则其体温一定也是“high”;当患者体温“normal”时,则其体温一定不是“high”和“very high”;当患者“Flu, yes”时,则一定不是“Flu, no”等。
事实性规则:(T, very high)→(T, high)、(T, normal)
在概念格经典理论中,概念内涵和蕴涵规则都占有极其重要的地位。本文认为,无论间接处理模型,还是直接处理模型,它们都应该得到相同的内涵集和蕴涵规则集(内涵集和蕴涵规则集是相互唯一决定的)。据此,本文提出了如下有效性判定准则:
有效性判定准则对于同一个不完备形式背景,若多个不同模型得到的蕴涵规则集合或内涵集合是相同的,则本文认为这些模型在一定程度上是有效的,得到的结果在一定程度上也是可信的。
定义9 设
准则3相对应的极大相容类有{1}、{2, 7, 8}、{3}、{4, 9}、{5, 8}、{6}。在此基础上,基于定义7或定义8,用户可得到相应的格代数结构。经验证明,基于准则3直接从表8得到的概念内涵集与基于准则1或准则2间接从表8中得到的概念内涵集是相同的。显然,在这种情形下,依据有效性判定准则给出的判定原理,可以在一定程度认为基于准则1、准则2或准则3构建的模型是合理的,相应的求解结果也是可信的。
总体来看,准则1和准则2需要引入阈值参数,属于间接处理模型;而准则3则无需引入阈值,属于直接处理模型。在实际应用中,如果数据缺失量大,本文倾向于选用直接处理模型,因为先选择间接模型可能会导致原始数据集失真;如果数据缺失量少,则无论是直接模型还是间接模型,都可以选用。
6 结束语为消除不完备信息带来的影响,使概念格模型具有更强的数据处理能力与更广的应用领域,本文尝试将经典形式背景中的知识获取方法进一步拓展到不完备形式背景中,依次探讨了基于等价类的分析模型和基于极大相容类的分析模型。在实际应用中,用户既可以选择基于准则1或准则2的间接处理模型,也可以选择基于准则3的直接处理模型。此外,对于模型的机制有效性和结果可信性,本文也尝试性的进行了探讨,并提出了一些初步的验证方法。相信本文所做的工作能为下一步相关研究提供一些有益的思路。
[1] | WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts[M].RIVAL I. Ordered Sets. Dordrecht: Reidel, 1982: 445–470. (0) |
[2] | 张文修, 姚一豫, 梁怡. 粗糙集与概念格[M]. 西安: 西安交通大学出版社, 2006. (0) |
[3] |
仇国芳, 张志霞, 张炜. 基于粗糙集方法的概念格理论研究综述[J]. 模糊系统与数学, 2014, 28(1): 168-177. QIU Guofang, ZHANG Zhixia, ZHANG Wei. A survey for study on concept lattice theory via rough set[J]. Fuzzy systems and mathematics, 2014, 28(1): 168-177. (0) |
[4] |
王国胤. Rough集理论在不完备信息系统中的扩充[J]. 计算机研究与发展, 2002, 39(10): 1238-1243. WANG Guoyin. Extension of rough set under incomplete information systems[J]. Journal of computer research and development, 2002, 39(10): 1238-1243. (0) |
[5] | KRYSZKIEWICZ M. Rough set approach to incomplete information systems[J]. Information sciences, 1998, 112(1/2/3/4): 39–49. (0) |
[6] | KRYSZKIEWICZ M. Rules in incomplete information systems[J]. Information sciences, 1999, 113(3/4): 271–292. (0) |
[7] | STEFANOWSKI J, TSOUKIÀS A. Incomplete information tables and rough classification[J]. Computational intelligence, 2001, 17(3): 546–566. (0) |
[8] | LEUNG Y, LI Deyu. Maximal consistent block technique for rule acquisition in incomplete information systems[J]. Information sciences, 2003, 153: 85–106. (0) |
[9] | ZHANG Wenxiu, MI Jusheng. Incomplete information system and its optimal selections[J]. Computers & mathematics with applications, 2004, 48(5/6): 691–698. (0) |
[10] | YAO Yiyu. Interval sets and three-way concept analysis in incomplete contexts[J]. International journal of machine learning and cybernetics, 2017, 8(1): 3–20. (0) |
[11] | LI Jinhai, MEI Changlin, LV Yuejin. Incomplete decision contexts: approximate concept construction, rule acquisition and knowledge reduction[J]. International journal of approximate reasoning, 2013, 54(1): 149–165. (0) |
[12] | LI Meizheng, WANG Guoyi. Approximate concept construction with three-way decisions and attribute reduction in incomplete contexts[J]. Knowledge-based systems, 2016, 91: 165–178. (0) |
[13] |
张慧雯, 刘文奇, 李金海. 完备形式背景下近似概念格的公理化方法[J]. 计算机科学, 2015, 42(6): 67-70, 92. ZHANG Huiwen, LIU Wenqi, LI Jinhai. Axiomatic characterizations of approximate concept lattices in incomplete contexts[J]. Computer science, 2015, 42(6): 67-70, 92. (0) |
[14] |
智慧来. 不完备形式背景上的知识表示[J]. 计算机科学, 2015, 42(1): 276-278. ZHI Huilai. Knowledge representation on incomplete formal context[J]. Computer science, 2015, 42(1): 276-278. DOI:10.11896/j.issn.1002-137X.2015.01.061 (0) |
[15] |
李磊军, 李美争, 解滨, 等. 三支决策视角下概念格的分析和比较[J]. 模式识别与人工智能, 2016, 29(10): 951-960. LI Leijun, LI Meizheng, XIE Bin, et al. Analysis and comparison of concept lattices from the perspective of three-way decisions[J]. Pattern recognition and artificial intelligence, 2016, 29(10): 951-960. (0) |
[16] |
王振, 魏玲. 基于单边区间集概念格的不完备形式背景的属性约简[J]. 计算机科学, 2018, 45(1): 73-78. WANG Zhen, WEI Ling. Attribute reduction of partially-known formal concept lattices for incomplete contexts[J]. Computer science, 2018, 45(1): 73-78. DOI:10.11896/j.issn.1002-137X.2018.01.011 (0) |
[17] | GANTER B, WILLE R. Formal concept analysis: mathematical foundations[M]. Berlin: Springer-Verlag, 1999. (0) |