基于知网的可拓领域信息元库的构建方法

Download PDF 打印本文

文章快速检索

高级检索

引用本文

陶星, 李卫华, 汪中飞. 基于知网的可拓领域信息元库的构建方法[J]. 智能系统学报, 2015, 10(05): 790-796 复制到剪切板

TAO Xing, LI Weihua, WANG Zhongfei. Construction of HowNet-based extendable domain information element base[J]. CAAI Transactions on Intelligent Systems, 2015, 10(05): 790-796.

DOI: 10.11992/tis.201412006 复制到剪切板

基于知网的可拓领域信息元库的构建方法

陶星, 李卫华, 汪中飞

广东工业大学计算机学院, 广东广州 510006

基金项目: 国家自然科学基金资助项目(61273306).

作者简介: 陶星,女,1989年生,硕士研究生,主要研究方向为智能软件;李卫华,女,1957年生,教授,主要研究方向为面向Agent计算、网络信息系统、智能软件。发表学术论文40余篇;汪中飞,男,1988年生,硕士研究生,主要研究方向为智能软件。

收稿日期: 2014-12-08; 网络出版日期: 2015-08-27

通信作者: 陶星.E-mail:xingtao0724@163.com.

摘要: 为了解决某个领域的矛盾问题,须构建领域信息元库以提高计算机语义理解能力。结合知网的表达知识的形式化特点,提出了对基元进行改造,增强语义互操作性的方法。在知网2000版中,以教育领域为案例,提取出教育领域的概念及其属性,并在此基础上改造与更新,构造可拓学的教育领域基础库。在实验过程中采用关系型数据库实现了信息元的存储,表明了可以提高语义互操作能力,验证了该方法的可行性。

关键词: 可拓学知网信息元矛盾问题语义

Construction of HowNet-based extendable domain information element base

TAO Xing, LI Weihua, WANG Zhongfei

College of Computer, Guangdong University of Technology, Guangzhou 510006, China

Abstract: To solve contradictory problems in a domain, it is necessary to construct the domain information element base and to improve the semantic recognition ability of computer software. Combined with the characteristics of formalized expression of knowledge in HowNet, this paper proposes an approach to redefine the construction of basic-element which is the logic cell of Extenics to enhance semantic interoperability. Taking the domain of education as an example, the concepts and their properties of education are extracted in HowNet 2000, and further reconstructed and updated. Thereby the basic-element base of Extenics in the domain of education is built. A relational database (SQL Express) has been used to store the information element in the experiment, showing that the new basic-element can improve semantic interoperability, and proving the feasibility of the method.

Key words: Extenics HowNet information element contradictory problem semantic

可拓学是由中国学者于1983年提出的一门原创性横断学科，它以形式化的模型，探讨事物拓展的可能性以及开拓创新的规律与方法，并用于解决矛盾问题^[1]。所谓矛盾问题，是指在现有条件下无法实现人们要达到的目标的问题。要解决某个领域的矛盾问题，使计算机自动生成可拓策略，必须有该领域的知识库做为支持。这是可拓策略生成系统亟需解决的一个关键且基础的问题^[2]。

文献[3]提出“可拓信息-知识-智能形式化体系结构”这一构想，指出研究以物元、事元和关系元为基本元的信息表示体系，以建立信息元库。

知网(HowNet)是一套知识描述规范体系，一个通用的常识知识库，描述了世间万物所有的概念、概念的属性及属性之间的关系^[4]。但是知网并不能解决矛盾问题。以知网的知识资源为基础，借助可拓学基元表达体系，将有望让其计算机自动生成(或人机结合引导生成 )解决矛盾问题的策略。

本文提出一种基于知网来建立领域可拓信息元库的方法，并以教育领域为研究案例，探讨改进后的基元如何表达可拓知识和解决语义二义性问题，是未来解决某一领域的矛盾问题的基础研究。

1 可拓信息元库

在“可拓信息-知识-智能形式化”体系^[3]研究中提出了该体系的主要功能模块：信息元库、知识表示库、可拓策略库。为了实现该体系，信息元库的建立是首要工作。

信息元库集成了领域的基础知识，是支持策略生成系统的基础库。由于信息元库容量庞大，且其中涉及领域繁杂，又有非结构化组织，对于许多的复杂情况根本不存在查询结果，必要时，仍需要查询整个信息元库，查询效率极低。本文将分别建立信息物元、信息事元、信息关系元模型，并将其存储在信息元库中，每次查询时先在信息元库中查询；若不能得出查询结果，再进行可拓变换，这样可提高查询效率。

2 知网的理论概述 2.1 知网的知识网络体系

知网是一个以英、汉双语所代表的概念以及概念的特征为基础，以揭示概念与概念之间以及概念所具有的特性之间的关系为基本内容的常识知识库^[4]。知网知识库中的概念是通过义原与义原之间的关系来描述的。

知网所描述的概念之间的关系有：上下位关系、同义关系、反义关系、对义关系、部件—整体关系、属性—宿主关系、材料—成品关系、施事/经验者/关系主体—事件关系、受事/内容/领属物、属性关系、实体—值关系、事件—角色关系、相关关系。这些关系形成了一个网状的知识系统，进而使计算机对其可进行操作。

2.2 知网知识库描述语言

知网知识库描述语言是一种面向计算机的结构化描述语言^[5]。为了实现计算这一设计目标，知网的创立者进行了2个工作：1)将概念分解为义原，并形成一套完整的分类体系；2)将义原通过各种关系的组织表达一个概念。因为知网中的每个义原都表示一个唯一的特定的意义，这样就能解决自然语言处理的语义的歧义性问题。

在知网知识库描述语言(KDML)2000版中，通过一些特定的符号来描述义原之间的关系的。如表 1所示。

表 1 KDML符号及其含义Table 1 Symbols and meanings of KDML

符号	属性关系
$	“受事/内容/领属物等—事件”关系
*	“施事/经验者/关系主体—事件、工具—事件”关系
%	“部件—整体”关系
@	“场所—事件、时间—事件”关系
&	“属性—宿主”关系
？	“材料—成品”关系
#	相关关系
^	表示不存在的关系

表选项

例如：

W_C=大学生

G_C=N

E_C=

W_E=college student

G_E=N

E_E=

DEF=human| 人，*study| 学，education| 教育

这个概念的含义是：大学生是N范畴。是“人”类别的一员，是施行“学”行为的，属于教育领域类概念。

3 基于知网的信息元的构造方法

知网的哲学思想：世界上一切事物(物质的，精神的或事情)都在一定的时间和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态，并通常由其属性值的改变来体现 ^[2]。这一思想与可拓学的思想有异曲同工之妙。初步的研究显示，将可拓学与知网这2个中国原创的理论和应用工具相结合，研究解决矛盾问题的策略生成问题，可为策略生成研究提供一种新的思路。

由于知网本身就是一个具有语义的通识知识库，可以借助知网中义原及其语义关系的表达方式，对信息元的结构进行重新构造。

3.1 信息物元的构造

信息物元，是指具体对象、其特征和量值构成的有序三元组，而知网中的义原均为概念，并非具体的对象，所以，对信息物元并不需要基于知网进行重新改造，仍然使用可拓学中对于物元的定义。例如：

3.2 信息关系元的构造

信息关系元主要描述的是信息物元和信息事元之间的关系。通过对知网的描述，可以知道知网在描述概念及概念之间的关系上，已经有完备且有效的关系，只是知网不具备解决矛盾问题的能力。基于此，本文提出信息关系元模型如表 2所示。

表 2 信息关系元的结构 Table 2 Structure of relation-element

关系名	关系含义
isKindOf	继承或上下位关系
isPartOf	组成/整体与部分关系
hasAttributeOf	某个概念是另一个概念的属性关系
hasInstanceOf	概念实例和概念关系

表选项

在此信息关系元结构中，定义了4种关系属性。1) isKindOf，即具有继承关系或者上下位的信息元，譬如：“笔-钢笔”、“白-雪白”等；2)isPartOf，表示具有整体与部分关系或者包含关系的信息元，又可细分为组合和聚合，譬如：“中国-上海”、“森林-树”等；3)hasAttributeOf，表示与该具有属性关系的信息元；4)hasInstanceOf，表示概念及其概念实例关系。譬如：“学校”的上位属性是“场所”，其属性有很多：名称、地点、级别等。“学校”又可分为：“小学”、“中学”、“高中”、“大学”、“研究院”等。通过这样的关系定义，希望其不仅可以支持基本的可拓变换：置换变换、增(减)变换、扩(缩)变换、分解变换和复制变换，并能具有一定的智能，帮助对矛盾问题的理解。

本文规定，每种信息关系元，都有某些固定的特征，譬如：关系前项(antecedent)、关系后项(consequent)，其余特征需根据知网中的知识表达，进行相应的改造。详细的改造方法如下。

基于知网中的关系符，本文分别进行如下处理。

1)空符号

在知网中，空符号义原主要存在于概念词典中，一般有3种含义。

在知网中，实体、事件、属性/属性值、数量/数量值定义的第1项均为空符号义原，用来表示其主要特征。对于实体和事件概念来说，该第1项表示上下位关系。在信息物元中，将定义为isKindOf属性。例如：

NO.=018854

W_C=大学

DEF=InstitudePlace|场所，@teach|教，

@study|学，education|教育

其对应的信息关系元为

对于属性和数量的概念，因为其含有的“&”关系，可不对第1义原进行处理，将在之后的“&”关系的处理中详细介绍。

2) “&”关系

在知网中，“&”表示“属性-宿主”关系。对此类概念，不提取第1义原，改为提取该概念和第2义原之间为上下位关系。因为第2义原描述了具体的数量/属性类，可以更加准确地对概念的语义范围进行界定。例如：

NO.=060421

W_C=模式

DEF=attribute| 属性，pattern| 样式，

&physical| 物质

按照上述转换规则，可以得到上下位信息关系元(isKindOf)：“模式”-“样式”，其对应的信息关系元为

其表示的意义为：“模式”是属于物质的样式类别。

3)“%”关系

在知网中，“%”表示“整体-部分”关系，与属性/数量关系类似，不再提取第1义原作为其上下位关系，而是直接提取“%”关系作为isPartOf属性。例如：

NO.=068228

W_C=琴键

DEF=part| 部件，%MusicTool| 乐器

从中，可以提取2个信息关系元，上下文关系元(isKindOf)：“琴键”-“部件”、整体部分信息关系元(isPartOf)：“琴键”-“乐器”。其对应的信息关系元为

4)“$”、“*”、“@”、“#”等关系

在知网中，对于这些关系的提取，都可以直接进行，不再赘述。

3.3 信息事元的构造

对于信息事元的改造，一方面要保证其语义的完整性，另一方面，更要规定其模型，针对不同类型的事件，事件模型不一样。对于某一领域内的知识，应该进行分类，并建立相应的事件模式。譬如：“报考”这一事件一定有考生 (actingObject)和学校(receivingObject)的参与，所以在建立这类事元时，施动对象(actingObject)和接受对象(receivingObject)特征是固定的必不可少的。

知网2000中使用到约70个动态角色是指概念在实际的语言中所构成的各种关系，如施事、受事、经验者、时间、处所等 ^[6]。有了这些动态角色的注释，通过形式化的表示，计算机就能更好地理解其含义。

本文针对信息事元的构造，采用的方法为：提取第1义原为信息事元的上位属性，提取动态角色为信息事元的第2属性。譬如“报考”这一事元，在知网中对其的定义为：

NO.=003701

W_C=报考

G_E=V

E_E=

DEF=request|要求，ResultEvent=exam|考试，

education|教育

其对应的信息事元为

对于没有动态角色的义原，例如：

NO.=026730

W_C=放学

G_E=V

E_E=

DEF=finish|完毕，education|教育

直接取第1义原为该事元的上位属性，即

3.4 信息复合元的构造

对于现实世界中的复杂事件的描述，需要使用复合元。复合元包括多种形式，包括：物元和事元的复合，物元和关系元的复合等。

前面已经详细讨论了信息物元、信息关系元和信息事元的构造，那么至于信息复合元的构成，即它们的复合，唯一不同的是在信息关系元与其他信息元的复合中，信息关系元将做为其他信息元的特征。例如：“张三要报考广东工业大学”这一事件，可以建立如下信息复合元：

subject=1，即表示理科；subject=2，表示文科。collegeLevel=0，表示国家重点“985”院校，collegeLevel=1，表示国家重点“211”或者一本院校，二本院校、三本院校等其他类院校，以此类推。

综上，分别确定了信息物元、信息关系元、信息事元和信息复合元的结构，并举例说明该结构是可以反映一个无语义二义性的客观世界，同时也具有表达可拓知识并支持可拓变换的能力。

4 案例分析——可拓教育领域信息元库的建立方法

在之前文献的研究中，利用可拓学很好地解决了某个矛盾问题，譬如：租房可拓策略生成系统、自助游可拓策略生成系统 ^[7]，而并未涉及到某个领域的矛盾问题的求解。也有文献讨论了基于本可拓模型的复合元^[8]，基于可拓模型的本体进化研究^[9]，为本文的研究提供了很好的基础。本文以教育领域为案例，说明如何用改进语义能力的信息元解决领域矛盾问题。譬如，高考填报志愿，理想中的学校分熟线和自己高考分数存在矛盾；学习中，学习能力方法和预期成绩存在矛盾等。为此，建立一个教育领域的概念体系是研究的关键基础步骤。

4.1 教育领域概念结构

教育概念体系反映了教育体系概念和及其属性^[10]。本文总体上将教育客体分为3类：自然类教育客体，如学科，专业等；社会类教育客体，如学校的各类管理组织机构、教学设备等；精神类教育客体，如教育理论、教育思想等 ^[11]。教育领域的概念结构如图 1所示。

图 1 教育领域概念体系Fig. 1 Education concept system

图选项

4.2 教育领域信息元的构建

以高考填报志愿为例说明可拓领域信息元库的建立方法。实践证明，多年来，考生在报考时的关注重点在于：高校名称、高校地点、高校声誉、专业设置、学科排名、分数线、招生人数和就业前景几个方面^[10]。这种由于咨询用户自身对高考填报志愿咨询领域语义信息理解一致的惯性及咨询目标十分明确的特点，大大降低了专家的参与度，在确定类、属性和关系的处理上很容易达成共识。因此，本文采用自底向上建模方法，先行确定核心概念和关系，保障语义的正确性和完整性。

在知网知识库2000中，分别查询“学校”、“专业”、“指标”等义原。发现：

&nbssp;&nbssp; NO.=018854

&nbssp;&nbssp;W_C=大学

&nbssp;&nbssp;DEF=InstitutePlace|场所，@teach|教，

&nbssp;&nbssp;@study|学，education|教育

&nbssp;&nbssp; NO.=111321

&nbssp;&nbssp;W_C=专业

&nbssp;&nbssp;DEF=affairs|事务，education|教育

&nbssp;&nbssp; NO.=108770

&nbssp;&nbssp;W_C=指标

&nbssp;&nbssp;DEF=quantity|数量，amount|多少，

&nbssp;&nbssp;&result|结果建立对应的信息复合元为

再具体到某一个事件的表述：“张三要报考广东工业大学”这一事件，可以建立语义关系如图 2所示。

图 2 报考事件的语义关系图Fig. 2 Semantic relations of “register for examination register for examination

图选项

这样清楚直观的表示后，可以方便计算机理解并处理此语义关系，即可清晰的表达出具有清晰的语义互操作性的信息元。

4.3 实验结果

应用前面所讨论的理论知识，考虑到关系型数据库具有查询、插入、修改和删除操作的简洁性，从执行效率和成本角度考虑，本文使用关系型数据库建立教育领域的概念体系 ^[11]。本文使用的是SQL Server Express关系型数据库。

知网是一个较为完整的知识系统，且具有语义可操作性。所以，将知网2000知识库存入SQL Server 2012 Express数据库中，数据库名为：Extenics_HowNet，并提取其中关于“教育”的所有词汇，共606条记录，建立表：Edu_HowNet。再按照G_C属性值的不同，分别建立Edu_HowNet_N， Edu_HowNet_V，Edu_HowNet_ADJ 3张表，如图 3所示。

图 3 信息元表结构Fig. 3 Table of information element

图选项

如何才能证明计算机是否能理解我们的语义关系呢？本文主要通过基元语义相似度算法来判断。如果算法的输入结果在可接受范围内，就可以判定该领域信息元库具有语义互操作性。

在可拓信息-知识-策略形式化体系研究过程中，一个待求解问题最初可能是用自然语言表达的信息，如果自然语言存在二义性，计算机无法识别，就无法对该问题建立正确的可拓模型，更无法进一步处理。假设一个考生想要报考华师，但是在知识库中并没有“华师”这个基元，所以，利用文献[12]的词汇相关度算法，找出所有与其相关的词语。

首先，建立“华师”信息物元，

然后，在信息元库中查询相应信息物元信息，发现并未存放“华师”这一信息物元的具体信息。通过与知识库中的基元比较，得出结果如下：

数据库中查询结果如图 4所示。

图 4 查询结果Fig. 4 Result of query

图选项

于是，可以将计算结果：“华中师范大学”，“华南师范大学”，“华东师范大学”推送给用户。再通过与用户的交互与反馈，确定哪所“华师”，从而消除语义模糊，以达到理解用户意图的目的。

5 结束语

本文基于知网这个通用的语义知识库，借助知网义原表达方式，解决概念语义二义性问题并提出了一种建立可拓领域信息元库的创建方法，并以教育领域的高考信息咨询问题为例，用计算机实现了该建库方法，验证了该方法可行性，得到了可接受的结论。这个基础工作的完成对今后可拓策略生成系统解决教育领域矛盾问题有重要意义。

参考文献

[1]	杨春燕, 蔡文. 可拓工程[M]. 北京:科学出版社, 2007:1-10.YANG Chunyan, CAI Wen. Extension engineering[M]. Beijing:Science Press, 2007:1-10.

[2]	李立希, 杨春燕, 李铧汶. 可拓策略生成系统[M]. 北京:科学出版社, 2006:1-23. LI Lixi, YANG Chunyan, LI Huawen. The extension strategy generating system[M]. Beijing:Science Press, 2006:1-23.

[3]	杨春燕, 蔡文. 可拓信息-知识-智能形式化体系研究[J]. 智能系统学报, 2007, 2(3):8-11. YANG Chunyan, CAI Wen. A formalized system of extension information-knowledge-intelligence[J]. CAAI Transactions on Intelligent System, 2007, 2(3):8-11.

[4]	董振东.HowNet[EB/OL].[2013-10-09] . http://www.keenage.com.

[5]	郝长伶, 董强. 知网知识库描述语言[C]//全国第七届计算语言学联合学术会议. 哈尔滨, 中国, 2003:371-377. HAO Changling, DONG Qiang. Knowledge database mark-up language of HowNet[C]//The 7th National Conference on Computer Linguistics. Harbin, China:2003:371-377.

[6]	滕岩. 基于领域知识的智能信息检索研究[D]. 济南:山东大学,2006,61. TENG Yan. The research of intelligent information retrieval system based on domain knowledge[D]. Jinan, China:Shandong University, 2006, 61.

[7]	方卓君, 李卫华, 李承晓. 自助游可拓策略生成系统的研究与实现[J]. 广东工业大学学报, 2009, 26(2):83-89. FANG Zhuojun, LI Weihua, LI Chengxiao. Research and realization of extension strategy generating system for independent travel[J]. Journal of Guangdong University of Technology, 2009, 26(2):83-89.

[8]	刘宗妹. 本体可拓模型的复合元实现及应用研究[D]. 广州:广东工业大学, 2010:1-48. LIU Zongmei. Research on ontology extension model implemented with complex elements and its application[D]. Guangzhou,China:Guangdong University of Technology, 2010:1-48.

[9]	何平. 基于可拓模型的本体进化研究[D]. 广州:广东工业大学, 2011, 89. HE Ping. Study of the ontology evolution based on extension model[D]. Guangzhou, China:Guangdong University of Technology, 2011, 89.

[10]	马捷, 刘小乐, 黄岚, 等. 教育领域本体构建研究[J]. 情报理论与实践, 2012, 35(7):104-108. MA Jie, LIU Xiaole, HUANG Lan, et al. Research on the ontology construction in educational domain[J].Information Studies:Theory & Application, 2012, 35(7):104-108.

[11]	刘小乐. 教育领域顶层本体构建及其应用研究[D]. 吉林:吉林大学, 2012, 64.LIU Xiaole. The construction and application research of the top-level ontology of educational domain[D]. Jilin, China:Jilin University, 2012, 64.

[12]	刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 计算语言学及中文信息处理, 2002, (7):59-76. LIU Qun, LI Sujian. Word similarity computing on how-net[J]. Computational Linguistics and Chinese Information Processing, 2002, (7):59-76.

DOI: 10.11992/tis.201412006
中国人工智能学会和哈尔滨工程大学联合主办。

文章信息

陶星, 李卫华, 汪中飞

TAO Xing, LI Weihua, WANG Zhongfei

基于知网的可拓领域信息元库的构建方法

Construction of HowNet-based extendable domain information element base

智能系统学报, 2015, 10(05): 790-796.

CAAI Transactions on Intelligent Systems, 2015, 10(05): 790-796.

DOI: 10.11992/tis.201412006

文章历史

收稿日期: 2014-12-08

网络出版日期: 2015-08-27

文章信息

文章历史

相关文章

工作空间