2. 广东工业大学 计算机学院, 广东 广州 510006
2. School of Computers, Guangdong University of Technology, Guangzhou 510006, China
维克托·迈尔·舍恩伯格在《大数据时代》一书中指出:大数据正在改变生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发[1].
目前大数据得到了世界各国的高度重视,美国政府投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”. 我国香山科学会议就大数据的理论与工程技术研究、应用方向以及大数据研究的组织方式与资源支持形式等重要问题进行了深入讨论[2]. 靳小龙等[3]指出:当前对大数据的研究大致也可以分为专注于研究大数据的复杂性和计算模型的基础理论,以及着眼于大数据的感知与表示、内容建模与语义理解,和大数据计算架构体系的关键技术这样两个层面.
在语义理解方面,主要还是利用语义Web(Semantic Web)研究语义理解. 比如Christian Bizer等[4]提出了利用关联开放数据(Linked Open Data, LOD)的思想在Web上不同数据源之间创建语义关联,武汉大学何克清等[5]提出元模型与本体相融合的建模体系,何向武[6]结合大数据的特点和语义Web的理论,对大数据中的RDF语义数据的描述和存储进行研究. 吴纯青等[7]研究如何有效组织管理网络空间中的数据资源并实现基于数据语义的相似性搜索. 陈曦等[8]提出了一种基于Hadoop的语义大数据分布式推理框架,并且设计了相应的基于属性链(property chain)的原型推理系统来高效地发现海量语义数据中潜在的有价值的信息. 杨杰等[9]基于MapReduce和ACO算法提出可在广域网环境分布式并行执行的异构大数据语义聚类融合DPACO方法. 杨鵾[10]提出了一种可以对复杂金融环境下的异构数据信息进行整合及处理的基于语义的大数据处理系统.
相对而言,对于基于语义的大数据共享机制的研究较为缺乏,主要是缺乏合适的理论工具. 语义Web适用于符合语义Web体系结构的信息源,但不适用于类型繁多,信息表示结构各异的大数据环境.
笔者学习了J Barwise和J Seligman的著作《Information Flow: The logic of Distributed Systems》[11]中提出的信息流理论,并进行了应用研究[12-13],近期又进行了与知网相关的研究工作,发表了相关论文[14-15]. 现在为了支持大数据语义共享的需要,在前人工作的基础上,基于信息流理论和知网技术提出了大数据语义共享通道的构想. 本文第1节简单介绍信息流理论的基本内容及其应用,第2节介绍知网技术,第3节介绍大数据语义共享通道的结构,第4节介绍笔者的应用研究工作.
1 信息流理论及其应用信息流理论又称通道理论(Channel Theory),以区别于Shannon的信息论(Information Theory)[16]. J Barwise和J Seligman的研究[11]目的是提取出理解信息流动最根本的东西,而不只是为了通信.
有关信息流理论的详细内容请参见文献[11],以下内容简单介绍该书中几个主要概念.
(1) Classifications(分类).
分布式系统的每个组件用分类
|
图 1 分类 Figure 1 Classifications |
(2) Infomorphisms(信息射).
信息射是分类A到分类B的一对逆变函数
|
图 2 信息射 Figure 2 Infomorphisms |
(3) 信息通道.
一个信息通道包含一个标记信息射族
|
图 3 信息通道 Figure 3 Information channel |
这种最基本的信息通道获取了组件A和组件B之间的信息流[12].
通道理论认为分布式系统内的规则是信息流动的原因,这些规则隐含在系统组件的表示(分类)和连接(信息射)中[12].
信息流理论已经在国际上受到重视,并已得到多种应用[12]. 文献[17]演示了本体共享如何在信息流的概念知识模型中能够形式化;文献[18]讨论了信息流支持语义互操作的问题;文献[19]从Shannon的信息论和Barwise/Seligman的通道理论中综合得出一个新框架,并将所得的理论应用于信息隐藏(steganography)和隐蔽通道(covert channel)中;文献[20]描述了用信息流理论发送地理信息的应用;等等.
2 知网知网是一个描述概念与概念之间的关系以及概念的属性与属性之间的关系的知识系统[21],创始人是我国学者董振东研究员. 知网采用了意义分解的方法,即采用2 000个义原来描述概念[22]. 后来知网又开发了知识数据描述语言(KDML),使概念描述更加丰富和精细,因此大大提高了意义的计算能力[22]. 董振东研究员[22]曾在他的几篇文章中提出:自然语言处理系统最终需要更强大的知识库的支持. 知网描述的是通用的知识,而专门领域的知识留待专门领域的专家来研究和建设.
知网的中文语义处理能力在国内外是数一数二的,知网利用了它选定的语义角色,与义原配合描述了中英文各10万义项[22],满足日常交流所使用的绝大部分文字信息的处理需求. 其中知网的中英文知识库是文本文件HowNet.txt,部分义项如下所示.
NO.=000015
W_C=ASCII
G_C=N
E_C=
W_E=American Standard Code for Information Interchange
G_E=N
E_E=
DEF=symbol|符号, computer|电脑, software|软件
NO.=000016
W_C=A股M
G_C=N
E_C=
W_E=A share
G_E=N
E_E=
DEF=coupon|票证, #fund|资金
这种良好的格式很适合计算机检索.
有关知网的更多详细信息请参见网址http://www. keenage.com/html/c_index.html.
3 大数据语义共享通道大数据的主要特点:一是数据量巨大,从TB级别跃升到PB级别;二是数据类型繁多,包括文本、网络日志、视频、音频、图片、地理位置信息等[6]. 由于互联网中的大数据资源是分布和异构的,各大数据资源之间并不能按照用户的需求进行有意义的交流. 不同的大数据资源存在着语法以及特别是语义冲突,如果利用语义Web的思想解决互联网大数据语义一致性问题,那么各个数据源都要采用语义Web的体系结构,这点并不容易做到.
信息流理论为大数据语义共享奠定了基础,因为它用分类、信息射、通道、局部逻辑和分布式逻辑等概念支持信息在分布式系统中流动. 只要对异构信息源不同分类之间建立信息射,形成信息通道,就可以使大数据在通道中流动,以便共享. 因此,在信息流理论的基础上,针对大数据语义共享的特点,本文提出如下的大数据语义共享通道的基本结构.
每个大数据源由其创建者分类,要使某个社团理解它,必须构造创建者分类A j 和社团分类B i 的信息射f j ,如图4所示.
|
图 4 信息射f j Figure 4 Infomorphisms f j |
一个社团理解的大数据要让公众共享,必须通过各种信息射g i 建立信息通道C,如图5所示.
|
图 5 信息射g i Figure 5 Infomorphisms g i |
综合两部分得到一个两级的大数据共享通道,如图6所示.
|
图 6 大数据语义共享通道 Figure 6 Big data semantic share channel |
参加的社团或信息源若有变化,某些信息射就会变化,但通道的基本结构变化不大.
如何从所建立的通道中得到需要的信息,并且与大数据源保持语义一致性?从文献[18]的语义互操作步骤可以得知,关键的起点是选择类型、标记和它们的分类关系. 而本体对此有重要作用,因此大数据语义共享通道需要3种本体支持.
第1种是大数据信息源分类本体,一个信息源相当于通道理论中的分布式系统组件,由一个分类
第2种是社团本体,它对建立每个社团的各种语境有支持作用. 各种信息源由于语境不同,很容易造成冲突,比如一个信息源提供“苹果”手机,另一个信息源提供“苹果”水果,可以通过信息源本体与社团本体的信息射f j 消除冲突.
第3种是通道本体,也可以称为公共本体,是共享信息的核心. 各个社团本体通过信息射g i 与通道本体达成一致,实现本体共享. 这样,一个IT社团的信息“苹果公司招聘人”(销售手机)就不会使某食品社团感到动心.
构造信息源分类本体和社团本体较为容易,因为它们的信息实例的收集是独立控制的. 通道本体的建立则比较复杂,它要求在参与社团的信息实例之间有一个自然集合的“连接”,即大家同意公共继承的类型. 而大数据环境下数据源发布者文化层次和知识背景极其不同,容易产生错综复杂的语义冲突,用某个或某几个领域的知识来涵盖大数据语境都不充分.
经过深入研究,笔者认为用知网(HowNet)[21]作为通道本体的基础较为可行. 知网是这样把握世界的,它认为万物都在特定的时间和空间里运动和变化,改变着它们的属性,体现于相应的属性值[22]. 知网现在中文和英文各10万多词语义项的定义,都被万物、时间、空间、属性、属性值、事件和部件这7类所涵盖[22]. 提出的通道本体正是需要通用的知识,因为可以涵盖大数据语境. 通道本体可以尽可能用知网的义原来描述基础数据,因为知网的义原是精心选择的,每一个义原的意义都是唯一的、没有歧义的[22],特别适用于大数据的语义互操作.
大数据语义共享通道的另一个重要因素是信息射,起消除语义冲突的作用. 本研究方案是采用课题组曾提出的信息射[12]方案,用Agent会话机制动态地生成信息射,以适应大数据变化多端的环境.
4 应用研究因为信息流理论是通用的规则理论,不涉及技术方面的内容. 如果把它应用到不同的领域,就要根据具体情况采用不同的实现技术.
大数据语义共享通道的初次应用是职业信息共享. 职业技术学院由于竞争力先天不足,学生的就业压力较大,如果能够充分共享大数据中的职业信息,无疑为毕业生提供更多的就业机会,但这些大数据必须被职业技术学院的学生理解才有用. 如果有人转发“苹果公司招聘人”信息,学生们必定追问该“苹果公司”经营什么产品的,是经营水果、手机,还是服装的,以便考虑是否求职. 这就是大数据语义理解的重要性.
为了建立职业信息大数据语义共享通道,需要上一节提到的3类本体的支持. 信息源分类本体通常由信息发布者建立,通道本体采用知网知识库,剩下要建立的就是社团本体了. 搜集了知网中有关的义原,建立社团本体. 如“职业”:
NO.=108476
W_C=职业
G_C=N
E_C=
W_E=job
G_E=N
E_E=
DEF=affairs|事务, #occupation|职位, earn|赚, alive|活着
“应聘”:
NO.=100746
W_C=应聘
G_C=V
E_C=
W_E=accept an offer of employment
G_E=V
E_E=
DEF=accept|接受, content=employ|雇用
……
在实验中,用著名的斯坦福大学医学院开发的7步法[23]来构建社团本体——职业信息领域本体.
1) 确定本体的专业领域和范畴.
职业信息涉及到的领域广泛,初步确定是IT职业领域.
2) 复用现有本体.
知网对通用知识进行了本体分析,得到了义元的概念. 对于受限领域,同样可以对知网进行扩展,得到领域本体.
3) 列出本体中的重要术语.
参考文献[24]提取岗位类别、招聘人数、岗位名称、专业、学历、岗位职责、任职资格、工作地点、性别和薪酬福利10个核心概念,并作适当修改,如改为“职业名称”、“职业定义”和“职业级别”等.
4) 定义类和类的等级体系.
按国家职业信息大典规范定义的类作适当修改,在“职业代码”、“职业名称”、“职业类型”、“职业描述”、“工作内容”、“大类”、“中类”和“小类”等基础上增加用人单位、职位待遇、求职者和求职要求等主要类.
5) 定义类的属性.
采用知网定义的上下位关系等描绘概念间的内在结构,如在“职业名称”后加上“小类代码”,小类代码就定义了该职业的上位关系. 比如“推销员,4-01-02”,说明该推销工作是商业服务业人员(大类4),购销人员(中类4-01),推销、展销人员(小类4-01-02).
6) 定义属性的分面.
属性的分面即属性取值的类型、允许的取值和取值个数等. 定义的职业信息各字段组成如表1所示.
| 表 1 计算机职业信息属性 Table 1 Computer occupation information attributes |
7) 创建实例.
定义计算机职业信息类实例,用开源的关系数据库MySQL存放职业信息领域知识. 部分信息如图7所示.
|
图 7 计算机职业信息知识 Figure 7 Computer occupation information knowledge |
如果大数据提供者所提供的经过分类和带有动态特征的数据信息遵从同一个社团本体,即符合国家职业信息大典规范的本体,则客户端的查询服务所进行的大数据共享处理就不太复杂,语义基本上不冲突. 比如,设某企业人力资源部发来的招聘信息表有“管理人员”和“计算机人员”,计算机毕业生如果有兴趣,细问“计算机人员”的具体含义,人力资源部可以按他们的本体(职业信息大典)再指出具体招聘的“计算机人员”的职业信息为:
2-02-13-01 计算机硬件技术人员;
2-02-13-02 计算机软件技术人员;
2-02-13-03 计算机网络技术人员;
2-02-13-04 计算机系统分析技术人员;
2-02-13-99 其他计算机与应用工程技术人员.
那么学生们从图7所示的职业信息知识库就查询到具体工作内容,按个人兴趣去应聘就可以了.
但实际的大数据环境是高度异构和动态的,各信息源不会全部遵从同一个本体. 如果各个大数据提供者遵从不同的社团本体,共享这些语义信息就要运用信息射,在知网常识(通道本体)的支持下消除语义冲突,这是在大数据环境下大数据语义共享通道成功应用的关键.
例如:有人通过微信发来一个消息:“南方传媒将来招聘设计人员”. 负责接收信息的Agent将信息显示给毕业生们,传媒专业的学生首先有兴趣,问设计人员做什么工作,Agent发挥消除语义模糊的信息射作用,通过会话机制追问信息源之“设计人员”的分类信息,若信息源送来的分类是“程序”设计,Agent查询通道本体(知网)得到多个“程序”的义项:
NO.=013219
W_C=程序
G_C=N
E_C=
W_E=procedure
G_E=N
E_E=
DEF=attribute|属性, sequence|次序, &event|事件
…
NO.=013221
W_C=程序
G_C=N
E_C=
W_E=program
G_E=N
E_E=
DEF=software|软件
Agent仍要追问信息发送者“程序”是否“software|软件”,如果对方答复是,这时语义清晰了,Agent显示“南方传媒将来招聘程序(软件)设计人员”给毕业生们,这时计算机专业的学生应该感兴趣了.
通过这样的大数据语义共享通道,可以消除大数据语义模糊,实现信息共享.
5 结论由于大数据时代的“信息爆炸”问题,不能只关注信息量,更要关注信息的语义. 由于不可避免的时代局限,Shannon的信息论满足不了访问语义信息的需求. Barwise/Seligman的信息流理论从分布式系统信息流动的规则出发,提出了通用的信息通道理论,较好地支持了共享语义信息的需求. 知网的通用知识库则比一般的领域本体更能涵盖大数据语境. 本文在通道理论的基础上,针对大数据的分布、动态、异构的特点,提出了用信息流理论和知网共同构建大数据语义共享通道的基本结构,并用3类本体以及信息射实现所提出的通道. 用职业技术学院学生共享职业信息为案例做了初步应用研究,得到有效的结果.
| [1] | (英)维克托·迈尔·舍恩伯格, (英)肯尼思·库克耶. 大数据时代: 生活、工作与思维的大变革[M]. 盛杨燕, 周涛, 译. 杭州: 浙江人民出版社, 2013. |
| [2] |
李国杰, 程学旗. 大数据研究: 未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].
中国科学院院刊, 2012, 27(6): 647-657.
LI G J, CHENG X Q. Research status and scientific thinking of big data[J]. Bulletin of Chinese Academy of Sciences, 2012, 27(6): 647-657. |
| [3] |
靳小龙, 王元卓, 程学旗. 大数据的研究体系与现状[J].
信息通信技术, 2013(6): 35-43.
JIN X L, WANG Y Z, CHENG X Q. Research system and status of big data[J]. Information and Communications Technologies, 2013(6): 35-43. |
| [4] | BIZER C, TOM H, TIM B-L. Linked data—the story so far[J]. International Journal on Semantic Web and Information Systems, 2009, 5(3): 1-22. DOI: 10.4018/IJSWIS. |
| [5] | 何克清. 本体元建模理论与方法及其应用[M]. 北京: 科学出版社, 2008: 1-307. |
| [6] |
何向武. 大数据中RDF语义数据存储优化探讨[J].
计算机应用与软件, 2015, 32(4): 38-41.
HE X W. Probing optimisation of RDF semantic data storage in big data[J]. Computer Applications and Software, 2015, 32(4): 38-41. |
| [7] |
吴纯青, 任沛阁, 王小峰. 基于语义的网络大数据组织与搜索[J].
计算机学报, 2015, 38(1): 1-17.
WU C Q, REN P G, WANG X F. Survey on semantic-based organization and search technologies for network big data[J]. Chinese Journal of Computers, 2015, 38(1): 1-17. |
| [8] |
陈曦, 陈华钧, 顾珮嵚, 等. 一种基于Hadoop 的语义大数据分布式推理框架[J].
计算机研究与发展, 2013, 50(suppl.): 103-113.
CHEN X, CHEN H J, GU P Q, et al. A distributed reasoning framework for big semantic data based on Hadoop[J]. Journal of Computer Research and Development, 2013, 50(suppl.): 103-113. |
| [9] |
杨杰, 李小平, 潘丽娅. 面向道路交通监控网的异构大数据语义融合方法[J].
东南大学学报(自然科学版), 2014, 44(5): 907-911.
YANG J, LI X P, PAN L Y. Semantic fusion method for heterogeneous big data of traffic monitoring systems[J]. Journal of Southeast University(Natural Science Edition), 2014, 44(5): 907-911. DOI: 10.3969/j.issn.1001-0505.2014.05.006. |
| [10] | 杨鵾. 基于语义的金融行业大数据整合及处理技术[D]. 杭州: 浙江大学计算机科学与技术学院, 2013: 1-67. |
| [11] | BARWISE J, SELIGMAN J. Information flow: the logic of distributed systems[M]. Cambridge: Cambridge University Press, 1997: 1-274. |
| [12] |
李卫华, 李师贤. 信息流理论及其应用研究[J].
计算机科学, 2006, 33(7): 11-15.
LI W H, LI S X. The research of information flow theory and its applications[J]. Computer Science, 2006, 33(7): 11-15. |
| [13] | 李卫华. 网格信息服务Agent资源共享互操作语义研究[D]. 广州: 中山大学信息科学与技术学院, 2005: 1-100. |
| [14] |
李卫华. 利用知网增强可拓策略生成机制研究[J].
广东工业大学学报, 2013, 30(2): 1-6.
LI W H. Research on taking advantage of the HowNet to Enhance mechanisms of extension strategy generation[J]. Journal of Guangdong University of Technology, 2013, 30(2): 1-6. |
| [15] |
赵杰, 李卫华. 基于知网的矛盾问题语义二义性研究[J].
广东工业大学学报, 2014, 31(2): 21-26.
ZHAO J, LI W H. Research on the ambiguity of contradiction based on HowNet[J]. Journal of Guangdong University of Technology, 2014, 31(2): 21-26. |
| [16] | SHANNON C. A mathematical theory of communication[J]. The Bell System Technical Journal, 1948, 27: 379-423, 623-656 |
| [17] | KENT R E. The information flow foundation for conceptual knowledge organization[C]//6th International Conference of the International Society for Knowledge Organization. Toronto:[s.n.], 2000: 1-7. |
| [18] | MARCO S, YANNIS K. On semantic interoperability and the flow of information[J]. Revista Mexicana De Ciencias Geológicas, 2003, 30(1): 80-95. |
| [19] | ALLWEIN G, MOSKOWITZ I S., CHANG L W. A new framework for Shannon information theory[R]. Washington: NRL Memorandum Report, 2004: 1-17. |
| [20] | WORBOYS M F. Communicating geographic information in context[C]//DUCKHAM M, GOODCHILD M, WORBOYS M F, et al. Foundations of Geographic Information Science. London and NewYork: Taylor & Francis, 2003: 33-45. |
| [21] |
董振东, 董强. 知网和汉语研究[J].
当代语言学, 2001, 3(1): 33-44.
DONG Z D, DONG Q. Hownet and Chinese research[J]. Contemporary linguistics, 2001, 3(1): 33-44. |
| [22] |
董振东, 董强, 郝长伶. 知网的理论发现[J].
中文信息学报, 2007, 21(4): 3-9.
DONG Z D, DONG Q, HAO C L. Theoretical findings of HowNet[J]. Journal of Chinese information processing, 2007, 21(4): 3-9. |
| [23] |
李景, 苏晓鹭, 钱平. 构建领域本体的方法[J].
计算机与农业, 2003(7): 7-10.
LI J, SU X L, QIAN P. The methodology of developing domain ontology[J]. Computer and Agriculture, 2003(7): 7-10. |
| [24] | 陈珊珊. 基于语义的大学生就业推荐系统研究[D]. 武汉: 武汉科技大学信息科学与工程学院, 2014: 1-46. |
2017, Vol. 34

