2. 桂林电子科技大学 广西可信软件重点实验室,广西 桂林 541004;
3. 广东工业大学 可拓学与创新方法研究所,广东 广州 510006;
4. 兰州大学 管理学院,甘肃 兰州 730000
2. Guangxi Key Lab of Trusted Software, Guilin University of Electronic Technology, Guilin 541004, China;
3. Institute of Extenics and Innovation Method, Guangdong University of Technology, Guangzhou 510006, China;
4. School of Management, Lanzhou University, Lanzhou 730000, China
随着移动互联网、物联网、社交网络和智能终端等迅速成长而涌现大数据,要求计算机具有处理大数据的技术体系,包括大数据采集与预处理、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘及大数据可视化计算等[1-2].显然,数据采集、预处理和存储等为后续分析与计算提供必要前提和有效保障.大数据管理需要根据计算机架构调整新的数据整合与存储模式.文献[2]指出,现有技术已经能够将融合处理后的数据转换为规范的数据结构并存储在专门的数据管理系统中,如文件或数据库等,形成专门的数据集.由于数据集的多源异构特征,给大数据的分析和计算等带来了不确定和多样性,导致数据质量存在差异.另外,异构数据集需要做进一步集成处理或整合处理生成一个新的数据集,为后续查询和分析处理提供统一的数据视图.在实际应用中,结构化数据、半结构化数据和非结构化数据是对存储形式的一种数据类型分析,有助于企业细分行业案例,更好地为合作伙伴提供应用实施方案.因此,研究大数据的整合存储技术有重要的理论意义和使用价值.
可拓学采用形式化模型研究事物拓展的可能性和开拓创新的规律与方法并用于处理矛盾问题.基元就是描述物、事和关系的形式化工具,包括物元、事元和关系元[3].采用基元可以把客观事物及其相互关系形式化表达,并经过计算机编程实现智能化.文献[4-6]对利用计算机实现可拓学基元的存储与管理作出了有益的尝试.一些学者采用可拓学在自助游、数据挖掘、工业设计、企业自主创新和客户管理等领域开始探索实现计算机智能化处理[7-12].鉴于可拓学在智能化处理矛盾问题的可行性和大数据计算机存储与管理的实践需要,利用基元形式化体系研究处理大数据,特别是半结构和非结构化数据有很好的理论意义与实践价值.
1 基本概念根据研究需要,本文首先介绍基元和分布式文件系统HBase数据模型的基本知识.
可拓学认为,客观世界的任何物、事和关系都可以采用基元形式化描述.文献[3]介绍了基元(包括物元、事元和关系元)理论.在文献[3]的基础上,文献[13]定义了多元多维基元,如下:
定义1 设O={O1, O2, …Op}为研究对象集(包括物的集合、事的集合和关系的集合等),C={c1, c2, …, cq}为研究对象的特征集合,对象Oi关于特征cj的取值为vij (i=1, 2, …p; j=1, 2, …, q),则称
| $ {B_{pq}} = \left[{\begin{array}{*{20}{l}} {}&{{c_1}}&{{v_{11}}}\\ {{O_1}}& \cdots&\cdots \\ {}&{{c_q}}&{{v_{1q}}}\\ \cdots&\cdots&\cdots \\ {}&{{c_1}}&{{v_{p1}}}\\ {{O_p}}& \cdots&\cdots \\ {}&{{c_q}}&{{v_{pq}}} \end{array}} \right]或{B_{pq}} = \left[{\begin{array}{*{20}{l}} {}&{{c_1}}&{{c_2}}& \cdots &{{c_q}}\\ {{O_1}}&{{v_{11}}}&{{v_{12}}}& \cdots &{{v_{1q}}}\\ {{O_2}}&{{v_{21}}}&{{v_{22}}}& \cdots &{{v_{2q}}}\\ \cdots&\cdots&\cdots&\cdots&\cdots \\ {{O_p}}&{{v_{p1}}}&{{v_{p2}}}& \cdots &{{v_{pq}}} \end{array}} \right] $ |
为p元q维基元,其中研究对象称为基元的元;对象的特征称为基元的维.若某个研究对象Oi不具备或不需要考察某个特征cj,则令vij≡NA,表示取值无意义或不存在.
显然,当p=q=1时,B11就是基元的最初定义,即一元一维基元.
定义2 基元Bpq如定义1,称
| $ B_{pq}^i = \left[{\begin{array}{*{20}{l}} {{O_i}}&{{c_1}}&{{v_{i1}}}\\ {}&{{c_2}}&{{v_{i2}}}\\ {}& \cdots&\cdots \\ {}&{{c_q}}&{{v_{iq}}} \end{array}} \right]或B_{pq}^i = \left( {\begin{array}{*{20}{l}} {{O_i}}&{{c_1}}&{{c_2}}& \cdots &{{c_q}}\\ {}&{{v_{i1}}}&{{v_{i2}}}& \cdots &{{v_{iq}}} \end{array}} \right) $ |
为Bpq的第i元q维基元部(i=1, …, p).
事实上,第i元q维基元部Bpqi即为q维基元.
数据需要存储在计算机,而HBase是一个分布式、面向列且适合非结构化数据存储的开源数据库[14].HBase以表的形式存储数据,每个表由行和列组成,每个列属于一个特定的列族.表中由行和列确定的存储单元称为一个元素,每个元素保存了同一份数据的多个版本,由时间戳来标识.表 1举例说明了网站www.cnn.com的数据存放逻辑视图[14].
| 表 1 数据存放逻辑视图 Table 1 The logic view of date storage |
显然,表 1中仅有一行数据,行关键字为com.cnn.www.在HBase数据库中,每一行相当于传统数据库中的一个表,而行关键字就是表名.对表中行数据的每一次逻辑修改都有一个时间戳关联对应.表 1中共有3个列定义:<contents>、<anchor>和<mime>.列定义为:<列族>:<标签>.通过这两部分可以唯一指定一个数据的存储列.对列族的定义和修改需要管理员权限,而标签可以在任何时候添加.
除逻辑存储模型外,表 2给出HBase的物理存储模型.HBase的物理模型是按列存储的稀疏行/列矩阵,实际上就是把概念模型中的一个行进行分割并按照列族存储[14].
| 表 2 数据在物理上的存储方式 Table 2 Thephysical storage form of data |
可拓学基元使矛盾问题的处理能够被计算机智能化实现,而实现智能化处理的前提是解决基元数据的存储问题.根据可拓学基元的形式化表示方法和HBase数据库的存储模型,表 3给出了基元在HBase数据库存放的逻辑模型.
| 表 3 基元存放逻辑视图 Table 3 The logic view of basic-elementstorage |
显然,表 3中HBase表格的行标识对应于基元名称Bpq,而列族则对应于基元的对象及其特征cj,并且每一个标签对应于基元的对象名Oi和对象Oi关于特征cj的取值vij(i=1, …, p; j=1, …, q).本文称基元在HBase数据库的存储集合为HBase基元数据库,基元名称Bpq即为行关键字,称为行基元;把基元对象所在的列和特征cj作为列族,分别称为列对象和列特征;对象名称Oi和Oi关于cj的特征值vij为标签,分别称为对象标签和特征标签.由此,在基元存放的逻辑视图中,列定义有两种形式,分别为:<列对象族>:<对象标签>和<列特征族>:<特征标签>.在表 3中,t1时刻对应的对象标签为基元的初始对象Oi,并且特征标签为各对象Oi关于特征cj的初始取值vij(i=1, …, p; j=1, …, q);其他时间戳t2, …, Tn对应的对象标签和特征标签分别为初始对象和特征初始值在各时刻的改变值,即在HBase数据基元库中t1时刻存储的基元为初始基元Bpq,其他时刻对应的基元为经过修改后存储的基元Bpq.同理,根据表 2和表 3可以得到HBase基元数据库的物理存储方式, 如表 4所示.
| 表 4 基元数据在物理上的存储方式 Table 4 The physical storage form of basic-element data |
多源异构是大数据的重要特征之一.大数据的异构性体现在结构化、半结构化和非结构化.大数据应用的关键是要对数据进行融合并有效表示,因此本文首先探讨异构大数据的融合表示.鉴于可拓学基元能够形式化描述客观世界的任何物、事及事物间的关系,以及HBase数据库的存储模型与基元形式化模型的相似性,本文将分别以数据案例探讨结构化、半结构化和非结构化数据的基元存储模型.
3.1 结构化数据的HBase基元数据库存储方式结构化数据指存储在数据库里的行数据,可以用二维表结构来逻辑表达实现,如医疗HIS数据库、企业ERP数据和财务数据等.结构化数据的基元表示比较显而易见,其属性特征一般在表格中已经给出.表 5即为典型的结构化数据,其HBase基元数据库存储的逻辑视图和物理模式分别见表 6和表 7.
| 表 5 基于不同方法的语义匹配实验效果表 Table 5 Thesemantic matching talbe based on diferent methods |
| 表 6 结构化数据基元存放逻辑视图 Table 6 The logic view of struatured basic-element data storage |
| 表 7 结构化数据基元在物理上的存储方式 Table 7 The physical storage form of structured basic-element data |
非结构化数据一般指不方便用数据库二维逻辑表来表现的数据,其字段长度可变且每个字段的记录又可以由可重复或不可重复的子字段构成.非结构化数据包括视频、音频、图片、图像、文档、文本等形式.现实中的典型案例如医疗影像系统、教育视频点播、视频监控和科学文献等.对于非结构化数据的基元描述,一般是以数据库题名为行基元,然后根据非结构化数据的复杂程度决定是否需要分成若干组成部分(若需要划分,则提取列对象族,并以组成部分名称为对象标签;若无需划分则略列对象族),再提取非结构化数据的重要属性作为列特征族,最后对数据库资料进行内容分析并根据列特征提取其特征标签.
本文以文献[15]为例说明非结构化数据的基元存储方式.一般来说,科学研究文献有一定的书写格式,如文章题名、作者名、作者单位、摘要、关键词、正文、参考文献等.科学文献的题名可以作为行基元,其各组成部分可作为列特征族,而组成部分的具体内容作为其特征标签.表 8和表 9分别为文献[15]的HBase基元数据库存放的逻辑视图和物理模式.
| 表 8 非结构化数据基元存放逻辑视图 Table 8 The physicalview ofunstructured basic-element data |
| 表 9 非结构化数据基元在物理上的存储方式 Table 9 The physical storage form of unstncctured basic-element data |
半结构化数据是指介于结构化和非结构化之间的数据,包括邮件、HTML和各种报表等,其现实中的典型场景如邮件系统、WEB集群和档案系统等.根据具体数据类型,有的半结构化数据具有比较明显的属性特征,有的半结构化数据的属性特征需要提炼.
本文以下面的网页内容为例说明半结构化数据的基元存储模式.
< ?xml version=”1.0” encoding=”UTF-8”?>
< !DOCTYPE应聘信息SYSTEM “fourDTD.dtd”>
< 应聘信息>
< 应聘者>
< 姓名>张三</姓名>
< 硕士>湖南大学计算机理学硕士<硕士>
< 奖励>获得计算机竞赛一等奖1次</奖励>
< 奖励>获得3次一等奖学金</奖励>
< 处分>被警告处分1次</处分>
< 性别>男</性别>
< /应聘者>
< 应聘者>
< 姓名>李翠花</姓名>
< 博士>武汉大学自动化专业工学博士</博士>
< 奖励>获得5次一等奖学金</奖励>
< 性别>女</性别>
< /应聘者>
根据上面的内容,可建立该网页的HBase基元数据库存储的逻辑视图和物理模式分别如表 10和表 11所示.
| 表 10 半结构化数据基元存放逻辑视图 Table 10 Thelogic view of semi-structured basic-element data storage |
| 表 11 非结构化数据基元在物理上的存储方式 Table 11 Thephysical storage form of unstructured basic-element data |
在大数据背景下,数据已经成为类似人力资源、土地资源和能源资源等一样宝贵的资源财富.利用数据资源的前提是提供可靠的数据质量和整合元数据资料生成数据库.由于可拓学基元描述物、事和关系的形式化方式与HBase数据库存储模式相似,本文探讨了大数据基元在HBase数据库的存储模型与实现.在实际应用中,大数据基元也可以在其他类型数据库中存储与实现.大数据基元的HBase存储方式不但使异构数据集具有统一的模式,而且可以根据时间戳了解数据的变化情况.鉴于可拓学在解决矛盾问题中的独特作用,大数据的基元处理及其在HBase中的存储实现不但为大数据的分析和计算等提供新的实现方式,而且为后续探讨如何从大数据中获取可拓知识以及如何利用从大数据中获得的知识生成解决矛盾问题的策略等提供前提条件.
| [1] |
中国电子科学研究院学报编辑部. 大数据时代[J].
中国电子科学研究院学报, 2013(1): 27-31.
Editorial department of the Journal of Chinese Academy of Electronic Science. The era of big data[J]. The Journal ofChinese Academy of Electronic Science, 2013(1): 27-31. |
| [2] |
中国计算机学会大数据专家委员会. 中国大数据技术与产业发展白皮书[M]. 2013.
|
| [3] |
杨春燕, 蔡文.
可拓工程[M]. 北京: 科学出版社, 2007.
|
| [4] |
李立希, 杨春燕, 李铧汶.
可拓策略生成系统[M]. 北京: 科学出版社, 2006.
|
| [5] |
李杨, 谢光强. 可拓基元的形式化表示与实现[J].
软件导刊, 2013, 12(7): 37-39.
Li Y, Xie G Q. Formative representation and implementation of Extension basic-element[J]. Software Guide, 2013, 12(7): 37-39. |
| [6] |
李卫华, 杨春燕. Agent识别矛盾问题核问题的方案研究[J].
计算机科学与工程, 2010(8): 127-129.
Li W H, Yang C Y. The scheme research for identifying the kernel problem of the contradiction problems with Agent[J]. Computer Engineering and Science, 2010(8): 127-129. |
| [7] |
叶广仔, 李卫华, 李淑飞. 可拓策略生成系统的构件化设计与实现[J].
智能系统学报, 2010, 5(4): 366-371.
Ye G Z, Li W H, Li S F. Components based design of an extensional strategy generation system[J]. CAAI Transaction on Intelligent Systems, 2010, 5(4): 366-371. |
| [8] |
杨春燕, 李小妹, 陈文伟, 等.
可拓数据挖掘方法及其计算机实现[M]. 广州: 广东高等教育出版社, 2010.
|
| [9] |
李承晓, 李卫华. 租房可拓策略生成系统[J].
智能系统学报, 2011, 6(3): 272-278.
Li C X, Li W H. Research on a tenement extension strategy generation system[J]. CAAI Transaction on Intelligent Systems, 2011, 6(3): 272-278. |
| [10] |
李兴森, 李萍, 朱正祥. 可拓思维辅助企业管理创新[J].
科技智囊, 2009(2): 40-43.
Li X S, Li P, Zhu Z X. Extension thinking aids enterprise management innovation[J]. Think Tank of Science and Technology, 2009(2): 40-43. |
| [11] |
赵燕伟, 苏楠.
可拓设计[M]. 北京: 科学出版社, 2010.
|
| [12] |
李兴森, 朱正祥, 刘艳彬. 预防客户流失的可拓转化策略研究[J].
广东工业大学学报, 2012, 29(3): 18-22.
Li X S, Zhu Z X, Liu Y B. Research on the extension transformation strategy for customer retention[J]. Journal of Guangdong University of Technology, 2012, 29(3): 18-22. |
| [13] |
李桥兴. 多元多维基元及高阶多元多维可拓集合构造[J].
广东工业大学学报, 2009, 26(4): 84-86.
Li Q X. The method to construct multivariate and multidimensional basic-element and extensible set with high order and multivariate and multi-dimensions[J]. Journal ofGuangdong University of Technology, 2009, 26(4): 84-86. |
| [14] |
张德丰.
大数据走向云计算[M]. 北京: 人民邮电出版社, 2014.
|
| [15] |
蔡文, 杨春燕. 可拓学的基础理论与方法体系[J].
科学通报, 2013, 58(13): 1190-1199.
Cai W, Yang C Y. Basic theory and methodology on Extenics[J]. Chinese Science Bulletin, 2013, 58(13): 1190-1199. |
2014, Vol. 31