文章快速检索  
  高级检索
基于语义的隧联网数据整合方法
吴珺1,2 , 谢树泉2 , 王春枝1
1. 湖北工业大学 计算机学院, 湖北 武汉 430068;
2. 武汉理工大学 计算机科学与技术学院, 湖北 武汉 430070
基金项目: 国家自然科学基金资助项目(61170135);湖北省自然科学基金资助项目(2014CFB590);湖北工业大学博士启动基金资助项目(BSQD13039).    
摘要: 通过构建隧联网实现多个城市隧道监控系统的深层次数据共享与协同应用。隧联网可提供应急管理、城市规划建设和隧道长期监控等服务,实现各个城市隧道监控系统间的协同调度与联动控制;同时丰富物联网技术的应用,提高隧道联网智能监控水平。针对隧联网数据整合进行研究,首先通过构建隧联网联邦数据库实现各个城市隧道数据库的数据共享;然后给出标准化的隧联网数据字典;其次通过基于语义的数据整合方法实现隧联网数据的整合和查询。实现了隧联网数据的统一管理和关联性查询应用,其中的每个城市隧道监控系统实现数据的共享和信息互联,增加隧联网系统数据的利用率和信息的可信程度。
关键词: 隧联网     系统异构     语义异构     数据整合     语义字典    
Data integration for tunnel network based on semantic
WU Jun1,2 , XIE Shuquan2 , WANG Chunzhi1
1. School of Computer Science, Hubei University of Technology, Wuhan 430068, China ;
2. School of Computer Science and Technology, Wuhan University of Technology, Wuhan 430070, China
Abstract: This paper gives a brief introduction about the tunnels internet, which is the main background of this research work. Next, an analysis of the heterogeneity is provided, which is used to find the solution for doing data integration. In order to achieve the data integration for the tunnels network, it considers how to construct the tunnels internet federal database, which has its own standardized data semantic dictionary. Lastly, it proposes a new semantic data integration method for the tunnels network, which could be applied on data integration and query. The result showed that this method can achieve data sharing and information network in the tunnels network and enhance the data efficiency.
Key words: tunnels network     structural heterogeneity     semantic heterogeneity     data integration     semantic dictionary    

随着物联网的多样化发展,针对多个城市交通智能监控系统进行信息互联与数据整合;并实现数据检索,成为基于物联网的数据挖掘及智能系统应用研究的热点。

本文提出隧联网TI(tunnels internet)作为一种特殊的物联网IoT(internet of things),是将当前先进的计算机技术、数据存储技术、数据分析技术等综合运用其中,最终达到功能完善及智能化水平高的目的。2012年何清教授[1]在智能系统学报发表文章将物联网和云计算这2个当前业界的研究热点结合起来分析讨论,具有一定的创新性和前瞻性。该文针对这一研究热点讨论了数据挖掘在物联网中的重要性;同时指出云计算作为物联网发展的重要基石,可以为物联网的数据挖掘提供更加实时、准确可靠、高效的分布式并行服务。物联网如果不加入智能信息处理和数据挖掘就不能体现智能,那么就只能是一个由海量传感器构成的简单信息网络。因此建立先进的隧联网是在物联网的大背景下将城市隧道监控系统朝着整合化、智能化和信息化的方向发展;并实例化物联网的数据整合与管理。本文将针对隧联网数据的异构性进行分析研究,并提出基于语义的隧联网数据整合方法。

1 隧联网

随着社会信息化水平的发展和中国城市化进程的推进,将人们带入了多感官、物物相连的数据海洋。人们置身于网络化世界,其中包括虚拟化的互联网,也包括物物相联的物联网。在复杂广阔的物联网里,城市交通作为支撑经济发展的重要基础,其建设与发展的速度也越来越快。在我国也有多个院校和研究机构,如清华大学、北京交通大学、吉林大学和国家ITS中心等,面对交通数据的监控管理实施开展了许多有意义的研究工作,在交通信息的分类分析、交通信息的模型和结构、实时数据的管理技术等方面都取得了相应的成果,并形成了初步的技术框架、应用实例和实验平台[2-6]。然而城市隧道作为“感知中国”的一个关键和特殊交通感知点,我国城市隧道智能监控发展较晚,至今没有统一的城市隧道监控规范和标准,更没有形成统一的城市隧道智能监控平台。虽然各大城市已经先后建立了多个城市隧道智能监控系统,但并没有实现城市多个隧道的联网监控。

本文通过研究已开发多个城市隧道的监控系统,总结和归纳了城市隧道的相关特性,提出了“隧联网”作为“物联网”在城市交通智能监控领域的一个特殊应用。

本文主要针对多个城市隧道智能监控系统中存在的数据孤立化、非标准化、多源异构性、建设与管理分离等问题进行研究。希望通过对隧联网的数据特性研究提出数据整合的方法,解决这些已存在的问题。从而通过构建隧联网,实现城市隧道监控系统进行深层次的数据共享与协同应用,为应急管理、城市规划建设和隧道长期监控提供服务,实现各个城市隧道监控系统间的协同调度与联动控制,丰富物联网技术的应用,提高隧道联网智能监控水平的目标。

2 隧联网的数据异构性

隧联网的数据异构性;从物理角度分析,隧联网是由多个位于城市不同地理位置的隧道智能监控系统构成,它们修建时间不同,系统结构和功能也有所差异;而从逻辑角度分析,隧联网中各个隧道所采集的数据由于硬件配置的区别导致不同定义的数据模型,那么数据表示也具有一定差异。隧联网数据的异构性表现为“语义异构”和“系统异构”2种类型。

语义异构的产生有很多原因,一个主要原因是由于系统的数据库管理系统的设计者不同,以及隧道硬件设施的升级发展,隧联网内的各个数据源就会产生语义异构。比如在每个隧道独立的数据库信息数据源,经常选择不同的术语表示同一个概念;或者同一个概念在不同隧道数据库信息数据源中表达不同的含义;这样在隧联网中就会出现语义异构产生的数据冗余和数据错误的问题。语义异构可以通过采用本体技术解决,通过给出更准确的定义,更好地统一表示和数据整合,从而解决语义异构的数据整合问题。

系统异构可以用统一的数据字典进行整合处理,包括以下几个方面[7]:数据模式、数据子模式、数据项的长度、数据的类型、文件间的联系。同时规定用户标识符、用户口令和相关数据索引。

3 数据整合技术

隧联网数据的整合是解决以上各种数据异构性的主要方法。数据整合是为隧联网用户提供全面整合的数据,并消除数据集的不同源、不同特性以及不同定义格式等存在的问题,以便更有效地实现数据共享。从隧联网实际情况考虑,无论是修建隧道的时间,还是设计隧道的团队都有一定的跨越性,如何能够把这些异构的数据整合成标准化、统一的数据是隧联网数据整合的重点。

数据整合可以提高隧联网内数据的一致性,促进数据共享。其中数据的一致性是多异构系统间的数据相互交互联系的基础,同时也是系统后期分析处理数据的基本需求;因此数据整合是隧联网系统的关键步骤也是网络化的必要特性。数据整合是实现在不同信息系统开发过程中实现信息交换结构和不同时期开发的数据库系统的重用性,最终达到多个独立的城市隧道智能监控系统间的数据标准化、一致性和共享性。

将隧联网数据库设计成联邦数据库,如图1所示。隧联网内独立的各个隧道智能监控系统的数据库作为联邦数据库的子节点,每个子节点之间是相互独立的。各个子节点数据库系统可以是不同类型的数据库系统,比如分布式数据库系统,或者集中式数据库系统;它们可以包含一个元数据库来记录各个节点中存储实际物理数据的数据库信息,而实际存储的数据库可由一个或者多个组成的数据库系统。所谓联邦式结构的数据库[8-10]就是将数据库系统通过半自治的方式组织起来,提供多个可访问的接口,并且实现彼此间的数据共享。它主要应用于面向多个数据库系统的数据整合,同时自治数据库较少的情况。

隧联网联邦数据库TI-FD(tunnels internet- federated database)具有以下4个最重要的特征如图1所示。

图 1 隧联网联邦数据库 Fig. 1 Tunnels internet-federated database

1) 对于隧联网联邦数据库中的任意一个子节点数据库系统可以在进行本地操作的同时参与到隧联网联邦数据库系统的相关活动;

2) 隧联网联邦数据库系统具有分布性,隧联网联邦数据库系统中的数据可以以多种方式分布于多个数据库之间,同时相关的数据库可以通过通信系统进行相互关联;

3) 隧联网联邦数据库的异质性,即隧联网联邦数据库系统中的数据可以根据系统中不同的数据模型进行存储、约束、查询等相关数据操作;

4) 在隧联网联邦数据库系统中作为子节点的数据库系统是独立的。

4 基于语义的数据整合方法 4.1 基于语义的数据字典

为了解决隧联网数据的语义异构问题,设计了基于语义的隧联网数据字典。它保存了与数据库系统有关的所有的数据信息,是以一个特别的信息系统存在的。数据字典是描述数据库中各数据属性与组成的数据集合;它作为数据库的一个重要的组成部分,而且是数据库系统不可缺少的部分,它包括模式和子模式的内容、文件间的联系、数据项长度、类型、用户标识符、口令索引等等。根据隧联网数据库的实际需求,对数据字典做如下结构设计。隧联网数据字典由如下这14个字典表组成:

1) 数据库信息表(DD_DATABASE);

2) 数据表信息表(DD_TABLES);

3) 时间信息表(DD_TIME);

4) 数据类型表(DD_TYPE);

5) 字段信息表(DD_COLUMNS);

6) 登录信息表(DD_LOGIN);

7) 模块信息表(DD_MODULE);

8) 权限信息表(DD_PURVIEW);

9) 用户信息表(DD_USER);

10) 菜单信息表(DD_MENU);

11) 风格选择信息(DD_STYLESELECT);

12) 存储结构信息表(DD_PROCEDURE);

13) 触发器信息表(DD_TRIGGER);

14) DBMS 信息表(DD_DBMS)。

4.2 语义检索

隧联网数据存在的语义异构,会影响人们对隧联网数据进行高效、准确地数据检索;因此就需要进行异构消解,这里提出基于语义的隧联网数据检索方法TI-FD-S。主要消解过程就需要进行基于语义的数据整合,需要对视图进行预处理;包括扩展视图和分割视图2个预处理步骤。

在语义检索的前段,首先利用之前构造的基于语义的数据字典进行扩展视图的工作。即将语义检索的每个检索数据信息对应的视图和直接下义视图添加到原始检索中,从而形成新的视图;将新检索提交给数据库进行匹配查询,同时记录新检索中每个检索信息的数据,以便下一次进行语义检索时的文档过滤。扩展视图就是将一个图里过程应用到语义视图上。分割视图是在获得扩展语义视图后,将语义视图定义进一步转换成一组类映射规则。主要目的是将语义视图再一步切分为更小的映射规则,这些小粒度的映射规则对语义查询中的语句进行替换,方便查询重新算法的实现。下面给出一个示例讨论分析生成映射规则和语义查询重写。

定义1 类映射规则即进行一个类映射规则: ${t_1}\left( {\overline {{X_1}} } \right),\cdots ,{t_n}\left( {\overline {{X_n}} } \right): - A\left( x \right) ,{R_1}\left( {x,{y_1}} \right),\cdots {R_m}\left( {x,{y_m}} \right)$ 其中 A(x) 是概念原语,${t_1}\left( {\overline {{X_1}} } \right),\cdots ,{t_n}\left( {\overline {{X_n}} } \right)$是一组关系谓词; ${R_1}\left( {x,{y_1}} \right), \cdots {R_m}\left( {x,{y_m}} \right)$是属性原语。通过一个类映射规则定义了从关系谓词到一个三元组Triple Group的映射关系,其中三元组是一个视图体的所有三元组的一个子集。

定义2 可应用的映射规则:设查询query集合为 Q,其中存在一组三元组 g 和映射规则 m 。如果存在一个三元组映射 φ,把 g 中所有的非有限三元组映射到设定的映射规则 m 中的某个三元组,则称 m 对于该三元组 g 是一个可应用的映射规则。对于2个三元组 t1t2 ;令 Vars(t1) 和 Vars(t2) 代表三元组 t1t2 中所包含的变量。如果从 Vars(t1) 到 Vars(t2) 有一个变量映射 φ,使得 t2=Vars(t1),那么就称有一个从 t1t2 的三元组映射。

基于语义的隧联网数据检索方法TI-FD-S的算法描述如下: Input: Set of mapping rules M ,query q

Output: List Q

1:Require: Set of mapping rules M ,query q

2:Initialize List Q ,Replace variables in v with skolem function names

3:Let T be the set of triple groups of q,Add q to Q

4:For all triple group t in T do

5: Get all class mapping rules applicable to t ,denoted by AM

6: For all q in Q do

7:Remove q from Q

8: For all m in AM do

9: For all optional triple to in t do

10:  Let x be a variable in t

11:  If and x is in the head of q and x is not bound by any data value

12:    Then

13:     x =NULL

14:    end if

15:   end for

16:   Replace t of q with head of m

17:   Add q to Q

18:  end for

19:  end for

20: Output List Q

5 实验分析

实验环境及数据集:所有的实验是在一台内存为2 GB,主频为2.4 GHz,处理器为英特尔酷睿2的台式机上完成的。本实验采用的数据均源自隧联网,其中数据主要是从2012年6月1日-2013年3月1日这段时间;隧联网涵盖范围是武汉市城区内的6条主要隧道的智能监控系统。实验使用了以下3种方法:

1) Normal方法,即分别在各个城市隧道监控系统中检索数据再汇总返回;

2) TI-FD方法,直接通过隧联网联邦数据库进行数据检索;

3) TI-FD-S方法,运用语义检索算法对隧联网联邦数据库进行数据检索。

实验结果如图2所示,对于处理相同数据量的数据,3种方法的数据检索的处理时间。其中最快的是TI-FD-S方法,其次是TI-FD方法,它们的处理时间都优于没有改进的传统方法Normal方法。

图 2 实验时间比较图 Fig. 2 Experiment time

为了准确、直观地比较各组实验数据的结果,以实验数据为依据,进行实验分组比较,对于3种实验方法的数据检索精度作为比较指标。如图3所示,当实验处理5 000条数据的时候,TI-FD-S方法、和TI-FD方法的检索精度十分接近,且都优于Normal方法。

图 3 实验结果图(数据5 000条) Fig. 3 Experiment result(5 000 data)

图4所示,实验所处理的数据为10 000条,TI-FD-S方法保持了良好的精度,但是TI-FD方法的检索精度有所下降,但是都优于Normal方法。

图 4 实验结果图(数据10 000条) Fig. 4 Experiment result(10 000 data)

图5所示,实验所处理的数据为20 000条的时候,TI-FD-S方法保持了良好的精度,但是TI-FD方法的检索精度有一定程度的下降;由于处理的数据量增大,Normal方法已经无法保证结果的高精度。

图 5 实验结果图(数据20 000条) Fig. 5 Experiment result(20 000 data)

通过分组比较分析3种方法的实验结果精度,可知本文提出的TI-FD-S方法在实验数据增加的情况下,依然可以保持较好的检索精度,具有一定的稳定性和可靠性。通过以上实验分析,可知本文提出的隧联网联邦数据库和TI-FD-S方法在实现隧联网数据的全面网络化监管和系统化检索分析有一定优势;较传统的城市隧道监控系统非标准化和分散式的数据格局,本方法提高了数据的实际使用价值和数据检索的精度。

6 结束语

本文针对隧联网的特性研究了一种新的基于语义的数据整合方法,即利用联邦数据库技术及语义数据字典有效解决了隧联网内存在的数据异构性问题,实现了隧联网数据的统一管理和有序集合。在此数据整合的基础上,给出了TI-FD-S方法,实现了隧联网数据的高效查询。通过实验分析表明,本文所提出的方法保证了隧联网的数据一致性和可靠性的同时,也实现了隧联网数据的语义检索。

参考文献
[1] 何清. 物联网与数据挖掘云服务[J]. 智能系统学报,2012, 7 (3) : 1 –5. He Qing. The Internet of things and the data mining cloud service[J]. CAAI Transactions on Intelligent Systems,2012, 7 (3) : 1 –5.
[2] SASU T, HEIKKI A. The internet of things of program: the finnish perspective[J]. IEEE Communications Magazine,2013, 51 (3) : 10 –11.
[3] 韩祥临, 姜长元, 葛红霞, 等. 基于智能交通系统的耦合映射跟驰模型和交通拥堵控制[J]. 物理学报,2007, 56 (8) : 4383 –4392. Xianglin, JIANG Changyuan, GE Hongxia, et al. A modified coupled map car following model based on application of intelligent transportation system and control of traffic congestion[J]. Acta Physica Sinica,2007, 56 (8) : 4383 –4392.
[4] 刘小洋, 伍民友. 车联网:物联网在城市交通网络中的应用[J]. 计算机应用,2012, 32 (4) : 900 –904. Xiaoyang, WU Minyou. Vehicular CPS:an application of IoT in vehicular networks[J]. Journal of Computer Applications,2012, 32 (4) : 900 –904.
[5] PEKKA J, RENATA G. An applications perspective into the future internet[J]. Network and Computer Applications,2013, 36 (1) : 249 –254.
[6] 朱洪波, 杨龙祥. 物联网的技术思想与应用策略研究[J]. 通信学报,2010, 31 (11) : 2 –9. Hongbo, YANG Longxiang. Investigation of technical thought and application strategy for the internet of things[J]. Journal on Communications,2010, 31 (11) : 2 –9.
[7] 蔡文, 杨春燕. 评价信息元及其原信息元的获取方法[J]. 智能系统学报,2009, 4 (3) : 234 –238. W en, YANG Chunyan. A method for evaluation of information-elements and acquirement of the original information element[J]. CAAI Transactions on Intelligent Systems,2009, 4 (3) : 234 –238.
[8] CHEN Zhikui, XIA Feng, HUANG Tao, et al. A localization method for the internet of things[J]. Journal of Supercomputing,2013, 63 (3) : 657 –674.
[9] LUCAS JL P, LUZ N, MORENO M N, et al. A hybrid recommendation approach for a tourism system[J]. Expert Systems with Applications,2013, 40 (9) : 3532 –3550.
[10] 詹武平, 肖同林, 聂冲. 基于遗传算法的目标轨道测量数据融合处理方法[J]. 电子学报,2010, 2A (2) : 89 –94. Wuping, XIAO Tonglin, NIE Chong. The generic algorithm for fusing processing of the target orbit measure data[J]. Acta Electronica Sinica,2010, 2A (2) : 89 –94.
DOI: 10.3969/j.issn.1673-4785.201309032
中国人工智能学会和哈尔滨工程大学联合主办。
0

文章信息

吴珺, 谢树泉, 王春枝
WU Jun, XIE Shuquan, WANG Chunzhi
基于语义的隧联网数据整合方法
Data integration for tunnel network based on semantic
智能系统学报, 2014, 9(6): 704-708
CAAI Transactions on Intelligent Systems, 2014, 9(6): 704-708
http://dx.doi.org/10.3969/j.issn.1673-4785.201309032

文章历史

收稿日期: 2013-09-10
网络出版日期: 2014-12-25

相关文章

工作空间