随着舰船通信网络应用的普及,舰船通信网络数据量持续提升[1],由此导致舰船通信网络的处理与解析效率成为舰船通信网络数据应用过程中亟需解决的问题[2]。相关领域研究学者对于通信数据的处理方法进行了大量研究。龙草芳等[3]针对通信网络数据,采用分布数据数据加密方法对通信网络数据进行加密处理。但该方法实际应用过程中无法保障数据处理的实时性。杜海宾等[4]针对交互量巨大的通信网络数据处理问题,引用基于FlatBuffers的数据序列化技术提升数据通信效率。但该方法实际应用过程中受到数据规模的约束性,且方法可扩展性较差。针对上述问题,本文研究基于hadoop的舰船通信网络数据并行处理方法,提升舰船通信网络数据处理能力,降低数据处理时间。
1 舰船通信网络数据并行处理方法 1.1 基于hadoop的舰船通信网络数据并行处理架构舰船通信网络数据处理过程中,结合舰船通信网络数据特性[5],设计基于hadoop的舰船通信网络数据并行处理架构。该结构是基于hadoop以Master-Slave架构为核心的分布式集群,通过分布式文件系统HDFS与MySQL关系型数据库处理舰船通信网络数据。舰船通信网络数据并行处理架构的设计以MVC三层功能结构为基础,图1为架构的功能分层。
基于hadoop的舰船通信网络数据并行处理架构共分为3层,由上至下分别是数据应用层、数据处理层和数据存储层。
数据应用层是用户与数据处理架构的交互工具,用户可以操作舰船通信网络与数据并行处理架构实施交互,上传所采集的舰船通信网络数据,也能够利用Web网页或各类智能终端查看舰船通信网络数据。
数据处理层运行MapReduce程序,主要功能为实现舰船通信网络数据存储、舰船通信网络数据解析、舰船通信网络数据聚类等的并行化处理,同时完成数据并行处理架构维护的相关操作,如数据上传与下载、集群间数据同步等。
舰船通信网络数据存储层的设计参考大数据平台的特性,采用HBase与HDFs等多种不同的存储方式保障舰船通信数据存储的可扩展性(主要针对不同格式数据的存储问题),并利用MySQL数据库保障舰船通信网络数据的安全性问题。
1.2 舰船通信网络数据处理层设计舰船通信网络数据处理层的主要功能是利用MapReduce程序实现舰船通信网络数据的并行化处理。
1.2.1 改进的K-means算法舰船通信网络数据处理层利用改进的K-means聚类算法实现舰船通信网络数据聚类处理。
$ D = \sum\limits_{j = l}^n {\sum\limits_{i = l}^c {s_{ij}^m} } {d^2}\left( {{X_j},{Q_i}} \right)。$ | (1) |
式中:
$ {s_y} = \frac{1}{{\displaystyle\sum\limits_{k = 1}^e {{{\left( {\frac{{{{\rm{d}}_y}}}{{{{\rm{d}}_{kj}}}}} \right)}^{\left( {\frac{2}{{m - 1}}} \right)}}} }}。$ | (2) |
式中,m为对舰船通信网络数据集划分的次数。
以
$ d\left( {{s_i},{s_j}} \right) = \sqrt {\sum\limits_{k = 1}^g {{{\left( {{x_{ik}} - {x_{jk}}} \right)}^2}} }。$ | (3) |
式中,
利用表达式描述改进后K-means算法内的聚类中心数据集或中心点,以
$ {h_i} = \frac{{\displaystyle\sum\limits_{j = 1}^N {{x_{ij}}} }}{{\left\| N \right\|}}。$ | (4) |
式中,
$ {d_w}\left( {{x_a},{x_b}} \right) = \sqrt {\sum\limits_{i = 1}^g {{w_i}\left( {{x_{ai}} - {x_{bi}}} \right)} }。$ | (5) |
式中,
K-means算法内,单独进行不同元素同质心距离的计算,此过程中各元素间不存在相关性,所以,可通过MapReduce模型实现基于K-means算法的舰船通信网络数据聚类MapReduce并行化处理,图2为并行化处理流程图。
在K-means算法的MapReduce并行化实现过程中最重要的2个步骤就是Map函数的设计与Reduce函数的设计。
1)Map函数的设计
基于K-means算法的舰船通信网络数据聚类MapReduce并行化实现过程中,Map函数的主要功能为由HDFS文件内采集舰船通信网络数据,针对不同舰船通信网络数据,确定其至不同质心的距离,同时针对此舰船通信网络数据进行类别标记。将初始舰船通信网络数据与聚类质心作为Map函数输入
2)Reduce函数的设计
基于K-means算法的舰船通信网络数据聚类MapReduce并行化实现过程中,Reduce函数的主要功能是依照Map函数的数据结果,更新聚类中心,便于下一轮Map函数应用。确定标准测度函数值,基于该值确定迭代过程都满足终止条件。
MapReduce并行化处理过程在运行Reduce函数前会合并处理Map函数的
基于K-means算法的舰船通信网络数据聚类MapReduce并行化实现过程中调用以上MapReduce过程,不同迭代过程中均获取一个新的job,直至2次获取的平方误差和差值低于设定阈值,即可终止迭代过程。Map函数最后一次输出的
本文研究基于hadoop的舰船通信网络数据并行处理方法,为验证本文方法在实际舰船通信网络数据并行化处理过程中的应用性能,从某系统中选取任意一艘舰船,采集其通信网络数据生成数据集。该数据集内共包含37874658条通信数据,对该数据集实施处理将其划分为5个大小有所差异的实验数据集,具体划分结果如表1所示。本文方法性能检验过程中搭建基于hadoop部分的6台计算机并行运行环境,将其中1台计算机和剩余5台计算机分别为子任务中的主要任务节点和其他子任务节点。
为验证本文方法中数据聚类算法的有效性,采用本文方法对数据集1实施聚类中心确定,并同数据集的实际聚类中心进行对比,结果如表2所示。分析表2可得,针对数据集1,本文方法所得的聚类中心同实际聚类中心基本一致,误差控制在百分数级别,由此表明本文方法能够获取较为准确的聚类中心,为后续实现高精度的数据聚类结果打下坚实基础。
表3为不同集群节点数量条件下5个数据集的运行时间。分析可得,在数据规模一致的条件下,集群节点数量越多任务完成时间越短。由此说明通过提升集群节点数量能够大幅提升数据处理能力,表明本文方法具有较好的扩展性。
通过加速比能判断本文方法的并行处理性能,其能够呈现通过降低运行时间呈现的性能提升效果。图3为本文方法的加速比测试效果。分析可得,本文方法的加速比趋于线性。因Hadoop集群初始运行需要花费一定时间,因此在数据量较少的条件下,本文方法的加速比性能并不明显。但在数据量较大的条件下,本文方法的加速比性能同数据量之间表现出正比例相关。表明在数据量越大的条件下本文方法的加速比性能越好,也就是本文方法适于应用在海量舰船通信网络数据的处理中。
本文研究基于hadoop的舰船通信网络数据并行处理方法,利用MapReduce实现舰船通信网络数据的并行化聚类,同时通过实验验证了本文方法的应用性能。在后续研究过程中将进一步优化本文方法,探索舰船通信网络数据其他处理过程的并行化实现。
[1] |
马冀, 林尚静, 李月颖, 等. 多源跨域数据融合的无线通信网络流量预测[J]. 计算机科学, 2022, 49(S2): 893-899. MA Yi, LIN Shangjing, LI Yueying, et al. Traffic prediction of wireless communication network based on multi-source and cross-domain data fusion[J]. Computer Science, 2022, 49(S2): 893-899. |
[2] |
马莉莉, 刘江平. 基于数据挖掘的光纤通信网络异常数据检测研究[J]. 应用光学, 2020, 41(6): 1305-1310. MA Lili, LIU Jiangping. Research on abnormal data detection of optical fiber communication network based on data mining[J]. Journal of Applied Optics, 2020, 41(6): 1305-1310. DOI:10.5768/JAO202041.0608003 |
[3] |
龙草芳, 肖衡. 无线传感器网络分布式数据库加密方法研究[J]. 传感技术学报, 2022, 35(8): 1131-1136. LONG Caofang, XIAO Heng. Research on encryption method of distributed database in wireless sensor network[J]. Chinese Journal of Sensors and Actuators, 2022, 35(8): 1131-1136. |
[4] |
杜海宾, 姜正, 于健, 等. 基于FlatBuffers的机车通信数据序列化方法应用研究[J]. 铁道运输与经济, 2022, 44(3): 134-140. DU Haibin, JIANG Zheng, YU Jian, et al. Research and application on FlatBuffers-based data serialization technique for locomotives[J]. Railway Transport and Economy, 2022, 44(3): 134-140. |
[5] |
王林, 陈青超. 基于Hadoop的灰狼优化K-means算法在主题发现的研究[J]. 微电子学与计算机, 2022, 39(4): 24-32. WANG Lin, CHEN Qingchao. Research on topic discovery based on hadoop gray wolf optimized K-means algorithm[J]. Microelectronics & Computer, 2022, 39(4): 24-32. |