舰船科学技术  2024, Vol. 46 Issue (16): 162-165    DOI: 10.3404/j.issn.1672-7649.2024.16.027   PDF    
舰船通信数据异常智能检测方法设计
仇丹丹1,2     
1. 河南大学 濮阳工学院,河南 濮阳 457000;
2. 濮阳职业技术学院 数学与信息工程学院,河南 濮阳 457000
摘要: 舰船通信网络受到外界环境干扰会导致通信数据产生异常,影响通信质量。针对该问题,设计基于云计算平台的舰船通信数据异常智能检测方法。在基于Hadoop的云计算平台内,利用HDFS分布式文件系统存储舰船通信数据,MapReduce计算框架针对存储的通信数据,在Map任务环节中利用Master节点搜索非工作状态下的Worker节点执行检测任务;Reduce任务环节中利用主成分分析方法提取通信数据特征,并将其作为聚类中心,利用欧几里得距离确定待检测舰船通信数据与聚类中心间的距离值,距离越小说明两者相似度越高;设定距离阈值,当距离值小于距离阈值时,即可将其定义为正常数据,相反为异常数据,由此实现异常数据检测。实验结果显示该方法可有效获取异常数据检测结果,且检测结果的AUC值达到0.91,能够有效提升舰船通信服务质量。
关键词: 云计算平台     舰船通信数据     异常检测     主成分分析     特征提取     偏离度阈值    
Design of intelligent detection method for abnormal ship communication data
QIU Dandan1,2     
1. Puyang Institute of Technology, Henan University, Puyang 457000, China;
2. Department of Mathematics and Engineering, Puyang Vocation Technology College, Puyang 457000, China
Abstract: External environmental interference on ship communication networks can cause abnormal communication data and affect communication quality. To address this issue, a cloud computing platform based intelligent detection method for ship communication data anomalies is designed. In the Hadoop based cloud computing platform, the HDFS distributed file system is used to store ship communication data. The MapReduce computing framework targets the stored communication data and uses the Master node to search for non working Worker nodes in the Map task stage to perform detection tasks; In the Reduce task, principal component analysis is used to extract communication data features and use them as clustering centers. The Euclidean distance is used to determine the distance value between the communication data of the ship to be detected and the clustering center. The shorter the distance, the higher the similarity between the two; Set a distance threshold. When the distance value is less than the distance threshold, it can be defined as normal data and vice versa, thus achieving abnormal data detection. The experimental results show that this method can effectively obtain abnormal data detection results, and the AUC value of the detection results reaches 0.91, which can effectively improve the quality of ship communication services.
Key words: cloud computing platform     ship communication data     anomaly detection     principal component analysis     feature extraction     deviation threshold    
0 引 言

海洋是国家战略资源的重要组成部分,舰船作为海上力量的核心载体,其通信系统的稳定与高效直接关系到海上作战、科研探索及商业运输等活动的顺利进行[1]。然而,舰船通信环境复杂多变,不仅受到电磁干扰、天气条件、海洋环境等多重因素的影响,还可能面临来自外部的网络攻击和数据篡改等安全威胁。因此,如何有效监测并智能检测舰船通信数据中的异常现象,成为保障舰船安全、提升海上作业效率的重要课题。

王晓湘等[2]针对通信数据异常检测问题,提出基于LSTM的检测方法,该方法主要包括数据预处理、模型构建、模型训练、异常检测与评估等几个关键步骤,数据预处理主要针对所采集的信号强度、流量统计、连接状态等通信状态参数进行清洗与去除噪声等处理,模型构建过程选择合适的参数构建LSTM网络结构,利用通信数据训练LSTM模型,使用训练好的LSTM模型进行异常检测。LSTM模型引入了更多的门控机制和参数,导致计算复杂度较高。在处理大规模通信数据时,可能需要较长的训练时间和较高的计算资源。段雪源等[3]针对通信数据异常检测问题,提出基于VAE-WGAN的检测方法,结合VAE和WGAN的优势,构建VAE-WGAN模型,使用Wasserstein距离作为模型损失函数,解决传统GAN中存在的梯度不稳定和模式崩溃问题,使用正常通信数据作为训练数据集,对VAE-WGAN模型进行训练,使用训练好的VAE-WGAN模型对测试集中的通信数据进行重构,得到重构后的数据,根据异常得分设定合适的阈值,当异常得分超过阈值时,判定对应的通信数据为异常数据。VAE-WGAN模型的性能受到多个超参数的影响,如学习率、隐藏层数量、批量大小等。这些超参数的选择和调整需要丰富的经验和实验验证,否则可能导致模型性能不佳。Ramirez等[4]针对通信数据异常检测问题,提出基于可解释机器学习的检测方法,选择具有可解释性的机器学习模型—决策树,生成易于理解的决策路径或规则,从而便于解释模型的决策过程,利用训练集数据训练模型,在训练过程中,注重模型的准确性和可解释性之间的平衡,使用训练好的模型对测试集中的通信数据进行异常检测。在某些情况下,模型的准确性和可解释性之间可能存在矛盾。为了提高模型的准确性,可能需要使用更复杂的模型或算法;但这可能会降低模型的可解释性。因此,在选择模型和训练过程中需要仔细权衡这2个因素。杨静等[5]针对通信数据异常检测问题,提出基于全局-局部自注意力网络的检测方法,设计全局-局部自注意力网络,通过全局自注意力机制捕捉通信数据中的全局依赖关系,通过局部自注意力机制捕捉数据中的局部依赖关系,将全局和局部自注意力机制整合到一个统一的网络中,以便同时利用这2种依赖关系进行异常检测。模型的性能高度依赖于训练数据的质量和数量。如果训练数据中存在噪声或不平衡问题,可能会导致模型的泛化能力下降。

针对当前存在问题,提出基于云计算平台的舰船通信数据异常智能检测方法,为舰船的安全运行提供有力保障。

1 舰船通信数据异常智能检测方法 1.1 通信数据分布式存储与MapReduce检测框架

考虑舰船通信网络数据具有海量性特征,为了更好地实现舰船通信数据检测,采用基于Hadoop的云计算平台中普遍使用的HDFS分布式文件系统与MapReduce计算框架实现海量舰船通信数据的存储与检测。HDFS分布式文件系统在存储海量舰船通信数据过程中,以块为单位,由此提升舰船通信网络异常数据检测过程中的吞吐量。HDFS内包含2种不同类型的节点:NameNode类型节点主要用于舰船通信数据的处理与存储;DataNode类型节点主要作用在各个用户节点内,主要功能为存储分块后的舰船通信数据,并将其传输至NameNode节点。

MapReduce计算框架主要功能为实现大量舰船通信网络用户节点数据并行化检测,由此提升舰船通信网络数据异常检测效率。舰船通信数据异常检测的并行化过程主要利用Map函数和Reduce函数实现,由此实现异常数据检测过程的分配和异常数据检测结果的统计。在该框架内,Master节点(后简称为M节点)具有唯一性特征,可将其理解为舰船通信数据异常检测的主控程序,能够实现Worker节点(后简称为W节点)的任务划分、监控与管理等。而W节点的数量主要取决于Hadoop的配置文件,不同的节点内都包含待执行的Map、Reduce检测任务。在舰船通信数据异常检测任务过程中,M节点搜索非工作状态下的W节点令其执行检测任务[6],由此显著提升舰船通信数据异常检测过程中,云计算平台的资源利用率。利用MapReduce执行舰船通信网络异常数据检测任务的流程描述如下:

在MapReduce接收到舰船通信数据后对其实施分块,同时在所有节点中备份接收到的舰船通信数据。M节点搜索非工作状态下的W节点,令其执行舰船通信数据异常检测任务,执行Map任务的W节点获取<key,value>键值对并将其定义为Map函数参数,得到异常检测后,M节点将其定义为中间键值对,并传输至W节点,在W节点内依照映射原则确定新的<key,value>键值对,并将其定义为Reduce函数参数。通过Reduce函数能够得到舰船通信数据异常检测的最终结果,并利用文件形式呈现给管理者。图1为基于MapReduce的舰船通信数据异常检测过程。

图 1 基于MapReduce的舰船通信数据异常检测过程 Fig. 1 Anomaly detection process of ship communication data based on MapReduce
1.2 通信数据异常检测 1.2.1 基于主成分分析的数据特征提取

针对预处理后舰船通信数据实施数据特征提取处理,通过该环节能够获取最能反映全部舰船通信数据中数据的本质特征,基于该特征即可区分正常舰船通信数据与异常舰船通信数据。数据特征提取精度越高,后续异常数据检测结果的准确性也就越高。作为数据特征提取普遍使用的方法之一,主成分分析法能够在预处理后的舰船通信数据集内,获取较少但具有代表性的变量,即数据特征。主成分分析法提取舰船通信数据特征步骤如下:

步骤1 将预处理后的舰船通信数据依照行进行排序,构建矩阵$ {\boldsymbol{J }}$,并对其实施均值化处理。

步骤2 β表示均值,矩阵内的各个舰船通信数据均减去均值,实现舰船通信数据的中心化处理。

步骤3 利用式(1)获取$ {\boldsymbol{J}} $的协方差矩阵:

$ E = \frac{{\displaystyle\sum\limits_{i = 1}^n {\beta _i^J} }}{n}。$ (1)

步骤4 对$ E $进行求解,获取对应的特征向量$ \delta $

步骤5 确定不同特征向量的贡献率,并进行排序,贡献率最大的特征向量即为舰船通信数据的数据特征。

1.2.2 基于聚类算法的异常检测

在确定舰船通信数据的数据特征后,将其作为聚类中心。利用欧几里得距离确定待检测舰船通信数据与数据特征之间的相似度,距离值越大说明待检测数据与数据特征之间相似度越小,由此可通过欧几里得距离获取与舰船通信数据特征相似度较低的数据,实现舰船通信数据异常检测。xi为待检测舰船通信数据,利用式(2)确定其与数据特征$ \delta $的欧几里得距离$ d\left( {{x_i},{\delta _j}} \right) $

$ d\left( {{x_i},{\delta _j}} \right) = \sqrt {\sum\limits_{k = 1}^n {{{\left( {{x_{ik}} - {\delta _k}} \right)}^2}} }。$ (2)

$ X = \left\{ {{x_i}\left| {i = 1,2, \cdots ,M} \right.} \right\} $为待检测舰船通信数据集,$ {x_i} = \left( {{x_{i1}},{x_{i2}}, \cdots ,{x_{in}}} \right) $为舰船通信数据样本$ {x_i} =( {x_{i1}},{x_{i2}}, \cdots , {x_{in}} ) $内包含n个属性,如果舰船通信数据样本$ {x_i} $同特征向量$ \delta $之间的距离越小,说明两者的相似度越大。设定距离阈值$ S $,若$ d\left( {{x_i},{\delta _j}} \right) < S $,则说明该通信数据为正常数据,相反,该数据为异常数据。

x内包含k个聚类子集,不同子集内的舰船通信数据样本数量分别为$ {n_1},{n_2}, \cdots ,{n_k} $;不同聚类子集的聚类中心分别为$ {\delta _1},{\delta _2}, \cdots ,{\delta _k} $。利用H表示误差平方和函数,其能够描述不同舰船通信数据样本点至不同数据聚类中的距离平方和,公式描述为:

$ H = \sum\limits_{i = 1}^k {\sum\limits_{{x_i} \in X}^{} {{{\left( {{x_i} - {\delta _i}} \right)}^2}} }。$ (3)

将式(3)定义为基于聚类算法舰船通信数据异常检测的测度函数,在舰船通信数据聚类迭代过程中,H值持续下降,在其值不再继续下降时,则说明当前的检测性能为最优,不再继续迭代。

2 结果与分析

为验证本文方法的实际应用性能,进行了实验分析。实验过程中选取某型号舰船为研究对象,依照时间顺序采集研究对象通信数据,生成5个待检测数据集,各待检测数据集实际情况如表1所示。

表 1 待检测数据集概况 Tab.1 Overview of the dataset to be tested
2.1 检测结果

以数据集1为例,采用本文方法对数据集1内某天的通信数据进行异常检测,所得结果如表2所示。分析表2可知,采用本文方法能够有效检测出数据集1中的异常数据,由此验证了本文方法的有效性。

表 2 异常数据检测结果 Tab.2 Abnormal data detection results

为进一步验证本文方法的异常数据检测效果,以文献[2]中基于LSTM的检测方法和文献[3]中基于VAE-WGAN的检测方法为对比方法,采用3种方法对全部数据集进行异常数据检测,并以ROC曲线为标准,对比3种检测方法的性能,结果如图2所示。可知,采用本文方法检测研究对象通信异常数据的ROC曲线与2种对比方法相比更接近左上角,同时本文方法的曲线下面积(AUC值)达到0.91左右,与2种对比方法相比显著有提升,由此说明本文方法与对比方法相比具有更好的异常数据检测性能。

图 2 不同检测方法检测结果的ROC曲线 Fig. 2 ROC curves of detection results from different detection methods
2.2 舰船通信质量

采用本文方法对研究对象通信数据进行异常检测,对比采用本文方法前后研究对象的通信网络质量,结果如表3所示。可知,采用本文方法对研究对象进行通信数据异常检测后,研究对象通信网络的各项指标质量均呈显著提升趋势,由此说明采用本文方法对研究对象通信数据进行异常检测能够显著提升研究对象通信网络服务质量。

表 3 通信网络质量对比 Tab.3 Comparison of communication network quality
3 结 语

本文设计基于云计算平台的舰船通信数据异常智能检测方法,在云计算平台中对舰船通信数据进行预处理,并实现异常数据检测。实验结果验证了本文方法实际应用性能。在后续研究过程中,将主要针对本文方法的可拓展性进行优化设计,希望通过本文方法的优化过程进一步提升舰船通信网络服务质量,保障舰船通信网络正常运行。

参考文献
[1]
张艺严, 马巍, 李彬. 能量受限无人机与移动舰船通信中的轨迹优化[J]. 中国舰船研究, 2022, 17(4): 47-56.
ZHANG Yiyan, MA Wei, LI Bin. Trajectory optimization for communication between energy-constrained UAV and moving ship[J]. Chinese Journal of Ship Research, 2022, 17(4): 47-56.
[2]
王晓湘, 刘洞天, 刘南江, 等. 基于LSTM的震后通信数据异常检测分析[J]. 中国地震, 2022, 38(2): 270-279. DOI:10.3969/j.issn.1001-4683.2022.02.008
[3]
段雪源, 付钰, 王坤. 基于VAE-WGAN的多维时间序列异常检测方法[J]. 通信学报, 2022, 43(3): 1-13.
[4]
RAMIREZ J M, DIEZ F, ROJO P, et al. Explainable machine learning for performance anomaly detection and classification in mobile networks[J]. Computer communications, 2023, 200(4): 113-131.
[5]
杨静, 吴成茂, 周流平. 基于全局-局部自注意力网络的视频异常检测方法[J]. 通信学报, 2023, 44(8): 241-250. DOI:10.11959/j.issn.1000-436x.2023151
[6]
李红映, 张天荣. 移动无线传感网络通信异常行为识别方法研究[J]. 传感技术学报, 2022, 35(2): 240-245. DOI:10.3969/j.issn.1004-1699.2022.02.015