舰船科学技术  2023, Vol. 45 Issue (16): 169-172    DOI: 10.3404/j.issn.1672-7649.2023.16.036   PDF    
基于K-means聚类的舰船通信网络异常数据检测
徐胤博, 于洋     
天津师范大学 计算机与信息工程学院,天津 300100
摘要: 为了解决海上通信环境中的干扰和传输问题,提升舰船通信网络通信质量和可靠性,提出基于K-means聚类的舰船通信网络异常数据检测方法。构建舰船通信网络通信多径信道模型,利用该模型获取舰船通信网络数据。使用基于超窄带滤波的舰船通信网络数据滤波处理方法去除舰船通信网络数据内的干扰噪声,将无噪声的舰船通信网络数据作为输入,使用K-means聚类算法输出舰船通信网络异常数据检测结果。结果表明,该方法采集舰船通信网络数据较为准确,并可有效去除数据内含有的干扰噪声,降低舰船通信网络数据幅值区间,同时可用聚类方式准确检测舰船通信网络异常数据,应用效果较为显著。
关键词: K-means聚类     舰船通信网络     异常数据检测     马氏距离     超窄带滤波    
Detection of abnormal data in ship communication network based on K-means clustering
XU Yin-bo, YU Yang     
College of Computer and Information Engineering, Tianjin Normal University, Tianjin 300100, China
Abstract: In order to solve the interference and transmission problems in the maritime communication environment, improve the communication quality and reliability of ship communication networks, a K-means clustering based abnormal data detection method for ship communication networks is proposed. Construct a multipath channel model for ship communication network communication, and use this model to obtain ship communication network data. Using a ship communication network data filtering processing method based on ultra narrow band filtering to remove interference noise within the ship communication network data, the noise free ship communication network data is used as input, and the K-means clustering algorithm is used to output the abnormal data detection results of the ship communication network. The experimental results show that this method is more accurate in collecting ship communication network data, and can effectively remove interference noise contained in the data, reduce the amplitude range of ship communication network data, and accurately detect abnormal data of ship communication network using clustering method, the application effect is significant.
Key words: K-means clustering     ship communication network     abnormal data detection     markov distance     ultra narrow band filtering    
0 引 言

在舰船通信网络中,异常数据来源于各种因素,如电磁干扰、多径传播、设备故障、多用户干扰、恶劣天气等[1-2]。异常数据会导致通信系统的性能下降,增加通信延迟,甚至引发通信故障[3]。因此,及时准确地检测和识别异常数据对于保障舰船通信网络的正常运行至关重要。

目前已有很多学者研究舰船通信网络异常数据检测方法,孙文慧等[4]提出高维空间聚类的数据异常检测方法,但该方法没有对舰船通信通信网络数据进行处理,导致其最终检测效果不佳。马莉莉等[5]提出光纤通信网络异常数据检测方法,但该方法没有考虑干扰因素,致使该方法应用效果不佳。

为了解决上述问题,提出基于K-means聚类的舰船通信网络异常数据检测方法。结合舰船通信网络通信多径信道模型,应用超窄带滤波处理方法,通过去除舰船通信网络数据中的干扰噪声,提高信号质量和可靠性。使用K-means聚类算法进行异常数据检测,可以自动发现异常数据,为提升舰船通信网络传输提供基础。

1 舰船通信网络异常数据检测 1.1 舰船通信网络通信多径信道模型构建

在舰船通信网络中,多径传播是常见现象,会导致信号衰落、频偏等问题[6]。构建舰船通信网络通信多径信道模型,利用该模型获取舰船通信网络数据,能够更准确地反映实际通信环境下的数据特征。

结合舰船通信网络带宽分层结构,依据数据传输调度负载区域,设计舰船通信网络数据交互中心结构,再依据该数据交互中心结构建立其通信信道模型,获取舰船通信网络传输数据。

舰船通信网络节点由 $ N = 2P $ 个阵元组成,该阵元组成波特间隔均衡的阵列,数据传输节点阵元分布的径向距离用 $ d $ 表示,则舰船通信网络数据传输调度接收的数据帧表达公式为:

$ {x_m}(t) = \sum\limits_{i = 1}^I {{G_i}{{(t)}^{j{\varphi _{{m_i}}}}} + {n_m}(t)} , - p + 1 \leqslant m \leqslant p 。$ (1)

式中: $ {G_i}(t) $ 为贯序处理后接收数据第 $ i $ 个相位偏转信息; $ {x_m}(t) $ 为第 $ m $ 个数据传输节点真元接收的数据帧; $ {\theta _i}(t) $ 为舰船通信数据在信道内的扫频带宽; $ j $ 为虚数; $ t $ 为时刻; $ {n_m}(t) $ 为信道内数据传输节点数量; $ I $ 为相位偏转信息总数。

舰船通信网络数据传输时的信道冲击响应公式为:

$ h(t) = \sum\limits_i {{x_m}(t){a_i}(t){e^{j{\theta _i}(t)}}} \sum\limits_i {(vt - i{T_s})}。$ (2)

式中: $ e $ 为自然对数函数; $ {T_s} $ 为偏转信息 $ s $ 为的数据帧长度; $ {a_i}(t) $ 为第 $ i $ 个载频数据; $ v $ 为信道内数据传输节点的运动速度。

使用训练序列方法对式(2)结果进行估计,可得到短时间内的信道冲击响应[7],使用离散化二自由度系统建立舰船通信网络信道模型,其公式为:

$ X(n) = \sum\limits_n {{a_n}(t){e^{ - j2{\text{π}} {f_c}{\tau _n}(t)}}\sum\limits_n {v(t - {\tau _n}(t))} }。$ (3)

式中: $ X(n) $ 为舰船通信网络通信数据; $ {\tau _n}(t) $ 为第 $ n $ 个舰船通信网络信道传输时延; $ {f_c} $ 为信道中心频率。

至此舰船通信网络信道模型构建完毕,利用式(3)即可得到舰船通信网络通信数据。

1.2 引入超窄带滤波技术

利用超窄带滤波方式对舰船通信网络数据信息滤波处理,去除数据内存在的干扰噪声,并将该数据的环境热噪声看作白噪声数据,公式为:

$ X(n) = B(n) + O'(n) ,$ (4)
$ O'(n) = S(n) + O(n) 。$ (5)

式中: $ B(n) $ 为舰船通信网络通信数据超窄带干扰; $ O'(n) $ 为白噪声数据; $ O(n) $ 为环境热噪声; $ n $ 为舰船通信网络数据数量; $ S(n) $ 为宽频带舰船通信网络通信数据。

当舰船通信网络通信数据内存在 $ M $ 个距离采样,任意距离采样值用 $ x $ 表示,并使用 $ L $ 表示舰船通信网络通信数据定长,则利用矩阵 $ X $ 描述舰船通信网络通信数据,该矩阵维数为 $ L(M - L + 1) $ ,该矩阵表达式为:

$ X = \left[ {{X_1},{X_2}, \cdots ,{X_{(M - L + 1)}}} \right]。$ (6)

矩阵 $ X $ 内第 $ k $ 列数据 $ {X_k} $ 表达式为:

$ {X_k} = {\left[ {{x_{k1}},{x_{k2}}, \cdots ,{x_{kL}}} \right]^{\rm{T}}}。$ (7)

在舰船通信网络通信数据矩阵内,数据定长 $ L $ 过大或者过小均会造成通信数据特征分解不完全[8],噪声滤除效果不佳。数据定长取值满足条件如下:

$ (M - L + 1) \geqslant 2L。$ (8)

依据式(8)选择合适的数据定长 $ L $ 后,建立舰船通信数据超窄带特征矩阵 $ \hat R $ ,再对 $ \hat R $ 进行特征分解处理得到超窄带滤波干扰子空间,表达公式为:

$ \varOmega = span\left\{ {{V_1},{V_2}, \cdots ,{V_r}} \right\},1 \leqslant r \leqslant l 。$ (9)

式中: $ \varOmega $ 为超窄带滤波干扰子空间; $ l \in L $ $ {U_i} $ 为超窄带滤波干扰子空间内元素; $ span $ 为扩张空间。

舰船通信网络数据超窄带干扰是数据矩阵 $ X $ 内每个矢量 $ {X_k} $ 向空间 $ \varOmega $ 投影的分量 $ {\varOmega _k} $ ,该分量计算公式为:

$ {\varOmega _k} = \sum\limits_{i = 1}^r {{X_k} \cdot } \sum\limits_{i = 1}^r {{V_i}}。$ (10)

以式(8)和式(9)为基础,经过超窄带滤波后的舰船通信网络数据 $ {\hat X_k} $ 表达式为:

$ {\hat X_k} = \varOmega - \varOmega _k。$ (11)

经过上述步骤,完成舰船舰船通信网络数据滤波处理,为通信网络异常数据检测提供高质量的数据。

1.3 基于K-means聚类的通信网络异常数据检测方法

将经过滤波处理后的舰船通信网络数据 $ {\hat X_k} $ 作为输入,使用K-means聚类算法检测舰船通信网络数据内的异常数据。

令舰船通信网络数据总数为 $ n $ 个,在舰船通信网络数据找到 $ k $ 个中心,使舰船通信网络数据点与其最近中心点的距离平方和数值最小,则数据点距离表达式为:

$ {W_n} = \sum\limits_{i = 1}^n {{{\min }_{1 \leqslant j \leqslant k}}{{\left| {{x_i} - {z_i}} \right|}^2}} 。$ (12)

式中: $ {W_n} $ 为舰船通信网络数据点距离; $ {x_i} $ 为第 $ i $ 个数据中心点; $ {z_i} $ 为第 $ j $ 个数据中心点。

检测异常舰船通信网络数据步骤为:

步骤1 从 $ n $ 个舰船通信网络数据内选择 $ k $ 个数据作为类簇中心。

步骤2 计算剩余数据到 $ k $ 个聚类中心的欧式距离,其表达式为

$ F(x,{c_i}) = \sum\limits_{i = 1} {\left( {{x^2} - {c_i}^2} \right)}。$ (13)

式中, $ F(x,{c_i}) $ 为剩余舰船数据 $ x $ 到第 $ i $ 个聚类中心 $ {c_i} $ 的欧式距离。

步骤3 依据式(13)结果重新计算 $ k $ 个簇中心,并有簇内所有舰船通信网络数据维度计算数据平均数,依据该平均数重新选择数据中心点。

步骤4 以新选择的舰船通信网络数据中心点再次聚类,并重复该过程直到聚类结果不再发生变化为止。

步骤5 计算聚类结果马氏距离,用于判断聚类结果是否为舰船通信网络异常数据。将K-means第一次聚类结果作为输入,利用马氏距离计算舰船通信网络数据集的聚类中心点 $ c $ 后,再分别计算簇到该中心点的距离,表达式为

$ {F_i} = \sum\limits_{j = 1}^{{n_i}} {dist({r_j},c)/{n_i}}。$ (14)

式中: $ {F_i} $ 为第 $ i $ 个簇到中心点的马氏距离; $ dist({r_j},c) $ 为数据点 $ {r_j} $ 到中心点的距离; $ {n_i} $ 为第 $ i $ 个簇内含有的舰船通信网络数据个数。

设置数据距离阈值 $ \varpi $ ,当式(14)结果大于距离阈值 $ \varpi $ 时,则说明该聚类簇内的舰船通信网络数据为异常数据,完成舰船通信网络数据异常检测。

2 实验分析

使用Matlab对数据进行预处理和滤波处理,通过scikit-learn和Matlab应用K-means聚类算法,对输入数据进行聚类分析,检测舰船通信网络中的异常数据,以验证本文方法的应用效果。

采集舰船通信网络数据是实现异常数据检测的基础,使用本文方法采集该舰船在某一时段内的通信数据,采集结果如表1所示。

表 1 舰船通信网络数据采集结果(GHz) Tab.1 Data collection results of ship communication network (GHz)

分析可知,应用本文方法采集该舰船通信网络数据,采集结果与实际结果最大差值仅为0.003 GHz。这是因为超窄带滤波技术用于处理采集到的数据,去除干扰噪声,并将数据转化为矩阵形式,有助于提高数据的质量和准确性,使得采集到的数据更接近实际结果。因此,本文方法可有效采集舰船通信网络信道在通信状态下的数据,为后续检测该通信网络异常数据打下良好的基础。

以一组舰船通信网络数据作为实验对象,使用本文方法对其进行滤波处理,去除其内部含有的噪声,结果如图1所示。

图 1 舰船通信网络数据去噪结果 Fig. 1 Data denoising results of ship communication network

分析可知,舰船通信网络数据内存在干扰噪声,导致数据幅值波动区间扩大,未去噪处理的舰船通信网络数据幅值波动区间为5~35 dB,而使用本文方法对该舰船通信网络数据进行去噪后,其幅值仅在20 dB左右波动。这是因为超窄带滤波处理方法可以针对特定的频率范围进行滤波操作,将干扰噪声滤除,从而得到干净的舰船通信网络数据。因此,本文方法可以有效去除舰船通信网络数据内存在的干扰噪声。

以200条舰船通信网络数据作为实验对象,该200条舰船通信网络数据内存有9个异常数据,使用本文方法对该200条数据进行异常数据检测,数据分布与异常数据检测结果如图2所示。

图 2 舰船通信网络异常数据检测结果 Fig. 2 Abnormal data detection results of ship communication network

分析可知,该200条舰船通信网络数据内的正常数据点和异常数据点混合分布,数据点之间分布较为密集。使用本文方法对该200条舰船通信网络数据进行异常检测后,可将舰船通信网络内的正常数据和异常数据聚类,使相同类的舰船通信网络数据分布较为密集,而不同类的舰船通信网络数据类簇分布较远。这是因为使用K-means聚类算法对输入数据进行聚类分析,将数据样本分为不同的簇,其中可能包含异常数据。通过聚类算法的输出结果,将正常数据点和异常数据点分别归类到不同的簇中,从而实现对舰船通信网络异常数据的检测。在异常类簇内存在9个舰船通信数据,说明本文方法可有效检测舰船通信网络异常数据,具有较好的应用效果。

3 结 语

1)经过滤波处理后的舰船通信网络数据与实际结果之间的差值较小,证明了本文方法在采集舰船通信网络数据时具有较好的效果。

2)能够有效地检测到舰船通信网络中的异常数据。通过聚类算法的应用,将正常数据点和异常数据点分别聚类到不同的簇中,从而实现了对舰船通信网络异常数据的有效检测。

3)能够将正常数据和异常数据区分开来,使得相同类的舰船通信网络数据分布较为密集,而不同类的舰船通信网络数据类簇分布较远。证明了本文方法异常数据检测的准确性。

参考文献
[1]
耿德志, 徐乾. 基于K-means聚类算法的HDMA数据挖掘方法[J]. 计算机仿真, 2021, 38(2): 308-312. DOI:10.3969/j.issn.1006-9348.2021.02.066
[2]
侯范, 姚志成, 杨剑, 等. 一种基于K-means聚类的跳频信号快速检测方法[J]. 电讯技术, 2022, 62(2): 199-205.
[3]
黎佳玥, 赵波, 李想, 等. 基于深度学习的网络流量异常预测方法[J]. 计算机工程与应用, 2020, 56(6): 39-50.
[4]
孙文慧, 张海伦, 王雷. 基于高维空间聚类的集中供热末端数据异常检测[J]. 仪器仪表学报, 2021, 42(5): 235-242. DOI:10.19650/j.cnki.cjsi.J2107586
[5]
马莉莉, 刘江平. 基于数据挖掘的光纤通信网络异常数据检测研究[J]. 应用光学, 2020, 41(6): 1305-1310. DOI:10.5768/JAO202041.0608003
[6]
王英. 基于数据挖掘的船舶通信网络恶意攻击检测研究[J]. 自动化技术与应用, 2022, 41(6): 77-81. DOI:10.20033/j.1003-7241.(2022)06-0077-05
[7]
林超, 郑霖, 张文辉, 等. 基于随机矩阵理论的WSN异常节点定位算法[J]. 计算机工程, 2020, 46(1): 157-163.
[8]
李红映, 张天荣. 移动无线传感网络通信异常行为识别方法研究[J]. 传感技术学报, 2022, 35(2): 240-245.