舰船科学技术  2025, Vol. 47 Issue (9): 175-179    DOI: 10.3404/j.issn.1672-7649.2025.09.030   PDF    
改进C均值聚类算法识别船用网络异常信息
赵晓华1, 赵树升2     
1. 河南大学濮阳工学院,河南 濮阳 457000;
2. 厦门工学院 数据科学与计算机学院,福建 厦门 361000
摘要: 在船用网络流量中,持续性隐蔽威胁具有隐蔽性强、持续时间长等特点,传统检测方法难以检测这种长期依赖关系。为了提高深度检测的可靠性,设计基于GAN-LSTM(Generative Adversarial Networks-Long Short Term Memory Networks)的船用网络持续性隐蔽威胁深度检测方法。采用生成对抗网络根据持续性隐蔽威胁攻击特点生成接近真实船用网络的持续性隐蔽威胁攻数据样本。利用长短期记忆网络捕捉船用网络流量中的长期依赖关系,精准识别潜在威胁并输出深度检测结果。实验结果表明,生成样本与真实样本的相似度得分保持在0.9以上,证明了本文方法数据样本生成的质量较高。对于不同船用网络传输距离,攻击链完整度高于70%的阈值,说明本文方法的检测精度较高,能够为船用网络安全防护提供有力的技术支持。
关键词: 生成对抗网络     长短期记忆网络     船用网络     持续性     隐蔽威胁检测    
Identifying abnormal information in marine networks by improving C-Means clustering algorithm
ZHAO Xiaohua1, ZHAO Shusheng2     
1. Puyang Institute of Technology, Henan University, Puyang 457000, China;
2. School of Data and Computer Science, Xiamen Institute of Technology, Xiamen 361000, China
Abstract: In marine network traffic, persistent covert threats have the characteristics of strong concealment and long duration, and traditional detection methods are difficult to detect such long-term dependencies. In order to improve the reliability of deep detection, a GAN-LSTM (Generative Adversarial Networks-Long Short Term Memory networks) based method for continuous covert threat deep detection in marine networks is designed. Using long short-term memory networks to capture long-term dependencies in marine network traffic, accurately identify potential threats, and output deep detection results. The experimental results show that the similarity score between generated samples and real samples remains above 0.9, demonstrating the high quality of data sample generation using our method. For different ship network transmission distances, the attack chain integrity is above the threshold of 70%, indicating that the detection accuracy of this method is high and can provide strong technical support for ship network security protection.
Key words: generate adversarial network     long short-term memory network     fiber optic network     continuity     covert threat detection    
0 引 言

近年来,船用网络遭受的持续性隐蔽威胁日益增多,这些威胁往往具有隐蔽性强、持续时间长、攻击手段多样等特点,给网络安全防护带来挑战[1]。持续性隐蔽威胁可能来源于黑客攻击、恶意软件传播、数据窃取等多种攻击手段,能够在不被察觉的情况下对网络进行渗透和破坏,导致数据泄露、服务中断等严重后果。

目前,许多学者针对船用网络安全进行了研究。吴芬[2]提出改进卷积神经网络的舰船物联网安全风险估计方法,对舰船物联网安全风险数据进行分类。对于动态类安全风险数据,进行数据补充。基于改进卷积神经网络提取舰船物联网安全风险数据特征,基于灰色层次分析、Borda序列、风险矩阵构建舰船物联网安全风险估计模型。但是该方法对于动态类安全风险数据进行数据补充,可能无法准确把握动态数据的变化规律,补充的数据可能与实际情况存在偏差,影响对船用网络风险估计的准确性。卢金清[3]利用AMD(Advanced Micro Devices)检测主机提取存储于解析模块中的信息参量,完成船舶网络入侵检测系统的硬件设备配置。联合船舶通信网络中数据信息参量的传输强度,计算入侵信息特征参量,根据已知的检测权限量差条件,确定船舶通信数据的入侵强度。结合相关硬件设备结构,实现基于大数据分析的船舶网络入侵检测系统搭建。但是该方法仅联合数据信息参量的传输强度和已知的检测权限量差条件来确定入侵强度,可能忽略了其他重要的入侵特征,导致检测结果不够准确,容易出现误判或漏判的情况。张晓玲等[4]提出基于小波变换的舰船主干网络干扰信号防御算法,将信号分解为简单分量的叠加,提取干扰信号的时频特征参数。设置阈值和调节函数,利用小波变换抑制信号随机噪声。设计干扰信号防御算法,利用概念熵函数进行迭代,得到干扰防御的最优解。但是实际中信号较为复杂,小波变换可能无法完全精确地分解信号,导致特征参数提取不准确,影响算法对船用网络的安全防御效果。李瑛等[5]提出了基于深度数据挖掘的船用通信网络异常行为分类和识别方法。采用全局信息数据融合策略,融合网络的原始采集数据。通过平均不纯度减少特征重要度计算方法,选择有效特征并计算该特征重要度后形成特征集,将其输入分类识别模块的内外卷积网络深度学习网络模型中,获取船用通信网络异常行为分类识别结果。但是该方法通过平均不纯度减少特征重要度计算方法选择有效特征,可能无法涵盖所有对异常行为分类和识别有重要影响的特征,存在特征遗漏的风险,从而影响分类识别结果的准确性。

生成对抗网络(Generative Adversarial Networks, GAN)具有强大的数据生成能力,可以模拟生成接近真实船用网络流量的数据样本[6]。长短期记忆网络(Long Short Term Memory networks, LST)擅长处理时间序列数据[7],能够捕捉船用网络流量中的长期依赖关系。结合GAN和LSTM,可以实现对船用网络持续性隐蔽威胁的准确检测,提高检测的准确性和可靠性。为此,本文提出基于GAN-LSTM的船用网络持续性隐蔽威胁深度检测方法。

1 基于GAN-LSTM的船用网络持续性隐蔽威胁深度检测方法 1.1 船用网络持续性隐蔽威胁攻击序列分析

船用网络面临的持续性隐蔽威胁攻击,其核心特征表现为针对性强、技术手段高超、持续时间漫长、隐蔽性极高以及造成的危害极其严重。特别是攻击周期的长久性,一个典型的高级持续性威胁攻击(Advanced Persistent Threat, APT)可能会持续数月,甚至数年时间。针对这种攻击的生命周期,可以细致地划分为7个紧密相连的阶段,船用网络持续性隐蔽威胁攻击的具体步骤如下:

步骤1 情报收集。攻击者会针对船用网络进行信息收集,包括船用网络拓扑结构、传输设备型号与配置、光纤类型与长度,以及安全策略等。

步骤2 工具部署。掌握船用网络的详细信息后,攻击者会选择合适的攻击工具,如恶意软件、网络钓鱼邮件或物理攻击手段(如光纤切割、窃听等),并利用光纤传输中的弱点,如信号衰减、光纤接头处的安全漏洞等,来部署攻击工具。

步骤3 漏洞利用。利用已部署的攻击工具,攻击者会寻找并利用船用网络中的安全漏洞,如设备配置不当、软件漏洞或物理安全漏洞等,试图获得初步的网络访问权限。

步骤4 控制目标设备。成功入侵船用网络后,攻击者会通过控制光纤传输设备或中间节点,来截断、篡改或监听传输中的数据,直至能够完全控制目标设备。

步骤5 远程操纵。完全控制目标设备后,攻击者会从远程位置对船用网络进行操控,执行各种恶意操作,如数据窃取、系统破坏、信号干扰等。

步骤6 横向扩展。为扩大战果,攻击者会利用已控制的设备作为跳板,进一步攻击船用网络中的其他设备,通过光纤传输的数据进行横向渗透。

步骤7 目标达成。根据其攻击目的,攻击者会执行特定的恶意行动,如窃取敏感数据、破坏船用网络、干扰数据传输等,以实现其攻击意图。

1.2 基于GAN的持续性隐蔽威胁攻击数据样本生成

船用网络持续性隐蔽威胁的攻防场景是一个复杂的动态博弈过程,涉及攻击者与防御者双方。在该过程中,防御者的防御能力随着攻击者的能力不断提升进行动态增强,这种攻防间的相互作用形成一个不断演进的对抗态势。为更准确地模拟该动态变化的攻防体系,并生成贴近真实船用网络持续性隐蔽威胁攻击的数据样本,本文采用GAN中生成器与判别器的对抗机制,生成高度逼真的船用网络持续性隐蔽威胁攻击数据样本。GAN模型包括船用网络持续性隐蔽威胁攻击数据生成模型H(即生成器)与持续性隐蔽威胁攻击检测模型D(即判别器)。船用网络流量具有动态变化的特点,在船舶进出港时,由于需要与港口设施进行大量的数据交互,网络流量会大幅增加;而在船舶航行在开阔海域时,流量相对稳定但也会随着通信业务量的变化而波动。生成器H会根据这些特点,模拟船舶不同航行状态和业务场景下的网络流量变化趋势,生成更符合船用网络实际情况的攻击数据样本。判别器D在检测船用网络攻击数据时,会考虑船舶网络中特定的通信协议格式以及数据加密方式在实际应用中的特点,通过对这些船用网络特殊性的考量,提高判别准确性。H的主要职责是根据船用网络高速、大容量和低损耗等特性,以及分析的持续性隐蔽威胁攻击特点,模拟并生成船用网络中的持续性隐蔽威胁攻击数据。D负责检测输入的样本数据是否为真实的船用网络持续性隐蔽威胁攻击数据,或者是由H产生的虚假数据。

为实现这一目标,D会遵循一个特定的策略:当输入为真实的船用网络持续性隐蔽威胁攻击数据$ x $时,D(x)的输出值应趋近于1;而当输入为H产生的虚假数据H(z)时,D(H(z))的输出值则应趋近于0。通过这样的策略,$ D $能够最大化自身的判别能力。与此同时,H的目标是使D无法准确区分其生成的虚假数据与真实的船用网络持续性隐蔽威胁攻击数据。因此,H会尝试调整其生成的数据,使得D(H(z))的输出值趋近于1,同时希望D对真实数据D(x)的判别趋近于一个较低的值。在这个动态的攻防博弈过程中,HF按照各自损失函数指引的梯度下降路径,不断调整和优化它们的内部权重参数。随着训练进程的加深,两者的技能水平均呈现出渐进式地增强,直至整个GAN模型趋于一个纳什均衡点。在均衡状态下,H能够生成接近真实船用网络持续性隐蔽威胁攻击的数据样本。DH的目标函数为:

$ \min J\left( D \right) = \frac{{{E_{x \sim Q\left( x \right)}}{{\left[ {D\left( x \right) - 1} \right]}^2} + {E_{z \sim Q\left( z \right)}}{{\left[ {D\left( {H\left( z \right)} \right)} \right]}^2}}}{2},$ (1)
$ \min J\left( H \right) = \frac{{{E_{z \sim P\left( z \right)}}{{\left[ {D\left( {H\left( z \right)} \right) - 1} \right]}^2}}}{2} 。$ (2)

其中,真实船用网络持续性隐蔽威胁攻击数据$ x $的概率分布是Q(x);$ x $遵循Q(x)的期望是$ {E_{x \sim Q\left( x \right)}} $;噪声向量是$ z $$ z $的概率分布是Q(z);$ z $遵循Q(z)的期望是$ {E_{z \sim Q\left( z \right)}} $

DH展开交替迭代训练,具体步骤如下:

步骤1 训练D。根据目标函数J(D),利用梯度下降反向传播算法,按照预设的学习率对更新的D网络权值,使其判别能力得到优化。经过训练后,D调整为$ \hat D $

步骤2 训练H。以$ \hat D $为评估工具,将伪造船用网络持续性隐蔽威胁攻击数据H(z)输入其中,并将产生的损失L回传到H。回传L时,并不调整$ \hat D $的权值。当到达L时,根据目标函数J(H),利用梯度下降反向传播算法,按照预设学习率更新H的权值,增强其生成能力。经过训练后,H调整为$ \hat H $

每次迭代中,都依次对DH展开训练并调整。这样交替进行,直到所有样本都完成训练,且J(D)和J(H)都达到收敛状态。此时,H已经能够生成出高度逼真的船用网络持续性隐蔽威胁攻击数据,而D则已经具备强大的判别能力,能够准确区分真实数据与伪造数据。由于D不能事先获取船用网络持续性隐蔽威胁攻击数据,而是H依据真实船用网络持续性隐蔽威胁攻击数据样本,生成而来的,所以D(x)与D(H(z))为等价的,以微分计算方式处理D(x)得到:

$ \frac{{Q\left( x \right)}}{{D\left( x \right)}} - \frac{{Q\left( z \right)}}{{1 - D\left( x \right)}} = 0 。$ (3)

通过求解式(3)获取最佳判别器D*(x):

$ {D^*}\left( x \right) = \frac{{Q\left( x \right)}}{{Q\left( x \right) + Q\left( z \right)}}。$ (4)

在原始目标函数中代入D*(x)经过变换得到:

$ \begin{split} \min J\left( D \right) =& {E_{x \sim Q\left( x \right)}}\log \dfrac{{Q\left( x \right)}}{{\dfrac{{Q\left( x \right) + Q\left( z \right)}}{2}}} +\\ & {E_{z \sim Q\left( z \right)}}\log \dfrac{{Q\left( z \right)}}{{\dfrac{{Q\left( x \right) + Q\left( z \right)}}{2}}}。\end{split} $ (5)
1.3 LSTM的船用网络持续性隐蔽威胁深度检测

鉴于持续性隐蔽威胁攻击数据时序性强、依赖历史数据变化模式的特点,选择长LSTM来进行船用网络中的持续性隐蔽威胁深度检测。LSTM能够有效地捕捉并利用数据中的长期依赖关系,提高深度检测的可靠性。在LSTM中输入$ t $时刻生成的接近真实船用网络持续性隐蔽威胁攻击的数据样本Gt(z),利用其内部复杂的门控机制和记忆单元,捕捉数据中的时序特征和潜在规律,输出船用网络持续性隐蔽威胁的深度检测结果yt。船舶网络中的数据具有很强的时间相关性,随时间连续变化,前一时刻的位置信息对后一时刻的位置预测具有重要意义。LSTM的遗忘门会根据船舶网络数据的这种特点,通过对上一层细胞状态st进行筛选,保留那些对深度检测持续性隐蔽威胁攻击至关重要的有用信息,同时丢弃那些与当前检测任务无关或可能产生误导的无用信息,从而更好地捕捉长期依赖关系。那么有:

$ {q_t} = \varphi \left( {{w_q}{y_{t - 1}} + {w_q}{G_t}\left( z \right) + {b_q}} \right)。$ (6)

式中:$ \varphi $为Sigmod激活函数;wqbq为权值与偏置;qt为保留的对深度检测持续性隐蔽威胁攻击至关重要的有用信息。

输入门利用$ \varphi $,对当前输入生成的接近真实船用网络持续性隐蔽威胁攻击的数据样本Gt(z),展开重要性评估,计算出介于0和1之间的输入率rt,用于反映当前输入数据对于深度检测船用网络持续性隐蔽威胁的重要性程度,具体如下:

$ {r_t} = \varphi \left( {{w_r}{y_{t - 1}} + {w_r}{G_t}\left( z \right) + {b_r}} \right) 。$ (7)

式中:wrbr为权值与偏置。

Tanh函数在Gt(z)中提取出与船用网络持续性隐蔽威胁攻击相关的潜在特征$ {\hat s_t} $,包括攻击行为的模式、频率、强度等,具体如下:

$ {\hat s_t} = \tanh \left( {{w_s}{y_{t - 1}} + {w_s}{G_t}\left( z \right) + {b_s}} \right)。$ (8)

式中:wsbs为权值与偏置。

负责存储与船用网络持续性隐蔽威胁攻击相关的关键特征、模式以及它们之间的时间依赖关系如下:

$ {s_t} = {q_t} \cdot {s_{t - 1}} + {r_t} \cdot {\hat s_t} 。$ (9)

输出门利用$ \varphi $计算出一个介于0和1之间的输出率ut,用于评估st中各个船用网络持续性隐蔽威胁攻击相关的关键特征对于深度检测船用网络持续性隐蔽威胁的贡献程度,计算公式如下:

$ {u_t} = \varphi \left( {{w_u}{y_{t - 1}} + {w_u}{G_t}\left( z \right) + {b_u}} \right) 。$ (10)

船用网络持续性隐蔽威胁的深度检测结果为:

$ {y_t} = {u_t} \cdot \tanh \left( {{s_t}} \right) 。$ (11)
2 性能测试与分析

以某船用网络为实验对象,利用本文方法共生成拒绝服务攻击(Dos,Denial of Service)、探测攻击(Probing)、远程到本地攻击(R2L,Remote to Local)和用户到根权限攻击(U2R,User to Root)4种船用网络持续性隐蔽威胁攻击类型的数据样本,本文方法生成的船用网络持续性隐蔽威胁攻击类型数据样本的标签如表1所示。

表 1 攻击数据样本标签 Tab.1 Attack data sample labels

利用相似度得分衡量本文方法数据样本的生成效果,取值区间为[0,1],其值越高,说明本文方法生成的船用网络持续性隐蔽威胁攻击数据样本,与真实数据样本越接近。分析结果如图1所示。分析可知,对于Dos、Probing、R2L、U2R等4种船用网络持续性隐蔽威胁攻击类型的数据样本来说,随着训练轮数的增加,其相似度得分均呈上升趋势,当训练轮数达到30轮左右时,4种类型数据样本的相似度得分均达到一个相对稳定的水平,表明本文方法已经充分学习数据的内在特征和规律,能够生成与真实数据高度相似的新样本。在稳定状态下,4种类型数据样本的最低相似度得分也达到约0.9的高分,与理想值1非常接近,验证本文方法生成的船用网络持续性隐蔽威胁攻击数据样本质量较高,具备较优的数据样本生成效果。

图 1 持续性隐蔽威胁攻击数据样本生成效果 Fig. 1 Effectiveness of generating data samples for persistent hidden threat attacks

攻击链完整度指深度检测方法在攻击链各阶段成功拦截次数和失败拦截次数的比例。较高的攻击链完整度意味着本文方法在攻击的各个阶段都能够有效地识别并拦截威胁。攻击链完整度阈值是70%。分析不同船用网络传输距离时,本文方法船用网络持续性隐蔽威胁深度检测的攻击链完整度,分析结果如图2所示。可知,随着船用网络传输距离的提升,本文方法进行不同类型持续性隐蔽威胁深度检测时,攻击链完整度均呈现出不同程度的下降趋势。最低攻击链完整度接近71%,高于攻击链完整度阈值,说明本文方法的船用网络持续性隐蔽威胁深度检测精度较高,能够在不同攻击阶段精准辨识持续性隐蔽威胁攻击。

图 2 攻击链完整度分析结果 Fig. 2 Analysis results of attack chain integrity
3 结 语

本文提出了基于GAN-LSTM的船用网络持续性隐蔽威胁深度检测方法。通过GAN生成高质量的训练数据,并利用LSTM的时序学习能力,提高对持续性隐蔽威胁的检测准确性。实验结果表明,本文方法该方法生成的数据样本与真实样本相似度高,能够有效完成船用网络持续性隐蔽威胁的深度检测任务,在不同传输距离下均保持较高的攻击链完整度,检测精度可靠,为船用网络安全防护提供有力支持。

参考文献
[1]
张博文, 马国军, 王亚军. 基于边缘计算的船舶通信网络负载均衡研究[J]. 中国造船, 2024, 65(3): 122-134.
ZHANG B W, MA G J, WANG Y J. Research on load balancing of ship communication network based on edge computing[J]. China Shipbuilding, 2024, 65(3): 122-134. DOI:10.3969/j.issn.1000-4882.2024.03.011
[2]
吴芬. 改进卷积神经网络的舰船物联网安全风险估计[J]. 舰船科学技术, 2021, 43(14): 205-207.
WU F. Improving convolutional neural networks for ship IoT security risk estimation[J]. Ship Science and Technology, 2021, 43(14): 205-207. DOI:10.3404/j.issn.16727649.2021.7A.069
[3]
卢金清. 基于大数据分析的船舶网络入侵检测系统[J]. 舰船科学技术, 2022, 44(7): 166-169.
LU J Q. Ship network intrusion detection system based on big data analysis[J]. Ship Science and Technology, 2022, 44(7): 166-169. DOI:10.3404/j.issn.1672-7649.2022.07.034
[4]
张晓玲, 李玮. 基于小波变换的舰船主干网络干扰信号防御算法[J]. 舰船科学技术, 2021, 43(18): 163-165.
ZHANG X L, LI W. Anti interference signal algorithm for ship backbone network based on wavelet transform[J]. Ship Science and Technology, 2021, 43(18): 163-165. DOI:10.3404/j.issn.1672-7649.2021.9A.055
[5]
李瑛, 杨丽娟, 朱蓬华. 基于数据挖掘的船用通信网络异常行为分类和识别研究方法[J]. 舰船科学技术, 2023, 45(21): 181-184.
LI Y, YANG L J, ZHU P H. Research method for abnormal behavior classification and recognition of marine communication networks based on data mining[J]. Journal of Naval Science and Technology, 2023, 45(21): 181-184. DOI:10.3404/j.issn.1672-7649.2023.21.034
[6]
张震, 周一成, 田鸿朋. 基于空间特征和生成对抗网络的网络入侵检测[J]. 郑州大学学报(工学版), 2024, 45(6): 40-47.
ZHANG Z, ZHOU Y C, TIAN H P. Network intrusion detection based on spatial features and generative adversarial networks[J]. Journal of Zhengzhou University (Engineering Edition), 2024, 45(6): 40-47.
[7]
白万荣, 魏峰, 郑广远, 等. 基于TCN-BiLSTM的入侵检测算法研究[J]. 计算机科学, 2023, 50(S2): 941-948.
BAI W R, WEI F, ZHENG G Y, et al. Research on intrusion detection algorithm based on TCN-BiLSTM[J]. Computer Science, 2023, 50(S2): 941-948. DOI:10.11896/jsjkx.230300142