舰船科学技术  2025, Vol. 47 Issue (16): 185-189    DOI: 10.3404/j.issn.1672-7649.2025.16.030   PDF    
大数据驱动下舰船无线通信网异常状态辨别研究
仇丹丹1,2, 段新华1     
1. 河南大学 濮阳工学院,河南 濮阳 457000;
2. 濮阳职业技术学院,河南 濮阳 457000
摘要: 为解决舰船无线通信网的“小样本-高噪声”问题,避免过拟合,研究大数据驱动下舰船无线通信网异常状态辨别方法。采集舰船无线通信网大数据,提取舰船无线通信网状态特征,通过大数据驱动的半监督学习算法为未知标签的无线通信网状态特征样本生成高可信度的伪标签,以已知标签样本和带伪标签的未知样本为大数据驱动的最小二乘半监督支持向量机模型的输入,输出舰船无线通信网异常状态辨别结果。实验证明,该方法可有效采集舰船无线通信网大数据,并提取网络状态特征;该方法异常状态辨别残差的最高自相关系数约为0.2,即辨别结果与实际结果的差距小,异常状态辨别精度高。
关键词: 大数据驱动     舰船通信网     异常状态辨别     支持向量机    
Research on abnormal state discrimination of ship wireless communication network driven by big data
QIU Dandan1,2, DUAN Xinhua1     
1. Puyang Institute of Technology, Henan University, Puyang 457000, China;
2. Puyang Vocation Technology College, Puyang 457000, China
Abstract: To address the "small sample-high noise" issue in ship wireless communication networks and avoid overfitting, a method for identifying abnormal states in ship wireless communication networks driven by big data is studied. Big data from ship wireless communication networks is collected, and state features of the networks are extracted. A semi-supervised learning algorithm driven by big data is used to generate high-confidence pseudo-labels for wireless communication network state feature samples with unknown labels. Known label samples and unknown samples with pseudo-labels are input into a least squares semi-supervised support vector machine model driven by big data, and the output is the identification result of abnormal states in ship wireless communication networks. Experiments demonstrate that this method can effectively collect big data from ship wireless communication networks and extract network state features. The highest autocorrelation coefficient of the residuals in abnormal state identification is approximately 0.2, indicating that the difference between the identification result and the actual result is small, and the accuracy of abnormal state identification is high.
Key words: data-driven     ship communication network     abnormal state identification     support vector machine    
0 引 言

舰船和外界以及舰船内部设备间的信息传输桥梁是舰船无线通信网,是确保舰船精准执行不同类型任务的基础支撑[1]。舰船无线通信网的安全性直接影响舰船航行的安全性和任务执行质量。但舰船航行环境较为复杂,导致舰船无线通信网易受大气层与海洋气候等因素影响,增加其异常状态发生概率[2]。为提升舰船无线通信网运行的安全稳定性,需要研究异常状态辨别方法,及时发现舰船无线通信网的异常状态,并加以处理,提升舰船通信的高效性与可靠性。

例如,李费旭等[3]在双向长短期记忆网络(BiLSTM)内,引入注意力机制(AEE),提升船舶网络数据特征提取精度,BiLSTM结合AEE处理后特征,捕捉异常动态模式,完成异常状态辨识。BiLSTM+AEE模型是在小规模标注数据上训练的,难以充分利用船舶网络中积累的海量未标注数据。黄滔等[4]以空间向量统计为基础,设计网络流量时间序列的趋势异常辨识方法,通过提取网络流量演化过程的趋势和规律,进行异常状态辨识。趋势统计是基于固定时间窗口,无法适应船舶通信环境的快速变化。李高才等[5]依据船舶网络影响因素,构造基于语义轨迹多维相似度的聚类方法,提取网络数据传输模式,利用语义转换模型传输模式数据变更为文本数据,结合文本余弦相似度方法与核密度估计,建立异常状态检测模型。多维相似度聚类在船舶网络的海量数据环境下计算复杂度高,难以实时更新簇中心,易导致误报。

大数据驱动的半监督学习通过构建通信设备/信号间的图结构,能够依据少量标注数据,生成高可信度的伪标签[6]。大数据驱动的最小二乘半监督支持向量机(LS-SVM)对噪声的敏感度较低,能够根据未标注数据扩大正常样本的覆盖范围,避免过拟合,解决舰船无线通信网的“小样本-高噪声”问题。为此,研究大数据驱动下舰船无线通信网异常状态辨别方法,提升无线通信网运行的安全稳定性。

1 舰船无线通信网异常状态辨别 1.1 舰船无线通信网的拓扑结构

通过构建舰船无线通信网的拓扑结构,可清晰呈现网络节点连接关系与数据传输路径,为舰船无线通信网异常状态辨别提供依据。舰船无线通信网的拓扑结构如图1所示。舰船无线通信网络的拓扑结构中,以无线通信网为核心,连接机舱、驾控室、集控室,实现数据交互与通信。

图 1 舰船无线通信网络的拓扑结构 Fig. 1 Shows the topological structure of the ship's wireless communication network
1.2 舰船无线通信网的大数据采集与特征提取

利用Jnetpcap技术在建立的舰船无线通信网拓扑结构内,采集舰船无线通信网的大数据,并提取舰船无线通信网状态特征,大数据采集与特征提取流程如图2所示。

图 2 舰船无线通信网大数据采集与特征提取流程 Fig. 2 Shows the process of big data collection and feature extraction for ship wireless communication networks

舰船无线通信网大数据采集与特征提取的具体步骤如下:

步骤1 启动舰船无线通信网大数据采集任务,针对拓扑结构内机舱、集控室、驾控室等节点,准备采集涵盖推进、燃油、通信导航等设备的舰船无线通信网大数。

步骤2 利用Jnetpcap技术初始化Jentpcap对象,使其与舰船无线通信网拓扑结构中对应采集需求的网卡设备(舰船机舱、集控室、驾控室等不同区域关联的网络接入点)相连。

步骤3 从Jentpcap对象中提取舰船无线通信网数据包的原始数据信息并保存抓取数据包,生成包含舰船通信数据包基本特征的舰船通信链路档案。

步骤4 根据数据包是否存在源/目的IP地址、服务、协议等基本特征,删除舰船无线通信网中的无效数据包。

步骤5 如果当前涵盖舰船通信数据包特征信息的舰船通信链路档案是首个采集到的样本,且无法提取舰船无线通信网状态特征,则将该数据包特征缓存在CacheFea内,并跳转至步骤3。如果不是首个,则对比分析当前舰船通信链路档案中的基本特征和CacheFea,如果相同属性重叠度较高,则继续缓存该舰船通信链路档案,并跳转至步骤3,解析新的舰船通信链路档案。当舰船通信链路档案与CacheFea基本特征不同时,则将CacheFea内缓存的上一个舰船无线通信数据包特征复制到该舰船通信链路档案内,并利用时间窗口分析器和主机连接分析器,添加考虑时间和主机维度的舰船无线通信网数据包统计特征至舰船通信链路档案内。

步骤6 在时间特征队列与主机连接队列内,添加舰船通信链路档案,并更新舰船无线通信网络全局元数据,存储采集的舰船无线通信网络大数据与提取的舰船无线通信网状态特征。

1.3 基于大数据驱动的无线通信网异常状态辨别

依据Jnetpcap技术采集的舰船无线通信网大数据(涵盖机舱、集控室、驾控室设备及网状无线通信网全链路数据)以及提取的舰船无线通信网状态特征,结合大数据驱动的半监督学习算法,挖掘舰船无线通信网拓扑关联,为未知样本生成高可信度的伪标签,通过融合已知标签样本和带伪标签的未知样本,训练大数据驱动的LS-SVM模型,进行舰船无线通信网异常状态辨别,降低对噪声的敏感度,解决舰船无线通信网的“小样本-高噪声”问题,避免过拟合。设Jnetpcap技术提取的海量舰船无线通信网状态特征样本为$ x $,涵盖设备运行参数(机舱推进系统转速、燃油压力、驾控室电子海图更新频率等)、链路通信特征(无线链路丢包率、信号强度、带宽利用率等)。已知样本标签$ y $标记设备/链路已知状态(正常、异常),未知样本需生成伪标签。舰船无线通信网状态特征样本总数为$ n = l + m $,前$ l $个为已知标签样本,构成$ L = \{ ({x_1},{y_1}), \cdots , ({x_l},{y_l})\} $;后$ m $个为未知样本,构成$ M = \{ ({x_{l + 1}}), \cdots , ({x_{l + m}})\} $。基于$ T = L \cup M $构建连通无向图$ G = \langle V,E\rangle $,顶点$ V $对应舰船无线通信网的拓扑节点(设备/链路),$ {e_{ij}} $为样本$ {x_i} $$ {x_j} $的相似距离,计算公式如下:

$ {e}_{ij}={e}^{-\frac{\Vert {x}_{i}-{x}_{j}{\Vert }^{2}}{2{\sigma }^{2}}}。$ (1)

式中:$ \sigma $为核宽度。

令标签转移概率为$ {Q_{ij}} $,计算公式如下:

$ {Q_{ij}} = \frac{{{e_{ij}}}}{{\displaystyle\sum\limits_{k = 1}^{l + m} {{e_{ik}}} }}。$ (2)

式中:$ {Q_{ij}} $为标签从样本转移到的概率。

令舰船无线通信网状态标签归属度矩阵为$ {{\boldsymbol{h_x}}} = \left[ \begin{gathered} {{\boldsymbol{h_l}}} \\ {{\boldsymbol{h_m}}} \\ \end{gathered} \right] $,已知标签归属度矩阵为$ {{\boldsymbol{h_l}}} $,未知样本伪标签归属度矩阵为$ {{\boldsymbol{h_m}}} $。通过迭代实现标签传播,公式如下:

$ \left[\begin{aligned}\boldsymbol{h}_{\boldsymbol{l}}^{(i)} \\ \boldsymbol{h}_{\boldsymbol{m}}^{(i)}\end{aligned}\right]=\left[\begin{aligned}Q_{ll}\ \ \ \ & Q_{lm} \\ Q_{ml}\ \ \ \ & Q_{mm}\end{aligned}\right]\left[\begin{aligned}\boldsymbol{h}_{\boldsymbol{l}}^{(i-1)} \\ \boldsymbol{h}_{\boldsymbol{m}}^{(i-1)}\end{aligned}\right]。$ (3)

当迭代收敛,未知样本伪标签归属度矩阵为:

$ {{\boldsymbol{h_m}}} = {(I - {P_{mm}})^{ - 1}}{P_{ml}}{h_l}{\text{ }}。$ (4)

依据$ {{\boldsymbol{h_m}}} $生成未知样本伪标签,为LS-SVM训练提供舰船无线通信网大数据支撑,降低LS-SVM对噪声的敏感度,解决舰船无线通信网的“小样本-高噪声”问题,避免过拟合。

令训练集为$ M = \{ ({x_{l + 1}}), \cdots ,({x_{l + m}})\} $,前$ l $个为Jnetpcap技术采集的已知标签样本(如机舱推进系统异常历史数据、驾控室通信导航正常链路数据),后$ m $个为带伪标签的未知样本。已知标签舰船无线通信网状态特征样本的约束为:

$ w^{\mathrm{T}}f(x_i)+b+\xi_i\geqslant y_i,\; \xi_i\geqslant0,\; i=1,\cdots,l 。$ (5)

带伪标签未知舰船无线通信网状态特征样本的约束为:

$ \left\{\begin{aligned} & w\mathrm{^T}f(x_j)+b+p_j\geqslant\hat{y}_j ,\\ & w^{\mathrm{T}}f(x_j)+b-s_j\leqslant-\hat{y}_j,\\ & p_j,s_j\geqslant0,\; j=l+1,\cdots,l+m。\end{aligned}\right. $ (6)

构建舰船无线通信网异常状态辨识的优化问题:

$ \begin{gathered}\min_{w,b,\xi,p,s}\frac{1}{2}w^{\mathrm{T}}w+\frac{z_1}{2}\sum\limits_{i=1}^l\xi_i^2+\frac{z_2}{2}\sum\limits_{j=l+1}^{l+m}p_j^2+\frac{z_3}{2}\sum\limits_{j=l+1}^{l+m}s_j^2,\\ {\rm{s.t.}} \\ \left\{ \begin{split} &{w^{\rm{T}}}f({x_i}) + b + {\xi _i} = {y_i},\\ &{w^{\rm{T}}}f({x_j}) + b + {p_j} = {{\hat y}_j},\\ &{w^{\rm{T}}}f({x_j}) + b - {s_j} = - {{\hat y}_j},\\ &i = 1, \cdots ,l,\;j = l + 1, \cdots ,l + m。\end{split} \right. \\ \end{gathered} $ (7)

式中:$ w $为舰船无线通信网异常状态辨识超平面法向量,代表舰船无线通信网状态特征权重,反映舰船无线通信网的拓扑关联。

舰船无线通信网异常状态辨识超平面偏置为$ b $。已知标签样本误差为$ {\xi _i} $;伪标签样本误差为$ ( {{p_j},{s_j}} ) $,平衡采集数据伪标签的可靠性与模型泛化性。惩罚系数为$ {z_1} $$ {z_2} $$ {z_3} $,依据舰船无线通信异常分布调试。

将式(7)转换成线性规划问题,结合舰船无线通信约束(如链路带宽阈值、设备参数安全范围),进行求解,得到最佳$ {b^*} $和拉格朗日乘子$ (\alpha _1^*, \cdots ,\alpha _l^*;\beta _{l + 1}^*, \cdots ,\beta _{l + k}^*;\gamma _{l + 1}^*, \cdots ,\gamma _{l + m}^*) $。将舰船无线通信网状态特征样本,代入大数据驱动LS-SVM模型的舰船无线通信网异常状态辨识决策函数,公式如下:

$ y = {\rm{sgn}}\left( {\sum\limits_{i = 1}^l {\alpha _i^*} K\left( {{x_i},x} \right) + \sum\limits_{j = l + 1}^{l + m} {(\beta _j^* - \gamma _j^*)K\left( {{x_j},x} \right)} + {b^*}} \right)。$ (8)

式中:$ K $为核函数。

$ y = - 1 $,则辨别舰船无线通信网为异常状态;若$ y = 1 $,则辨别舰船无线通信网为正常状态。

2 结果与分析

以某舰船无线通信网为实验对象,利用本文方法对该通信网进行异常状态辨别,提升通信网数据传输的安全性,该通信网的基本信息如表1所示。

表 1 舰船通信网的基本信息 Tab.1 Basic information of ship communication network

利用所研究方法采集该舰船无线通信网的大数据,并提取舰船无线通信网的状态特征,以舰船无线通信网络流量为例,采集结果与状态特征提取结果如图3图4所示。从图3可知,Jnetpcap技术可准确抓取无线通信网中各节点(如机舱、集控室、驾控室)的原始数据包,涵盖推进系统、燃油系统、通信导航等设备的通信流量。从图4可知,从原始数据提取的舰船无线通信网状态特征,包括流量峰值、低谷期及突发流量事件。这些特征反映了舰船无线通信网在不同时间段和任务场景下的负载变化,为后续异常状态辨别提供重要依据。

图 3 舰船无线网络流量采集结果 Fig. 3 Results of wireless network traffic collection for ships

图 4 舰船无线网的状态特征提取结果 Fig. 4 The state feature extraction results of the ship's wireless network

在该舰船无线通信网的状态特征提取结果内,随机选择50个样本,每个样本的间隔时间为2 h,利用所研究方法对该舰船无线通信网进行异常状态辨别,辨别结果如图5所示。可知,样本编号1、5、15、17、28、36、37、38、48的状态为异常状态,其余样本均为正常状态。

图 5 舰船无线通信网异常状态辨别结果 Fig. 5 Results of identifying abnormal states in the ship's wireless communication network

对LS-SVM模型和半监督学习算法-LS-SVM模型,进行异常状态辨别残差的自相关分析,残差是辨别结果与实际结果的差值。如果残差序列的自相关系数低,说明残差之间的相关性弱,意味着模型的辨别结果相对更独立,即辨别精度越高。分析结果如图6所示。通过比较LS-SVM模型与半监督学习算法-LS-SVM模型的自相关分析结果了解到,LS-SVM模型的最高自相关系数约为0.6,半监督学习算法-LS-SVM模型的最高自相关系数约为0.2,说明半监督学习算法-LS-SVM模型的舰船无线通信网异常状态辨别精度较高。说明LS-SVM模型在辨别过程中未能充分捕捉数据变化规律,从而影响模型的独立性和稳定性。半监督学习算法-LS-SVM模型在辨别异常状态时,可以更好地独立处理每个样本,充分利用舰船无线通信网状态特征信息,确保模型能够学习到更全面的特征信息,提升异常状态辨别精度。

图 6 异常状态辨别残差的自相关分析结果 Fig. 6 Shows the autocorrelation analysis results of the residuals for identifying abnormal states
3 结 语

针对舰船无线通信网中存在的“小样本-高噪声”问题,提出了基于大数据驱动的异常状态辨别方法。通过Jnetpcap技术采集舰船无线通信网的大数据,并提取网络状态特征,结合半监督学习算法为未知样本生成高可信度的伪标签,有效解决了数据标注不足的问题。在此基础上,利用最小二乘半监督支持向量机(LS-SVM)模型融合已知标签样本和伪标签样本,实现了对舰船无线通信网异常状态的高精度辨别,避免了传统方法中常见的过拟合现象。结果表明,本文方法能够准确采集舰船无线通信网的大数据并提取关键状态特征,异常状态辨别残差的自相关系数仅为0.2,显著低于传统LS-SVM模型的0.6,表明其辨别结果与实际结果差距较小,具有较高独立性和稳定性。此外,该方法通过利用未标注数据扩大了正常样本的覆盖范围,增强了对噪声的鲁棒性,为舰船无线通信网的安全稳定运行提供了可靠技术支持。

未来研究可进一步优化半监督学习算法在动态拓扑环境中的适应性,并探索多模态数据融合技术在异常状态辨别中的应用,以提升模型的泛化能力和实时性。

参考文献
[1]
吴中岱, 韩德志, 蒋海豹, 等. 海洋船舶通信网络安全综述[J]. 计算机应用, 2024, 44(7): 2123-2136.
[2]
张博文, 马国军, 王亚军. 基于边缘计算的船舶通信网络负载均衡研究[J]. 中国造船, 2024, 65(3): 122-134.
ZHANG B W, MA G J, WANG Y J. Research on load balancing of ship communication network based on edge computing[J]. Shipbuilding of China, 2024, 65(3): 122-134. DOI:10.3969/j.issn.1000-4882.2024.03.011
[3]
李费旭, 周利, 丁仕风, 等. 基于改进LSTM的船体监测数据异常处理方法[J]. 船舶工程, 2024, 46(7): 90-102+121.
LI F X, ZHOU L, DING S F, et al. Exception handling method for hull monitoring data based on improved LSTM[J]. Ship Engineering, 2024, 46(7): 90-102+121.
[4]
黄滔, 陈冬梅, 杨勇兵. 船舶柴油机运行参数异常检测及分析[J]. 船海工程, 2024, 53(4): 66-70.
HUANG T, CHEN D M, YANG Y B. Detection and analysis of abnormal operating parameters of marine diesel engines[J]. Ship & Ocean Engineering, 2024, 53(4): 66-70.
[5]
李高才, 张新宇, 蒋晨星, 等. 海港航道水域船舶异常行为检测[J]. 大连海事大学学报, 2024, 50(4): 31-40.
[6]
黄姗姗, 赵莹莹, 朱红绿. 面向船舶通信应用场景的5G小基站覆盖方案设计与验证[J]. 电子技术应用, 2024, 50(7): 29-32.