舰船科学技术  2022, Vol. 44 Issue (12): 141-144    DOI: 10.3404/j.issn.1672-7649.2022.12.028   PDF    
大数据驱动和分析的舰船通信网络流量智能估计
苏婷婷1,2     
1. 陕西师范大学 计算机科学学院,陕西 西安 710000;
2. 青海交通职业技术学院,青海 西宁 810016
摘要: 研究大数据驱动和分析的舰船通信网络流量智能估计方法,提升网络流量智能估计效果。利用基于数据驱动的K-means聚类算法,提取具有标志性的有效通信网络流量数据;通过领域粗糙集算法,在有效通信网络流量数据内,提取流量数据时间序列特征;利用随机森林算法,剔除多余的时间序列特征,实现特征降维;在长短期记忆神经网络内,输出降维的时间序列特征,输出舰船通信网络流量智能估计结果。实验证明:该方法可合理提取有效舰船通信网络流量数据,有效提取并降维通信网络流量数据时间序列特征,可精准智能估计通信网络流量。
关键词: 大数据驱动     舰船通信     网络流量     智能估计     K-means聚类     神经网络    
Big data driven and analyzed ship communication network traffic intelligent estimation
SU Ting-ting1,2     
1. School of Computer Science, Shaanxi Normal University, Xi′an 710000, China;
2. Qinghai Communications Technical College, Xining 810016, China
Abstract: The intelligent estimation method of ship communication network traffic driven and analyzed by big data is studied to improve the effect of intelligent estimation of network traffic. Based on the data driven K-means clustering algorithm, the iconic effective communication network traffic data is extracted from the historical ship communication network traffic data. Using domain rough set algorithm, time series features of traffic data are extracted from effective communication network traffic data. Random forest algorithm is used to eliminate redundant time series features and achieve feature dimension reduction. In the LMTN, the time series features of dimension reduction are outputed and the results of intelligent traffic estimation of ship communication network are outputed. Experiments show that this method can extract effective ship communication network traffic data reasonably. This method can effectively extract and reduce the time series features of communication network traffic data. This method can accurately and intelligently estimate communication network traffic.
Key words: big data-driven     ship communication     network traffic     intelligent estimation     K-means clustering     the neural network    
0 引 言

通过估计通信网络流量,可精准发现其未来的发展趋势,及时发现通信网络存在的不足,加以改进,提升通信网络的稳定性与服务质量,确保通信网络不会出现拥塞[1-2],实时传递舰船通信数据,保证舰船航行的安全性。姚立霜等[3]利用经验模态分解获取各尺度网络流量的分量,利用改进K均值聚类算法聚类网络流量分量,在自回归移动平均模型内输入聚类结果,输出网络流量估计结果。该方法网络流量估计速度较快,有效提升网络流量估计精度,但该方法并未提取网络流量特征,易受不同特征影响,降低网络流量估计精度。李校林等[4]改进粒子滤波算法过滤网络流量,抑制流量内部噪声,利用长短期记忆循环网络处理过滤后的网络流量,输出网络流量估计结果。该方法具备较高的网络流量估计精度,且收敛速度较快。该方法对网络流量展开噪声抑制,但计算开销较大,影响网络流量估计的实时性。大数据驱动和分析利用科学的方法将数据应用至各个任务中,并持续作出正向反馈,得到精准的数据分析结果[5]。为此研究大数据驱动和分析的舰船通信网络流量智能估计方法,提升通信网络流量智能估计效果,为舰船航行提供更好的服务。

1 舰船通信网络流量智能估计 1.1 基于数据驱动的有效舰船通信网络流量数据提取

舰船通信网络流量历史大数据库为D,记录集为H,即 $ H = \{ {H_1}, {H_2}, \cdots , {H_n} \} $ ,记录条数为 $ n \geqslant 1 $ 。令D的属性集为XX内包含m个特征属性,即 $X = \left\{ {{X_1},{X_2}, \cdots , {X_m}} \right\}$ ,流量数值型、字符型属性子集分别为 $ {X_d} $ $ {X_c} $ ,则有 $ X = {X_d} \cup {X_c} $ ,且 ${X_d} \cup {X_c} = \phi$ 。舰船通信网络流量历史大数据记录 $ {H_i} $ 内包含m维属性,即 $ {H_i} = \left( {{x_{i1}},{x_{i2}}, \cdots ,{x_{im}}} \right) $ 。令记录内随机2条记录是 $ {H_i} $ $ {H_j} $ $ {H_i} $ $ {H_j} $ 内数值型属性的相似度距离为:

$ {S_d}\left( {{H_i},{H_j}} \right) = {\left( {\sum\limits_{h = 1}^p {\lambda {{\left| {{x_{ih}} - {x_{jh}}} \right|}^2}} } \right)^{\frac{1}{2}}}。$ (1)

其中,p为舰船通信网络流量数值型特征数量, $ h \in p $ λ为修正系数; $ {x_{ih}} $ 为第i条记录第h个数值型属性; $ {x_{jh}} $ 为第j条记录第h个数值型属性。

令舰船通信网络流量字符型属性数量是q,同时 $ 1 \leqslant q \leqslant m $ $ i \ne j $ ,那么 $ {H_i} $ $ {H_j} $ 内字符型属性的相似度距离为:

$ {S_c}\left( {{H_i},{H_j}} \right) = \sum\limits_{h = 1}^q {\lambda S\left( {{x_{ih}},{x_{jh}}} \right)}。$ (2)

其中,第h个字符属性 $ {x_{ih}} $ $ {x_{jh}} $ 间的相似度距离为 $ S\left( {{x_{ih}},{x_{jh}}} \right) $

因此, $ {H_i} $ $ {H_j} $ 间的相似度距离为:

$ S\left( {{H_i},{H_j}} \right) = {S_d}\left( {{H_i},{H_j}} \right) + {S_c}\left( {{H_i},{H_j}} \right) 。$ (3)

令具有标志性的有效舰船通信网络流量数据聚类集是 $ C = \left\{ {{C_{i'}}} \right\}\left( {i' = 1,2, \cdots ,K} \right) $ K为聚类数量;C内包含r条记录的第 $ i' $ 个聚类为 $ {C_{i'}} = \left\{ {{H_f},{H_r}, \cdots ,{H_g}} \right\} $ $ {C_{i'}} $ 内舰船通信网络流量数据记录条数为gf为记录编号; $ {M_{i'}} $ $ {C_{i'}} $ 的聚类中心,由 $ {M_{i'}} = M_{i'}^d + M_{i'}^c $ 描绘;第 $ i' $ 个聚类内,舰船通信网络流量数值型属性、字符型属性的聚类中心是 $ M_{i'}^d $ $ M_{i'}^c $ $ M_{i'}^d $ 的取值是舰船通信网络流量数据记录相应属性的均值,公式如下:

$ M_{i'}^d = \frac{{\displaystyle\sum\limits_{j = f}^g {{S_d}\left( {{H_i},{H_j}} \right)} }}{r}。$ (4)

$ M_{i'}^c $ 的取值是 $ {C_{i'}} $ 内舰船通信网络流量数据记录相应属性频率的最大值,公式如下:

$ M_{i'}^c = \max \left( {{S_c}\left( {{H_i},{H_j}} \right)} \right)。$ (5)

利用其余聚类中心 $ {M_{j'}} $ 相似度距离,描绘 $ {H_i} $ 和当前聚类 $ {C_{j'}} $ 间的相似度,公式如下:

$ S\left( {{H_i},{M_{j'}}} \right) = {S_d}\left( {{H_i},{M_{j'}}} \right) + {S_c}\left( {{H_i},{M_{j'}}} \right) 。$ (6)

最小距离 $ \min \left( {S\left( {{H_i},C} \right)} \right) $ 计算公式如下:

$ \min \left( {S\left( {{H_i},C} \right)} \right) = \min \left( {S\left( {{H_i},{C_{j'}}} \right)} \right)。$ (7)

$ {C_{i'}} $ $ {C_{j'}} $ 的最小相似度距离如下:

$ {S_{\min }} = \min \left( {S\left( {{M_{i'}},{M_{j'}}} \right)} \right),i' \ne j'。$ (8)

存在r条舰船通信网络流量数据对象的 $ {C_{i'}} $ 中,数据对象相似度均值 $ {\bar S_{i'}} $ 如下:

$ {\bar S_{i'}} = Avg\left( {\sum\limits_{h = 1}^{r - 1} {\sum\limits_{j = h + 1}^r {S\left( {{H_h},{H_j}} \right)} } } \right) 。$ (9)

选择和具有标志性的有效舰船通信网络流量数据记录类型相似度最大的一类,将其当成标准,展开归类[6-8]。最大相似度距离是 $ S' = \max \left( {{{\bar S}_{i'}}} \right) $ $ i' = 1,2, \cdots , K $ 。舰船通信网路流量数据记录分布密度函数为:

$ {\rho _{i'}} = \frac{{\displaystyle\sum\limits_{i' = 1j' \ne 1}^l {\frac{1}{{S\left( {{H_i},{H_j}} \right)}}} }}{{\displaystyle\sum\limits_{j' = 1}^l {\sum\limits_{i' \ne 1j' = 1}^l {\frac{1}{{S\left( {{H_i},{H_j}} \right)}}} } }}。$ (10)

其中:l为数据子集数量; $ {\rho _{i'}} $ 与舰船通信网络流量大数据样本点密度呈正比[9],即对具有标志性的有效舰船通信网络流量数据聚类结果影响较大。

选择合理M的样本点ρ较高,同时类中心间S较大的聚类,并考虑该类Sρ对初始聚类中心的影响,在D内随机选择一个数据子集 $ {D_1},{D_2}, \cdots ,{D_l} $ ,各子集内均存在 $ n' $ 条记录, $ n' = \left( {1,n' \ll n} \right) $

通过函数 $ {F_M}\left( {D,1,n'} \right) $ ,生成3个初始聚类中心,记作 $ {M_1} $ $ {M_2} $ $ {M_3} $ ,第a $ {D_a} $ 内每条记录的分布密度为 $ {\ \rho _a} $ $ {M_a} = \max \left( {{\rho _a}} \right) $ ;令 $ \left\{ {{M_a}} \right\} $ 的聚类中心为 $ {M_1} $ ,则 $ {M_2} = \max \left( {S\left( {{M_1},{M_a}} \right)} \right) $ $ {M_3} = \max \left( {S\left( {{M_1},{M_a}} \right) + S\left( {{M_2},{M_a}} \right)} \right) $ ;输出初始聚类中心 $ {M_1} $ $ {M_2} $ $ {M_3} $

具有标志性的有效舰船通信网络流量数据聚类时,以动态形式更新K值,输出具有标志性的有效舰船通信网络流量数据聚类结果 $ D' $ ;聚类标准是类内S最小,类间S最大。

1.2 舰船通信网络流量数据时间序列特征提取

通过领域粗糙集算法提取通信网络流量数据时间序列特征,避免关键流量数据丢失情况出现,提升舰船通信网络流量智能估计精度。令 $ D' $ 的领域为V,则 $ D' $ $ D' $ 特征属性值间相应的函数为 $ f':D' \times A \to V $ ;其中,A为条件属性。领域半径R的计算公式为:

$ R = \int {V \cdot \frac{\beta }{{{\sigma ^2}}} \cdot \eta }。$ (11)

其中:σ为计算函数;η为常数;β为领域转换函数。

具有标志性的有效舰船通信网络流量数据时间序列特征提取过程如下:

$ D'' = \int {{A_\mu } \cdot \frac{{D'}}{\varepsilon } \cdot R}。$ (12)

其中, $ {A_\mu } $ 为第μ个条件属性;ε为阈值; $ D'' $ 为有效舰船通信网络流量数据时间序列特征是。

1.3 舰船通信网络流量数据时间序列特征降维

利用随机森林算法,剔除多余与无关舰船通信网络流量数据时间序列特征,实现舰船通信网络流量数据时间序列特征降维。令训练数据集是 $ G = \{ \left( {{{D''}_{i''}},{y_{i''}}} \right), i'' = 1,2, \cdots ,N \} $ $ M' $ 维有效舰船通信网络流量数据时间序列特征向量是 $ {D''_{i''}} = \left\{ {{{D''}_{i''1}},{{D''}_{i''2}}, \cdots ,{{D''}_{i''M'}}} \right\} $ ,第 $ i'' $ 个训练数据集的实际舰船通信网络流量值为 $ {y_{i''}} $ ;样本容量为N;输入特征数量为 $ M' $ 。利用回归树 $ \{ z\left( {D'',{\theta _o}} \right), o = 1,2, \cdots ,O \} $ 描绘随机森林模型,回归树数量为O,随机变量为 $ {\theta _o} $ ,因此随机森林重要舰船通信网络流量数据时间序列特征降维步骤如下:

步骤1 输入G $ D'' $

步骤2 通过Bagging策略,在G内有放回地任意选择O组训练样本,其容量为N,记作 $ \left\{ {{G_1},{G_2}, \cdots ,{G_O}} \right\} $

步骤3 建立回归树,回归树数量为O,与各组样本集一一对应,记作 $ \left\{ {{g_1},{g_2}, \cdots ,{g_O}} \right\} $ ,按照随机森林思想,生成O组未被采样的舰船通信网络流量数据时间序列特征数据集,即袋外数据,记作 $ \left\{ {{B_1},{B_2}, \cdots ,{B_O}} \right\} $

步骤4 在袋外数据是 $ {B_1} $ 情况下,通过 $ {G_1} $ 训练获取 $ {g_1} $ ,利用 $ {g_1} $ 预测 $ {B_1} $ ,按照预测结果,求解 $ {B_1} $ 的袋外误差,公式为:

$ E\left( {{B_1}} \right) = \frac{{\displaystyle\sum\limits_{i'' = 1}^N {\lambda {{\left[ {{y_{i''}} - z\left( {{{D''}_{i''}},{\theta _1}} \right)} \right]}^2}} }}{2}。$ (13)

式中:λ为修正系数;输入 $ {D''_{i''}} $ 情况下, $ {g_1} $ 的预测舰船通信网络流量值为 $ z\left( {{{D''}_{i''}},{\theta _1}} \right) $

步骤5 第 $ j'' $ 个舰船通信网络流速数据时间序列特征为 $ \left\{ {{{D''}_{i''j''}}} \right\},0 \leqslant j'' \leqslant M' $ ,噪声扰动 $ {B_1} $ 的第 $ j'' $ 个特征值,重新求解袋外误差 $ E'\left( {{B_1}} \right) $

步骤6 反复操作步骤4与步骤5,求解与 $ \{ {B_2}, \cdots , {B_O} \} $ 相应的袋外误差。

步骤7 第 $ j'' $ 个舰船通信网络流速数据时间序列特征的重要性度量分数如下:

$ Scor{e_{j''}} = \sum\limits_{\zeta = 1}^O {\frac{{\left| {E\left( {{B_\zeta }} \right) - E'\left( {{B_\zeta }} \right)} \right|}}{O}}。$ (14)

其中,第 $ \zeta $ 个袋外数据的噪声扰动前后的袋外误差为 $ E\left( {{B_\zeta }} \right) $ $ E'\left( {{B_\zeta }} \right) $

步骤8 反复操作步骤4~步骤7,求解全部 $ D'' $ Score

步骤9 按照Score降序排列全部 $ D'' $ ,选择Score最高的前P个舰船通信网络流量数据时间序列特征 $ {D''_P} $ ,完成具有标志性的有效舰船通信网络流量数据时间序列特征降维。

1.4 基于长短期记忆神经网络的通信网络流量智能估计

利用基于长短期记忆(long short term memory,LSTM)神经网络,智能估计舰船通信网络流量,在LSTM网络内输入1.3小节获取的降维后舰船通信网络流量数据时间序列特征 $ {D''_P} $ ,输出舰船通信网络流量智能估计结果。LSTM网络是循环神经网络(recurrent neural network,RNN)的改进模型,各RNN单元均具有输入层 $ X' $ 、隐藏层Q、输出层Y,对应权值是 $ {W_{X'}} $ $ {W_Q} $ $ {W_Y} $ 。在t时刻, $ X' $ 的输入为 ${D''}_P^t$ Y的输出为 $ {Y^t} $ ;利用t-1时刻的 $ {Q^{t - 1}} $ ${D''}_P^t$ 组建t时刻的 $ {Q^t} $ ,公式如下:

$ {Q^t} = \phi \left( {{W_{X'}}{D''}_P^t + {W_Q}{Q^{t - 1}} + b} \right)。$ (15)

其中, $ \phi \left( \cdot \right) $ 为激活函数;b为偏置项。

t时刻,舰船通信网络流量估计结果如下:

$ {Y^t} = {W_Y}{Q^t} + {b_Y}。$ (16)

其中,Y的偏置项为 $ {b_Y} $

2 实验结果与分析

在舰船通信网络流量数据集内,随机选择一个文件内的部分舰船通信网络流量数据,利用本文方法在该部分通信网络流量数据内,提取具有标志性的有效舰船通信网络流量数据,不同信噪比时的有效舰船通信网络流量数据提取结果如图1所示。

图 1 有效舰船通信网络流量数据提取结果 Fig. 1 Extraction results of effective ship communication network traffic data

可知,本文方法有效在不同信噪比时的舰船通信网络流量数据集内,提取具有标志性的有效舰船通信网络流量数据,剔除无效数据,为后续通信网络流量数据时间序列特征提取缩减数据,减少特征提取计算量。

以突变数据源的流量模式为例,利用本文方法智能估计,智能估计结果如图2所示。可知,本文方法可有效智能估计舰船通信网络流量,估计的通信网络流量与实际流量整体变化趋势大致相同,仅有微小差距,说明本文方法可精准智能估计舰船通信网络流量。

图 2 舰船通信网络流量智能估计结果 Fig. 2 Results of intelligent estimation of ship communication network traffic

利用决定系数分析本文方法流量智能估计效果,该系数代表估计结果与实际结果间的偏离度,其值越接近1,说明本文方法智能估计效果越佳,分析本文方法在不同链路负载时,3种流量模式下的舰船通信网络流量智能估计效果,如图3所示。可知,随着链路负载的增长,3种流量模式下,本文方法智能估计舰船通信网络流量时的决定系数均呈下降趋势,其中突变数据源流量模式决定系数下降幅度最大;当链路负载达到0.6时,3种流量模式下的决定系数均趋于稳定,最低决定系数在0.92左右,接近1,说明本文方法的智能估计结果与实际结果间的偏离度较小。实验证明,在不同链路负载及流量模式下,本文方法智能估计时的决定系数与1较为接近,即智能估计效果较佳。

图 3 舰船通信网络流量智能估计的决定系数测试结果 Fig. 3 Determination coefficient test results of intelligent estimation of ship communication network traffic
3 结 语

舰船通信网络流量估计属于舰船通信网络的主要研究方向之一,为精准发现舰船通信网络流量变化规律,研究大数据驱动和分析的舰船通信网络流量智能估计方法,精准智能估计通信网络流量,及时发现网络流量存在的问题,保证舰船通信网络质量,确保舰船航行安全。

参考文献
[1]
赵龙文, 苌道方, 朱宗良, 等. 基于SARIMA-BP模型的港口船舶交通流量预测[J]. 中国航海, 2020, 43(1): 50-55+94. DOI:10.3969/j.issn.1000-4653.2020.01.010
[2]
薛晗, 邵哲平, 潘家财, 等. 基于文化萤火虫算法-广义回归神经网络的船舶交通流量预测[J]. 上海交通大学学报, 2020, 54(4): 421-429.
[3]
姚立霜, 刘丹, 裴作飞, 等. 基于EMD聚类的实时网络流量预测模型[J]. 计算机科学, 2020, 47(S2): 316-320.
[4]
李校林, 吴腾. 基于PF-LSTM网络的高效网络流量预测方法[J]. 计算机应用研究, 2019, 36(12): 3833-3836.
[5]
赵敏. 数据驱动下交互网络群智感知任务分配仿真[J]. 计算机仿真, 2021, 38(1): 476-480.
[6]
阳杰, 白晓伟, 颜巍, 等. 基于分层数据搜索的数据驱动算法研究[J]. 固体力学学报, 2021, 42(3): 241-248.
[7]
赵雅兰, 续欣莹, 任密蜂. 数据驱动框架下的非高斯批次过程最小熵性能评估算法[J]. 太原理工大学学报, 2019, 50(2): 251-254.
[8]
麻文刚, 张亚东, 郭进. 基于LSTM与改进残差网络优化的异常流量检测方法[J]. 通信学报, 2021, 42(5): 23-40.
[9]
李佳, 云晓春, 李书豪, 等. 基于混合结构深度神经网络的HTTP恶意流量检测方法[J]. 通信学报, 2019, 40(1): 24-33.