舰船科学技术  2023, Vol. 45 Issue (24): 204-207    DOI: 10.3404/j.issn.1672-7649.2023.24.039   PDF    
物联网环境下船舶航行大数据异常属性划分
朱慧珍, 王凯     
商丘学院 计算机工程学院,河南 商丘 476000
摘要: 由于人工记录、手动测量等方式存在信息不及时、不准确以及局限性的问题,无法获取到实时、全面的航行数据,降低了大数据异常属性划分结果的有效性,因此提出物联网环境下船舶航行大数据异常属性划分方法。在物联网环境下利用离散度函数,加权处理船舶航行大数据属性特征。通过密度选择法,确定船舶航行大数据异常属性划分的初始聚类中心。利用属性加权快速聚类算法,结合离散度函数与初始聚类中心,完成船舶航行大数据异常属性划分。实验证明,所提出方法可有效划分船舶航行大数据异常属性。在不同大数据规模下,该方法异常属性划分的加速比均较大,即异常属性划分速度较快。
关键词: 物联网环境     船舶航行     大数据     异常属性划分     离散度函数    
Classification of abnormal attributes of big data on ship navigation in the Internet of Things environment
ZHU Hui-zhen, WANG Kai     
Department of Computer Engineering, Shangqiu University, Shangqiu 476000, China
Abstract: Due to the problems of untimely, inaccurate, and limited information in manual recording and measurement methods, real-time and comprehensive navigation data cannot be obtained, which reduces the effectiveness of big data anomaly attribute classification results. Therefore, a method for dividing ship navigation large data anomaly attributes in the internet of things environment is proposed. In the context of the internet of things, the discrete degree function is used to weight and process the attribute features of ship navigation big data. Determine the initial clustering center for dividing abnormal attributes of ship navigation big data through density selection method. Using attribute weighted fast clustering algorithm, combined with discrete degree function and initial clustering center, complete abnormal attribute division of ship navigation big data. The experiment proves that the proposed method can effectively classify the abnormal attributes of ship navigation big data. Under different big data scales, this method has a relatively high acceleration ratio for abnormal attribute division, which means that the speed of abnormal attribute division is faster.
Key words: internet of things environment     ship navigation     big data     abnormal attribute partition     dispersion function    
0 引 言

智能化、网络化、信息化已成为现代船舶的重要特征[1]。在物联网环境下,船舶航行过程中会产生大量的数据,包括航行的位置、速度、方向、设备状态等[2]。这些数据不仅有助于了解船舶航行的实时状况,还可以通过分析异常数据来预测和预防潜在的安全隐患[3]。因此,将物联网环境下船舶航行大数据的异常属性进行划分,对于提高船舶安全系数具有重要意义。

谌裕勇等[4]对数据集进行初步筛选,利用不相关性检验对剩余数据进行变量选择,将与正常数据不相关的变量视为潜在异常变量。最后,根据异常变量的数量和程度,将数据划分为异常数据和正常数据。该方法在处理数据集时具有较好的准确性和效率,能够有效地识别出异常数据。但该方法对于非线性关系和低样本量的数据不敏感,且大规模数据集的异常数据划分效果较差。张颖等[5]将改进的蜻蜓优化算法应用于多核模糊聚类模型,通过多核学习来充分挖掘数据的多元特征,并利用模糊聚类来减少异常数据对聚类结果的影响,实现异常数据划分。但该方法无法处理大规模数据集。

为了解决上述方法中存在的问题,研究物联网环境下船舶航行大数据异常属性划分方法,通过对航行数据进行深入挖掘和分析,及时发现异常属性数据,为船舶航行安全提供科学依据。

1 基于属性加权快速聚类的大数据异常属性划分

物联网环境下,船舶航行大数据规模庞大,包含大量的历史数据和实时数据。这为异常属性的划分提供了更多的数据样本和基础,提高了异常属性划分的准确性和可靠性。物联网环境中的传感器来自不同的来源,涵盖了船舶各个系统和部位的信息。通过利用多源数据进行异常属性划分,可以更好地综合不同维度的特征和指标,提高异常属性划分的精度和全面性。

令物联网环境下船舶航行大数据集二元组是$ \left\langle {Z,X} \right\rangle $,其中船舶航行大数据记录集为$ Z = \{ {z_i}| i = 1, 2, \cdots ,n \} $;第$ i $个物联网环境下船舶航行数据对象是$ {z_i} $;物联网环境下船舶航行数据对象数量是$ n $;船舶航行大数据属性集是$ X = \{ {{x_{ij}}| {j = 1,2, \cdots ,m} } \} $$ {z_i} $的第$ j $维属性特征是$ {x_{ij}} $;船舶航行大数据属性维度是$ m $。二元组$ \left\langle {Z,X} \right\rangle $内第$ j $维属性的均值$ {h_j} $为:

$ {h_j} = \frac{{\displaystyle\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {{x_{ij}}} } }}{n}。$ (1)

二元组$ \left\langle {Z,X} \right\rangle $内第$ j $维属性的标准差$ {\sigma _j} $为:

$ {\sigma _j} = \sqrt {\frac{{\displaystyle\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {{{\left( {{x_{ij}} - {h_j}} \right)}^2}} } }}{n}} 。$ (2)

物联网环境下船舶航行大数据属性的离散度为:

$ {F_j} = \frac{{\left| {\displaystyle\frac{{{\sigma _j}}}{{{h_j}}}} \right|}}{{\displaystyle\sum\limits_{j = 1}^m {\left| {\frac{{{\sigma _j}}}{{{h_j}}}} \right|} }}。$ (3)

通过离散度$ {F_j} $对船舶航行大数据各属性特征实施加权处理。物联网环境下船舶航行大数据属性的离散度$ {F_j} $与船舶航行大数据属性值集合的分布离散程度成正比[6]

当离散度$ {F_j} = 0 $时,说明二元组$ \left\langle {Z,X} \right\rangle $内第$ j $个属性离散程度是0,即在船舶航行大数据异常属性划分时,可以不考虑该属性,可以剔除该属性,加快物联网环境下船舶航行大数据异常属性划分效率[7]

物联网环境下船舶航行大数据属性间的相似度为:

$ S_{il}^j = {F_j}\left| {{x_{ij}} - {x_{lj}}} \right|\text{。} $ (4)

式中,$S_{il}^j $为第$ i $$ l $个船舶航行大数据样本的第$ j $维属性$ {x_{ij}} $$ {x_{lj}} $的相似度。

物联网环境下船舶航行大数据样本间的相似度为:

$ A_{il}^j = \sum\limits_{j = 1}^m {\sum\limits_{i = 1}^n {\sum\limits_{l = 1}^n {S_{il}^j} } } $ (5)

其中,$ A_{il}^j $为第$ i $$ l $个船舶航行大数据样本的相似度。

基于属性加权的快速聚类算法中,中心点选择优劣,与物联网环境下船舶航行大数据异常属性划分精度密不可分。为此,利用密度选择法,选择船舶航行大数据异常属性划分时的初始聚类中心,具体步骤如下:

步骤1 初选类。通过学习方法,得到船舶航行大数据第一属性值$ {x_{i1}} $的合理半径$ {r_1} $与密度阈值(船舶航行大数据属性样本数量)$ {u_1} $,求解落在长度是$ 2{r_1} $的线段范围中的实际密度(实际船舶航行大数据属性样本数量)$ p $,如果$ p > {u_1} $,那么将这些船舶航行大数据属性样本当成一个初选类别[8],同时按照密度相连思想,将符合条件的相邻船舶航行大数据属性样本也划分至对应初选类内。

步骤2 选择初始聚类中心。求解各初选类的中心,即初始聚类中心。

利用属性加权快速聚类算法,在物联网环境下开展船舶航行大数据异常属性划分的具体步骤如下:

步骤1 利用式(3)求解船舶航行大数据集内,各维数据属性特征的$ {F_j} $值。

步骤2 通过密度选择法,确定$ K $个初始聚类中心。

步骤3 迭代划分。设船舶航行大数据样本间的相似度阈值是$ \varepsilon $;通过式(5)计算船舶航行大数据样本间的相似度$ {A_{il}} $,如果$ A_{il}^j < \varepsilon $,那么将船舶航行大数据属性$ {x^j} $归于$ {Y_b} $类;反之,以$ {x^j} $为新类$ {Y_t} $,以其各属性为该类的重心。获取初始的船舶航行大数据异常属性划分类别$ {Y^{\left( 0 \right)}} $

$ {Y^{\left( 0 \right)}} $为出发点,再次求解类的中心,以$ {Y^{\left( 0 \right)}} $的中心为新的聚类中心,获取新的聚类中心集合$ {L^{\left( 1 \right)}} $。以$ {L^{\left( 1 \right)}} $为基础,继续进行船舶航行大数据异常属性划分,获取新的船舶航行大数据属性划分类别$ {Y^{\left( 1 \right)}} $

重复上述操作,直至算法满足迭代截止条件为止,得到最终的船舶航行大数据属性划分类别。

步骤4 确定划分类别内的异常属性,完成船舶航行大数据异常属性划分。

2 实验分析

以一组物联网环境下的船舶航行大数据集为实验对象,该大数据集内涵盖了船舶在不同海域、不同时间段、不同气象条件下的航行数据,包括航行位置、速度、方向、设备状态等。该大数据集内包含数十万条航行记录,数据规模较大。该大数据集内的数据属性包含船舶位置属性、船舶动态属性、船舶航行环境属性、船舶设备状态属性等。

利用本文方法对该船舶航行大数据集进行异常属性划分,异常属性划分结果如图1所示。

图 1 船舶航行大数据异常属性划分结果 Fig. 1 Abnormal attribute division results of ship navigation big data

图1(a)可以看出,原始船舶航行大数据集内的属性分布呈现出较为杂乱的状态,各属性值之间没有明显的界限,无法清晰地区分哪些是异常属性值,哪些是正常属性值。这种混沌的状态对于后续的船舶航行大数据分析和处理造成了很大的不便。经过本文方法进行划分后(图1(b)),可以有效地划分船舶航行大数据集中的异常属性值,并且各属性之间的界限变得清晰可见。根据这些划分结果,更好地理解和利用船舶航行大数据,提升船舶航行的安全性。

利用本文方法对同一类型船舶的船舶航行数据进行异常属性划分,并以三维信息平行坐标图的形式呈现,如图2所示。

图 2 异常属性划分的三维信息平行坐标图 Fig. 2 Parallel coordinate diagram of three-dimensional information of exception attribute division

可以看出,对于同一类型的船舶航行大数据,本文方法可有效划分异常属性,其中,包含6条异常属性值,这6条属性值内船长、船宽数据均与实际船舶不符,说明该数据存在异常,若应用包含异常属性的数据,会直接影响船舶航行策略制定的可靠性,进而影响船舶航行的安全性。

分析本文方法在划分不同规模船舶航行大数据集异常属性时的加速比,加速比越大,说明异常属性划分速度越快,加速比阈值为5,分析结果如图3所示。

图 3 大数据异常属性划分的加速比分析结果 Fig. 3 Acceleration ratio analysis results of anomaly attribute partitioning of big data

可以看出,随着数据节点数量的增长,不同船舶航行大数据规模下,异常属性划分的加速比均呈上升趋势,当数据节点数量一致时,船舶航行大数据规模越大,异常属性划分的加速比越小,最终异常属性划分的最低加速比在7.5左右,明显高于加速比阈值。实验证明,在不同船舶航行大数据规模时,本文方法异常属性划分的加速比均较大,即异常属性划分速度较快。

3 结 语

在物联网环境下,为提升船舶航行的安全性,本文提出物联网环境下船舶航行大数据异常属性划分方法。该方法在处理大量数据时,通过属性加权快速聚类的方式,能够有效地划分异常属性。应用本文方法,不仅可以更加有效地处理和分析船舶航行大数据,还可以为其他类似的大数据集处理提供一种新的思路和方法。

参考文献
[1]
冯宏祥, ANNA Mujal Colilles, 杨忠振. 基于距离分布的AIS异常数据处理方法[J]. 中国航海, 2021, 44(4): 26-31.
FENG Hongxiang, ANNA Mujal Colilles, YANG Zhongzhen. Outlier processing of AIS data according to distance distribution[J]. Navigation of China, 2021, 44(4): 26-31.
[2]
吴金娥, 王若愚, 段倩倩, 等. 基于反向k近邻过滤异常的群数据异常检测[J]. 上海交通大学学报, 2021, 55(5): 598-606.
WU Jin'e, WANG Ruoyu, DUAN Qianqian, et al. Collective data anomaly detection based on reverse k-nearest neighbor filtering[J]. Journal of Shanghai Jiaotong University, 2021, 55(5): 598-606.
[3]
周万里, 王子谦, 谢婉利, 等. 基于二叉空间划分的异常数据检测算法[J]. 电子技术应用, 2021, 47(3): 40-43,50.
ZHOU Wanli, WANG Ziqian, XIE Wanli, et al. Binary space partition-based anomaly detection algorithm in wireless sensor networks[J]. Application of Electronic Technique, 2021, 47(3): 40-43,50.
[4]
谌裕勇, 陆兴华. 基于不相关性检验的大数据异常抽取算法[J]. 计算机仿真, 2021, 38(03): 245-248+460.
CHEN Yu-yong, LU Xing-hua. Big data anomaly extraction algorithm based on uncorrelation test[J]. Computer Simulation, 2021, 38(03): 245-248+460.
[5]
张颖, 彭然. 基于改进蜻蜓优化多核模糊聚类算法的异常检测[J]. 数学的实践与认识, 2021, 51(19): 208-219.
ZHANG Ying, PENG Ran. Anomaly detection based on improved dragonfly algorithm and multi-core fuzzy clustering algorithm[J]. Mathematics in Practice and Theory, 2021, 51(19): 208-219.
[6]
王晨华, 侯守璐, 刘秀磊. 边云协同计算中成本感知的物联网数据处理方法[J]. 计算机科学, 2022, 49(z2): 808-814.
WANG Chenhua, HOU Shoulu, LIU Xiulei. Cost-aware iot data processing in edge-cloud collaborative computing[J]. Computer Science, 2022, 49(z2): 808-814.
[7]
严莉, 张凯, 徐浩, 等. 基于图注意力机制和Transformer的异常检测[J]. 电子学报, 2022, 50(4): 900-908.
YAN Li, ZHANG Kai, XU Hao, et al. Abnormal detection based on graph attention mechanisms and transformer[J]. Acta Electronica Sinica, 2022, 50(4): 900-908.
[8]
孙菲, 厉小润, 赵辽英, 等. 基于FrFT变换和全变分正则化的异常检测算法[J]. 浙江大学学报(工学版), 2022, 56(7): 1276-1284.
SUN Fei, LI Xiaorun, ZHAO Liaoying, et al. Anomaly detection algorithm based on FrFT transform and total variation regularization[J]. Journal of Zhejiang University(Engineering Science), 2022, 56(7): 1276-1284.