智能化、网络化、信息化已成为现代船舶的重要特征[1]。在物联网环境下,船舶航行过程中会产生大量的数据,包括航行的位置、速度、方向、设备状态等[2]。这些数据不仅有助于了解船舶航行的实时状况,还可以通过分析异常数据来预测和预防潜在的安全隐患[3]。因此,将物联网环境下船舶航行大数据的异常属性进行划分,对于提高船舶安全系数具有重要意义。
谌裕勇等[4]对数据集进行初步筛选,利用不相关性检验对剩余数据进行变量选择,将与正常数据不相关的变量视为潜在异常变量。最后,根据异常变量的数量和程度,将数据划分为异常数据和正常数据。该方法在处理数据集时具有较好的准确性和效率,能够有效地识别出异常数据。但该方法对于非线性关系和低样本量的数据不敏感,且大规模数据集的异常数据划分效果较差。张颖等[5]将改进的蜻蜓优化算法应用于多核模糊聚类模型,通过多核学习来充分挖掘数据的多元特征,并利用模糊聚类来减少异常数据对聚类结果的影响,实现异常数据划分。但该方法无法处理大规模数据集。
为了解决上述方法中存在的问题,研究物联网环境下船舶航行大数据异常属性划分方法,通过对航行数据进行深入挖掘和分析,及时发现异常属性数据,为船舶航行安全提供科学依据。
1 基于属性加权快速聚类的大数据异常属性划分物联网环境下,船舶航行大数据规模庞大,包含大量的历史数据和实时数据。这为异常属性的划分提供了更多的数据样本和基础,提高了异常属性划分的准确性和可靠性。物联网环境中的传感器来自不同的来源,涵盖了船舶各个系统和部位的信息。通过利用多源数据进行异常属性划分,可以更好地综合不同维度的特征和指标,提高异常属性划分的精度和全面性。
令物联网环境下船舶航行大数据集二元组是
$ {h_j} = \frac{{\displaystyle\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {{x_{ij}}} } }}{n}。$ | (1) |
二元组
$ {\sigma _j} = \sqrt {\frac{{\displaystyle\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^m {{{\left( {{x_{ij}} - {h_j}} \right)}^2}} } }}{n}} 。$ | (2) |
物联网环境下船舶航行大数据属性的离散度为:
$ {F_j} = \frac{{\left| {\displaystyle\frac{{{\sigma _j}}}{{{h_j}}}} \right|}}{{\displaystyle\sum\limits_{j = 1}^m {\left| {\frac{{{\sigma _j}}}{{{h_j}}}} \right|} }}。$ | (3) |
通过离散度
当离散度
物联网环境下船舶航行大数据属性间的相似度为:
$ S_{il}^j = {F_j}\left| {{x_{ij}} - {x_{lj}}} \right|\text{。} $ | (4) |
式中,
物联网环境下船舶航行大数据样本间的相似度为:
$ A_{il}^j = \sum\limits_{j = 1}^m {\sum\limits_{i = 1}^n {\sum\limits_{l = 1}^n {S_{il}^j} } } $ | (5) |
其中,
基于属性加权的快速聚类算法中,中心点选择优劣,与物联网环境下船舶航行大数据异常属性划分精度密不可分。为此,利用密度选择法,选择船舶航行大数据异常属性划分时的初始聚类中心,具体步骤如下:
步骤1 初选类。通过学习方法,得到船舶航行大数据第一属性值
步骤2 选择初始聚类中心。求解各初选类的中心,即初始聚类中心。
利用属性加权快速聚类算法,在物联网环境下开展船舶航行大数据异常属性划分的具体步骤如下:
步骤1 利用式(3)求解船舶航行大数据集内,各维数据属性特征的
步骤2 通过密度选择法,确定
步骤3 迭代划分。设船舶航行大数据样本间的相似度阈值是
以
重复上述操作,直至算法满足迭代截止条件为止,得到最终的船舶航行大数据属性划分类别。
步骤4 确定划分类别内的异常属性,完成船舶航行大数据异常属性划分。
2 实验分析以一组物联网环境下的船舶航行大数据集为实验对象,该大数据集内涵盖了船舶在不同海域、不同时间段、不同气象条件下的航行数据,包括航行位置、速度、方向、设备状态等。该大数据集内包含数十万条航行记录,数据规模较大。该大数据集内的数据属性包含船舶位置属性、船舶动态属性、船舶航行环境属性、船舶设备状态属性等。
利用本文方法对该船舶航行大数据集进行异常属性划分,异常属性划分结果如图1所示。
由图1(a)可以看出,原始船舶航行大数据集内的属性分布呈现出较为杂乱的状态,各属性值之间没有明显的界限,无法清晰地区分哪些是异常属性值,哪些是正常属性值。这种混沌的状态对于后续的船舶航行大数据分析和处理造成了很大的不便。经过本文方法进行划分后(图1(b)),可以有效地划分船舶航行大数据集中的异常属性值,并且各属性之间的界限变得清晰可见。根据这些划分结果,更好地理解和利用船舶航行大数据,提升船舶航行的安全性。
利用本文方法对同一类型船舶的船舶航行数据进行异常属性划分,并以三维信息平行坐标图的形式呈现,如图2所示。
可以看出,对于同一类型的船舶航行大数据,本文方法可有效划分异常属性,其中,包含6条异常属性值,这6条属性值内船长、船宽数据均与实际船舶不符,说明该数据存在异常,若应用包含异常属性的数据,会直接影响船舶航行策略制定的可靠性,进而影响船舶航行的安全性。
分析本文方法在划分不同规模船舶航行大数据集异常属性时的加速比,加速比越大,说明异常属性划分速度越快,加速比阈值为5,分析结果如图3所示。
可以看出,随着数据节点数量的增长,不同船舶航行大数据规模下,异常属性划分的加速比均呈上升趋势,当数据节点数量一致时,船舶航行大数据规模越大,异常属性划分的加速比越小,最终异常属性划分的最低加速比在7.5左右,明显高于加速比阈值。实验证明,在不同船舶航行大数据规模时,本文方法异常属性划分的加速比均较大,即异常属性划分速度较快。
3 结 语在物联网环境下,为提升船舶航行的安全性,本文提出物联网环境下船舶航行大数据异常属性划分方法。该方法在处理大量数据时,通过属性加权快速聚类的方式,能够有效地划分异常属性。应用本文方法,不仅可以更加有效地处理和分析船舶航行大数据,还可以为其他类似的大数据集处理提供一种新的思路和方法。
[1] |
冯宏祥, ANNA Mujal Colilles, 杨忠振. 基于距离分布的AIS异常数据处理方法[J]. 中国航海, 2021, 44(4): 26-31. FENG Hongxiang, ANNA Mujal Colilles, YANG Zhongzhen. Outlier processing of AIS data according to distance distribution[J]. Navigation of China, 2021, 44(4): 26-31. |
[2] |
吴金娥, 王若愚, 段倩倩, 等. 基于反向k近邻过滤异常的群数据异常检测[J]. 上海交通大学学报, 2021, 55(5): 598-606. WU Jin'e, WANG Ruoyu, DUAN Qianqian, et al. Collective data anomaly detection based on reverse k-nearest neighbor filtering[J]. Journal of Shanghai Jiaotong University, 2021, 55(5): 598-606. |
[3] |
周万里, 王子谦, 谢婉利, 等. 基于二叉空间划分的异常数据检测算法[J]. 电子技术应用, 2021, 47(3): 40-43,50. ZHOU Wanli, WANG Ziqian, XIE Wanli, et al. Binary space partition-based anomaly detection algorithm in wireless sensor networks[J]. Application of Electronic Technique, 2021, 47(3): 40-43,50. |
[4] |
谌裕勇, 陆兴华. 基于不相关性检验的大数据异常抽取算法[J]. 计算机仿真, 2021, 38(03): 245-248+460. CHEN Yu-yong, LU Xing-hua. Big data anomaly extraction algorithm based on uncorrelation test[J]. Computer Simulation, 2021, 38(03): 245-248+460. |
[5] |
张颖, 彭然. 基于改进蜻蜓优化多核模糊聚类算法的异常检测[J]. 数学的实践与认识, 2021, 51(19): 208-219. ZHANG Ying, PENG Ran. Anomaly detection based on improved dragonfly algorithm and multi-core fuzzy clustering algorithm[J]. Mathematics in Practice and Theory, 2021, 51(19): 208-219. |
[6] |
王晨华, 侯守璐, 刘秀磊. 边云协同计算中成本感知的物联网数据处理方法[J]. 计算机科学, 2022, 49(z2): 808-814. WANG Chenhua, HOU Shoulu, LIU Xiulei. Cost-aware iot data processing in edge-cloud collaborative computing[J]. Computer Science, 2022, 49(z2): 808-814. |
[7] |
严莉, 张凯, 徐浩, 等. 基于图注意力机制和Transformer的异常检测[J]. 电子学报, 2022, 50(4): 900-908. YAN Li, ZHANG Kai, XU Hao, et al. Abnormal detection based on graph attention mechanisms and transformer[J]. Acta Electronica Sinica, 2022, 50(4): 900-908. |
[8] |
孙菲, 厉小润, 赵辽英, 等. 基于FrFT变换和全变分正则化的异常检测算法[J]. 浙江大学学报(工学版), 2022, 56(7): 1276-1284. SUN Fei, LI Xiaorun, ZHAO Liaoying, et al. Anomaly detection algorithm based on FrFT transform and total variation regularization[J]. Journal of Zhejiang University(Engineering Science), 2022, 56(7): 1276-1284. |