舰船科学技术  2022, Vol. 44 Issue (3): 143-146    DOI: 10.3404/j.issn.1672-7649.2022.03.028   PDF    
港口水域船舶异常能耗云数据挖掘
李莹1,2     
1. 江苏大学,江苏 南通 226007;
2. 南通科技职业学院,江苏 南通 226007
摘要: 以港口水域船舶的节能减排为目标,研究港口水域船舶异常能耗云数据挖掘方法。采集港口水域船舶的AIS云数据,删除与船舶能耗无关以及异常数据,利用K-means聚类算法对船舶能耗相关船舶主机转速以及船舶主机功率等数据进行聚类,输出船舶不同运行工况的能耗。利用贝叶斯分类器依据聚类结果识别港口水域船舶能耗云数据是否为异常数据,完成港口水域船舶异常能耗云数据挖掘。实验结果表明,该方法的船舶异常能耗数据挖掘精度高,为船舶的节能减排提供依据。
关键词: 港口水域船舶     异常能耗     云数据挖掘     聚类算法     贝叶斯分类器    
Cloud data mining of abnormal energy consumption of ships in port waters
LI Ying1,2     
1. Jiangsu University, Nantong 226007, China;
2. Nantong College of Science and Technology, Nantong 226007, China
Abstract: Aiming at the energy conservation and emission reduction of ships in port waters, the cloud data mining method of abnormal energy consumption of ships in port waters is studied. Collect AIS cloud data of ships in port waters, delete irrelevant and abnormal data related to ship energy consumption, use K-means clustering algorithm to cluster the data related to ship energy consumption, such as ship main engine speed and ship main engine power, output the energy consumption of ships under different operating conditions, and use Bayesian classifier to identify whether the ship energy consumption cloud data in port waters is abnormal data according to the clustering results. Complete cloud data mining of abnormal energy consumption of ships in port waters. The experimental results show that the data mining accuracy of ship abnormal energy consumption is high, which provides a basis for ship energy conservation and emission reduction.
Key words: ships in port waters     abnormal energy consumption     cloud data mining     clustering algorithm     bayesian classifier    
0 引 言

船舶是重要的海上交通工具,港口水域船舶通常通过设置船舶传感器采集船舶航行过程中的航行姿态、航行环境等众多运行参数。船舶航行过程中的能耗数据是分析船舶异常行为的重要依据,船舶能耗数据受到众多因素影响,具有较高综合性,可体现船舶行驶行为[1-2]。船舶能耗数据不仅可以分析船舶运行过程中的能效,对于船舶是否处于异常航行状态同样具有重要体现。船舶能耗数据具有数据量大以及数据维度高等多维特征,通过高效的云数据挖掘方法实现船舶能效数据的有效挖掘,明确船舶能耗数据中包含的隐藏规律,挖掘港口水域船舶能耗数据中的异常,是船舶领域的重要研究课题[3-5]

目前针对船舶能耗的研究较多,孙潇潇等[6]针对船舶主机能耗的分布情况进行研究,确定了船舶正常运行时的能耗区间;高梓博等[7]将数据聚类算法应用于船舶能效数据中,实现船舶能效数据的有效聚类。以上2种方法均可实现船舶能耗的深入研究,但无法克服由于船舶能耗数据量过大导致影响数据处理效率的缺陷。

港口水域船舶异常能耗云数据挖掘是海上智能监控的重要部分,通过异常能耗云数据挖掘结果分析船舶运行状态,保障船舶在港口水域安全运行。船舶自动识别系统(automatic identification system, AIS)中的数据是内河航运的重要数据。AIS云数据中包含海量的水上交通基础数据,呈现典型的大数据特征[5],AIS云数据是船舶云数据的重要体现。从AIS云数据中挖掘港口水域船舶异常能耗云数据,利用AIS云数据的应用价值,为船舶可靠运行以及节能减排研究奠定理论基础。为此研究港口水域船舶异常能耗云数据挖掘方法,利用所采集的船舶AIS云数据挖掘港口水域船舶异常能耗云数据,通过实验验证该方法具有较高的挖掘性能,可以为船舶节能减排提供理论依据。

1 港口水域船舶异常能耗云数据挖掘方法

港口水域船舶异常能耗云数据挖掘的整体流程如图1所示。挖掘港口水域船舶异常能耗云数据时,首先需要采集港口水域船舶的AIS云数据。完成AIS云数据采集后,预处理所采集的港口水域船舶AIS云数据,将与船舶能耗无关的云数据删除。将完成预处理的船舶能耗相关的船舶主机转速以及主机功率等数据利用优化的K-means聚类算法实施聚类,依据聚类获取的工况结果训练贝叶斯分类器,将测试样本输入完成训练的贝叶斯分类器中,利用贝叶斯分类器输出港口水域船舶异常能耗云数据,完成港口水域船舶异常能耗云数据挖掘。

图 1 港口水域船舶异常能耗云数据挖掘流程图 Fig. 1 Cloud data mining flow chart of abnormal energy consumption of ships in port waters
1.1 基于AIS的港口水域船舶能耗数据采集

挖掘港口水域船舶能耗云数据时,首先需明确港口水域船舶能耗数据挖掘的目标。船舶能效营运指数(EEOI)是船舶能耗排放相关的重要指标。港口水域船舶航行时,利用排放的二氧化碳量获取船舶能效营运指数。港口水域船舶一次航行过程中,船舶能效营运指数表达式如下:

$ EEOI{\text{ = }}\left( {\sum\limits_i {{A_i} \times {B_{{F_i}}}} } \right)\Biggr/T \times L 。$ (1)

式中: $ i $ $ T $ 分别表示船舶燃油类型以及船舶载货总吨数;Ai $ L $ 分别表示燃油消耗量以及船舶运输货物时的航行距离; $ {B_{{F_i}}} $ 表示船舶航行燃油量,由船舶主机转速和功率获取。

港口水域船舶的燃油舱燃油消耗量与船舶二氧化碳排放量存在极高的相关性,利用船舶能效营运指数明确挖掘港口水域船舶能耗云数据所需的有效信息。对于港口水域船舶的完整航次,不考虑燃油消耗对船舶吨数的影响,设燃油类型与船舶吨数为固定状态[8],利用系数 $ k $ 转换船舶能效营运指数。通过船舶燃油与二氧化碳的转换系数与船舶货物吨数指标表示船舶能耗系数,其表达式如下:

$ k = {B_{{F_i}}}/T 。$ (2)

船舶航行过程中的能耗数据即船舶能效营运指数与能耗系数之比。船舶行驶过程中的船舶能效营运指数是船舶航行排放的二氧化碳与船舶客货周转量之比。船舶能效营运指数越高时,该港口水域船舶能耗越高[9]。挖掘港口水域船舶能耗云数据时,需从AIS的海量能效云数据中,挖掘船舶行驶时的最优海里油耗,获取港口水域船舶能耗水平。

确定港口水域船舶能耗挖掘的相关数据后,开始采集船舶AIS云数据。采集船舶AIS云数据时,需要从AIS数据接收服务器中获取所需的AIS信息报文文件,通过对所获取的AIS信息报文解码,实现数据解码以及港口水域船舶能耗数据入库。通过预处理数据库中的数据,将无效数据删除[10],避免由于存在过多冗余数据影响港口水域船舶能耗云数据挖掘的挖掘性能,令所获取的船舶AIS云数据为有效数据。

1.2 港口水域船舶能耗云数据聚类挖掘

选取优化的K-means算法作为港口水域船舶异常数据挖掘的聚类算法。聚类算法是数据挖掘算法中的重要算法,通过聚类算法对数据分析后获取不同类型的簇,通过所划分的簇明确港口水域船舶能耗数据的分布规律。

K-means聚类算法属于局域原型目标函数聚类算法。需从采集以及完成预处理的港口水域船舶能耗AIS云数据中随机选取数量为 $ k $ 的对象,将所选取的对象设置为初始簇中心,将剩余数据划分至与簇中心距离最短的簇内,依据元素距离分配剩余数据,完成划分后重新计算簇中心。重复以上划分过程直至所划分的各簇中心不再改变或者满足最大迭代次数。选取全局误差函数作为聚类准则函数,全局误差函数计算式如下:

$ E = \sum\limits_{i = 1}^k {\sum\limits_{{x_j} \in {Q_i}} {{{\left( {{x_j} - {u_i}} \right)}^2}} }。$ (3)

式中: $ k $ Qi分别表示聚类中心以及所划分的簇;xjui分别表示聚类所划分的簇Qi中随机元素以及簇中的重心。

K-means聚类算法具有易于计算以及可伸缩性高的特点,但存在容易陷入局部最优的缺陷。对K-means聚类算法实施优化,提升港口水域船舶能耗云数据的挖掘性能。合理选取初始聚类中心,将提升港口水域船舶能耗云数据挖掘的聚类效果。

采用优化的K-means聚类算法挖掘港口水域船舶能耗数据步骤如下:

1)采用改进的K-means聚类算法依据所设定的聚类中心最大原则以及区块化原则选取数量为 $ k $ 个聚类中心,为选取聚类中心设定向量值。

2)将待聚类的港口水域船舶能耗云数据的模式样本依据最小邻近度的准则划分至不同聚类中心;

3)计算完成划分后聚类中心的新向量值,计算不同聚类簇中样本均值向量表达式如下:

$ R_j^{k + 1} = \frac{1}{{{N_j}}}\sum\limits_{X \in Q_j^K} X。$ (4)

式中: $ Q_j^K $ $ R_j^{k + 1} $ 分别表示聚类类别以及聚类中心; $ X $ Nj分别表示待聚类样本以及聚类所划分的簇中的聚类簇 $ Q_j^K $ 内包含的样本数量。

将利用式(4)获取的均值向量设置为新的划分类别的聚类中心,建立优化的K-means聚类算法的聚类准则函数最小的表达式如下:

$ O = \sum\limits_{j = 1}^K {\sum\limits_{X \in Q_j^K} {{{\left\| {X - R_j^{k + 1}} \right\|}^2}} }。$ (5)

利用式(5)获取的聚类结果即最终港口水域船舶能耗云数据聚类结果,依据聚类结果利用贝叶斯分类器挖掘港口水域船舶异常能耗云数据。

1.3 贝叶斯分类器的港口水域船舶异常能耗识别

将获取的不同类别能耗云数据聚类数据作为分类器的输入,建立分类器,实现港口水域船舶异常能耗的有效分类。 $ D = \left\{ {{A_1},{A_2}, \cdots ,{A_n},G} \right\} $ 表示训练集, $ A $ $ G $ 分别表示属性变量以及类变量;用 $ X = \left\{ {{a_1},{a_2}, \cdots ,{a_n}} \right\} $ 表示测试数据集。依据港口水域船舶能耗云数据的先验概率通过贝叶斯公式获取该元素的后验概率,利用后验概率判定元素所属类别,最大后验概率的类别即该元素所属类别。不同港口水域船舶能耗云数据所属类别表达式如下:

$ G = \mathop {\arg \max }\limits_{{g_j},j \in \left[ {1,m} \right]} P\left( {{g_j}\left| X \right.} \right),$ (6)

式中,P(gj|X)为最大后验概率。

利用贝叶斯定理展开式(6),转化为:

$ \mathop {\arg \max }\limits_{{g_j},j \in \left[ {1,m} \right]} P\left( {{g_j}\left| X \right.} \right) = \mathop {\arg \max }\limits_{{c_j},j \in \left[ {1,m} \right]} \frac{{P\left( {X\left| {{g_j}} \right.} \right)P\left( {{g_j}} \right)}}{{P\left( X \right)}}。$ (7)

式中,P(gj)与P(X|gj)分别表示先验概率以及类条件概率。通过先验概率以及条件概率分别体现类别 $ j $ 出现在训练集中的概率以及针对类别 $ j $ ,待挖掘的港口水域船舶能耗云数据分布的概率密度函数。

针对待挖掘的港口水域船舶能耗数据,其概率值P(X)为固定,通过获取先验概率与类条件概率密度乘积的最大值即可获取测试样本的最大后验概率值,可将待挖掘的港口水域船舶能耗数据的测试样本划分至可获取最大后验概率P(gj|X)的类别 $ G $ 中。

依据优化的K-means聚类算法获取的数据聚类结果,通过贝叶斯分类器对港口水域船舶能耗数据进行划分。

将待挖掘数据输入完成训练的贝叶斯分类器中,计算该数据样本属于不同类别的概率大小,依据概率值计算结果,将待挖掘的数据划分至具有最大概率类别中,判定港口水域船舶能耗云数据为正常数据以及异常数据。

2 实例分析

为验证本文方法对于港口水域船舶异常能耗数据的挖掘有效性,将该方法应用于某港口数据管理系统中,通过该方法获取能耗异常的船舶,保障船舶安全可靠运行。

采用本文方法采集该港口水域于2019年11月13日至2019年11月20日船舶停留数据,所采集的AIS云数据结果如图2所示。本文方法可以有效采集挖掘港口水域船舶异常能耗的云数据,依据AIS云数据为港口水域船舶异常能耗云数据挖掘提供数据基础。

图 2 采集的AIS云数据统计结果 Fig. 2 Statistical results of AIS cloud data collected

船舶运行时,主机转速通常为45~75 r/min区间,采集2019年11月13日停留于该港口水域的正常船舶主机转速区间的船舶AIS云数据,将所采集的数据作为云数据挖掘基础。采用本文方法预处理所采集的船舶AIS云数据,通过本文方法对所采集的船舶AIS云数据对数据进行预处理,获取船舶主机转速结果如图3所示。

图 3 满载船舶主机转速结果 Fig. 3 Speed results of main engine of fully loaded ship

完成云数据预处理后,获取船舶主机功率统计结果如图4所示。通过分析图3图4船舶AIS云数据,可知船舶主要集中在4种不同工况下运行。不同工况下港口水域船舶异常能耗云数据挖掘属于多概率混合分布状态,本文方法采用优化的K-means聚类算法对船舶AIS云数据进行聚类,可以获取良好的聚类结果。

图 4 满载船舶主机功率结果 Fig. 4 Main engine power results of full load ship

采用本文方法通过聚类获取不同工况下船舶能耗聚类结果如表1所示。利用海里油耗量体现港口水域船舶能耗,通过表1能耗聚类结果可以看出,本文方法可以依据船舶运行的不同工况,有效聚类不同工况下船舶相应功率和能耗。通过聚类结果的海里油耗量可以判断船舶能耗是否为异常状态。

表 1 船舶能耗聚类结果 Tab.1 clustering results of ship energy consumption

统计工况1情况下,不同海里油耗量的占比情况,统计结果如图5所示。依据港口水域船舶行驶情况可知,油耗量为0.13~0.27 t/n mile区间时,港口水域船舶为正常能耗数据;船舶海里油耗量不处于该区间时的数据为港口水域船舶的异常能耗数据。依据图5可知,采用本文方法可以有效利用AIS云数据实现港口水域船舶异常能耗云数据的有效挖掘,验证本文方法挖掘港口水域船舶异常能耗云数据有效性。

图 5 工况1海里油耗量占比 Fig. 5 Proportion of fuel consumption in sea mile under working condition one
3 结 语

具有数据量大、数据维度多的AIS数据中包含可体现船舶能耗特点的重要数据,采用数据聚类算法挖掘船舶能耗云数据,利用贝叶斯分类算法识别所挖掘的船舶能耗云数据中的异常数据,通过识别结果明确船舶异常能耗,保障港口水域船舶安全航行。

参考文献
[1]
曹伟, 刘亚帅, 管志强. 采用编码降维及DTW算法改进的船舶航迹聚类[J]. 现代防御技术, 2019, 47(5): 151-156.
[2]
贺亚鹏, 严新平, 范爱龙, 等. 船舶智能能效管理技术发展现状及展望[J]. 哈尔滨工程大学学报, 2021, 42(3): 317-324.
[3]
徐晓霞, 姜春茂, 黄春梅. 一种基于三支决策的移动云任务节能卸载方法[J]. 南京理工大学学报, 2019, 43(4): 447-454.
[4]
荀径, 赵娇, 孙玉霖, 等. 基于数据挖掘的城轨系统电能消耗模式分析[J]. 北京交通大学学报, 2020, 44(5): 8-16. DOI:10.11860/j.issn.1673-0291.20190083
[5]
李博文, 邓健, 王丽铮, 等. 长江船舶污染能耗水平评价体系构建[J]. 船海工程, 2020, 49(3): 87-91+96. DOI:10.3963/j.issn.1671-7953.2020.03.019
[6]
孙潇潇, 乔继潘, 李荣宗, 等. 船舶主机能耗分布及辅助计算系统开发[J]. 中国造船, 2020, 61(1): 150-156. DOI:10.3969/j.issn.1000-4882.2020.01.015
[7]
高梓博, 杜太利, 张勇, 等. 聚类算法在船舶能效数据挖掘中的应用[J]. 武汉理工大学学报(交通科学与工程版), 2019, 43(2): 286-290. DOI:10.3963/j.issn.2095-3844.2019.02.021
[8]
杨帆, 何正伟, 何帆. 基于LSTM神经网络的船舶异常行为检测方法[J]. 武汉理工大学学报(交通科学与工程版), 2019, 43(05): 886-892. DOI:10.3963/j.issn.2095-3844.2019.05.018
[9]
雷进宇, 初秀民, 蒋仲廉, 等. 内河船舶自动识别系统异常数据的可视分析[J]. 哈尔滨工程大学学报, 2020, 41(6): 840-845.
[10]
罗启崟, 龙静, 陈焕新, 等. 基于数据挖掘算法的地铁站能耗时序预测方法[J]. 城市轨道交通研究, 2020, 23(6): 23-27.