复杂环境中高可用船舶AIS大数据信息处理方法

引用本文

周雪芳, 刘树龙, 周海龙. 复杂环境中高可用船舶AIS大数据信息处理方法. 舰船科学技术, 2001, 44(6): 137-140 复制到剪切板

ZHOU Xue-fang, LIU Shu-long, ZHOU Hai-long. High-availability ship AIS big data information processing method in complex environment. Ship Science and Technology, 2001, 44(6): 137-140 复制到剪切板

复杂环境中高可用船舶AIS大数据信息处理方法

周雪芳¹, 刘树龙¹, 周海龙²

1. 青岛黄海学院，山东青岛 266500;
2. 青岛北海船舶重工有限公司，山东青岛 266520

收稿日期: 2021-11-18.

基金项目: 青岛市源头创新计划应用基础研究项目（18-2-2-41-jch）

作者简介: 周雪芳(1985 − )，女，硕士，副教授，研究方向为大数据信息处理及过程挖掘

摘要: 提升复杂通航环境下船舶航行安全性，提出复杂环境中高可用船舶AIS大数据信息处理方法。选取分布式架构作为船舶AIS大数据的信息处理架构，采集船舶AIS数据，对数据实施报文解析处理，利用云计算节点将完成AIS大数据传送至Oracle数据库。Oracle数据库采用同步复制技术，利用Markov链建立可用性评估模型，依据可用性评估结果确定分布式数据库的最佳接管方案，提升AIS大数据的可用性。选取Dbscan算法完成数据聚类，数据聚类结果为舰船目标识别等应用提供数据基础。实验结果表明，该方法可以有效处理船舶AIS大数据，数据聚类的类内相似度高于0.93，信息处理可用性高。

关键词: 复杂环境船舶 AIS大数据 Dbscan算法

High-availability ship AIS big data information processing method in complex environment

ZHOU Xue-fang¹, LIU Shu-long¹, ZHOU Hai-long²

1. Qingdao Huanghai University, Qingdao 266500, China;
2. Qingdao Beihai Shipbuilding Industry Co., Ltd., Qingdao 266520, China

Abstract: To improve the navigation safety of ships in complex navigation environment, a high availability ship AIS big data information processing method in complex environment is proposed. Select the distributed architecture as the information processing architecture of ship AIS big data, collect ship AIS data, analyze and process the data, and use the cloud computing node to transmit the completed AIS big data to the Oracle database. The Oracle database adopts synchronous replication technology and uses Markov chain to establish the availability evaluation model. According to the availability evaluation results, determine the best takeover scheme of distributed database, improve the availability of AIS big data, select Dbscan algorithm to complete data clustering, and the data clustering results provide data basis for ship target recognition and other applications. Experimental results show that this method can effectively deal with ship AIS big data, the intra class similarity of data clustering is higher than 0.93, and the availability of information processing is high.

Key words: complex environment ships AIS big data Dbscan algorithm

0 引　言

船舶自动识别系统(automatic identification system, AIS)是保障船舶航行安全的重要设施。AIS系统将船舶定位信息与船舶属性信息结合后发送至船舶以及海上交通管理部门，接收信息的船舶以及海上交通管理部门明确船舶的具体位置与航行信息^[1]，保障船舶安全航行，提升船舶监管安全性，保护船舶行驶区域水域环境。船舶AIS大数据指利用船舶AIS设备发送的信息，船舶AIS大数据具有数据量大以及信息频率高的特点^[2]，船舶AIS设备在固定时间内，将静态数据以及航行数据发送至AIS系统中，船舶AIS设备需要依据船舶的航行速度，在固定时间内发送船舶本身的位置数据^[3]。

近年来针对AIS数据的研究较多，李洋等^[4]利用AIS数据快速定位船舶；陈伟杰等^[5]利用AIS数据计算港口服务效率，以上2种方法均实现了AIS数据的有效应用。研究复杂环境中高可用船舶AIS大数据信息处理方法，利用船舶AIS大数据的信息处理方法，提升AIS大数据可用性，提升复杂环境中AIS大数据的应用性能。

1 复杂环境中高可用船舶AIS大数据信息处理方法 1.1 船舶AIS大数据信息处理架构

船舶AIS大数据具有信息量大以及信息维度高的特点，通过信息处理方法可以实现大规模数据的有效处理。船舶AIS大数据信息处理主要包括数据采集、数据预处理、报文解析处理、船舶AIS大数据运算等部分。通过完成信息处理的船舶AIS大数据为海上交通管理部门的统计决策以及安全监管提供依据。复杂环境中船舶AIS大数据的信息处理架构如图1所示。

图 1 船舶AIS大数据信息处理架构 Fig. 1 Ship AIS big data information processing architecture

选取分布式架构作为船舶AIS大数据信息处理的应用架构，通过该架构为海上交通管理部门提供安全监管和统计决策的数据基础。采集报文形式的船舶AIS数据，对接收的船舶AIS报文数据实施报文解析处理，利用云计算节点将完成报文解析处理的AIS大数据传送至Oracle数据库。Oracle数据库采用分布式数据库技术处理后，选取Dbscan算法对完成解析后获取的数据进行聚类，利用聚类结果为船舶轨迹重建、船舶目标识别等算法提供数据基础。

1.2 分布式船舶AIS数据库技术

分布式数据库采用同步复制技术，可将AIS大数据随机时间在随机节点复制，更新后的数据将在AIS数据不同事务间传播以及应用至其他节点，通过AIS的系统配置决定事务间隔。AIS系统运行时，可以依据系统负载情况，选取同步复制方式以及异步复制方式实现AIS大数据内数据的有效切换。Oracle分布式数据库中设置高级复制功能，可以支持“失效接管”运行方式，利用分布式数据库将AIS大数据从主数据库复制至从数据库。主数据库存在故障时，通过完成复制的从数据库数据副本接收AIS大数据的各项任务。Oracle分布式数据库利用配置备用数据库和Oracle并行服务器，解决AIS系统的失效接管问题。AIS大数据实际应用过程中，用户可以依据AIS系统中大数据可用性等指标选取最佳接管方案。利用Markov链针对Oracle分布式数据库具备的高级复制功能，建立可用性评估模型。利用Markov稳态概率的计算获取AIS大数据可用性表达式如下：

$ M = \frac{{{\lambda ^2}}}{{2\mu }}。$

(1)

式中： $ \lambda $ 与 $ \mu $ 分别表示复杂环境中节点平均故障间隔时间以及节点平均故障恢复时间； $ M $ 为复杂环境中AIS系统运行的平均数据丢失时间。通过可用性评价指标，确定最佳分布式数据库的接管方案，提升将同步复制技术应用于AIS大数据中的可用性以及可靠性。

1.3 船舶AIS大数据聚类算法

选取Dbscan算法作为复杂环境中高可用船舶AIS大数据信息处理中的信息聚类算法，该算法具有较高的抗噪声干扰性能，适用于复杂环境中的船舶AIS大数据的信息处理，提升船舶AIS大数据可用性。可以有效过滤船舶AIS大数据在复杂环境中的噪声，具有发现随机形状类簇的功能。Dbscan算法聚类时，将船舶AIS大数据划分为不同的簇。利用欧式距离作为Dbscan算法聚类的距离衡量指标，欧氏距离计算表达式如下：

$ d\left( {p,q} \right) = \sqrt {{{\left| {{p_1} - {q_1}} \right|}^2} + \cdots + {{\left| {{p_m} - {q_m}} \right|}^2}}，$

(2)

式中， $ p $ 与 $ q $ 分别表示待聚类的船舶AIS大数据中的元素。

采用Dbscan算法聚类时，针对存在于船舶AIS大数据空间内的数据 $ p $ ，将该数据设置为圆心，半径为 $ \sigma $ 的圆形区域内数据集合设置为该数据的 $ \sigma $ 邻域。数据 $ p $ 的 $ \sigma $ 邻域表达式如下：

$ {N_\varepsilon }\left( p \right) = \left\{ {q\left| {q \in D \wedge d\left( {p,q} \right) \leqslant \sigma } \right.} \right\}，$

(3)

式中， $ D $ 与 $ d\left( {p,q} \right) $ 分别表示船舶AIS数据集合以及数据 $ p $ 与 $ q $ 的欧式距离。

船舶AIS系统中包含的大数据量纲并不相同，需要对完成解析后获取的数据进行归一化处理，选取离差标准化方法归一化处理船舶AIS系统中的大数据，离差标准化方法归一化处理数据的表达式如下：

$ x' = \frac{{x - {x_{\min }}}}{{{x_{\max }} - {x_{\min }}}}。$

(4)

式中， $ {x_{\max }} $ 与 $ {x_{\min }} $ 分别表示船舶AIS大数据中变量最大值以及变量最小值。

计算不同数据间的欧式距离，排序不同节点数据的欧式距离值，输出排序后 $ n $ 个节点的k距离。用 $ D = \left\{ {d\left( 1 \right),d\left( 2 \right), \cdots ,d\left( {k - 1} \right),d\left( k \right), \cdots ,d\left( n \right)} \right\} $ 表示完成排序后数据距离集合，其中 $ d\left( k \right) $ 即k距离。可知k距离是除了点 $ p\left( i \right) $ 外，与该点距离第k近的距离。计算集合 $ P $ 内各点的k距离。获取全部点k距离集合 $ B = $ $ \left\{ {b\left( 1 \right),b\left( 2 \right), \cdots ,b\left( n \right)} \right\} $ 。对集合 $ B $ 内数据实施升序排序后获取k距离集合 $ B' $ ，拟合 $ B' $ 获取k距离变化曲线，曲线拐点即Dbscan聚类算法的邻域取值范围。利用邻域取值范围获取类簇中核心对象数量。聚类簇核心数量固定时，放大邻域将降低聚类的类簇数量。邻域大小固定时，聚类簇核心数量有所提升，将增加聚类获取的类簇数量。遍历确定的核心点，判断核心点间距是否小于邻域半径。小于邻域半径时，表示密度可达，密度可达的核心点与边界点建立类簇，完成船舶AIS大数据的聚类分析。

设复杂环境中船舶AIS系统包含的多维数据集合用 $ \left\{ {{x_1},{x_2}, \cdots ,{x_n}} \right\} $ 表示，该多维数据集合即复杂环境中船舶AIS系统的输入数据流，集合内数据均为维度为 $ D $ 的多维向量。船舶AIS系统数据流中，各AIS报文中包含固定时间内，船舶航行的固定信息与动态信息。复杂环境中船舶AIS系统大数据聚类流程如下：

1）清洗历史数据。将船舶AIS系统的历史数据作为训练数据，通过人工筛选方法清洗船舶AIS系统历史数据，通过历史数据清洗删除船舶AIS系统中的异常数据与错误数据；

2）归一化处理。对完成清洗的船舶AIS系统的大数据通过归一化算法进行归一化处理；

3）数据聚类。采用分布式Dbscan算法对完成清洗的船舶AIS大数据进行聚类，标记完成聚类的船舶AIS大数据类别。通过核心点、噪声点以及边界点方式标记完成聚类后的数据。

4）分发数据广播。将完成标记的不同类别数据分发至复杂环境中AIS系统不同计算节点中。

5）实时流式计算。复杂环境中AIS系统接收新数据时，判断所接收的新数据与AIS系统的原始数据是否为密度联通可达状态。密度联通可达状态时，将该数据标记为边界点，否则将该数据标记为异常点，对异常点数据进行监控。通过以上过程完成复杂环境中高可用船舶大数据的有效聚类。

2 实例分析

将该方法应用于某水域的海上交通管理中心，该管理中心利用船舶AIS系统为该水域的船舶自动识别提供技术支持。选取某海域作为研究对象，该水域具有复杂的通航环境，船舶通行时，安全风险较高。该海域利用船舶AIS系统作为保障船舶安全行驶的重要系统。海域研究区域包括8个观测断面。

采用本文方法对复杂环境中船舶AIS大数据进行信息处理，统计海域8个观测断面于2019年10月18日0时−24时的船舶通行数量，统计结果如图2所示。通过图2实验结果可以看出，采用本文方法可以有效利用船舶AIS系统的海量大数据获取不同海域观测断面的船舶通行数量。图2实验结果验证，本文方法采用的船舶AIS大数据信息处理方法具有较高的可用性，可以实现海量数据的有效处理，提升船舶AIS大数据的应用性。

图 2 观测断面舰船通行数量 Fig. 2 The number of ships passing through the observation section

采用本文方法对复杂环境中高可用船舶AIS大数据进行信息处理，选取某MMSI为451856451的船舶作为研究对象，利用船舶AIS大数据信息处理方法，获取该船舶在起始港口行驶至目的港口的航行轨迹，统计结果如图3所示。可以看出，本文方法可以实现船舶AIS大数据的信息处理，利用完成信息处理的AIS大数据，获取目标船舶的实际行驶轨迹，验证采用本文方法对船舶AIS大数据进行信息处理具有较高的有效性。有助于海事监管人员明确船舶实际航行情况，保障船舶在水域的安全航行。

图 3 船舶航行轨迹 Fig. 3 Ship trajectories

船舶未开启AIS设备时，海事监管人员无法依据船舶的位置信息、航行信息等信息实现船舶的实时监管，船舶航行过程中存在危险航行情况时，无法及时确定船舶位置，制定解决策略。采用本文方法处理船舶AIS大数据，可以有效获取未开启船舶AIS设备的船舶，再次验证本文方法具有较高的信息处理可用性。所研究的船舶AIS大数据信息处理方法，为船舶AIS大数据的应用提供了有效的技术手段。本文方法充分利用船舶AIS大数据，可以有效获取船舶航行过程中的轨迹信息、空间分布等众多信息，为船舶航行时的水运监管、船舶异常检测等实际应用提供了有效的参考依据。

统计不同AIS报文条数时，采用本文方法对枯季以及洪季2种复杂环境情况下，船舶AIS大数据的聚类性能。选取类内相似度作为衡量大数据聚类性能的重要指标，统计结果如图4所示。可以看出，本文方法具有良好的大数据聚类性能，对于枯季以及洪季2种复杂环境情况下的客船以及货船，通过聚类获取的不同类别数据的类内相似度均高于0.93，有效验证本文方法的信息处理性能。

图 4 复杂环境中船舶AIS大数据聚类性能 Fig. 4 Clustering performance of ship AIS big data in complex environment

3 结　语

AIS系统是目前海上交通管理部门大力推广的重要系统，AIS系统中包含的海量大数据是体现我国海上交通运输状况的重要资源。AIS大数据中包含众多具有较高价值的数据，充分发挥AIS大数据具有的重要价值，通过高效的AIS大数据信息处理方法为海上交通管理部门的统计决策以及安全监管提供数据基础。研究复杂环境中高可用船舶AIS大数据信息处理方法，充分考虑船舶AIS大数据在复杂环境中的可用性，通过高效的信息处理方法，拓宽船舶AIS大数据的应用性，为海上交通领域的发展提供良好的数据支撑。

参考文献

[1]	张凡, 李良才, 汤涛, 等. 基于大数据的船舶动力装置全寿期综合保障系统设计[J]. 中国舰船研究, 2020, 15(S1): 92-97.
[2]	张安民, 侯泽北, 李兆兴, 等. 面向e-航海时空数据处理的负载均衡算法[J]. 测绘科学, 2020, 45(10): 41-47+70.
[3]	廖诗管, 杨冬, 白茜文, 等. 基于船舶大数据的港口装卸效率值计算方法[J]. 交通运输系统工程与信息, 2021, 21(2): 217-223.
[4]	李洋, 张杨, 朱浩平, 等. 应用星载AIS双天线的舰船快速定位方法[J]. 航天器工程, 2021, 30(4): 15-22. DOI:10.3969/j.issn.1673-8748.2021.04.003
[5]	陈伟杰, 赵楠, 张婕姝, 等. AIS数据在集装箱港口服务效率的应用研究[J]. 地球信息科学学报, 2022, 24(1): 153-164. DOI:10.12082/dqxxkx.2022.210144


舰船科学技术 2001, Vol. 44 Issue (6): 137-140 DOI: 10.3404/j.issn.1672-7649.2022.06.028	PDF