决策树算法在船舶自主巡航数据消冗中的应用

引用本文

生力军, 陈施奇. 决策树算法在船舶自主巡航数据消冗中的应用. 舰船科学技术, 2024, 46(12): 157-161 复制到剪切板

SHENG Lijun, CHEN Shiqi. Application of decision tree algorithm in redundancy reduction of ship autonomous cruise data. Ship Science and Technology, 2024, 46(12): 157-161 复制到剪切板

决策树算法在船舶自主巡航数据消冗中的应用

生力军, 陈施奇

武汉船舶职业技术学院，湖北武汉 430050

收稿日期: 2024-02-28.

基金项目: 湖北省教育厅科技处科研计划项目（B2018273）

作者简介: 生力军（1983 –），男，硕士，副教授，研究方向为计算机信息技术

摘要: 船舶在进行智能化管理和航行时，需依据可靠的自主巡航数据完成，将大量的传感器数据和监测信息作为输入，以便系统能够作出正确的决策。然而，这些数据可能存在冗余信息干扰，影响着智能决策系统的可靠性，因此研究决策树算法在船舶自主巡航数据消冗中的应用。采用滤波、插值以及混合式时序数据生成的方式，进行船舶自主巡航数据的时序处理，生成规范的船舶自主巡航时序数据；依据处理后的数据生成决策树，划分船舶自主巡航数据类别；通过计算同类间数据相似度，并设计消除器，实现船舶自主巡航数据消冗处理，获取没有冗余的巡航数据。测试结果显示，该算法的数据时序处理效果较好，可以完成不同数据类别之间的划分，同时能够计算同类数据之间的相似度，最大空间缩减比为27.8%。

关键词: 决策树算法船舶自主巡航数据消冗时序数据数据相似度数据分类

Application of decision tree algorithm in redundancy reduction of ship autonomous cruise data

SHENG Lijun, CHEN Shiqi

Wuhan Institute of Shipbuilding Technology, Wuhan 430050, China

Abstract: Intelligent management and navigation of ships need to be completed according to reliable autonomous cruise data, and a large number of sensor data and monitoring information are used as input, so that the system can make correct decisions. However, these data may have redundant information interference, which affects the reliability of intelligent decision-making system. Therefore, the application of decision tree algorithm in ship autonomous cruise data redundancy is studied. Filtering, interpolation and hybrid time series data generation are used to process the time series of ship autonomous cruise data and generate standardized time series data of ship autonomous cruise. According to the processed data, a decision tree is generated to classify the autonomous cruise data of the ship; By calculating the data similarity between the same kind and designing the eliminator, the ship autonomous cruise data can be eliminated and the cruise data without redundancy can be obtained. The test results show that the algorithm has a good effect on data time series processing, which can divide different data categories and calculate the similarity between similar data, and the maximum space reduction ratio is 27.8%.

Key words: decision tree algorithm autonomous cruising of ships data redundancy elimination time series data data similarity data classification

0 引　言

船舶自主巡航是船舶的一种智能化航行模式，舰船依据设定的航行情况实现一定范围内的自主航行，该航行方式能够降低人为因素导致的航行事故^[1]。在船舶自主航行过程中，会形成大量的航行数据，包含航行轨迹、航行速度、航行路线、航线状况、船舶运行状态以及航行海域的气候信息等，这些数据对于船舶自主航行系统的研发、调试以及优化等具备重要作用，对于提升航行安全和降低航行成本也具有重要意义^[2]。但是，船舶自主巡航数据中也存在大量重复的冗余数据，这些数据不具备效用价值，并且会占用大量的储存空间，同时，对数据的分析和利用也会造成较大影响^[3]。因此，实现船舶自主巡航数据冗余处理，对于提升数据的效用程度，进而保证航行智能化水平存在较大意义。

高志宇等^[4]为实现数据的有效处理，对数据进行降维处理后，检测数据中存在的离散点数据，最终确定数据中的离散冗余数据；但是该方法在应用过程中，无法实现针对性类别数据的处理。李颜平等^[5]为实现数据的有效处理，依据数据特征，利用典型数据集的变量进行数据处理；但是该方法在应用过程中，对于多源异构数据的处理效果较差。张莉等^[6]为了提高客服终端数据可利用性，降低冗余数据干扰程度，研究一种基于决策树算法的客服终端冗余数据迭代消除方法。该方法利用决策树算法对客服终端数据进行处理，填补缺失值。然后构建决策树，建立冗余数据判断规则，检测并消除客服终端数据中的冗余数据。但是该方法因决策树算法本身存在的局限性，在一定程度上影响冗余数据检测准确性。任兵等^[7]提出基于压缩感知的相关性数据填补方法，该方法将缺失数据填补的问题转化为稀疏向量恢复的问题，根据数据的相关性特点，设计了一种稀疏表示基，提出了一种快速迭代加权阈值算法，引入了新的加权因子和重启动策略，从而提高了算法的收敛性能和数据的重构精度。但是该方法存在冗余信息干扰，数据时序处理效果较差。

决策树作为一种典型的分类算法，采用归纳的方式生成规则以及决策树，并且对决策树进行剪枝处理，去除影响多余无效的树枝，提升决策树的分类精度。该算法生成模式简单，并且对于噪声数据具备较好的健壮性，同时分类精度较高。因此，文中为实现船舶自主巡航数据消冗处理，研究决策树算法在船舶自主巡航数据消冗中的应用。

1 船舶自主巡航数据消冗 1.1 船舶自主巡航数据时序处理

由于船舶自主航行数据大部分是通过传感器、GPS、北斗等导航设备以及船舶管理系统等采集和传输，因此船舶自主巡航数据属于典型的多源异构数据^[6]；同时采集的所有舰船自主巡航数据均具备显著的时序特征，并且同一个类别的采集器，在相同或者不相同的时间下，获取的数据之间存在时序不同步或者时序混乱现象。因此，在进行船舶自主巡航数据消冗前，需进行巡航数据时序处理，通过该处理可实现数据中缺失数据填补，同时生成规范时序巡航数据，保证船舶自主巡航数据消冗效果。

采用滤波、插值以及混合式时序数据生成的方式进行船舶自主巡航数据的时序处理，其处理流程如图1所示。

图 1 船舶自主巡航数据的时序处理流程 Fig. 1 Time series processing flow of ship autonomous cruise data

在进行船舶自主巡航数据的时序处理过程中，主要分为滤波处理、插值处理、混合巡航数据时序生成等3个步骤，详细情况如下所述：

步骤1　滤波处理。主要是去除数据中的噪声干扰数据，在进行该处理时，将最大数据间隔作为时序，如果存在时序缺失等情况，则采用距离时间节点最近的时序数据替代。

步骤2　插值处理。用于实现缺失数据的填补，在该过程中，以最小的巡航数据作为时序，采用插值算法进行数据填补^[7]。在填补时，将船舶自主巡航数据整体看作线性分布，利用缺失数据的前后的2个相邻数据进行D-P压缩缺失数据。如果在$ {t_i} $时序下的缺失数据用$ ( {{t_i},{x_{{t_i}}}} ) $表示，其中$ {x_{{t_i}}} $表示缺失值，其前后两个相邻数据分别为$ ( {{t_q},{x_{{t_q}}}} ) $和$ ( {{t_h},{x_{{t_h}}}} ) $，利用2个进行$ {x_{{t_i}}} $的拟合，实现该缺失值的填补，其计算公式为：

$ {x_{{t_i}}} = {x_{{t_h}}} + \frac{{{x_{{t_h}}} - {x_{{t_q}}}}}{{{t_h} - {t_q}}} 。$

(1)

步骤3　混合巡航数据时序生成。完成数据滤波以及填补处理后，依据时间信息将所有数据进行集中，并将其中一个集中的时序数据定义为新的时间，所有的时序数据则依据新时序进行顺序汇集，生成规范的船舶自主巡航时序数据，整个序列集即为巡航数据集$ X $。

1.2 基于决策树的船舶自主巡航时序数据分类 1.2.1 分类决策树生成

将获取的巡航数据集$ X $作为训练样本，其中包含的样本数量为$ n $，样本类别为$ {\tilde x_i} $，类别数量用$ m $表示，$ X $中的一个属性用$ s $表示。依据$ s $的差异，对$ X $进行划分，使其形成$ k $个子集$ {z_i}\left( {i = 1,2,...,k} \right) $，文中采用信息增益$ \xi \left( {X,s} \right) $作为决策树分类精度的训练指标，其计算式为：

$ \xi \left( {X,s} \right) = I\left( {{z_1},{z_2},...,{z_k}} \right) - E\left( {X,s} \right) 。$

(2)

式中：$ E\left( {X,s} \right) $为子集的熵加权和；$ I\left( {{z_1},{z_2},...,{z_k}} \right) $为$ X $的熵，其计算式为：

$ I\left( {{z_1},{z_2},...,{z_k}} \right) = - \sum\limits_{i = 1}^m {p\left( {{{\tilde x}_i}} \right)} \log p\left( {{{\tilde x}_i}} \right)。$

(3)

式中：$ p\left( {{x_i}} \right) $为类别$ {\tilde x_i} $的出现概率；其满足式（4）的条件：

$ \sum\limits_{i = 1}^m {p\left( {{{\tilde x}_i}} \right) = 1}。$

(4)

决策树在生成过程中，为降低决策树的复杂程度，采用信息分裂项$ \psi \left( {X,s} \right) $指导决策树的生成，其计算式为：

$ \psi \left( {X,s} \right) = - \sum\limits_{i = 1}^k {{{\left( {\frac{X}{s}} \right)}_i}}。$

(5)

依据式（5）可知，$ \psi \left( {X,s} \right) $即为$ X $关于属性$ s $的熵，其值越小表示$ X $在$ s $上的分布均匀度越差，因此通过该值进行分布调整，以此保证决策树的生成效果。

依据式（5）计算信息增益比率，得到分类决策树生成结果，其计算公式为：

$ \eta \left( {X,s} \right) = \frac{{\xi \left( {X,s} \right)}}{{\psi \left( {X,s} \right)}}。$

(6)

依据式（6）获取其中最高增益比率属性，并将其定义为分裂属性，确定该属性后，则确定最佳分割点，生成决策树的分枝，循环执行上述步骤，即完成决策树生成。

1.2.2 船舶自主巡航时序数据分类实现

巡航数据集$ X $中包含所有类别的船舶自主巡航时序数据，如果同时对所有数据同时进行消冗处理，则运算量较大，效率较低。因此，依据上述小节生成的决策树进行船舶自主巡航时序数据$ X $分类，该分类的主要目的是对$ X $中各个类别的数据进行分类，降低后续消冗的复杂程度^{[8 − 9]}。船舶自主巡航时序数据分类步骤如下所述：

步骤1　将$ X $作为根节点，构建船舶自主巡航时序数据特征决策树。

步骤2　如果$ X $中的样本均属于相同类别，则采用节点$ N $表示叶节点，同时定义该类别为$ C $；反之进入下一步。

步骤3　如果船舶自主巡航时序数据特征属性集合为空，则$ N $为样本中包含样本数量最多的$ C $；反之进入下一步。

步骤4　计算船舶自主巡航时序数据特征属性集合中各个条件属性的信息增益率，获取其中的最大值，并将该值的节点属性定义为当前节点的分类属性$ {s_i} $。

步骤5　依据$ {s_i} $构建决策树的分枝。

步骤6　对划分后的子集循环上述步骤，生成新的船舶自主巡航时序数据特征分枝，并完成所有子集划分，即完成船舶自主巡航时序数据分类，输出$ X $中各个数据类别。

1.3 冗余数据消除处理

将上述分类后的各类船舶自主巡航时序数据进行同类数据之间的相似度计算，依据相似度计算结果实现船舶自主巡航数据消冗处理。消冗处理主要包含同类间数据相似度计算、消除器设计2个步骤。

1）同类间数据相似度$ \mu \left( {i,j} \right) $计算

类间相似度主要是对同类数据之间的相似度进行计算，其计算公式为：

$ \mu \left( {i,j} \right) = \gamma \sum\limits_{i,j = 1}^m {{{\log }_2}\left( {Y_i^k - Y_j^k} \right)} 。$

(7)

式中：$ \gamma $为计算因子；$ i $和$ j $为2个不同数据；$ Y_i^k $和$ Y_j^k $分别为类别$ k $中，数据$ i $和$ j $的嘻哈值。

完成$ \mu \left( {i,j} \right) $计算后，将其计算结果和设定的判别阈值$ G $进行对比，判断数据是否为冗余数据，判断标准为：

当$ \mu \left( {i,j} \right) > G $，表示该数据为冗余数据；当$ \mu \left( {i,j} \right) \leqslant G $表示数据为非冗余数据。

2）消除器设计

消除器的主要作用是对上述步骤判断的冗余数据进行消除处理^[10]，文中设计的消除器结构如图2所示。

图 2 消除器结构 Fig. 2 Structure of eliminator

消除器设计完成后，依据上述小节的判断标准，按照数据时序逐一进行冗余数据消除，保留数据中相似度$ \mu \left( {i,j} \right) $结果小于$ G $（文中设定该取值为0.65）的数据，对消冗后的舰船自主巡航数据进行集成后，获取没有冗余的巡航数据。

2 测试分析

为验证文中算法的应用效果，以某自主巡航的舰船作为测试对象，该船主要用于海道测量，其长度为74.8 m，型宽为10 m，吃水为3.5 m，满载排水量为1216 t，主机额定功率为2×1320 kW，续航力为4000 n mile。由于该船舶主要用于海道测量，因此，其在自主巡航过程中，需对巡航沿线的水体、海域情况、水下地形等进行测量。因此，其会采集大量的巡航数据以及测量数据，以该船舶巡航1周产生的所有数据作为测试数据，通过本文算法进行该数据的消冗处理，获取处理结果，以此分析算法的应用效果。在上述实验环境中，获取的部分船舶自主巡航数据详情如表1所示。

表 1 船舶自主巡航数据详情 Tab.1 Details of ship autonomous cruise data

为验证文中算法对于船舶自主巡航数据的时序处理效果，随机选择一段时间内的巡航数据，采用文中方法对其进行时序处理，获取时序处理前后的数据分布结果，如图3所示。

图 3 船舶自主巡航数据的时序处理效果 Fig. 3 Time series processing effect of ship autonomous cruise data

可知，原始的数据时序混乱，数据的整体分布存在过度集中以及缺失区域；通过文中算法进行时序处理后，数据的整体呈现规律分布，并且数据的缺失区域被有效填补。因此，文中算法能够较好实现船舶自主巡航数据的时序处理，为数据消冗提供数据依据。

为验证文中算法的数据分类效果，通过文中算法对时序处理后的船舶自主巡航时序数据进行分类处理，获取数据中不同数据类别的分类结果，如图4所示。

图 4 船舶自主巡航数据分类结果 Fig. 4 Classification results of ship autonomous cruise data

可知，通过文中算法进行船舶自主巡航数据分类后，能够完成不同数据类别之间的划分，并且精准确定数据的类别；划分后各个类别之间不存在重叠现象，分类精度较好。

为验证本文算法对于船舶自主巡航数据的消冗效果，采用本文算法对不同类型的巡航数据进行消冗处理，获取数据的相似度计算结果，如表2所示。由于篇幅有限，相似度计算仅呈现2个数据类别的10组数据之间的计算结果。

表 2 数据的相似度计算结果 Tab.2 Similarity calculation results of data

可知，文中算法能够依据相似度的计算结果，精准判断船舶自主巡航数据中的冗余数据，依据判断结果可完成数据消冗处理。

3 结　语

船舶自主巡航数据的效用性对于其实现智能化应用具备重要作用，因此，为提升数据的效用率，文中研究决策树算法的船舶自主巡航数据消冗，并对该算法的应用效果展开相关分析；确定该算法在船舶自主巡航数据消冗中具备较好的应用效果，有限判断数据中的冗余数据，全面完成冗余数据的处理，为船舶智能化应用提供可靠数据支撑。

参考文献

[1]	杨晨, 邓茹凤, 张宏, 等. 基于网络通信的设备互操和数据热备份的设计方法[J]. 船海工程, 2022, 15(5): 11-14. YANG Chen, DENG Rufeng, ZHANG Hong, et al. Design method for equipment interoperation and data hot-backup based on network communication[J]. Ship & Ocean Engineering, 2022, 15(5): 11-14.
[2]	张泽辉, 管聪, 高航, 等. 面向船联网的高效隐私保护联邦学习方法[J]. 中国舰船研究, 2022, 17(6): 48-58. ZHANG Zehui, GUAN Cong, GAO Hang, et al. Efficient privacy-preserving federated learning method for Internet of Ships[J]. Chinese Journal of Ship Research, 2022, 17(6): 48-58.
[3]	陈小娟, 贺红艳, 张慧萍. 基于数据消冗技术的隐私大数据属性加密仿真[J]. 计算机仿真, 2022, 39(11): 422-426. CHEN Xiaojuan, HE Hongyan, ZHANG Huiping. Simulation of privacy big data attribute encryption based on data de redundancy technology[J]. Computer Simulation, 2022, 39(11): 422-426.
[4]	高志宇, 宋学坤, 肖俊生, 等. 基于神经网络的大规模数据集离群点检测算法[J]. 沈阳工业大学学报, 2022, 44(4): 420−425. GAO Zhiyu, SONG Xuekun, XIAO Junsheng, et al. Outlier detection algorithm for large-scale data sets based on neural network[J]. Journal of Shenyang University of Technology, 2022, 44(4): 420−425.
[5]	李颜平, 吴刚. 基于典型数据集的数据预处理方法对比分析[J]. 沈阳工业大学学报, 2022, 44(2): 185-192. LI Yanping, WU Gang. Comparative analysis of data preprocessing methods based on typical data set[J]. Journal of Shenyang University of Technology, 2022, 44(2): 185-192.
[6]	张莉, 丁毛毛, 李玮, 等. 基于决策树算法的客服终端冗余数据迭代消除方法[J]. 计算技术与自动化, 2022, 41(4): 118-122. ZHANG Li, DING Maomao, LI Wei, et al. Iterative elimination method of redundant data in customer service terminal based on decision tree algorithm[J]. Computing Technology and Automation, 2022, 41(4): 118-122.
[7]	任兵, 郭艳, 李宁, 等. 基于压缩感知的相关性数据填补方法[J]. 计算机科学, 2023, 50(7): 82-88. REN Bing, GUO Yan, LI Ning, et al. Method for Correlation Data Imputation Based on Compressed Sensing[J]. Computer Science, 2023, 50(7): 82-88.
[8]	赵雪, 李晓会. 面向非独立同分布数据的联邦梯度提升决策树[J]. 计算机应用研究, 2023, 40(7): 2184-2191. ZHAO Xue, LI Xiaohui. Federated gradient boosting decision tree for non-IID dataset[J]. Application Research of Computers, 2023, 40(7): 2184-2191.
[9]	王泷德, 曹辉, 魏来. 不平衡数据下船舶主机在线故障诊断研究[J]. 中国舰船研究, 2023, 18(5): 269-275. WANG Longde, CAO Hui, WEI Lai. Study on fault diagnosis of marine main engine's online imbalanced data[J]. Chinese Journal of Ship Research, 2023, 18(5): 269-275.
[10]	李根, 翟伟, 邬岚. 基于梯度提升决策树的汇合交互作用研究[J]. 浙江大学学报(工学版), 2022, 56(4): 649-655. LI Gen, ZHAI Wei, WU Lan. Study of merging interactions based on gradient boosting decision tree[J]. Journal of Zhejiang University(Engineering Science), 2022, 56(4): 649-655.


舰船科学技术 2024, Vol. 46 Issue (12): 157-161 DOI: 10.3404/j.issn.1672-7649.2024.12.027	PDF