舰船科学技术  2023, Vol. 45 Issue (5): 148-151    DOI: 10.3404/j.issn.1672-7649.2023.05.028   PDF    
推荐算法的船舶电子海图数据相似性检索方法
金仕奇     
江西工程学院 大数据与计算机学院,江西 新余 338000
摘要: 以提升船舶导航路线制定质量为目的,提出推荐算法的船舶电子海图数据相似性检索方法,提高电子海图数据相似性检索质量。通过加权核范数算法填充船舶电子海图数据稀疏评分矩阵,通过协同过滤推荐算法计算检索目标与电子海图数据间的评分相似性以及类别相似性;根据评分相似性与类别相似性,得到基于评分相似性与类别相似性的电子海图数据推荐预测评分,以动态加权方式得到电子海图数据相似性检索结果。实验证明:该方法可有效完成船舶电子海图数据相似性检索;不同电子海图数据评分矩阵稀疏度时,该方法电子海图数据相似性检索的归一化折损累积增益均较高,即检索精度较高。
关键词: 推荐算法     船舶电子海图     数据相似性     检索方法     协同过滤     动态加权    
Similarity retrieval method of ship electronic chart data based on recommended algorithm
JIN Shi-qi     
Jiangxi University of Engineering, Big Data and Computer College, Xinyu 338000, China
Abstract: In order to improve the quality of ship navigation route, a similarity retrieval method of ship electronic chart data based on recommended algorithm is proposed to improve the quality of similarity retrieval of electronic chart data. The sparse score matrix of ship electronic chart data is filled by weighted kernel norm algorithm, and the score similarity and category similarity between the retrieval target and electronic chart data are calculated by collaborative filtering recommendation algorithm. According to the score similarity and category similarity, the electronic chart data recommendation prediction score based on the score similarity and category similarity is obtained, and the electronic chart data similarity retrieval results are obtained by dynamic weighting. Experiments show that this method can effectively complete the similarity retrieval of ship electronic chart data. When the sparsity of the scoring matrix of the electronic chart data is different, the normalized cumulative loss gain of the similarity retrieval of the electronic chart data is higher, that is, the retrieval accuracy is higher.
Key words: recommended algorithm     ship electronic chart     data similarity     search method     collaborative filtering     dynamic weighting    
0 引 言

电子海图是确保船舶航行安全的基础。船舶航行过程中,需要在海量船舶电子海图数据库内实时调取电子海图数据,为制定航行方案提供参考[1]。在海量电子海图数据内,精准检索到与检索目标相似性最高的电子海图数据[2],可有效剔除无效的电子海图数据,为船员精准提供其需要的电子海图数据,制定安全的船舶导航路线[3]。李志欣等[4]通过自注意力方法增强电子海图数据特征,通过增强特征与哈希特征建立新的电子海图数据融合特征,以加权组合方式,处理新的电子海图数据融合特征,得到电子海图数据相似度矩阵。根据相似度矩阵,输出电子海图数据相似性检索结果。该方法具备较优的电子海图数据相似性检索有效性与鲁棒性。王宏志等[5]通过深度学习在电子海图数据库内提取电子海图数据相似性特征,按照条件熵与交叉熵的原理,设计多标签电子海图数据相似性检索方法,在该方法内输入提取的相似性特征,输出电子海图数据相似性检索结果。该方法的电子海图数据相似性检索精度较高,相比传统手工检索方法精度提升了10%左右。但这2种方法在电子海图数据稀疏情况下,其电子海图数据相似性检索质量较低,且这2种方法缺乏动态调整能力。推荐算法能够实时计算项目间的相似性,根据相似性计算结果生成推荐列表,具备较优的推荐效果,且推荐结果的动态调整能力较优。为此,研究推荐算法的船舶电子海图数据相似性检索方法,精准检索船舶电子海图数据,确保船舶航行安全。

1 船舶电子海图数据相似性检索 1.1 船舶电子海图数据稀疏评分矩阵填充

利用协同过滤推荐算法,检索船舶电子海图数据过程中,需要根据船舶电子海图数据评分矩阵,计算船舶电子海图数据与检索目标间的评分相似性。为充分利用船舶电子海图数据评分矩阵内的评分特征信息,需对稀疏评分矩阵进行填充,提升船舶电子海图数据评分矩阵内评分特征信息的利用率。为此,通过加权核范数算法,填充电子海图数据项目稀疏评分矩阵。利用核范数去松弛秩函数过程中,电子海图数据稀疏评分矩阵填充问题为:

$ \min \frac{{\left\| {\theta {A_\varOmega }Y - \theta {A_\varOmega }{\boldsymbol{M}}} \right\|_F^2 + \lambda {{\left\| {\boldsymbol{Y}} \right\|}_*}}}{2} 。$ (1)

其中: $ M $ 为船舶电子海图数据稀疏评分矩阵; $ Y $ 为近似填充矩阵; $ {A_\varOmega } $ 为正交投影算子; $ \varOmega $ 为船舶电子海图数据的位置; $ {\left\| \cdot \right\|_F} $ $ F $ 范数; $ \lambda $ 为正则化参数; $ {\left\| \cdot \right\|_*} $ 为核范数; $ \theta $ 为秩函数。

$ {\left\| Y \right\|_*} $ 的计算公式如下:

$ {\left\| Y \right\|_*} = \sum\limits_{i = 1}^r {\left| {{\sigma _i}\left( Y \right)} \right|}。$ (2)

其中: $ {\sigma _i}\left( Y \right) $ $ Y $ 内第 $ i $ 个奇异值; $ r $ $ Y $ 内奇异值数量。

利用奇异值分解算法求解式(1)时,奇异值阈值算子为:

$ {S_\lambda }\left({\boldsymbol{ M}} \right) = \min \frac{{\left\| {{\boldsymbol{Y}} - {\boldsymbol{M}}} \right\|_F^2 + \lambda {{\left\| {\boldsymbol{Y}} \right\|}_*}}}{2}, $ (3)

其中: $ {S_\lambda }\left( M \right) $ 为软阈值函数; $ M $ 为奇异值分解, ${\boldsymbol{ M}} = {\boldsymbol{U}}\displaystyle\sum {{\boldsymbol{V}}^{\rm{T}}} $ $ {\boldsymbol{U}} $ $ {\boldsymbol{V}} $ 为船舶电子海图数据稀疏评分矩阵的 $ m \times m $ $ n \times n $ 阶正交矩阵。式(3)的最佳解为:

$ {Y^*} = {S_\lambda }\left( {\boldsymbol{M}} \right) = {\boldsymbol{U}}\max \left( {{\sum _j} - \lambda ,0} \right){{\boldsymbol{V}}^{\rm{T}}}, $ (4)

其中, $ {\displaystyle\sum _j} $ $ M $ 内前 $ j $ 个奇异值组成的对角矩阵。

为让奇异值分解算法,适合求解大规模船舶电子海图数据稀疏评分矩阵的填充问题,令

$ \theta {A_\varOmega }{\boldsymbol{M}} + \theta {A_{\varOmega \bot }}{{\boldsymbol{Y}}_k} = \theta {A_\varOmega }{\boldsymbol{M}} - \theta {A_\varOmega }{{\boldsymbol{Y}}_k} + {{\boldsymbol{Y}}_k} 。$ (5)

其中: $ {{\boldsymbol{Y}}_k} $ $ k $ 次迭代后的船舶电子海图数据稀疏评分矩阵的近似填充矩阵; $ {A_{\varOmega \bot }} $ $ \varOmega $ 补集内船舶电子海图数据位置信息。

通过奇异值分解算法得到 $ k + 1 $ 次迭代后的电子海图数据稀疏评分矩阵的近似填充矩阵为:

$ {Y_{k + 1}} = {S_\lambda }\left( {\theta {A_\varOmega }{\boldsymbol{M}} + \theta {A_{\varOmega \bot }}{{\boldsymbol{Y}}_k}} \right) ,$ (6)

为提升数据稀疏评分矩阵的填充效果,利用加权核范数替换核范数,变更后的数据稀疏评分矩阵的填充问题为:

$ \min \frac{{\left\| {\theta {A_\varOmega }{\boldsymbol{Y}} - \theta {A_\varOmega }{\boldsymbol{M}}} \right\|_F^2 + \lambda {{\left\| {\boldsymbol{Y}} \right\|}_{w, * }}}}{2}, $ (7)

其中, $ w $ 为非负加权。

加权核范数的计算公式如下:

$ {\left\|{\boldsymbol{ Y}} \right\|_{w, * }} = \sum\limits_{i = 1}^r {{w_i}{\sigma _i}\left( {\boldsymbol{Y}} \right)}。$ (8)

通过奇异值分解算法求解式(7),获取船舶电子海图数据稀疏评分矩阵的近似填充矩阵 $ {\boldsymbol{Y}} $ ,即完整的船舶电子海图数据评分矩阵。

1.2 基于协同过滤推荐算法的海图数据相似性计算

在船舶电子海图数据近似填充矩阵 $ {\boldsymbol{Y}} $ 的基础上,利用协同过滤推荐算法,计算船舶电子海图数据与检索目标 $ u $ 的评分相似性,公式如下:

$ \zeta \left( {u,l} \right) = \frac{{\displaystyle\sum\limits_{l = 1}^L {\left( {{y_{l,i'}} - {{\bar y}_L}} \right)\left( {{y_{u,i'}} - {{\bar y}_L}} \right)} }}{{\sqrt {\displaystyle\sum\limits_{l = 1}^L {{{\left[ {\left( {{y_{l,i'}} - {{\bar y}_L}} \right)\left( {{y_{u,i'}} - {{\bar y}_L}} \right)} \right]}^2}} } }}。$ (9)

其中: $ Y $ 内第 $ i' $ 次检索时,第 $ l $ 个船舶电子海图数据的评分是 $ {y_{l,i'}} $ $ X $ 内船舶电子海图数据的数量是 $ L $ $ Y $ 内船舶电子海图数据评分均值是 $ {\bar y_L} $ $ Y $ 内第 $ i' $ 次检索时,船舶电子海图数据检索目标的评分元素是 $ {y_{u,i'}} $

利用协同过滤推荐算法,计算船舶电子海图数据与检索目标 $ u $ 的类别相似性。实际船舶电子海图数据库内,全部电子海图数据项均可划分至不同类别内,各大类内均包含数个小类,为此,可将船舶电子海图数据库看成一棵倒立的树,记作船舶电子海图数据类别树。船舶电子海图数据类别树的层数是类别树的高度 $ H $ ;电子海图数据 $ l $ 与检索目标 $ u $ 共同所处的类别为 $ l $ $ u $ 的公共类。 $ l $ $ u $ 间可能存在数个公共类,同时最少包含一个公共类,就是电子海图数据类别树的根节点。 $ l $ $ u $ 的公共类集合内,距离电子海图数据类别树根节点层数最多的公共类,叫做 $ l $ $ u $ 的最近公共类。 $ l $ $ u $ 的最近公共类只有一个。 $ l $ $ u $ 在类别树内所处的层数是最近公共类高度 $ H'\left( {l,u} \right) $ ,在 $ H'\left( {l,u} \right) = 1 $ 情况下, $ l $ $ u $ 的最近公共类,便是船舶电子海图数据类别树的根节点。 $ l $ $ u $ 间的类别相似性为:

$ {\zeta }^{\prime }\left(l,u\right)=\left\{\begin{array}{ll}0,& l\ne u且{H}^{\prime }\left(l,u\right)=1,\\ \dfrac{{H}^{\prime }\left(l,u\right)}{H},& l\ne u且{H}^{\prime }\left(l,u\right) > 1,\\ 1,& l=u。\end{array}\right. $ (10)
1.3 海图数据相似性检索的实现

依电子海图数据与检索目标间的评分相似性,根据相似性推荐的预测评分,依据船舶电子海图数据与检索目标间的类别相似性,计算电子海图数据相似性推荐的预测评分,公式如下:

$ {Q'_{l,j'}} = {\bar y_{l,j'}} + \frac{{\displaystyle\sum\limits_{l = 1}^L {\zeta '\left( {l,u} \right)} \cdot \left( {{y_{l,j'}} - {{\bar y}_{u,j'}}} \right)}}{{\displaystyle\sum\limits_{l = 1}^L {\zeta '\left( {l,u} \right)} }}。$ (11)

其中: $ {Q'_{l,j'}} $ 为基于类别相似性的船舶电子海图数据相似性推荐的预测评分; $ {\bar y_{l,j'}} $ 为第 $ l $ 个船舶电子海图数据属于第 $ j' $ 个类别的评分均值; $ {\bar y_{u,j'}} $ 为检索目标 $ u $ 属于第 $ j' $ 个类别的评分均值; $ {y_{l,j'}} $ 为第 $ l $ 个船舶电子海图数据属于第 $ j' $ 个类别的评分。

通过动态加权的方式,融合 $ {Q_{l,i'}} $ $ {Q'_{l,j'}} $ ,得到最终的船舶电子海图数据相似性推荐的预测评分,降序排列船舶电子海图数据相似性推荐的预测评分,生成推荐列表,即船舶电子海图数据相似性检索结果。

利用协同过滤推荐算法,完成船舶电子海图数据相似性检索的具体步骤如下:

步骤1 输入船舶电子海图数据检索目标 $ u $

步骤2 填充船舶电子海图数据稀疏评分矩阵,得到 $ {\boldsymbol{Y}} $

步骤3 在 $ Y $ 的基础上,计算船舶电子海图数据与 $ u $ 间的评分相似性 $ \zeta \left( {u,l} \right) $

步骤4 计算船舶电子海图数据与 $ u $ 间的类别相似性 $ \zeta '\left( {l,u} \right) $

步骤5 根据评分相似性与类别相似性,计算 $ u $ 与电子海图数据相似性推荐的预测评分 $ {Q_{l,i'}} $ $ {Q'_{l,j'}} $

步骤6 以动态加权的方式,融合 $ {Q_{l,i'}} $ $ {Q'_{l,j'}} $ ,得到 $ \hat Q\left( {u,l} \right) $ ,降序排列 $ \hat Q\left( {u,l} \right) $ ,生成与 $ u $ 最为相似的船舶电子海图数据推荐列表,即船舶电子海图数据相似性检索结果。

2 实验结果分析

以某船舶公司为实验对象,该公司使用的船舶电子海图数据库格式为THOS-57,数据库内包含将近9000幅电子海图,平均每年递增500幅新电子海图。利用本文方法在该数据库内,完成电子海图数据相似性检索,为船员精准提供其需要的电子海图数据,保障船舶安全航行。

利用本文方法在数据库内随机选择10个电子海图数据,电子海图数据内检索包含危险物标超过20个,且双向航行安全的目标电子海图数据。先利用本文方法计算这10个船舶电子海图数据与检索目标间的相似性与推荐预测评分,推荐预测评分计算结果如图1所示。根据图1可知,本文方法可有效计算电子海图数据相似性推荐预测评分,其中,编号为4的船舶电子海图数据推荐预测评分最高,说明该船舶电子海图数据与检索目标间的相似性最高。

图 1 电子海图数据相似性推荐预测评分计算结果 Fig. 1 Calculation results of the recommended prediction score for the similarity of electronic chart data

船舶电子海图数据相似性检索结果如图2所示。可知,本文方法可有效检索到与检索目标最为相似的电子海图数据,电子海图数据内共包含24个危险物标,航线属于双向航线,且航线内无危险物标,即双向航行安全,与检索目标非常相似。实验证明:本文方法具备船舶电子海图数据相似性检索的可行性,且检索到的电子海图数据与检索目标相似度较高。

图 2 舰船电子海图数据相似性检索结果 Fig. 2 Similar retrieval results of ship electronic chart data

利用归一化折损累积增益(normalized discounter cumulative gain,NDCG),衡量本文方法船舶电子海图数据相似性的检索效果,NDCG值越高,检索精度越高。分析不同电子海图数据评分矩阵稀疏度,以及不同检索目标时,本文方法电子海图数据相似性检索的NDCG,分析结果如图3所示。可知,随着稀疏度的提升,本文方法在检索2个检索目标时的NDCG均不断下降,当稀疏度为0.40时,检索目标1的NDCG降至最低,在0.86左右,检索目标2的最低NDCG在0.84左右,均高于设置阈值。实验证明,在不同电子海图数据评分矩阵稀疏度时,本文方法检索电子海图数据的NDCG值均较高,即电子海图数据相似性检索精度较高。

图 3 电子海图数据相似性检索的NDCG分析结果 Fig. 3 NDCG analysis results of similarity retrieval of electronic chart data
3 结 语

电子海图数据负责为船员提供船舶航行过程中的全部信息,电子海图数据的种类较多,导致船员在海量电子海图数据库内,检索到其需要的目标电子海图数据难度较高。为此,研究推荐算法的船舶电子海图数据相似性检索方法,为船员提供与其设置检索目标相似性最高的电子海图数据,提升船舶航行的稳定性与安全性。

参考文献
[1]
张大恒, 张英俊, 张闯. 基于Faster R-CNN的电子海图和雷达图像的数据融合[J]. 系统工程与电子技术, 2020, 42(6): 1267-1273.
ZHANG Daheng, ZHANG Yingjun, ZHANG Chuang. Data fusion of electronic navigational chart and radar images based on Faster R-CNN[J]. Systems Engineering and Electronics, 2020, 42(6): 1267-1273.
[2]
陈长林, 周成虎, 杨管妍, 等. 电子海图开放式图示表达模型及其构建方法[J]. 武汉大学学报(信息科学版), 2020, 45(3): 325-330.
CHEN Changlin, ZHOU Chenghu, YANG Guanyan, et al. Open Portrayal Model for Electronic Chart and Its Realization[J]. Geomatics and Information Science of Wuhan University, 2020, 45(3): 325-330.
[3]
岳希, 唐聃, 舒红平, 等. 基于数据稀疏性的协同过滤推荐算法改进研究[J]. 工程科学与技术, 2020, 52(1): 198-202.
YUE Xi, TANG Dan, SHU Hongping, et al. Research on improvement of collaborative filtering recommendation algorithm based on data sparseness[J]. Journal of Sichuan University(Engineering Science Edition), 2020, 52(1): 198-202.
[4]
李志欣, 侯传文, 谢秀敏. 利用多重相似度矩阵增强跨模态哈希检索[J]. 计算机辅助设计与图形学学报, 2022, 34(6): 933-945.
LI Zhixin, HOU Chuanwen, XIE Xiumin. Enhancing cross-modal hash retrieval with multiple similarity matrices[J]. Journal of Computer-Aided Design & Computer Graphics, 2022, 34(6): 933-945.
[5]
孙传明, 周炎, 涂燕. 基于混合协同过滤的个性化推荐方法研究[J]. 华中师范大学学报(自然科学版), 2020, 54(6): 956-962.
SUN Chuanming, ZHOU Yan, TU Yan. Research on personalized recommendation method based on hybrid collaborative filtering[J]. Journal of Huazhong Normal University(Natural Sciences), 2020, 54(6): 956-962.