舰船科学技术  2024, Vol. 46 Issue (3): 157-160    DOI: 10.3404/j.issn.1672-7649.2024.03.028   PDF    
多模态人机交互系统在船舶航行中的应用
王卉, 高家骥, 曹福存     
大连工业大学,辽宁 大连 116034
摘要: 为拓展设计船舶航行中多模态人机交互模式,促进船舶航行所用导航系统的智能化发展,研究多模态人机交互系统在船舶航行中的应用,设计一种船舶航行使用的多模态人机交互系统。船员可在船舶航行时,以语音交互、手势交互这种多模态交互模式,完成指令输入,无需人工手动操舵。实验测试结果验证,多模态人机交互模式使用后,船舶航行时,控制指令通过语音与手势便可有效传达,船舶航行控制可靠,且无须手动控制舵机,可实现船舶航行智能化交互控制。
关键词: 多模态     人机交互     船舶航行     语音交互     手势交互     隐马尔科夫模型    
Application of multimodal human-machine interaction system in ship navigation
WANG Hui, GAO Jia-ji, CAO Fu-cun     
Dalian Polytechnic University, Dalian 116034, China
Abstract: To expand the design of multimodal human-machine interaction modes in ship navigation, promote the intelligent development of navigation systems used in ship navigation, study the application of multimodal human-machine interaction systems in ship navigation, and design a multimodal human-machine interaction system for ship navigation. Crew members can complete command input through multimodal interaction modes such as voice interaction and gesture interaction during the shearing bed navigation, without the need for manual steering. The experimental test results verify that after using the multimodal human-machine interaction mode, the control instructions can be effectively conveyed through voice and gestures during ship navigation. The ship navigation control is reliable and does not require manual control of the servo, achieving intelligent interactive control of ship navigation.
Key words: multimodal     human computer interaction     ship navigation     voice interaction     gesture interaction     hidden Markov model    
0 引 言

在航海事业迅速发展的大环境中,导航系统的应用性能,对船舶航行作业效率与效果存在直接影响[1]。船舶综合导航系统属于船舶的核心结构之一,主要使用现代控制理论和最优估值理论,融合多种感知设备的感知信息,而良好的人机交互性能不仅可提高导航设备的易用性,还可增强整个系统的运行效率。因此,人机交互技术受到了越来越多的关注。为了更好地发挥船舶导航系统的性能,必须深入研究人机交互技术的应用。冯书庆等[2]针对渔船姿态控制导航系统的人机交互界面进行针对性研究,所设计的人机交互界面信息丰富,交互高效,人机体验出色,适合作为渔船数字座舱及无人驾驶渔船遥控基站的基础组件,其实用性强。但是,该渔船姿态控制导航系统的人机交互模式相对单一。陈立等[3]在研究智能矿砂船冗余导航系统设计方案时,认为在船舶导航系统中,人机交互界面需为工作人员提供安全、便捷的交互方式,从而优化工作人员操作效果。但此方案中未对具体的人机交互技术进行深入研究。

本文研究多模态人机交互系统在船舶航行中的应用,多模态人机交互系统打破以往单一的人机交互模式,在船舶航行控制时,可为船员提供多种模式的交互模式,从而实现船舶航行智能化、多模态指令输入控制。

1 船舶航行用多模态人机交互系统设计 1.1 船舶航行的多模态人机交互模式解析 1.1.1 语音交互模式

语音交互模式目前在多种领域主要以声源定位、声纹识别、自然语音交互、主动式交互和智能语音提示等模式被使用[4-5]。此类语音交互技术的使用,不仅提升了人机交互的安全性,还增加了趣味性和互动性。

1.1.2 手势交互模式

手势交互在很多领域都被重点关注应用,其中,静态手势交互主要在设备快速启动中使用较多,动态手势交互在场景控制中使用较多。比如设备可通过单击、连续点击的方式,分别调节设备程序运行开关、设备运行状态动态控制等。在设置手势交互模式时,需提前设置手势交互动作的具体指示内容,针对不同手势类型,需对不同船舶设定不同交互指令[6]。结合当前船舶导航应用现状可知,目前导航系统使用的人机交互模式主要以单模式为主,鲜有多模态人机交互模式,而随着科学技术的快速发展,多模态人机交互在船舶航行的导航系统中使用,能够改变船员对船舶航行控制的指令输入模式,优化船舶航行控制智能性,为此,本文主要将语音交互模式与手势交互模式相结合,设计一种船用多模态人机交互系统。

1.2 船用多模态人机交互系统设计方案 1.2.1 语音交互子系统设计

图1为船舶航行中所用语音交互子系统设计架构。语音交互子系统具有语音唤醒、语音识别2个主要功能,可有效地实现与船员操作者的交互。其中,语音识别本质属于模式识别问题,本文利用基于隐马尔科夫模型的语音识别模型,嵌入语音交互子系统,用于实现船舶控制指令语音识别。隐马尔科夫模型可提取船员语音信号特征,并抽取语音信号特征的动态特性完成识别[7]

图 1 语音交互子系统设计架构 Fig. 1 Design architecture of voice interaction subsystem

语音识别时,对船员语音输入的各个词匹配一个隐马尔科夫模型,通过矢量量化方法,为其匹配一个大小是$ N $的码本,将各个词进行$ H $次训练,便可获取最佳隐马尔科夫模型,将其作为语音识别模型。模型将船员语音输入的各个词进行分帧、特征提取后,便可获取一组随机向量序列$ {Y_1},{Y_2},...,{Y_K} $,其中,$ K $为帧数。然后由矢量量化的方式,将其变成符号序列$ W = {w_1},{w_2},...,{w_K} $,运算此组序列在隐马尔科夫模型中的识别输出概率,将最大概率所属的语音交互指令作为语音识别结果。此过程如图2所示。

图 2 基于隐马尔科夫的语音识别模型 Fig. 2 A speech recognition model based on hidden markov
1.2.2 手势交互子系统设计

图3为手势交互子系统设计架构。

图 3 手势交互子系统设计架构 Fig. 3 Design architecture of gesture interaction subsystem

在手势交互子系统中,手势设计、指令映射作为遥控端的核心功能,在发送驱动与接收驱动的配合下,手势信息发送至被控船舶响应端。手势设计、指令映射是手势交互的核心设计。指令映射主要由船员结合自身的操舵习惯及船舶类型提前设计,本文针对手势设计这一问题进行深入研究。

手势类型主要分为点击、方向、箭头。点击手势分为单击、双击以及三击。方向手势分为上下左右、斜向等类型。箭头手势分为左向、右向2种。此类手势交互动作主要由元动作组成,以点击手势为例,设置船舶航行所用导航系统的人机交互界面中,点击手势元动作分别为$ TD $(下)、$ TU $(上),连续的点击手势元动作是$ TD $ ->$ TA $->$ TA $-> $ TU $$ TA $为中间元动作编码。在连续的点击手势中,此组合中只存在一个$ TD $元动作,也只存在一个$ TU $动作,$ TD $元动作的触点坐标是$ TD\left( {x,y} \right) $$ TU $元动作的坐标是$ TU\left( {x,y} \right) $。针对方向手势而言,仅分析$ TD $(下)、$ TU $(上)元动作在横向、纵向的触点位置偏移量,便可分类识别详细的手势含义。

设置$ X $轴的触点位置偏移量为:

$ {F_x} = T{U_x} - T{D_x} ,$ (1)

$ Y $轴的触点位置偏移量为:

$ {F_y} = T{U_y} - T{D_y} 。$ (2)

式中:$ T{U_x} $$ T{U_y} $分别为TU元动作触点的X轴、Y轴坐标;$ T{D_x} $$ T{D_y} $分别为TD元动作触点的X轴坐标、Y轴坐标。

如果$ {F_y} $数值小于0,$ \left| {{F_y}} \right| > {O_{\min }} $$ \left| {{F_x}} \right| < {O_{\max }} $,则此时的手势交互动作属于向上手势,$ {O_{\min }} $$ {O_{\max }} $分别表示船员手势交互的经验常数。

箭头手势交互过程中,会在给定方向出现一定角度状态。如果某个元动作$ TA $的触点位置坐标是$ A\left( {x,y} \right) $$ TD $$ TU $的触点位置分别在$ A\left( {x,y} \right) $的左右两侧,此时3个触点坐标角度值,处于某阈值范围中,便为箭头手势,箭头手势的识别方法为:

$ \left\{ \begin{aligned} & {\left( {T{U_x} - {A_x}} \right)\left( {T{D_x} - {A_x}} \right) > 0} ,\\ & {\beta _{\min }} < {{\cos }^{ - 1}} \left( {\frac{{{{\left\| {A - TD} \right\|}^2} + {{\left\| {A - TU} \right\|}^2} - {{\left\| {TD - TU} \right\|}^2}}}{{2 \times \left\| {A - TD} \right\| \times \left\| {A - TU} \right\|}}} \right) < {\beta _{\max }} \end{aligned} \right. $ (3)

其中,$ {A_x} $$ A\left( {x,y} \right) $的横坐标数值。

满足条件$ T{U_x} - {A_x} > 0 $的手势为左向箭头手势,满足$ T{U_x} - {A_x} < 0 $的手势为右向箭头手势。$ \left\| {A - TD} \right\| $代表$ A $$ TD $触点的欧式距离。$ \left\| {A - TU} \right\| $代表$ A $$ TU $触点的欧式距离。$ {\beta _{\min }} $$ {\beta _{\max }} $是船员手势交互的经验常数。

2 实验结果与分析

综合导航显控台是组合导航系统的核心设备,通过应用组合导航技术和信息融合技术,将各个导航设备有机地组合在一起。图4为实验中利用本文设计的多模态人机交互系统的综合导航显控台结构。表1为此显控台服务的船舶参数。

图 4 综合导航显控台结构 Fig. 4 Integrated navigation display and control panel structure

表 1 船舶参数详情 Tab.1 Details of ship parameters

为具体分析本文系统使用前后,船舶航行控制效果,设置船舶航行的环境为五级海况,设置多模态人机交互时,船员由语音输入“将当前航向角调节15°”这一指令,手势单击确定指令。图5为本文系统使用时,船舶综合导航显控台人机交互界面的多模态人机交互时界面反馈图。本文系统使用后,船舶的航向角度控制结果如图6所示。由图5可知,多模态人机交互时界面反馈信息显示,船舶综合导航显控台人机交互界面中,支持语音指令输入、手势点击交互。结合图6测试结果可知,本文系统以多模态人机交互模式,在显控台对船舶下达航行控制指令后,船舶在100 s时便可按照控制指令调节船舶航行状态为期望状态,说明多模态人机交互模式有效,语音交互与手势交互相结合时,指令下达有效,所以船舶航行状态正常调控,证明本文系统在船航行状态控制问题中,具备可用价值。

图 5 多模态人机交互时界面反馈图 Fig. 5 Interface feedback diagram during multimodal human-computer interaction

图 6 本文系统在航向控制中的使用效果 Fig. 6 The application effect of the system in heading control in this article

为具体测试本文系统的手势交互效果,设定不同手势交互指令内容,结合船舶显控台提供的反馈状态,判断手势交互有效性,测试结果如表2所示。可知,本文系统使用下,船舶能够结合不同手势交互指令内容,有效响应交互动作。

表 2 本文系统的手势交互效果 Tab.2 The gesture interaction effect of the system in this article

综上所述,本文所研究的多模态人机交互系统在船舶航行中的应用表现显示,此系统可促进船舶航行控制朝智能化、多模态化发展,无须船员手动操舵,具有可行性。

3 结 语

本文以船舶航行时导航系统的人机交互设计为研究内容,设计了多模态人机交互系统,此系统将语音交互、手势交互相融,构建多模态人机交互模式,并引入了人工智能技术-隐马尔科夫模型,构建了语音识别模型,以及设计了手势交互类型识别条件,最后由实验测试验证了多模态人机交互系统的可用价值。实验中,本文系统使用下,船舶能够结合不同手势交互指令内容,有效响应交互动作,无须人工手动操舵,使用前景显著。

参考文献
[1]
古毅杰, 张闯, 房美含. 基于输入延迟神经网络的船舶GPS/INS组合导航[J]. 船舶工程, 2022, 44(7): 96-102.
GU Yijie, ZHANG CHUANG, FANG Meihan. Ship GPS/INS integrated navigation based on input delay dynamic neural network[J]. Ship Engineering, 2022, 44(7): 96-102.
[2]
冯书庆, 徐志强, 王志勇, 等. 渔船姿态导航图形化界面研究[J]. 渔业现代化, 2020, 47(6): 74-80.
FENG Shuqing, XU Zhiqiang, WANG Zhiyong, et al. Research on graphical MMI of fishing vessel attitude navigation[J]. Fishery Modernization, 2020, 47(6): 74-80. DOI:10.3969/j.issn.1007-9580.2020.06.011
[3]
陈立, 朱兵. 400000 DWT智能矿砂船冗余导航系统设计方案[J]. 船海工程, 2020, 49(3): 48-52,58.
CHEN Li, ZHU Bing. Design of redundant navigation system for 400000 DWT intelligent VLOC[J]. Ship & Ocean Engineering, 2020, 49(3): 48-52,58. DOI:10.3963/j.issn.1671-7953.2020.03.011
[4]
孙沛, 郜凌云, 贾越等. 多终端联合下的远程人机交互仿真培训系统设计[J]. 电子设计工程, 2023, 31(13): 167-172.
SUN Pei, GAO Lingyun, JIA Yue, et al. Design of remote human-computer interaction simulation training system under multi-terminal union[J]. Electronic Design Engineering, 2023, 31(13): 167-172.
[5]
陈卓, 金建海, 张波, 等. 水面无人艇自主导航与控制系统的设计与实现[J]. 中国造船, 2020, 61(z1): 89-96.
CHEN Zhuo, JIN Jianhai, ZHANG Bo, et al. Design and implementation of autonomous navigation and control system for unmanned surface vehicle[J]. Shipbuilding of China, 2020, 61(z1): 89-96. DOI:10.3969/j.issn.1000-4882.2020.z1.011
[6]
李明峰, 王胜正, 谢宗轩. 恶劣气象海况下船舶航线的多变量多目标优化建模[J]. 中国航海, 2020, 43(2): 14-19+30.
LI Mingfeng, WANG Shengzheng, XIE Zongxuan. Multi-variable-multi-objective optimization of ship routes under rough weather condition[J]. Navigation of China. 2020, 43(2): 14-19+30.
[7]
杨晓, 任鸿翔, 廉静静, 等. VR交互式三维虚拟船舶建模与仿真[J]. 中国航海, 2022, 45(1): 37-42+49.
YANG Xiao, REN Hongxiang, LIAN Jingjing, et al. 3 D virtual ship construction and simulation through VR interactive technology[J]. Navigation of China, 2022, 45(1): 37-42+49. DOI:10.3969/j.issn.1000-4653.2022.01.007