舰船科学技术  2025, Vol. 47 Issue (24): 141-146    DOI: 10.3404/j.issn.1672-7649.2025.24.022   PDF    
基于神经网络的语义编码水声通信研究
王戈, 韩雪建     
中国人民解放军海军装备部,北京 100071
摘要: 针对传统信源编码在水声通信中存在带宽利用率偏低、在低信噪比环境下抗干扰能力不足等问题,本文提出一种基于神经网络的语义信源编码水声通信方法。该方法通过引入Transformer神经网络模块,充分捕捉文本中单词和短语之间的深层次语义关系,生成紧凑和语义丰富的文本表示,大大减少文本信源的冗余,从而在源端实现高效压缩;同时在接收端利用神经网络的强表征能力进行鲁棒解码,以增强系统在复杂信道环境下的稳定性。基于2024年南海实测信道的仿真对比实验表明,相较于传统的信源编码方式,该方法在相同带宽条件下能够显著提升压缩效率和带宽利用率;在低信噪比场景下(–20~–16 dB),有效降低了错词率,通信解码质量提升明显。研究结果表明,基于神经网络的语义信源编码能够为水声通信提供一种兼具高效性与鲁棒性的解决方案,对未来复杂水声信道下的高质量通信具有一定的应用价值。
关键词: 水声通信     神经网络     Transformer网络    
Neural network-based semantic coding for underwater acoustic communications
WANG Ge, HAN Xuejian     
Armaments Department of the People's Liberation Army Navy, Beijing 100071, China
Abstract: Traditional source coding in underwater acoustic communications often suffers from low bandwidth efficiency and poor robustness under low signal-to-noise ratio (SNR) conditions. To address these issues, this paper proposes a neural network–based semantic source coding method for underwater acoustic communications. Specifically, a Transformer module is introduced to effectively capture deep semantic relationships between words and phrases, thereby generating compact and semantically rich text representations that greatly reduce redundancy at the source for efficient compression. At the receiver side, the strong representational capacity of neural networks is leveraged to achieve robust decoding, enhancing communication stability in complex channel environments. Simulation experiments based on a measured South China Sea channel in 2024 demonstrate that, compared with traditional source coding schemes, the proposed method significantly improves compression efficiency and bandwidth utilization under the same bandwidth conditions. Moreover, in low-SNR scenarios (−20 dB to −16 dB), it effectively reduces word error rate and achieves notably better decoding quality. These results indicate that the proposed neural network–based semantic source coding provides an efficient and robust solution for underwater acoustic communications, with promising application potential for achieving high-quality communications in future complex underwater channels.
Key words: underwater acoustic communications     neural network     Transformer Net    
0 引 言

目前,水声通信系统存在的局限与挑战主要包括水声通信系统资源受限严重、水下环境恶劣、信道模型缺失等[1],传统的基于比特级传输的水声通信模式,将信息编码为比特流进行传输,忽视了信息本身的语义特征,难以满足日益增长的水下通信需求。

近年来,随着深度学习等技术发展,语义编码技术逐渐成为通信领域的研究热点。与传统的比特级通信不同,语义编码通信关注的是信息的意义而非具体的比特表示,旨在实现更高效、更可靠的信息传输。针对文本传输,FARSAD 等[2]设计了基于双向长短期记忆网络(BiLSTM)的文本编译码方案,该方案使用自然语言处理中的深度学习技术对文本数据进行信源信道联合编码。仿真实验表明,所提方案优于单独的信源和信道编码,特别是在描述每个句子的比特数较少的场景下。谢慧强等[3]提出了一个名为DeepSC的基于深度学习的语义通信系统,在文本传输领域取得了显著的效果。该系统由语义层和传输层两层组成。其中,语义层提取语义信息,并进行语义编码和解码,传输层保证语义信息可以在传输介质上正确交换。为了实现语义层面的成功恢复,该研究将信源编码和信道编码通过一个深度神经网络进行了联合设计,以保证发送信号和接收信号的含义不变。此后,谢慧强等[4]对于物联网网络,在DeepSC的基础上提出了精简分布式语义通信系统L-DeepSC,用于低复杂度的文本传输。张亦弛等[5]探讨了一种面向智能体的语义通信架构,并通过一个范例来说明语义通信的实现过程,证明其相较于传统通信方式可以显著降低通信量。在该范例中,基于语义编码中并不要求每个单词对应一个编码码字,因而,只要不引起混淆, 一个码字可以分配给多个单词。同时,为了便于接收方有效译码以及增加通信的可靠性,语义编码过程需要让相同的码字所对应的不同单词之间的语义距离尽可能大。考虑到不同词性的单词间的语义距离较大,设计了基于词性的语义编码方法。对于文本传输,唐兵等[6]提出了一种基于DeepJSCC的文本传输语义通信系统。对比现有的仅反映词级恢复的性能指标,提出一种新的语义相似度指标,该指标能够反映句子级信息,并且对句子之间的语义差异敏感。仿真结果表明,该方法在BLEU和语义相似度方面都优于现有方法。此外,与传统的分离信源信道编码方法相比,该方法在低信噪比和中等信噪比下,具有显著的性能优势。为了解决文本语义通信中易受语义损伤的问题,秦志金等[7]提出了一个鲁棒深度学习支持的语义通信系统(R-DeepSC),通过引入语义校正器进行语义编码,以促进语义传输。此外,作者还开发了R-DeepSC的非自回归版本,即NA-RDeepSC,通过依赖于嵌入语义解码器的非自回归架构和自适应生成器来提高推理速度。仿真实验表明,所提方案在消除语义损伤方面具有卓越鲁棒性。为了实现更强大的语义表示和语义理解,陶梦丽等[8]提出了一种基于双重注意机制的文本语义传输系统,通过从粗到精的处理来增强语义理解。仿真实验表明,该系统在各种信道条件下的双语评价分数、句子相似度和鲁棒性方面都优于基准测试。然而,当前基于文本语义的水声信息传输研究尚处于起步阶段,且将大语言模型(如Transformer模型[9]等)引入水声语义通信较少,相对应的技术研究及试验不充分。

针对上述问题,本文提出一种基于 Transformer 神经网络的语义信源编码水声通信方法。该方法充分利用 Transformer 在捕捉长距离依赖关系和语义建模方面的优势,生成紧凑且语义丰富的文本表示,大幅降低文本冗余,提高信源压缩效率;在接收端,借助神经网络的强表征能力实现鲁棒解码,减轻低信噪比条件下的错误传播。基于 2024 年南海实测信道的仿真结果表明,该方法在相同带宽条件下显著提升了压缩效率和带宽利用率,并在 −20~−16 dB 的低信噪比环境中有效降低了错词率,通信解码质量明显优于传统方法。由此可见,所提方法为水声文本语义通信提供了一种兼具高效性与鲁棒性的解决方案,对推动复杂水声信道下的高质量通信具有重要应用前景。

1 语义编码模型与理论

本文设计了一种采用神经网络模型进行文本信源编码的语义编码模型,以良好地适应水下信道带宽小、衰落强的特点。神经网络模型通过多层神经元的复杂组合,能够充分捕捉文本中单词和短语之间的深层次语义关系,从而生成更加紧凑和语义丰富的文本,大大减少文本信源的冗余。这一方法能够有效解决传统信源编码存在的问题,提高编码的效率和质量,使得文本传输在复杂的水下环境下能够更加稳定和可靠,即使在恶劣的信道条件下,神经网络编码方案虽然不能做到无失真译码,但在语义层面上能够保留文本序列的语义信息,使得通信保持可理解性,具体传输流程如图1所示。

图 1 语义编码传输流程图 Fig. 1 Semantic coding transmission flow chart

输入的文本句子首先经过预处理,将文本映射为向量的形式,以便于机器进行学习理解。其次,映射后的向量将通过神经网络信源编码器进行信源编码,提取文本信源的语义特征,输出编码后的语义向量。随后,进行信道编码并调制。在解码端,首先进行解调和信道译码,然后使用神经网络信源译码器进行语义译码,最终将数字向量恢复为可以理解的文本序列,完成译码。

接下来详细说明语义编码传输流程中的数据预处理模块和神经网络信源编译码模块。

1.1 数据预处理

神经网络不能直接将文本符号进行输入,需要在编码前将文本转化成计算机可以理解的浮点数,方可进行编码。所以,在神经网络信源编码之前,添加一个数据预处理模块(见图2),将文本句子转化为向量。特别地,本文使用的数据集为欧洲议会(European Parliament)数据集,是一个自然语言处理编码任务领域内广泛使用的开源数据集。

图 2 数据预处理流程图 Fig. 2 Data preprocessing flowchart

首先,对输入的句子进行分词处理,将一整句话分为各个单独的单词。本文采用Python中开源库ntlk的分词器nltk.tokenize.WordPunctTokenizer,根据非字母字符将文本拆分成单词。接下来,对获得的单词序列进行一些必要的修改。由于神经网络无法自行确定句子的起始和结束,因此引入了起始符号和结束符号2个特殊符号,以明确表示句子的开头和结尾,从而降低了译码过程中的错误率。因为神经网络模型是靠维度固定的权重矩阵进行语义特征提取,所以需要保证输入序列长度一致。为了确保模型的实用性,固定输入的序列长度以后,长度过大的序列将不会输入进神经网络,长度过小的序列将会进行填补处理。最后,使用GloVe模型对生成的单词序列进行向量映射。与其他方法相比,其更侧重于捕捉单词之间的共现统计信息,并且考虑了文本中所有单词对的共现关系,从而生成更加全局和语义丰富的词向量表示,适合在语义编码的场景使用。

1.2 神经网络语义编码器

为了更深层提取文本的语义信息,本文使用3个Transformer结构构成神经网络语义编码器,其流程结构图如图3所示。

图 3 神经网络语义编码器流程图 Fig. 3 Neural network semantic encoder flowchart

神经网络语义编码器一共含有4个模块,分别为Transformer模块、DropOut模块、全连接层和二值化模块(Binarize)。前2个模块主要进行语义特征提取,逐层地来提取文本信源的语义特征,全连接层主要是控制输出维度,二值化模块主要将编码速率映射为{0,1}序列。

1.2.1 Transformer模块

Transformer为当今在图像识别、自然语言处理领域内最常用的编码器,其靠着注意力(Attention)结构,可以良好地提取信源内部的语义特征,以达到语义编码效果。Transformer编码器不仅能学到先前文本序列的语义信息,还能学到未来文本序列的语义信息,是一种可以利用全序列进行语义提取编码的神经网络编码器,主要包含词向量嵌入,位置编码和注意力机制编码器。词向量嵌入的任务是将输入的文本序列转化为机器可以理解和处理的向量形式。在一段文本序列中,单个词语出现在不同位置时,表达的含义可能存在差别,所以在输入进编码器网络前,需要添加位置编码,指明各个文字符号的位置,以免编码时丧失了文本中的语义特征。具体实现方式为:

$ PE\left( {pos,2i} \right) = \sin \left( {\frac{{pos}}{{{{10000}^{\frac{{2i}}{{{d_{{\rm{model}}}}}}}}}}} \right) ,$ (1)
$ PE\left( {pos,2i + 1} \right) = \cos \left( {\frac{{pos}}{{{{10000}^{\frac{{2i}}{{{d_{{\rm{model}}}}}}}}}}} \right)。$ (2)

式中:$ pos = 0, 1, 2, 3, \ldots $为单词在句子中的绝对位置;$ {d}_{{\rm{model}}} $为词向量的维度;i为词向量中的第几维。

注意力机制编码器由注意力模块、全连接层、归一化层组合而成。这其中最关键的是注意力模块,利用注意力机制来深度提取输入序列的语义特征,挖掘深层语义,以达到良好的编码效果。本文在注意力模块中添加了头数量,变为多头注意力模块,以更好地得到准确的注意力矩阵分数。通过一系列实验发现,Transformer结构层数过少时无法提取更深层次的语义特征,从而无法提高去冗余效果,但是层数过多又会导致编码性能下降。最终本文使用3个Transformer结构构成神经网络语义编码器。

1.2.2 DropOut模块

与Transformer模块相连的是DropOut模块,主要任务是增加模型的鲁棒性,使其泛化能力更强。在神经网络中,DropOut模块主要是通过临时关闭一些神经元,从而使网络不依赖于特定神经元的存在,这相当于在训练过程中人为引入了一种噪声,防止神经网络对训练数据的过度拟合,使其具有更加稳健的性能表现。

1.2.3 全连接层

全连接层的主要作用是对提取的特征进行整合,本文在Transformer模块之后引入了一个全连接层,使每个神经元都与上一层的所有特征相关联。这种全连接的结构使得网络能够自动学习输入数据中的复杂特征和模式,从而实现信息的提取和转换,全连接层结构示意图如图4所示。

图 4 全连接层结构示意图 Fig. 4 Schematic diagram of the fully connected layer structure
1.2.4 二值化模块

由于在信源编码时,需要将输出的符号序列映射为0或1,输出比特流,所以在神经网络编码器最后加入了二值化模块,旨在将神经网络编码出来的语义特征映射为01比特流。本项目所使用的二值化函数为:

$ f\left( x \right) = \left\{ {\begin{aligned} &1,{x \gt 0},\\ &0,{x \leqslant 0} 。\end{aligned}} \right. $ (3)

式中:x为输入符号序列;$ f\left(x\right) $为二值化输出。

1.3 神经网络译码器

对于神经网络译码器而言,其结构与神经网络编码器呈镜像对称,特别值得一提的是,由于神经网络具备强大的特征提取能力,就无需在解码端将01比特流转换为浮点数,网络可以直接对01比特流进行解码,因此在解码端无需使用二值化模块。神经网络解码器的结构如图5所示,其中包括Transformer模块、Dropout模块、全连接层模块以及Softmax模块,共同完成解码比特流输出对应文字的功能。

图 5 神经网络解码器结构 Fig. 5 Neural network decoder structure

这个结构的前半部分是神经网络编码器的镜像结构,其任务是对输入序列进行解码。特别值得注意的是,因为本文目标是在输出端生成解码后的文本,所以本文在解码器的末端添加了一个全连接层,将神经网络输出的向量长度与字典长度相匹配,提供了生成最终文字的基础。在解码的最后阶段,使用Softmax函数进行归一化,将输出序列通过非线性函数映射到[0, 1]范围内,从而获得概率序列。在全连接层中,将解码器输出的向量长度调整为字典长度,因此经过Softmax后,每个概率值都代表着对应字符的生成概率。最终,选择概率最高的字符作为神经网络的输出,完成解码的任务。Softmax函数的表达式为:

$ f\left( {{x_i}} \right) = \frac{{{e^{{x_i}}}}}{{\sum\limits_{i = 1}^n {{e^{{x_i}}}} }} \in \left( {0,1} \right)。$ (4)

式中:x为Softmax函数输入;$ f\left(x\right) $为Softmax函数输出。

2 语义编码水声通信实验结果

本文在信源信息、信道编码、调制方式、信道、信噪比等水声通信系统相关条件一致的情况下,与传统水声通信进行对比。其中信源信息为由不同单词数量、每个单词不同字母数量的若干句子组成。水声信道选择2024年南海冬季实测海洋信道,如图6所示,其发射深度为1100 m,接收深度为1006 m,发射端与接收端距离为30 km。

图 6 信道结构 Fig. 6 Channel structure
2.1 评估指标

为了评估所提出的神经网络语义编码传输模型的编解码性能,选用词错误率(WER)和双语评价标准(BLEU)从解码准确率与解码语义准确率进行评判。

2.1.1 词错误率(WER)

词错误率(WER)可用于评价文本与参考文本之间的差异程度,WER越低表示机器解码的文本越接近参考文本,因此性能越好。反之,WER越高,表示器解码的文本与参考文本差异较大,性能较差。WER的计算基于编辑距离,计算式为:

$ WER = \frac{{S + D + I}}{N}。$ (5)

式中:$ S $为替换操作的数量;$ D $为删除操作的数量;$ I $为插入操作的数量;$ N $为参考文本中的词汇总数。

2.1.2 双语评价标准(BLEU)

双语评价标准(BLEU)是一种用于自动评估机器翻译或机器解码质量的常用指标[10],设计初衷是为了在机器编解码领域评估自动解码系统生成的译文与人工参考译文之间的相似度。这种相似度与WER的操作相似度不同,可以更多地考虑2个句子之间的语义相似性作出客观性打分,计算式为:

$ BLEU = BP \times {e^{\left( {\sum\limits_{n = 1}^N {{w_n}\log \left( {{p_n}} \right)} } \right)}}。$ (6)

式中:BP为长度惩罚因子;N为使用的n-gram的最大长度;$ {w}_{n} $为不同n-gram长度的权重;$ {p}_{n} $为不同n-gram长度的匹配率(匹配数量与机器生成的译文中的n-gram总数的比例)。

BLEU越接近1表示语义特征越接近。反之,BLEU的值越接近0表示机器解码的译文与参考译文越不同,解码质量越低,语义特征受到破坏。

2.2 实验结果及分析

将若干个信源信息句子分别通过基于神经网络的语义信源编码和传统信源编码后得到的比特数如图7所示。可以看出,不同句子经过基于神经网络的语义编码以后,相较于传统信源编码具有一定的压缩效果,且句子越多、句子中的单词和字母越多,效果越明显。

图 7 语义信源编码与传统信源编码的编码效果 Fig. 7 Coding effects of semantic source coding and traditional source coding

可以发现,基于神经网络的语义信源编码对信源信息进行编码后的比特数量随着信源信息量的增加呈现阶梯性,这是因为基于神经网络的语义信源编码在对信源信息进行编码时对句子长度有限制,因此如果信源信息未超过1个固定长度时,编码后的比特数量是1个句子长度对应的比特数量;超过1个固定长度但未超过2个固定长度时,编码后的比特数量是2个句子长度对应的比特数量;以此类推。而传统信源编码对信源信息进行编码后的比特数量单纯与信源信息中的单词、字母数量有关,因此随着信源信息量的增加呈现递增性。

将相同的信源信息分别经过基于神经网络的语义信源编码和传统信源编码后,进行信道编码、调制等处理后生成水声信号,通过不同信噪比条件下的水声信道后,再分别对应通过基于神经网络的语义信源译码和传统信源译码后得到译码后的信息。对比译码信息与原始的信源信息,得到水声信道中不同信噪比条件下基于神经网络的语义信源编码与传统信源编码的WER和BLEU曲线,如图8所示。

图 8 不同信噪比条件下语义信源编码与传统信源编码的WER和BLEU曲线 Fig. 8 WER and BLEU curves of semantic source coding and traditional source coding under different signal-to-noise ratio conditions

当信噪比低于–20 dB时,水声通信系统接收端无法解出有意义的信息,因此没有解码结果。当信噪比在–20~–16 dB时,基于神经网络的语义信源编码得到的WER低于传统信源编码,同时其BLEU高于传统信源编码。在–17 dB时基于神经网络的语义信源编码方案就能实现无差错译码,但是对于传统信源编码方案在–16 dB条件下才能实现无差错译码。因此基于神经网络的语义编码相较于传统信源编码具有一定纠错效果,且抗噪声性能更优,表现出更可靠的编译码性能。

3 结 语

本文研究了基于神经网络的语义编码水声通信方法,构建了基于神经网络的语义编码模型,并研究了模型中数据预处理、神经网络语义编码器和神经网络语义译码器的主要模块和关键技术,并在不同信噪比下,对基于神经网络的语义信源编码的水声通信与传统信源编码的水声通信进行了实验室仿真对比。仿真结果表明,较传统信源编码水声通信,基于神经网络的语义信源编码水声通信具有更高的压缩效率,提高了带宽利用率;同时在相同信噪比下可大幅降低错词率,提高了译码结果的语义无损性,在低信噪比的水声信道中具有更强的鲁棒性。实验结果进一步表明在水声通信方面,基于神经网络的语义编码研究具有一定的价值和应用前景,可作为未来有效提高水声通信性能的技术手段。

参考文献
[1]
STOJANOVIC, MILICA. Underwater acoustic communications[C]// In Proceedings of Electro/International, 1995: 435-440.
[2]
FARSAD N, RAO M, GOLDSMITH A. Deep learning for joint source-channel coding of text. In 2018 IEEE International Conference on Acoustics[C]//Speech and Signal Processing (ICASSP). IEEE, 2018: 2326-2330.
[3]
XIE H, QIN Z, LI G Y, et al. Deep learning enabled semantic communication systems[J]. IEEE Transactions on Signal Processing, 2021(69): 2663-2675.
[4]
XIE H, QIN Z. A lite distributed semantic communication system for internet of things[J]. IEEE Journal on Selected Areas in Communications, 2021, 39(1): 142-153. DOI:10.1109/JSAC.2020.3036968
[5]
张亦弛, 张平, 魏急波, 等. 面向智能体的语义通信: 架构与范例[J]. 中国科学: 信息科学, 2022, 52(5): 907-921.
[6]
TANG B, LI Q, HUANG L, et al, Text semantic communication systems with sentence-level semantic fidelity[C]//2023 IEEE Wireless Communications and Networking Conference (WCNC), Glasgow, United Kingdom, 2023: 1-6.
[7]
PENG X, QIN Z, TAO X, et al. A robust semantic text communication system[J]. IEEE Transactions on Wireless Communications, 2024, 23(9): 11372-11385.
[8]
TAO M, FAN J, LUO J, et al. Coarse-to-fine semantic communication systems for text transmission[J]. IEEE Transactions on Vehicular Technology, 2025, 74(8): 13267-13271. DOI:10.1109/TVT.2025.3557400
[9]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017: 30.
[10]
PAPINENI, KISHORE, SALIM R, et al. Bleu: a method for automatic evaluation of machine translation[C]//In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002: 311-318.