Transformer网络在雷达辐射源识别中的应用

引用本文

王亮, 肖易寒. Transformer网络在雷达辐射源识别中的应用[J]. 应用科技, 2021, 48(5): 81-85, 104. DOI: 10.11991/yykj.202101008.

WANG Liang, XIAO Yihan. Application of Transformer network in radar emitter recognition[J]. Applied Science and Technology, 2021, 48(5): 81-85, 104. DOI: 10.11991/yykj.202101008.

通信作者

王亮，E-mail：1035745990@qq.com

作者简介

王亮，男，硕士研究生;
肖易寒，女，副教授，博士

文章历史

收稿日期：2021-01-12
网络出版日期：2021-08-25

Contents Abstract Full text Figures/Tables PDF

Transformer网络在雷达辐射源识别中的应用

王亮, 肖易寒

哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001

收稿日期：2021-01-12；网络出版日期：2021-08-25

作者简介：王亮，男，硕士研究生;
肖易寒，女，副教授，博士.

通信作者：王亮，E-mail：1035745990@qq.com.

摘要：由于雷达辐射源信号在时序上具有强相关性，针对卷积神经网络难以提取信号的时序逻辑相关性特征的缺点，本文提出了基于Transformer网络的雷达辐射源个体识别的方法。该方法首先以3台信号发生器模拟雷达辐射源信号，同时采集数据并建立数据库；然后对原始信号提取相位特征以及包络特征；最后采用基于注意力机制的Transformer网络对信号进行进一步的特征提取并分类。实验结果表明，该算法对于包络特征以及相位特征敏感度不同，同时数据样本长度对于识别效果会产生影响，最终结合相位特征的网络模型在信噪比为15 dB时识别率可以达到98.9%。

关键词：雷达辐射源线性调频信号神经网络 Transformer网络包络特征相位特征位置编码注意力机制

Application of Transformer network in radar emitter recognition

WANG Liang, XIAO Yihan

College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China

Abstract: Due to the strong correlation of radar emitter signals in time sequence, it is hard for convolution neural network to extract the characteristics of time sequence logic correlation. A method of radar emitter individual recognition is proposed based on Transformer network. Firstly, three signal generators are used to simulate radar emitter signals, and the data are collected and the database is established. Then, the phase feature and envelope feature are extracted from original signals. Finally, the attention mechanism based Transformer network is adopted for further feature extraction and classification. Experimental results show that the sensitivity of the algorithm to envelope feature and phase feature is different, and the data sample length will affect the recognition effect. However, the recognition rate of the network model combined with phase feature can reach 98.9% when the signal-to-noise ratio is 15 dB.

Keywords: radar emitter linear frequency modulation signal neural network Transformer network envelope feature phase feature position coding attention mechanism

雷达是战争环境下的重要信息来源，可以获得千里之外的战争情报，因此如何获得敌方雷达信息，并且针对敌方雷达进行有效地识别与干扰则显得尤为重要。雷达辐射源识别工作实际上是对不同的雷达辐射源产生的信号进行特征提取，然后进行识别，由于信号特征来自辐射源个体的硬件部分，因此又称辐射源识别。目前对于雷达辐射源个体的识别工作主要可以分为2个过程，先进行特征提取，再进行分类，从而完成辐射源的识别^[1]。目前，将深度学习应用到雷达辐射源个体识别工作的研究越来越多，但是本质上仍然是从信号的脉内特征或个体特征等方面进行识别^[2]。卷积神经网络是应用最为广泛的一类深度学习方法，但是在将数据送入网络之前一般会对原始数据提取初步特征，如双谱特征^[3]。但是卷积神经网络容易产生梯度问题，因此可以引入残差网络进行优化^[4]。除此之外，其他深度学习方法如强化学习^[5]、InfoGAN网络^[6]等也可以用于特定辐射源信号特征提取与识别。

然而上述深度学习方法在进行辐射源识别时存在一些问题：一方面雷达辐射源信号的单脉冲时域信号前后具有强相关性，上述方法对于这种特性的关注度不够；另一方面单脉冲信号的数据量较大，采用不同数据量的识别效果不同。为了解决上述问题，本文采用将Transformer网络应用于雷达辐射源识别工作，并探究不同因素对于识别效果的影响。

1 脉冲信号特征提取 1.1 信号包络特征提取

为了能够提取到雷达辐射源信号自身具有的个体特征，需要对采集后的信号进行预处理，同时尽量避免影响到信号原本的信息。不同信号发射器的功率等方面存在差异，为了使信号幅值与能量保持一致，需要对原始信号进行幅度归一化操作^[7]。为了消除原始信号中突变或无效的点带来的影响，本文使用内部归一化的思想进行信号处理，采用Hilbert变换法取出包络^[8]，原始信号 $ s(t) $ 的Hilbert变换为

$ \bar s(t) = s(t) * \frac{1}{{{\text π} t}} = \int\limits_{ - \infty }^{ + \infty } {\frac{{x(\tau )}}{{t - \tau }}} {\rm{d}}\tau $

取信号包络特征具体操作如下：

1) 首先将原始信号 $s(t)$ 中间约 $\dfrac{2}{3} $ 的稳态信号 $x(t)$ 作为标准，计算全部点数的平均幅值A；

2) 对原始信号 $s(t)$ 做Hilbert变换，取出其实部 $s'(t)$ 与虚部 $ \bar s'(t)$ ；

3) 计算包络幅值 $S(t) = \sqrt {{{\left| {s'(t)} \right|}^2} + {{\left| {\bar s'(t)} \right|}^2}} $ ，再将其除以平均幅值得到归一化后的包络。

图1展示了信号包络及其上升沿的部分，而上升沿数据量较少，大部分信号仍处于稳态。

	Download: JPG larger image
图 1 信号包络上升沿部分

1.2 信号相位特征提取

信号包络特征作为特征时存在受噪声影响较大的缺点，在噪声强度较高时，会产生较大的起伏。脉内无意相位调制特征同样可以反映出信号无意特征，而相位特征更多体现在信号的稳态部分^[9]。取相位具体过程如下:

1) 对原始信号做Hilbert变换，取出其实部 ${s'(t)}$ 与虚部 ${\bar s'(t)}$ ；

2) 对脉冲信号相位为信号实部与虚部的反正切变换，即 $\varphi \left( t \right) = \arctan \left( {\bar s'(t)/s'(t)} \right)$ 。

如图2所示是信号发生器某个脉冲的稳态相位信息，该信号折叠相位在 $ [ - {\text π} ,{\text π} ] $ 之间成周期性变化，在不同的雷达辐射源信号中相位信息会发生变化，体现辐射源个体之间的差别。

	Download: JPG larger image
图 2 信号稳态部分相位

2 基于注意力机制的Transformer网络算法 2.1 Transformer网络基本结构

Transformer网络最初是Google在2017年提出的，该结构采用了注意力机制来对输入数据进行并行方式的特征提取，为了保证前后数据的关联性，该网络使用位置编码来对输入数据的位置信息进行记录。因此，一方面Transformer结构仍然可以保证数据前后的关联性；另一方面，由于并行输入，使得网络训练时间大大缩短。如图3所示是Transformer网络基本结构单元，完整的Transformer特征提取网络结构由两部分构成，编码器Encoder与解码器Decoder，在进行特征提取时，首先将输入数据送入编码器进行编码，得到数据的自相关性等特征，然后再由解码器解码，输出序列^[10-11]。

	Download: JPG larger image
图 3 Transformer基本结构

Transformer结构采用注意力机制来进行特征提取，本文所需要完成的工作是多台信号源发生器的识别，需要完成不同信号源发生器产生的信号分类工作，因此仅需用到编码器来提取特征。一般情况下，为了充分提取特征，在将数据进行位置编码后，送入到多层结构相同的编码器中，单层编码器一般由自注意力层和全连接层组成。自注意力层一般使用多头注意力机制，在这两层中间可以添加残差网络等结构。

2.2 位置编码

Transformer网络结构由于不是按照时序结构顺序提取特征的，因此没有结合数据不同位置的序列关系，这对于学习诸如雷达信号这类前后关联性较强的数据特征是极其不利的。因此，在原始数据分段后，需要对其进行位置编码，使之带有位置信息，保持数据相关性^[12]。位置编码公式为

$ \begin{array}{l} {\boldsymbol{P}}{{\boldsymbol{E}}_{2i}}(p) = \sin ({p \mathord{\left/ {\vphantom {p {10{\text{ 00}}{{\text{0}}^{{{2i} \mathord{\left/ {\vphantom {{2i} {{d_{{\rm{pos}}}}}}} \right. } {{d_{{\rm{pos}}}}}}}}}}} \right. } {10{\text{ 00}}{{\text{0}}^{{{2i} \mathord{\left/ {\vphantom {{2i} {{d_{{\rm{pos}}}}}}} \right. } {{d_{{\rm{pos}}}}}}}}}}) \hfill \\ {\boldsymbol{P}}{{\boldsymbol{E}}_{2i + 1}}(p) = \cos ({p \mathord{\left/ {\vphantom {p {10{\text{ 00}}{{\text{0}}^{{{2i} \mathord{\left/ {\vphantom {{2i} {{d_{{\rm{pos}}}}}}} \right. } {{d_{{\rm{pos}}}}}}}}}}} \right. } {10{\text{ 00}}{{\text{0}}^{{{2i} \mathord{\left/ {\vphantom {{2i} {{d_{{\rm{pos}}}}}}} \right. } {{d_{{\rm{pos}}}}}}}}}}) \hfill \\ \end{array} $

式中： $ {d_{{\rm{pos}}}} $ 为某段信号 $ p $ 在信号脉冲中的实际位置， $ {\boldsymbol{PE}} $ 为处于 $ {\rm{pos}} $ 位置信号的向量。在编码后，原始数据如雷达特征序列可以保持前后的关联信息，同时网络的并行运算使得Transformer的长距离学习能力较为优秀。

2.3 注意力机制

Transformer网络的核心算法是注意力机制，缩放点积注意力机制是其中的一种，其优点在于可以批量处理数据。可以表示为

$ {\text{attention}}({\boldsymbol{Q,K,V}}) = {\text{softmax(}}\frac{{{\boldsymbol{Q}} \cdot {{\boldsymbol{K}}^{\bf{T}}}}}{{\sqrt {{d_k}} }}{\text{)}}{\boldsymbol{V}} $

式中 $ \sqrt {{d_k}} $ 为 $ {\boldsymbol{Q}} $ 或 $ {\boldsymbol{K}} $ 的维度。首先将键值 $ {\boldsymbol{Q}} $ 与键值 $ {\boldsymbol{K}} $ 的转置矩阵 $ {{\boldsymbol{K}}^{\bf{T}}} $ 进行点积操作，但是由于键值相乘后数值范围波动较大，在反向梯度运算时容易出现问题。因此将 $ {\boldsymbol{Q}} \cdot {{\boldsymbol{K}}^{\bf{T}}} $ 后的结果除以 $ \sqrt {{d_k}} $ ，从而可以对结果进行缩放，使得注意力的值不会仅停留于得分值最高的那一部分，获得更好的泛化能力，改善其精度。

为了让注意力机制具有更高的运算效率，Transformer框架将多个缩放点积注意力机制结合，组成了多头注意力机制^[13-14]，n个头的多头注意力机制可以表示为

$ \begin{array}{l} {{\boldsymbol{h}}_{\boldsymbol{i}}} = {\rm{attention}}({\boldsymbol{QW}}_{\boldsymbol{i}}^{\boldsymbol{Q}}{\boldsymbol{,KW}}_{\boldsymbol{i}}^{\boldsymbol{K}}{\boldsymbol{,VW}}_{\boldsymbol{i}}^{\boldsymbol{V}}) \hfill \\ {\boldsymbol{H}} = {\text{Concat}}({{\boldsymbol{h}}_{\boldsymbol{1}}},{{\boldsymbol{h}}_{\boldsymbol{2}}}, \cdots ,{{\boldsymbol{h}}_{\boldsymbol{n}}}) \hfill \\ \end{array} $

式中：Concat为对多个单独的点积注意力机制进行拼接；参数矩阵 $ {\boldsymbol{W}}_{\boldsymbol{i}}^{\boldsymbol{Q}} \in {R^{d{}_{{\rm{model}}} \times {d_q}}} $ ， $ {\boldsymbol{W}}_{\boldsymbol{i}}^{\boldsymbol{K}} \in {R^{d{}_{{\rm{model}}} \times {d_k}}} $ ， $ {\boldsymbol{W}}_{\boldsymbol{i}}^{\boldsymbol{V}} \in $ $ {R^{d{}_{{\rm{model}}} \times {d_v}}} $ ， $ {d_{{\rm{model}}}} $ 为编解码过程的向量维度。具体过程如图4所示：首先，将 $ {\boldsymbol{Q}} $ 、 $ {\boldsymbol{K}} $ 与 $ {\boldsymbol{V}} $ 通过一个Linear层进行线性变换，这一点与单层的点积注意力机制相同，之后进行n次单层点积变换，每个机制的参数完全独立，不会共用，在n次运算完毕后，最终得到输出 $ {\boldsymbol{H}} $ 。

	Download: JPG larger image
图 4 多头注意力机制结构

如图4所示，这种多头注意力机制是将多头运算的结果进行拼接而成，原始数据经过不同空间的映射，使得模型能够从多个方面进行特征提取。同时多头机制也同样能够对不同位置的雷达数据提取它们逻辑之间的关系。另外，这种机制具有更加强大的矩阵并行运算能力。

2.4 基于Transformer网络的雷达辐射源算法

雷达辐射源信号一般会具有较大的数据量，对于单个脉冲而言，其中可以包含几万甚至十几万个点，并且数据前后的关联性较强，因此Transformer模型适合用来对雷达辐射源信号进行特征提取。一方面多头自注意力机制能够将数据进行并行的快速运算，另一方面，位置编码使得数据具有关联性。图5给出了Transformer模型提取雷达辐射源信号特征的前向特征提取的具体流程。

	Download: JPG larger image
图 5 Transformer提取特征流程

1)输入信号预处理。首先对雷达信号进行归一化，然后提取雷达包络特征或相位特征，最后进行数据截取。

2)对信号分段。假设将每个脉冲信号S分为n段，即 $ {\boldsymbol{S}} = ({t_1},{t_2}, \cdots ,{t_n}) $ ，每段包含k个点，则每段数据为 $ {t_i} = (t_i^1,t_i^2, \cdots ,t_i^k) $ 。因此网络数据输入形式为 ${{\boldsymbol{T}}_{{\bf{batch}}}} = ((t_1^1,t_1^2, \cdots ,t_1^k),(t_2^1,t_2^2, \cdots ,t_2^k), \cdots ,(t_n^1,t_n^2, \cdots ,t_n^k)) $

3)特征提取。设分段信号S通过隐藏层得到特征向量为 $ {{\boldsymbol{b}}_i} = (b_i^1,b_i^2, \cdots ,b_i^k) $ 。因此将单个样本经过6层Transformer网络会得到特征集合 $ {{\boldsymbol{B}}_{{\rm{batch}}}} = $ $ ((b_1^1,b_1^2, \cdots ,b_1^k),(b_2^1,b_2^2, \cdots ,b_2^k), \cdots ,(b_n^1,b_n^2, \cdots ,b_n^k)) $ 。

4)分类。最后将特征集合进行均值池化操作，得到： $\overline {{{\boldsymbol{B}}_{{\rm{batch}}}}} = (\overline {(b_1^1,b_2^1, \cdots ,b_n^1)} ,\overline {(b_1^2,b_2^2, \cdots ,b_n^2)} , \cdots ,\overline {(b_1^k,b_2^k, \cdots ,b_n^k)} )$ 再将该特征数据通过全连接层输出辐射源种类数并分类。

3 实验模型训练与测试

本文采用3种信号发生器进行实际信号采集，模拟真实雷达数据，从而进行更加符合战场情况的雷达辐射源个体识别工作^[15]。通过添加高斯噪声来改变信噪比，全部信号均为线性调频信号，信号参数设置如表1所示。

表 1 无意信号参数设置

除此之外，各参数均包括正负2种斜率，因此每个信号发生器产生2 160个脉冲，其中80%用于训练，20%用于测试。在进行单个脉冲的数据截取时，首先需要将原始数据对齐，以方便截取数据。对于包络信息来说，其上升沿以及下降沿包含较多的特征信息，因此在提取时需要保留。而对于相位信息而言，在信号起振时相位并不稳定，因此上升沿处的相位信息最好舍弃，取稳态处的相位信息。

图6为信号截取位置示意图，在取用包络特征数据时，以原始信号包络幅值为0.1处作为起始值，根据需要的数据量进行数据的截取；而在提取相位数据时，首先以包络幅值为1处对齐，此时，相位已经达到了稳定状态，以该处作为数据起始的索引点，对原始信号进行相位变换，并在索引点处对相位特征数据进行截取。

	Download: JPG larger image
图 6 信号截取位置示意

在模型参数选择的问题上，损失函数选择适合于数据分类的交叉熵(cross entropy，CE)损失函数。由于训练时需要改变数据长度，因此数据维度视数据量而定。Transformer网络单元设置为6个，在网络训练时，采用Adam优化函数。学习率设置初始值为0.001，以使得梯度快速下降，在100个循环后，设置为0.000 1，以防止梯度跨度过大，难以收敛。对于参数的选择如表2所示。

表 2 参数设置

为了验证网络提取特征的有效性，每类信号源取150个添加10 dB噪声的原始数据，经过Transformer网络层得到输出，并且进行均值池化后，再将数据通过t-SNE方法进行降维，从而将特征数据可视化。如图7所示，由图中可以看出经过特征提取的数据具有可区分的特征。

	Download: JPG larger image
图 7 Transformer网络提取特征可视化

在本文方法中，单个数据样本的长度对于识别结果的影响较大，而识别率是评价网络模型好坏的最有效手段，图8~11是针对于单个脉冲样本取用不同长度数据以及在不同信噪比下的识别率折线图，其中单个脉冲数据长度分别设置为100个点、200个点、500个点以及1000个点，添加的噪声为高斯噪声，信噪比为0～15 dB，间隔为5 dB。

	Download: JPG larger image
图 8 100个数据点识别率

	Download: JPG larger image
图 9 200个数据点识别率

	Download: JPG larger image
图 10 500个数据点识别率

	Download: JPG larger image
图 11 1 000个数据点识别率

从图8~11中可以看出各种因素均会对于最终识别率产生影响。首先，就数据长度而言，不同的数据长度对于结果影响较大，在单个样本点数为100点时，无论哪种方法，整体识别率均较低，这是由于单个样本的雷达数据过小，无法在较小的数据上提取到有效特征而导致的。随着数据长度的增加，各种方法的识别率均有所上升，尤其是相位数据，识别效果随数据长度的增长最为迅速。表3给出了本文方法采用相位数据的识别混淆矩阵，表示了在信噪比为15 dB时网络对于每一类的识别情况。其中第1行为真实数据标签，第1列为预测标签。

表 3 识别混淆矩阵

对于不同的特征而言，在数据长度为100个点时，包络特征的识别率要高于相位特征，这是由于本文方法在提取包络上升沿部分的特征时更加有效，之后虽然包络数据长度仍然在增长，但是由于该方法难以对包络稳态部分进行有效地特征提取，因此识别率却几乎没有变化。而结合相位特征的识别率却随着数据长度的增加在逐渐上升，并在数据长度为500点时趋于稳定。最后，对于不同的信噪比而言，噪声对于包络特征的影响要更大一些。

4 结论

本文首先对3台信号源发生器进行信号采集，以模仿真实雷达辐射源数据。在Pytorch平台下构建了Transformer网络模型，并将3台信号发生器采集的LFM信号的包络特征以及相位特征作为网络的输入，从而实现对信号源数据的识别与分类。同时本文探究了样本的不同长度对于识别效果的影响。结果表明，本文算法对于原始信号不同特征的敏感度不同，在提取相位特征时更加有效。并且在每个相位特征样本长度为500个点时即可基本达到最佳的识别效果，同时该方法具有较强的抗噪声性能。

参考文献

[1]	陈一鸣, 朱磊, 俞璐, 等. 基于深度学习的通信辐射源识别研究综述[J]. 通信技术, 2020, 53(8): 1846-1850. DOI:10.3969/j.issn.1002-0802.2020.08.002 (0)
[2]	李昆, 朱卫纲. 基于机器学习的雷达辐射源识别综述[J]. 电子测量技术, 2019, 42(18): 69-75. (0)
[3]	DING Lida, WANG Shilian, WANG Fanggang, et al. Specific emitter identification via convolutional neural networks[J]. IEEE communications letters, 2018, 22(12): 2591-2594. DOI:10.1109/LCOMM.2018.2871465 (0)
[4]	PAN Yiwei, YANG Sihan, PENG Hua, et al. Specific emitter identification based on deep residual networks[J]. IEEE access, 2019, 7: 54425-54434. DOI:10.1109/ACCESS.2019.2913759 (0)
[5]	冷鹏飞, 徐朝阳. 一种深度强化学习的雷达辐射源个体识别方法[J]. 兵工学报, 2018, 39(12): 2420-2426. DOI:10.3969/j.issn.1000-1093.2018.12.016 (0)
[6]	GONG Jialiang, XU Xiaodong, LEI Yingke. Unsupervised specific emitter identification method using radio-frequency fingerprint embedded InfoGAN[J]. IEEE transactions on information forensics and security, 2020, 15: 2898-2913. DOI:10.1109/TIFS.2020.2978620 (0)
[7]	谷文堃, 王党卫, 彭尚, 等. 分布式OFDM-MIMO雷达包络对齐方法[J]. 华中科技大学学报(自然科学版), 2014, 42(10): 19-24. (0)
[8]	石荣, 邓科, 阎剑. 两种脉冲信号包络提取方法的联系及性能分析[J]. 无线电工程, 2021, 51(1): 1-7. DOI:10.3969/j.issn.1003-3106.2021.01.001 (0)
[9]	孙华泽, 张晓林. 基于瞬时相位新特征的数字调制信号识别[J]. 应用科技, 2020, 47(6): 30-35, 52. (0)
[10]	张冬瑜, 崔紫娟, 李映夏, 等. 基于Transformer和BERT的名词隐喻识别[J]. 数据分析与知识发现, 2020, 4(4): 100-108. (0)
[11]	王侃, 曹开臣, 徐畅, 等. 基于改进Transformer模型的文本摘要生成方法[J]. 电讯技术, 2019, 59(10): 1175-1181. DOI:10.3969/j.issn.1001-893x.2019.10.011 (0)
[12]	郭晓然, 罗平, 王维兰. 基于Transformer编码器的中文命名实体识别[J]. 吉林大学学报(工学版), 2021, 51(3): 989-995. (0)
[13]	LIAO Fei, MA Liangli, PEI Jingjing, et al. Combined self-attention mechanism for Chinese named entity recognition in military[J]. Future internet, 2019, 11(8): 180. DOI:10.3390/fi11080180 (0)
[14]	ZHANG Tongxuan, LIN Hongfei, TADESSE M M, et al. Chinese medical relation extraction based on multi-hop self-attention mechanism[J]. International journal of machine learning and cybernetics, 2021, 12(2): 355-363. DOI:10.1007/s13042-020-01176-6 (0)
[15]	唐婷. 一种任意波形发生器的波形文件产生方法[J]. 电子设计工程, 2017, 25(8): 75-77, 82. (0)