基于模板的瞬时RFI特征识别算法初探
张亚州1,2, 张海龙1,2,3,4, 张萌1,2, 王杰1,4, 冶鑫晨1,4, 王万琼1, 李嘉1, 杜旭1,2     
1. 中国科学院新疆天文台,新疆 乌鲁木齐 830011;
2. 中国科学院大学,北京 100049;
3. 中国科学院射电天文重点实验室,江苏 南京 210033;
4. 国家天文科学数据中心,北京 100101
摘要: 瞬时射频干扰(Radio Frequency Interference, RFI)信号是最难以识别并消除的一类干扰。针对射电天文观测过程中遇到瞬时射频干扰问题,提出一种基于射频干扰信号峰值的特征提取方法,利用该方法生成射频干扰信号的特征模板,并基于动态时间规整(Dynamic Time Warping, DTW)算法和打分策略设计特征识别算法,实现了射频干扰信号识别以及分类功能,利用ARRL官网(http://www.arrl.org/sounds-of-rfi)提供的射频干扰数据完成了特征模板的交叉验证对比。测试结果显示,射频干扰特征模板与同类别射频干扰相似度高,表明该算法能够对射频干扰进行识别和分类。该算法为瞬时射频干扰的特征提取以及识别提供了一种新思路。
关键词: 射频干扰    周期计算    特征提取    特征识别    
Preliminary Study of Transient RFI Feature Recognition Algorithm Based on Template
Zhang Yazhou1,2, Zhang Hailong1,2,3,4, Zhang Meng1,2, Wang Jie1,4, Ye Xinchen1,4, Wang Wanqiong1, Li Jia1, Du Xu1,2     
1. Xinjiang Astronomical Observatory, Chinese Academy of Sciences, Urumqi 830011, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China;
3. Key Laboratory of Radio Astronomy, Chinese Academy of Sciences, Nanjing 210033, China;
4. National Astronomical Data Center, Beijing 100101, China
Abstract: Transient radio frequency interference (RFI) signals are one of the most difficult types of interference to identify and eliminate. This paper proposes a feature extraction method based on RFI signal peaks for the problem of transient RFI encountered during radio astronomical observations. The method is used to generate a feature template for RFI signals, and a feature recognition algorithm is designed based on the Dynamic Time Warping (DTW) algorithm and scoring strategy to achieve RFI signal recognition and classification. The cross-validation comparison of the feature templates is completed using the RFI data provided by the ARRL website. The test results show that the RFI feature templates are highly similar to the same category of RFI, indicating that the algorithm is capable of identifying and classifying RFI, which provides a new idea for the feature extraction and identification of transient RFI.
Key words: RFI    periodic computation    feature extraction    feature recognition    

随着射电天文技术的进步,射电望远镜向大口径及阵列方向发展。中国500 m口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope, FAST)[1]、荷兰低频阵列(the Low-Frequency Array, LOFAR)[2]以及美国新墨西哥州的甚大天线阵(Very Large Array, VLA)[3]等观测设备具备高灵敏度和高分辨能力。望远镜在观测宇宙微弱天文信号的同时,也接收到干扰信号,强度比微弱天文信号强几个数量级的人为射电干扰信号,在射电天文数据处理过程中必须得到有效抑制。

射频干扰来源多种多样,文[4]将射频干扰分为外部射频干扰和内部射频干扰,外部射频干扰特指天文台址外产生的无线干扰,常见的有人造卫星[5](北斗和全球定位系统导航卫星等)、飞机、附近的基站信号以及广播信号等; 内部射频干扰是指在天文台址内使用的电子设备,如各类数字终端设备、计算机、微波炉、咖啡机、荧光灯以及其他电子仪器等产生的射频干扰。

射电天文学发展过程中,射频干扰抑制一直是研究热点。文[6]提到天文信号通常为宽频带且在时间尺度上平滑变化,绝大部分射频干扰与天文信号相比有明显的差异。针对射频干扰抑制,文[7]提出了CUSUM(Cumulative Sum)方法,该方法简单高效,但依赖于单点采样,对噪声比较敏感。为了克服这一局限性,文[8]提出了基于计算相邻采样点的组合阈值表示算法SumThreshold,文[9]利用奇异值分解来解决巨型米波射电望远镜(Giant Metrewave Radio Telescope, GMRT)宽带射频干扰问题。这些算法本质上基于阈值实现,处理幅值远大于天文信号的射频干扰信号时效果较好,但对于特征与天文信号接近的射频干扰信号,阈值法可能误删天文信号,导致信息丢失,影响天文研究的准确性和有效性。

瞬时射频干扰是某些设备或系统正常运行时释放的射频信号。继电器、电动机和开关电源都会产生瞬时干扰。由于瞬时干扰信号是宽频、脉冲的,而且持续时间非常短,难以识别来源。文[10]提出了基于字典的瞬时射频干扰分类算法,使用隐马尔科夫模型将瞬态射频干扰识别为子序列,并能从观测数据中提取瞬时射频干扰序列。

1 射频干扰信号特征提取算法 1.1 信号周期计算

大部分射频干扰信号在时间尺度上呈现明显的周期波动。为了分析射频干扰信号的特征信息,我们需要对信号分窗处理,窗口大小与信号周期信息密切相关,计算信号周期是分析特征信息的重要前提。

信号周期计算算法有传统的倒谱法、自相关函数法、平均幅度差函数法和小波变换法等[11]。自相关函数法是一种非常有效的低信噪比信号周期估计算法[12]。基于自相关函数法,本文设计了一种自相关卷积滑动算法计算射频干扰信号的周期。算法过程为

(1) 对一段长度为N的射频干扰信号振幅取绝对值;

(2) 从射频干扰信号上截取一段长度为M的信号作为滑动窗口信号;

(3) 滑动窗口与射频干扰信号从起始位置进行卷积,每次向后滑动d个采样点;

(4) 重复步骤(3),直至滑动窗口移动到射频干扰信号尾部;

(5) 利用卷积后结果的峰值信息计算信号的周期。

滑动窗口大小M的取值需要小于射频干扰信号长度N图 1中滑动窗口大小$ M=\frac{1}{18} N$。为了精确计算周期,每次滑动步长d取值为1,当窗口滑动到射频干扰信号尾部时,剩余信号长度如果小于滑动窗口信号长度,需要进行填零处理。图 1是对k7ing-3545 kHz(http://www.arrl.org/files/file/RFI%20Sounds/k7ing-3545khz.mp3)的周期分析,选取图 1(a)0.65~0.94 s共0.29 s的信号。周期计算的结果如图 1(b),我们可以明显地看到周期性尖峰,通过求平均,计算该射频干扰信号的周期。

图 1 (a) k7ing-3545 kHz噪声信号时域图; (b)k7ing-3545 kHz噪声信号周期图 Fig. 1 (a) Time domain diagram of k7ing-3545 kHz noise signal; (b) periodogram of k7ing-3545 kHz noise signal
1.2 射频干扰信号特征提取

峰值是射频干扰信号重要的特征信息,能够刻画信号波动的变化细节。射频干扰信号特征提取过程的具体步骤为

(1) 选取射频干扰信号窗口;

(2) 对该窗口信号的振幅取绝对值;

(3) 获取该信号窗口的峰值信息;

(4) 对离散峰值信息进行平滑预处理;

(5) 处理后的峰值信息作为射频干扰信号的特征信息。

算法第1步选取射频干扰信号窗口,对一段包含射频干扰的信号提取特征信息时,我们需要选取一段时间跨度尽可能短且至少包含一个完整射频干扰周期信息的信号段,根据1.1节提出的射频干扰信号周期计算方法确定信号周期。射频干扰信号相对于其他信号振幅较大,起始和终止位置明确,算法将信号振幅突增的位置作为窗口的起始点。射频干扰信号特征提取窗口大小与计算得到的周期相关,计算机显示器产生的干扰信号窗口选择如图 2,窗口大小为D。第2步对信号的振幅求绝对值,以获取更多的峰值信息。第3步利用振幅特性,获取窗口的峰值信息。第4步对获取的峰值信号进行预处理,将相邻且振幅大小相差较小的值用均值代替,平滑峰值曲线,减少局部波动,缩小同类别信号差异,提高识别效率。图 3(a)为射频干扰信号峰值信息折线图,波动趋势不平稳,不利于后续特征识别。平滑处理后射频干扰信号的峰值曲线如图 3(b),曲线相对平稳,能够缩小同类信号的差异。平滑处理后的峰值信息作为识别射频干扰信号的特征模板,可以进行相似度计算。

图 2 射频干扰信号窗口选取 Fig. 2 Selection of RFI signal window
图 3 (a) 射频干扰信号的峰值曲线; (b)平滑后射频干扰信号的峰值曲线 Fig. 3 (a) Peak curve of RFI signal; (b) smoothed RFI signal peak curve
2 射频干扰信号特征相似度算法

对未知信号进行特征提取后,计算与已知特征模板的相似程度,实现对未知射频干扰信号的识别和分类。算法采用分段打分策略计算两个序列的相似程度,每个序列根据相邻离散点可以分为多个区段,比较两个序列对应区段的趋势是否相同,进行记分,趋势相同加分,否则减分。

在相似度计算前,要确保这两个序列处于对齐状态,即确定两个序列的区段是否一一对应。待识别信号具体细节未知,提取峰值信息后,离散的峰值信息几乎不可能与特征模板对齐,即相位信息没有对齐,因此,峰值位置信息等都需要重新调整,为计算相似度做准备。

文[13]提出了一种测量时间序列相似性的方法,即动态时间规整,该方法能够比较不同长度的时间序列[14],已广泛应用于语音信号处理。该算法计算得到的欧几里得距离越小,表明两种声音模式的相似度越高[15]。利用动态时间规整算法计算两个长度不同序列的欧几里得距离最小时,两个序列的相位点对应情况如图 4

图 4 使用动态时间规整算法后两个序列的相位点对应情况 Fig. 4 Correspondence between the phase points of the two sequences after using the DTW algorithm

基于动态时间规整算法,本文设计了射频干扰信号特征相似度计算算法,具体过程为

(1) 通过动态时间规整算法计算两组序列在最短欧几里得距离条件下离散点的对应情况;

(2) 计算未知信号离散点的权重值;

(3) 分段比较,如果对应段的变化趋势相同,相似度分数增加,否则相似度分数减小;

(4) 累计各段的分数,总分数代表两个序列的相似程度。

射频干扰信号特征相似度计算算法第1步利用动态时间规整算法求得待比较序列在最小欧几里得距离下离散点的对应情况,为后续计算做准备。第2步计算被比较序列的离散点权值,计算方法为

$ W(t)=\left\{\begin{array}{cl} \frac{S(t)}{\sum\limits_{i=2}^{D-1} S(i)} & 2 \leqslant i \leqslant D-1 \\ 0 & i=1 \quad \text { or } \quad i=D \end{array}\right., $ (1)

其中,D为序列的离散点点数; S(t)为序列第t个离散点的幅值; W(t)为序列第t个离散点的权重,离散值越大,权重越大,在信号特征中的代表性越强。为了使相似度介于-1到1之间,第一个和最后一个的权重设置为0。

第3步进行序列相似度计算,采用分段打分累计的方式。通过动态时间规整算法计算每一区段的对应情况,采用分段比较方式,如图 4。两个序列的区段有趋势相同、趋势不同和一对多3种情况,两个区段的趋势相同时加分,计算公式为

$ { score }= { score }+M[i], $ (2)

其中,score是两个序列相似度的累积分数; M[i]是第i个区段的权重,大小为区段的两个离散点权重的平均值,即0.5×(W[i]+W[i+1])。两个区段的趋势不同时减分,计算公式为

$ { score }= { score }-M[i] . $ (3)

一对多情况不进行加减分。计算并累计各段的分数后得到两个序列相似度值。

3 实验结果与分析

本文选择ARRL官网提供的干扰源作为实验数据,选择7种射频干扰源进行交叉测试,基本信息如表 1。为方便对射频干扰信号进行特征提取及后续识别测试,利用1.1节提出的射频干扰信号周期计算法得到各实验数据周期采样点数,以便下一步特征提取及识别测试。

表 1 射频干扰源的基本信息 Table 1 Basic information on RFI sources
Name Sampling rate/Hz Samples per cycle Cycle/s
k7ing-3545 kHz 32 000 529 0.016 53
ks2am-streetlight 32 000 547 0.017 09
monitor 22 050 372 0.016 87
n6rce-sps-carrier 44 100 728 0.016 50
plc-4 32 000 1 321 0.041 28
ausoth 44 100 797 0.018 07
18120oth25 11 025 443 0.040 18

随机选取每个信号的10个周期作为测试数据,提取相应候选特征模板与其他信号进行交叉测试,选择与相同信号相似度大且与其他信号相似度较低的候选模板为最优模板。如图 5(a)选取k7_2作为k7ing-3545 kHz的特征模板,(b)选取ks_9作为ks2am-streetlight的特征模板,(c)选取mo_4作为monitor的特征模板,(d)选取n6_10作为n6rce-sps-carrier的特征模板。图 6(a)选取pl_8作为plc-4的特征模板,(b)选取au_7作为ausoth的特征模板,(c)选取ot_4作为18120oth25的特征模板。

图 5 (a) 选择k7ing-3545 kHz不同模板的相似度结果; (b)选择ks2am-streetlight不同模板的相似度结果; (c)选择monitor不同模板的相似度结果; (d)选择n6rce-sps-carrier不同模板的相似度结果 Fig. 5 (a) Similarity results for different templates selected for k7ing-3545 kHz; (b) similarity results for different templates selected for ks2am-streetlight; (c) similarity results for different templates selected for monitor; (d) similarity results for different templates selected for n6rce-sps-carrier
图 6 (a) 选择plc-4不同模板的相似度结果; (b)选择ausoth不同模板的相似度结果; (c)选择18120oth25不同模板的相似度结果 Fig. 6 (a) Similarity results for different templates selected for plc-4; (b) similarity results for different templates selected for ausoth; (c) similarity results for different templates selected for18120oth25

提取每个信号最优特征模板所在组的数据,结果如表 2。相同信号的相似度在所在行最大,表明提取的射频干扰特征模板能够较正确地识别射频干扰来源。算法的相似度计算基于特征模板得出,权值计算依赖于特征模板,即计算两个序列的相似度时,权值的大小只与特征模板有关,因此与对角线互为对称的数值不同。同一信号在不同周期内存在差别,造成同一信号的相似度小于1。

表 2 射频干扰信号相似度验证平均值结果 Table 2 RFI signal similarity verification average results
Templates k7ing-3545 kHz ks2am-streetlight monitor n6rce-sps-carrier plc-4 ausoth 18120oth25
k7ing-3545 kHz 0.875 0.107 0.150 0.133 0.335 0.073 0.142
ks2am-streetlight 0.263 0.723 0.549 0.277 0.446 0.582 0.403
monitor 0.468 0.583 0.792 0.478 0.566 0.520 0.637
n6rce-sps-carrier 0.445 0.479 0.571 0.893 0.726 0.400 0.449
plc-4 0.412 0.172 0.205 0.169 0.762 0.057 0.338
ausoth 0.187 0.479 0.395 0.180 0.211 0.870 0.488
18120oth25 0.262 0.299 0.344 0.178 0.522 0.270 0.881

表 2中个别数据偏高,如n6rce-sps-carrier行plc-4列的数值为0.726。通过分析得知,待比较的一组序列振幅波动趋势比较一致,导致相似度偏高,后续工作将继续优化算法,以提高精度。

4 总结

本文设计了滑动卷积周期计算算法,利用卷积后的峰值区间完成了信号平均周期计算; 基于设计的峰值提取算法实现了信号特征模板提取; 基于动态时间规整算法和打分策略设计了信号特征识别算法,实现了未知信号的识别和分类。本文分别对从ARRL官网下载的射频干扰数据进行互相关与自相关计算,实验结果表明,信号生成的模板与原始信号的相似度明显高于其他信号,说明本文提出的算法可以有效提取特征信息并生成信号特征模板,且利用特征识别算法能对射频干扰进行正确分类。本文提出的方法可以对射频干扰进行细粒度识别和标记,有望为射频干扰特征识别和标记提供一种新的解决方案。

本文中算法实现代码以及实验数据已在码云仓库(https://gitee.com/zyazhou/rfi-feature-recognition.git)开源。

参考文献
[1] NAN R D, LI D, JIN C, et al. The five-hundred-meter aperture spherical radio telescope (FAST) project[J]. International Journal of Modern Physics D, 2011, 20(6): 989–1024. DOI: 10.1142/S0218271811019335
[2] GRIEMEIER J M, ZARKA P, TAGGER M, et al. Radioastronomy with LOFAR[J]. Comptes Rendus Physique, 2012, 13(1): 23–27. DOI: 10.1016/j.crhy.2011.11.002
[3] MURPHY E. Science with a next generation very large array[C]// Proceedings of the ASP Conference Series. 2018.
[4] PORKO J P G. Radio frequency interference in radio astronomy[D]. Helsinki: Aalto University, 2011.
[5] WANG Y, ZHANG H Y, HU H, et al. Satellite RFI mitigation on FAST[J]. Research in Astronomy and Astrophysics, 2021, 21(1): 018. DOI: 10.1088/1674-4527/21/1/18
[6] AKERET J, CHANG C, LUCCHI A, et al. Radio frequency interference mitigation using deep convolutional neural networks[J]. Astronomy and Computing, 2017, 18: 35–39. DOI: 10.1016/j.ascom.2017.01.002
[7] BAAN W A, FRIDMAN P A, MILLENAAR R P. Radio frequency interference mitigation at the westerbork synthesis radio telescope: algorithms, test observations, and system implementation[J]. The Astronomical Journal, 2004, 128(2): 933. DOI: 10.1086/422350
[8] OFFRINGA A R, DE BRUYN A G, BIEHL M, et al. Post-correlation radio frequency interference classification methods[J]. Monthly Notices of the Royal Astronomical Society, 2010, 405(1): 155–167.
[9] PEN U L, CHANG T C, HIRATA C M, et al. The GMRT EoR experiment: limits on polarized sky brightness at 150 MHz[J]. Monthly Notices of the Royal Astronomical Society, 2009, 399(1): 181–194. DOI: 10.1111/j.1365-2966.2009.14980.x
[10] CZECH D, MISHRA A, INGGS M. A dictionary approach to identifying transient RFI[J]. Radio Science, 2018, 53(5): 656–669. DOI: 10.1029/2018RS006538
[11] 吴鹏, 赵风海, 黄洋. 一种结合线性预测倒谱法和组合滑动窗口平滑法的基音周期估计改进算法[J]. 南开大学学报(自然科学版), 2019, 52(2): 29–33
WU P, ZHAO F H, HUANG Y. An improved pitch period estimation cepstrum algorithm combined linear prediction and sliding window smoothing[J]. Acta Scientiarum Naturalium Universitatis Nankaiensis(Natural Science Edition), 2019, 52(2): 29–33.
[12] 吴树兴. 一种语音信号基音周期时域估计算法[J]. 电脑知识与技术, 2019, 15(22): 214–216
WU S X. A time domain estimation algorithm for speech signal pitch period[J]. Computer Knowledge and Technology, 2019, 15(22): 214–216.
[13] VINTSYUK T K. Speech discrimination by dynamic programming[J]. Cybernetics, 1968, 4(1): 52–57.
[14] MVLLER M. Dynamic time warping[M]// Information Retrieval for Music and Motion. Berlin: Springer, 2007: 69-84.
[15] PERMANASARI Y, HARAHAP E H, ALI E P. Speech recognition using Dynamic Time Warping (DTW)[C]// Proceedings of the 2nd International Conference on Applied & Industrial Mathematics and Statistics. 2019.
由中国科学院国家天文台主办。
0

文章信息

张亚州, 张海龙, 张萌, 王杰, 冶鑫晨, 王万琼, 李嘉, 杜旭
Zhang Yazhou, Zhang Hailong, Zhang Meng, Wang Jie, Ye Xinchen, Wang Wanqiong, Li Jia, Du Xu
基于模板的瞬时RFI特征识别算法初探
Preliminary Study of Transient RFI Feature Recognition Algorithm Based on Template
天文研究与技术, 2022, 19(5): 479-486.
Astronomical Research and Technology, 2022, 19(5): 479-486.
收稿日期: 2021-08-10
修订日期: 2021-08-24

工作空间