在传统主动声呐系统中,声呐员作为主体,在虚警中发现目标,其需要较大的精力,而且随着任务时间的持续,声呐员精力下降,降低了发现目标的概率[1-2];为此,当前主动声呐系统需要具备“自主探测”的功能,包括对目标的检测、跟踪与识别。同时,随着无人反潜平台兴起,其受限于数据链路的带宽,传统的主动声呐系统也不适用无人平台,当前的技术途径也是主动声呐的自主探测技术。滨海环境的海上试验表明,低频主动声呐在地形特征(如海山、水下山脊和人造物体)存在时产生的虚警非常高[1],而高虚警环境会严重影响自主探测技术性能,同时也制约了无人平台的应用场景[3]。
具备较高的检测概率,同时兼顾较低的虚警概率是自主探测技术的一个重要基础[4-5]。降低虚警最为简单的方法是提高检测的阈值,然而,阈值的提高也降低了检测到实际目标的概率。基于特征分类降低虚警率的方法是解决高虚警问题的一个重要替代途径。本文在录取的海试数据上提取样本特征,并给定样本数据标签{-1,1},采用支持向量机与随机森林的方法,二分类样本数据为目标与杂波两类,滤除置信度较低的样本,达到降低回波数据虚警率的目的。
1 单帧滤波单元声呐系统的主动调频数据处理如图1所示,包括信号处理模块和信息处理模块。信号处理模块为传统主动声呐主要处理过程,包括波束形成技术、匹配滤波技术与背景均衡技术。当前主动声呐设计在信号处理的基础上,增加了信息处理模块,其分为3个独立的单元,接触自动提取单元、单帧滤波单元以及自动跟踪单元。单帧滤波单元顾名思义是基于单周期亮点回波信息,滤除杂波,降低虚警。本文提出的特征分类降虚警的方法正是单帧滤波单元一种解决思路,其主要分为2个步骤。首先在接触级数据上提取回波特征,然后训练有监督的机器学习模型,通过训练的分类器给定输入样本的目标可信度,滤除可信度较低样本,降低虚警率,其可以简化自动跟踪关联复杂度,增加跟踪的稳定度。
本文获得了3组不同的样本数据,其来源于同一型声呐的3次试验。试验中目标航迹已知,较为容易获得真实的目标回波。给定目标回波以正类(目标)标签,给定除目标以外的回波以负类(杂波/虚警)标签,这样就获得了带标签的样本数据集。3次试验的发射信号全部是双曲调频,而且每次试验发射信号形式保持不变,但不同次试验间的发射信号存在差异(信号形式包括频率与脉冲宽度)。表1对样本数据的时间、目标与杂波的数据进行的统计。
为训练与测试分类器模型,将样本数据集重新组合为训练集和测试集,随机选用A与B两组数据的60%作为模型的训练数据AB_Train,剩余的40%作为测试集数据AB_Test;C组试验数据作为测试集C_Test。测试集数据中AB_Test与训练集AB_Train具有相同的数据源,C_Test与训练集来源不同。这样测试集中包含了与训练集分布相同的数据和与训练集分布存在差异的数据,使得测试集数据更为全面。
2.2 特征空间在接触级数据(见图2)之上提取24个回波特征,其分类与举例如表2所示。这些特征主要集中在样本点数据的空间分布、信噪比分布、统计特征和空间拟合分布(形状特征)。采用文献[2]中概率密度函数(probability density function, PDF)法与接收操作曲线(receive operating characteristic, ROC)法对每一特征的分类能力进行筛选,剔除不具备分类能力的特征。概率密度函数法表征了目标与杂波(虚警)随特征的尺度概率分布情况,两函数的差异给定本特征的区分能力,差异越大,特征分类能力越强。图3所示为目标与杂波随距离扩展的分布情况,在较小的特征尺度下,杂波比目标分布更加密集,当门限在此位置时,杂波被滤除的远远多于目标(杂波80%,目标9%)。ROC曲线方法(见图4)沿特征尺度划定多个阈值门限,标定不同的门限下的检测概率与虚警概率。ROC曲线在对角线以上表示特征存在特征分类能力,而且曲线以下的面积(AUC: Area Under ROC Curve)越大,能力越强。这里的特征筛选方法,假定每一特征统计独立为前提,结合概率密度函数与接收操作曲线2种方法,筛除分类能力较差的特征。由于其忽略了特征间的关联,所以本文对特征筛选采取了宽容性处理的方法。每一维特征只要PDF曲线存在差异而且ROC曲线能够在对角线以上,则此特征被保留。这样,经过特征筛选,最终形成20维特征向量的特征空间。
由于海底地形、噪声起伏等原因,水下探测主动回波杂波数量远远超出目标数量,加之试验成本等原因,造成目标样本数据的稀疏。不平衡数据集是分类模型在实际应用中所面临的挑战,一般常用解决不平衡数据集的方法包括:重采样技术和代价敏感技术,这2种方法简单成熟,适用于大部分的模型。重采样技术包括升采样、降采样、加权随机采样和合成数据,其通过对训练数据集的改造,达到不同类之间的平衡。重采样技术改变了原始样本数据的分布情况,损失样本间的部分分布信息,而且生成或合成的容易少数样本的过拟合。本文采用了代价敏感的方法,在分类器损失函数中,增加少数类被错误分类的代价,提高少数类的关注度,保证目标样本的正确分类。图5和图6给出了随机森林模型在同一组的测试数据下,增加代价敏感方法前后的测试样本得分分布情况对比。明显可以观察到,增加代价敏感之后正类样本的得分更为向右集中。虽然这是以损失部分负类样本(虚警率)为代价(图6中负类样本分布较图5发散),但是保证了正类样本分类的正确(检测概率),使得分类器分类门限更为宽容,可设定为得分概率中点
本文采用支持向量机与随机森林2种分类器,2种分类器全部采用有监督的机器学习方式,在训练数据集之上进行训练与参数寻优,在测试集数据上测试模型。
支持向量机(SVM)是一个功能强大并且全面的机器学习模型,它能够执行线性或非线性分类、回归甚至是异常值检测任务,是机器学习领域最受欢迎的模型之一[6]。SVM的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使其区别于感知机,其主要思想是在输入的
随机森林是集成学习的一个分支,其起源于bagging算法,Breiman在1996年提出bagging算法,“自助”与“聚合”是bagging的2个关键。训练数据上,它直接基于自助采样法(有放回的抽样),给定包含m个样本的数据集,随机取出一个样本放入采样集中,再把该样本放回初始数据集,经过m次采样,得到m个样本的采集集。这样采集n个含m个训练样本的采样集,然后基于每个采样机训练处一个基学习器,再将这些基学习器进行聚合。随机森林采用分类和回归树(classification and regression tree, CART)作为基分类器(见图7),多个基分类器投票决定分类类别,它和bagging的主要区别在于引入了随机特征选择,即在每棵决策树选择分割点时,随机森林会先随机选择一个特征子集,然后在这个子集上进行传统的分割点选择。其在数据的随机性的基础上,增加了属性的随机性,提高了模型的泛化能力。
分类模型通过训练与迭代,寻找到模型的最优参数。本文采用交叉验证法,以网格搜索的方法,遍历模型超参数,以AUC为网格搜索的寻优准则,迭代最优的超参数。支持向量机模型分别迭代了线性支持向量机、多项式支持向量机以及径向基支持向量机3种模型,随机森林模型以分类回归树以基分类器。为应对不平衡数据集的问题,各类模型损失函数中增加了代价敏感系数,保证少数类(目标)分类的正确性。
支持向量机模型本身不能很好地支持非标准化的数据,需要对输入特征向量(训练样本和测试样本)进行标准化操作,消除不同特征之间的量纲。同时当输入的特征空间的维度过高,容易造成分类模型的维度灾难[6-8]。本文在输入支持向量机之前引入主成分分析(PCA:Principal Component Analysis)降维方法,其通过奇异值分解(SVD),得到样本数据的所有成分。每个成分通过方差解释率表示对整个样本集的方差贡献度,将方差贡献度有大到小排列,累积方差解释率,选择累积的方差解释率大于95%的特征向量,作为降维之后的特征空间。而随机森林采用决策树为基分类器,不需要对数据进行标准化,而且随机森林在决策树分割点增加了属性的随机性,这里也不需要对样本空间进行降维操作。
3.2 模型测试采用2组测试集数据测试分类模型,包括与训练数据相同数据源(同分布)的测试数据AB_Test以及相异数据源(不同分布)的测试数据C_Test。图8和图9中对比了相同测试数据下,不同分类器ROC曲线,其横坐标为假正率FPR(虚警率),纵坐标为真正率TPR(检测概率),通过对比可以观察到4种分类器ROC曲线性能接近。图10给出了不同测试数据集下分类器AUC性能比较。图11给出了不同数据集下,检测概率为0.9时,对应的虚警概率对比。图10和图11还给出两测试数据的均值,AUC均值和FPR(虚警概率)均值,通过分类器性能对比可以发现,基于多项式核的SVM相较于其他2种SVM,具有更高的泛化能力,杂波的抑制效果更好;而对比SVM与随机森林分类器,随机森林模型在2组测试数据中,AUC性能与虚警的抑制,明显优于SVM,其具有更高的泛化能力。
图11表明基于2组测试,特征分类方法在保证目标被检测到90%的基础上,模型的虚警率能够得到降低,极大地降低了单帧滤波输出的杂波数量(抑制50%的杂波)。另外,可以从模型的测试结果中观察到,样本集C_Test测试结果明显优于样本集AB_Test,这表明不同的样本集之间存在差异性。这种差异性,导致模型的虚警抑制能力的起伏较大,影响了模型的性能评估,后续需要累积更为丰富的数据,分析不同数据集之间的分布情况,以此提高分类器的泛化能力。
4 结 语本文通过在海试数据上提取回波样本点的特征,以分类器二分类样本数据的方法,在保证一定的检测概率的基础上,降低回波中的杂波数量,实现了基于单个周期样本特征降低虚警率的目的。试验中对比了4种分类器的分类性能,随机森林模型相较与支持向量机模型具有更好的性能与泛化能力。
[1] |
HJELMERVIK K T, BERG H, SEKSE D H, et al. A hybrid recorded-synthetic sonar data set for validation of ASW classification algorithms[J]. Oceans, 2015, 1-5. |
[2] |
BUß M, BENEN S, STILLER D, et al. Feature selection and classification for false alarm reduction on active diver detection sonar data[C]//4th International Conference on Underwater Acoustics, 2017, 9.
|
[3] |
HJELMERVIK K T, BERG H. Automatic target classification for low-frequency anti-submarine warfare sonars[J]. Oceans, 2013, 1-3. |
[4] |
BERG H, HJELMERVIK K T, SEKSE D H, et al. A comparison of different machine learning algorithms for automatic classification of sonar targets[C]//Oceans 2016 MTS/IEEE Monterey, 2016, 9: 746−753.
|
[5] |
COLIN M E G D, BEERENS S P. False-alarm reduction for low-frequency active sonar with BPSK pulse: experimental results[J]. IEEE Journal of Oceanic Engineering, 2011, 36(1): 52-59. DOI:10.1109/JOE.2010.2094770 |
[6] |
AURÉLIEN GÉRON. 机器学习实战: 基于Scikit-Learn和Tensorflow[M]. 北京: 机械工业出版社, 2018.
|
[7] |
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
|
[8] |
李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012.
|