自动目标识别技术作为实现武器装备智能化的核心技术之一,具有重要的军事意义。随着信号特征提取手段和基于深度学习识别技术的不断进步,水声目标识别技术已经从传统的声呐兵听音判型进入到基于机器学习的自动目标识别时期,从数据中“学习”或“训练”得到用于水声目标识别的机器学习模型已经具备了一定的识别能力[1]。自动目标识别评估是自动目标识别技术研究中非常重要的环节,评估方法主要包括评估指标的定义与度量方法和综合评估模型与方法等[2]。这些方法都应用于雷达、红外、激光和多传感器等自动目标识别技术背景中,但在水声目标识别领域尚未得到成体系的应用。
评估指标的定义与度量方法,就是针对水声目标识别模型,提出相应的度量指标。但是使用少量甚至单个评估指标(如识别率)对模型性能进行评估,仅能反映模型一个侧面的特性,这就需要建立综合评估模型与方法,运用多项指标并合理地确定各指标权重,对识别模型进行综合评价。基于信息熵的指标权重确定方法已经在财政状况、土地利用、绩效考核等综合评价中进行了应用,但在水声目标识别评估中尚无应用。本文针对上述问题,结合装备使用实际需求,例举了水声目标识别模型性能指标,提出了基于信息熵的模型综合评估方法。该方法基于各项指标在综合评估中的实际取值对指标权重求解,实现了对水声目标识别模型性能的综合评价,对水声目标识别模型的不断优化发展起到了促进作用。
1 信息熵理论及其应用“熵”是德国物理学家克劳修斯于1854年提出的概念,是用来衡量体系混乱程度的度量,熵定律也被称为热力学定律。1948年,香农指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念,来解决信息的度量问题。在信息论中,熵是对信息无序度的一种度量。对于任意一个随机变量X,它的熵定义[3]:
$ E\left(X\right)=-\sum p\left({x}_{i}\right){\mathit{log}}_{2}\left(p\left({x}_{i}\right)\right) \text{。}$ | (1) |
其中,
熵值越大,信息的无序度越高,其信息的效用值越小;反之,熵值越小,信息的无序度越低,信息的效用值越大。在模式识别领域,大多数决策树算法都选用了信息熵这一度量指标用来在节点处选择测试或查询的属性,使后续节点数据尽可能的“纯”,获得简单、紧凑、只有很少节点的决策树[4]。
在模型评估中,可以通过直接观察的指标数据所提供的信息来确定其在综合评估中的权重,进而实现对模型整体性能的评价。指标的熵值越大,信息量越小,该指标在模型评估中的权重越小;熵值越小,信息量越大,权重越大。熵值法是基于差异驱动的赋值方法,其基本原理是各个指标通过互相对比后来确定指标权重,避免了主观因素的掺杂,因此更加客观也更加科学。指标熵值与综合评价中权重的关系如表1所示。
通常,在模型训练完成后,通过实验测试的方法对其性能进行评估[5],需使用一个由新样本组成的“测试集”来测试模型的泛化能力。对模型性能进行评估,需要有衡量模型能力的评价标准,也就是性能度量。每种评价指标代表模型的一种性能,对常见的识别模型往往采用精度、查全率、查准率等通用指标对模型的识别性能进行度量。对于水声目标识别模型而言,除了需要能够评估模型分类是否正确的指标外,在海上装备的实际使用中,为了满足军事需求,模型的识别用时和CPU使用率也是度量模型识别性能的重要指标。基于信息熵的模型评估方法不限于性能评价指标的选取数量,使用者可根据任务需求选择合适的模型评价指标。
2.1.1 识别用时T在实现目标识别功能时,给出识别结果最快的模型更受青睐,尤其是在军事领域内,对模型的识别速度有着更高的要求。识别模型给出测试样本信号识别结果所用的时间即为该测试样本的识别用时,测试集中所有样本信号识别用时的均值即为识别模型的识别用时。
2.1.2 CPU使用率在同等测试条件下,识别模型在执行过程中的平均CPU占用率,即模型所使用CPU在60 s内的平均百分比。CPU使用率主要考虑模型的硬件成本,使用率较低的模型占用更少的计算资源,对硬件配置需求更低。
2.1.3 精度acc(accuracy)精度是指模型识别正确的样本数占测试样本总数的比例,这是分类任务中最常用的性能度量,也被称作识别率或正确率,该指标既适用于二分类任务,也适用于水声目标识别这种多分类任务。
2.1.4 查准率、查全率与调和平均数(F1)针对某些任务需求,例如声呐员判情中,不仅需要知道模型识别的正确率,而是更关心被判别为军舰的目标中有多少比例的确是军舰,或所有的军舰目标中有多少比例被模型识别出来。为此,引入查准率和查全率2个指标。查准率是指在被模型判别为某一类别的分类结果中,识别正确的样本所占的比重。查全率是指某一类别的样本有多少被模型正确识别。查准率和查全率往往是一对矛盾的度量,为了综合考虑2个度量指标,设计了基于查准率和查全率的调和平均度量F1。针对水声目标识别这一多分类问题,可以采用“微F1”[5]作为度量模型性能评估的指标之一。
2.1.5 ROC和AUCAUC(Area Under ROC Curve)[6]是基于ROC(Receiver Operating Characteristic)曲线理论分析,计算ROC曲线下的面积,用面积大小作为评估分类器性能的标准。Hand等[7]将ROC曲线从二分类任务推广到多分类任务。目前,已经有众多采用AUC指标评估多分类问题的方法[8-10]。国内学者也开展了这方面的研究,提出B-AUC[11]、BO-AUC[12]等多分类问题评估方法。水声目标识别模型可利用现有的基于AUC的多分类问题评估方法,将AUC作为模型的评价指标。
在比对多个水声目标识别模型的能力时,采用单个指标进行模型评估往往不能满足实际需求。各类指标仅能反映模型一个侧面的特性。例如,某模型识别用时较短,但识别精度较低或CPU使用率较高;某模型单项评价指标最优,但其他指标表现一般。显然,模型的“好坏”是相对的,在现实中需要选择整体性能最优的模型,这就需要通过建立合适的数学模型,将多个指标按照权重的不同进行融合,得到一个整体的综合评价指标作为评判依据,从而得到精确、可靠的评价结果。举例说明如何利用熵值法确定各个指标的权重并组成综合评价指标。
设有m个待评识别模型,5项评价指标分别为识别用时、CPU使用率、精度、微F1和AUC,如表2所示。
其中,
为消除因量纲不同对评价结果的影响,本文采用模糊隶属度函数[13]对各指标进行标准化处理。同时,为保证
对于数值越小越好的指标,如识别用时T、CPU使用率等,标准化方法如下:
$ {x}_{ij}^{'}=\frac{\mathit{{\rm{max}}}\left({x}_{j}\right)-{x}_{ij}}{\mathit{{\rm{max}}}\left({x}_{j}\right)-{\rm{min}}\left({x}_{j}\right)}+1\text{,} $ | (2) |
其中,j=1,2,
$ {x}_{ij}^{'}=\frac{{x}_{ij}-\mathit{{\rm{min}}}\left({x}_{j}\right)}{\mathit{{\rm{max}}}\left({x}_{j}\right)-\mathit{{\rm{min}}}\left({x}_{j}\right)}+1 \text{。}$ | (3) |
其中,j=3,4,5。
2.3 指标权重计算第j项指标的信息熵
$ {E}_{j}=-K\sum\nolimits_{i=1}^{m}{P}_{ij}\mathrm{ln}\left({P}_{ij}\right)\text{,} $ | (4) |
其中,j=1,2,3,4,5,
信息熵
根据式(4),如果某项指标在各模型中的数值全部相等,熵取最大值1,此时该指标在模型评估中不起作用,其权重为零。因此,某项指标的信息效用价值取决于该指标的信息熵
$ {H}_{j}=1-{E}_{j}\text{,}$ | (5) |
其中,j=1,2,3,4,5。第j项指标在模型综合评价中的权重
$ {W}_{j}=\frac{{H}_{j}}{\displaystyle\sum\nolimits_{j=1}^{5}{H}_{j}}\text{。} $ | (6) |
其中,j=1,2,3,4,5。
当各个被评价模型在指标j上的值完全相同时,熵值
模型i的综合评价指标
$ {A}_{i}=\sum\nolimits_{j=1}^{5}{W}_{j}\times {P}_{ij}(i=\mathrm{1,2},\cdots ,m)\text{。} $ | (7) |
其中,
根据综合评价指标
水声目标识别模型评估方法的研究对促进目标识别技术的发展具有十分重要的意义,相对于各类指标仅能反映模型一个侧面特性的单项指标独立评估方法,建立综合评估体系实现模型整体性能评价是必须解决的重要问题。在水声目标识别模型的综合评价体系中,每项指标在与其他指标相比较,其地位、重要程度和反映的情况都不相同。采用熵值法可以客观确定指标权重,该方法精度较高且客观性更强,能够更好解释所得结果。当各被评价模型确定以后,根据得到的权重可以再对评价指标进行调整、增减,必要时也可以利用权重对某些指标评价值的精度进行调整,以利于做出更精确、可靠的评价。本文例举了适用于度量水声目标识别模型性能的评价指标,并提出将熵值法运用于解决评价指标权重的计算问题,从而建立了客观的综合评价体系,实现了对多个水声目标识别模型整体性能的综合评价。
[1] |
程玉胜, 李智忠, 邱家兴. 水声目标识别[M]. 北京: 科学出版社.
|
[2] |
何峻. 自动目标识别评估方法研究[D]. 长沙: 国防科学技术大学, 2009.
|
[3] |
吴军. 数学之美[M]. 北京: 人民邮电出版社, 2018: 60−65.
|
[4] |
李宏东译. 模式分类(第二版)[M]. 北京: 机械工业出版社, 2005: 320−322.
|
[5] |
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 23−28.
|
[6] |
韩家炜, 坎伯. 数据挖掘: 概念与技术[M]. 北京: 机械工业出版社.
|
[7] |
HAND DJ, TILL RJ. A simple generalisation of the area under the Roc curve for multiple class classification problems[J]. Machine Learning, 2001, 45(2): 171-186. DOI:10.1023/A:1010920819831 |
[8] |
FAWCETT T. Using rule sets to maximize Roc performance[C]//Proceedings 2001 IEEE International Conference on Data Mining, [S.l.]: Ieee, 2001: 131−138.
|
[9] |
FERRI C, FLACH P, HERNÁNDEZ-ORALLO J. Decision trees for ranking: effect of new smoothing methods, new splitting criteria and simple pruning methods[J]. Technical Report, DSIC 2003, 2003. |
[10] |
PROVOST F, FAWCETT T, KOHAVI R. The case against accuracy estimation while comparing induction algorithms[C]//ICML Conference. 1998.
|
[11] |
秦锋, 罗慧, 程泽凯, 等. 一种新的基于AUC的多类分类评估方法[J]. 计算机工程与应用, 2008, 44(5): 194-196. DOI:10.3778/j.issn.1002-8331.2008.05.061 |
[12] |
秦锋, 杨帆, 程泽凯, 等. BO-AUC多类分类评估方法[J]. 计算机工程与应用, 2012, 48(5): 156-158. DOI:10.3778/j.issn.1002-8331.2012.05.044 |
[13] |
仇方道. 县城可持续发展综合评价研究[J]. 经济地理, 2003, 23(3): 319. DOI:10.3969/j.issn.1000-8462.2003.03.007 |