一种改进的数据场聚类算法

引用本文

郜丽鹏, 沙作金. 一种改进的数据场聚类算法[J]. 应用科技, 2019, 46(6): 30-34. DOI: 10.11991/yykj.201812025.

GAO Lipeng, SHA Zuojin. An improved data field clustering algorithm[J]. Applied Science and Technology, 2019, 46(6): 30-34. DOI: 10.11991/yykj.201812025.

基金项目

总装预研重点基金项目（61404150101）；上海航天科技创新基金项目（SAST2017−068）

通信作者

沙作金，E-mail：1210946827@qq.com

作者简介

郜丽鹏，男，教授，博士;
沙作金，男，硕士研究生

文章历史

收稿日期：2018-12-30
网络出版日期：2019-05-17

Contents Abstract Full text Figures/Tables PDF

一种改进的数据场聚类算法

郜丽鹏, 沙作金

哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001

收稿日期：2018-12-30；网络出版日期：2019-05-17

基金项目：总装预研重点基金项目（61404150101）；上海航天科技创新基金项目（SAST2017−068）

作者简介：郜丽鹏，男，教授，博士;
沙作金，男，硕士研究生.

通信作者：沙作金，E-mail：1210946827@qq.com.

摘要：雷达信号分选是电子侦察中的关键步骤，针对传统聚类算法需要先验知识、算法需要人为设定参数、对孤立噪声点敏感和对初始聚类中心的选取对聚类效果有直接的影响、容易出现“增批”缺点，提出一种改进的数据场聚类算法。该算法计算所有的数据对象的势值，通过寻找势心来确定初始聚类中心和聚类数目，根据数据对象的势值大小和阈值进行比较，剔除孤立噪声点，将数据对象划分到距离最近的聚类中心的那一类中完成聚类。文中仿真了12部雷达信号，包括了常规雷达、抖动雷达、参差雷达和捷变频雷达，雷达参数相近或交叠。仿真结果表明，改进的数据场聚类算法有良好的聚类效果。

关键词：信号分选数据场聚类势值势心等势线场强函数辐射因子

An improved data field clustering algorithm

GAO Lipeng, SHA Zuojin

College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China

Abstract: Radar signal sorting is a key step in electronic reconnaissance. Aiming at the shortcomings of traditional clustering algorithms, for example, it requires a priori knowledge, it needs to set parameters artificially for the algorithm, it is sensitive to isolated noise points, and the selection of initial clustering center has a direct impact on the clustering effect, it is prone to have " increased batching”, and so on, an improved data field clustering algorithm is proposed. By calculating the potential values of all data objects, the algorithm determines the initial cluster center and the number of clusters by finding the potential center. According to the potential value of the data object and the threshold value, the isolated noise points are eliminated, and the data objects are divided into the nearest ones. Clustering is done in that class of clustering centers. In this paper, 12 radar signals are simulated, including conventional radar, jitter radar, staggered radar and agile radar. The radar parameters are similar or overlapping. The simulation results show that the improved data field clustering algorithm has good clustering effect.

Keywords: signal sorting data field clustering potential value potential equipotential line field strength function radiation factor

在现代电子战中，随着科学技术的不断更新应用，新的雷达体制和信号调制样式相继出现在日益复杂的电磁环境中^[1]。雷达信号分选作为衡量侦察系统是否仍能适应当前电子对抗环境的标志^[2]，面临着日益严峻的挑战。如何在现在这种复杂的电磁环境中正确地分选出雷达信号，一直是分选工作中的重点和难题。

目前电磁环境中的雷达脉冲数量已经超过了每秒百万个的量级，而雷达分选算法需要进行处理的数据量和雷达数目的平方呈正比例关系，而分选设备处理速度的提升受限于硬件设备^[3]，因此有必要减轻主分选算法的负担，将聚类作为雷达信号的预处理过程可以很好地达到这个目的。K−means聚类算法作为一种经典的聚类算法，原理简单，收敛速度快，因而被广泛应用^[4]，不过该算法的缺点也较多，对噪声敏感、需要人工设置K值大小、聚类效果受初始聚类中心的选取影响等。李德毅^[5]院士在传统物理场的思想上提出了数据场这一概念之后，数据场被应用到雷达信号聚类算法中，能够克服K−means聚类算法的这几个缺点，具有良好的应用性能。因此，本文提出一种基于数据场的雷达信号聚类算法，计算每个数据对象在数据场中的势值，根据势值的极值点求出势心，势心就是雷达信号的参数中心。作为聚类的聚类中心，势心的数量则是聚类的类别个数，因此无需人工设置聚类数目的值以及选取初始聚类中心。此外设置数据点的势值阈值可以将孤立的噪声点剔除出去。针对聚类过程中出现的增批现象，将数据场的场强函数的形式进行改进，取得了良好的效果。

1 数据场聚类 1.1 数据场

将数据对象的集合映射到数域空间中，依照物理学中的稳定有源场，将数据对象视为源点，在源点周围产生场，对周围其他的数据对象产生影响，能够影响的范围所构成的空间就成为数据场^[6]。

1.2 场强函数

为了能够准确描述数据场是如何对周围的数据对象产生影响、相互之间进行作用的，参考物理中的牛顿万有引力定律和库伦定律公式^[7]，数据场也应该存在一种方式可以衡量数据场中的源点对周围其他数据对象的影响强弱的函数公式，则定义这个公式为场强函数。数据场的场强函数是描述以源点为中心的周围空间中的数据场的变化规律的函数，考虑到高斯分布的普遍适用特性，概率密度分布函数的形式以及短程场作用更方便表达数据对象分布的聚簇的特性，场强函数一般定义为^[8]

${f_y}(x) = \rho {{\rm{e}}^{ - \frac{{{d^2}(x,y)}}{{2{\sigma ^2}}}}}$

(1)

式中： $\;\rho $ 的意思是该数据点的数据量，一般取1； $\sigma $ 为参量，一般称为辐射因子；距离函数 $d(x,y)$ 一般采用欧氏距离^[9]。

1.3 势函数

一个数据对象的场强函数描述的是以其为源点的数据场的变化规律，但是数据挖掘面对的是大量的数据对象，只研究单个数据对象的数据场变化规律对整个数据集合并没有什么实际意义，需要研究的是所有数据对象的数据场的共同作用下的空间中的点的场强值的变化规律。定义此点处的所有数据场的场强值的和为势值，根据这个定义和场强函数可以得到势函数的公式为^[10]

$\varphi (x) = \sum\limits_{i = 1}^n {{f_y}({x_i}) = } \sum\limits_{i = 1}^n {\rho {{\rm{e}}^{ - \frac{{{d^2}({x_i},{y_i})}}{{2{\sigma ^2}}}}}} $

式中n表示为数据的数量。

1.4 辐射因子

由式（1）可知，场强函数为高斯核函数，辐射因子 $\sigma $ 的取值对势值的大小有着很大的影响。为了说明辐射因子和势值的关系，我们可以先从最简单的情况，只有一个数据点时数域空间的场强和势场开始分析。图1为单个数据对象在辐射因子的值不同的时候，数据点周围的场强值（等同势值）与距离的关系曲线图^[11]。

	Download: JPG larger image
图 1 辐射因子不同时势值变化

为了能够确定最佳的辐射因子的数值大小，根据信息论中描述系统不确定性的熵这一概念，引入势熵来描述不同辐射因子对数据场产生的影响。令数据点 ${x_1},{x_2}, \cdots ,{x_n}$ 的势值分别为 ${\psi _1},{\psi _2}, \cdots ,$ ${\psi _n}$ ，则势熵定义为^[12]

${H_\psi } = - \sum\limits_{i = 1}^n {\frac{{{\psi _i}}}{Z}\log (\frac{{{\psi _i}}}{Z})} $

式中 $Z = \displaystyle\sum\limits_{i = 1}^n {{\psi _i}} $ 是标准化因子。根据势熵的定义，很明显有 $0 \leqslant {H_\psi } \leqslant \log (n)$ 。当辐射因子的数值足够大时，数据场中每一个点的势值都近似相等，此时无法根据数据场内的数据对象的势值进行聚类，即此时数据场的不确定性最大，意味着势熵的值也是最大的；当辐射因子 $\sigma $ 的数值小到辐射范围内只有自身一个数据点时，此时数据场每个点的势值相等，有 ${{\psi }_{1}}{\rm =}{{\psi }_{2}}{\rm =}\cdots {\rm =}{{\psi }_{n}}{\rm },{{H}_{\psi }}{\rm =}\log (n)$ ；只有当辐射因子 $\sigma $ 的值处在上述两种情况中间时，数据场中的数据点的势值大小存在明显差异，在这种情况下，一定存在数据场的不确定性最小的状态，即势熵最小的状态。势熵与辐射因子 $\sigma $ 的变化关系如图2所示，可以看到，当辐射因子 $\sigma $ 的值增大时，势熵的情况是先变小再变大。由此，辐射因子 $\sigma $ 的选择可以转化为寻找势熵最小值的问题，这样可以在不需要人工选择的情况下自动选择效果最好的辐射因子 $\sigma $ 的值。

	Download: JPG larger image
图 2 辐射因子与势熵的关系曲线

1.5 剔除孤立噪声点

孤立噪声点距离实际的聚类中心有相对很大的距离，这个距离已经远远超出了单个数据点的数据场所能有效辐射的范围，即距离远远大于 $3\sigma $ ^[13]。根据数据场的场强函数可以得知，在这个距离下，其他脉冲点辐射给它的场强的大小的数量级远远小于这个数域空间中存在的脉冲个数的数量级，所以孤立脉冲点的势值大小应该大于并且十分接近1。因此可以设置阈值，将势值小于阈值的数据对象视为噪声剔除掉。

2 改进的数据场聚类

通过对图1分析，我们可以看到，在有效辐射半径 $3\sigma $ 的范围里，随着距离的增加，场强值一直在减小，但是减小的速率一开始相当慢，然后逐渐加快，到达最高值后减小的速率又开始降低。这样的话，如果数据点的数量足够多并且数据点出现在理论值附近的概率比较大，这就意味着围绕在理论值附近的数据点相当多并且很密集。由上述分析的场强函数的特点可以得到，这些数据点的势值都很接近并且大于其他距离理论值稍远的数据点。这样在根据势值的极值点选取聚类中心的时候，因为仿真过程中加入了模拟实际可能存在的各种误差而加入的随机量，所以势值极值点可能存在的范围大致是一个以理论值为圆心的一个圆，我们所希望的就是可以使这个圆的半径尽可能地小，这就需要随着距离的增大，场强值能够以一个更快的速率下降。

除了要满足场强函数的导数值在近距离时比高斯函数要小之外，还要满足场强函数的其他特点：场强函数是一个连续光滑的函数、在距离为0时，场强值为0；距离趋于无穷大时，场强值趋于0。根据上述几个条件，最先想到的就是指数函数 $f(x) = {{\rm{e}}^{ - x}}$ 。

对比之前的场强函数，将指数函数形式写为 $f(x) = {{\rm{e}}^{ - \frac{{ax}}{{2{\sigma ^2}}}}}$ ，那么现在的问题就是如何求解a的大小。根据高斯函数的“ $3\sigma $ 规则”，在 $3\sigma $ 的范围里包含了99.73%的数据对象，也就是说在 $3\sigma $ 到正无穷的范围内只包含了0.27%的数据对象。由此可以得到：

$\frac{{\displaystyle\int_{3\sigma }^{ + \infty } {{{\rm{e}}^{{\rm{ - }}\frac{{ax}}{{2{\sigma ^2}}}}}} {\rm{d}}x}}{{\displaystyle\int_0^{ + \infty } {{{\rm{e}}^{{\rm{ - }}\frac{{ax}}{{2{\sigma ^2}}}}}} {\rm{d}}x}} = 0.002\;7$

解这个方程，得到：

${{\rm{e}}^{{\rm{ - }}\frac{{3a}}{{2\sigma }}}}{\rm{ = }}0.002\; 7$

即

$a = - \frac{{2\sigma }}{3}\ln 0.002\;7$

在实际中，a的值可以根据情况进行调整。

综上所述，改进的的场强函数的表达式为

$f(x) = {{\rm{e}}^{ - \frac{{ - \frac{{2\sigma }}{3}\ln 0.002\;7x}}{{2{\sigma ^2}}}}}{\rm{ = }}{{\rm{e}}^{\frac{{x\ln 0.002\;7}}{{3\sigma }}}}$

改进的数据场聚类的步骤为：

1）对提取聚类所用的3个参数脉宽(PW)、载频(RF)、到达角(DOA)进行归一化处理；

2）将脉冲序列按照到达时间排序，依次计算各个脉冲点之间的欧式距离，得到一个n×n的距离矩阵；

3）将所求得的距离矩阵代入数据场的场强函数，得到各个脉冲点的场强值，按列求和得到每个点的势值。

4）根据设置的阈值剔除孤立噪声点，找到局部势值最大的数据样本作为聚类中心，局部势值最大的数据样本的个数作为聚类数目；

5）根据之前求得的距离矩阵，将雷达脉冲序列中的数据样本依次划分到距离此数据样本最近的一个聚类中心的那一类中^[14]。

3 算法仿真 3.1 求解聚类中心

本文仿真了12部雷达脉冲信号，参数如表1所示。表中序号1~5为常规雷达信号，序号6、7为抖动雷达信号，序号8~10为参差雷达信号，序号11、12为捷变频雷达信号，分别是脉间捷变和脉组捷变雷达信号。雷达信号脉宽精度为1 μs，载频精度为1 MHz，方位角精度为1°，10%的干扰脉冲。图3为仿真的12部雷达信号在以载频−脉宽−到达角为参数的的三维空间中的分布。

表 1 雷达参数表

	Download: JPG larger image
图 3 待聚类雷达信号

计算所有雷达脉冲信号的势值，可以得到雷达脉冲信号的脉宽、载频、到达角和势值的关系图如图4~6所示。

	Download: JPG larger image
图 4 脉宽−到达角−势值关系

	Download: JPG larger image
图 5 脉宽−载频−势值关系

	Download: JPG larger image
图 6 载频−到达角−势值关系

使用剔除势心法得到的聚类中心如表2所示。

表 2 聚类中心参数表

3.2 改进前后的数据场聚类对比

将改进前后的数据场聚类求得的聚类中心与理论的雷达信号中心进行误差值的计算，并进行1 000次的蒙特卡洛实验，仿真结果如图7所示。

	Download: JPG larger image
图 7 改进前后的聚类中心误差曲线

可以看到改进前的数据场聚类会出现多次求得的聚类中心与理论值的误差很大的情况，而改进之后的数据场所求得的聚类中心与理论值的误差的平均值和方差都要比改进前小。分析出现误差大的情况是因为出现了增批的现象，改进的数据场聚类有效地抑制这种增批现象的出现。

4 结论

本文提出了一种改进的数据场聚类算法，通过重新分配数据场内场强值和距离的关系变化情况，即对场强函数进行改进这一方式达到改善聚类结果的目标。

1）改进后的数据场聚类求得的聚类中心与理论值的误差和方差更小，说明求得的聚类中心更准确；

2）改进后的数据场聚类出现增批现象的次数大大减少。

经仿真实验表明，本文提出的算法能够很好地完成聚类，具有良好的聚类性能。关于如何减少出现的漏批现象还需要进一步的深入研究。

参考文献

[1]	冯鑫, 胡晓曦, 匡银. 基于数据场的多模雷达信号分选算法[J]. 电子设计工程, 2018, 26(23): 139-142. DOI:10.3969/j.issn.1674-6236.2018.23.031 (0)
[2]	贾然, 胡进. 一种基于数据场聚类的雷达信号分选算法[J]. 现代防御技术, 2017, 45(4): 124-129. DOI:10.3969/j.issn.1009-086x.2017.04.020 (0)
[3]	朱振国, 冯应柱. 基于数据场的类簇中心选取及其聚类[J]. 计算机工程与应用, 2018, 54(8): 131-136. (0)
[4]	张霓, 陈天天, 何熊熊. 基于数据场和单次划分的聚类算法[J]. 浙江工业大学学报, 2016, 44(1): 52-57. DOI:10.3969/j.issn.1006-4303.2016.01.011 (0)
[5]	国强, 宋文明, 南普龙, 等. 基于数据场与云模型的多模雷达信号分选算法[J]. 哈尔滨工业大学学报, 2015, 47(11): 76-81. DOI:10.11918/j.issn.0367-6234.2015.11.013 (0)
[6]	张冉, 夏厚培. 一种新的K-means聚类雷达信号分选算法[J]. 现代防御技术, 2015, 43(6): 136-141. DOI:10.3969/j.issn.1009-086x.2015.06.023 (0)
[7]	吴鹏飞. 数据场在聚类分析中的应用研究[D]. 包头: 内蒙古科技大学, 2013. http://cdmd.cnki.com.cn/Article/CDMD-11973-1014021537.htm (0)
[8]	张荣, 侯慧群, 杨承志, 等. 基于数据场的未知雷达信号动态聚类算法[J]. 电子信息对抗技术, 2011, 26(5): 23-25, 32. DOI:10.3969/j.issn.1674-2230.2011.05.006 (0)
[9]	简艳, 贾洪勇. 一种基于数据场的K-均值算法[J]. 计算机应用研究, 2010, 27(12): 4498-4501. (0)
[10]	卜耀华, 姜秀柱, 李连习. 基于数据场的粗糙聚类算法研究[J]. 福建电脑, 2009, 25(8): 79-80. DOI:10.3969/j.issn.1673-2782.2009.08.051 (0)
[11]	王海军, 邓羽, 王丽, 等. 基于数据场的C均值聚类方法研究[J]. 武汉大学学报(信息科学版), 2009, 34(5): 626-629. (0)
[12]	李学, 苗夺谦, 冯琴荣. 基于数据场的粗糙聚类算法[J]. 计算机科学, 2009, 36(2): 203-206, 244. DOI:10.3969/j.issn.1002-137X.2009.02.048 (0)
[13]	郭锋. 基于数据场的聚类方法研究[D]. 哈尔滨: 哈尔滨工程大学, 2009. http://www.cnki.com.cn/Article/CJFDTotal-WHCH200905031.htm (0)
[14]	淦文燕, 李德毅, 王建民. 一种基于数据场的层次聚类方法[J]. 电子学报, 2006, 34(2): 258-262. DOI:10.3321/j.issn:0372-2112.2006.02.014 (0)