文章快速检索  
  高级检索
融合邻域信息的k-近邻分类
林耀进1, 李进金1,2, 陈锦坤2, 马周明2
1. 闽南师范大学 计算机科学与工程系,福建 漳州 363000;
2. 闽南师范大学 数学与统计学院,福建 漳州 363000
基金项目: 国家自然科学基金资助项目(61303131,61379021);福建省自然科学基金资助项目(2013J01028,2012D141);福建省A类科技资助项目(JA12220)    
摘要: 距离度量是影响k-近邻(KNN)法分类精度的重要因素之一。提出一种融合邻域信息的k-近邻算法。首先,定义了样本邻域的概念,并根据邻域的影响提出2条相应准则;然后,在计算测试样本与训练样本的距离时,综合考虑了样本邻域所带来的影响。该算法不仅可以更加精确地刻画样本之间的距离,而且一定程度上增强了KNN的稳定性。该方法在UCI标准数据集上进行了测试,结果表明,性能优于或与其他相关的分类器相当, 并且在噪声扰动下具有较强的鲁棒性。
关键词: k-近邻     邻域信息     分类学习     距离测量     噪音干扰    
K-nearest neighbor classification algorithm fusing neighborhood information
LIN Yaojin1, LI Jinjin1,2, CHEN Jinkun2, MA Zhouming2
1. Department of Computer Science and Engineering, Zhangzhou 363000, China ;
2. School of Mathematics and Statistics, Zhangzhou 363000, China
Abstract: Distance measurement is one of the important factors which affect the classification accuracy of the k nearest neighbor(KNN)algorithm. In this paper, an improved k nearest neighbor algorithm fusing neighborhood information is presented. Firstly, the concept of the instance neighborhood is defined and two criterions are presented according to neighborhood influence; then, the influence of the instance neighborhood is comprehensively considered when the distance between the testing instances and the training instances is computed. This algorithm can characterize the distance among instances more precisely, and enhance the stability of the KNN to some extent. This presented method was tested on the UCI datasets, and the results showed that this proposed technique is better than or equal to other classifiers, and it is more robust under the noise disturbance.
Key words: k-nearest neighbor     neighborhood information     classification learning     distance measurement     noise disturbance    

k-近邻法是一种非常简单有效的分类算法,广泛应用于数据挖掘和模式识别的各个领域[1-3]。其基本思想是通过计算寻找训练集中距离待分类样本最近的k个邻居,然后基于它们的类别信息,依据投票的原则对待分类样本的类别进行判定。k-近邻算法的分类精度很大程度受影响于样本之间距离的度量。

近几年,出现了许多改进的距离度量方法以提高k-近邻算法的分类性能,主要分为局部距离和全局距离两大类。在传统的全局距离度量方面,针对异构特征,提出了相应的距离度量方法,如:值差度量(value difference metric, VDM)、修正的值差度量(modified value difference metric, MVDM)和异构欧几里德—重叠度量(heterogeneous euclidean-overlap metric, HEOM)等[4-5]。另外,许多学者考虑了样本之间的权重以增强样本之间的相似性。Hu等[6]提出一种通过梯度下降的方法估计样本之间的权重进行改进KNN的分类算法;Wang等[7]提出一种简单的自适应距离度量来估算样本的权重。同时,一些学者通过属性加权或属性选择途径改进距离度量[8-9]。在局部距离度量方面,许多方法利用局部自适应距离处理全局优化问题,如:ADAMENN中的自适应距离,WAKNN中的权重校正度量方法及DANN中的差异化自适应度量方法[10-11]

上述方法虽能有效地度量样本之间的距离,但基本上都是从单一的距离进行考虑,存在着以下缺点:1)并未考虑样本之间的邻域结构;2)易受噪声的影响;3)不能处理多模态分布问题。因此,本文受推荐中的用户群体影响概念的启发[12],提出了一种融合样本邻域信息的k-近邻分类算法。

1 k-近邻分类法

k-近邻分类法是一种非常简单有效的用于分类学习和函数逼近的算法。给定由n个样本标签对组成的数据集DD={(x1, c1), (x2, c2), …, (xn, cn)},其分类的任务在于获取映射函数f, 使得能正确预测无标签样本。设Nk(x)为测试样本x的k-近邻集合,k-近邻分类法在于通过测试样本x的k-近邻进行大众数投票进行确定x的标签,其公式为

(1)

式中:cj为样本xj的类标签,I(·)为指示函数,当cicj一样时,I(cj=ci)=1,否则,I(cj=ci)=0。

2 融合邻域信息的k-近邻分类算法 2.1 邻域信息的影响

传统的k-近邻分类算法本质上是利用样本个体与个体之间的距离(寻找对测试样本影响最大的前k个近似邻居)来预测测试样本的类标签,该预测只是简单地考虑样本个体之间的相似性,而忽略了样本的邻域信息。因此,在计算样本个体距离时不仅要考虑样本个体之间的距离,也要考虑样本邻域信息产生的距离。图 1清楚地描述了样本邻域信息产生的影响作用,从图 1可以看出,虽然样本x1x2之间的距离与样本x1x3之间的距离相等,即d(x1, x2)=d(x1, x3),但是样本x1的邻域信息与x3的邻域信息之间包含更多的大量的共同邻居,则从认识论的角度出发,d(x1, x3)≥d(x1, x2)。根据以上分析,可以得出准则1。

图 1 样本邻域图 Fig. 1 Neighborhood of sample

准则1 考虑样本邻域信息的影响能更加精确地刻画样本之间的距离。

2.2 样本邻域的定义

据2.1节分析可知,考虑样本邻域之间的距离可以更加精确地刻画样本之间的距离Δ,因此,寻找样本邻域对提高k-近邻分类算法具有重要的影响。本节中给出样本的度量空间及样本邻域的定义。

定义1[13] 给定一个m维的样本空间Ω,Δ:Xm×XmX,称ΔXm上的一个度量,如果Δ满足:1)Δ(x1, x2)≥0, Δ(x1, x2)=0, 当且仅当x1=x2, x1, x2Xm;2)Δ(x1, x2)=Δ(x2, x1), ∀x1, x2Xm;3)Δ(x1, x3)≤Δ(x1, x2)+Δ(x2, x3), x1, x2, x3Xm;称〈Ω, Δ〉为度量空间。

N维欧氏空间中,给定任意2点xi=(xi1, xi2, …, xiN)和xj=(xj1, xj2, …, xjN),其距离为

(2)

另外,为了处理异构特征,许多学者提出了多种距离函数。如VDM 、HVDM和HEOM。其中,VDM定义为,且P(xl)表示样本x在特征l下的分布概率。

定义2 给定样本空间上的非空有限集合X={x1, x2, …, xm},对于X上的任意样本xi,定义其δ邻域为,其中,0≤Δ≤1。δ(xi)称为样本xi相应的Δ邻域。

定义3 给定样本空间上的非空有限集合X={x1, x2, …, xm},对于X上的任意样本xixj,根据VDM公式,定义样本xixj之间的邻域距离为

(1)

性质1[13] 给定一个度量空间〈Ω, Δ〉,一个非空有限样本集合X={x1, x2, …, xm}。如果δ1δ2,则有

1)

2)

根据定义3及性质1,随着样本距离δ的增大,样本邻域中所包含的对象数量随着增加,样本之间的区分度将降低。如图 2所示,随着距离的增大,原来不属于同一邻域的样本x1x2x3变成处于同一邻域:即样本x1x2x3图 1中不属于同一邻域,而在图 2中则处于同一邻域。根据以上分析,可以得出准则2。

图 2 δ减小后的样本邻域图 Fig. 2 Neighborhood of sample with smaller δ

准则2 选择样本邻域的大小影响着样本之间距离的精确刻画。

3 算法设计

在对样本邻域影响分析的基础上,利用欧式距离计算样本之间的距离,用改进的VDM计算样本邻域之间的距离,设计融合样本邻域信息的k-近邻分类算法如下:

算法1 融合样本邻域信息的k-近邻分类算法(FK3N)。

输入:数据集D,测试样本x,距离阈值δ,近邻个数k

输出:测试样本x的标签c(x)。

1)初始化c(x)=φ

2)根据式(2)获取测试样本与训练样本的k/2个近邻R1

3)根据式(3)获取测试样本邻域与训练样本邻域的k/2个近邻R2

4)获得测试样本x的融合近邻集合R=R1R2后,即测试样本xk近邻Nk(x);

5)根据式(1)获得测试样本x的类标签c(x)。

4 实验结果及分析

为了验证所提出算法的有效性,从UCI数据集中挑选了6组数据。其中,为了验证算法的适用性,其数据集的类别从2类到3类,特征数从5~60,具体描述信息见表 1。同时,进行2组实验,第1组实验与经典的分类算法KNN、NEC[13]、CART、LSVM进行比较;另一组检测在噪声数据影响下,本文所提出的FK3N与其他分类器的比较。

表 1 数据描述 Table 1 Data set description
数据集 Instances 特征数 类别
Heart 270 13 2
ICU 200 20 3
Rice 104 5 2
Sonar 208 60 2
Wdbc 569 30 2
wpbc 198 33 2

实验1 为了验证FK3N的分类性能,在本实验中,与其他流行的分类算法进行了比较,如表 2

表 2 不同分类器的分类精度比较 Table 2 The comparison of classification accuracy with different classifiers
数据集 KNN NEC CART LSVM FK3N
Heart 82.59±6.06 80.00±6.10 74.07±6.30 83.33±5.31 84.44±6.00
ICU 92.61±2.25 86.29±17.85 79.40±31.64 92.56±4.27 93.61±3.12
Rice 81.69±10.30 83.07±10.96 82.07±11.70 78.16±8.10 82.98±10.90
Sonar 72.62±7.05 82.74±5.48 72.07±13.94 77.86±7.05 79.31±5.59
Wdbc 96.67±2.09 95.79±2.37 90.50±4.55 97.73±2.48 97.01±2.04
Wpbc 76.26±5.89 78.26±7.24 70.63±7.54 77.37±7.73 76.79±7.96
平均 83.74 84.35 78.12 84.50 85.69

其中将FK3N、KNN涉及到的参数k设置为10,将FK3N、NEL涉及到的参数delta设置为0.1。为了显示标注FK3N在6个UCI数据集上的分类精度,在FK3N中加粗的代表分类精度最高,下划线代表分类精度第2。另外,在表 2最后一行显示不同分类器的平均分类精度。从表 2可以看出,FK3N虽然只在2个数据集上取得最优的分类效果,但是在其他3个数据集上取得第2(或并列)的分类精度。另外,在平均分类精度可以看出,FK3N取得最高的平均分类精度,比LSVM还高出1.19%。因此,从本实验可以看出,与其他流行的分类器相比,说明了本文提出的FK3N算法具有较为优越的分类性能。

实验2 为了考察FK3N的稳定性,在训练数据的属性中注入噪声。首先生成一个服从标准正态分布的m×n(m为样本数,n为属性数)的噪声数据,然后乘以系数a后加入原始训练数据中。本文设a的值为0.1。从表 3可以看出,与其他分类器相比,在存在噪声情况下,FK3N在多个数据集上的分类精度取得良好的结果。

表 3 噪声数据下不同分类器的分类精度比较 Table 3 The comparison of classification accuracy with different classifiers under noisy data
数据集 KNN NEC CART LSVM FK3N
Heart 82.22±6.49 80.37±4.96 77.78±7.61 83.33±6.11 82.96±5.30
ICU 92.61±2.25 87.29±18.03 84.19±29.92 91.55±5.44 92.61±2.24
Rice 81.80±6.61 81.78±7.96 77.05±10.69 77.05±3.84 81.98±8.96
Sonar 71.64±11.21 78.28±7.20 69.21±11.35 77.38±6.98 77.52±9.11
Wdbc 94.96±2.49 94.56±3.35 93.16±3.74 97.03±2.01 94.68±2.89
Wpbc 73.29±7.42 74.66±11.25 71.11±9.89 76.32±5.61 74.79±8.51
平均 82.71 82.82 78.75 83.78 84.09

5 结束语

本文提出了一种FK3N分类算法。首先,从度量空间角度定义了样本邻域信息,分析了样本的邻域对能否精确地计算样本之间的距离具有重要的影响,提出了2条符合实际情况的准则;然后在计算样本个体之间的距离时,综合考虑了样本邻域之间的相似性;最后提出了一种获取最近邻的计算方法。在多个公开UCI数据集上的实验结果表明,本文方法在原始数据和噪声数据上分类性能优于或相当于其他相关分类器。

参考文献
[1] COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory , 1967 (13) : 21-27
[2] WU X D, KUMAR V, QUINLAN J R, et al. Top 10 algorithms in data mining[J]. Knowledge and Information Systems , 2008, 14 (1) : 1-37 DOI:10.1007/s10115-007-0114-2
[3] 吕锋, 杜妮, 文成林. 一种模糊-证据kNN分类方法[J]. 电子学报 , 2012, 40 (12) : 2930-2935
[4] WANG H. Nearest neighbors by neighborhood counting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2005, 28 (6) : 942-953
[5] WILSON D R, MARTINEZ T R. Improve heterogeneous distance functions[J]. Journal of Artificial Intelligence Research , 1997 (6) : 1-34
[6] HU Q H, ZHU P F, YANG Y B, et al. Large-margin nearest neighbor classifiers via sample weight learning[J]. Neurocomputing , 2011, 74 (4) : 656-660 DOI:10.1016/j.neucom.2010.09.006
[7]
[8] KOHAVI R, LANGLEY P, YUNG Y. The utility of feature weighting in nearest neighbor algorithms[C]//Proceedings of the Ninth European Conference on Machine Learning. [S.l.], 1997.
[9] SUN Y J. Iterative RELIEF for feature weighting: algorithms, theories, and applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2007, 29 (6) : 1035-1051 DOI:10.1109/TPAMI.2007.1093
[10] MU Y, DING W, TAO D C. Local discriminative distance metrics ensemble learning[J]. Pattern Recognition , 2013, 46 (8) : 2337-2349 DOI:10.1016/j.patcog.2013.01.010
[11] SONG Y, HUANG J, ZHOU D, et al. IKNN: informative k-nearest neighbor pattern classification[C]//PKDD 2007. [S.l.], 2007: 248-264.
[12] 林耀进, 胡学钢, 李慧宗. 基于用户群体影响的协同过滤推荐算法[J]. 情报学报 , 2013, 32 (3) : 299-350
[13] HU Q H, YU D R, XIE Z X. Neighborhood classifiers[J]. Expert Systems with Applications , 2008, 34 (2) : 866-876 DOI:10.1016/j.eswa.2006.10.043
DOI: 10.3969/j.issn.1673-4785.201307015
中国人工智能学会和哈尔滨工程大学联合主办。
0

文章信息

林耀进, 李进金, 陈锦坤, 马周明
LIN Yaojin, LI Jinjin, CHEN Jinkun, MA Zhouming
融合邻域信息的k-近邻分类
K-nearest neighbor classification algorithm fusing neighborhood information
智能系统学报, 2014, 9(2): 240-243
CAAI Transactions on Intelligent Systems, 2014, 9(2): 240-243
http://dx.doi.org/10.3969/j.issn.1673-4785.201307015

文章历史

收稿日期: 2013-06-22
网络出版日期: 2014-03-31

相关文章

工作空间