«上一篇
文章快速检索     高级检索
下一篇»
  哈尔滨工程大学学报  2017, Vol. 38 Issue (7): 1086-1092  DOI: 10.11990/jheu.201605023
0

引用本文  

盛振国, 王立国. 改进的LLGC高光谱图像半监督分类[J]. 哈尔滨工程大学学报, 2017, 38(7): 1086-1092. DOI: 10.11990/jheu.201605023.
SHENG Zhenguo, WANG Liguo. Semi-supervised classification for hyperspectral images based on improved learning with the LLGC method[J]. Journal of Harbin Engineering University, 2017, 38(7): 1086-1092. DOI: 10.11990/jheu.201605023.

基金项目

国家自然科学基金项目(60802059);教育部博士点新教师基金项目(200802171003)

通信作者

王立国, E-mail:wangliguo@hrbeu.edu.cn

作者简介

盛振国(1992-), 男, 硕士;
王立国(1974-), 男, 教授, 博士生导师

文章历史

收稿日期:2016-05-07
网络出版日期:2017-04-26
改进的LLGC高光谱图像半监督分类
盛振国1,2, 王立国1    
1. 哈尔滨工程大学 信息与通信工程学院, 黑龙江 哈尔滨 150001;
2. 江南机电设计研究所, 贵州 贵阳 550009
摘要:针对高光谱数据波段多,地物标签获取代价高,带标记的样本数量少,分类过程中容易引起Hudges现象。本文提出一种基于改进的局部全局一致性(learning with local and global consistency,LLGC)算法的半监督分类方法。通过边缘采样法(margin sampling,MS)选取最富含信息量的无标签样本,加入到训练集来扩充训练样本;用KNN算法计算相似度进一步优选无标签样本,去除噪声点和存在的野值点;使用改进的局部全局一致性算法对无标签样本集进行分类标记,得到各类别的分类结果。实验结果表明,本文方法在充分利用无标签样本的情况下,有效地提高了带有少量标签样本的高光谱图像的分类精度。
关键词半监督分类    局部全局一致性    边缘采样法    KNN算法    高光谱图像    无标鉴样本集    
Semi-supervised classification for hyperspectral images based on improved learning with the LLGC method
SHENG Zhenguo1,2, WANG Liguo1    
1. College of Information and Communications Engineering, Harbin Engineering University, Harbin 150001, China;
2. Jiangnan Design Institute of Machine and Electricity, Guiyang 550099, China
Abstract: The use of the hyperspectral image classification process may lead to the so-called "Hughes phenomenon, " because the heavy acquisition cost of the feature label leads to limited labeled training samples and due to the fact that the data have too many bands. A novel semi-supervised learning algorithm was proposed in this study to solve the abovementioned problems. The algorithm was based on the improved Learning with Local and Global Consistency (LLGC) algorithm. The proposed algorithm first used margin sampling (MS) technique to select the most informative unlabeled samples, which were then added to the training set to expand the training sample. Next, the unlabeled sample was further optimized by KNN algorithm, which was used to remove noise point and outliners from the samples. Finally, the improved LLGC algorithm was used to mark the unlabeled sample set according to different categories, in order to obtain the classification results of each category. The proposed algorithm was experimentally validated on real hyperspectral data sets, and results indicated that the proposed framework can efficiently utilize the unlabeled data and effectively improve the classification accuracy of hyperspectral images with a small number of labeled samples.
Key words: semi supervised classification    Learning with Local and Global Consistency    margin sampling    KNN algorithm    K means algorithm    hyperapectral image    data of unlabeled samples    

自20世纪80年代以来,随着成像光谱技术的发展,高光谱遥感已经成为一个热门的研究方向[1]。随着光谱数量的不断增加,图像的分辨率越来越高,但也给数据分析带来一定的困难。高光谱图像数据波段多,地物标签获取代价高,带标记的样本数量少,分类过程中容易引起Hughes现象[2]。一般分类可分为无监督分类和监督分类两种。传统的无监督分类因为缺少有效的监督信息,所以分类精度不高。监督分类则需要大量带有标记的样本, 而有标记样本的实地获取是一项消耗大量人力、物力和财力的事情[3],因此如何利用少量的带标记样本和大量无标记样本的半监督学习方法成为当前热门研究的问题之一[4]。目前,半监督分类方法可以分为自训练(self-training)[5]、协同训练(co-training)[6]、生成式模型算法(generative model)[7-8]、半监督支持向量机[9]、基于图的半监督算法[10]等,半监督分类方法最大的特点就是充分利用了数据中大量的无标记样本来提高分类精度。

半监督学习(semi-supervised learning,SSL)问题成立的关键是一致性假设,分类函数的一个基本需求是充分满足大量有标记和无标记样本点内在结构的平滑性,SSL依赖的假设有平滑假设(smoothness assumption)、聚类假设(cluster assumption)、流形假设(manifold assumption)。在半监督分类算法中,自训练算法比较简明直观,训练一个分类器对无标签样本分类,选取信任度高的无标签样本加入训练集,更新训练样本,但是会引入大量错分的样本。协同训练对训练样本的冗余性要求很高。三重训练算法[11]对训练样本没有要求,但是计算量较大。

对于小样本、高维非线性的训练集,支持向量机是很好的选择,在高光谱图像处理过程中SVM的应用很广泛[12-13]。Joachims提出直推式支持向量机(transductive support vector machine, TSVM), 即通过少量的有标签样本训练出一个决策边界, 然后利用无标签样本来调整这个边界,之后有的学者优化了TSVM算法,但是损失函数的非凸性会导致局部的最优[14]。Blum和Chawla根据流形假设提出了基于图的半监督算法,基于图的算法通过构图的方式来反映样本之间的联系,并且通过构造目标函数使数据的标记在图上平滑分布,对无标记样本进行分类,但是此方法计算量大,可扩展性差[15]

Zhou根据流形假设,提出了局部全局一致性算法[16],该算法的核心内容是让每个样本点反复迭代传递其标签信息给它的近邻样本,对分类结果进行平滑,直到所有的样本标签都达到稳定为止。经典的LLGC算法使用RBF核函数计算邻接矩阵,Bai Bendu提出了基于稀疏分解的局部全局一致性学习算法,使用稀疏分解系数矩阵来获取邻接矩阵以及边的权重[17]。Jie Gui中提出,计算节点距离的时候考虑标签的信息,使用KNN来建立邻接矩阵,减少计算量[18]

在半监督分类利用大量无标签样本中,应该注意的是,并不是所有的无标签样本都有助于提高分类性能,如何选取有价值的无标记的样本是一项有实际意义的工作。主动学习[19]是一种利用有标记和无标记样本进行训练学习的重要算法,选取富有信息量的样本,以保证数据处理的性能和计算成本的降低。主动学习算法有以下3种:1)[20-21]中提出了依赖于SVM特性的边缘采样算法(margin sampling, MS);2) 依赖后验概率分布函数的不确定性主动学习方法,常应用在概率模型中;3) 基于委员会查询[22-23]的主动学习方法(query-by-committee,QBC)。以上这些典型的半监督分类方法虽然取得了较好的效果,但性能上仍存在着进一步提升的空间。

1 基于边缘采样的主动学习算法

基于边缘采样的方法主要是用于支持向量机(SVM)的主动学习中,常用的采样算法就是通过计算样本点到超平面的距离来选择落在当前SVM间隔之内的样本点,因为这些点含有更多的信息量,而且可能成为下一个支持向量。因此选择有信息量的样本点加入训练集有很现实的意义。

设样本集:

$\begin{array}{*{20}{c}} {S = \left\{ {\left( {{\mathit{\boldsymbol{x}}_1},{y_1}} \right), \cdots ,\left( {{\mathit{\boldsymbol{x}}_n},{y_n}} \right)} \right\},{\mathit{\boldsymbol{x}}_i} \in {{\bf{R}}^d},}\\ {i = 1,2, \cdots ,n.} \end{array}$

SVM在特征空间中的线性超平面为

${\mathit{\boldsymbol{w}}^{\rm{T}}}\phi \left( \mathit{\boldsymbol{x}} \right) + b = - 1,\mathit{\boldsymbol{w}} \in {{\bf{R}}^d},b \in {\bf{R}}$ (1)

式中:w是权向量,b是决策函数的截距。由式(1) 可以看到超平面应该是理想的把两类样本分开的一条直线,所以要找到两边样本距离该直线间隔最大的那条直线。两边样本的边缘分别是${w^{\rm{T}}}\phi (x) + b = 1$${w^{\rm{T}}}\phi (x) + b = - 1$,它们的距离间隔是$\frac{2}{{{{\left\| w \right\|}^2}}}$,使间隔最大化就是最小化$\frac{1}{2}{\left\| w \right\|^2}$,因此,SVM的最优化问题可表示为

$\left\{ \begin{array}{l} \min \frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2} + C\sum\limits_{i = 1}^n {{\varepsilon _i}} \\ {\rm{s}}{\rm{.t}}{\rm{.}}\\ {y_i}\left[ {\left( {{\mathit{\boldsymbol{w}}^{\rm{T}}} \cdot \phi \left( {{\mathit{\boldsymbol{x}}_i}} \right)} \right) + b} \right] \ge 1 - {\varepsilon _i}\\ {\varepsilon _i} \ge 0,i = 1,2, \cdots ,n \end{array} \right.$ (2)

式中:εi是松弛变量,C是惩罚系数目的是控制目标函数中两项之间的权重,$\phi ({x_i})$是非线性映射函数。

然后引入拉格朗日因子,把对wb的求解转化为对单一因数对偶变量的求解(求解过程中涉及到最优化和凸二次规划的问题),得到最终的判别函数:

$\begin{array}{l} f\left( x \right) = {\mathop{\rm sgn}} \left\{ {\left( {{\mathit{\boldsymbol{w}}^ * } \cdot \phi \left( {{\mathit{\boldsymbol{x}}_i}} \right)} \right) + {b^ * }} \right\} = \\ \;\;\;\;\;\;\;\;\;\;\;{\mathop{\rm sgn}} \left\{ {\sum\limits_{i = 1}^n {\alpha _i^ * {y_i}K\left( {{\mathit{\boldsymbol{x}}_i},\mathit{\boldsymbol{x}}} \right) + {b^ * }} } \right\} \end{array}$ (3)

式中:b*可由Kuhn-Tucher定理推得

${b^ * } = - \frac{{\mathop {\max }\limits_{{y_i} = - 1} \left( {{\mathit{\boldsymbol{w}}^ * } \cdot {\mathit{\boldsymbol{x}}_i}} \right) + \mathop {\min }\limits_{{y_i} = + 1} \left( {{\mathit{\boldsymbol{w}}^ * } \cdot {\mathit{\boldsymbol{x}}_i}} \right)}}{2}$ (4)

这样是关于线性问题的分类情况,对于线性不可分的情况,使用非线性核函数来进行非线性映射,在映射空间中把非线性问题转化为线性问题解决。

边缘采样MS的思想是通过计算样本点到分类超平面的距离来选择距离分类面最近的那些样本点。对于二分类问题,在大量无标签样本集U中,使用MS算法选取的样本满足以下条件:

$\mathit{\boldsymbol{\hat x}} = \arg \mathop {\min }\limits_{{x_i} \in U} \left| {f\left( {{\mathit{\boldsymbol{x}}_i}} \right)} \right|$ (5)

式中:U表示无标签样本集合,|f(xi)|为无标签样本点xi到分类超平面的距离。

对于多分类问题,使用“one-against-rest”把多分类问题转化为多个二分类问题。

2 LLGC算法理论及其改进

已知训练样本集$X = \left\{ {{x_1}{x_2} \cdots {x_l}{x_{l + 1}} \cdots {x_n}} \right\} \subset $Rd,标签集为L={1, 2,…, c},前l个样本xi(il)为有标签样本,其标签为{y1y2,…,yl}∈L。其余的样本xu(l+1≤un)是无标签样本,算法的目标是预测无标签样本的标签yu

定义一个n×cY矩阵来表示样本的初始标签信息,若样本xi的标签yi=j,则Yij=1;否则Yij=0,并且未标记的样本Yij都为0。定义一个非负的n×cF矩阵来表示样本的标记概率,矩阵的行元素分别代表样本节点的各个类别的概率分布,其中Fic的值是第i个样本节点属于c类别的概率,样本xi的标签${y_i} = \arg \mathop {\min }\limits_{{x_i} \in U} {F_{ij}}$

LLGC算法的实现步骤描述如下:

1) 根据样本间相似度,建立邻接矩阵W

ij时,Wij=exp(-(xi-xj)2/2σ2);

i=j时,Wii=0;

强行令Wii=0,防止样本点将自身标签信息不断传递给自身的情况,初始化标注概率矩阵F(0),使F(0)=Y

2) 建立概率传播矩阵S=D-1/2WD-1/2,其中D是一个对角矩阵,其对角线元素${D_{ii}} = \sum\limits_{j = 1}^n {{W_{ij}}} $S为对称矩阵,则标签信息也是对称传播的,所以符合现实规律。

3) 进行标签传递,每个样本点按以下公式来更新标签的概率分布:F(t+1)=αSF(t)+(1-α)Y直至收敛;参数α控制着有标签样本和近邻样本对样本xi类别标签的贡献率比例。

4)F*为序列{F(t)}的极限,则每个样本点xi的标签为${y_i} = \arg {\max _{j \le c}}F_{ij}^{*}$。;Y矩阵表示所有样本的标签信息,如果样本点xi是第j类,则对应的类别标签为yij=1;否则yij=0;对于无标签样本xiYij均为0。

LLGC算法的关键之处在于步骤1中邻接矩阵W的建立,经典的LLGC算法构建的是完全连接图,而对于数据量大的训练样本的计算无疑是一个繁重的工作。由于样本点之间是存在一定关联性的,而不是完全没有联系的。所以为了减少计算的复杂度,改进的LLGC算法使用KNN图来建立邻接矩阵,这样做的优点是:1) 用K作为限制近邻样本的数量,增加了相似样本点之间的传播概率;2) 与完全连接图相比,大大减少了计算代价,提高了计算速度。

如果yi=yjxjN(xi)的K近邻,则记为xjN(xi)。另外除了考虑样本点间的距离之外,同时考虑它们的标签信息。综上改进的邻接矩阵W的建立如下:

xixj都是有标签的样本,即iljl,则:yi=yj时,Wij=1,yiyj时,Wij=0;否则:xjN(xi)时,Wij=exp(-(xi-xj)2/2σ2),xjN(xi)时,Wij=1.

Zhou等证明了算法的收敛性,初始化F(0)=Y,代入得

$\mathit{\boldsymbol{F}}\left( t \right) = {\left( {\alpha \mathit{\boldsymbol{S}}} \right)^{t - 1}}\mathit{\boldsymbol{Y}} + \left( {1 - \alpha } \right)\sum\limits_{i = 0}^{t - 1} {{{\left( {\alpha \mathit{\boldsymbol{S}}} \right)}^i}\mathit{\boldsymbol{Y}}} $ (6)

式中:α∈(0, 1),且S的特征值在[-1, 1],则可推得

$\mathop {\lim }\limits_{t \to \infty } {\left( {\alpha \mathit{\boldsymbol{S}}} \right)^{t - 1}} = 0$ (7)
$\mathop {\lim }\limits_{t \to \infty } \sum\limits_{i = 0}^{t - 1} {{{\left( {\alpha \mathit{\boldsymbol{S}}} \right)}^i}} = {\left( {\mathit{\boldsymbol{I}} - \alpha \mathit{\boldsymbol{S}}} \right)^{ - 1}}$ (8)

根据式(7)、(8),式(6) 的极限F*

${\mathit{\boldsymbol{F}}^ * } = \mathop {\lim }\limits_{t \to \infty } \mathit{\boldsymbol{F}}\left( t \right) = \left( {1 - \alpha } \right){\left( {\mathit{\boldsymbol{I}} - \alpha \mathit{\boldsymbol{S}}} \right)^{ - 1}}\mathit{\boldsymbol{Y}}$ (9)

对于分类问题,(1-α)为常数,去掉后对结果没有任何影响,则F*等价于:

${\mathit{\boldsymbol{F}}^ * } = \mathop {\lim }\limits_{t \to \infty } \mathit{\boldsymbol{F}}\left( t \right) = {\left( {\mathit{\boldsymbol{I}} - \alpha \mathit{\boldsymbol{S}}} \right)^{ - 1}}\mathit{\boldsymbol{Y}}$ (10)

由此证明了LLGC算法的收敛性,LLGC的分类结果是唯一。可以通过式(10) 直接求出分类结果,而不必进行大量迭代。

3 算法过程

在本文的算法中,首先使用边缘采样选取适量富含信息量的无标签样本,然后使用KNN算法粗分类,去除选取样本中存在的野值点和分类错误的样本,最后使用改进的LLGC对无标签样本进行标注。具体实验步骤如下:

输入:带标签训练样本集Dl={(x1, y1), (x2, y2), …, (xl, yl)},无标签样本集U={xl+1, xl+2, …, xn}。

1) 使用带标记样本训练SVM分类器,利用边缘采样算法选择m个富含信息量的无标签样本集,记为Um

2) 利用KNN算法进一步优选无标签样本,knn_label=KNN(X),通过计算每个节点和各类别的相似度s来去除野值点,如果某个节点和每个类别的相似度都小于给定的阈值,那么就定义该节点为野值点并去除。

其中相似度s

$s = \frac{{\sum\limits_{t = {i_1}}^{{{\rm{i}}_k}} {{\mathit{\boldsymbol{w}}_t}} }}{k}$ (11)

3) 构建邻接矩阵F(0)=Y,初始化Y矩阵,并令F(0)=Y

4) 建立概率传播矩阵S=D-1/2WD-1/2,其中D是一个对角矩阵,其对角线元素${D_{ii}} = \sum\limits_{j = 1}^n {{W_{ij}}} $

5) 标签进行传递,迭代计算F(t+1)=αSF(t)+(1-α)Y,(0≤a < 1) 直至收敛。

6)F*是序列{F(t)}的极限,则每个样本点xi的标签为${y_i} = \arg {\max _{j \le c}}F_{ij}^*$

4 实验结果与分析 4.1 实验数据

第一组实验数据采用1992年6月在美国西北部印第安纳州农林混合实验场拍摄的AVIRIS高光谱图像数据的一部分,其光谱值区间大约在0.41~2.45 μm,空间分辨率为20×20 m,光谱分辨率为10 nm,图像的大小为144×144像素,除去20个水汽吸收和低信噪比的波段,在原始224个波段的图像中,实际参与处理的图像波段数为200个,实验选取了类别数目较多的8类主要地物进行实验。监督信息图见图 1(a)

图 1 实验数据的监督信息图 Fig.1 The supervised information map of the experimental data

第二组实验数据是成像光谱仪在帕维亚大学上空获得的Pavia高光谱数据,在115个波段中,去除12个噪声波段,实际参与处理的图像波段为103个,图像的大小为144×144像素,选取8个主要类别。图 1给出实验所用到的AVIRIS高光谱图像数据和Pavia高光谱图像数据中选取的8类地物的的监督信息图。

4.2 实验设置

实验仿真条件:电脑处理器为Intel(R)Core(TM)i3-2 350 M,4G的RAM,电脑为统为64位windows7操作系统,MATLAB软件为matlab2010b。每次实验进行10次取平均值作为实验结果。

评价准则:因为各类别的数据点总数不同,比例分布复杂程度也不同,所以各类别的分类结果不均衡。而且每类选择10个会造成所选比例不均,导致各类别分类精度有差别。为此选择总体分类精度、平均分类精度和Kappa系数作为评价准则。

总体分类精度(overall accuracy, OA):

${P_{{\rm{OA}}}} = \frac{1}{u}\sum\limits_{i = 1}^C {{m_{ii}}} $ (12)

式中:u为无标记样本的总数,C为类别数目,mii为正确分类为第i类的样本数目。

平均分类精度(average accuracy, AA):

${P_{{\rm{AA}}}} = \frac{1}{C}\sum\limits_{i = 1}^C {{m_{ii}}/{u_i}} $ (13)

式中:ui为各类别样本的数目,$u = \sum\limits_{i = 1}^c {{u_i}} $

Kappa系数是一种综合分类精度计算方法:

${P_{{\rm{Kappa}}}} = \frac{{u \times \sum\limits_{i = 1}^C {{m_{ii}}} - \sum\limits_{i = 1}^C {{u_i} \times {m_{ii}}} }}{{{u^2} - \sum\limits_{i = 1}^C {{u_i} \times {m_{ii}}} }}$ (14)

为了证明本文算法的有效性,实验选择了标准的SVM,经典LLGC算法,以及加入边缘采样的LLGC算法(learning with local and global consistency with margin sampling,MSLLGC)进行比较。

在实验过程中,从每类样本中随机选取10%作为训练样本集,剩余的为测试样本集,为了营造小样本的实验条件,在训练样本中随机选取10个是带标签的样本,剩余的作为无标签的样本。标准SVM采用径向基核函数,采用“one-againest-rest”多分类算法,惩罚因子C以及核函数中的σ采用网格搜索法分别在集合{1, 5, 15, 35, 45, 55, 75}和集合{0.8, 1.0, 1.2, 1.4, 1.6, 1.8, 2.0}中选取最优值。MSLLGC算法中的参数α以及高斯核宽度σ经过文献查阅和实验比较选取,选取α=0.99,δ=0.04,近邻参数K取8。

图 2给出了对于改进的局部全局一致性算法,参数K取不同值的比较,当K取值很小时,比如1,分类精度不是很高,随着K的增加,分类精度随之增加。但是当K的值大于10之后,分类精度再没有明显的增加,这是因为当K值取的越大,参加的其他类别会随之增加,而且K值的增加,对于计算量来说是一个重要的负担。综合计算量考虑,K在取5~10选取最优值,本文中K=8。

图 2 不同K的比较 Fig.2 Comparison of different K
4.3 AVIRIS高光谱图像数据实验

表 1给出了标准SVM算法,经典的LLGC算法和本文改进的算法MSLLGC的分类结果比较,其中以平均分类精度(AA),总体分类精度(OA)以及Kappa系数作为评测标准。在表中可以看到,改进的MSLLGC算法与直推式支持向量机TSVM算法比较,分类结果有显著的提高,AA提高了4.81%,OA提高了6.09%,Kappa系数提高了0.067 6。这是因为对无标签样本进行的是有价值的选取,而不是盲目的随机选取,此外该算法是达到一个局部与全局的最优解。通过考虑标签信息,和对K邻近的最优K值的选取,来减少计算复杂度,在表中可以看到,文中改进的算法和经典的LLGC算法相比,不仅计算复杂度减少,而且分类精度也有所提高。其中,AA提高了2.87%,OA提高了2.28%,Kappa提高了0.023 8。

表 1 印第安数据不同算法的分类结果 Tab.1 The classification results of different algorithms for the AVIRIS data

图 3给出了8个类别的监督图像和相应3种算法的分类结果的灰度图像,在图中可以看出图 3(d)(b)(c)相比,错分样本点明显减少,这充分证明了改进算法的有效性。

图 3 地物的真实标记图及3种方法的分类 Fig.3 Reference land-cover map and the classification maps of three different algorithms

为了更清晰地看出3种算法的不同,在图 4中给出了3种不同分类算法的柱状图。在图中可以看到改进后的算法MSLLGC,可以较其他两种方法可以有效的提高分类精度。

图 4 印第安数据不同算法的分类结果比较 Fig.4 Classification results comparison of different algorithms for the AVIRIS data

图 5中,给出了在训练样本中选取不同数量带标记样本与总体分类精度OA的关系比较。选取的样本数目m∈{2, 5, 10, 15, 20, 25},从图中可以看出,本文提出的改进算法优于其他两种对比的方法,随着带标签样本的增加,分类精度也随之增加,这是因为带标记样本含有跟多的监督信息。在m=2时,本文所提的算法比经典算法提高了2.89%,随着m的增加,精度提高的幅度减小,这说明了本文算法在初始带标记样本数目较少的时候有效性著。

图 5 印第安数据下带标签样本数m与OA的关系曲线 Fig.5 Influence of m on the overall accuracy (OA) for the AVIRIS data
4.4 Pavia高光谱图像数据实验

表 2给出了各分类算法使用Pavia高光谱图像数据的实验结果。在表中可以看到,改进的MSLLGC算法与直推式支持向量机TSVM算法比较,分类结果有显著的提高,AA提高了3.20%,OA提高了4.79%,Kappa系数提高了0.063 5。此外,还可以看到,文中改进的算法和经典的LLGC算法相比,不仅计算复杂度减少,而且分类精度也有所提高。其中,AA提高了1.96%,OA提高了2.96%,Kappa提高了0.044 0。这是因为对无标签样本进行的是有价值的选取,而不是盲目的随机选取,此外该算法达到一个局部与全局的最优解。

表 2 帕维亚数据不同算法的分类结果 Tab.2 The classification results of different algorithms for Pavia data

图 6给出了地物监督信息和不同分类方法的灰度图,为了更清晰的看出实验结果,图 7给出了不同分类方法的柱状图。

图 6 地物的真实标记图及3种方法的分类 Fig.6 Reference land-cover map and the classification maps of three different algorithms
图 7 帕维亚数据不同算法的分类结果比较 Fig.7 Classification results comparison of different algorithms for Pavia data

图 8为Pavia数据训练样本中选取不同数量带标记样本与总体分类精度OA的关系比较,可以看出,本文提出的改进算法优于其他两种对比的方法,而且在标记样本数目较少的情况下,精度提高较明显,这是因为一般的半监督算法对无标签样本的使用,是随机选取的,而本文的算法是选取富含信息量的无标签样本加入到训练集中。实验结果证明了本文算法在小样本数据的半监督分类方法中的有效性。

图 8 帕维亚数据下带标签样本数m与OA的关系曲线 Fig.8 Influence of m on the overall accuracy (OA) for the Pavia data
5 结论

半监督分类方法是针对现实应用中监督信息获取困难或代价较高这一背景下发展起来的,近年来得到了广泛的研究。在本文提出的半监督分类算法中。

1) 使用依赖于SVM特性的边缘采样方法对大量无标记样本进行选取,然后用KNN算法粗分类进行优选,得到富含信息量的样本点。

2) 使用改进的LLGC对选取的无标签样本进行标注,得到一个全局性的标记结果。

3) 本文中所提的算法与经典的LLGC算法相比,大大减少了计算复杂度,并且通过对无标签样本信息的选取和使用,使得总体分类精度和Kappa系数都有显著的提高,对解决少量含标签样本的数据集有显著成效。

参考文献
[1] 童庆禧, 张兵, 郑兰芬. 高光谱遥感[M]. 北京: 高等教育出版社, 2006. (0)
[2] SHAHSHAHANI B M, LANDGREBE D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon[J]. IEEE Trans. Geosci. Remote Sens, 1994, 17(9): 1087-1095. (0)
[3] ZHANG D, ZHOU Z, CHEN S. Semi-supervised dimensionality reduction[C]//Proceedings of the 7th International Conference on Data Mining.Omaha, USA, 2007:629-634. https://link.springer.com/article/10.1007/s10994-009-5125-7 (0)
[4] CHAPELLE O, SCHOLKOPF B. Semisupervised learning[M]. Cambridge: MIT Press, 2006. (0)
[5] NIGAM K, CHANI R. Analyzing the effectiveness and applicability of co-training[C]//Proceedings of the Ninth International Conference on Information and Knowledge Management.Halifax, 2000:86-93. http://www.academia.edu/2846098/Minimum_redundancy_and_maximum_relevance_feature_selection_and_recent_advances_in_cancer_classification (0)
[6] BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training[C]//Proceedings of the Eleventh Annual Conference on Computational Learning Theory.New York, USA, 1998:92-100. (0)
[7] MILLER D, UYAR H S. A mixture of experts classifier with learning based on both labelled and unlabelled data[C]//Advances in Neural Information Processing Systems. Cambridge, MA, USA, 1997:571-577. https://link.springer.com/article/10.1007/s11390-011-9439-0 (0)
[8] NIGAM K, MCCALLUM, THRUN S. Text classification from labeled and unlabeled documents using EM[J]. Machine learning, 2000, 39(3): 103-134. (0)
[9] JOACHIMS T. Transductive inference for text classification usingsupport vector machines[C]//Proceedings of the Sixteenth International Conference on Machine Learning. San Francisco, CA, USA 1999:200-209. https://link.springer.com/chapter/10.1007/978-3-540-74976-9_31 (0)
[10] BELKIN M, NIYOGI P, SINDHWANI. Manifold regularization:A geometric framework for learning from labeled and unlabeled examples[J]. The journal of machine learning research, 2006, 7(11): 2399-2434. (0)
[11] ZHOU Z H, LI M. Tri-training:exploiting unlabeled data using three classifiers[J]. IEEE transactions on knowledge and data engineering, 2005, 17(11): 1529-1541. DOI:10.1109/TKDE.2005.186 (0)
[12] 王立国, 张晔, 谷延锋. 支持向量机多类目标分类器的结构简化研究[J]. 中国图象图形学报, 2005, 10(5): 571-572.
WANG Liguo, ZHANG Ye, GU Yanfeng. The research of simplification of structure of multi-class classifier of support vector mach ine[J]. Journal of image and graphics, 2005, 10(5): 571-572. DOI:10.11834/jig.200505114 (0)
[13] MARCONCINI M, CAMPLES G, BRUZZONE L. A composite semi-supervised SVM for classification of hyperspectral imaages[J]. IEEE geoscinence and remote sensing letters, 2009, 6(2): 234-238. DOI:10.1109/LGRS.2008.2009324 (0)
[14] JOACHIMS T. Transductive inference for text classification using support vector machines[C]//Proceedings of the Twenty-first International Conference on Machine Learning. San Francisco, CA, USA, 1999:200-209. https://link.springer.com/article/10.1057/jors.2015.89 (0)
[15] BLUM A, CHAWLA S. Learning from labeled and unlabeled data using graph mincuts[C]//Proceedings of the 18th international conference on machine learning. Williamstwn MA, USA, 2001:19-26. https://link.springer.com/article/10.1007/s10115-004-0155-8 (0)
[16] ZHOU D Y, BOUSQUET O, LAL T N, et al.Learning with local and global consistency[C]//Proceedings of Advances in Neural Information Processing Systems.Tuebingen, Germany, 2004:321-328. https://link.springer.com/chapter/10.1007/978-3-662-54395-5_14/fulltext.html (0)
[17] BAI Bendu, FAN Jiulun. Learning with local and global consistency based on sparse representation[J]. Journal of Xi'an university of posts and telecommunications, 2003, 7(4): 79-85. (0)
[18] GUI Jie, HUANG Deshuang, YOU Zhuhong.An improvement on learning with local and global consistency[C]//Proceedings of the 19th International Conference on Pattern Recognition.Tampa, FL, USA, 2008:1-4. https://eprints.lincoln.ac.uk/view/subjects/jacs=5FG400.keywords.html (0)
[19] NGUYEN H T, SMEULDERS A.Active learning using pre-clustering[C]//Proceedings of the Twenty-First International Conference on Machine Learning, Canada, 2004:79-80. https://link.springer.com/article/10.1186/1471-2105-11-S1-S58 (0)
[20] SCHOHN G, COHN D. Less is more active learning with support vectors machines[C]//Proceedings of the Twenty-First International Conference on Machine Learning, Stanford, 2000:839-846. https://link.springer.com/article/10.1007/s00521-014-1643-8 (0)
[21] CAMPBELL C, CRISTIANINI N, SMOLA A. Query learning with large margin classifiers[C]//Proceedings of the Twenty-First International Conference on Machine Learning. Stanford, 2000:111-118. https://link.springer.com/chapter/10.1007/11564096_15 (0)
[22] SEUNG H, OPPER M, SOMPLINSKY H. Query by committee[C]//Proceedings of the Twenty-First International Conference on Machine Learning. Stanford, 2000:111-118. http://dl.acm.org/citation.cfm?id=3020542 (0)
[23] FREUND Y, SEUNG H, SHAMIR E. Selective sampling using the query by committee algorithm[J]. Machine learning, 1997, 28(8): 133-168. (0)