2. 哈尔滨工程大学 信息与通信工程学院, 黑龙江 哈尔滨 150001
2. College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China
遥感(remote sensing, RS)技术从20世纪60年代左右开始发展,是一种综合对地观测技术。该技术要求以非接触的方式借助设备获取相关数据并分析得到有效信息。随后诞生的高光谱遥感(hyperspectral remote sensing, HRS)技术融合了目标探测和光谱成像技术,因其能够表征地物的多维特征信息,实现更详细的地物分类而受到青睐,并逐渐成为遥感领域研究的热点问题。如今高光谱遥感的各种技术被广泛研究[1-4],并被应用到军事、农业、工业等诸多领域,让我们的生活工作更加便利。高光谱遥感可以获取地物数百个连续的谱段信息,提供丰富的光谱信息,但存在着数据量大,波段互相重叠,有标签样本数量少且获取代价高等缺点,对于高光谱图像的分类有较大影响。
传统的高光谱分类方法可分为无监督分类和有监督分类2种,通常情况下,无监督分类方法,如K-均值(k-means)聚类算法、ISODATA等,利用样本间的相似性或差异性进行分类,因为缺少有效的监督信息导致分类精度不高;监督分类方法,如K-邻近算法、支持向量机(support vector machine, SVM)、最大似然算法等,需要获取先验知识,因此需要大量有标记样本,导致成本过高效率降低。因此能够利用有标签和无标签样本的半监督分类方法受到了更多的欢迎并逐渐成为主流方向。目前,常用的半监督分类方法有协同训练(co-training)、生成式模型算法(generative model)、半监督支持向量机、基于图的半监督算法等几种。
对于小样本高维度的训练集,SVM算法是很好的选择,该算法由Vapnik等提出[5],以VC维准则和结构风险最小化准则作为理论依据来改进分类器的泛化能力,改进后的算法增强了推广性,并在高光谱图像分类中被广泛应用。针对SVM算法在精度、运行速度和鲁棒性等方面的不足,一些学者对其在泛化能力、运算速度和精度方面进行了改进,如Joachims[6]提出的直推式支持向量机(transductive support vector machine, TSVM);Javadava等[7]提出的孪生支持向量机(twin SVM,TWSVM);Kumar等[8]在TWSVM的基础提出的最小二乘孪生支持向量机(least squares twin SVM,LSTSVM)等。
半监督分类在挖掘无标签样本的信息时,需要区分哪些样本有更高的信息量,对于提高分类性能有帮助。主动学习[9]和差分进化算法[10]均为能够胜任这个工作的重要算法。主动学习的概念最早由Simon等提出,如今已经广泛应用于语音识别,图像分类等技术领域。常见的主动学习算法一般有如下4种:第1种是边缘采样策略(margin sampling, MS),第2种是多层次不确定性采样策略(multi-class-level uncertainty,MCLU),第3种是基于后验概率估计的主动学习方法;第4种是基于委员会[11]的主动学习方法(query-by-committee,QBC)。差分进化(differential evolution,DE)算法是一种模拟生物进化的算法(evolutionary algorithms,EAs),由Storn等提出。DE算法因其原理简单、控制参数少、鲁棒性强等优点,已成为进化计算领域的研究热点之一。该算法采用基于种群的全局搜索策略,保留适应环境的优秀个体,达到优化种群的目的,在求解高维非线性的复杂优化问题方面有很好的表现。
经典的半监督算法已经取得了很好的效果,但是与主动学习方法和差分进化算法结合后还有进一步提升的空间,因此本文提出了一种将MCLU准则和改进后的自适应差分进化算法结合,寻找、标记并扩充高价值样本,并应用于半监督分类的算法。实验表明,该算法能够充分利用有限的有标签样本,有效地对高光谱图像的地物进行分类。
1 多层次不确定性采样准则多层次不确定性采样(MCLU)准则是一种基于SVM算法的几何特点的,处理多分类问题的采样策略。根据SVM理论,距离分类超平面越近的点越有可能成为支持向量,富含的信息量也就越多,这些样本筛选后加入到训练样本集对分类的最终结果有很强的改进能力。MCLU准则以每个点到每个分类超平面的距离为依据,通过计算每个点的置信度来筛选信息量高的点。该算法处理在多分类问题时效果十分显著。
设全部样本的集合为: U ={ x1, x2…, xu}。MCLU的原理图如图 1所示。
Download:
|
|
在多分类问题中首先使用一对余(one-against-rest)思想将只能进行二分类的SVM构建为多分类算法,得到每个样本点到每个分类超平面的几何距离fn(xu),然后通过每个点的距离集合衡量该点的置信价值c(x)。c(x)的值使用距离差值[12]策略求得,具体公式为:
$ r_{1 \max }=\underset{i=1,2, \cdots, n}{\operatorname{argmax}}\left\{f_{i}(\boldsymbol{x})\right\} $ |
$ r_{2 \max }=\underset{j=1,2, \cdots, n, j \neq r_{1 \max }}{\operatorname{argmax}}\left\{f_{j}(\boldsymbol{x})\right\} $ |
$ c(x)=f_{r_{1 \max }}(\boldsymbol{x})-f_{r_{2 \max }}(\boldsymbol{x}) $ |
c(x)值越小,表明该样本点被划分为r1 max和r2 max所属类别的概率越相近,该样本点的不确定性也就越高。这类点富含更多的信息量,对分类结果帮助更大。
2 差分进化算法及其自适应改进方法 2.1 经典差分进化算法差分进化是一种基于群体进化的全局搜索优化算法,该算法随机选取2个不同个体矢量作为父代,然后通过差分变异操作,交叉操作和选择操作等步骤得到最优解。DE算法的具体步骤如下:
1) 初始化种群,设置参数。
假设种群规模为NP,问题维数为D,在高光谱分类问题中即为波段数,设置进化代数G,种群经过随机初始化后服从均匀分布。则种群中第G代的第i个个体可以表示为:
$ \boldsymbol{x}_{i, G}(i=1,2, \cdots, \mathrm{NP}) $ |
第G代的第i个种群矢量可以表示为:
$ \boldsymbol{X}_{i, G}=\left[\begin{array}{llll} \boldsymbol{x}_{1, i, G} & \boldsymbol{x}_{2, i, G} & \cdots & \boldsymbol{x}_{D, i, G} \end{array}\right] $ |
设参数失量的下限为xjL,上限为xjU,则第i个种群的第j个分量可以初始化为:
$ \boldsymbol{x}_{j, i, 0}=\boldsymbol{x}_{j}^{\mathrm{L}}+\operatorname{rand}_{i, j}(0,1) \cdot\left(\boldsymbol{x}_{j}^{\mathrm{U}}-\boldsymbol{x}_{j}^{\mathrm{L}}\right) $ | (1) |
式中randi, j(0, 1)为(0, 1)的均匀随机数。
2) 变异操作。
传统差分进化算法的矢量变异方程为:
$ \boldsymbol{V}_{i, G}=\boldsymbol{X}_{r_{1, G}^{i}}+F \times\left(\boldsymbol{X}_{r_{2, G}^{i}}-\boldsymbol{X}_{r_{3, G}^{i}}\right) $ | (2) |
式中:Vi, G为变异后的样本;r1, Gi, r2, Gi, r3, Gi是(1, NP)内的随机整数,目标矢量的序号为i,4个变量均不相等; 常数F是变异算子,用于缩放目标矢量之差,并与其他个体相加产生突变。
3) 交叉操作。
交叉操作是将目标个体向量Xi, G与变异个体向量Vi, G的信息成分互换得到试验向量Ui, G。Ui, G=[u1, i, G u2, i, G … uj, i, G]。具体操作可表示为:
$ u_{j, i, G}= \begin{cases}v_{j, i, G}, & \operatorname{rand}_{i, j}(0,1) \leqslant \mathrm{Cr} \\ & \text { 或 } j=j_{\mathrm{rand}} \\ x_{j, i, G}, & \text { 其他 }\end{cases} $ | (3) |
式中:jrand∈[1, 2, …, D]表示随机波段;Cr为交叉因子,用于控制个体参数的每个维度对交叉过程的参与程度,可以影响过程中的随机性。
4) 选择操作
差分进化泛使用一对一的“贪婪”选择策略,根据设定的适应函数的大小选择可以进入下一代的个体:
$ u_{j, i, G}= \begin{cases}\boldsymbol{U}_{i, G}, & f\left(\boldsymbol{U}_{i, G}\right) \leqslant f\left(\boldsymbol{X}_{i, G}\right) \\ \boldsymbol{X}_{i, G}, & f\left(\boldsymbol{U}_{i, G}\right)>f\left(\boldsymbol{X}_{i, G}\right)\end{cases} $ | (4) |
差分进化算法中的种群在不断变化,在算法初期种群多样性强,随着迭代次数增加,种群多样性会降低。传统的差分进化算法的变异因子F和交叉因子Cr为固定值,对算法的性能产生了限制。针对传统算法的缺点,文献[1]提出了一种针对变异因子F的自适应改进方法,使其后期随种群数目的减少而增加,为后续的三重训练引入较强的差异性因素。但是改进后算法后期扰动过大导致局部探索能力不佳,很难得到最优解。因此本文将自适应变化因子定义为:
$ \lambda=1-\frac{G_{m}}{G_{m}+1-G}, F=F_{0} \exp (2 \lambda) $ | (5) |
式中:F0为常数;λ为经验参数;Gm为最大迭代次数;G为当前迭代次数。可以看出F随G的增大而减小,最初G=1时,变异因子F=2F0,变异因子较大,变异率较高,可以保证初期种群个体的多样性,避免早熟;随着迭代次数G的增加,经验参数λ减小,变异因数减小,可以加强算法的搜索能力,在避免结果陷入局部最优解的同时,保持一定的收敛速度。同时为了进一步增加变异的多样性,将式(1)改进为:
$ \boldsymbol{V}_{i, G}=\boldsymbol{X}_{i, G}+F \times\left(\boldsymbol{X}_{r_{1, G}^i}-\boldsymbol{X}_{i, G}\right)+F \times\left(\boldsymbol{X}_{r_{2, G}^i}-\boldsymbol{X}_{r_{3, G}^i}\right) $ | (6) |
式中r1, Gi≠r2, Gi≠r3, Gi≠i。
本文对交叉因子Cr也进行了进行自适应改进,传统的Cr设置,如果取值较小会减小种群多样性导致过早收敛,如果取值较大会导致更新速度过快,破坏适应度好的个体。因此将Cr改进为自适应参数:
$ \mathrm{Cr}_{i}= \begin{cases}\mathrm{Cr}_{1}+\left(\mathrm{Cr}_{\mathrm{U}}-\mathrm{Cr}_{\mathrm{L}}\right) \frac{f_{\max }-f_{i}}{f_{\max }-f_{\min }}, & f_{i}>\bar{f} \\ \mathrm{Cr}_{1}, & f_{i} \leqslant \bar{f}\end{cases} $ | (7) |
式中:fi为个体适应度;fmin和fmax分别为种群中适应度最差和最优的个体适应度;f为当前种群适应度的平均值;CrL和CrU分别为设定的Cr下限和上限。改进策略使得种群变异的随机性种群数目匹配,减小了数值设置对算法的影响。
3 本文算法本文提出了一种使用自适应差分进化算法改进主动学习,然后结合支持向量机进行的高光谱图像分类的算法MCLU_SADE_SVM。首先使用MCLU策略从无标签样本中选取富含信息量的样本点和标签确定的点,用后者对前者进行标记,然后使用自适应差分进化算法进行寻优操作,扩充有标签样本点,将其加入有标签样本,最后使用SVM训练分类器,对无标签样本进行分类。具体实现步骤如下:
输入:已标记训练样本SL={(xi, yi)}i=1l,未标记训练样本SU={(xi, yi)}i=1u。
1) 使用多层次不确定性采样策略从SU中选取一定量富含信息量的样本UMCLU和可以确定标签类别的样本UL。
2) 将UL加入已标记训练样本SL,对UMCLU进行标记,经过数次迭代后得到新的训练样本S′L。
3) 利用改进后的自适应差分进化算法在集合S′L基础上进行寻优,得到一定量的新的样本SDE。
4) 将SDE加入已标记训练样本集SL,新的训练集记作SLDE;
5) 以新样本集SLDE作为训练样本训练SVM分类器h。
6) 使用分类器h对测试样本进行分类,测评分类精度。
4 实验结果与分析 4.1 实验数据仿真实验在2个常用的高光谱数据集进行:第1张监督图像AVIRIS data展示了美国印第安纳州农林实验场的一部分,第2张监督图像Pavia data展示了帕维亚大学上空获得的部分地物。2张图像均为144×144像素,前者的光谱值区间约为0.41~2.45 μm,空间分辨率20 m,光谱分辨率10 nm,图像的原始波段为220个,去除低信噪比和不能被水反射的波段后实际参与仿真的波段共200个。后者光谱值区间约在0.43~0.86 μm,空间分辨率1.3 m,原始波段115个,去除噪声波段后实际参与仿真的波段共103个。
Download:
|
|
仿真条件:电脑CPU为Intel(R) Core(TM) i7-2630QM,6 G RAM,64位Windows10系统,Matlab版本为Matlab2019b。
4.3 评价准则混淆矩阵多用于表示高光谱图像分类精度,其形式为:
$ \boldsymbol{M}=\left[\begin{array}{cccc} m_{11} & m_{12} & \cdots & m_{1 N} \\ m_{21} & m_{22} & \cdots & m_{2 N} \\ \vdots & \vdots & & \vdots \\ m_{N 1} & m_{N 2} & \cdots & m_{N N} \end{array}\right] $ |
式中:mij(i=1, 2, …, N, j=1, 2, …, N)表示第i类样本被错分为第j类的总像元个数,N为总类别数;mii(i=1, 2, …, N)为被准确划分的像元数,可知mii越大分类精度越高。通过混淆矩阵可得到3个评价指标:总体分类精度OA(overall accuracy)、平均分类精度AA(average accuracy)和Kappa系数。
设n为样本总数,mi+表示第i行的所有m值求和,根据混淆矩阵可知OA计算方法为:
$ \mathrm{OA}=\frac{1}{n} \sum\limits_{i=1}^{N} m_{i i} $ |
AA计算方法为:
$ \mathrm{AA}=\frac{1}{n} \sum\limits_{i=1}^{N} \frac{m_{i i}}{m_{i+}} $ |
Kappa系数的计算方法为:
$ \text { Kappa }=\frac{n \sum\limits_{i=1}^{N} m_{i i}-\sum\limits_{i=1}^{N} m_{i+} m_{+i}}{n^{2}-\sum\limits_{i=1}^{N} m_{i+} m_{+i}} $ |
OA、AA和Kappa系数越大,说明分类效果越好。
4.4 实验结果和分析为了验证本文所提方法的有效性,在上述2个高光谱数据集上进行仿真,共对4种算法进行了对比,包括经典的SVM算法,结合边缘采样策略和传统差分进化的算法MSDE_SVM,结合多层次不确定性采样策略和传统差分进化的算法MCLUDE_SVM算法和本文算法。2个数据集均选取8类地物。标准SVM采用径向基核函数,采用“one-againest-rest”多分类算法,惩罚因子C及核参数σ通过网格搜索法在[10,103] 和[10-2,102]中选最优值。自适应差分进化中的参数为:种群初始规模NP=20,F0=0.8,交叉参数Cr的上限取1,下限取0,综合实验精度和实验效率将迭代次数设定为10次,所有实验重复10次取平均值。
表 1为4种算法在AVIRIS数据集分类中的性能对比,评价标准为OA、AA、Kappa系数和运行时间。实验取总样本的10%作为训练样本,其余为测试样本,每类训练样本中取10个作为有标签训练样本用于模拟小样本条件。图 3显示了4种方法的分类结果。
Download:
|
|
可以看出,本文算法相对于传统SVM算法有明显的性能优势,OA提高了约13.2%,AA提高了约1.25%,Kappa系数提高了约0.036 7。通过对比MSDE_SVM算法和MCLUDE_SVM算法可以看出,MCLU采样策略相对于MS采样策略在多类别问题中表现更为优秀,OA提高了约0.44%,AA提高了约0.38%,Kappa系数提高了约0.005,时间减少了约125 s。通过对比MCLUDE_SVM算法和本文算法可以看出,对DE算法的改进使得算法性能有所提升,OA提高了约1.19%,AA提高了约0.49%,Kappa系数提高了约0.013 8,而运行时间仅增加了约9 s。
表 2为上述4种算法在Pavia数据集分类中的性能对比,评价标准和取样方式与表 1相同。图 4显示了4种方法的分类结果。
Download:
|
|
可以看出,在该数据集上,本文算法与传统SVM算法相比,效果提升明显,OA提高了约8.44%,AA提高了约8.53%,Kappa系数提高了约0.112 8。与MCLUDE_SVM算法对比,OA提高了约2.54%,AA提高了约0.44%,Kappa系数提高了约0.029 8,证明了对DE自适应改进的有效性。MSDE_SVM算法相比于MCLUDE_SVM算法性能有所提升,OA提高了约0.97%,AA提高了约0.13%,Kappa系数提高了约0.018 7,运行时间减少了约106 s,证明了在该数据集上MCLU采样策略相比MS策略表现更优秀。
上述2组实验证明了本文算法在不同数据集上的适应性。在AVIRIS数据集和Pavia数据集上,本文采用的MCLU采样策略和对自适应参数的改进相对传统算法很好地提升了高光谱图像的分类精度。
图 5展示了2数据集有标签样本数目和总体分类精度OA的关系。有标签样本数取值:3,5,10,15,20,25。折线图清晰地反映出,在接近实际工作条件的小样本条件下,本文提出的算法相较于其他3种算法表现更佳。
Download:
|
|
1) 相比于SVM,MSDE_SVM和MCLUDE_SVM 3种方法,在未大幅度增加运行时间的情况下有效提高了分类精度,证明了本文提出的方法能够充分利用高光谱图像中的无标签样本,扩充训练样本集;
2) MCLU策略在多分类情况下相比MS策略表现更好;
3) 对于DE算法的自适应改进使得图像分类精度相对于传统的固定参数的DE算法有所提高。
本文算法能够在小样本情况下对高光谱图像进行高效分类,显示出较高的应用价值,但是对某些类别的分类精度依然有提升空间,值得未来进一步研究。
[1] |
WANG Liguo, WANG Xiaoyi, WANG Qunming. Using 250-m MODIS data for enhancing spatiotemporal fusion by sparse representation[J]. Photogrammetric engineering & remote sensing, 2020, 86(6): 383-392. (0)
|
[2] |
DU Bo, RU Lixiang, WU Chen, et al. Unsupervised deep slow feature analysis for change detection in multi-temporal remote sensing images[J]. IEEE transactions on geoscience and remote sensing, 2019, 57(12): 9976-9992. DOI:10.1109/TGRS.2019.2930682 (0)
|
[3] |
GAO Lianru, YAO Dan, LI Qingting, et al. A new low-rank representation based hyperspectral image denoising method for mineral mapping[J]. Remote sensing, 2017, 9(11): 1145. DOI:10.3390/rs9111145 (0)
|
[4] |
SONG Meiping, SHANG Xiaodi, CHANG C I. 3-D receiver operating characteristic analysis for hyperspectral image classification[J]. IEEE transactions on geoscience and remote sensing, 2020, 58(11): 8093-8115. DOI:10.1109/TGRS.2020.2987137 (0)
|
[5] |
王立国, 赵亮, 刘丹凤. SVM在高光谱图像处理中的应用综述[J]. 哈尔滨工程大学学报, 2018, 39(6): 973-983. WANG Liguo, ZHAO Liang, LIU Danfeng. A review on the application of SVM in hyperspectral image processing[J]. Journal of Harbin Engineering University, 2018, 39(6): 973-983. (0) |
[6] |
JOACHIMS T. Transductive inference for text classification using support vector machines[C]//International Conference on Machine Learning. Bled, Slovenia, 1999: 200-209.
(0)
|
[7] |
JAYADEVA, KHEMCHANDANI R, CHANDRA S. Twin support vector machines for pattern classification[J]. IEEE transactions on pattern analysis and machine intelligence, 2007, 29(5): 905-910. DOI:10.1109/TPAMI.2007.1068 (0)
|
[8] |
KUMAR M A, GOPAL M. Least squares twin support vector machines for pattern classification[J]. Expert systems with applications, 2009, 36(4): 7535-7543. DOI:10.1016/j.eswa.2008.09.066 (0)
|
[9] |
SIMON H A, LEA G. Problem solving and rule education: a unified view knowledge and organization[J]. Erbuam, 1974, 15(2): 63-73. (0)
|
[10] |
STORN R, PRICE K. Differential evolution-a simple and efficient heuristic for global optimization over continuous spaces[J]. Journal of global optimization, 1997, 11(4): 341-359. DOI:10.1023/A:1008202821328 (0)
|
[11] |
FREUND Y, SEUNG H S, SHAMIR E, et al. Selective sampling using the query by committee algorithm[J]. Machine language, 1997, 28(2/3): 133-168. (0)
|
[12] |
VLACHOS A. A stopping criterion for active learning[J]. Computer speech & language, 2008, 22(3): 295-312. (0)
|