单变量特征选择的苏北地区主要农作物遥感识别
王娜, 李强子, 杜鑫, 张源, 赵龙才, 王红岩
摘要: 遥感识别多源特征综合和特征优选是提高遥感影像分类精度的关键技术。农作物遥感识别中,识别特征的相对单一和数量过多均会导致作物识别精度不理想。随机森林(random forests)采用分类与回归树(CART)算法来生成分类树,结合了bagging和随机选择特征变量的优点,是一种有效的分类方法。单变量特征选择(univariate feature selection)能够对每一个待分类的特征进行测试,衡量该特征和响应变量之间的关系,根据得分舍弃不好的特征,优选得到的特征用于分类。本文基于随机森林和单变量特征选择,利用多时相光谱信息、植被指数信息、纹理信息及波段差值信息,设计多组分类实验方案,对江苏省泗洪县的高分一号(GF-1)和环境一号(HJ-1A)影像进行分类研究,旨在选择最佳的分类方案对实验区主要农作物进行识别和提取。实验结果表明:(1)多源信息综合的农作物分类精度明显高于单一的原始光谱特征分类,说明不同类型特征的引入能改善分类效果;(2)基于单变量特征选择算法的优选特征分类效果最佳,总体精度97.07%,Kappa系数0.96,表明了特征优选在降低维度的同时,也保证了较高的分类精度。随机森林和单变量特征选择结合的方法可以提高遥感影像的分类精度,为农作物的识别和提取研究提供了有效的方法。
关键词: 单变量特征选择     光谱特征     植被指数特征     纹理特征     波段差值特征    
DOI: 10.11834/jrs.20176373    
收稿日期: 2016-11-18
中图分类号: TP701    文献标识码: A    
作者简介: 王娜(1990— ),女,硕士研究生,研究方向为农业遥感分类方法和目标识别。E-mail:wangna@radi.ac.cn
基金项目: 国家自然科学基金(编号:41571422,41301497)
Identification of main crops based on the univariate feature selection in Subei
WANG Na, LI Qiangzi, DU Xin, ZHANG Yuan, ZHAO Longcai, WANG Hongyan
1. Renewable Energy Laboratory of Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China
2. College of Resources and Environmental, University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Timely accurate crop type identification and Crop Acreage Estimates (CAE) are essential for food security. Remote sensing technology has been successfully applied to crop identification because of its macro, rapid monitoring capabilities at large scales and its ability to quickly obtain accurate agricultural information. However, when identifying crop types, both simple and too many identifiable features might lead to low classification accuracies. Thus, multi-source and optimally selected features are obviously crucial to crop classification using remotely-sensed images. This paper considered a series of features, including multi-temporal spectra, vegetation indexes, textures, and band differences. Multiple experiments were designed and conducted in Sihong County, Jiangsu Province, China using Gaofen-1 and Huanjing-1 images to evaluate the influence of different features on the identification accuracy and determine the combination of preferred features which can improve the classification effect. The combination of random forest classification and univariate feature selection methods was expected to have a considerably positive effect on distinguishing and extracting the main crops in remote sensing images. In this study, the crop classification was implemented using random forests and univariate feature selection. The random forest method, which constructs many CART decision trees during each classification process, is one of themost effective classification methods. Univariate feature selection is a statistical testing method, which tests each feature to measure the relationship between the feature and the corresponding variable and then removes features that obtain low scores. First, the random forest classifier was applied to classify the images using the preceding multisource features mentioned. Second, we analyzed the contributions of different types of features or feature combinations to the classification accuracy. Third, features were selected by using the univariate feature selection method. Finally, we re-combined the optimal features and random forest to classify the image and distinguish the main crop types with high accuracy. The results showed that overall classification accuracy based on the combination of optimal features reached 97.07% with the corresponding Kappa coefficient being 0.96, which indicated that the feature selection method used in this paper has a considerably positive effect on high classification accuracy because it efficiently reduced feature dimension. The classification results also showed that the crop classification using multi-source features outperformed the one which only used spectral features. In addition, the accuracy of the experiment which simultaneously used spectral and VI features was the second highest among all experiments. The optimal feature combination has 19 features, including five spectral features, six vegetation indexes, seven band difference features, and 1 texture feature, which suggested that vegetation indexes and band differences were more important to the crop identification than the other two. This study demonstrated the following: (1) the addition of different types of features could improve classification accuracy; (2) too many features would decrease classification accuracies; (3) univariate feature selection was effective for choosing the optimal subset of features. The optimally selected features can be relatively beneficial to reduce the computation load and improve the worse accuracies caused by applied features blindly. Therefore, the combination of random forest and univariate feature selection is effective in improving classification accuracy and efficiency.
Key Words: univariate feature selection    spectrum feature    Vegetation Index (VI) feature    texture feature    band difference features    
1、引 言

农业生产是国家社会经济的基础,粮食产量对于制定国家和区域社会经济发展规划、确保国家粮食安全和社会稳定、指导和调控宏观种植结构等均有重要意义(任建强 等,2011吴炳方,2004)。农作物种植面积,尤其是粮食作物种植面积已成为影响我国粮食产量的关键问题。准确、及时、全面的农作物种植种类信息对于各级政府管理生产和制定相关政策至关重要(刘扬 等,2015)。遥感技术具有宏观、迅速的大范围监测能力,可在短时间内获得客观、准确的农情信息,在农作物识别及其面积估算方面已经得到了重要的应用。

目前大多农作物遥感分类研究中,农作物遥感识别特征相对单一,较多地局限于光谱、微波散射等信息,难以充分利用农作物之间的多元化、全方位信息,农作物遥感识别和面积估算精度难以得到提高。多光谱特征是农作物遥感识别应用最广泛和最基本的识别特征,但由于遥感数据空间分辨率、时间分辨率等方面的限制,以及广泛存在的“同物异谱、异物同谱”现象,致使单纯依靠多光谱特征时产生诸多分类混淆,对于优势的大宗作物(如冬小麦)的分类精度基本维持在80%左右,即使综合多时相特征难以提高到90% (贾坤和李强子,2013)。不同的农作物具有不同的高度、孔隙率、覆盖度等几何特征,从而对微波信号表现出不同的散射特性(Chakraborty和Panigrahy,2000),且在农作物不同的物候期表现出不同的散射特性。但微波散射特征目前主要用于水稻的识别,由于雷达数据噪声的影响,在旱田农作物分类方面,雷达图像对不同农作物虽具有指示作用(Jia 等,2012Soares 等,1997丁娅萍,2013),但农作物分类尚需进一步挖掘。

综合多源遥感信息,使其得到整合互补(陈启浩,2007),改善单一类型特征或者较少类型特征组合造成的分类精度较低和分类结果破碎化的现象。在农作物遥感识别过程中,依据不同的分类系统、空间尺度、时间尺度、分类精度等需求,光谱特征、时相特征、极化特征、纹理特征、DEM等多种特征变量都可以被选用于农作物遥感分类(Lu和Weng,2007Wang 等,2010),改善分类效果。若以上特征均用于遥感识别,一定程度上会造成维数灾难和信息的冗余,降低分类精度和效率(程希萌 等,2016)。特征优选降低维数、使模型泛化能力更强,减少过拟合,同时增强特征和特征值之间的理解。选择并利用合适的特征变量是提高农作物遥感分类精度的有效途径之一(贾坤和李强子,2013)。因此在众多的特征中进行特征选择获取最优的特征和特征组合作为农作物识别的典型识别特征是迫切需要的。特征选择算法较多应用于高光谱数据中(Kaya,2013Persello和Bruzzone,2009Zortea和Haertel,2004)。对于农作物分类应用最为广泛的多光谱数据,目前应用较多的特征选择算法是特征递归消除法RFE (Recursive Feature Elimination)(Atkinson 等,2014Tuia 等,2009)和随机森林算法RF (Random Forest)(杨珺雯 等,2015姚登举 等,2014)。杨珺雯等人(2015)利用基于随机森林的RF-RFE去除价值低的特征得到最佳波段组合,实现高光谱数据降维,但特征递归消除算法的稳定性很大程度上取决于在迭代时底层所用的模型(Jarvis,2016)。利用随机森林算法进行特征选择可以在有效降低数据维度的同时保证农耕区土地利用类型分类精度(马玥 等,2016)。随机森林存在两个主要问题,一是特征关联导致重要特征有可能得分很低,二是偏向问题致使特征变量类别多的特征较为有利(Jarvis,2016)。单变量特征选择与复杂的多元特征选择方法相比精度同等甚至更高(Drotár 等,2015)。该算法能够很好理解数据及其特点和结构,利于特征排序优选来优化模型。目前单变量特征选择方法在遥感影像分类方面,尤其是农作物遥感识别方面研究较少。

多源特征综合和识别特征优选是提高农作物分类精度的两个重要方面。本文基于多源特征综合和识别特征优选进行以下两个方面的研究:首先,基于随机森林分类算法,综合多时相光谱特征、波段差值特征,植被指数特征和纹理特征对主要农作物类型进行分类,分析不同类型特征及其组合对作物分类精度的影响程度。其次,利用单变量特征选择方法对以上多种特征构建的特征空间进行特征优选,根据变量的重要性得分进行选择,舍弃重要性低的特征,降低变量维度,在应用随机森林分类的基础上,提高农作物识别精度。本文实验结果表明了单变量特征选择方法的实用性和优越性。

2、实验区及实验数据说明     (2.1) 实验区概况

本文以江苏省泗洪县为实验区,如图1所示。泗洪县位于江苏省西北部,淮河中游,紧邻中国5大淡水湖之一的洪泽湖,地理坐标为33°08′—33°44′N、117°56′—118°46′E。泗洪县属于东亚季风区,四季分明,雨热同季,光能充足,降水充裕,适合种植水稻和玉米等粮食作物。

图 1 实验区示意图及野外调查样方布设图 Figure 1 Schematic diagram of experimentation area and of quadrat layout in the field investigation

本实验以泗洪县的水稻和玉米作物为研究对象。泗洪水稻和玉米分别是一季稻和春玉米,前者5月中上旬播种,10月中上旬收获;后者是五月中下旬播种,9月中上旬收获。2015年10月9、10日开展了地面调查。均匀选择泗洪县20个村庄作为调查样区,每个样区内布设5个200×200的样方,调查并记录每个样方内作物分布情况,主要包括作物类型、作物种植面积、地块经纬度及拍摄的作物照片。在上述获取的100个样方中,共有812个地块,种植类型主要有水稻、玉米、林地、草地、休耕地及菜地等。野外调查数据为目视解译提供了可靠的先验知识和验证信息。野外调查样方布设如图1所示。

    (2.2) 实验数据说明          2.2.1. 遥感数据

根据实验区遥感数据的质量和主要农作物的物候信息,本文选取了3景高分一号(GF-1)数据,时相分别为2015-07-13、2015-08-03、2015-10-12和1景环境一号(HJ-1A)数据,时相为2016-08-28。数据信息见图2表1。遥感数据预处理过程包括:辐射定标、云处理、大气校正、几何校正及重采样(将HJ-1数据重采样为16 m)等。首先,利用ENVI5.1中的辐射校正模块对四景影像进行辐射定标,需注意不同传感器对应的增益和偏移参数不同;其次,同样利用辐射校正模块下的FlAASH大气校正模块对辐射定标后的实验影像做大气校正;然后,采用ERADS2010软件的图像几何校正模块对3景GF-1和1景HJ-1A影像进行正射校正。最后,运用多幅图像插值方法对HJ-1A影像进行云像元处理。本实验利用配准后的8月和10月等时相的多景HJ影像与8月28日HJ-1A影像建立空间映射关系,对其有云区域进行插值,达到去云目的。

表 1 遥感实验数据列表 Table 1 Table of experental data

图 2 遥感影像示意图 Figure 2 Schematic diagram of remote sensing image
         2.2.2. 辅助数据

本文的辅助数据除了上述的野外调查数据外,还包括2015年现场勾画的泗洪耕地数据、泗洪县及周边县区的矢量边界数据、水稻和玉米的物候历等。

3、研究方法

本文以随机森林分类算法为分类器,基于多时相光谱、植被指数和纹理、波段差值等特征及其组合,对泗洪县主要农作物进行识别和提取;利用单变量特征选择法对所有特征构建的特征空间进行特征选择,然后利用随机森林分类器对优选特征组合分类,达到高精度区分主要农作物的目的。图3为文章的总体技术流程图。

    (3.1) 分类方法

随机森林算法是由美国科学家(Breiman,2001)提出的由多棵CART决策树构成的新型机器学习方法,是一种高效的分类器集成策略。因具备较高的分类准确率、较强的抗噪、抗异常值的能力,同时能处理大量数据,且不易出现过度拟合的优点(杨珺雯 等,2015),随机森林算法已成为目前遥感影像分类算法中炙手可热的分类器。

图 3 总体技术流程 Figure 3 Flow chart of technical process

随机森林算法的基本思想是通过自助法(boot-strap)重采样技术,不断生成训练样本(约为原始数据的2/3)和测试样本(约为原始数据的1/3),由训练样本生成多个分类器组成随机森林,测试数据的分类结果按分类树投票多少形成的分数而定(王书玉 等,2014)。分类过程首先从给定的训练集通过多次随机的可重复的采样得到多个bootstrap数据集;然后,对每个bootstrap数据集构造一棵决策树,构造是通过迭代将数据点分到左右两个子集中实现的,这个分割过程是一个搜索分割函数的参数空间以寻求最大信息增量意义下最佳参数的过程。最后,在每个叶节点处通过统计训练集中达到此叶节点的分类标签的直方图经验地估计此叶节点上的类分布。这样的迭代训练过程一直执行到用户设定的最大树深度或者直到不能通过继续分割获取更大的信息增益为止(雷震,2012)。

随机森林算法通过Python语言实现,设置两个参数:生长树的数目N1和特征参数的个数N2。本文经过多次实验,N1取值100时,泛化误差OOB最为稳定。N2则是根据各个试验方案中参与分类的特征参数个数而定。

    (3.2) 单变量特征选择方法

特征变量重要性和特征选择在遥感影像分类占据着重要的地位(Yang 等,2013)。好的特征选择方法能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善分类模型及算法都有着重要作用。特征选择是利用一系列的规则,得到特征重要程度的相对关系,自动的选择出对分类过程最重要的特征子集的过程。特征选择模型分为过滤式(filter)、封装式(wrapper)和嵌入式(embedded) 3类(Blum和Langley,1997Liu和Yu,2005)。过滤式特征选择方法评价特征的主要依据是数据内在的特征,独立于分类算法。封装式特征选择方法是将选择算法作为分类算法的一部分,通过特征的分类性能作为特征选择的评价指标。嵌入式特征选择则是上述两种方法的折中。

本文选择的是基于第一种思想的单变量特征选择算法。该选择算法是一种统计测试方法,能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,得到每个特征的重要性得分,去除得分不高的特征。单变量特征选择有多种特征选择方法,其中较为常用的是SelectKBest方法,该方法计算特征间相关性得分,选择重要性排名排在前K的变量。

本实验利用python的数据分析工具包scikit-learn进行特征优选。首先,设置单变量特征选择方法的参数—需提取的特征个数M;其次,应用单变量特征选择方法计算训练样本数据中每个特征的重要性并排序;然后,利用SelectKBest方法选择前K的特征;最后,结合随机森林分类器和测试样本数据进行分类并计算每个M对应的分类精度,选择最高分类精度对应的子集特征,即是优化的特征子集。

    (3.3) 精度评价

像元尺度的分类精度评价采用的主要参数是基于精度检验样本的混淆矩阵(误差矩阵)计算得到的,通过对混淆矩阵建立的各种统计参数进行的。应用混淆矩阵分析的主要参数有总体分类精度、Kappa系数、错分误差、漏分误差、生产者精度、用户精度等目前普遍采用总体分类精度或者Kappa系数评价整个分类图的精度,以条件Kappa系数评价单一类别的精度。

本文利用部分野外调查数据作为验证样本数据,基于混淆矩阵,对各个实验方案进行评价。

4、结果与分析     (4.1) 实验方案设置          4.1.1. 特征选取

本文选取的农作物识别特征包括4类,分别是原始光谱、波段差值、植被指数以及纹理等特征,共76个特征参数(表2)。

表 2 特征信息列表 Table 2 Characteristic parameter information table

光谱特征:时相为2015-07-13、2015-08-03和2015-10-12的GF-1及2015-08-28的HJ-1A数据的4个波段反射率。

波段差值特征:任意组合两个时相影像,分别对4个波段反射率做对应的差值。本文共有6组影像组合,24个波段差值特征。

植被指数特征:分别提取上述4个月份影像的归一化植被指数(NDVI)、垂直植被指数(PVI)、差值植被指数(DVI)及土壤调整植被指数(SAVI)。

纹理特征:计算4景影像第一主成分的5个纹理特征,方差(variance)、信息熵(entropy)、二阶距(second Moment)、相关性(correlation)和相异性(dissimilarity)。

本实验波段差值、植被指数特征均由ENVI5.1的Band Math工具实现。由ENVI5.1的主成分分析的正向主成分旋转获取影像的第一主成分,并利用灰度共生矩阵(GLCM)获取上述5种纹理。

         4.1.2. 实验方案

为了得到最佳的分类方案,本文共设计6组实验,如表3所示。

表 3 实验方案组合信息表 Table 3 The combination information table of experimental programs
    (4.2) 分类方案结果          4.2.1. 特征选优分析

本实验利用单变量特征选择方法计算实验E中76个特征变量的重要性得分,再与随机森林分类器结合,在分类过程中选择最高的分类精度对应的特征个数及特征子集。各个特征得分见图4,不同特征个数对应的总体分类精度和Kappa系数如图5

图 4 特征重要性得分 Figure 4 Scores of feature’s importance

图 5 基于单变量选择法的优选特征数目与分类精度关系(红点表示精度最高的点) Figure 5 Relationship between number of preferred features and classification accuracy based on this algorithm (Red dot represents the point of highest accuracy)

图4中,band1、band2、band3和band4表示GF-1和HJ-1A影像的蓝光、绿光、红光及近红外波段;7_ndvi表示2015-07-13影像的NDVI,10-9_band1则表示2015-10-12影像和2015-08-28影像的蓝光波段做差值,其他依次类推。由图4可知,不同特征的重要性差异较大,有的特征得分低至2.43,有的特征得分高达1216.7。结合图5(a)(b)可知,随着参与分类的特征个数的增加,分类精度处于不断波动的状态,表明分类精度不随特征个数的增加而提高。特征变量个数取值19时,分类的总体精度和Kappa系数均达到最大值,分别是0.9707和0.96,表明优选特征子集中包含19个特征。从基于重要性得分的优选组合得出,19个特征中,光谱特征有5个,植被指数特征有6个,波段差值特征占7个,纹理特征有1个。光谱特征和植被指数特征在分类中的作用较为显著,纹理特征则不明显。通过单变量特征优选后得到的优化特征共有19个,每个特征重要性得分如图6(a)。不同类型特征个数所占比重如图6(b)

图 6 优选特征重要性得分及不同类型特征所占个数比重图 Figure 6 Scores of preferred feature’s importance and numeric proportion of different kinds of features
         4.2.2. 分类图对比

6组实验的分类效果图如图7所示。对比原始影像与图7(a)(b)(d)可以看到,影像中的地物类型被错分或漏分的情况较多,如影像的右下部分本应是水的区域被分成了玉米或者建筑用地,说明实验A、B、D的特征构建不理想。基于光谱特征和植被指数特征综合的实验C以及基于优选特征组合的实验F的分类效果较好,极大了减少了错分或者漏分的几率,且后者的分类结果优于其他的实验方案。

         4.2.3. 精度对比分析

应用随机森林分类器,对以上A—F 6个实验方案分类。计算不同方案的分类结果的混淆矩阵,选择混淆矩阵中的总体分类精度、Kappa系数、错分误差和漏分误差等4个指标,对比分析各个分类结果间的差异,评价方案的优劣。误差对比图如图8所示。

图8(a)(b)可知,随着不同类型特征变量的加入,总体精度和Kappa系数的走势相同,但并不呈单一趋势。实验方案A和B的总体精度分别为0.8822和0.8923,Kappa系数则分别是0.8358和0.845,精度基本持平。纹理特征的加入使得分类的总体精度和Kappa系数均有小幅度的提高,其中,总体精度为0.8876,Kappa系数为0.8427。对于加入植被指数特征,分类精度大幅度上升,总体精度较实验A提高了4.5%,Kappa系数则提高7.6%。对于所有特征综合的实验E,总体精度和Kappa系数均得到了提高,但是低于方案C。特征优选后,分类精度和Kappa系数达到了本次实验精度的最高峰,分别是0.9707和0.9603。

图8(c)(d)可得,对于错分误差,各种类型特征的加入几乎改善了所有地物类别的精度,表明不同特征综合有效地减少了地物错分的概率。在漏分误差方面,波段差值和纹理特征对裸地和其他两种地物类别的精度改善不明显,地物漏分现象未得到有效减轻。除了上述两个类别,其他4类地物识别精度提高。由本实验中错分和漏分误差两种分类指标可知,植被指数特征和优选特征组合对分类贡献显著。

由上可知,光谱特征中加入不同类型特征,分类效果均得到了不同程度的改善,特征按分类贡献度排列依次是植被指数特征、波段差值特征、纹理特征。此外,优选特征组合分类贡献最大。

图 7 各个实验分类效果 Figure 7 Classification result of each experiment
    (4.3) 讨 论

本文共设计6组实验方案,分别应用多时相光谱特征、光谱+波段差值特征、光谱+植被指数特征、光谱+纹理特征、光谱+波段差值+植被指数+纹理特征以及优选特征组合,主要得到以下两个结论。

图 8 误差对比 Figure 8 Error comparison

(1) 不同类型特征的分类贡献。不同类型特征的加入对分类精度均有一定的贡献。根据各个实验的精度可知:在光谱特征的基础上,单独引入波段差值、植被指数或纹理等特征,分类精度均得到了不同程度的提升,其中植被指数特征的贡献最大,分类效果最好,说明植被指数特征在分类中作用显著。当综合所有类型特征时,4个精度指标均有了较大的提高,玉米和水稻区分效果显著,说明多源特征综合有利于分类效果的改善,但是该方案的分类精度低于光谱特征和植被指数特征综合方案,表明特征过多,数据间的相关性太强,一定程度上会降低分类精度。

(2) 单变量特征选择可获取优选特征子集。多种类型特征组合是分类精度提升的重要因素。但该方案不能确定对分类做出较大贡献的具体的特征变量。本文利用单变量特征选择方法计算特征对分类的贡献度,优选出能获得最佳分类精度的特征变量组合。本实验优选特征组合中光谱特征分别是8月影像的蓝、绿、红3个波段,10月影像的红、近红外波段;波段差值特征分别是10月和8月底的红、近红外波段各自对应的差值,10月和8月影像的近红外波段差值,10月和7月影像的近红外波段差值,8月和7月的蓝、绿、红波段各自对应的差值;植被指数特征分别为10月份影像的垂直植被指数、差值植被指数、土壤调整植被指数、归一化植被指数以及8月影像的归一化植被指数和土壤调整型植被指数;纹理植被指数是10月的二阶距。优选特征组合在6组实验中,分类精度最高,在有效地区分耕地和非耕地的同时,玉米和水稻的识别效果最佳。优选特征组合高于其他两两类型特征组合或者单一特征分类结果,原因在于前者是各个类型特征的优选子集的组合,利用了多源信息的优势,使得有用信息最大化;所有特征综合的分类精度低于优选特征组合的主要原因是后者特征多、数据维度高、数据间相关性强,而后者去除了重要性低的特征,保留了贡献度大的特征,降低了维度,减少了特征之间的信息相关。同时,特征优选降低了工作量,减少了运作时间。

此外,从优选的特征子集中不同类型特征参与分类的贡献度可知以下几点。首先,在时相上,10月是适宜的分类时相,其次是8月初。主要是因为该时间点上玉米已经收割,对应影像的主要农作物为水稻,水稻、玉米的区分明显,识别效果较好;时相0803影像上玉米和水稻等作物的光谱信息最为丰富,信息量最大且差异表现明显,易于两者的区分;其次是波段差值较为重要,在优选特征组合中的个数最多。不同时相的波段差值反映了作物的4个波段的光谱时序差异,与作物的生长周期契合,减弱甚至消除“异物同谱”的现象。虽然波段差值特征与光谱特征融合方案的分类精度逊于其他一些方案,但是在优选的各类特征融合分类中作用显著。三是纹理特征的贡献最为薄弱。该分类影像是16 m和30 m的数据,其纹理信息不如高分辨率影像丰富及明显,对分类影响较小。

5、结 论

针对目前农作物遥感识别中存在的问题,综合多时相光谱信息、多时相波段差值、植被指数和纹理信息,利用随机森林算法,实现了主要农作物的识别,克服了农作物遥感识别特征较为单一的不足,说明了多源特征在分类中的重要性;基于单变量特征选择算法,获得特征重要性,与随机森林分类器的结合有效地选取了特征子集,不但有效地降低了数据维度,而且改善了分类效果。可见基于随机森林分类,单变量特征选择方法既保证分类精度又提高了计算效率,是一种可行且高效的特征优选方法。同时为本文实验区秋季主要农作物识别和后续的作物面积估算提供了有效依据。优选特征中包含适于玉米和水稻识别的适宜时相,优选特征以及优选特征组合,可有效避免盲目选择识别特征而带来的工作量大和精度不理想的问题。

本研究的优势在于(1)引入不同时相间影像波段差值。不同作物在不同物候期其光谱信息不一,尤其是在光谱信息丰富的典型物候期,作物间光谱差异更为显著。波段差值则可充分地利用不同时相间光谱的差异性来识别提取作物。(2)运用单变量特征选择。目前有研究应用特征递归消除和随机森林算法进行特征优选,但对单变量特征选择方法的应用甚少,尤其是农作物识别研究。本文实验验证了该方法的可行性。

本研究在以下两个方面还需要在今后的研究中进一步补充:(1)本实验只应用了上述4种类型特征的部分变量,后续的工作将重点放在其他变量组合和优选的研究上。(2)本文的研究对象是苏北地区的主要农作物,本文算法有待于在其他区域或者更大范围以及不同种植结构的实验区内进行验证。

参考文献
[1] Atkinson J T, Ismail R, Robertson M. Mapping bugweed (solanum mauritianum) infestations in pinus patula plantations using hyperspectral imagery and support vector machines[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7 (1) : 17 –28. DOI: 10.1109/jstars.2013.2257988
[2] Blum A L, Langley P. Selection of relevant features and examples in machine learning[J]. Artificial Intelligence, 1997, 97 (1/2) : 245 –271. DOI: 10.1016/s0004-3702(97)00063-5
[3] Breiman L. Random forest[J]. Machine Learning, 2001, 45 (1) : 5 –32. DOI: 10.1023/A:1010933404324
[4] Chakraborty M, Panigrahy S. A processing and software system for rice crop inventory using multi-date RADARSAT ScanSAR data[J]. Isprs Journal of Photogrammetry and Remote Sensing, 2000, 55 (2) : 119 –128. DOI: 10.1016/s0924-2716(00)00012-5
[5] 陈启浩. 2007. 面向对象的多源遥感数据分类技术研究与实现. 武汉: 中国地质大学: 17–18 Chen Q H. 2007. Researeh and realization of multi-source remote sensing data on objeet oriente. Wuhan: China University of Geosciences: 17–18
[6] 程希萌, 沈占锋, 邢廷炎, 夏列钢, 吴田. 基于mRMR特征优选算法的多光谱遥感影像分类效率精度分析[J]. 地球信息科学学报, 2016, 18 (6) : 816 –823. Chen X M, Shen Z F, Xing T Y, Xia L G, Wu T J. Efficiency and accuracy analysis of multispectral image classification based on mRMR feature selection method[J]. Journal of Geo-information Science, 2016, 18 (6) : 816 –823. DOI: 10.3724/SP.J.1047.2016.00815
[7] 丁娅萍. 2013. 基于微波遥感的旱地作物识别及面积提取方法研究. 北京: 中国农业科学院: 4–42 Ding Y P. 2013. Research on dryland crops identification and area extraction method based on microwave remote sensing. Beijing: Chinese Academy of Agricultural Sciences: 4–42
[8] Drotár P, Gazda J, Smékal Z. An experimental comparison of feature selection methods on two-class biomedical datasets[J]. Computers in Biology and Medicine, 2015, 66 : 1 –10. DOI: 10.1016/j.compbiomed.2015.08.010
[9] Jarvis E. 2016. 结合Scikit-learn介绍几种常用的特征选择方法[EB/OL]. 2016-06-27. http://dataunion.org/ 14072.html Jarvis E. 2016. The introduction of some common feature selction methods with scikit-learn[EB/OL]. 2016-06-27. http://dataunion. org/14072.html
[10] Jia K, Li Q Z, Tian Y C, Wu B F, Zhang F F, Meng J H. Crop classification using multi-configuration SAR data in the North China Plain[J]. International Journal of Remote Sensing, 2012, 33 (1) : 170 –183. DOI: 10.1080/01431161.2011.587844
[11] 贾坤, 李强子. 农作物遥感分类特征变量选择研究现状与展望[J]. 资源科学, 2013, 35 (12) : 2507 –2516. Jia K, Li Q Z. Review of features selection in crop classification using remote sensing data[J]. Resources Science, 2013, 35 (12) : 2507 –2516.
[12] Kaya G T. 2013. A comprehensive analysis of earthquake damage patterns using high dimensional model representation feature selection//Proc. SPIE 8892, Image and Signal Prcessing for Remote Sensing XIX. Dresden, Germany: SPIE [DOI: 10.1117/12.2030100]
[13] 雷震. 2012. 随机森林及其在遥感影像处理中应用研究. 上海: 上海交通大学: 9–12 Lei Z. 2012. Random Forest and its application in remote sensing. Shanghai: Shanghai Jiaotong University: 9–12
[14] Liu H, Yu L. Toward integrating feature selection algorithms for classification and clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17 (4) : 491 –502. DOI: 10.1109/tkde.2005.66
[15] 刘扬, 付征叶, 郑逢斌. 高分辨率遥感影像目标分类与识别研究进展[J]. 地球信息科学学报, 2015, 17 (9) : 1080 –1091. Liu Y, Fu Z Y, Zheng F B. Review on high resolution remote sensing image classification and recognition[J]. Journal of Geo-information Science, 2015, 17 (9) : 1080 –1091. DOI: 10.3724/SP.J.1047.2015.01080
[16] Lu D, Weng Q. A survey of image classification methods and techniques for improving classification performance[J]. International Journal of Remote Sensing, 2007, 28 (5) : 823 –870. DOI: 10.1080/01431160600746456
[17] 马玥, 姜琦刚, 孟治国, 李远华, 王栋, 刘骅欣. 基于随机森林算法的农耕区土地利用分类研究[J]. 农业机械学报, 2016, 47 (1) : 297 –303. Ma Y, Jiang Q G, Meng Z G, Li Y H, Wang D, Liu H X. Classification of land use in farming area based on Random Forest algorithm[J]. Transactions of The Chinese Society of Agricultural Machinery, 2016, 47 (1) : 297 –303. DOI: 10.6041/j.issn.1000-1298.2016.01.040
[18] Persello C and Bruzzone L. 2009. A novel approach to the Selection of spatially invariant features for classification of hyperspectral images//2009 IEEE International Geoscience and Remote Sensing Symposium. Cape Town: IEEE: II-61-II-64 [DOI: 10.1109/igarss.2009.5418001]
[19] 任建强, 陈仲新, 唐华俊, 周清波, 秦军. 基于遥感信息与作物生长模型的区域作物单产模拟[J]. 农业工程学报, 2011, 27 (8) : 257 –264. Ren J Q, Chen Z X, Tang H J, Zhou Q B, Qin J. Regional crop yield simulation based on crop growth model and remote sensing data[J]. Transactions of the CSAE, 2011, 27 (8) : 257 –264.
[20] Soares J V, Rennó C D, Formaggio A R, da Costa Freitas Yanasse C, Frery A C. An investigation of the selection of texture features for crop discrimination using SAR imagery[J]. Remote Sensing of Environment, 1997, 59 (2) : 234 –247. DOI: 10.1016/s0034-4257(96)00156-3
[21] Tuia D, Pacifici F, Kanevski M, Emery W J. Classification of very high spatial resolution imagery using mathematical morphology and support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47 (11) : 3866 –3879. DOI: 10.1109/tgrs.2009.2027895
[22] Wang D, Lin H, Chen J S, Zhang Y Z, Zeng Q W. Application of multi-temporal ENVISAT ASAR data to agricultural area mapping in the Pearl River Delta[J]. International Journal of Remote Sensing, 2010, 31 (6) : 1555 –1572. DOI: 10.1080/01431160903475258
[23] 王书玉, 张羽威, 于振华. 基于随机森林的洪河湿地遥感影像分类研究[J]. 测绘与空间地理信息, 2014, 37 (4) : 83 –93. Wang S Y, Zhang Z W, Yu Z H. Classification of Honghe Wetland remote sensing image based on random forests[J]. Geomatics and Spatial Information Technology, 2014, 37 (4) : 83 –93. DOI: 10.3969/j.issn.1672-5867.2014.04.022
[24] 吴炳方. 中国农情遥感速报系统[J]. 遥感学报, 2004, 8 (6) : 481 –497. Wu B F. China crop watch system with remote sensing[J]. Joural of Remote Sensing, 2004, 8 (6) : 481 –497. DOI: 10.3321/j.issn:1007-4619.2004.06.001
[25] Yang C, Liu S C, Bruzzone L, Guan R C, Du P J. A feature-metric-based affinity propagation technique for feature selection in hyperspectral image classification[J]. IEEE Geoscience and Remote Sensing Letters, 2013, 10 (5) : 1152 –1156. DOI: 10.1109/lgrs.2012.2233711
[26] 杨珺雯, 张锦水, 朱秀芳, 谢登峰, 袁周米琪. 随机森林在高光谱遥感数据中降维与分类的应用[J]. 北京师范大学学报(自然科学版), 2015, 51 (S1) : 82 –88. Yang J W, Zhang J S, Zhu X F, Xie D F, Yuan Z M Q. Random Forest applied for dimension reduction and classification in hyperspectral data[J]. Journal of Beijing Normal University (Natural Science), 2015, 51 (S1) : 82 –88. DOI: 10.16360/j.cnki.jbnuns.2015.s1.013
[27] 姚登举, 杨静, 詹晓娟. 基于随机森林的特征选择算法[J]. 吉林大学学报(工学版), 2014, 44 (1) : 137 –141. Yao G J, Yang, Zhan X J. Feature selection agorithm based on random forest[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44 (1) : 137 –141. DOI: 10.13229/j.cnki.jdxbgxb201401024
[28] Zortea M and Haertel V. 2004. Experiments on feature extraction in remotely sensed hyperspectral image data//IEEE International Geoscience and Remote Sensing Symposium. [s.l.]: IEEE: 964–967 [DOI: 10.1109/igarss.2004.1368569]