基于多源遥感的森林地上生物量KNN-FIFS估测

DOI: 10.11707/j.1001-7488.20180909

文章信息

韩宗涛, 江洪, 王威, 李增元, 陈尔学, 闫敏, 田昕

Han Zongtao, Jiang Hong, Wang Wei, Li Zengyuan, Chen Erxue, Yan Min, Tian Xin

Forest Above-Ground Biomass Estimation Using KNN-FIFS Method Based on Multi-Source Remote Sensing Data

林业科学, 2018, 54(9): 70-79.

Scientia Silvae Sinicae, 2018, 54(9): 70-79.

DOI: 10.11707/j.1001-7488.20180909

文章历史

收稿日期：2016-12-05

修回日期：2017-06-15

作者相关文章

韩宗涛

江洪

王威

李增元

陈尔学

闫敏

田昕

引用本文

韩宗涛, 江洪, 王威, 李增元, 陈尔学, 闫敏, 田昕. 2018. 基于多源遥感的森林地上生物量KNN-FIFS估测. 林业科学, 54(9): 70-79. 复制到剪切板

Han Zongtao, Jiang Hong, Wang Wei, Li Zengyuan, Chen Erxue, Yan Min, Tian Xin. 2018. Forest Above-Ground Biomass Estimation Using KNN-FIFS Method Based on Multi-Source Remote Sensing Data. Scientia Silvae Sinicae, 54(9): 70-79. DOI: 10.11707/j.1001-7488.20180909 复制到剪切板

基于多源遥感的森林地上生物量KNN-FIFS估测

韩宗涛^1,2, 江洪^1,4, 王威³, 李增元², 陈尔学², 闫敏², 田昕²

1. 福州大学地理空间信息技术国家地方联合工程研究中心空间数据挖掘与信息共享教育部重点实验室福州 350002;
2. 中国林业科学研究院资源信息研究所北京 100091;
3. 国家林业和草原局调查规划设计院北京 100714;
4. 海西政务大数据应用协同创新中心福州 350003

收稿日期：2016-12-05; 修回日期：2017-06-15

基金项目：中央级公益性科研院所基本科研业务费专项资金“森林资源动态变化时空连续监测方法研究”（CAFYBB2017QC005）

通讯作者：田昕

摘要：【目的】针对多源遥感数据及其派生特征因子数据维度高、信息冗余、易造成估测模型过拟合等问题，从高维度遥感特征因子中高效优化特征组合，优化区域森林地上生物量（AGB）的k最近邻（k-NN）估测模型。【方法】提出基于快速迭代特征选择的k最近邻法（KNN-FIFS），以森林资源样地调查数据计算的森林AGB为参考，以留一法交叉验证（LOO）相应的k-NN模型反演的森林AGB均方根误差（RMSE）最小为原则，依次迭代选取遥感特征，优化区域森林AGB的k-NN估测模型。以大兴安岭根河森林保护区为研究区，结合Landsat-8 OLI各波段光谱信息、植被指数、纹理、地形因子、机载合成孔径雷达（SAR）P-波段HV极化后向散射强度信息（P_HV）以及森林资源样地调查数据，利用KNN-FIFS方法估测研究区森林AGB，并与多元线性逐步回归法（SMLR）进行对比分析。【结果】利用KNN-FIFS方法，得到当k为3，特征组合为P_HV、短波红外波段一均一性（H6）、短波红外波段一二阶矩（S6）、短波红外波段二二阶矩（S7）、海蓝波段相关性（Cr1）、近红外波段相关性（Cr5）、海蓝波段相异性（D1）、增强型植被指数（EVI）时，研究区森林AGB估测结果最优，其精度（R²=0.77，RMSE=22.74 t·hm^-2）显著优于SMLR估测精度（R²=0.53，RMSE=32.37 t·hm^-2）。【结论】KNN-FIFS方法相比SMLR更适用于森林AGB多源遥感估测；KNN-FIFS方法可以从高维度遥感特征因子中高效选取相关特征进行森林AGB估测。

关键词：KNN-FIFS 特征选择地上生物量

Forest Above-Ground Biomass Estimation Using KNN-FIFS Method Based on Multi-Source Remote Sensing Data

Han Zongtao^1,2, Jiang Hong^1,4, Wang Wei³, Li Zengyuan², Chen Erxue², Yan Min², Tian Xin²

1. Key Laboratory of Spatial Data Mining & Information Sharing of Ministry of Education National Engineering Research Center of Geo-spatial Information Technology, Fuzhou University Fuzhou 350002;
2. Research Institute of Forest Resource Information Techniques, CAF Beijing 100091;
3. Academy of Forestry Inventory and Planning, National Forestry and Grassland Administration Beijing 100714;
4. Fujian Collaborative Innovation Center for Big Data Applications in Governments Fuzhou 350003

Abstract: 【Objective】Aiming at the over-fitting problem caused by information redundancy from multi-source remote sensing data and their derived high-dimensional features, this study is to effectively pre-select the optimal feature combination to optimize the k-nearest neighbor (k-NN) for regional forest above-ground biomass (AGB) estimation.【Method】This study proposed a fast iterative features selection method for k-NN method (KNN-FIFS). This method iteratively pre-select the optimal features which determined by the minimum root mean square error (RMSE) between the measured forest AGB values and the k-NN estimates based on the leave-one-out (LOO) cross-validation. Based on KNN-FIFS, multi-source data, including Landsat-8 OLI and its vegetation indices, texture metrics, topographic factors, HV polarization of P-band synthetic aperture radar (SAR) data, and forest inventory data (P_HV), were used to estimate forest AGB over Daxing'an Mountain Genhe forest reserve located in Inner Mongolia. Afterwards, the model behaviors between KNN-FIFS and stepwise multiple linear regression (SMLR) method were compared.【Result】For KNN-FIFS method, the best configuration was that one with k of 3, the remotely sensed features using P_HV, second moment of 1^st and 2^nd short-wave infrared bands (S6, S7), homogeneity of 1^st short-wave infrared band (H6), correlation of coastal aerosol (Cr1), correlation of the near infrared (Cr5), dissimilarity of coastal aerosol (D1) and the enhanced vegetation index (EVI). This configuration generated the most accurate estimates with R²=0.77 and RMSE=22.74 t·hm^-2, which performed much better than SMLR with R²=0.53 and RMSE=32.37 t·hm^-2.【Conclusion】KNN-FIFS is a more suitable method for forest AGB estimation than SMLR. KNN-FIFS can efficiently select the optimal feature combination to estimate regional forest AGB by use of multi-source remote sensing data with high-dimensional information.

Key words: KNN-FIFS feature selection above-ground biomass(AGB)

森林地上生物量(above-ground biomass，AGB)是森林生态系统发挥其生态功能的物质基础，是森林固碳能力的重要标志，在全球碳循环中扮演着重要角色(Chinembiri et al., 2013；Gara et al., 2014)，准确估测森林AGB及其变化对研究全球碳循环、气候变化具有重要意义(Güneralp et al., 2014；Lu，2006)。

遥感技术以其宏观、动态及可重复等优势，已成为当前区域森林AGB估测的主要方法(李德仁等，2012)。基于遥感的森林AGB估测，通常利用遥感数据结合森林资源调查数据进行统计回归，但该方法以大数定律为理论基础，只有当样本数量“足够多”时，样本的规律才能被统计出来；在实际应用中，森林资源调查数据往往难以获取，在样本数量有限的情况下模型会发生“过学习”现象。为了解决上述问题，一些学者采用非参数化方法估测森林AGB，如k最近邻法(k-nearest neighbor，k-NN)、决策树(decision tree，DT)、人工神经网络(artificial neural network，ANN)、支持向量机(support vector machine，SVM)等，其中k-NN法灵活、透明、泛化能力强，既不依赖于特定的函数分布(Franco-Lopez et al., 2001)，也无需样本测量值与遥感影像特征间的先验知识，不仅可用于若干森林参数的估计，还能融合各种空间数据到因变量估测中，尤其是在样本数量较少的情况下易于估算缺失值(Crookston et al., 2008；Troyanskaya et al., 2001)，在森林参数遥感估测领域得到了广泛应用(曹庆先等，2011；戚玉娇等，2015；Wilson et al., 2012；Reese et al., 2002；Tian et al., 2012；2014)。在森林参数估测方法不断发展的同时，多源遥感数据也被逐步应用于森林参数遥感估测，国内外众多学者研究表明，结合多源遥感数据及其派生的遥感特征因子(如纹理、植被指数、地形因子等)可有效提高森林AGB估测精度(曹庆先等，2011；李明阳等，2015；Dube et al., 2015；Eckert，2012；Kelsey et al., 2014；Lu，2005)。

综合利用多源遥感数据及其派生特征因子，在一定程度上提高了森林参数(如森林AGB、蓄积量等)的定量估测精度，但多源遥感数据通常伴随有数据维度高的特点，进而产生信息冗余和维度灾难，使分析和处理变得复杂，因此，如何从海量遥感特征组合中高效选取优化的特征进行建模成为森林AGB估测的首要问题。郭云等(2015)、李春梅等(2016)使用随机森林(random forest，RF)算法进行特征选择，并基于挑选后的特征建立森林AGB的k-NN估测模型，提升了森林AGB估测精度；但RF算法是通过对特征进行重要性度量的方式(Strobl et al., 2007)实现特征选择的，得到的只是特征得分由大到小排序的结果，并非“最优”特征组合。而且，RF算法的2个“随机性”(Breiman，2001)，即训练集抽取的随机性和节点候选分割特征集合的随机性，也在一定程度上增加了其用于特征选择时的不稳定性。在k-NN基础上，Li等(2011)提出了随机k最近邻法(random k-nearest neighbor，RKNN)，即在RF第一节点上，基于Bootstrap(Efron et al., 1986)抽取的样本，利用k-NN法进行一系列建模、优化，直到分类结果最佳。结果发现，RKNN大幅提高了基因识别效率，在一定程度上解决了“小样本 & 高维度信息”问题；但RKNN只应用于基因的定性分类识别，用于森林参数定量估测的相关研究未见报道。

针对如何从高维遥感数据产生的海量特征组合中高效选取相关特征进行森林AGB优化建模，本研究提出基于快速迭代特征选择的k最近邻法(k-nearest neighbor with fast iterative features selection，KNN-FIFS)，并以大兴安岭根河森林保护区为研究区，结合多源遥感及其派生数据进行森林AGB估测研究。

1 研究区概况与试验数据 1.1 研究区概况

大兴安岭根河森林保护区位于内蒙古自治区呼伦贝尔北部(图 1)，地理位置121°30′—121°31′E，50°49′—50°51′N，海拔800~1 100 m；保护区地处寒温带湿润气候区，气候寒冷湿润，年均温-5.3 ℃，年均日照时长2 594 h，无霜期90天左右，降水主要集中在7、8月，年降水量450~500 mm；保护区森林覆盖率达90%以上，以兴安落叶松(Larix gmelinii)构成的明亮针叶林为主，伴生树种有白桦(Betula platyphylla)、山杨(Populus davidiana)等。

图 1 研究区地理位置、地表覆盖类型及野外调查样地分布 Figure 1 Location of the study area, land cover and the field plots spatial distribution

1.2 森林资源调查数据

森林资源调查数据(图 1)包括2012年8月调查的38块样地(30 m×30 m)以及2013年8月调查的18块样地(45 m×45 m)。样地皆为正方形，边界沿东西—南北向分布，对样地内活立木进行每木检尺(胸径、树高、冠幅等)，胸径起测径级为5 cm。利用差分GPS(differential GPS，DGPS)定位样地4个角点坐标，其中基准站为Pro XRT，流动站为Geo XH 6000和Geo XT 6000，差分处理后定位平面误差大部分为1~2 m，最大误差小于10 m(胡凯龙等，2015)，并由角点坐标推算样地中心点坐标。

同时，本研究获取了研究区2012年小班数据，根据小班属性信息得到研究区主要地表覆盖类型(图 1)。由于本研究所用样地数目较少，所以后期的森林AGB估测并未分森林类型进行建模分析。

1.3 遥感数据及预处理

遥感数据包括Landsat-8 OLI数据、ASTER-GDEM V2(advanced spaceborne thermal emission and reflection radiometer global digital elevation model version2)数据以及机载合成孔径雷达(synthetic aperture radar，SAR)P-波段HV极化后向散射强度数据(P_HV)。

Landsat-8 OLI数据来源于美国地质调查局(http://glovis.usgs.gov/)，成像时间为2014年5月24日，影像无云层覆盖，产品级别Level 1T，即已进行了基于地形的几何校正，本研究所用B1—B7波段空间分辨率为30 m。在ENVI 5.3中将影像灰度值定标为辐亮度值，采用FLAASH(fast line-of-sight atmospheric analysis of hypercubes)大气校正模型(Anderson et al., 2002)对影像进行大气校正。虽然Landsat-8 OLI影像与样地调查时间未同步，但由于保护区地处高纬高寒，森林生长十分缓慢，且2012—2014年无自然(如冰雪灾害、火灾、虫害等)或人为(如植树造林、砍伐等)干扰，因此可以认为2012、2013年调查的样地数据可用于2014年该区域森林AGB的建模和反演。

ASTER GDEM V2数据来源于地理空间数据云(http://www.gscloud.cn/)，空间分辨率为30 m，较ASTER GDEM V1提高了数据的空间分辨率精度和高程精度。

P-波段机载合成孔径雷达数据来源于2013年9月13日在研究区开展的飞行试验。该试验以“奖状Ⅱ”为飞行平台，飞行高度5 80 7 m，航向由西向东，右视方向观测，中心入射角为55.058°，波长为0.5 m，距离向分辨率为0.666 m，方位向分辨率为0.625 m。对原始数据进行多视处理(3×3)、地理编码，并采用高精度LiDAR DEM数据进行正射校正，得到空间分辨率为2 m的HV极化后向散射强度数据(冯琦等，2016)。为与Landsat-8 OLI分辨率一致，在ENVI 5.3中采用像元聚合方法将P_HV重采样至30 m空间分辨率。

2 研究方法 2.1 样地生物量计算

采用陈传国等(1989)提出的幂函数一元方程计算不同树种单木生物量，累加得到林分水平样地生物量总量，除以样地面积得到单位面积生物量(t·hm^-2)。样地单木生物量计算公式如下：

$ W{\rm{ = }}a \times {\rm{DB}}{{\rm{H}}^b}。$

(1)

式中：W为地上部分生物量(kg)；DBH为实测胸径；a、b为系数(表 1)。

表 1 研究区树种生物量系数 Tab.1 The biomass parameters of the various tree species in the study area

2.2 特征提取

遥感特征包括光谱信息、植被指数、纹理、地形因子和机载PolSAR 5种类型(表 2)，其中植被指数、纹理、地形因子在ENVI 5.3中提取完成。纹理基于灰度共生矩阵(gray-level co-occurrence matrix，GLCM)计算得到，一方面，纹理计算结果因GLCM参数([x, y]步距及窗口大小)设置不同而异；另一方面，纹理对于森林AGB的估测能力因地理条件、森林类型、传感器类型和遥感影像空间分辨率等不同而异(Bastin et al., 2014；Cutler et al., 2012；Dube et al., 2015；Sarker et al., 2011；2013)。本研究采用李春梅等(2016)研究得到的保护区森林AGB估测纹理参数，即以[x, y]步距为[1, 1]、窗口为5×5提取纹理特征。

表 2 多源遥感数据及其派生特征因子 Tab.2 Multi-source remote sensing datas and their derived features

表 2 多源遥感数据及其派生特征因子

Tab.2 Multi-source remote sensing datas and their derived features

特征类型Feature type	特征Features	简称Abbreviation	备注Reference
光谱信息 Spectral bands	海蓝波段Coastal aerosol	B1	—
	蓝光波段Blue	B2	—
	绿光波段Green	B3	—
	红光波段Red	B4	—
	近红外波段NIR	B5	—
	短波红外波段一SWIR1	B6	—
	短波红外波段二SWIR2	B7	—
植被指数 Vegetation indices	归一化植被指数Normalized difference vegetation index	NDVI	Rouse et al.(1974)
	简单比值指数Simple ratio index	SR	Birth et al.(1968)
	增强植被指数Enhanced vegetation index	EVI	Huete et al.(2002)
	大气阻抗植被指数Atmospherically resistant vegetation index	ARVI	Kaufman et al.(1992)
纹理Texture metrics	方差Variance	V1-V7	Haralick et al.(1973) (V1-V7即B1-B7各波段方差；…；Cr1-Cr7即B1-B7各波段相关性V1-V7 are variances of B1-B7 respectively；…；Cr1-Cr7 are correlations of B1-B7 respectively)
	均一性Homogeneity	H1-H7
	对比度Contrast	Co1-Co7
	相异性Dissimilarity	D1-D7
	熵Entropy	E1-E7
	二阶矩Second moment	S1-S7
	相关性Correlation	Cr1-Cr7
地形因子 Topographic factors	高程Elevation	Elv	Wood(1996)
	坡度Slope	Slp
	坡向Aspect	Asp
机载PolSAR Airborne PolSAR	P-波段PolSAR HV极化强度数据HV backscatter of P-band PolSAR	P_HV	冯琦等(2016)

2.3 KNN-FIFS方法森林参数估测

K-NN法通过搜索相似单元，待估像元的属性值${\hat V_{\rm{p}}}$由距离其最近的k个样地的属性值V_pi(1≤i≤k)加权求得，即：

$ {\hat V_{\rm{p}}} = \sum\nolimits_{i = 1}^k {{W_{{\rm{p, p}}i}}} \times {V_{{\rm{p}}i}}。$

(2)

式中：W_{p, pi}为权重，与待估像元特征向量(X_p)到样地所在像元特征向量(X_pi)的距离(D_{p, pi})呈反比，即：

$ {W_{{\rm{p, p}}i}} = \frac{{1/{D_{{\rm{p, p}}i}}}}{{\sum\nolimits_{i = 1}^k {\left({1/{D_{{\rm{p, p}}i}}} \right)} }}。$

(3)

D_{p, pi}可采用多种度量标准，而采用马氏距离(Mahalanobis distance)可以提高其估测精度(郭云等，2015；李春梅等，2016；Tian et al., 2012；2014)，因为马氏距离在一定程度上可克服变量量纲的影响，既考虑特征向量的离散度，也考虑向量分布的协相关，可以有效排除变量之间的相关性干扰。基于上述原因，采用马氏距离对D_{p, pi}进行度量，即：

$ {D_{{\rm{p, p}}i}} = \sqrt {{{\left({{X_{{\rm{p}}i}} - {X_{\rm{p}}}} \right)}^{\rm{T}}}{C^{ - 1}}\left({{X_{{\rm{p}}i}}{\rm{ - }}{X_{\rm{p}}}} \right)} 。$

(4)

式中：C为样本协方差矩阵；C^-1为样本协方差矩阵的逆矩阵；T为矩阵的转置。

k-NN法虽然灵活、透明、泛化能力强，但是当特征维数较高时，会产生海量特征组合，降低模型预测效率和精度。为此，本研究提出KNN-FIFS方法用于森林AGB估测，其基本原理(图 2)如下(设样地数为n，特征数为m)：

图 2 KNN-FIFS算法流程 Figure 2 The KNN-FIFS algorithm flowchart

1) 由样地数据和遥感特征提取训练数据F={f₁, f₂, …, f_m}，其中f_j=[x_j1, x_j2, …, x_jn]^T(1≤j≤m)，x_ji为第i块样地对应第j个特征所在像元的值；

2) 初始化最优特征子集F_s为空，即F_s=null；初始化最优模型均方根误差(root mean square error，RMSE)RMSE₀为理论上极大值用于对比迭代过程中得到的RMSE，本研究设置RMSE₀=255 t·hm^-2；

3) 基于k-NN法，依次利用特征{f₁, F_s}, {f₂, F_s}, …, {f_i-1, F_s}, {f_i+1, F_s}, …, {f_m, F_s}(其中f_i=F_s∩F)建立森林AGB估测模型，共得到m-s(s为最优特征子集的特征个数)个k-NN估测模型及每个模型对应的RMSE。RMSE采用留一法交叉验证计算得到，即每次从n块样地中不重复地抽取1个样地i，利用剩余的n-1块样地采用k-NN法估测样地i的森林AGB(${\hat y_i}$)，重复该过程n次。设样地i的森林AGB为y_i，n次共得到n对(${\hat y_i}$，y_i)，则RMSE计算公式为：

$ {\rm{RMSE = }}\sqrt {\frac{1}{n}\sum\nolimits_{i = 1}^n {{{\left({{y_i} - {{\hat y}_i}} \right)}^2}} }。$

(5)

4) 选取步骤3中得到的最优RMSE，即RMSE最小值，设该值为RMSE_b，若RMSE_b＜RMSE₀则将RMSE_b赋给RMSE₀, 并将RMSE_b对应的特征子集赋给F_s返回步骤3；反之迭代结束。

对于KNN-FIFS方法，当距离度量标准确定时，其估测结果受k的影响，而k最佳取值取决于样地数量、样地分布及待估森林参数实际变化程度等因素。Tokola等(1996)研究表明，k越大，估测结果越容易向平均值的方向平衡并呈集中分布趋势，此时估测结果与实测森林参数可能依然具有较高的相关性，但不能维持原有的森林参数统计分布特征。为了使森林参数估测结果能够保持原有的统计分布特征，k取值不宜过大，本研究设置k的变动范围为1~11，进行森林AGB估测。

2.4 多元线性逐步回归方法森林参数估测

多元线性逐步回归(stepwise multiple linear regression，SMLR)通过在设定的检验水平下交替引入和剔除变量，选取“最优”回归方程，探寻多个自变量与因变量之间的统计学意义。作为一种常用的特征变量筛选方法，已有诸多学者(国庆喜等，2003；郭志华等，2002；徐婷等，2015；Dube et al., 2015；Foody et al., 2001)利用其进行了森林参数估测研究，具体估测方法如下：

$ {\hat y_i} = {\beta _0} + {\beta _1}{x_{i1}} + {\beta _2}{x_{i2}} + \cdots + {\beta _i}{x_{ij}}。$

(6)

式中：${\hat y_i}$为待估森林参数；β_i为回归系数；x_ij为遥感特征因子。

本研究设置变量引入和剔除的显著性水平为P≤0.05和P≥0.10。为了最大程度减小分配训练、检验样本带来的随机误差并与KNN-FIFS精度验证方法一致，采用留一法交叉验证，即每次从n块样地中不重复地抽取1块样地i，利用剩余的n-1块样地建立回归方程，由此计算样地i的森林AGB估测值${\hat y_i}$，重复该过程n次，得到全部样地的森林AGB估测值。

3 结果与分析

遥感影像像元通常包含该像元周围地物信息，同时受阴影、树高和密度等因素影响，森林样地信息往往不能由其对应的某个像元精确反映出来。为了减小样地点定位、样地点与遥感影像匹配以及样地大小不一带来的误差，本研究以样地中心点对应遥感影像像元周围邻域3×3窗口内像元均值作为训练数据，分别利用KNN-FIFS和SMLR方法进行森林AGB估测，结果如图 3所示。

图 3 SMLR(左)和KNN-FIFS(右)估测森林地上生物量交叉验证结果 Figure 3 The cross-validation of forest above-ground biomass using SMLR (left) and KNN-FIFS (right) 虚线为1：1线 The dashed line represents a 1:1 fit.

基于KNN-FIFS方法，当k为3，特征组合为P_HV、短波红外波段一均一性(H6)、短波红外波段二二阶矩(S7)、短波红外波段一二阶矩(S6)、海蓝波段相关性(Cr1)、近红外波段相关性(Cr5)、海蓝波段相异性(D1)、增强型植被指数(EVI)时，研究区森林AGB估测结果最优，其精度(R²=0.77，RMSE= 22.74 t·hm^-2)显著优于SMLR方法估测精度(R²=0.53，RMSE=32.37 t·hm^-2)。SMLR方法估测得到的森林AGB分布更为离散，尤其在实测高值区域，其估测值偏离实测值较大。这是因为SMLR方法以大数定律为理论基础，只有当样本数量“足够多”时，样本的规律才能被统计出来，其估测结果对数据中的异常值更为敏感，易造成估测值偏差较大；同时森林作为一种复杂的生态系统，森林AGB与遥感数据间存在着复杂的非线性关系，而SMLR并不能够很好地描述这种关系；对于KNN-FIFS方法，估测参数只与相邻的k个样本有关，利用k个样地点加权求值能够减小因影像噪声、林分变化引起的随机变化，可以有效避免样本不平衡问题，并能更好地描述森林参数与遥感影像间复杂的非线性关系。

此外，关于KNN-FIFS方法有2个重要的特性需要说明：1)设特征数为m，则共计可能产生的特征组合数为$\sum\nolimits_{n = 1}^m {C_m^n} $(其中C_mⁿ为从m个特征中取出n个不同特征进行组合)，而KNN-FIFS通过其迭代机制仅由至多$\sum\nolimits_{n = 1}^m {\sum\nolimits_{i = 1}^n {} } $次特征组合即可完成特征选择。如图 4所示，随特征数增加，特征组合数几何式急速增加，KNN-FIFS方法仍可以小数量级的特征组合数完成特征寻优，从而极大提升特征选择效率。2) Breiman(1996)研究指出，留一法交叉验证是一种较好的无偏估计方法，不存在分配训练、检验样本带来的随机误差，其产生的泛化误差估计结果相对真值较小。通过留一法交叉验证，每次验证过程中均有n-1个样本用于模型训练，使得训练样本最接近原始样本分布，得到的估测结果可信度高。KNN-FIFS通过留一法交叉验证，得到的结果更为可信，同时也使得整个过程是可重复性的，进而保证了KNN-FIFS特征选择结果的稳定性。

图 4 KNN-FIFS方法特征选择与特征组合遍历对比 Figure 4 comparison of the traversal of feature combinations and feature selection using KNN-FIFS

4 讨论

Landsat-8 OLI传感器在波段设置及对植被的敏感性上较之前的TM(thematic mapper)等传感器有较大提升(徐涵秋等，2013)，但光学遥感仍难以穿透森林冠层获得其垂直结构信息。而微波遥感因其电磁波波长较长，具有穿透树冠的能力，不仅能作用于树叶，而且与森林AGB的主体——枝和树干也发生作用。Ranson等(1994)研究认为，P-波段交叉极化数据是森林AGB制图的最佳波段，特别在森林AGB水平较高时，P-波段HV极化数据也可用于生物量的提取；同时，森林作为一种复杂的生态系统，对于相似的森林AGB结构而言，不同的土地类型、地理条件、森林类型会有不同的反射率，即“同物异谱”；对于不同的森林AGB结构而言，相似的土地类型、地理条件、森林类型也会有相同的反射率，即“异物同谱”。相较光谱特征，纹理可以更好地表征遥感影像的空间信息，在一定程度上抑制“同物异谱、异物同谱”现象的发生(Lee et al., 1991；Foody et al., 2001)；而植被指数能够定量光谱信息。以上因素可在一定程度上解释利用“P_HV+纹理+EVI”特征组合获得森林AGB估测结果最优的原因。

为了探究“最优”特征组合可能的作用机制，本文还进行了如下研究。

1) 计算各遥感特征与样地森林AGB之间的Pearson相关系数(Pearson correlation coefficient)。Pearson相关系数介于-1~1之间，1表示变量完全正相关，0表示无关，-1表示完全负相关。如图 5所示，P_HV与样地森林AGB相关性最强；光谱信息、植被指数、纹理、地形因子等与样地森林AGB相关性较弱，相关系数在-0.4~0.4之间。本研究选取相关性最强的前10个特征，即P_HV、H4、E4、H7、Slp、H6、D7、D6、S4和Co6，并建立全部特征组合的11 253种k-NN(k为1~11)估测模型，得到研究区森林AGB最优估测精度为R²=0.55，RMSE=31.39 t·hm^-2，明显低于KNN-FIFS估测精度(R²=0.77，RMSE=22.74 t·hm^-2)。

图 5 各遥感特征与样地森林地上生物量Pearson相关系数 Figure 5 The Pearson correlation coefficient between various features and forest above-ground biomass respectively 竖直虚线用于分割特征类型 The dashed straight lines represent different feature types.

2) 利用KNN-FIFS方法估测黑河流域上游祁连山森林保护区森林AGB。依据各遥感特征与森林AGB的相关程度进行特征筛选，其实质是对每个特征和响应变量之间的线性相关性强弱进行特征优选。森林作为是一种复杂的生态系统，森林AGB与遥感特征之间的关系是复杂多样的，往往难以用简单的线性关系来描述。此时，则可以采用基于树的方法进行特征选择，如RF算法。郭云等(2015)结合黑河流域上游祁连山森林保护区133块森林样地调查数据和SCS+C地形校正后的Landsat-5 TM数据及其派生的纹理、植被指数等特征，首先利用RF算法进行特征选择，然后基于挑选出的特征建立森林AGB的k-NN估测模型，精度为R²=0.54，RMSE=26.62 t·hm^-2。基于相同遥感数据和样地数据，本研究利用KNN-FIFS方法估测黑河流域上游祁连山森林保护区森林AGB，精度为R²=0.63，RMSE=23.88 t·hm^-2，优于郭云等(2015)估测结果。该结果可以在一定程度上表明：1) KNN-FIFS方法适用于不同区域的森林AGB估测；2) KNN-FIFS优于“RF特征选择+k-NN建模”。

利用Pearson相关系数或RF算法均可剔除大部分无关或噪声特征，从而有效减小后续分析、计算的复杂度，提升森林参数估测效率和精度。但本研究发现，“最优”特征组合并非是各遥感特征与森林AGB相关性由强到弱排序的结果(Pearson相关系数特征选择+k-NN建模)，也不是各遥感特征重要性由大到小排序的结果(RF特征选择+k-NN建模)，即“最优+最优≠最优特征组合”。而对于“最优”特征组合作用机制，仍有待进一步研究，这对于森林参数多源遥感估测，尤其是大数据时代背景下的数据挖掘都具有重要意义。

5 结论

1) KNN-FIFS方法相比SMLR更适用于森林AGB多源遥感估测。SMLR方法以大数定律为理论基础，虽简单易行，但难以描述森林AGB与遥感数据间复杂的非线性关系，尤其在样本数量较少的情况下，易造成估测值偏差较大；而KNN-FIFS方法不依赖于特定的函数分布，利用已知样本建立非线性模型，估测参数只与最近邻的k个样本有关，有效避免了样本不平衡问题，在样本数量较少的情况下也可以估算缺失值。

2) KNN-FIFS方法可以实现高效特征选择。KNN-FIFS方法通过迭代特征选择，既保证了森林AGB估测精度，又极大提升了特征选择效率；采用留一法交叉验证，不存在分配训练和检验样本带来的随机误差，并且可以最大程度地利用样地数据，不仅使得估测结果更为可信，而且也保证了KNN-FIFS特征选择结果的稳定性。此外，KNN-FIFS方法的提出，为基于高维度遥感特征因子的其他森林参数(如蓄积量、叶面积指数等)估测提供了一种可能的有效方法。

参考文献(References)

曹庆先, 徐大平, 鞠洪波. 2011. 基于TM影像纹理与光谱特征和KNN方法估算5种红树林群落生物量[J]. 林业科学研究, 24(2): 144-150.
(Cao Q X, Xu D P, Ju H B. 2011. Biomass estimation of five kinds of mangrove community with the KNN method based on the spectral information and textural features of TM images[J]. Forest Research, 24(2): 144-150. [in Chinese])

陈传国, 朱俊凤. 1989. 东北主要林木生物量手册[M]. 北京: 中国林业出版社.
(Chen C G, Zhu J F. 1989. Woody biomass manual of typical species in the northeast of China[M]. Beijng: China Forestry Publishing House. [in Chinese])

冯琦, 陈尔学, 李增元, 等. 2016. 基于机载P-波段全极化SAR数据的复杂地形森林地上生物量估测方法[J]. 林业科学, 52(3): 10-21.
(Feng Q, Chen E X, Li Z Y, et al. 2016. Forest Above-ground biomass estimation method for rugged terrain based on airborne P-band PolSAR data[J]. Scientia Silvae Sinicae, 52(3): 10-21. [in Chinese])

郭云, 李增元, 陈尔学, 等. 2015. 甘肃黑河流域上游森林地上生物量的多光谱遥感估测[J]. 林业科学, 51(1): 140-149.
(Guo Y, Li Z Y, Chen E X, et al. 2015. Estimating forest above-ground biomass in the upper reaches of Heihe River basin using multi-spectral remote sensing[J]. Scientia Silvae Sinicae, 51(1): 140-149. [in Chinese])

国庆喜, 张锋. 2003. 基于遥感信息估测森林的生物量[J]. 东北林业大学学报, 31(2): 13-16.
(Guo Q X, Zhang F. 2003. Estimation of forest biomass based on remote sensing[J]. Journal of Northeast Forestry University, 31(2): 13-16. DOI:10.3969/j.issn.1000-5382.2003.02.006 [in Chinese])

郭志华, 彭少麟, 王伯荪. 2002. 利用TM数据提取粤西地区的森林生物量[J]. 生态学报, 22(11): 1832-1839.
(Guo Z H, Peng S L, Wang B S. 2002. Estimating forest biomass in western Guangdong using Landsat TM data[J]. Acta Ecologica Sinica, 22(11): 1832-1839. DOI:10.3321/j.issn:1000-0933.2002.11.006 [in Chinese])

胡凯龙, 刘清旺, 穆喜云. 2015. 差分GNSS系统在大兴安岭地区森林资源调查中的精度分析[J]. 林业调查规划, 40(4): 1-6.
(Hu K L, Liu Q W, Mu X Y. 2015. Differential GNSS application on location precision analysis of forest resource investigation in Daxinganling region[J]. Forest Inventory and Planning, 40(4): 1-6. DOI:10.3969/j.issn.1671-3168.2015.04.001 [in Chinese])

李春梅, 张王菲, 李增元, 等. 2016. 基于多源数据的根河实验区生物量反演研究[J]. 北京林业大学学报, 38(3): 64-72.
(Li C M, Zhang W F, Li Z Y, et al. 2016. Retrieval of forest above-ground biomass using multi-source data in Genhe, Inner Mongolia[J]. Journal of Beijing Forestry University, 38(3): 64-72. [in Chinese])

李德仁, 王长委, 胡月明, 等. 2012. 遥感技术估算森林生物量的研究进展[J]. 武汉大学学报:信息科学版, 37(6): 631-635.
(Li D R, Wang C W, Hu Y M, et al. 2012. General review on remote sensing-based biomass estimation[J]. Geomatics and Information Science of Wuhan University, 37(6): 631-635. [in Chinese])

李明阳, 余超, 张密芳, 等. 2015. 紫金山风景林生物量及其驱动因素时间轨迹分析[J]. 北京林业大学学报, 37(2): 1-7.
(Li M Y, Yu C, Zhang M F, et al. 2015. Time trajectory analysis of scenic forest biomass and driving factors in Zijin Mountain, eastern China[J]. Journal of Beijing Forestry University, 37(2): 1-7. [in Chinese])

戚玉娇, 李凤日. 2015. 基于KNN方法的大兴安岭地区森林地上碳储量遥感估算[J]. 林业科学, 51(5): 46-55.
(Qi Y J, Li F R. 2015. Remote sensing estimation of aboveground forest carbon storage in Daxing'an Mountains based on KNN method[J]. Scientia Silvae Sinicae, 51(5): 46-55. [in Chinese])

徐婷, 曹林, 申鑫, 等. 2015. 基于机载激光雷达与Landsat 8 OLI数据的亚热带森林生物量估算[J]. 植物生态学报, 39(4): 309-321.
(Xu T, Cao L, Shen X, et al. 2015. Estimates of subtropical forest biomass based on airborne LiDAR and Landsat 8 OLI data[J]. Chinese Journal of Plant Ecology, 39(4): 309-321. [in Chinese])

徐涵秋, 唐菲. 2013. 新一代Landsat系列卫星: Landsat 8遥感影像新增特征及其生态环境意义[J]. 生态学报, 33(11): 3249-3257.
(Xu H Q, Tang F. 2013. Analysis of new characteristics of the first Landsat 8 image and their eco-environmental significance[J]. Acta Ecologica Sinica, 33(11): 3249-3257. [in Chinese])

Anderson G P, Felde G W, Hoke M L, et al. 2002. MODTRAN4-based atmospheric correction algorithm: FLAASH (fast line-of-sight atmospheric analysis of spectral hypercubes)[J]. AeroSense 2002, International Society for Optics and Photonics, 4725: 65-71.

Bastin J F, Barbier N, Couteron P, et al. 2014. Aboveground biomass mapping of African forest mosaics using canopy texture analysis: toward a regional approach[J]. Ecological Applications, 24(8): 1984-2001. DOI:10.1890/13-1574.1

Birth G S, McVey G R. 1968. Measuring the color of growing turf with a reflectance spectrophotometer[J]. Agronomy Journal, 60(6): 640-643. DOI:10.2134/agronj1968.00021962006000060016x

Breiman L. 1996. Heuristics of instability and stabilization in model selection[J]. The Annals of Statistics, 24(6): 2350-2383. DOI:10.1214/aos/1032181158

Breiman L. 2001. Random forests[J]. Machine Learning, 45(1): 5-32. DOI:10.1023/A:1010933404324

Chinembiri T S, Bronsveld M C, Rossiter D G, et al. 2013. The precision of C stock estimation in the ludhikola watershed using model-based and design-based approaches[J]. Natural Resources Research, 22(4): 297-309. DOI:10.1007/s11053-013-9216-6

Crookston N L, Finley A O. 2008. yaImpute: an R package for kNN imputation[J]. Journal of Statistical Software, 23(10): 16.

Cutler M E J, Boyd D S, Foody G M, et al. 2012. Estimating tropical forest biomass with a combination of SAR image texture and Landsat TM data: An assessment of predictions between regions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 70(3): 66-77.

Dube T, Mutanga O. 2015. Investigating the robustness of the new Landsat-8 operational land imager derived texture metrics in estimating plantation forest aboveground biomass in resource constrained areas[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 108: 12-32. DOI:10.1016/j.isprsjprs.2015.06.002

Efron B, Tibshirani R. 1986. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy[J]. Statistical Science, 1(1): 54-75. DOI:10.1214/ss/1177013815

Eckert S. 2012. Improved forest biomass and carbon estimations using texture measures from WorldView-2 satellite data[J]. Remote Sensing, 4(4): 810-829. DOI:10.3390/rs4040810

Foody G M, Cutler M E, Mcmorrow J, et al. 2001. Mapping the biomass of Bornean tropical rain forest from remotely sensed data[J]. Global Ecology and Biogeography, 10(4): 379-387. DOI:10.1046/j.1466-822X.2001.00248.x

Franco-Lopez H, Ek A R, Bauer M E. 2001. Estimation and mapping of forest stand density, volume, and cover type using the k-nearest neighbors method[J]. Remote Sensing of Environment, 77(3): 251-274. DOI:10.1016/S0034-4257(01)00209-7

Gara T W, Murwira A, Chivhenge E, et al. 2014. Estimating wood volume from canopy area in deciduous woodlands of Zimbabwe[J]. Southern Forests: A Journal of Forest Science, 76(4): 237-244. DOI:10.2989/20702620.2014.965981

Güneralp I, Filippi A M, Randall J. 2014. Estimation of floodplain aboveground biomass using multispectral remote sensing and nonparametric modeling[J]. International Journal of Applied Earth Observation and Geoinformation, 33: 119-126. DOI:10.1016/j.jag.2014.05.004

Haralick R M, Shanmugam K. 1973. Textural features for image classification[J]. IEEE Transactions on Systems, Man, and Cybernetics, 3(6): 610-621.

Huete A, Didan K, Miura T, et al. 2002. Overview of the radiometric and biophysical performance of the MODIS vegetation indices[J]. Remote Sensing of Environment, 83(1): 195-213.

Kaufman Y J, Tanre D. 1992. Atmospherically resistant vegetation index (ARVI) for EOS-MODIS[J]. IEEE Transactions on Geoscience and Remote Sensing, 30(2): 261-270. DOI:10.1109/36.134076

Kelsey K C, Neff J C. 2014. Estimates of aboveground biomass from texture analysis of Landsat imagery[J]. Remote Sensing, 6(7): 6407-6422. DOI:10.3390/rs6076407

Lee J H, Philpot W D. 1991. Spectral texture pattern matching: a classifier for digital imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 29(4): 545-554. DOI:10.1109/36.135816

Li S, Harner E J, Adjeroh D A. 2011. Random KNN feature selection-a fast and stable alternative to random forests[J]. BMC Bioinformatics, 12(1): 1-11.

Lu D. 2005. Aboveground biomass estimation using Landsat TM data in the Brazilian Amazon[J]. International Journal of Remote Sensing, 26(12): 2509-2525. DOI:10.1080/01431160500142145

Lu D. 2006. The potential and challenge of remote sensing-based biomass estimation[J]. International Journal of Remote Sensing, 27(7): 1297-1328. DOI:10.1080/01431160500486732

Ranson K J, Sun G. 1994. Mapping biomass of a northern forest using multifrequency SAR data[J]. IEEE Transactions on Geoscience and Remote Sensing, 32(2): 388-396. DOI:10.1109/36.295053

Reese H, Nilsson M, Sandström P, et al. 2002. Applications using estimates of forest parameters derived from satellite and forest inventory data[J]. Computers and Electronics in Agriculture, 37(1): 37-55.

Rouse J W J, Haas R H, Schell J A, et al. 1974. Monitoring vegetation systems in the great plains with ERTS[J]. NASA Special Publication, 351: 309.

Sarker L R, Nichol J E. 2011. Improved forest biomass estimates using ALOS AVNIR-2 texture indices[J]. Remote Sensing of Environment, 115(4): 968-977. DOI:10.1016/j.rse.2010.11.010

Sarker M L R, Nichol J, Iz H B, et al. 2013. Forest biomass estimation using texture measurements of high-resolution dual-polarization C-band SAR data[J]. IEEE Transactions on Geoscience and Remote Sensing, 51(6): 3371-3384. DOI:10.1109/TGRS.2012.2219872

Strobl C, Boulesteix A L, Zeileis A, et al. 2007. Bias in random forest variable importance measures: illustrations, sources and a solution[J]. BMC Bioinformatics, 8(1): 25. DOI:10.1186/1471-2105-8-25

Tian X, Su Z, Chen E, et al. 2012. Estimation of forest above-ground biomass using multi-parameter remote sensing data over a cold and arid area[J]. International Journal of Applied Earth Observation and Geoinformation, 14(1): 160-168. DOI:10.1016/j.jag.2011.09.010

Tian X, Li Z, Su Z, et al. 2014. Estimating montane forest above-ground biomass in the upper reaches of the Heihe River Basin using Landsat-TM data[J]. International Journal of Remote Sensing, 35(21): 7339-7362. DOI:10.1080/01431161.2014.967888

Tokola T, Pitkänen J, Partinen S, et al. 1996. Point accuracy of a non-parametric method in estimation of forest characteristics with different satellite materials[J]. International Journal of Remote Sensing, 17(12): 2333-2351. DOI:10.1080/01431169608948776

Troyanskaya O, Cantor M, Sherlock G, et al. 2001. Missing value estimation methods for DNA microarrays[J]. Bioinformatics, 17(6): 520-525. DOI:10.1093/bioinformatics/17.6.520

Wilson B T, Lister A J, Riemann R I. 2012. A nearest-neighbor imputation approach to mapping tree species over large areas using forest inventory plots and moderate resolution raster data[J]. Forest Ecology and Management, 271(3): 182-198.

Wood J. 1996. The geomorphological characterisation of digital elevation models. United Kingdom: PhD thesis of University of Leicester. https://www.researchgate.net/publication/244444926_The_Geomorphological_Characterisation_of_Digital_Elevation_Models