文章信息
- 蒋馥根, 孙华, ZHAOFeng, 林辉, 龙江平
- JIANG Fugen, SUN Hua, ZHAO Feng, LIN Hui, LONG Jiangping
- 基于方差优化k最近邻法的森林蓄积量估测
- Forest stock volume estimation based on a variance-optimized kNN model
- 森林与环境学报,2019, 39(5): 497-504.
- Journal of Forest and Environment,2019, 39(5): 497-504.
- http://dx.doi.org/10.13324/j.cnki.jfcf.2019.05.008
-
文章历史
- 收稿日期: 2019-02-28
- 修回日期: 2019-06-03
2. 林业遥感大数据与生态安全湖南省重点实验室, 湖南 长沙 410004;
3. 美国大气与海洋局卫星应用研究中心, 美国 马里兰 20740;
4. 北京师范大学遥感科学国家重点实验室, 北京 100875;
5. 南方森林资源经营与监测国家林业与草原局重点实验室, 湖南 长沙 410004
2. Key Laboratory of Forestry Remote Sensing Based Big Data and Ecological Security for Hunan Province, Changsha, Hunan 410004, China;
3. Center for Satellite Applications and Research, National Oceanic and Atmospheric Administration, College Park, MD, USA 20740;
4. State Key Laboratory of Remote Sensing Science, Beijing Normal University, Beijing 100875, China;
5. Key Laboratory of State Forestry and Grassland Administration on Forest Resources Management and Monitoring in Southern Area, Changsha, Hunan 410004, China
森林是生物圈中最大的碳储库,在全球碳循环中起着不可替代的作用[1], 蓄积量是衡量森林质量的关键因子,也是评价森林固碳能力的重要指标[2],对森林蓄积量进行精准估测有利于森林资源质量动态监测和林业可持续发展[3-5]。传统的森林蓄积量调查以周期性的地面调查为主,该方法费时耗力、效率较低, 随着遥感技术的发展,利用遥感影像和少量样地建立反演模型进行区域性蓄积量反演能有效提高森林调查工作效率[6-9]。遥感影像结合样地蓄积量数据建立反演模型是开展区域范围内森林蓄积量估测的主要形式, 现有的蓄积量反演模型有过程模型和统计模型两类[10]。过程模型涉及输入参数较多,过程比较复杂,应用较少;统计模型一般包括经验模型和非参数模型,经验模型的参数设置简单,运算简单但易产生过高或过低估计,非参数模型克服了经验模型中自变量之间不能存在共线性的缺点[11],能减少传统多元回归方法对自变量之间共线性限定的影响。目前人工神经网络(artificial neural network,ANN)、支持向量机(support vector machine,SVM)、k最近邻法(k nearest neighbor,kNN)和决策树法(decision tree,DT)等非参数方法已被广泛用于森林资源调查。其中kNN法作为典型的非参数方法,与其他非参数方法相比,对自变量的数量没有限制,更加简化且不要求数据为正态分布,已成为蓄积量反演的常用方法[12-14]。使用kNN模型的精度变化取决于多个因素,包括最近邻数k、距离度量、加权函数和特征加权参数。现有研究都是试图找到全局最优k值,即获得的k值是恒定的并且总体上是最佳的。但实际上,由于空间可变性,最佳k值可能随着实际蓄积量的空间分布变化导致不稳定。因此,需要探索一种方法来研究k值的空间变异性,并找到用于在映射连续变量时确定每个位置的最佳k值。SUN et al[15]根据不同样本选择局部最优k值,在康保县建立kNN优化模型进行植被覆盖度的反演,优化的kNN模型精度较传统方法有明显提高。但到目前为止,对kNN模型的局部样本最优k值的探索仍然较少。
本研究拟提出一种基于方差优化的kNN方法探索k值的空间变异性,并找到适合每个样本的最佳k值,然后验证该方法的有效性。利用Planet Labs遥感数据结合野外样地调查数据,选择方差优化kNN建立研究区内森林蓄积量的遥感估算模型。同时利用地理加权回归(geographically weighted regression,GWR)模型、随机森林(random forest,RF)模型、普通kNN模型以及距离加权kNN模型进行精度比较和分析,为森林蓄积量遥感反演提供方法参考。
1 材料与方法 1.1 研究区概况旺业甸林场位于赤峰市喀喇沁旗旺业甸镇,地理位置介于东经118°09′~118°30′,北纬41°21′~41°39′之间。林场森林资源较丰富,森林覆盖率高,天然次生林以杨、桦、柞、椴为主,土地总面积25 958 hm2,有林地面积23 118 hm2,活立木总蓄积128万m3。林场地形复杂多样,地势由西南向东北倾斜,形成中低山地、丘陵漫岗和河谷平原3种地貌类型,海拔在500~1 890.9 m之间。林场属中温带大陆性季风气候,年平均气温3.5~7.0 ℃,无霜期110~150 d,年平均日照时间为2 913.3 h,年均降水量为400 mm左右。具体样地分布如图 1所示。
1.2 样地数据获取与蓄积量计算于2017年9月20日至10月15日在研究区进行野外样地调查, 共调查大小为25 m×25 m的样地85个。研究区内主要为人工林,树种结构较单一,主要树种为油松(Pinus tabuliformis Carr.)和落叶松[Larix gmelinii (Rupr.) Kuzen.]。对每个样地进行每木检尺调查和立地环境记录, 起测胸径为5 cm,记录胸径、树高、枝下高、冠幅等单木数据,同时记录样地的海拔、坡度、坡向、样地中心位置等环境数据。
利用记录的树高和胸径数据,根据林场提供的由当地实际情况编制的材积模型计算单木材积,累加得到样地水平蓄积量,除以样地面积得到单位面积蓄积量。
$ {{V}_{L}}=-0.001\ 498+0.000\ 7{{D}^{2}}+0.000\ 901H+0.000\ 032H{{D}^{2}} $ | (1) |
$ {{V}_{Y}}=0.013\ 464-0.001\ 967D+0.000\ 089{{D}^{2}}+0.000\ 628DH+0.000\ 032H{{D}^{2}}-0.003\ 173H $ | (2) |
式中:VL表示落叶松的单木材积(m3);VY表示油松的单木材积(m3);D代表胸径(m);H为树高(m)。
1.3 遥感影像介绍研究采用2017年10月12日获取的Planet Labs影像作为数据源,Planet Labs遥感卫星群是全球最大规模的地球影像卫星星座群,是世界上唯一具有全球高分辨率、高频次、全覆盖能力的遥感卫星系统。该影像有4个标准波段,分别是红、绿、蓝和近红外,空间分辨率为3 m。为了使样地面积大小和遥感数据空间分辨率尽可能匹配,按照空间位置匹配方法,将Planet Labs遥感数据3 m分辨率尺度上推到与样地大小一致。研究所涉及的影像在ENVI 5.3软件中进行辐射定标、大气校正以及几何校正等预处理,预处理完成后按照研究区矢量边界进行裁剪,得到用于蓄积量反演的影像。
1.4 特征变量提取植被指数包含了植被绝大部分信息,能够提取出图像中植被的特征,分析植物类别,用它来反演森林蓄积量具有良好的敏感性。计算Planet Labs影像的单波段反射率、波段组合信息、4个常见植被指数以及样地的地形因子等共35个特征变量。在统计软件R语言中计算所有特征变量与蓄积量之间的Pearson相关系数。选择与蓄积量相关性较高的变量开展变量筛选,为了保证变量筛选的有效性,引入方差膨胀因子(variance inflation factor,VIF)进行共线性分析。对共线性诊断后保留的显著变量应用逐步回归模型进行变量筛选,逐步回归的最终变量用于蓄积量模型反演与方法比较。
特征类型Feature type | 公式Formula | 参考文献Reference |
单波段反射率Single-band reflectance | 红、绿、蓝、近红外Red, green, blue, and near infrared | [16] |
两波段比值Two-band ratio | |
[16] |
三波段组合比值Three-band combination ratio | |
[16] |
植被指数Vegetation index | 归一化植被指数Normalized difference vegetation index (NDVI) 大气阻抗植被指数Atmospherically resistant vegetation index (ARVI) 增强型植被指数Enhanced vegetation index (EVI) 红绿植被指数Red green vegetation index (RGVI) |
[17] [18] [16] [16] |
地形因子Topographic factor | 高程Elevation 坡度Slope 坡向Aspect |
[19] [19] [19] |
在方差优化kNN模型中,首先计算各样本到预测样本的光谱距离(欧式距离)值,把所有样地到预测样地的光谱距离值排序,选择最靠近预测样地的k个样地的蓄积量值。
$ \rho =\sqrt{\sum\limits_{i=1}^{n}{{{\left( {{x}_{i}}-{{y}_{i}} \right)}^{2}}}} $ | (3) |
式中:xi和yi分别表示在n个波段中,第i个波段上x和y两个像素的光谱值;ρ表示在n维空间内两个像素之间的光谱距离。最终通过k个最近的像素距离倒数值加权得到该样地蓄积量。
$ {{\rho }_{w}}=\sum\limits_{i=1}^{n}{\left( \frac{{{y}_{j}}}{{{d}_{pj}}} \right)/\sum\limits_{i=1}^{n}{\left( \frac{1}{{{d}_{pj}}} \right)}} $ | (4) |
式中:ρw表示位置p处的预测蓄积量(m3 · hm-2);yj表示第j个样本对应的蓄积量(m3 · hm-2);dpj表示位置p到第j个样本的光谱距离;n表示样本量。
为了改进kNN局部样本中最近邻k的选择,拟提出一个优化的kNN方法,利用该样本不同k值下预测结果的方差变化速率,选取方差变化速率最小时k值对应的预测值作为待测样地最终的预测结果。这样可以保证所有的待测样本都能选取最适合该样本实际情况的k值,且模型达到稳定状态,可靠性得到提高。在方差变化速率选取k值的过程中利用梯度下降求解。k值范围取3至50,输出待测样地在不同k值下的预测值,每得到一个预测值,利用该预测值与之前得到的所有预测值计算方差,并计算出方差随k值变化的变化率,最终每个样地得到多个方差变化率。在统计软件R语言中利用梯度下降程序选取最优k值,其对应的预测值即该样地最优的预测结果。如图 2所示,方差变化率开始保持稳定处的k值即为最优k值。本研究还利用经验模型中的GWR模型,非参数模型中的RF、普通kNN以及距离加权kNN模型(k值均取3到50)参与建模并比较模型精度与效果。
1.6 精度检验研究选择决定系数(R2)、均方根误差(root mean square error,RMSE)、相对均方根误差[16] (relative root mean square error,RRMSE)和估测误差率(estimation error rate, EER)作为精度评价的指标。各模型中,模型的精度检验均选用留一交叉验证进行数据验证,即每次只留下1个样地做验证样本,其他样地做建模样本,保证尽可能多的样地进入模型,提高模型的可靠性。
2 结果与分析 2.1 样地统计与变量选择分析研究区样地森林蓄积量统计结果可知,其森林蓄积量在0~514.95 m3 · hm-2之间,变异系数为57.02% (表 2),说明研究区的森林蓄积量空间分布有一定差异。
样地数 Number of samples |
蓄积量Stock volume/(m3·hm-2) | 变异系数Coefficient of variation/% | 标准偏差 Standard deviation |
||
最小值Minimum | 最大值Maximum | 平均值Mean | |||
85 | 0 | 514.95 | 209.01 | 57.02 | 119.19 |
对于Planet影像,在计算的35个变量中,相关性系数最高的前5个因子为RGVI、Band23、Band13、Band123、ARVI,分别达到了0.747、0.747、0.733、0.719和0.718 (显著水平为0.01)。影像信息中红波段和绿波段对蓄积量较敏感,红绿波段的组合变量与蓄积量相关性较高。选取0.01水平上显著相关且相关性较高的变量,同时在相关性较高的因子之间考虑因子间的共线性,利用VIF进行共线性诊断,VIF阈值设为10。利用多元线性回归分析及VIF阈值判断,最终保留的因子为RGVI、ARVI、Blue、Band312。
2.2 方差优化k最近邻法模型结果与其他方法的比较利用GWR、RF、普通kNN、距离加权kNN和方差优化kNN模型分别建立蓄积量反演模型,结果如表 3所示。在普通kNN模型中,当k=8时, R2达到最大, 为0.64,同时RMSE最小,为69.6 m3 · hm-2。在距离加权kNN模型中,当k=8时,R2达到最大,为0.65, 且RMSE最小,为69.4 m3 · hm-2。利用距离加权的kNN模型建模,较普通kNN模型的R2有一定的上升,且RMSE和RRMSE也有下降,说明利用距离加权对kNN模型进行优化是有意义的。在3种kNN模型中,普通kNN、距离加权kNN和方差优化kNN模型拟合精度逐步上升,方差优化kNN模型的拟合效果最好,R2最高,为0.69,比普通kNN模型精度提升了7.24%,方差优化kNN模型的RMSE为67.6 m3 · hm-2,比普通kNN模型降低了4.73%,同时RRMSE也达到最低,为32.04%,比普通kNN模型下降了1.59%。方差优化kNN模型对比RF和GWR模型, R2分别提升了13.04%和18.84%,RRMSE下降了4.11%和7.31%。方差优化kNN模型的EER为20.41%,显著低于其他模型估测误差率。
模型Model | 决定系数 R2 |
均方根误差 RMSE/(m3·hm-2) |
相对均方根误差 RRMSE/% |
估测误差率 EER/% |
方差优化kNNVariance-optimized kNN | 0.69 | 67.6 | 32.04 | 20.41 |
距离加权kNN (k=8)Distance weighted kNN (k=8) | 0.65 | 69.4 | 33.53 | 22.52 |
普通kNN (k=8)General kNN (k=8) | 0.64 | 69.6 | 33.63 | 21.25 |
随机森林RF | 0.60 | 76.4 | 36.15 | 23.90 |
地理加权回归GWR | 0.56 | 83.1 | 39.35 | 25.51 |
残差是指实际观察值与估计值之间的差值,能对模型假设的合理性进行考察。根据各模型的残差分布(图 3)可以看出,方差优化kNN模型残差分布最好,所有残差分布在x轴上下两端,基本呈随机分布。绝大部分样地残差值的绝对值在100 m3 · hm-2以内,100~200 m3 · hm-2的很少,模型预测结果较好。
利用最优预测模型即方差优化kNN模型进行样地预测时会产生残差,将样地预测值与实测值产生的残差与ARVI、Blue、RGVI、Band312等变量和样地郁闭度、平均树高、平均胸径等测树因子做相关性分析。ARVI、Blue、RGVI、Band312等变量与残差均无显著相关性,说明变量的选择符合模型需求。在测树因子中,郁闭度和平均胸径与残差的相关性较低,平均树高与残差的相关性最高(0.381),表现为显著相关, 说明树高对残差有一定的影响。在野外样地进行每木检尺调查要尽量保证树高测量的准确性,在利用树高作为因子进行样地蓄积量计算时要选择合适的材积表,使样地实测蓄积量值更准确。
系数Coefficient | ARVI | Blue | RGVI | Band312 | 郁闭度 Canopy density |
平均树高Mean of tree heights | 平均胸径Mean of breast diameters |
Pearson相关系数Pearson correlation coefficient | 0.134 | 0.113 | -0.145 | -0.044 | 0.189 | 0.381** | 0.229 |
注:**表示在0.01水平(双侧)上显著相关。Note:**indicates significant at the 0.01 level. |
以Planet Labs影像作为数据源,利用GWR、RF、普通kNN、距离加权kNN和方差优化kNN模型对整个研究区进行蓄积量模拟,图 4、图 5分别为各模型反演的研究区蓄积量空间分布和k值分布。
3 讨论与结论方差能解释样本的离散程度,方差优化kNN模型利用方差速率的变化选取合适的k值能提高模型的稳定性和反演精度。研究表明方差优化kNN模型反演精度要显著优于其他模型,同时蓄积量空间分布结果基本符合实际情况,证明模型具有较高的实用性和可信度。
利用遥感技术对研究区进行蓄积量估测比传统方法要更高效、便捷,有利于实现对森林资源的实时监测和高效管理。以Planet Labs遥感数据作为数据源结合旺业甸林场实测样地数据,建立GWR、RF、普通kNN、距离加权kNN以及方差优化kNN模型进行研究区蓄积量反演。利用Planet Labs遥感影像作为数据源进行森林蓄积量反演是可行的, Planet Labs遥感卫星群是高空间分辨率、高时间分辨率以及高覆盖率的遥感卫星系统,能作为森林资源监测和管理重要的工具,对掌握全球生态环境的动态变化具有重要的意义。方差优化kNN模型拟合效果和精度要优于其他4种模型, 在建立的GWR、RF、普通kNN、距离加权kNN以及方差优化kNN模型中,方差优化kNN模型R2最高,达到了0.69,同时RMSE、RRMSE和EER也达到最低,分别为67.6 m3 · hm-2和32.04%。方差优化kNN模型拟合效果最好,模型精度最高,能够作为最优模型进行研究区蓄积量反演。方差优化kNN模型在研究区蓄积量空间分布反演结果效果最好。蓄积量分布表现为中部地区与西北部地区蓄积量分布较少,西南部及东南部地区蓄积量分布量较多,与实际情况基本一致,能满足反演需求。
[1] |
ZHANG Y X, SCHAUER J J, ZHANG Y H, et al. Correction to characteristics of particulate carbon emissions from real-world Chinese coal combustion[J]. Environmental Science & Technology, 2017, 51(8): 4734. |
[2] |
COOMES D A, ŠAFKA D, SHEPHERD J, et al. Airborne laser scanning of natural forests in New Zealand reveals the influences of wind on forest carbon[J]. Forest Ecosystems, 2018, 5(1): 10. |
[3] |
赵匡记, 王利东, 王立军, 等. 华北落叶松蓄积量及生产力研究[J]. 北京林业大学学报, 2015, 37(2): 24-31. |
[4] |
许炜敏, 陈友飞, 陈明华, 等. 基于BP神经网络的杉木林蓄积量估测研究[J]. 福建林学院学报, 2012, 32(4): 310-315. DOI:10.3969/j.issn.1001-389X.2012.04.005 |
[5] |
鲁宁, 寇卫利, 徐伟恒, 等. 西双版纳12 a间森林扰动监测研究[J]. 森林与环境学报, 2017, 37(4): 446-452. |
[6] |
MUINONEN E, PARIKKA H, POKHAREL Y P, et al. Utilizing a multi-source forest inventory technique, MODIS data and Landsat TM images in the production of forest cover and volume maps for the Terai Physiographic zone in Nepal[J]. Remote Sensing, 2012, 4(12): 3920-3947. DOI:10.3390/rs4123920 |
[7] |
LIU Y X, WU C Y, PENG D L, et al. Improved modeling of land surface phenology using MODIS land surface reflectance and temperature at evergreen needleleaf forests of central North America[J]. Remote Sensing of Environment, 2016, 176: 152-162. DOI:10.1016/j.rse.2016.01.021 |
[8] |
徐晓雨, 孙华, 王广兴, 等. 基于GF-1与Landsat-8的康保县叶面积指数遥感反演研究[J]. 中南林业科技大学学报, 2018, 38(1): 43-48. |
[9] |
MINH D H T, LE TOAN T, ROCCA F, et al. SAR tomography for the retrieval of forest biomass and height:cross-validation at two tropical forest sites in French Guiana[J]. Remote Sensing of Environment, 2016, 175: 138-147. DOI:10.1016/j.rse.2015.12.037 |
[10] |
李一哲, 张廷龙, 刘秋雨, 等. 生态过程模型敏感参数最优取值的时空异质性分析:以BIOME-BGC模型为例[J]. 应用生态学报, 2018, 29(1): 84-92. |
[11] |
孔航. 经典非参数回归模型和贝叶斯非参数分位数回归模型的比较[J]. 统计与决策, 2018, 34(17): 34-39. |
[12] |
王海宾, 彭道黎, 高秀会, 等. 基于GF-1 PMS影像和k-NN方法的延庆区森林蓄积量估测[J]. 浙江农林大学学报, 2018, 35(6): 1070-1078. |
[13] |
戚玉娇, 李凤日. 基于KNN方法的大兴安岭地区森林地上碳储量遥感估算[J]. 林业科学, 2015, 51(5): 46-55. |
[14] |
郑刚, 彭世揆, 戎慧, 等. 基于KNN方法的森林蓄积量遥感估计和反演概述[J]. 遥感技术与应用, 2010, 25(3): 430-437. |
[15] |
SUN H, WANG Q, WANG G X, et al. Optimizing kNN for mapping vegetation cover of arid and semi-arid areas using Landsat images[J]. Remote Sensing, 2018, 10(8): 1248. DOI:10.3390/rs10081248 |
[16] |
邹琪.深圳市植被碳储量遥感估算研究[D].长沙: 中南林业科技大学, 2017. http://cdmd.cnki.com.cn/Article/CDMD-10538-1017118274.htm
|
[17] |
ROUSE JR J W, HAAS R H, SCHELL J A, et al.Monitoring vegetation systems in the great plains with ERTS[C]//Proceedings of the Third Earth Resources Technology Satellite-1 Symposium-Volume Ⅰ: Technical Presentations.Washington, D.C.: NASA, 1973: 309-317. https: //www.researchgate.net/publication/246866091_Monitoring_Vegetation_Systems_in_the_Great_Plains_with_ERTS
|
[18] |
KAUFMAN Y J, TANRE D. Atmospherically resistant vegetation index (ARVI) for EOS-MODIS[J]. IEEE Transactions on Geoscience and Remote Sensing, 1992, 30(2): 261-270. DOI:10.1109/36.134076 |
[19] |
WOOD J.The geomorphological characterisation of digital elevation models[D].Leicester, UK: University of Leicester, 1996.
|