林业科学  2016, Vol. 52 Issue (1): 89-98   PDF    
DOI: 10.11707/j.1001-7488.20160111
0

文章信息

梁慧玲, 林玉蕊, 杨光, 苏漳文, 王文辉, 郭福涛
Liang Huiling, Lin Yurui, Yang Guang, Su Zhangwen, Wang Wenhui, Guo Futao
基于气象因子的随机森林算法在塔河地区林火预测中的应用
Application of Random Forest Algorithm on the Forest Fire Prediction in Tahe Area Based on Meteorological Factors
林业科学, 2016, 52(1): 89-98
Scientia Silvae Sinicae, 2016, 52(1): 89-98.
DOI: 10.11707/j.1001-7488.20160111

文章历史

收稿日期:2015-01-14
修回日期:2015-06-24

作者相关文章

梁慧玲
林玉蕊
杨光
苏漳文
王文辉
郭福涛

基于气象因子的随机森林算法在塔河地区林火预测中的应用
梁慧玲1, 2, 林玉蕊2, 杨光3, 苏漳文1, 王文辉1, 郭福涛1     
1. 福建农林大学林学院 福州 350002;
2. 福建农林大学计算机与信息学院 福州 350002;
3. 东北林业大学林学院 哈尔滨 150040
摘要[目的] 应用逻辑斯蒂回归模型和随机森林算法建立大兴安岭塔河地区林火发生的预测模型并对比模型预测精度,判断随机森林算法在该地区林火预测中的适应性,为该地区林火管理工作提供技术支持。[方法] 利用1974-2008年大兴安岭塔河地区森林火灾发生数据,分别运用二项逻辑斯蒂回归模型和随机森林算法,对塔河地区林火发生与气象因子之间的关系进行实证分析。为减少训练样本分布对试验结果的影响,将全样本数据随机分成60%的训练样本和40%的测试样本,并且进行5次重复,建立5个中间模型(样本组)。选择在5个中间模型中的3个及以上的显著变量(因子)对全样本数据进行分析并分别比较2种模型算法在5个中间模型和全样本模型中的预测准确率。此外,还设计了变量交互试验进一步验证相同变量下2种模型的预测精度。[结果] 日最小相对湿度、细小可燃物湿度码和干旱码3个因子在二项逻辑斯蒂回归模型和随机森林算法中均与林火发生呈显著相关。模型拟合的预测结果显示:在对5个中间模型的预测中,随机森林算法对训练样本(60%)和测试样本(40%)的预测准确率分别高于二项逻辑斯蒂回归模型8%和10%左右;在全样本模型的预测中,随机森林算法拟合的准确率为85.0%,而二项逻辑斯蒂回归模型拟合的准确率为76.2%,二者相差10%左右,与之前5个中间模型的预测结果一致;在变量交互试验中,随机森林算法拟合的准确率为86.0%,而二项逻辑斯蒂回归模型拟合的准确率为72.8%,随机森林算法的预测准确率提高了18.1%左右。[结论] 日最小相对湿度、细小可燃物湿度码和干旱码是影响林火发生的主要气象因子。在基于气象因子的塔河地区林火发生预测模型研究中,随机森林算法的预测准确率高于传统二项逻辑斯蒂回归模型10%左右,具有一定的预测优势和应用价值,可为大兴安岭塔河地区林火预测和决策提供参考。
关键词塔河地区    林火发生    气象因子    随机森林算法    逻辑斯蒂回归    
Application of Random Forest Algorithm on the Forest Fire Prediction in Tahe Area Based on Meteorological Factors
Liang Huiling1, 2, Lin Yurui2, Yang Guang3, Su Zhangwen1, Wang Wenhui1, Guo Futao1     
1. College of Forestry, Fujian Agriculture and Forestry University Fuzhou 350002;
2. College of Computer and Information Science, Fujian Agriculture and Forestry University Fuzhou 350002;
3. College of Forestry, Northeast Forestry University Harbin 150040
Abstract: [Objective] In this study, two methods were applied to establish fire prediction model for Tahe, Daxing'an Mountains. Our objective is to identify the applicability of random forest algorithm to local forest fire prediction according to prediction accuracy comparison. This study would provide some technical support for local forest fire management. [Method] The fire data collected in Tahe, Daxing'an Mountains between 1974 and 2008 were used in a case study to identify the relationship between fire occurrence and meteorological factors by using logistic regression (LR) model and random forest (RF) algorithm, respectively. In order to reduce the influence of sample distribution on the model fitting, the original dataset was randomly divided into training (60%) and validation (40%) samples. The procedure was repeated five times applying a sampling with replacement method, thus obtaining five random sub-samples (sample groups) of the data, each with a training and validation dataset. The predictors that had been proved to be significant at ɑ=0.05 in at least three of five intermediate models were included in the final models. Besides, in the present study a "cross validation" test was to identify the accuracy of the two models. [Result] The results of model parameter estimation indicated that daily minimum relative humidity, fine fuel moisture content (FFMC) and drought code (DC) were identified as important predictors in both Logistic and Random Forest model. The result of model fitting revealed that the prediction accuracy of LR model in five intermediate models were 8% and 10% lower than that of RF,respectively, for the training and variation samples. However, the prediction accuracy of RF on the complete dataset was 15% higher than that of LR. In the Cross Validation test, the prediction accuracy of RF was 85.0%, higher than that of LR (76.2%) and the result agreed with that of five sample groups. [Conclusion] Our results revealed that the RF model was superior to LR model on the fire prediction in the study area, thus the RF model can be used in the fire prediction and provide important information for the local fire management and plan.
Key words: Tahe area    fire occurrence    meteorological factors    random forest algorithm    Logistic regression    

森林火灾是一个全球性问题,影响着森林资源的可持续性和温室气体排放以及人类生命财产安全(Chuvieco et al., 2008)。在欧洲,1990—2012年的年均林火发生次数高达8.1万次,过火面积达到53万hm2(Chas-Amil et al., 2015)。北美地区年均林火发生次数大约13.9万次,过火面积大约420万hm2(NIFC,2004Girardin et al., 2013)。我国每年约发生1万次林火,年均过火面积82万hm2(Zhong et al., 2003)。气候是影响森林火灾变化的重要因素,随着全球气候变暖,森林火灾可能会更加严重(郭福涛等,2010),因此,对森林火灾发生与气象因子之间的关系进行实证分析具有重要意义。大兴安岭是我国主要林区,也是林火高发区,近年来,很多学者研究了该地区的每日林火预测模型(张巍,2009杜春英等,2010邸雪颖等,2011彭欢等,2014朱沛林等,2014郭福涛等,2015),且采用的主要是二项逻辑斯蒂回归模型(logistic regression model,LR)。

随机森林(r and om forest,RF)算法是一种基于分类回归树(classification and regression trees)的数据挖掘方法,是由Breiman和Cutler在2001年提出的取代神经网络等传统机器学习方法的一种较新的机器学习技术(Oliveira et al., 2012李欣海,2013张雷等,2014)。随机森林算法通过聚集大量分类树来提高模型预测精度,与决策树一样,可用来解决分类和回归问题,预测精度很高,在异常值和噪声方面有很高的容忍度,且不易出现过度拟合现象(Breiman,2001)。与传统的多元线性回归模型或参数回归模型相比,随机森林算法不需事先设定函数形式,且能克服协变量之间复杂的交互作用,具有较高的分类正确率(Cutler et al., 2007彭国兰,2007杨沐晞,2012)。目前,随机森林算法主要应用于生态学领域(Prasad et al., 2006Cutler et al., 2007张雷等,2014),近几年国外少数研究证明该算法在回归方面可提高林火预测精度(Oliveira et al., 2012Rodrigues et al., 2014a),但国内还未见相关报道。由于研究区域的空间异质性,国外关于随机森林算法在林火预测上的优越性结论并不能简单地应用于我国林区,因此,本研究基于气象因子,应用R等统计软件,分别计算随机森林算法和二项逻辑斯蒂回归模型对大兴安岭塔河地区林火发生的预测精度,通过模型拟合结果的对比分析,判断随机森林算法在大兴安岭林区林火预测预报中的适应性。

1 研究区概况

研究区位于120°—125° E,52°—53° N之间,属黑龙江省大兴安岭塔河地区,北与俄罗斯接壤,边境线长173 km,总面积1.442万km2。塔河地区地处北温带,属寒温带大陆性气候,受大陆和海洋季风更替的影响,季节变化显著。年均气温-2.4 ℃,年均降水量463.2 mm,且主要集中在7—8月,年日照时数 2 015~2 865 h。该地区森林覆盖率为81%,蓄积量为5 340万m3,主要树种有樟子松(Pinus sylvestris var.mongolica)、兴安落叶松(Larix gmelinii)、白桦(Betula platyphyla)、杨(Populus)等。 塔河是森林火灾高发地区,1974—2008年,该地区过火面积高达563 709 hm2,年均过火面积16 106 hm2(郭福涛等,2015)。

2 数据来源与处理 2.1 数据来源

本研究数据包括林火数据和气象数据2部分。

林火数据来源于大兴安岭塔河县森林防火办公室1974—2008年塔河地区林火发生情况数据,包括起火地理坐标、起火原因、火灾发生时间、着火次数等。

气象数据来源于中国气象数据共享网络(http:// cdc.cma.gov.cn/),为塔河气象站(国家标准气象站号50246)1965—2012年的日气象数据,包含气压等22个气象因子。本研究预先对气象数据进行了处理,剔除由于仪器设备损坏而造成数据缺失过多的气象因子,剩余9个气象因子:20:00—20:00时降水量(mm)、日均风速(m·s-1)、日均气温(0.1 ℃)、日均相对湿度(%)、日照时数(0.1 h)、日最低气温(0.1 ℃)、日最高气温(0.1 ℃)、日最大风速(m·s-1)、日最小相对湿度(%)。此外,根据研究区的气象数据,应用加拿大森林火险天气指标系统(fire weather index,FWI)计算反映可燃物干湿程度的指标,包括3个可燃物湿度码[细小可燃物湿度码(fine fuel moisture content,FFMC)、腐殖质湿度码(duff moisture content,DMC)、干旱码(drought code,DC)]和3个火行为指数[初始蔓延速度(initial spread index,ISI)、累积指数(build-up index,BUI)和火险天气指数(fire weather index,FWI)]。FFMC是反映地表凋落层和其他成熟的细小可燃物湿度的数量指标,受降水、温度、相对湿度和风速的影响,FFMC值会随可燃物含水率变化而变化; DMC是半分解、比较松散的枯落物下层可燃物的含水率,受降雨、相对湿度和温度的影响; DC是深层可燃物含水率; ISI是预期的火灾蔓延速度,由FFMC和风速计算得到; BUI是有效可燃物指标,是DMC和DC的加权平均值,表示移动火线燃烧的有效可燃物的量; FWI是火险天气指标,由ISI和BUI计算得到,是潜在火线强度的数量指标,是一个地区的火气候条件和可燃物含水率相结合的结果(胡海清,2005杜春英等,2010田晓瑞等,2010)。

2.2 数据处理

在应用LR和RF构建判别模型时,需构建一定比例的对照点(非火点)。本文参照前人研究,按1∶2比例选取对照点(郭福涛等,2015)。

采用SPSS19软件进行二项逻辑斯蒂回归模型计算,随机森林算法用R软件实现。

3 研究方法 3.1 二项逻辑斯蒂回归模型 3.1.1 逻辑斯蒂回归模型的基本原理

设林火发生的概率为P(二项分类因变量Y=1),没有林火发生的概率为(1-P)(二项分类因变量Y=0)。对P进行Logit变换,即将P变换为ln[P/(1-P)],记为Logit(P),则概率P与自变量(气象因子)之间的回归关系为:

$\ln \frac{P}{1-P}=Logit(P)={{\beta }_{0}}+{{\beta }_{1}}{{X}_{1}}+\cdot \cdot \cdot +{{\beta }_{n}}{{X}_{n}}$

经变换可得森林火灾概率预测模型:

$P=\frac{1}{1+\exp [-({{\beta }_{0}}+{{\beta }_{1}}{{X}_{1}}+\cdot \cdot \cdot +{{\beta }_{n}}{{X}_{n}})]}$
式中:P为林火发生的概率; n为气象因子的总数; β1β2,…,βn为各个自变量的逻辑斯蒂回归相关系数; X1X2,…,Xn为影响林火发生的自变量(王明玉等,2003赵凤君,2009郭福涛等,2010)。

3.1.2 逻辑斯蒂回归模型的校验

受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)是一种不依赖阈值的检验方法,以ROC曲线下的面积(the area under the curve,AUC)作为Logistic回归模型预测准确性的衡量标准。AUC值在[0.5,1]区间上变化,AUC值越大,模型的拟合效果越好。一般认为,AUC值等于0.5时相当于一个完全的随机预测,在(0.5,0.7]之间说明模型的拟合效果较差,在(0.7,0.8]之间说明模型的拟合效果中等,在(0.8,0.9]之间说明模型整体拟合效果很好,在(0.9,1]之间说明拟合效果非常好。此外,根据ROC曲线分析法可计算出模型的敏感性值和特异性值,根据约登指数(youden index)公式“约登指数=敏感性值+特异性值-1”可进一步判断最佳临界值(cut-off point),如果林火发生的预测概率值大于该临界值则认为有林火发生,小于该临界值则认为无林火发生(邓欧等,2012柳生吉等,2013Chang et al., 2013孙瑜等,2014)。

3.2 随机森林算法 3.2.1 随机森林算法的基本原理

设原始数据中有n个林火数据、m个气象因子,应用自助法(bootstrap)重抽样技术从n个林火数据中有放回地随机抽取ntree个样本容量为n的自助样本集,从而构建ntree株分类树,并且在每株分类树的每个节点上随机抽取mtry(mtrym)个气象因子,选择其中一个最具有分类能力的变量进行分支,且每株树都最大限度地生长,不需做任何剪枝。将所生成的ntree株分类树组成随机森林,并将这ntree株树分类结果的众数作为随机森林的分类结果。每次bootstrap重抽样未被抽到的样本组成ntree个袋外数据(out-of-bag,OOB),作为随机森林测试样本(武晓岩等,2006巩亚楠等,2014姚登举等,2014)。

在建立随机森林算法过程中,ntreemtry是2个最重要的自定义参数。Liaw等(2002)试验认为${{m}_{try}}=\sqrt{m}$是个较好的选择,而ntree的设置只要使ntree的值足够大,使森林的整体误差率趋于稳定即可(彭国兰,2007)。基于此,本文将mtry的值设为$\sqrt{m}$,将ntree的值设为2 000。

3.2.2 随机森林算法特征变量的重要性评价

随机森林算法可以对特征变量的重要性进行评价,其基本思想是:对于变量Xj,首先,计算每株树t相应的袋外数据OOBt的袋外误差率errOOBt; 然后,对袋外数据中的变量Xj值进行随机的序列改变,而其他所有变量在保持不变的情况下,重新计算改变顺序后的袋外数据的袋外误差率,通过分析袋外数据序列改变时袋外误差的增加情况来估计某一特征变量的重要程度。变量Xj的重要性得分为:

式中:ntree是随机森林算法中树的数量(武晓岩等,2007Genuer et al., 2010张雷等,2014)。

3.3 模型变量选择及运算

为减少训练样本分布对试验结果的影响,将总体样本数据随机分成60%的训练样本(用于建立模型)和40%的测试样本(用于检验模型)(Rodrigues et al., 2014a),重复做5次随机划分,得到5个不同的样本组。分别对5个样本组进行逻辑斯蒂运算,得到各自的显著变量,以显著变量在5个中间模型(即利用5个样本组所建立的模型)中出现次数大于等于3次为标准,确定最终变量,进行全样本的运算。 为保证研究过程的一致性,随机森林算法采用的样本数据和逻辑斯蒂模型一样,均为5个随机样本组和1个全数据样本。采用R语言统计软件中的程序包varSelRF对5个训练样本进行模型特征变量的选择计算,得到5组不同的因子集,同样选择在 5个样本组中出现3次及以上的变量进行最后的全样本计算。

4 结果与分析

应用SPSS软件对1974—2008年大兴安岭塔河地区林火数据及对应的气象因子数据进行基本统计描述(表 1)。

表1 林火发生与气象因子模型变量的基本统计描述 Tab.1 The basic statistical description of forest fire and meteorological factors
4.1 二项逻辑斯蒂回归模型的拟合 4.1.1 多重共线性诊断

多重共线性(multicollinearity)是指线性回归模型中自变量间存在精确相关关系或高度相关关系,会导致变量的显著性检验失去意义及模型的预测功能失效等后果。在检验多个自变量和因变量之间的相关性时,应先对自变量的多重共线性进行诊断,剔除有显著共线性的自变量。本研究运用方差膨胀因子(variance inflation factor,VIF)诊断法对影响林火发生的气象因子的全部数据进行共线性检验,以VIF=5为标准,VIF大于5表明自变量间存在多重共线性,需剔除相应的自变量。 经过共线性检验后,剔除了日均气温、日均相对湿度、日最高气温、BUI和FWI等5个变量(VIF值分别为89.696,5.420,7.241,163.880,37.721),最终,20:00—20:00时降水量、日均风速、日照时数、日最低气温、日最大风速、日最小相对湿度、FFMC、DMC、DC和ISI共10个变量(VIF值分别为1.601,2.023,1.613,1.599,1.900,2.987,3.889,1.859,1.942,2.849)进入模型拟合。

4.1.2 逻辑斯蒂模型的拟合

对1974—2008年的林火数据和当日气象因子数据进行逻辑斯蒂回归分析,首先对5个训练样本进行二项逻辑斯蒂回归模型拟合,得到5组不同的指标集,然后选择在5个样本组中出现3次及以上的因子进入全样本数据拟合。变量在各样本组及生样本中的显著性如表 2所示。基于全样本数据的逻辑斯蒂模型拟合结果的R2为0.244,且最终指标体系中的变量均与林火发生有显著相关性,除日照时数外,其余因子均在P<0.01水平上显著相关(表 3)。

表2 逻辑斯蒂模型中变量在各样本组及全样本中的显著性 Tab.2 The significance of independent variables in each sample group and complete sample under LR model

表3 逻辑斯蒂模型参数拟合 Tab.3 The parameters estimation of LR model
4.1.3 逻辑斯蒂回归模型的检验

应用ROC曲线分析法对Logistic回归模型的预测能力进行拟合优度检验,并且计算林火发生的最佳临界值。图 1为5个样本组和全样本模型的ROC曲线,表 4为各样本组模型的AUC值、显著性水平、最佳临界值和模型的预测准确率。结果表明,6个样本模型的AUC值均在(0.7,0.9]之间,且显著性水平均小于0.001,说明6个逻辑斯蒂模型具有统计意义且拟合较好,可用于森林火灾预测。此外,根据ROC曲线分析法计算出的敏感性值和特异性值,求得判断林火是否发生的临界值,通过建立的模型,结合临界值计算模型预测准确率。结果显示各样本组的预测准确率为71.8%~76.2%(表 4)。

图1 模型的ROC 拟合曲线 Fig.1 ROC curves of logistic model

表4 逻辑斯蒂模型AUC 值和临界值 Tab.4 The AUC and cut-off values of LR model
4.2 随机森林算法的拟合 4.2.1 随机森林算法特征变量的选择

对1974—2008年的林火数据和对应的当日气象因子数据进行随机森林算法拟合分析。表 5为变量在各样本组和全样本中的显著性。

表5 随机森林算法中变量在各样本组及全样本中的显著性 Tab.5 The significance of independent variables in each sample group and complete sample under RF agrigothm
4.2.2 随机森林算法特征变量的重要性排序

本研究在利用随机森林算法对模型进行特征变量选择后,分别对5次训练所得的特征集和最终指标体系进行相应拟合训练,从而得到5个训练样本和全样本中各因子的重要性排序(图 2)。从全样本模型来看,日最高气温对林火发生的影响最大,DC的影响次之,FFMC的影响最小。从6次模型拟合结果来看,日最高气温和DC对林火发生的影响均高于其他变量。

图2 随机森林算法对影响林火发生的自变量的重要性排序 Fig.2 Random forests affecting the occurrence of fire sort the importance of independent variables 平均准确率降低度是衡量将一个变量的取值变为随机数后随机森林预测准确性降低程度的指标,该值越大,说明该变量的重要性越大(Liaw et al. 2012)。 X3:日均气温;X4:日均相对湿度;X6:日最低气温;X7:日最高气温;X8:日最大风速;X9:日最小相对湿度;X10:FFMC;X12:DC;X13:ISI;X15:FWI。
4.3 2种模型算法的对比分析 4.3.1 最终指标体系(显著变量)

由二项逻辑斯蒂回归模型和随机森林算法的最终显著变量对比(表 6)可知,最小相对湿度、FFMC和DC 3个气象因子均被选入了模型的最终指标体系。

表6 逻辑斯蒂模型和随机森林算法中最终显著变量对比 Tab.6 The independent variables in the final model of LR model and RF algorithm
4.3.2 模型预测准确率

根据模型变量选择结果,分别对二项逻辑斯蒂回归模型和随机森林算法进行模型预测准确率的计算。结果(表 7)显示,5个样本组和全样本中,随机森林算法的正确判别率均比二次逻辑斯蒂回归模型高,在5个样本组的训练和测试样本中,随机森林算法分别高于逻辑斯蒂模型8%和10%左右;在全样本的模型预测中,二项逻辑斯蒂回归模型和随机森林算法对全样本的预测准确率分别为76.2%和85.0%,与前5个样本组的结果一致。

表7 逻辑斯蒂模型和随机森林算法的预测校正率 Tab.7 Prediction accuracy of LR model and RF algorithm

为进一步比较二项逻辑斯蒂回归模型和随机森林算法的预测精度,进行了2个模型的“变量交互验证”试验,即基于随机森林算法确定的显著变量,使用二项逻辑斯蒂回归模型对全样本数据进行拟合,并与随机森林算法进行拟合准确度对比;此外,基于二项逻辑斯蒂回归模型确定的显著变量,使用随机森林算法对全样本数据进行拟合,并与二项逻辑斯蒂回归模型进行拟合准确度对比。结果表明,随机森林算法的拟合效果比二项逻辑斯蒂模型的拟合效果好(表 8)。

表8 指标体系交叉试验结果 Tab.8 Indicator system of cross test results
5 结论与讨论

本文应用传统的二项逻辑斯蒂回归模型和随机森林算法研究了大兴安岭塔河地区林火发生与气象因子之间的关系。结果表明,随机森林算法的预测准确率比二项逻辑斯蒂回归模型高出10%左右,说明随机森林算法的拟合预测效果比二项逻辑斯蒂回归模型好,可在该地区依靠气象因子进行林火发生的预测预报。

在二项逻辑斯蒂回归模型的多重共线性检验中,剔除了日均气温、日均相对湿度、日最高气温、BUI和FWI等5个因子,而随机森林算法在对5个样本组进行变量的选择中,5个特征集并没有全部剔除这5个因子,且将多重共线性检验所剔除的日均气温和日最高气温纳入了模型的最终指标体系,日最高气温在最终指标体系的重要性排序中得分最高(排序第1),即对林火发生的影响最大,而日均气温得分相对较低。多重共线性检验考虑的是自变量之间的相关性而并未考虑所剔除的变量是否对因变量有所影响,因此,在对变量进行多重共线性检验时有可能剔除了对林火发生有显著影响的气象因子。另外值得注意的是,在应用随机森林算法对森林火灾进行预测时,无法给出具体的模型表达式,因此无法简单地根据公式进行预测,但仍可根据实测数据对研究区域火险等级或林火发生概率进行预测和划分。

本文气象因子分析结果表明日最高气温、日均气温、日最小相对湿度、细小可燃物湿度码和干旱码是影响林火发生的主要气象因子。相对湿度是衡量林内可燃物含水率的一个重要指标,对林火发生有重要的影响(毛光伶,1988),而气温的高低直接影响了相对湿度的变化,减少可燃物的含水率,从而降低可燃物着火点,与林火发生的关系亦极为密切。日最高气温、日均气温和日最小相对湿度被证实对塔河地区林火发生具有显著影响,这与Chang等(2013)Guo等(2015)的研究结果一致。此外,研究显示细小可燃物湿度码也与塔河地区林火发生具有显著相关性,这与田晓瑞等(2010)的研究结果一致。

本文只是基于气象因子对林火发生进行分析,未在模型变量中考虑林型、人为活动、社会经济等其他因素,因此可能会在森林火灾预测预报中产生一定误差,以后研究中应进一步分析这些因素对林火发生的影响。目前,已有研究将地理空间位置考虑到二项逻辑斯蒂回归模型和随机森林算法中(Stum et al., 2010Saefuddin et al., 2012Rodrigues et al., 2014b),而本研究在林火发生的影响因素分析中没有引入空间信息,今后可考虑引入空间变量,建立空间区域模型,以提高模型的预测精度。另外,随机森林算法的第3次试验所得的特征变量明显多于其他4次试验所得的结果,这可能与样本的随机选取有关。

参考文献(References)
[1] 邓欧,李亦秋,冯仲科,等. 2012.基于空间Logistic的黑龙江省林火风险模型与火险区划.农业工程学报,28 (8):200-205.
(Deng O, Li Y Q, Feng Z K, et al. 2012. Model and zoning of forest fire risk in Heilongjiang Province based on spatial Logistic. Transactions of the Chinese Society of Agricultural Engineering, 28(8):200-205.[in Chinese])(1)
[2] 邸雪颖,李永福,孙建,等. 2011.黑龙江省大兴安岭地区塔河县森林火险天气指标动态.应用生态学报,22(5):1240-1246.
(Di X Y, Li Y F, Sun J, et al. 2011. Dynamics of forest fire weather indices in Tahe County of Great Xing'an Mountains region, Heilongjiang Province. Chinese Journal of Applied Ecology, 22(5):1240-1246.[in Chinese])(1)
[3] 杜春英,李帅,刘丹,等. 2010.大兴安岭地区森林雷击火发生的时空分布.自然灾害学报,19 (3):72-76.
(Du C Y, Li S, Liu D, et al. 2010. Spatiotemporal distribution of lightning-caused forest fires in Daxing'anling area. Journal of Natural Disasters, 19(3):72-76.[in Chinese])(2)
[4] 胡海清. 2005. 林火生态与管理. 北京:中国林业出版社.
(Hu H Q.2005. Forest ecology and management. Beijing:China Forestry Publishing House.[in Chinese])(1)
[5] 巩亚楠,帕提麦·马秉成,朱登浩,等. 2014. 随机森林与Logistic回归在预约挂号失约影响因素预测中的应用. 现代预防医学,41(5):769-772.
(Gong Y N, PaTimai Ma B C, Zhu D H, et al. 2014. Application of random forests and logistic regression in prediction of influencing factors of missed appointment registration. Modern Preventive Medicine, 41(5):769-772.[in Chinese])(1)
[6] 郭福涛,苏漳文,马祥庆,等. 2015. 大兴安岭塔河地区雷击火发生驱动因子综合分析. 生态学报,35 (19):6439-6488.
(Guo F T, Su Z W, Ma X Q, et al. 2015. Comprehensive analysis of driving factors for lightning-caused fire in Tahe, Daxing'an Mountain. Acta Ecologica Sinica, 35(19):6439-6488.[in Chinese])(3)
[7] 郭福涛,胡海清,马志海,等. 2010. 不同模型对拟合大兴安岭林火发生与气象因素关系的适用性. 应用生态学报,21(1):159-164.
(Guo F T, Hu H Q, Ma Z H, et al. 2010. Applicability of different models in simulating the relationships between forest fire occurrence and weather factors in Daxing'an Mountains. Chinese Journal of Applied Ecology, 21(1):159-164.[in Chinese])(2)
[8] 李欣海. 2013. 随机森林模型在分类与回归分析中的应用. 应用昆虫学报,(4):1190-1197.
(Li X H. 2013. Using "random forest" for classification and regression. Chinese Journal of Applied Entomology, 50(4):1190-1197.[in Chinese])(1)
[9] 柳生吉,杨健. 2013. 基于广义线性模型和最大熵模型的黑龙江省林火空间分布模拟. 生态学杂志, 32 (6):1620-1628.
(Liu S J, Yang J. 2013. Modeling spatial patterns of forest fire in Heilongjiang Province using generalized linear model and maximum entropy model. Chinese Journal of Ecology, 32(6):1620-1628.[in Chinese])(1)
[10] 毛光伶.1988. 林火与气象条件相互关系及其预报. 气象, 14(9):52-54.
(Mao G L. 1988. The relationship between forest fire and weather conditions and forecasts. Atmosphere, 14(9):52-54.[in Chinese])(1)
[11] 彭国兰. 2007. 随机森林在企业信用评估中的应用. 厦门:厦门大学硕士学位论文.
(Peng G L. 2007. Application of Random Forests to Enterprises Credit Assessment. Xiamen:MS thesis of Xiamen University.[in Chinese])(2)
[12] 彭欢,史明昌,孙瑜, 等. 2014. 基于Logistic的大兴安岭雷击火预测模型. 东北林业大学学报,42 (7):166-169.
(Peng H, Shi M C, Sun Y, et al. 2014. Lightning fire forecasting model of Daxing'an Mountain based on Logistic model. Journal of Northeast Forestry University, 42(7):166-169.[in Chinese])(1)
[13] 孙瑜,史明昌,彭欢,等. 2014. 基于MAXENT模型的黑龙江大兴安岭森林雷击火火险预测. 应用生态学报,25(4):1100-1106.
(Sun Y, Shi M C, Peng H, et al. 2014. Forest lighting fire forecasting for Daxing'anling Mountains based on MAXENT model. Chinese Journal of Applied Ecology, 25 (4):1100-1106.[in Chinese])(1)
[14] 田晓瑞,McRae D J,金继忠,等. 2010.大兴安岭地区森林火险变化及FWI适用性评估.林业科学,46 (5):127-132.
(Tian X R, McRae D J, Jin J Z, et al. 2010. Changes of forest fire danger and the evaluation of the FWI system application in the Daxing'anling region. Scientia Silvae Sinicae,46 (5):127-132.[in Chinese])(2)
[15] 王明玉,舒立福,田晓瑞,等. 2003.林火在空间上的波动性及其对全球变化的响应(Ⅱ).火灾科学,12 (3):171-176.
(Wang M Y, Shu L F, Tian X R, et al. 2003. Spatial fluctuation of forest fires and their response to global change. Fire Safety Science, 12 (3):171-176.[in Chinese])(1)
[16] 武晓岩,李康. 2006. 基因表达数据判别分析的随机森林方法. 中国卫生统计,23(6):491-494.
(Wu X Y, Li K. 2006. The application of random forests for the classification of gene expression data. Chinese Journal of Health Statistics, 23(6):491-494.[in Chinese])(1)
[17] 武晓岩,闫晓光,李康. 2007. 基因表达数据的随机森林逐步判别分析方法. 中国卫生统计,24(2):151-154.
(Wu X Y, Yan X G, Li K. 2007. The stepwise discriminant analysis of random forests used in gene expression data. Chinese Journal of Health Statistics, 24(2):151-154.[in Chinese])(1)
[18] 杨沐晞. 2012. 基于随机森林模型的二手房价格评估研究. 长沙:中南大学硕士学位论文.
(Yang M X. 2012. The price evaluation research of second-hand house based on the random forest model. Changsha:MS thesis of Central South University.[in Chinese])(1)
[19] 姚登举,杨静,詹晓娟. 2014. 基于随机森林的特征选择算法. 吉林大学学报:工学版,44(1):137-141.
(Yao D J, Yang J, Zhan X J. 2014. Feature selection algorithm based on random forest. Journal of Jilin University:Engineering and Technology Edition, 44(1):137-141.[in Chinese])(1)
[20] 张雷,王琳琳,张旭东,等. 2014. 随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例. 生态学报,34(3):650-659.
(Zhang L, Wang L L, Zhang X D, et al. 2014. The basic principle of random forest and its applications in ecology:a case study of Pinus yunnanensis. Acta Ecologica Sinica, 34(3):650-659.[in Chinese])(3)
[21] 张巍. 2009.森林定位观测与森林火险预警建设——大兴安岭国家森林生态观测站为例. 内蒙古农业大学学报,30 (1):127-131.
(Zhang W. 2009. The relationship between forest fire danger forecast and local forest observation case on Daxing'anling Mountain of Inner Mongolia local observation station. Journal of Inner Mongolia Agricultural University,30 (1):127-131.[in Chinese])(1)
[22] 赵凤君,王明玉,舒立福,等. 2009. 气候变化对林火动态的影响研究进展. 气候变化研究进展,5 (1):50-55.
(Zhao F J, Wang M Y, Shu L F, et al. 2009. Progress in studies on influences of climate change on forest fire regime.Advances in Climate Change Research, 5 (1):50-55.[in Chinese])(1)
[23] 朱沛林,史明昌,Mike Wotton,等. 2014. 黑龙江大兴安岭雷击火概率预测模型研究. 中南林业科技大学学报,34 (8):82-85.
(Zhu P L, Shi M C, Wotton M, et al. 2014. A preliminary study on lightning-caused fire probability prediction model for Daxing'anling forest region. Journal of Central South University of Forestry & Technology,34 (8):82-85.[in Chinese])(1)
[24] Chuvieco E,Giglio L, Justice C. 2008. Global characterization of fire activity:towards defining fire regimes from earth observation data. Global Change Biology, 14(7):1488-1502.(1)
[25] Chas-Amil M L,Prestemon J P, McClean C J,et al. 2015. Human-ignited wildfire patterns and responses to policy shifts. Applied Geography, 56:164-176.(1)
[26] Chang Y,Zhu Z L, Bu R C,et al. 2013. Predicting fire occurrence patterns with logistic regression in Heilongjiang Province,China. Landscape Ecology,28(10):1989-2004.(2)
[27] Cutler D R,Edwards T J,Beard K H,et al. 2007. Random forests for classification in ecology. Ecology,88(11):2783-2792.(2)
[28] Girardin M P,Ali A A,Carcaillet C,et al. 2013. Fire in managed forests of eastern Canada:Risks and options. Forest Ecology and Management, 258(3):238-249.(1)
[29] Genuer R,Poggi J,Tuleau-Malot C. 2010. Variable selection using random forests. Pattern Recognition Letters, 31(14):2225-2236.(1)
[30] Guo F T, Innes J L, Wang G Y, et al. 2015. Historic distribution and driving factors of human-caused fires in the Chinese boreal forest between 1972 and 2005. Journal of Plant Ecology,8(5):480-490.(1)
[31] Liaw A,Wiener M. 2002. Classification and regression by random forest. R news, (2):18-22.(1)
[32] NIFC(Naitional Interagency Fire Center). 2004. Urban-wild-land and wildland fire statistics. National Interagency Fire Center,Boise,Idaho,USA.(1)
[33] Oliveira S,Oehler F,San-Miguel-Ayanz J,et al. 2012. Modeling spatial patterns of fire occurrence in Mediterranean Europe using Multiple Regression and Random Forest. Forest Ecology and Management, 275(4):117-129.(2)
[34] Prasad A M,Iverson L R,Liaw A. 2006. Newer classification and regression tree techniques:Bagging and random forests for ecological prediction. Ecosystems,9(2):181-199.(1)
[35] Rodrigues M,de la Riva J. 2014a. An insight into machine-learning algorithms to model human-caused wildfire occurrence. Environmental Modelling & Software,57:192-201.(2)
[36] Rodrigues M,de la Riva J, Fotheringham S. 2014b. Modeling the spatial variation of the explanatory factors of human-caused wildfires in Spain using geographically weighted logistic regression. Applied Geography, 48:52-63.(1)
[37] Saefuddin A,Setiabudi N A,Fitrianto A. 2012. On comparison between logistic regression and geographically weighted logistic regression:with application to Indonesian poverty data. World Applied Sciences Journal, 19(2):205-210.(1)
[38] Stum A K,Boettinger J L, White M A, et al. 2010. Random forests applied as a soil spatial predictive model in Arid Utah//Digital Soil Mapping.Progress in Soil Science Vol 2.Springer Netherlands,179-190.(1)
[39] Zhong M H,Fan W C,Liu T M,et al. 2003. Statistical analysis on current status of China forest fire safety. Fire Safety Journal, 38:257-269.(1)