文章信息
- 黄玉霞, 许东蓓, 蒲肃.
- Huang Yuxia, Xu Dongbei, Pu Su.
- SVM方法在森林火险预测中的应用
- Application of SVM Method on the Prediction of Forest Fire Danger
- 林业科学, 2007, 43(10): 77-82.
- Scientia Silvae Sinicae, 2007, 43(10): 77-82.
-
文章历史
- 收稿日期:2006-07-10
-
作者相关文章
森林火灾不仅造成森林资源锐减、环境恶化、土地沙化,而且还导致自然灾害频繁发生,经济损失巨大。森林火灾发生是森林可燃物类型、火源及火环境条件相互联系、共同作用的结果(舒立福等,2003)。在一定地区和时间范围内,森林可燃物类型及火源条件相对稳定而火环境中的气象条件变化较大,因此在某种程度上,气象条件是决定森林火灾发生与否的重要因素。多年的研究和实践表明:大面积、高强度的森林大火通常是在气候异常或特殊的天气系统造成高温、低湿伴有大风的天气情况下发生的,应在加强气象中、长期趋势预报和引发危险天气的中、短期预报的基础上,做好森林火险预测、预报。目前国内森林火险预测、预报方法多以统计分析为主(赵凤君等,2007;王述洋,2002;易浩若等,2004),然而传统的统计方法只有在样本数量趋于无穷大时才能有理论上的保证,而在实际应用中样本数目通常都是有限的,甚至是小样本,对此基于大数定律的传统统计方法难以取得理想的效果。Vapnik(1998;2000)提出的统计学习理论是一种专门的小样本理论,这一方法数学推导严密,理论基础坚实。基于这一理论近年提出的支持向量机(support vector machine, SVM)方法,为解决基于数据的非线性建模问题提供了一个新思路。
本文试图将SVM方法用于森林火险预测模型的建立中,并与传统的逐步回归方法进行对比,以期得到更好的森林火险预测模型。
1 资料与方法 1.1 资料 1.1.1 火灾资料甘肃省林业厅防火办提供的1988—2003年白龙江、洮河、小陇山、子午岭、太子山、大夏河、岷江、康南、关山、祁连山和马衔山等11大林区逐日森林火灾资料。
1.1.2 卫星遥感资料中国气象局卫星气象中心提供的1990年1月—2001年9月逐旬NOAA卫星AVHRR资料,格距为0.072°×0.072°。
1.1.3 气象要素资料甘肃省气象局提供的1988—2003年甘肃省11大林区及其周边共47个气象站逐日平均气温、最高气温、最低气温、气压、风速、相对湿度、蒸发量、降水量等资料。
1.2 方法 1.2.1 归一化差分植被指数(normalized difference vegetation index,NDVI)NOAA气象卫星的AVHRR辐射计共有5个遥感通道,本文采用通道1(0.58~0.68 μm)与通道2(0.725~1.1 μm)探测到的地物白天对太阳辐射中可见光和近红外光的反射率CH1和CH2的组合,得到归一化差分植被指数(NDVI),其计算公式为
式中:CH1和CH2分别表示经订正处理后AVHRR通道1和2的反射率。
1.2.2 归一化处理为了有效避免各因子之间的量级差异,消除各个因子由于量纲和单位不同的影响,对样本进行归一化处理
式中:
本文使用国家气候中心气候影响评价业务化的干旱指数,具体算法如下:
单站干旱指数Ik=Z-α×(T-T)/σT, 式中:Ik为第k个站的干旱指数,Z为某时段标准化降水指数,T为某时段气温,σT气温标准差,α为气温权重系数,取0.2。
区域干旱指数
SVM方法的基本思想是:定义最优线性超平面,并把寻找最优线性超平面的算法归结为求解一个凸规划问题,进而基于Mercer核展开定理(Courant et al., 1953),通过非线性映射φ,将样本空间映射到一个高维乃至于无穷维的特征空间(Hilbert空间),使在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。简单地说就是升维和线性化。
根据相关的理论和算法(陈永义等,2004),最后在特征空间中得到的SVM线性分类函数为
上式中sgn()为符号函数,当自变量非负时取值+1,当自变量为负时取值-1。yi∈{-1, 1},L为支持向量个数,αi*、b*确定最优划分超平面的参数;(x·xi)为2个向量的点积,K(x, xi)为Mercer核函数。
与线性相比,非线性计算中只是用Mercer核函数代替了点积的计算,在整个求解过程中不需要知道非线性映射的显式表达式,因此与线性方法相比几乎不增加多少计算量,但特征空间的线性划分却对应于原来样本空间的高度非线性划分。
2 甘肃省森林火灾分布特征及森林火险综合指数 2.1 甘肃省森林火灾分布特征甘肃省自然条件严酷、生态环境脆弱、森林资源相对贫乏,主要集中在白龙江、洮河、小陇山、子午岭、太子山、大夏河、岷江、康南、关山、祁连山和马衔山等11个林区。1988—20 03年甘肃省共发生森林火灾237次,年平均14.8次。森林火灾平均开始于10月27日,结束于5月13日,平均森林火险季节长度为199 d,与甘肃省森林防火期(11月1日至次年5月31日)基本一致。1988—2003年,最长森林火险季节长度为289 d,出现在1998年;最短森林火险季节长度仅52 d,出现在1993年。
2.2 植被指数与森林火灾的相关性植被指数是遥感领域中用来表征地表植被覆盖和生长状况的一个简单、有效的度量参数(罗亚等,2005)。研究表明(徐希孺,1981):归一化差分植被指数(NDVI)消除了部分太阳高度角、卫星扫描角以及大气层辐射的影响,适于做植被监测,并能部分补偿照时条件、地面坡度所引起的影响,因而是世界上监测植被类型差异、生长状态、生态背景的重要指数。由图 1可知,甘肃省植被在7—9月生长最为旺盛,11大林区NDVI平均值大于0.4;10—12月ND Ⅵ缓慢下滑,但仍大于0.35,说明甘肃省森林植被在这个季节生长有所减缓但仍较旺盛,12月—翌年2月森林生长逐渐停止,NDVI由0.36迅速下滑至0.26;此后至3月,森林生长基本处于停滞阶段,NDVI维持在0.26附近,此时树枝含水量也处于最低值;4月以后,随着天气转暖,森林开始恢复生长,NDVI逐渐增大,到8月达到1年中的最大值。与森林火灾的变化趋势对比可知,森林植被含水率最低的3月也是森林火灾最为高发的时期,而植被生长最旺盛、树枝含水量最丰富的7、8月则无一例火灾发生。对甘肃省森林火灾发生频率与NDVI进行相关分析表明:火灾发生次数与NDVI呈显著负相关,即当植被指数较低时,森林火灾发生率较高,其中,火灾发生次数与同期NDVI的相关系数为-0.71,与前1月NDVI的相关系数为- 0.69,均可通过0.01的置信度检验,因此,可以将卫星遥感植被指数用于森林火险预测(许东蓓等,2007)。
长期以来,在森林火险预测模型的建立中,预报量的确定是一个难点。由于火灾的发生多由人为因素引起,因此单纯利用火灾实况资料与气象要素建立预测模型显然不可取。研究发现,植被的干燥程度和空气湿润度在很大程度上决定火灾是否发生,而遥感监测到的植被指数能很好地反映植被的地表覆盖及叶片含水率,且从上述分析中可知甘肃省11大林区的植被指数与火灾的发生存在显著的相关性,因此本文考虑用林区植被指数与空气相对湿度相结合的火险综合指数来反映森林点燃的难易程度,该指数既考虑了植物的含水状况,又考虑了空气的干燥程度,具体计算如下
式中:FI为火险综合指数,NDVI为归一化差分植被指数,U为归一化空气相对湿度。FI越大表明植被的地表覆盖、叶片含水率及空气相对湿度越大,因此火灾发生的概率就越小,反之则火灾发生概率越大。对甘肃省森林火险综合指数与火灾的相关性进行分析可知,二者相关系数为-0.67,可通过0.01的信度检验,这说明火险综合指数能很好地反映火灾的发生,因此用其建立火险预报预测模型是可行的。
普查各林区的火险综合指数分布情况,按照正态分布将火险综合指数按表 1所示等级划分。
对各林区逐旬森林火险综合指数与各种地面气象要素进行相关性分析,结果表明:火险综合指数与平均气温、相对湿度、最高气温、最低气温、降水量以及蒸发量有很好的正相关,相关系数一般在0.25以上,可通过0.01的置信度检验,这表明在气温高、湿度大、降水多的季节火灾发生率较低,而在空气干燥、降水稀少的季节火灾发生率较高。此外,火险综合指数与气压、风速也具有一定的相关性。甘肃省位于干旱、半干旱气候区,干旱是甘肃省最主要的气候特征之一,因此在森林火险预测模型的建立中考虑加入干旱指数。对甘肃省森林火险综合指数与干旱指数的相关性分析表明,两者呈正相关,且基本能通过0.01的显著性检验。
3.2 甘肃省森林火险SVM预测模型的建立挑选分布于甘肃省东、南、西、北方向的关山、白龙江、洮河、祁连山4个林区进行SVM方法试验。各林区选取1990—2000年396旬资料建立预测模型,2001年36旬资料进行预报检验。甘肃省森林火险季节始于10月27日,结束于翌年5月13日,因此分防火期(11 — 5月)和非防火期(6—10月)分别建立预测模型。预报因子为平均气温、降水量、相对湿度、最高温度、最低温度、风速、蒸发量、气压、干旱指数。
用SVM分类方法建模时首先根据森林火险综合指数对林区火险进行1~5级划分,然后针对每个级别进行2类分类,当某旬出现该级别时赋值1,其他级别赋值为-1,如此对关山、白龙江、洮河、祁连山等4个林区的1~5个级别分别运用SVM分类方法,得到5个级别的分类预测模型,而预报预测时则用5个模型分别进行运算,取5个结果中最大值所对应的级别即为最终预测级别。
用SVM回归方法建模时所选的预报因子同SVM分类方法,不同的是待预报因子不是等级,而是森林火险综合指数。
核函数均选用径向基函数(满足Mercer定理条件,又称高斯核),径向基函数形式为
在SVM分类预报中,基于高斯核通过训练学习后求得的决策函数形式为
在SVM回归预报中的最终决策函数形式为
式中:L为支持向量数,xi为支持向量的样本因子向量,x为待预报因子向量,αi、αi*、b为建立SVM模型待确定的系数,r为核参数。
采用中国气象局培训中心提供的CMSVM2.0应用软件分别建立各林区的SVM分类和回归预测模型。建模时对样本中的因子进行了归一化处理。
通过训练建立的SVM预报模型格式如下:
svmC Version V2.00
2 #核函数类型t;最优模型中核函数参数C为0.9;参数C的循环范围为0~0.9;循环次数为10;步长为0.1
1 #最优模型中核函数参数d
0.0989 #最优模型中核函数参数g:g为0.098 9,g的循环范围为0.000 1 ~0.1,循环次数为1 000,步长为0.000 1
1 #最优模型中核函数参数s
1 #最优模型中核函数参数r
1 #最优模型中核函数参数u
9 #训练样本空间的最高维数;产生最优模型时的参数w为0.1;w的循环范围为0.1~0.1,循环次数为1,步长为0
230 #训练样本的个数
92 #支持向量的个数
-0.567 636 79 # threshold b,以下每行代表一个支持向量[每行第1个实数代表α ·sign(y)]
-0.899 999 999 999 999 91 1:0.543 169 98 2:0.053 11 3:0.559 490 03 4:0.667 720 02 5:0.470 59 6:0.282 35 7:0.219 35 8:0.203 61 9:0.546
-0.899 999 999 999 999 91 1:0.338 13 2:0.039 450 001 3:0.331 189 99 4:0.534 810 01 5:0.529 41 6:0.141 179 99 7:0.490 32 8:0.329 890 01 9:0.533 999 98
-0.899 999 999 999 999 91 1:0.719 420 02 2:0.019 73 3:0.842 440 01 4:0.658 230 01 5:0.941 179 99 6:0.694 119 99 7:0.264 519 99 8 :0.074 160 002 9:0.214
……
前面文字部分为建立SVM模型时对应的参数及其说明,后面数字部分为构成SVM模型的支持向量。在实时使用时,就是将支持向量和对应的参数及实时样本代入最终的决策函数计算出实际预报值。由此可以看出,此处的预报结果是对支持向量进行“加权”获得,而不是像常规统计方法那样对因子进行加权。当预报因子与预报对象间蕴涵的复杂非线性关系尚不清楚时,基于支持向量的方法可能优于基于因子的加权。
将1990—2001年逐旬气象资料分别带入上述模型,得到预测结果,其中1990—2000年为模型回代结果,2001年为模型预测结果,与各林区森林火险综合指数等级进行对比,得到火险等级准确率(表 3)。此外还运用传统的逐步回归方法建立预报方程,与SVM预测模型进行对比,所用预报因子及森林火险综合指数等级划分均与SVM方法中一致。可以看出,SVM分类模型除洮河林区在防火期的预测效果和祁连山林区在非防火期的回代效果略逊于逐步回归方法外,其余各林区在防火期和非防火期的回代、预测效果均好于逐步回归方法;而SVM回归模型预测准确率与逐步回归方法相差无几。
甘肃省自然条件严酷,生态环境脆弱,森林资源相对贫乏,森林火灾主要集中在由冬向春过渡的2—4月,火险季节平均始于10月27日,结束于5月13日,火险季节长度为199 d。甘肃省森林火灾发生频率与植被指数呈显著负相关,由植被指数和空气湿度构造的森林火险综合指数既考虑了植被的含水状况,又考虑了空气的干燥程度,将其作为因变量用于森林火险预报预测是一种客观可行的方法。将平均气温、降水量、相对湿度、最高温度、最低温度、风速、蒸发量、气压、干旱指数等作为预报因子建立的SVM预测模型,可以对森林火险进行较准确的预测,与传统的统计方法相比,SVM分类模型预测效果明显优于逐步回归方法,而SVM回归模型则与逐步回归方法预测效果相差无几。
SVM方法通过核函数实现从样本空间到高维特征空间的非线性映射,以隐式方式间接的表述了预报对象与预报因子之间的高度非线性关系,最终通过支持向量机来刻划因子与对象之间的非线性依赖关系,从而解决本质上的非线性问题,是一种在学习样本数有限的情况下处理高度非线性问题的新的机器学习方法。与传统的神经网络学习方法相比,SVM方法以最小结构风险代替了传统的经验风险,求解的是1个2次型寻优问题。从理论上说,得到的将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题,比BP神经网络方法具有更好的泛化能力和更高的计算效率。此外,本文仅采用了径向基函数作为核函数进行试验,实际上核函数的不同选择对SVM模型的建立有直接影响,因而选择其他类型核函数进行比较的研究还有待进行,同时预报因子的选取对预报效果也有一定的影响,也有待于进一步探索。
陈永义, 余小鼎, 高学浩, 等. 2004. 处理非线性分类和回归问题的一种新方法(Ⅰ)——支持向量机方法简介. 应用气象学报, 15(3): 345-354. DOI:10.3969/j.issn.1001-7313.2004.03.011 |
冯汉中, 杨淑群, 刘波. 2005. 支持向量机(SVM)方法在气象预报中的个例试验. 四川气象, 25(2): 9-12. DOI:10.3969/j.issn.1674-2184.2005.02.004 |
罗亚, 徐建华, 岳文泽. 2005. 基于遥感影像的植被指数研究方法述评. 生态科学, 24(1): 75-79. DOI:10.3969/j.issn.1008-8873.2005.01.021 |
舒立福, 张小罗, 戴兴安, 等. 2003. 林火研究综述(Ⅱ)——林火预测预报. 世界林业研究, 16(4): 34-37. DOI:10.3969/j.issn.1001-4241.2003.04.007 |
王述洋. 2002. 森林火灾重灾年现象与海温异常变化关系研究. 林业科学, 38(3): 120-123. DOI:10.3321/j.issn:1001-7488.2002.03.021 |
许东蓓, 梁芸, 蒲肃, 等. 2007. EOS/MODIS遥感监测在甘肃迭部重大森林火灾中的应用. 林业科学, 43(2): 124-126. |
徐希孺. 1981. 环境监测与作物估产的遥感研究论文集. 北京: 北京大学出版社.
|
易浩若, 纪平, 覃先林. 2004. 全国森林火险预报系统的研究与运行. 林业科学, 40(3): 203-207. DOI:10.3321/j.issn:1001-7488.2004.03.036 |
赵凤君, 舒立福, 田晓瑞, 等. 2007. 森林火险中长期预测预报研究进展. 世界林业研究, 20(2): 55-59. DOI:10.3969/j.issn.1001-4241.2007.02.010 |
Courant R, Hilbert D. 1953. Method of Mathematical Physics: Volume Ⅰ. Springer Verlag.
|
Vapnik V N. 1998. Statistical Learning Theory. New York: John Wiley & Sons, Inc.
|
Vapnik V N. 2000. The Nature of Statistical Learning Theory. New York: Springer Verlag.
|