林业科学  2012, Vol. 48 Issue (5): 126-129   PDF    
0

文章信息

孙龙, 尚喆超, 胡海清
Sun Long, Shang Zhechao, Hu Haiqing
Poisson回归模型和负二项回归模型在林火预测领域的应用*
Application of a Poisson Regression Model and a Negative Binomial Regression Model in the Forest Fire Forecasting
林业科学, 2012, 48(5): 126-129.
Scientia Silvae Sinicae, 2012, 48(5): 126-129.

文章历史

收稿日期:2010-09-27
修回日期:2011-05-13

作者相关文章

孙龙
尚喆超
胡海清

Poisson回归模型和负二项回归模型在林火预测领域的应用*
孙龙, 尚喆超, 胡海清    
东北林业大学林学院 哈尔滨 150040
摘要: 应用Poisson回收模型和负二项回归模型进行林火预测预报,研究模型的使用条件和检验方法,以大兴安岭地区1980—2005年该地区林火发生数据为基础,并运用AIC检验方法对模型的拟合水平进行检验,探讨这2种模型对林火发生的预测能力, 为在我国林业领域的应用提供必要的理论依据和数据支持。
关键词:林火    Poisson回归模型    负二项回归模型    气象因子    
Application of a Poisson Regression Model and a Negative Binomial Regression Model in the Forest Fire Forecasting
Sun Long, Shang Zhechao, Hu Haiqing    
School of Forestry, Northeast Forestry University Harbin 150040
Abstract: A Poisson regression model and a negative binomial regression model (NB model) are often used in areas such as medicine and economy, but rarely in the domestic forestry sector, especially in the forest fire forecasting. Based on data of forest fire occurrences in Daxing'anling region in 1980—2005, this paper profoundly analyzes the application conditions and test methods of the two models. The AIC method was used to check the fitting level of the models and the capability of the models for forecasting forest fires was discussed. This study provided necessary theoretical basis and data support for the application of the two models in the field of forestry in China.
Key words: forest fire    Poisson model    negative binomial model    weather factor    

在日常分析中,分析自变量与因变量关系时常常使用多元线性回归分析。多元线性回归分析的优点在于可以定量分析一个因变量与多个自变量之间的线性关系,采用最小二乘法估计所有自变量来解释因变量的变化情况,同时可以在控制其他自变量的情况下分析某个自变量对因变量的单独效应(陈峰, 2007)。但多元线性回归的应用有其自身的局限性,首先,回归分析要求因变量是连续性变量;其次回归模型要求因变量必须要服从正态和方差齐性(张家放, 2002)。这种局限性并不适用于单位时间或空间内罕见事件发生次数的一类数据,因为这些数据的结构大多呈现离散型分布。由于离散的数据往往不按照正态分布的基本假设,这就需要考虑其他的分析方法,特别是在离散程度较高的情况下(例如大量的分数或零计数)(Byers et al., 2003)。对于离散型数据曾有人为了能够满足正态分布的假设条件,将数据转化为满足假设的数据形式,但是这种方法有内在的弊端(Berry, 1987)。Chang等(2000)的研究表明当因变量分布不能转化为近似于一种普遍定义上的分布(如正态分布,对数正态分布)时,不宜使用最小二乘法进行计算。

Poisson分布和负二项分布均为离散型分布。Poisson分布常用于描述单位时间、单位平面或单位空间中罕见质点总数的随机分布规律。Poisson回归用于描述当观察结果变量服从Poisson分布时的资料,但其应用条件为事件的发生是独立的。然而很多事件的发生是非独立的,例如医学中的传染性疾病(韩新焕, 2009)。此类资料可利用负二项回归(negative binomial regression,NBREG)进行分析。负二项分布实际上是当Poisson分布中强度参数λ服从Γ分布时的复合分布,其改进了Poisson分布中等概率的条件,而其他条件相同(陈峰等, 1995)。成功地应用Poisson回归模型和负二项分布模型的研究主要集中在交通事故(Hiselius et al., 2004马明等, 2010;Lena et al., 2004)、医疗卫生(于浩等, 1996楚慧珠等, 2008Pawita et al., 2004)和物种分布(Pradhan et al., 2006张志杰等, 2008)等领域。

在森林火灾预测方面,由于受到环境和气象等因素的影响,森林火灾的发生时间主要集中在几个月份,发生次数有着明显的离散特性。国外利用负二项回归模型和Poisson回归模型对林火发生的模拟开始于20世纪60年代(Crosby, 1954),Cunningham等(1973)提出在一个地区内的人为火灾发生次数的概率分布情况近似于Poisson分布,且分布的期望值是根据火灾危险等级系统所提供的每日气象观测值来确定。在此之前,Snedecor等(1967)也曾提出由于Poisson回归模型自身的唯一参数和其自身的可加性,以每日为计算单位来模拟人为火的发生更为合理。Dayananda(1977)使用Poisson模型将火灾发生次数与火灾危险指数联系到一起。Todd等(1992)也曾使用Poisson模型预测雷击火的发生;Mandallaz等(1997)将火灾发生次数与干旱指数和气象因子之间建立关系。进入21世纪后,利用Poisson回归模型的研究主要集中在指定区域内每日、每周、每火警数目的预测和空间区域范围的预测预报(Martell, 2007)。Wotton等(2005)将Poisson模型应用到Ontario地区的雷击火预测上。Jesper等(2006)利用Ramachandran(1980)和Rutstein(1979)所提出的火点燃模型结合Poisson回归模型估计火灾发生的概率及导致火灾发生的其他因素。对于过度离散的数据,由于零点数据出现的次数过多,很多学者认为在Poisson回归模型中不能够更好的拟合,而采用负二项回归模型可以提高模型对数据的拟合精度(Gurmu et al., 1996)。在Louisiana和Missouri地区,Bruce(1963)发现林火的日发生情况呈现负二项分布,其概率分布的参数基于火险等级。Symington(1980)在安大略省帕里桑德,利用负二项式分布拟合的火灾发生的历史数据要比Poisson更为精确。Quintanilha等(2006)采用负二项回归模型研究了引发火险最为相关的因素。在国内对于模型模拟林火发生的报道比较少(缪柏其等, 2008),而对大兴安岭地区林火预测的研究更为少见(郭福涛等, 2010a2010b)。

本文应用负二项和Poisson回归模型对1980—2005年大兴安岭地区火灾发生与相对应气象因子数据进行模拟计算,比较2个模型的准确度和误差,为模型选择提供理论依据。

1 研究地区与研究方法 1.1 研究区概况

研究区位于黑龙江省大兴安岭林区(50°10′—53°33′N, 121°12′—127°00′E),年降水量350~500 mm,降水集中于7—8月。相对湿度70%~75%,积雪期长达5个月,林内雪深30~50 cm。土壤以棕色针叶林土和暗棕壤为主。大兴安岭林区属寒带针叶林区,森林类型主要以落叶松(Larix gmelinii)林、蒙古栎(Quercus mongolica)为主。该区处于高纬度地区,为我国森林火灾高发区,年平均森林过火面积居全国之首,是我国森林火灾危害最严重的地区。雷击火发生次数占林火发生次数的1/3。

1.2 数据来源

由大兴安岭加格达奇防火办公室提供1980—2005年大兴安岭地区林火发生情况的数据(起火地理坐标、发生时间和过火面积等)。气象数据来自漠河、塔河、呼玛和加格达奇4个气象站。气象数据主要包括月平均风速、月平均降水量、月平均温度、月相对湿度和月平均蒸发量。本次共统计730个样本,随机选取其中的584个样本用于建模,另外146个样本数据作为预测检验。

1.3 研究方法 1.3.1 Poisson模型的数学原理(郭福涛等, 2010a)。

Poisson分布的概率密度方程为:

式中:λ为随机变量y的均值,随机变量只呈现从0到无穷大的整数变化。当y=0时,表示当月没有林火发生的概率即绝对不发生林火的概率;当y=1时,P(y=1)=λe-λ,表示当月有1次林火发生的概率;当y=k时,表示当月有k次林火发生的概率。若y≥1,P(y≥1)=1-e-λ,表示当月发生1次以上林火的概率;若yk表示当月发生k次以上林火的概率。Poisson回归模型的基本形式为:

式中:x1x2,…,xp为解释变量。将上式线性化后的回归方成为:

1.3.2 负二项回归模型的数学原理(Simonoff, 2003)

负二项分布亦称为“帕斯卡(Pascal)分布”,它有2个基本模型:

1) 设p为伯努利试验中每次试验成功的概率,则伯努利试验列中恰好出现n次成功所需试验次数Y服从参数为(n, p)的负二项分布。均值方差

2) 设p为伯努利试验中每次试验成功的概率,则伯努利试验列中恰好出现n次成功之前失败的次数X服从参数为(np)的负二项分布。均值方差q=1-p,则此分布的概率是pn(1-q)-n的幂级数展开式,因而被称为负二项分布。负二项分布基本的特性是其方差大于均值。负二项回归模型的表达式与Poisson模型相似:

μ是自变量的指数函数,负二项方差为μ+2其中K=0为离散参数。应用最大似然方法估计离散参数和回归方程log(μ)中的相关参数(Cameron et al., 1998)。

1.3.3 数据处理方法

采用SAS 9.1统计软件进行模型的拟合计算。

2 结果与分析 2.1 Poisson回归模型的拟合结果分析

为了得到大兴安岭地区林火发生Poisson回归模型,将气象数据带入Poisson模型进行检验得出平均风速不显著。将其剔除进行二次拟合,其中平均降水、月均温度和蒸发量气象因子均在0.001水平上显著(P < 0.001),相对湿度较显著(P < 0.05)。根据表 1参数估计结果,得到如下回归方程:

表 1 Poisson回归模型参数检验 Tab.1 Parameter estimates of Poisson model
2.2 负二项回归模型(NB)模拟结果分析

为了计算大兴安岭地区林火发生负二项回归模型,将变量带入NB模型中进行检验,平均风速、蒸发量和相对湿度的P值分别为0.801 2, 0.079 7和0.066 2。相对湿度的显著水平相对较高,其余2个气象因子的变量显著水平均较高。本文只选择月平均降水(MMP)、月均温度(MMT)和相对湿度(MMRH)3个变量进行模型的再次模拟,其结果显示3个气象因子在0.001水平上显著(P < 0.001),见表 2。根据参数估计值得到以下回归方程:

表 2 负二项回归模型参数检验 Tab.2 Parameter estimates of negative binomial model
2.3 模型预测效果的对比

Poisson模型和负二项回归模型对研究数据的拟合情况采用AIC(akaike information criterion)值对比法。其中s为模型中随机变量选取的总数,s=5。AIC值越小表示模型拟合程度越好(Akaike,1974),经计算Poisson模型的AIC值为520.488 1,NB模型的AIC值为440.107 5,因此NB模型拟合度高于Poisson模型的拟合。从总样本中随机抽取20%的样本作为验证样本数据,对146个样本进行模型拟合,计算得出Poisson和NB模型的预估值。通过比较后发现,Poisson和NB模型的差别不是十分明显,进一步数量化比较模型预估水平,计算Poisson和NB模型的均方误差(mean square error),分别为0.718和0.556。因此,用Poisson和NB模型拟合林火发生与气象因子关系,负二项回归模型的拟合程度要更好一些。

3 结论与讨论

Poisson和负二项回归模型均能较好地模拟大兴安地区林火发生与气象因子的关系,拟合方程分别为:

E(Y)=exp (-1.915 5-0.011 5 MMP+0.143 4 MMT-0.026 0 MMRH+0.009 4 MME)和E(Y)=exp(2.737 9-0.010 1 MMP+0.224 6 MMT-0.090 9 MMRH),从公式中可以看出Poisson模型和NB模型模拟的林火发生与月平均降水(MMP)和月平均相对湿度(MMRH)成负相关。月平均降水和月平均相对湿度直接影响到森林可燃物的含水率,而可然物含水量的高低决定着植被的理化性质(如燃点、阴燃时间等)。平均降水量多或平均相对湿度大必然会降低林火发生的可能。林火发生次数与月均温度成正相关表明月平均温度越高,林火灾发生可能性就越大。选择模拟林火发生的模型主要考虑模型中各变量显著水平的高低和AIC值的大小,如果同时满足以上2个条件,则认为含有较少变量的模型为拟合程度较好的模型。

在模拟林火发生时,并非在任何地区NB模型都要比Poisson模型优越。Gurmu等(1996)指出当样本中含有很多的“0”时,Poisson模型的模拟更能提高数据的拟合的精度。本文采用NB和Poisson回归模型计算的结果只适用于该研究区域的林火发生情况,并不一定适合其他地区。其他模型模拟林火的发生是否更为贴切,在模型中加入影响林火发生的非气象因素能否使林火预测更为完善,仍需进一步研究。

参考文献(References)
[] 陈峰. 2007. 医用多元统计分析方法. 2版. 北京, 中国统计出版社.
[] 陈峰, 杨树勤. 1995. 论负二项分布的应用条件. 中国卫生统计, 12(4): 21–22.
[] 楚慧珠, 郜艳晖, 邹宇华, 等. 2008. 负二项回归和Poisson回归在改水降氟效果中的对比分析. 数理医药学杂志, 21(6): 655–657.
[] 郭福涛, 胡海清, 马志海, 等. 2010a. 不同模型对拟合大兴安岭林火发生与气象因素关系的适用性. 应用生态学报, 21(1): 159–164.
[] 郭福涛, 胡海清, 金森, 等. 2010b. 基于负二项和零膨胀负二项回归模型的大兴安岭地区雷击火雨气象因素的关系. 植物生态学报, 34(5): 571–577.
[] 韩新焕. 2009. 负二项分布的性质特征在流行病学研究中的应用. 数理医药学杂志, 22(2): 138–140.
[] 马明, 严新平, 吴超仲, 等. 2010. 信号交叉口交通事故频次显著影响因素的作用. 吉林大学学报:工学版, 40(2): 417–422.
[] 缪柏其, 韦剑, 宋卫国, 等. 2008. 林火数据的Logistic和零膨胀Poisson(ZIP)回归模型. 火灾科学, 17(7): 143–149.
[] 于浩, 石卫. 1996. Poisson回归模型的应用. 江苏预防医学(3): 15–16.
[] 张家放. 2002. 医用多元统计方法. 武昌, 华中科技大学出版社.
[] 张志杰, 彭文祥, OngS, 等. 2008. 广义负二项分布对钉螺分布的拟合. 中国卫生统计, 225(1): 2–6.
[] Akaike H. 1974. A new look at the statistical model identification. IEEE Transaction on Automatic Control, 19(6): 716–723. DOI:10.1109/TAC.1974.1100705
[] Berry D. 1987. Logarithmic transformations in ANOVA. Biometrics, 43(2): 439–456. DOI:10.2307/2531826
[] Bruce D. 1963. How many fires?. Fire Control Notes, 24(2): 45–50.
[] Byers A L, Allore H, Gill T M, et al. 2003. Application of negative binomial modeling for discrete outcomes a case study in aging research. Journal of Clinical Epidemiology, 56(6): 559–564. DOI:10.1016/S0895-4356(03)00028-3
[] Cameron A C, Trivedi P K.1998. Regression Analysis of Count Data. Cambridge University Press.
[] Chang B H, Pocock S. 2000. Analysis data with clumping at zero:an example demonstration. Biometrics, 53(10): 1036–1043.
[] Crosby J S. 1954. Probability of fire occurrence can be predicted。Northern Ozark Forest Research Centre. USDA Forest Service, Central States Forest Experiment Station, Technical Paper, 143: 14–15.
[] Cunningham A A, Martell D L. 1973. A stochastic model for the occurrence of man-caused forest fires. Canadian Journal of Forestry Research(3): 282–287.
[] Dayananda P W A. 1977. Stochastic models for forest fires. Ecology, 3(4): 309–313.
[] Gurmu S, Trivedi P K. 1996. Excess zeros in count models for recreational trips. Journal of Business and Economic Statistics, 14(4): 469–477.
[] Hiselius L W. 2004. Estimating the relationship between accident frequency and homogeneous and inhomogeneous traffic flows. Accident Analysis and Prevention, 36(6): 985–992. DOI:10.1016/j.aap.2003.11.002
[] Jesper R, Igor R. 2006. A note on estimation of intensities of fire ignitions with incomplete data. Fire Safety Journal, 41(5): 399–405. DOI:10.1016/j.firesaf.2006.02.006
[] Mandallza D, Ye R. 1997. Prediction of forest fire with Poisson models. Canadian Journal of Forest Research, 27(10): 1685–1694. DOI:10.1139/x97-103
[] Martell D L. 2007. Folestfire manag ement current practice and new challenges for operatonal reseancher//Andrew W, Carlos R J B. Handbook of Operations Research in Natural Resources. Toronto, Springer: 489–509.
[] Pawita Y, Griffin J M, Collins J D, et al. 2004. Analysis and prediction of the BSE incidence in Ireland. Preventive Veterinary Medicine, 62(4): 267–283. DOI:10.1016/j.prevetmed.2003.12.001
[] Pradhan N C, Leung PingSun. 2006. A Poisson poisson and NBR negative binomial regression model of sea turtle interactions in Hawaii's longline fishery. Fisheries Research, 78: 309–322. DOI:10.1016/j.fishres.2005.12.013
[] Quintanilha J A, Ho L L. 2006. Analyzing wildfire threat counts using a negative binomial regression model. Environmentrics, 17(6): 529–538. DOI:10.1002/(ISSN)1099-095X
[] Ramachandran G. 1979. Statistical Methods in risk evaluation. Fire Safe Journal, 2(2): 125–145.
[] Rutstein R. 1979. The estimation of fire hazard in different occupancies. Fire Survey Journal, 8: 21–25.
[] Schneider R J, Ryznar R M, Khattqk A J, et al. An accident waiting to happen:a spatial approach to proactive pedestrian planning. Accident Analysis and Prevention, 36: 193–211. DOI:10.1016/S0001-4575(02)00149-5
[] Simonoff J S. 2003. Analysis Categorical Data. New York, Springer.
[] Snedecor G W, Cochran W G. 1967. Statistical methods. Ames, The Iowa State University Press.
[] Symington P J.1980. A probabilistic model for predicting man-caused fire occurrence in Parry Sound, Ontario. B.Sc. F. thesis, University of Toronto.
[] Todd J B, Kourtz P H. 1992.Predicting the daily occurrence of people-caused forest fires. Canadian Forest Service, Information Report PI-X-103.
[] Wotton B M, Martell D L. 2005. A lightning fire occurrence model for Ontario. Canadian Journal of Forest Research, 35(6): 1389–1401. DOI:10.1139/x05-071