林业科学  2012, Vol. 48 Issue (9): 108-114   PDF    
0

文章信息

王强, 胡海清
Wang Qiang, Hu Haiqing
基于岭回归和人工神经网络估测森林可燃物负荷量
Estimation of Forest Fuel Load Based with Ridge Regression and Artificial Neural Networks
林业科学, 2012, 48(9): 108-114.
Scientia Silvae Sinicae, 2012, 48(9): 108-114.

文章历史

收稿日期:2011-07-31
修回日期:2012-02-23

作者相关文章

王强
胡海清

基于岭回归和人工神经网络估测森林可燃物负荷量
王强1, 胡海清2    
1. 东北林业大学高等教育研究所 哈尔滨 150040;
2. 东北林业大学林学院 哈尔滨 150040
摘要: 选取东北林业大学帽儿山实验林场为研究区域, 以少量野外定位调查数据及与其对应的遥感和GIS信息为基础, 利用岭回归和人工神经网络分析方法, 对森林可燃物负荷量估测模型及其影响因子进行系统研究。结果表明:对于TM3、TM(4 × 3)/7、TM4/3、海拔等10个影响可燃物负荷量估测的主要因子, 利用岭回归方法可以克服变量间由于存在复共线性关系对求解待定参数所造成的不利影响。建立以像元为单位的岭回归和岭回归与神经网络组合估测模型, 模型平均绝对百分比误差分别为17.6%和11.7%, 2种方法可用于实现特定林场尺度森林可燃物负荷量的定量估测, 其中组合模型效果较好。
关键词:可燃物负荷量    遥感    岭回归分析    GIS    人工神经网络    
Estimation of Forest Fuel Load Based with Ridge Regression and Artificial Neural Networks
Wang Qiang1, Hu Haiqing2    
1. Institute of Higher Education, Northeast Forestry University Harbin 150040;
2. College of Forestry, Northeast Forestry University Harbin 150040
Abstract: Based on data of a field positioning survey and the corresponding remote sensing and GIS, the forest fuel load and the influence factors were researched by using ridge trace analysis and artificial neural networks in Maoershan experimental forest station of Northeast Forestry University.Ridge regression method can overcome the negative impact imposed the undetermined parameters there exist in the multicollinearity relationship solution between variables which include ten main influence factors, i.e., TM3, TM (4 × 3)/7, TM4/3 and altitude.A model was established for estimating forest fuel load with the unit of pixel, and Ridge Regression and Artificial Neural Networks MAPE.The deviation of estimation by the two models was 17.6% and 11.7%.The result indicated that the quantitative estimation of forest fuel load for regional forests could be achieved.
Key words: fuel load    remote sensing    GIS    ridge trace analysis    artificial neural network    

森林可燃物是森林燃烧的物质基础, 是林火行为的主体。开展森林可燃物负荷量研究, 是现代林火管理中最重要的基础工作, 其研究结果可广泛应用于地表可燃物管理、森林火险预报、林火发生预报和林火行为预报等研究。近年来, 学者们对可燃物负荷量估测开展了广泛的研究, 如建立基于林分年龄、郁闭度、平均树高、胸径等林分特征因子的可燃物负荷量估测模型(邸雪颖等, 1994; 刘晓东等, 1995; Shan et al., 2002; 胡海清等, 2005; 胡海清, 2005), 这些模型大都取得了较好的拟合效果, 证明利用林分特征因子估测可燃物负荷量是可行的。随着遥感和地理信息技术的不断发展, 学者们开始尝试基于遥感数据对可燃物负荷量进行估测, 先后走过了从直接分配法到间接分配法(Van Wagtendonk, 1999; Miller et al., 2003)、从单纯植被特征法(Osward et al., 1999)到综合因子约束法(Scott et al., 2002)、从简单关系法到林分模型法(Keane et al., 1998a; 1998b; 2000; 2001; Brandis et al., 2003)的发展历程, 取得了一系列的成果。但目前这些方法也存在着明显的不足, 最突出的是整体准确率不高, 林下可燃物区分能力差(金森, 2006)。虽然利用遥感图像估测可燃物负荷量是当前经济技术条件下较先进的方法, 但遥感自身的特点决定单一遥感数据不能完全反映森林可燃物复杂的空间差异, 不能精确地预测所有条件下的可燃物负荷量。

虽然目前利用遥感估测可燃物负荷量存在一定不足, 但在特定地区、特定条件下, 利用遥感数据估测地表可燃物负荷量还是可行的。已有学者对利用林分年龄、郁闭度、平均胸径等林分因子建立地表可燃物负荷量模型进行了大量研究, 同时对利用遥感数据估测蓄积量、郁闭度等林分因子的研究(赵宪文, 2001)也已经开展多年, 能否将这2种方法结合, 针对林场尺度内可燃物类型变化不大的特点, 以少量外业调查数据及与其对应的遥感和GIS信息为基础, 利用岭回归及人工神经网络分析方法建立地表可燃物负荷量估测模型, 并通过选用合适的模型减少因使用模型而产生的误差, 将是本文的主要研究内容。

1 研究区与数据 1.1 研究区概况

研究区设立在东北林业大学帽儿山实验林场, 林场位于127°30'—127°34'E和45°20'—45°25'N之间, 林场总面积26 507 hm2, 平均海拔300 m, 坡度10 ~ 15°。属温带季风气候, 年平均降雨量724 mm, 年蒸发量1 094 mm, 年平均湿度为70%, 年日照时数为2 471.3 h, 无霜期为120 ~ 140天。

本区植被属典型长白植物区系, 主要乔木树种为白桦(Betula platyphylla)、蒙古栎(Quercus mongolica)、山杨(Populus davidiana)、紫椴(Tilia amurense)、水曲柳(Fraxinus mandshurica)、胡桃楸(Juglans mandshurica)、长白落叶松(Larix olgensis)和红松(Pinus koraiensis)等。灌木树种为茶藨子(Ribes acuminatum)、金银忍冬(Lonicera maackii)、山丁子(Malus baccata)和东北山梅花(Philadelphus schrenkii)等。本区土壤主要为暗棕壤, 在常年积水或有季节性积水的地方有草甸化、白浆化、潜育化的暗棕壤。

1.2 数据获取与数据处理 1.2.1 外业调查及室内试验

在研究区内选择代表性林型利用机械布点法设置20 m × 20 m试验样地, 共计78块。采用常规调查方法进行坡度、坡向、郁闭度、胸径、树高、年龄等林分、立地因子的测定; 收集研究区内的帽儿山林场179块森林清查样地的数据。

在每块样地内随机设置5块2 m × 2 m样方。测量每个样方内地表可燃物质量, 同时全部收集取样带回实验室测定含水率。把取回样品放入烘箱内, 在105 ℃下连续烘干24 h至绝干质量, 通过计算得出不同样方地表可燃物的含水率, 再根据样方内可燃物含水率及可燃物重量计算样方内可燃物负荷量, 计算出每块样地可燃物的负荷量(t·hm-2)。

1.2.2 数据预处理与获取

遥感数据选用Landsat-7 ETM +数据, 利用帽儿山矢量数据对数据进行剪裁, 并通过双线性内插法对TM图像进行精几何校正, 得到经线方向误差0.265 0像素, 纬线方向误差0.299 2像素, 总误差0.399 7像素的帽儿山地区TM图像, 见图 1

图 1 帽儿山林场TM图像 Fig.1 TM data of Maoershan

利用设置样地坐标, 提取校正后图像数据文件中与坐标对应的灰度值。设校正后遥感图像起始像元的地理坐标为(x0, y0), 样地信息的地理坐标为(x1, y1), 满足ABS (x1-x0) ≤15和ABS (y1-y0) ≤ 15, 通过编程读取各固定样地对应像元的灰度值。同时读取(x0-30, y0), (x0 + 30, y0), (x0, y0 + 30), (x0, y0-30) 4个位置灰度值, 求与(x0, y0)的灰度值平均值。

利用已获得的帽儿山实验林场DEM数据, 结合野外调查设立的样地坐标, 获得样地对应像元的坡度、坡向、海拔等GIS信息。

2 研究方法

为了提高估测模型的精度, 且去除最小二乘估计法不能克服的复共线性关系, 本文选用岭回归和人工神经网络方法建立可燃物负荷量估测模型, 主要做法是分别建立岭回归模型和岭回归与人工神经网络组合模型估测地表可燃物负荷量, 将2种模型估测结果精度进行对比, 寻求建立一种有效且精度较高的地表可燃物负荷量估测模型。

2.1 模型变量的设置

综合学者们相关研究(赵宪文等, 2001; 王强, 2005), 选取遥感和GIS信息设置为自变量, 共20个。其中地理地形数据6项, 分别为纵坐标(y)、横坐标(x)、坡度(sd, slope degree)、坡向(aspect)、海拔(altitude)、郁闭度(cd, canopy density); TM数据各波段灰度值6项, 分别为TM1, TM2, TM3, TM4, TM5, TM7;波段灰度值比值8项, 分别为TM4/3, TM7/3, TM3/Σ, TM(4 × 3)/7, TM(4 × 5)/7, TM(4-3)/(4 + 3), TM(4 + 5-2)/(4 + 5 + 2)和TM(5 + 7-2)/(5 + 7 + 2)。因变量为样地地表可燃物负荷量的实测值。

2.2 岭回归模型的建立

根据已确定的对森林可燃物负荷量估测起主要作用的变量及样地对应的主要因子的值, 组成观测阵X, 为便于进行区域性估测, 在建立实际估测方程时, 参选因子未进行中心标准化, 建立可燃物负荷量与影响因子间岭回归估测模型为:

(1)

式中, Y是样地的实测可燃物负荷量组成的观测向量; X为影响因子观测阵, γ(k)为岭回归系数, e为样地可燃物负荷量观测误差。

根据岭回归原理可确定主要影响因子的岭回归值求解方程为:

(2)

式中, 岭参数k的作用是为了改善方阵XTX的特征根接近于0的程度, 使所求参数尽可能达到最优。将该式中γ的各分量作为k的函数, 当k在[0, + ∞]变化时, 在平面直角坐标系所绘出的图形称为岭迹。岭迹图可直观反映各自变量对可燃物负荷量估测的作用、相互关系, 借助岭迹图确定岭参数k, 并根据自变量筛选原则(赵宪文, 2001; 王强, 2005), 来选择影响可燃物负荷量估测的主要遥感和GIS信息。根据所绘岭迹图求解(2)式, 可得估测因子的系数, 进而得到可燃物负荷量岭回归估测模型。

本文确定的岭迹分析筛选自变量原则为:去掉岭回归系数比较稳定且绝对值比较小的自变量; 去掉岭回归系数不稳定但随岭参数k的增加迅速趋于0的自变量; 根据方阵XTX的特征根, 借助接近于0的特征根, 去掉一个或多个具有不稳定岭回归系数的自变量。

2.3 人工神经网络模型的建立

本研究选用Moller发现的SCG算法构建人工神经网络模型, 这样可以避免耗时的现行搜索, 实现在共轭梯度方向上的搜索比急度梯度下降更快的收敛。调用MATLAB6.5提供的神经网络工具箱的trainscg函数进行设计, 构建的人工神经网络模型结构包含输入层、输出层和隐含层。各层输出值计算如下:

输入层输出值:a1 =f1(IW1, 1p+b1);

隐层输出值:a2 =f2(IW2, 2a1+b2), a3=f3(IW3, 2a2 + b3);

输出层输出值:a3 =f3{LW3, 2f2[LW2, 1 f1(IW1, 1p+ b1) + b2] + b3} = y

由于现有研究还无法从理论上对中间神经元的数目、学习率等参数确定, 故采用经过多次拟合的方法得到相对较好的参数。为防止训练中出现过度拟合现象, 研究中设置Msereg作为执行函数, 保证模型具有较小的权重和偏移避免过度拟合; 同时为了防止总误差未达到预定目标, 但继续训练就会产生过度拟合的情况, 设置min_grad参数为5E-007, 保证自动完成训练的情况下实现提前模型结束。Msereg函数为:

(3)

式中, 为执行速率。

在构建人工神经网络模型过程中输入变量的设置为2种:设置全部20个自变量和岭回归筛选出的变量。通过大量拟合选择模型拟合效果较好的变量设置方式。

2.4 模型精度评价

对于模型精度的评价运用误差平均值(AE)、平均绝对百分比误差(MAPE)方法, 其公式为:

(4)
(5)
2.5 帽儿山林场地表可燃物负荷量估算

选取获得的最优估测方法对帽儿山林场设置的样地建立可燃物负荷量估测模型, 获取样地代表的像元可燃物负荷量估测值, 利用克里金插值法得到最优无偏估计量, 并绘制帽儿山地区可燃物负荷量分布图。

3 结果与分析 3.1 岭回归模型估测结果

在试验样地中抽出100个样地进行建模, 并将每一样地可容纳物负荷量对应的20个变量组成观测阵X, 经中心标准化后, 由观测阵X计算方阵XTX, 由方阵XTX计算20个因子的特征根及各特征根对应的特征向量, 从中分析可能存在的复共线性, 其中各参选因子的特征根如表 1所示。由表 1可见:有多个特征根接近于0, 说明在20个影响因子间存在多个复共线性关系, 需要删除这些因子, 才能消除共线性关系关系。为了确定删除的自变量, 利用DPS统计软件进行岭迹分析。

表 1 方阵的特征根 Tab.1 Latent roots matrix XTX

由所绘岭迹图(图 2)可以看出:在岭参数k = 0.045时, 参选因子的岭迹图基本稳定。根据变量选择的第一条原则, 变量TM1、TM(4 × 5)/7等有较稳定且绝对值比较小的岭回归系数, 这些变量应该去掉; 根据第二条原则, 变量TM(4 + 5-2)/(4 + 5 + 2)等岭回归系数很不稳定, 且随着k的增加很快趋于零, 这些变量也应该去掉; 同样变量纵坐标、横坐标的岭回归系数较稳定且绝对值很小, 应去掉。于是最后选择海拔、坡向、TM3、TM4、TM5、TM7、TM4/3、TM7/3、TM(4-3)/(4 + 3)和TM(4 × 3)/7等10个变量为影响森林可燃物负荷量估测的主要因子。

图 2 参选因子岭迹 Fig.2 Ridge map of RS and GIS factors

对筛选出的10个自变量, 利用DPS软件做估测样本总体观测阵主成分分析, 得到的前4个主成分在10个变量上的系数见表 2。由协差阵的特征根计算表明:前4个主分量的贡献率累计达到90%以上。这说明选用变量可以很好的表现森林可燃物负荷量的变化, 同时也说明岭迹分析选出的自变量比较准确。依据岭回归原理利用公式1, 2进行计算, 确定影响因子的岭回归值求解方程, 可得10个估测因子的待定系数, 进而得到可燃物负荷量岭估测模型为:

(6)
表 2 主成分分析结果 Tab.2 Analysis of components

式(6)中, Y为可燃物负荷量(t·hm-2)。用未参加建模的78个样地数据对岭估测模型进行检验, 依据公式(4), (5)检验模型精度, 可燃物负荷量估测值的误差平均值为0.024 4, 平均绝对百分比误差为17.6%, 可燃物负荷量预测值与实测值散点图见图 3

图 3 可燃物负荷量岭回归模型预测值与实测值 Fig.3 Scatter diagram of estimated fuel load and observed fuel load by Ridge estimation
3.2 人工神经网络模型估测结果

分别以设置的20个自变量和岭回归选取的10个自变量作为输入层建立人工神经网络估测模型, 经过反复试验多次训练得到以下结论:

为满足精度要求, 利用trainscg函数训练网络必须使用3层网络, 其中前两层网络的神经元转换函数使用“tansig”时效果较好, 而第3层网络神经元转换函数则应使用“purelin”。而且当网络模型前两层神经元个数分别在50左右时, 就可以有效地预报可燃物负荷量, 人工神经网络模型结构见图 4。试验中由于网络初始化确定权值和阈值具有一定的随机性, 会出现同一网络相同输入样本进行任意多次训练, 每次训练结束后的网络权值和阈值可能会有一定的偏差的情况, 而且用其预报相同样地的可燃物负荷量, 预测结果也会有一定的偏差, 这种偏差不大可忽略。

图 4 神经网络模型 Fig.4 Model of Neural Networks

经过多次网络拟合试验后发现:选取依据岭回归筛选出影响可燃物负荷量估测的10个因子作为训练网络的输入变量时, 网络的收敛速度、稳定性及预报精度都较20个因子全部作为网络的输入变量效果要好, 所以选定可燃物负荷量的人工神经网络估测模型的输入变量为海拔、坡向、TM3、TM4、TM5、TM7、TM7/3、TM4/3、TM(4-3)/(4 + 3)和TM(4 × 3)/7等10个因子。

用未参加建模的78个样地信息通过公式(4), (5)检验训练好的人工神经网络精度, SCG人工神经网络模型估测可燃物负荷量的误差平均值为0.020 8, 平均绝对百分比误差为11.7%, 可燃物负荷量预测值与实测值见图 5

图 5 可燃物负荷量神经网络模型预测值与实测值 Fig.5 Scatter diagram of estimated fuel load and observed fuel load by Neural Networks
3.3 模型估测结果分析

通过岭迹分析, 可以定量、直观显示影响可燃物负荷量估测的遥感、GIS等因子的贡献大小及彼此间的相互关系。试验表明利用遥感和GIS信息估测可燃物负荷量, 都起到非常重要的作用。但要减少可燃物负荷量估测模型的误差, 必须通过遥感和GIS信息二者有效结合。

利用上述遥感、GIS数据构建可燃物负荷量估测模型, 输出变量为可燃物负荷量, 输入变量为海拔、坡向、TM3、TM4、TM5、TM7、TM7/3、TM(4-3)/ (4 + 3)、TM(4 × 3)/7和TM4/3。在对78个样地估测对比中, 岭回归-SCG人工神经网络组合模型估测的平均绝对百分比误差为11.7%, 岭回归模型的平均绝对百分比误差为17.6%。

由于本文样地数据均来自帽儿山林场, 林场区域内植被类型变化不大, 所以在岭回归变量确定中, 纵、横坐标均被剔除。假若试验区域范围较大, 植被类型多样, 作为植被类型直接体现的坐标数据可能会在模型中起较大作用。另外TM4/3作为自变量出现, 也证明其作为绿色植物的灵敏指示参数, 与LAI、叶干生物量、叶绿素含量相关性高; TM (4 - 3)/(4 + 3)在估测模型中起到重要作用, 能反映出植物冠层的背景影响与植被覆盖有关的特点一致。

利用岭回归模型和岭回归-SCG人工神经网络组合模型估测可燃物负荷量, 基本能满足林场可燃物管理、森林防火工作的需要。其中岭回归- SCG人工神经网络组合模型, 既能够解决最小二乘估计方法可能存在的复共线性, 剔除所设置的20个变量中作用较小的变量, 相比岭回归模型又能取得较高的精度。

本研究的误差主要来自样地误差和时间误差, 由于所设样地面积小于TM图像像素, 而卫星照片校正的误差为0.399 7个像素, 可能会发生样地位置偏移。本文采用了提取样地所在像素及周围的四个像素取平均值的补救方法, 这样会使样地数据距离实际值的波动减小, 但也会带来相应的误差; 时间误差体现在使用的TM图像与样地数据的时间相隔2年, 其间在样地所在林地可能实施森林经营措施如间伐、抚育等人为活动会造成样地数据与遥感信息不匹配, 这也可能对模型的误差产生相当的影响。

图 6 帽儿山地区森林可燃物负荷量估算 Fig.6 Diagram of estimated Maoershan fuel load by Neural Networks
3.4 帽儿山地区森林可燃物估算

利用所建立的岭回归-SCG人工神经网络组合模型对帽儿山林场设立的257个样地进行森林可燃物负荷量估测, 并对负荷量估测数值进行克里金插值, 做出帽儿山林场的可燃物负荷量分布图(图 6), 完成对帽儿山林场森林地表可燃物负荷量的初步估算。

4 讨论

本文设置样地不多, 导致构建模型时显得样本数不够多, 如建立大样本估测模型能较准确地估算出可燃物负荷量, 今后还将继续累积这方面数据。另外在研究地表可燃物的同时, 还应大力开展研究时滞可燃物与林分因子等变量之间的关系, 在模型因子引入上应该考虑细分因子的影响, 对各因子之间的交互作用也应进行研究。由于林分郁闭度大于0.8时, 林下植被的有效辐射将有大部被林冠散射和反射, 所以今后应研究不同郁闭度下可燃物负荷量的估测模型, 对郁闭度与可燃物负荷量的关系也应进行细致研究。

参考文献(References)
[] 胡海清. 2005. 利用林分特征因子预测森林地被可燃物载量的研究. 林业科学, 41(5): 96–100. DOI:10.11707/j.1001-7488.20050516
[] 胡海清, 王强. 2005. 利用林分因子估测森林地表可燃物负荷量. 东北林业大学学报, 33(6): 17–18.
[] 刘晓东, 王军, 张东升, 等. 1995. 大兴安岭地区兴安落叶松林可燃物模型的研究. 森林防火(3): 8–9.
[] 金森. 2006. 遥感估测森林可燃物载量的研究进展. 林业科学, 42(12): 63–67. DOI:10.3321/j.issn:1001-7488.2006.12.011
[] 赵宪文. 2001. 森林火灾预报的新视角. 中国工程科学, 12(5): 66–71.
[] 王强, 金森. 2008. 利用RS和林分因子估测帽儿山林场森林可燃物负荷量. 东北林业大学学报(9): 35–39.
[] Brandis K, Jacobson C. 2003. Estimation of vegetative fuel load using landsat TM imagery in new South-Wales, Australia. International Journal of Wildland Fire, 12(2): 185–194. DOI:10.1071/WF03032
[] Keane R E, Brugan R, Van Wagtendonk J. 2001. Mapping wildland fuels for fire management across multiple scales:integrating remote sensing, GIS, and biophysical modeling. International Journal of Wildland Fire, 10: 301–319. DOI:10.1071/WF01028
[] Keane R E, Mincemoyer S A, Schmidt K M, et al.2000.Mapping vegetation and fules for fire management on the Gila National Forest Complex, NewMexico.USDA Forest Service, RMRS-GTR-46, 127.
[] Keane R E, Garner J L, Schmidt K M, et al.1998a.Development of the input data layers for the FARSITE fire growth model for the Selway_Bitterroot Wilderness Complex, USA.USDA Forest Service General Technical Report RMRSGTR-3, 121.
[] Keane R E, Long D G, Schmidt K M, et al. 1998b. Mapping fuels for spatial fire simulations using remote sensing and biophysical modeling.Proceedings of the Seventh Forest Service Remote Sensing Applications Conference. Nassau Bay, Texas, 6-10 April: 301–316.
[] Miller J D, Danzer S R, Watts J M, et al. 2003. Cluster analysis ofstructural stage classes to map wildland fuels in a Madrean ecosystem. Journal of Environmental Management, 68: 239–252.
[] Oswald B P, Fancher J T, Kulhavy D L, et al. 1999. Classifying fules with aerial photography in east Texas. International Journal of Wildland Fire, 9(2): 109–113. DOI:10.1071/WF00002
[] Scott K, Oswald B, Farrish K, et al. 2002. Fuel lodading prediction models developed from aerial photographs of the Sangre de Cristo and Jemes mountains of NewMexico, USA. International Journal of Wildland Fire, 11(1): 85–90. DOI:10.1071/WF01044
[] Shan Yanlong, Hu Haiqing, Liu Baodong, et al. 2002. Division of forest fuel type areas of Heilongjiang Province by using GIS. Journal of Forestry Research, 13(1): 61. DOI:10.1007/BF02857148
[] Van Wagtendonk J W.1999.Use of thematic mapper imagery to map fuel models.Proceedings of the 13th Conference on fire and forest meteorology.Lorne, Australia. https://www.firescience.gov/projects/05-4-1-07/project/2006_Lentile_et_al.pdf