基于红边参数与PCA的GA-BP神经网络估算叶绿素含量模型<sup>*</sup>

文章信息

李永亮, 张怀清, 林辉

Li Yongliang, Zhang Huaiqing, Lin Hui

基于红边参数与PCA的GA-BP神经网络估算叶绿素含量模型^*

GA-BP Neural Network Estimation Models of Chlorophyll Content Based on Red Edge Parameters and PCA

林业科学, 2012, 48(9): 22-29.

Scientia Silvae Sinicae, 2012, 48(9): 22-29.

文章历史

收稿日期：2011-09-22

修回日期：2012-07-25

作者相关文章

李永亮

张怀清

林辉

引用本文

李永亮, 张怀清, 林辉. 2012. 基于红边参数与PCA的GA-BP神经网络估算叶绿素含量模型^*. 林业科学, 48(9): 22-29. 复制到剪切板

Li Yongliang, Zhang Huaiqing, Lin Hui. 2012. GA-BP Neural Network Estimation Models of Chlorophyll Content Based on Red Edge Parameters and PCA. Scientia Silvae Sinicae, 48(9): 22-29. 复制到剪切板

基于红边参数与PCA的GA-BP神经网络估算叶绿素含量模型^*

李永亮¹, 张怀清¹, 林辉²

1. 中国林业科学研究院资源信息研究所北京 100091;
2. 中南林业科技大学林业遥感信息工程研究中心长沙 410004

收稿日期：2011-09-22; 修回日期：2012-07-25

基金项目：国家高技术研究发展计划(863计划) (2012AA102001);国家自然科学基金(30871962);高等学校博士学科点专项科研基金(200805380001)

通讯作者：张怀清

摘要： 利用便携式ASD野外光谱辐射仪对杉木冠层叶片光谱进行测定，同时以分光光度法对叶片叶绿素含量进行提取。样本经均值处理、平滑处理和微分处理后，进行红边参数提取。对11个红边参数以PCA方法进行降维，将得到的前7个主成分得分作为网络输入参数，叶绿素含量作为网络输出参数，以遗传算法(GA)优化网络初始权值阈值，建立隐含层神经元数分别为4，6，8，10，12和14的6种单隐层BP神经网络模型。以R²，RMSE和相对误差作为模型精度检验标准，结果表明:6种模型预测精度均可达到92.0%以上，其中隐含层神经元数为10时，预测精度最高，可达97.372%。说明此种模型可对杉木冠层叶片叶绿素含量进行高精度估算。

关键词：红边参数 GA-BP神经网络叶绿素含量模型

GA-BP Neural Network Estimation Models of Chlorophyll Content Based on Red Edge Parameters and PCA

Li Yongliang¹, Zhang Huaiqing¹, Lin Hui²

1. Institute of Resource and Information, Chinese Academy of Forestry Beijing 100091;
2. Research Center of Forestry Remote Sensing & Information Engineering, Central South University of Forestry & Technology Changsha 410004

Abstract: High-precision estimation model of arbor canopy chlorophyll content is important to forestry and ecology. The spectral reflectance of canopy was measured by ASD FieldSpec and the chlorophyll content was measured by spectrophotometry at the same time. The sample data were pretreated by the methods of mean, smoothing and derivative, and then the red edge parameters of samples were extracted from the pretreated spectra data. The eleven red edge parameters were analyzed with principal component analysis (PCA). The anterior 7 principal components computed by PCA were used as the input variables of back-propagation artificial neural network (BP-ANN) which included one hidden layer which had four, six, eight, ten, twelve or fourteen neurons, while the chlorophyll content was used as the output variables of BP-ANN, and then the three layers BP-ANN discrimination model was built. Weight value and threshold value of this model were optimized by using genetic algorithm. The fitness between the predicted value and the measured value was tested by the determination coefficient, the lowest root mean-square error and the average relative error. The results show that the precisions of six models are all above 92. 0% and the precision of the model which had ten hidden layer neurons is 97. 372%. The canopy chlorophyll content of Chinese fir can be accurately estimated by using this model.

Key words: red edge parameters GA-BP neural network chlorophyll content models

高光谱分辨率遥感(Hyperspectral remote sensing)是指利用很多很窄的电磁波波段从感兴趣的物体获取有关数据，它的基础是测谱学(浦瑞良等，2000)。高光谱遥感技术在林业研究中的应用主要有:森林树种识别、生物化学参数提取以及生物物理参数提取。高光谱遥感数据已经成为在地表植被生化组分反演研究中的强有力的工具(童庆禧等，2001)。不同反演方法和反演策略的选择直接影响到生化组分反演结果的成败(沈燕，2006)。目前，采用遥感技术提取植被生化组分方法可以归为:多元统计分析方法、基于光谱位置变量的分析技术以及物理光学模型反演方法。

叶绿素能够间接反映植被的营养状况，准确估算森林叶绿素含量有助于进一步理解和模拟森林生态系统。而大范围获取原始森林地区叶绿素含量困难较大，由此通过遥感手段反演叶绿素含量极具研究价值(李欢，2009)。Thomas等(1977)发现可用植被冠层反射光谱来估算叶片叶绿素含量状况。Horler等(1980)对植被光谱与叶绿素浓度的关系分析认为红边位置在植被叶绿素浓度估计中可起到重要作用。Pinar等(1996)研究发现群体植被光谱的红边位置能够更好地反映草丛叶绿素浓度状况。Jogo等(1999)利用航空高光谱数据和地面光谱数据证实了利用红边特征评估叶片和冠层叶绿素浓度的可行性。Inoue等(2001)研究水稻(Oryza sativa)冠层的高光谱数据与其生态生理状态间的关系，发现可通过建立可见光和近红外区域内高光谱数据的多元回归模型来估算水稻叶片的叶绿素含量。Helmi等(2006)研究发现红边位置与叶绿素含量间有较大关系。Mutanga等(2007)证实红边位置一般与植物冠层水平的叶绿素或氮素含量有较好的相关性。吴长山等(2000)利用植被群体反射光谱及其导数光谱与叶绿素密度间较高的相关性，建立了叶绿素密度估计精度为80. 6%的回归模型。焦全军等(2006)利用高光谱指数用最小二乘(PLS)法对试验区森林叶绿素浓度进行反演。吉海彦等(2007)在400 ~ 750 nm的光谱范围内，用偏最小二乘方法建立了冬小麦(Triticum aestivum)叶绿素含量与反射光谱的定量反演模型，预测值与真实值相关系数高达0. 899。黄春燕等(2009)建立了红边面积和叶绿素密度估算精度均达到83%以上的线性相关模型。杨峰等(2010)确定了用于估算稻麦叶绿素密度的最佳植被指数。李敏夏等(2010)构建苹果(Malus)叶片叶绿素含量敏感波段一阶微分光谱值确定系数达0. 589 9的回归估算模型。研究成果大多建立在多元统计分析方法之上，而且研究对象基本面向农作物，这与乔木树种的生理特征是分不开的。目前，利用杉木(Cunninghamia lanceolata)冠层叶片红边参数，建立基于PCA的GA-BP神经网络估算叶绿素含量模型尚未见报道。本研究将采取这一方法进行尝试，为实现快速无损获取杉木冠层叶片叶绿素含量提供方法参考。

1 材料与方法 1.1 试验点概况

研究区设立湖南攸县黄丰桥国有林场。该林场呈带状横跨于株洲攸县东西部，位于113° 04'— 113°43' E，27°06'—27°04' N之间，属亚热带季风湿润气候区，境内以中低山貌为主，坡度在20° ~ 35°之间，属以保护为主的生态公益型林场，森林覆盖率达90. 07%。

1.2 样本数据采集

试验区选取具有代表性的杉木幼龄、中龄、成熟林作为固定光谱数据采集点，光谱测定周期为1年(2010年1—12月)，测定间隔为1月，并于每月上旬在观测平台进行光谱数据测定。

采用ASD野外光谱辐射仪对杉木冠层叶片光谱进行测定。该光谱仪可以获取350 ~ 2 500 nm波长范围内地物的光谱曲线，光谱分辨率在350 ~ 1 400 nm为3 nm，1 400 ~ 2 500 nm为10 nm。选择天气晴朗无风的10: 00—14: 00之间对样本冠层叶片光谱曲线进行采集，每个样点记录30条光谱数据。

采集仪器视场范围内5 ~ 8个(达到化学试验所需数量)冠层新生营养小枝样本，置于保鲜袋中，并及时在实验室内利用分光光度法对叶绿素含量进行提取。

1.3 数据预处理 1.3.1 均值处理

对每个样点获取的30条数据进行分析，剔除有明显异常的数据，以剩余数据的平均值作为该样点的光谱反射率。

1.3.2 平滑处理

采用5点加权平滑法对经过均值处理的光谱数据进行平滑处理，可消除由仪器引起的随机误差，又可很好地保持原有光谱特性，其算法如下:

式中: n 为过滤窗口中间点的加权均值，m 是平滑前对应波段数据点的值。

1.3.3 微分处理

光谱的一阶微分(差分)可近似表达为(张良培，2005) :

式中: λ_i为每个波段的波长; R'(λ_i)为波长为λ_i的一阶微分光谱; Δλ为λ_i－1到λ_i的间隔。

1.4 红边参数

植被对光谱反射率在680~760 nm区域呈现陡峭的爬行脊，将其称之为红边(red edge)。对红边参数的拟合大多采用微分法、倒高斯模型拟合法、多项式拟合法、拉格朗日内插法或四点线性内插法(胡昊等，2009)。本研究通过计算光谱反射率在680~760 nm之间的光谱一阶微分来计算11个红边参数，这些参数包括: 1)红边位置(λ_red) :光谱反射率一阶微分值在680~760 nm范围内达最大时所对应的波长; 2)红边振幅(dλ_red) :当波长为红边时对应的一阶微分值; 3)红边峰值面积(∑dλ_red) :光谱一阶微分光谱在680~760 nm之间的所包围的面积; 4)红谷位置(L_o) :光谱反射率一阶微分值在640~680 nm范围内达最小时所对应的波长; 5)红谷幅值(R_o) : 640~680 nm范围内，一阶微分的最小值; 6)红谷面积(SRo) :红谷范围内，一阶微分光谱所包围的面积; 7)红边宽度(Lwidth) :红吸收谷深度一半处的宽度; 8)最小振幅(dλ_min) :波长在680~760 nm之间的一阶微分最小值; 9)近红外平台位置(λNIR) :光谱曲线在红边向长波方向过渡的第1个包络线点。光谱反射率的一阶微分值在680~780 nm波长范围内出现第1个低谷时对应的波长; 10)近红外平台振幅(dλ_NIR) :当波长为近红外平台位置时所对应的光谱反射率的一阶微分值; 11)红边幅值各向异性指数(D_max /D_min) :在红边平面内，红边幅值最大值与最小值之比。

1.5 BP神经网络模型

BP神经网络是一种多层前馈型神经网络，体现了神经网络模型中最精华的部分，可以实现从输入到输出的任意非线性映射。由于其权值的调整采用反向传播(back propagation)学习算法，故将其称为BP神经网络。在光谱分析中，BP神经网络是一种重要的模式识别方法，特别适合解决复杂的映射问题(梁亮等，2009)。

1.6 遗传算法(GA)

遗传算法(Genetic Algorithm，简称GA)是一种借鉴生物界自然选择和遗传机制而发展起来的高度并行、自适应全局优化随机搜索方法。遗传算法的基本操作包括:遗传编码方法、适应度函数、遗传操作和运行参数。遗传算法优化BP神经网络初始权值阈值，使优化后的网络具有更优的网络性能，实现更好的预测输出，算法要素包括种群初始化、适应度函数、选择操作、交叉操作和变异操作。

2 过程与结果

本研究以56组数据作为研究样本。从总体56组样本数据中随机抽取40组样本作为建模数据，剩余16组数据作为模型检验数据。

2.1 估算模型建立流程

基于PCA的GA-BP神经网络估算叶绿素含量模型的建立包括: PCA提取11个红边参数主成分、BP神经网络拓扑结构确定、遗传算法优化网络初始权值阈值以及BP神经网络预测4个部分。此算法流程如图 1所示。

图 1 模型建立流程 Fig.1 Creating model flowchart

2.2 主成分分析(PCA)实现

主成分分析可以消除原始变量间的共线性，在有效保留原始数据信息的前提下，对数据进行降维，进而减少输入层神经网络个数，改善网络拓扑结构与预测效果。借助MATLAB R2010软件进行杉木冠层叶片11个红边参数的主成分分析，提取主成分相关指标。zscore函数标准化11个红边参数，princomp函数提取主成分。

各主成分特征值及各自贡献率如表 1所示:前7个互不相关的主成分累计贡献率达到了95%以上，包含了原有参数的绝大部分信息，可替代原有参数建立预测模型。所有样本前7个主成分得分如表 2所示。从样本主成分得分数据中，随机抽取40个数据作为BP神经网络训练数据，其余样本数据作为网络仿真预测数据。

表 1 主成分特征值及各自贡献率 Tab.1 Characteristic values of the principal components and respective contribution

表 2 前7个主成分得分 Tab.2 Scores of the first seven principal components

2.3 GA-BP神经网络模型参数设置

单隐层前向网络能以任意精度逼近任意1个非线性函数，即用仅含1个隐含层的BP神经网络，就能逼近任意的非线性连续系统，本研究即采用3层网络拓扑结构的BP神经网络模型。

隐含层神经元数对BP神经网络的预测精度影响较大，神经元数太多，网络训练时间过长，且容易出现过拟合; 神经元数太少，网络不能很好的学习，训练精度将受到影响。但因网络映射和训练过程存在复杂性和不确定性，隐含层神经元数的确定仍无固定解析式定义，而主要依据对求解问题获得的先验知识。为避免出现过拟合现象，达到最佳训练精度，本研究中将隐含层神经元数分别设定为4，6，8，10，12以及14进行仿真预测。

设定隐含层传递函数为tansig，输出层传递函数为purelin，网络训练函数为基于数值最优化理论中Levenberg-Marquardt (trainlm)，最大训练次数为1 000次，训练要求精度为0. 000 01，学习速率为0. 01，其余参数采用系统默认值。

采用mapminmax函数分别对训练数据进行归一化和对预测数据进行反归一化处理，以取消各维数据数量级间的差别，避免因数量级差别而影响网络性能。

遗传算法实现:种群初始化，采用实数编码方法对每个个体进行编码，遗传算法进化次数设定为15，种群规模设定为15;适应度函数，由个体得到BP神经网络的初始权值和阈值，用训练数据训练BP神经网络后进行预测输出，将预测输出与期望输出之间的误差绝对值和作为个体适应度值; 选择操作，采用轮盘赌法进行选择操作; 交叉操作，采用实数交叉法，交叉概率设定为0. 3;变异操作，变异概率设定为0. 1。

2.4 模型预测结果

隐含层神经元数设定为4，6，8，10，12以及14时，遗传算法优化过程中个体平均适应度与最优个体适应度变化，分别如图 2~7所示。

图 2 隐含层4个神经元时个体平均适应度(a)和最优个体适应度(b)变化 Fig.2 Changes in average fitness of individual (a) and fitness of the best individual (b) with 4 neurons in hidden layers 适应度曲线终止代数= 15 Fitness curve Termination generation = 15下同 The same below

图 3 隐含层6个神经元时个体平均适应度(a)和最优个体适应度(b)变化 Fig.3 Changes in average fitness of individual (a) and fitness of the best individual (b) with 6 neurons in hidden layer

图 4 隐含层8个神经元时个体平均适应度(a)和最优个体适应度(b)变化 Fig.4 Changes in average fitness of individual (a) and fitness of the best individual (b) with 8 neurons in hidden layer

图 5 隐含层10个神经元时个体平均适应度(a)和最优个体适应度(b)变化 Fig.5 Changes in average fitness of individual (a) and fitness of the best individual (b) with 10 neurons in hidden layer

图 6 隐含层12个神经元时个体平均适应度(a)和最优个体适应度(b)变化 Fig.6 Changes in average fitness of individual (a) and n fitness of the best individual (b) with 12 neurons in hidden layer

图 7 隐含层14个神经元时个体平均适应度变化; (b) :最优个体适应度变化 Fig.7 Changes in average fitness of individual (a) and fitness of the best individual (b) with 14 neurons in hidden layer

以上优化过程发现:当隐含层神经元数设定为4，6，8，10，12以及14时，最佳个体适应度均可达到3以下，可对BP神经网络权值阈值进行最优初始化。经初始化后的网络经训练后发现:网络训练结果均达到0. 000 01精度要求，且训练次数较少(最大为8次)，训练时间短，说明基于主成分分析(PCA)与遗传算法(GA)建立的BP神经网络具有较好的网络性能。

2.5 模型预测精度检验

利用16组检验数据对训练得到的6个基于PCA的GA-BP神经网络模型预测精度进行检验，以R²，RMSE和相对误差作为检验标准，检验结果如表 3所示:

表 3 模型精度检验结果比较 Tab.3 Comparison of precision test results of estimation models

以16组实测数据为横坐标，16组网络预测数据为纵坐标建立拟合模型，拟合曲线分别如图 8所示。结合表 3和图 8可知:隐含层神经元数设定为10时，R²达到0. 976，预测平均相对误差为2. 628%，预测精度达到97. 372%，具有相对最优的预测效果; 其余神经元数的预测效果稍有降低，以神经元数设定为4时(R² = 0. 936，平均相对误差为7. 063%，预测精度达到92. 964%)相对预测效果最差。

图 8 叶绿素含量预测值和实测值的比较 Fig.8 Comparison between the predicted value and the measured value of chlorophyll content A: 4个神经元Four neurons; B: 6个神经元Six neurons; C: 8个神经元Eight neurons; D: 10个神经元Ten neurons; E: 12个神经元Twelve neurons; F: 14个神经元Fourteen neurons

3 结论与讨论

1) 本研究建立的基于红边参数的PCA的单隐层不同神经元数GA-BP的网络模型可对叶绿素含量进行高精度的估算，预测精度均可达到92. 0%以上，最高预测精度达到97. 372%。

2) 利用高光谱特征参数估算植被冠层叶绿素含量已开展了大量研究。但研究成果大多面向农作物，以统计分析方法为主，少有报道用于估算森林乔木树种冠层叶片叶绿素含量的神经网络模型。本研究提取杉木冠层叶片红边参数，结合PCA与GA-BP神经网络模型原理，建立可用于估算杉木冠层叶片叶绿素含量的模型，证明此种方法是可行的。此种模型也为实现其他树种冠层叶片叶绿素含量估算提供了科学参考。

3) 高光谱数据为深入进行森林各项研究提供了信息量充足的数据源。利用高光谱数据进行准确的叶绿素含量估测就显得极具价值。成功实现高光谱遥感技术大区域快速、实时、无损色素监测森林叶绿素含量变化，将对模拟、还原、保护森林生态系统提供科学支撑。

参考文献(References)

[]	黄春燕, 王登伟, 张煜星. 2009. 基于棉花红边参数的叶绿素密度及叶面积指数的估算. 农业工程学报, 25(增刊2): 137–141.
[]	胡昊, 白由路, 杨俐苹. 2009. 不同氮营养冬小麦冠层光谱红边特征分析. 植物营养与肥料学报, 15(6): 1317–1323. DOI:10.11674/zwyf.2009.0611
[]	吉海彦, 王鹏新, 严泰来. 2007. 冬小麦活体叶片叶绿素和水分含量与反射光谱的模型建立. 光谱学与光谱分析, 27(3): 514–516.
[]	焦全军, 张霞, 张兵. 2006. 基于叶片光谱的森林叶绿素浓度反演研究. 国土资源遥感, 2: 26–30. DOI:10.6046/gtzyyg.2006.02.07
[]	李欢. 2009. 基于高光谱数据的柑桔叶绿素含量估算研究. 西南大学硕士学位论文.
[]	李敏夏, 张林森, 李丙智. 2010. 苹果叶片高光谱特征与叶绿素含量和SPAD值的关系. 西北林学院学报, 25(2): 35–39.
[]	梁亮, 刘志宵, 杨敏华. 2009. 基于可见/近红外反射光谱的稻米品种与真伪鉴别. 红外与毫米波学报, 28(5): 353–356.
[]	浦瑞良, 宫鹏. 2000. 高光谱遥感及其应用. 北京, 高等教育出版社.
[]	沈燕. 2006. 植被生化组分高光谱遥感定量反演研究—以西双版纳地区为例. 南京信息工程大学博士学位论文.
[]	童庆禧, 郑兰芬, 王晋年. 2001. 湿地植被成像光谱遥感研究. 遥感学报, 1(1): 50–57.
[]	吴长山, 项月琴. 2000. 利用高光谱数据对作物群体叶绿素密度估算的研究. 遥感学报, 4(3): 228–232. DOI:10.11834/jrs.20000313
[]	杨峰, 范亚民, 李建龙. 2010. 高光谱数据估测稻麦叶面积指数和叶绿素密度. 农业工程学报, 26(2): 237–243.
[]	张良培, 张立福. 2005. 高光谱遥感. 武汉, 武汉大学出版社.
[]	Helmi Z M S, Mohamad A M S, Azadeh G. 2006. Hyperspectral remote sensing of vegetation using red edge position techniques. American Journal of Applied Sciences, 3(6): 1864–1871. DOI:10.3844/ajassp.2006.1864.1871
[]	Horler D N H, Barber J, Barringer A R. 1980. Effects of heavy metals on the absorbance and reflectance spectra of plants. International Journal of Remote Sensing, 1(2): 121–136. DOI:10.1080/01431168008547550
[]	Inoue Y, Penuelus J, Nouevllon Y. 2001. Hyperspectral reflectance measurements for estimating eco-physiological status of plants. SPIE, 4151: 153–163.
[]	Jogo R A, Cutler M E, Curran P J. 1999. Estimation of canopy chlorophyll concentration from field and airborne spectra. Remote Sensing of Environment, 68(3): 217–224. DOI:10.1016/S0034-4257(98)00113-8
[]	Mutanga O, Skidmore A K. 2007. Red edge shift and biochemical content in grass canopies. ISPRS Journal of Photogrammetry and Remote Sensing, 62(1): 34–42. DOI:10.1016/j.isprsjprs.2007.02.001
[]	Pinar A. 1996. Grass chlorophyll and the reflectance red edge. International Journal of Remote Sensing, 17(2): 351–357. DOI:10.1080/01431169608949010
[]	Thomas J R, Gausman H W. 1977. Leaf reflectance vs. leaf chlorophyll and carotenoid concentrations for eight crops. Agron J, 60(5): 799–802.