文章信息
- 洪滔, 郭妍, 吴承祯, 林思祖, 邓慧华, 张尚炬.
- Hong Tao, Guo Yan, Wu Chengzhen, Lin Sizu, Deng Huihua, Zhang Shangju.
- 杉木种源选择的投影寻踪法应用
- The Projection Pursuit Technique of Selection for Cunninghamia lanceolata Provenances
- 林业科学, 2008, 44(3): 56-61.
- Scientia Silvae Sinicae, 2008, 44(3): 56-61.
-
文章历史
- 收稿日期:2006-11-28
-
作者相关文章
2. 福建省高校森林生态系统过程与经营重点实验室 福州 350002
2. Key Laboratory of Forest Ecological System Process and Management of Colleges and Universities in Fujian Province Fuzhou 350002
国外树种种源试验始于18世纪中期,我国树种种源研究始于20世纪50年代中期,20世纪70年代中期进入有组织的系统研究(俞新妥等,1960)。树种种源选择是遗传改良的第一步,也是树木育种的基础(全国杉木种源试验协作组,1994)。树木种源是一个时空变异混合群体,种源实测结果表明,树木种源生长特性在不同空间位置上存在明显的差异,即树木种源生长的空间变异性。研究树种种源生长的空间变异性及其趋势,对于种源区划分、种子调拨以及优良种源的选择具有重要意义。
杉木(Cunninghamia lanceolata)具有生长快、产量高、材性好、用途广等特点,是我国最重要的商品材种(全国杉木种源试验协作组,1994),广泛分布于南、中、北亚热带地区,横跨15个省区(南方十四省(区)杉木栽培科研协作组,1981)。在杉木培育过程中,如何科学选择优良种源是实现杉木“速生、丰产、优质”的关键性问题。因此,杉木种源研究是杉木研究领域中重要内容之一(盛炜彤等,1981)。杉木种源研究始于1957年(全国杉木种源试验协作组,1994),几十年来,不少专家学者从定性和定量的角度提出了杉木种源选择的研究方法(俞新妥等,1984;洪伟等,1990; 1998;陈伯望等,1995),如趋势面分析(Karvonen et al., 1992)、地统计学(Liebhold et al., 1993)及层次分析法(洪伟等,1990)等,其中层次分析法以多指标为基础通过综合分析可获得较理想的结果。但是该方法在构建判断矩阵时受人的因素的影响较大,从而在一定程度上存在不确定性(洪伟等,1990)。
20世纪70年代以来,随着计算机技术的发展,国际统计界发展了一种投影寻踪技术(projection pursuit,简称PP)(Friedman et al.,1974)。它采用的是“审视数据—模拟—预测”的探索性数据分析新思路(Montanari et al., 2001;李祚泳等,1997;成平等,1986;郑祖国,1993;金菊良等,2003),其本质是寻找由高维数据投影到低维数据的特征投影方向,通过几个投影方向了解高维数据的分布、结构等性质。这种方法能够根据数据之间的关系来确定各指标的权重,减小了主观因素的影响(王业成,2006)。投影寻踪法适用于高维、非线性、非正态问题的分析和处理,因此,它一直引起国内外统计专家和信号处理学者的关注(Croux et al., 2005),已被成功地应用于多个领域(李祚泳等,1997;吴承祯等,2006;王顺久等,2006a; 2006b;赵小勇等,2007;Choulakian,2006), 但投影寻踪方法的计算过程复杂、编程实现困难,在一定程度上限制了其应用。而基于改进单纯形法的改进投影寻踪法(吴承祯等,2006)正是对这一方法的扩展,该方法在林木种源选择中的应用未见报道。基于此,本文提出应用改进的投影寻踪法,对杉木种源选择进行研究,从而丰富投影寻踪法理论在树木种源选择上的应用。
1 研究区概况速生、丰产、优质是林木种源选择的主要目标(俞新妥等,1984;洪伟等,1990),为了研究杉木生态地理及遗传变异,俞新妥等于1956年秋从南方各省收集9个杉木种源种子,1958年春在福建农林大学三明莘口教学林场造林,教学林场及杉木种源林营造基本情况详见文献(俞新妥等,1984)。俞新妥等(1984)根据林木种源选择的“速生、丰产、优质”评价标准与思路,对杉木种源林进行了调查、取样、测试与计算分析,获得平均树高、平均胸径、单株材积、每公顷蓄积、速生期、全干密度、顺纹抗压、抗弯、抗弯弹模、顺纹抗剪、冲击韧性、心材率、晚材率、高径比等14个指标的数据。由于这些指标集中反映在“速生、丰产、优质”最佳目标上,所以以此为种源选择的要求与目标(洪伟等,1990),本研究基础资料取自文献(俞新妥等,1984)。
2 研究方法投影寻踪模型的基本思想是利用计算机技术,把高维数据样本通过某种组合投影到低维子空间上,并通过极小化某个投影指标,寻找出能反映原高维数据结构或特征的投影(李世玲,2005),即寻找出使投影指标函数达到最优的投影值,然后根据该投影值对样本集进行相应地分类(Choulakian,2006;Li et al., 2002)。其中,投影指标函数的优化问题是应用投影寻踪分类方法能否成功的关键所在。然而当研究数据较多时,却很难找到最优投影方向;并且传统的投影寻踪方法不易编程、计算复杂,从而限制了其应用领域。基于上述2点,吴承祯等(2006)提出采用改进单纯形法实现投影指标函数的优化,进而建立投影寻踪分类模型,其建模步骤具体如下。
第1步:建立判别指标体系,对各判别指标的样本数据进行预处理。根据杉木种源选择的目标与要求,结合杉木种源特征调查数据,采用平均树高、平均胸径、单株材积、每公顷蓄积、速生期、全干密度、顺纹抗压、抗弯、抗弯弹模、顺纹抗剪、冲击韧性、心材率、晚材率、高径比14个指标构成杉木种源选择的指标体系。设杉木种源试验的数据样本集为xij(i=1~n,j=1~p),其中n、p分别表示杉木种源样本数和判别指标数。为了消除各判别指标的量纲的影响,以保证建模不失一般性,需对xij(i=1~n,j=1~p)进行标准化处理。标准化处理公式为:
(1) |
式中:xjmax、xjmin分别表示样本数据集中第j个指标的最大值和最小值;yij(i=1~n,j=1~p)为标准化后的数据样本值。
第2步:构造投影指标函数。投影寻踪判别方法就是把p维数据yij(i=1~n,j=1~p)综合成以β=(β1, β2, …, βp)为投影方向的一维投影值Zi:
(2) |
式中:βj>0,
(3) |
式中:Sz为投影值Zi(i=1~n)的标准差,Dz为投影值Zi(i=1~n)的局部密度,即:
(4) |
(5) |
式中:Z为序列Zi(i=1~n)的均值;R为求局部密度的窗口半径(金菊良等,2003),它的选取既要使包含在窗口内的投影点的平均个数不太少,避免滑动平均偏差太大,又不能使它随着n的增大而增加太快;距离rij=|Zi-Zj|;U(h)为单位阶跃函数。
第3步:优化投影指标函数。当给定杉木种源判别指标样本数据时,投影指标函数Q(β)只随投影方向β的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向可最大可能揭示高维样本数据的某种判别特征结构。因此,可通过求解投影指标函数最大化问题来估计最佳投影方向,即:
(6) |
(7) |
这是一个以β=(β1, β2, …, βp)为变量的非线性优化问题,其目标是通过对β优化而使Q(β)达到最大值。传统投影寻踪法对Q(β)的计算过程复杂、编程困难(李祚泳等,1999;金菊良等,2003),改进的投影寻踪法采用改进单纯形法(吴承祯等,1999;2000)直接优化β=(β1,β2,…,βp)。改进单纯形法是由m维空间的m+1个点P1, P2, …, Pm+1构成的几何图形,且P1-P2,…,P1-Pm+1线性无关。在二维空间,单纯形是一个三角形,在多维空间,单纯形是一个多面体。这些几何图形的每个顶点相当各个试验点,其坐标值就是每个试验点相应的各个投影寻踪方向参数的取值,基本单纯形法是通过单纯形中的最坏响应点的“反射”来实现其运动功能的,改进单纯形法是在基本单纯形法的基础上增加了“扩张”和“压缩”2个功能,这2个功能既能加速单纯形的前进,又能按预定的精度充分地接近最优点。根据初步试验结果确定初始单纯形,根据初始单纯形进行试验,比较试验结果,进行单纯形的不断推移,直到获得满意的结果(吴承祯等,1999;2000)。通过改进单纯形法对β有关参数不断优化可以获得使Q(β)达到最大化的β=(β1,β2,…,βp)的最佳组合,这个最大化针对特定的窗口半径参数是唯一的。
第4步:判别。把由第3步求得的最佳投影方向β代入(2)式后即可得到各杉木种源的投影值Zi(i=1~n)。该值可反映各杉木种源的综合特征,通过Zi(i=1~n)值大小的比较,可对各杉木种源综合特征进行判别;在建立判别模型的基础上,还可预测出杉木种源的综合特征。
3 结果与分析以参与杉木种源试验的湖北竹溪、四川彭州、四川庐山等9个杉木种源试验林为基础,根据选取的反映杉木种源生长及材性的平均树高、平均胸径、单株材积、每公顷蓄积、速生期、全干密度、顺纹抗压、抗弯、抗弯弹模、顺纹抗剪、冲击韧性、心材率、晚材率、高径比共14个指标,构成杉木种源选择的指标体系,其中平均树高、平均胸径和单株材积代表速生性状,单位面积蓄积、速生期代表丰产性状,全干密度、顺纹抗压、抗弯、抗弯弹模、顺纹抗剪、冲击韧性、心材率、晚材率、高径比9个指标代表材质性状,根据文献(俞新妥等,1984)获得具体指标数据(表 1)。
利用改进的投影寻踪模型对杉木种源样本集进行判别。首先对各指标进行标准化处理,然后以(6)式为目标函数、(7)式为约束条件,将处理后的样本集数据代入(2)、(4)、(5)和(3)式,即可采用改进的投影寻踪法对目标函数进行优化求解,经过计算机运算,当窗口半径参数为0.2时,不仅可以使包含在窗口内的投影点的平均个数适中而且可以使它随着n的增大而增加的速度适中,在此半径参数条件下得到最大投影指标函数值为2.791 34,最大投影方向为β=(0.386 4,0.376 7,0.454 5,0.369 4,0.205 1,0.253 1,0.217 5,0.177 8,0.189 1,0.164 7,0.194 1,0.173 2,0.185 9,0.124 8)。将β代入(2)式即可计算得到各杉木种源的投影值Zi(i=1~n)(表 1),投影值的大小反映该种源在平均树高、平均胸径等14个速生、丰产、优质等指标的综合表现,是某一杉木种源的综合评定。根据投影方向β参数值大小,不难发现投影值大小更集中反映了种源的速生性。分析表明:福建南平的投影值最大,为3.310 2;而投影值最小的是安徽休宁种源,为0.777 9。因此,福建南平杉木种源为福建南平试验区最佳种源,安徽休宁种源为福建南平试验区最差种源。
据所计算的杉木种源综合指标投影值进行排序,综合指标投影值最大者为参试种源之最优。9个种源的优劣排序为:S7>S6>S3>S2>S 1>S5>S9>S8>S4(表 1)。可以看出,根据投影值的大小可以把9个种源区分成3类:生长好,并能适应闽北地区生长的种源,即S7(福建南平)、S6(湖南会同)、S3(四川庐山)、S2(四川彭州);生长一般的种源,即S1(湖北竹溪)、S5(浙江金华)、S9(广东郁南);生长差、基本不能适应闽北地区生长的种源,即S8(贵州剑河)、S4(安徽休宁)。各种源排序的秩序越小,表示该种源区的种源越佳(表 2)。由此可以看出,从生长快、生长量大、材性好的角度,福建南平是最好的种源,因此闽北地区杉木种源的调拨以南平种源为佳,其次为湖南会同种源。这与俞新妥等(1984)研究相符,与洪伟等(1990)应用层次分析法所得出的结论基本一致(层次分析法认为湖南会同种源最优,福建南平次之)。但是改进投影寻踪法,与层次分析法在S8(贵州剑河)、S9(广东郁南)两者的分类上出现不一致(表 2)。原因在于,广东郁南为南带种源,尽管其生长性状较差,但其材性较优仅次于福建南平种源,因此,其综合排序位于贵州剑河之前。种源选择的原则是“速生、丰产、优质”,本文提出的方法与层次分析法均选择湖南会同和福建南平种源为最佳,所以改进投影寻踪法在种源选择上是可行的。由于2个种源各具优点,可作为杂交育种的种质种源(俞新妥等,1984),因此本研究进一步证实了将福建南平种源与湖南会同杉木种源进行杂交育种的科学性。
投影寻踪法是近几年广泛应用的一种新方法,这种方法把每一个种源的指标投影成一维的指标值,根据投影值的大小可直接进行排序,方法简便可行,结果一目了然,很容易判断出林木的最佳种源。而层次分析法需要较深的数学基础作为支持,一方面判断矩阵构造受人的主观影响较大,另一方面计算程序编程工作比较繁杂,在实际操作中存在着诸多不便。改进的投影寻踪法在评价杉木种源优劣过程中直接以种源的主要性状为依据,较层次分析法具有更高的客观性,尤其克服了层次分析法中1~9标度法构造判断矩阵的主观性及一致性检验的繁琐性。
4 结论与讨论采用改进的投影寻踪法对9个杉木种源进行优劣选择,其投影方向综合考虑了各杉木种源平均树高、平均胸径、平均材积等14个有关速生、丰产和优质的指标,通过对投影方向参数进行优化获得各杉木种源投影值,投影值越大表明该种源越佳。分析表明福建南平杉木种源为最佳、安徽休宁杉木种源为最差。研究不仅为杉木优良种源选择提供了理论依据,而且丰富了林木种源选择方法,该方法在林业科学研究的多目标决策中具有广泛应用前景。
用投影寻踪法进行种源的最优选择实质就是如何将各种源的多维判别指标综合成1维或2维指标,然后根据相近原则进行排序。为此,本文提出了用改进的投影寻踪模型进行种源最优选择的新方法。利用该模型可将各种源的多指标综合成一维投影值,根据投影值大小即可判别出种源的优劣次序,进而根据具体的培养目标,正确地选择林木种源,为良种选育、壮苗培育及森林可持续经营提供保证。其计算过程不仅数学理论基础严谨,逻辑性强,且不受人为因素的影响和干扰,这是区别于也是优于林木种源选择中常用的层次分析法、聚类分析法及多目标决策的重要特征。
传统投影寻踪技术计算复杂、编程实现困难,改进的投影寻踪法采用改进单纯形法优化投影方向,简化了投影寻踪的实现过程,较好地克服了传统投影寻踪法所固有的缺点。采用改进单纯形法优化投影方向只须给出投影方向的初始值和相应步长,由于投影方向取值均在[0~1]之间且取值之平方和应为1,因此初始值的确定较为简单且对整个计算影响不大;同时步长大小仅与探索空间有关,而整个探索过程均由计算机实现,步长大小仅影响探索的时间长短。因此,采用改进投影寻踪技术研究林木种源选择问题在理论上是可行的、科学的。实例研究表明,改进的投影寻踪模型用于种源选择,能达到理想效果,方法简单有效,模型适用性及实用性较强。该方法对杉木种源试验的不同试验点、多个试验点的优良种源选择的综合评价,及对其他树种种源试验的优良种源选择评价的研究与方法的佐证,是本研究进一步深入和发展的方向。
陈伯望, 洪菊生. 1995. 杉木种源胸径生长地理变异的趋势面分析. 林业科学, 31(2): 110-115. |
成平, 李国英. 1986. 投影寻踪——一类新兴的统计方法. 应用概率统计, 2(3): 8-12. |
洪伟, 潘辉. 1990. 杉木种源选择决策模型. 生物数学学报, 5(3): 117-125. |
洪伟, 吴承祯. 1998. 杉木种源胸径生长地理变异规律研究. 植物生态学报, 22(2): 186-192. |
金菊良, 张礼兵, 潘金锋. 2003. 基于投影寻踪的天然草地分类模型. 生态学报, 23(10): 2184-2188. DOI:10.3321/j.issn:1000-0933.2003.10.028 |
李世玲. 2005. 基于投影寻踪和遗传算法的一种非线性系统建模方法. 系统工程理论与实践, (4): 22-28. DOI:10.3321/j.issn:1000-6788.2005.04.004 |
李祚泳, 邓新民, 辛文清. 1997. 旱涝趋势的投影寻踪预测模型. 自然灾害学报, 6(4): 68-73. |
李祚泳, 丁晶, 张欣莉. 1999. 环境监测优化布点的投影寻踪回归分析法. 环境科学进展, 7(6): 127-130. |
南方十四省(区)杉木栽培科研协作组. 1981. 杉木产区立地类型划分的研究. 林业科学, 17(1): 37-45. |
全国杉木种源试验协作组. 1994. 杉木种源变异的研究. 林业科学研究, 7(专刊): 117-129. |
盛炜彤, 王岚, 张洪英. 1981. 杉木生长区气候区划的初步研究. 林业科学, 17(1): 50-57. |
王顺久, 李跃清. 2006a. 投影寻踪模型在区域生态环境质量评价中的应用. 生态学杂志, 25(7): 869-872. |
王顺久, 杨志峰. 2006b. 区域农业生态环境质量综合评价投影寻踪模型研究. 中国生态农业学报, 14(1): 173-175. |
王业成. 2006. 基于投影寻踪法的稻米品质综合评价. 东北农业大学学报, 37(2): 221-214. |
吴承祯, 洪伟. 1999. 运用改进单纯形法拟合Logistic曲线的研究. 生物数学学报, 14(1): 117-121. |
吴承祯, 洪伟. 2000. BP-MSM混合算法及其在森林自疏规律研究中的应用. 应用生态学报, 11(5): 655-659. DOI:10.3321/j.issn:1001-9332.2000.05.004 |
吴承祯, 洪伟. 2006. 基于改进的投影寻踪的森林生态系统生态价位分级模型研究. 应用生态学报, 17(3): 357-361. DOI:10.3321/j.issn:1001-9332.2006.03.001 |
俞新妥, 陈承德, 何智英, 等. 1984. 杉木种源试验林(23年)的生长和材性研究. 福建林学院学报, 4(1): 1-8. |
俞新妥, 黄荣之. 1960. 杉木、马尾松地理造林试验初报. 福建林学院学报, (1): 51-55. |
赵小勇, 付强, 邢贞相. 2007. 投影寻踪等级评价模型在土壤质量变化综合评价中的应用. 土壤学报, 44(1): 164-168. DOI:10.3321/j.issn:0564-3929.2007.01.024 |
郑祖国. 1993. 投影寻踪自回归模型及其在新疆春旱期降水量长期预测中的应用. 新疆农业大学学报, 16(2): 1-7. |
Choulakian L. 2006. L1-norm projection pursuit principal component analysis. Computational Statistics & Data Analysis, 50: 1441-1451. |
Croux C, Ruiz-Gazen A. 2005. High breakdown estimators for principal components: the projection-pursuit approach revisited. Journal of Multivariate Analysis, 95: 206-226. DOI:10.1016/j.jmva.2004.08.002 |
Friedman J H, Turkey J W. 1974. A projection pursuit algorithm for exploratory data analysis. IEEE Trans On Computer, 23(9): 881-890. |
Karvonen M, Tuomilehto J, Naukkarinen A, et al. 1992. The prevalence and regional distribution of antibodies against Chlamydia pneumoniae(strain TWAR)in Finland in 1958. Int J Epidemiol, 21(2): 391-398. DOI:10.1093/ije/21.2.391 |
Li Dingding, Stengos T. 2002. The partially linear regression model: Monte Carlo evidence from the projection pursuit regression approach. Economics Letters, 75: 11-16. DOI:10.1016/S0165-1765(01)00589-4 |
Liebhold A M, Simons E E, Sior A, et al. 1993. Geostatistics and geographic information systems in applied insect ecology. Annu Rev Entomol, 38: 303-327. DOI:10.1146/annurev.en.38.010193.001511 |
Montanari A, Lizzani L. 2001. A projection pursuit approach to variable selection. Computational Statistics & Data Analysis, 35: 463-473. |