林业科学  2007, Vol. 43 Issue (11): 132-137   PDF    
0

文章信息

雷渊才, 唐守正.
Lei Yuancai, Tang Shouzheng.
适应性群团抽样技术在森林资源清查中的应用
Application of Adaptive Cluster Sampling in Multi-Resource Inventory
林业科学, 2007, 43(11): 132-137.
Scientia Silvae Sinicae, 2007, 43(11): 132-137.

文章历史

收稿日期:2007-05-23

作者相关文章

雷渊才
唐守正

适应性群团抽样技术在森林资源清查中的应用
雷渊才, 唐守正     
中国林业科学研究院资源信息研究所 北京 100091
摘要: 介绍一种新的不等概率抽样技术——适应性群团抽样(ACS)。概略地介绍了其概念、特点、基本估计方法和研究概况。举例比较适应性群团抽样技术和随机抽样技术在稀疏群团植被调查中的精度和效率。
关键词:适应性群团抽样    稀疏群团植被分布    抽样调查    
Application of Adaptive Cluster Sampling in Multi-Resource Inventory
Lei Yuancai, Tang Shouzheng     
Institute of Forest Resources Information Techniques, CAF Beijing 100091
Abstract: A new inequality probability sampling——adaptive cluster sampling(ACS)is presented, which includes the conception, characteristics, the two basic estimators of ACS and some reviews.The precision and efficiency between ACS and simple random sampling(SRS)are compared based on the case of trees of rare and clumped characteristics.
Key words: adaptive cluster sampling    rare and clump vegetation distribution    sampling    

森林资源调查信息对于不同经营和管理层面的广大用户来说都是非常重要的。调查林分水平上的森林资源数量,了解景观水平上的森林资源分布和数量,可以应用于作业设计和经营规划。在林业局(场)层面上的森林资源调查可以用于森林经营中期规划,在国家层面上的国家森林资源清查主要为国家林业政策的制订提供可靠决策信息,在国际层面上的森林资源清查可以为国际进程活动提供森林资源状况的客观数据和信息。

由于森林资源调查的规模大、复杂程度高,因此抽样调查方法和技术的应用一直是森林资源清查中获取森林资源信息,支持以森林资源管理和信息为基础的经营规划的必不可少的一种决策方法。

抽样技术在森林资源清查中的应用已有很长历史。为获取森林资源的数量,传统或标准的森林资源清查通常是以郁闭林地为主要调查目标,并已经有一整套成熟的抽样方法和技术可供选择。然而,抽样技术的发展总是依赖于调查目标总体的特征变化而不断进行调整的。森林资源调查内容和信息也在发生变化,即从传统的林木资源调查向森林多资源调查(multi-resource inventory)转变和发展。为了适应这种变化和获取森林多资源调查的更多信息,迫切需要建立一套与传统调查方法不同的理论和技术体系。此外,如果考虑将林外的群立木、簇立木或散生木也纳入现行的森林资源清查设计体系,现行的森林资源调查方法也有待进一步的研究和调整。因为这类森林资源的调查对象为自然分布,如稀疏(rare)、群团状(cluster)、散生状(spread)和条带状(strip)分布。

传统的森林抽样调查方法大多采用简单随机抽样、系统抽样和分成抽样以及传统的群团抽样,但这些方法没有充分考虑像稀疏、群团状、散生状和条状等分布的空间差异性,不但耗费人力、物力、财力和时间,精度也不高。近几年,一种新的调查方法技术——适应性群团抽样(adaptive cluster sampling)技术备受关注,被认为是一种比较适合这些分布类型的森林植被抽样调查方法(Roesch,1993; Acharya et al., 2000; Talvitie et al .,2005; Magnussen et al., 2005)。目前这种抽样设计技术已在低丰度种数量的调查(Thompson,19901991a1991bPhilippi,2005)、鸟类数量(Smith et al., 1995 )、海洋和水生资源数量(Conners et al., 2002Hanselman et al., 2003; Smith et al., 2003)与农作物害虫密度调查(张南松等,2000)中得到应用。为了推动传统的林木资源调查向森林多资源调查(multi-resource inventory)方向转变和发展,并为今后能在森林资源调查中使用这种抽样方法,本文对适应性群团抽样技术的概念、原理、方法、特点及其在森林资源调查中的应用作一综述。

1 原理

Thompson等(1996)将抽样设计分为传统抽样设计(conventional designs)、适应性抽样设计(adaptive designs)和非标准抽样设计(nonstandard designs)3类。考虑到调查对象呈稀疏、簇生、斑块状或聚集分布的情况,Thompson(1990)首先提出适应性群团抽样技术。为解释它的抽样原理和过程,在这里用图 1(Philippi 2005)加以说明。图 1中的抽样设计是适应性群团抽样设计中使用比较广泛的一种方格抽样方法(例如还有点抽样方法等)。图 1总体为225个1 m×1 m的方格,方格内空白表示没有观察对象,具有黑点表示有观察对象(假设为树木)。在自适应群团抽样设计过程中,首先在图 1这个总体中采用不放回简单随机抽样方法随机布设10个样方单元(见图中使用斜划线并且具有数字表示的方格单元),从图 1中可以知道总体分布为稀疏低密度的树木,如果采用传统的抽样方法,例如简单随机抽样方法将可能导致10个抽样方格单元的大多数单元内没有树木。假定预设的临界值(critical values)或标准值(criterion values)C为抽样方格单元内至少有1株树木观察数存在,如果被调查的样方单元满足这样的条件,那么与其相毗邻(neighb orh ood)的单元将被增加为抽样调查单元。图 1中定义简单随机抽样的单元和4个毗邻的单元为一阶邻域(first-order neighborhood),就像标号为5的单元和它周围相毗邻的4个单元。也可以定义简单随机抽样单元和8个毗邻单元组成图形为二阶邻域(second-order neigh borhood)。如果在调查相毗邻的样方单元时,继续发现有满足预设条件的单元,与之毗邻的抽样单元同样要进行调查(见图 1中具波浪线的样地)。这样依此类推,抽样单元一直扩大至预设的临界值或事先确定的停止规则(stopping rule)不能满足时停止。这个过程最后形成3类群团抽样单元,第1类是最初的抽样单元(initial sample units)(图中斜线样地);第2类单元是通过这一抽样过程所形成的、与最初的抽样单元毗邻并满足临界值规则的(具有植被的)群团抽样单元(图中波浪符号样地);第3类抽样单元是边缘单元(edge units),它是不满足标准值的抽样单元。但是它不包含最初的抽样布设的没有植被的单元,而是与第1或第2类样地毗邻的抽样单元(图 1中的点状样地)。适应性群团抽样设计将总体单元分成3类抽样单元,对调查目标总体平均估计及其方差估计是很有帮助的,因为它是计算包含概率(inclusion probabilities)的基础。

图 1 简单随机布设的适应性群团抽样设计区域 Fig. 1 Adaptive cluster sampling design with simple random sample

适应性群团抽样技术充分利用总体中观察对象呈稀疏和聚集分布的特点来获取观察对象值不同群团的包含概率,然后估计总体观察对象值的平均数和方差。在应用适应性群团抽样技术估计总体平均数以及方差时要特别注意区分群团(cluster)和网络(network)这两个重要概念,这是因为自适应群团抽样中均值估计量的计算需要网络中的抽样单元数。适应性群团抽样技术中的群团是包含满足临界值或标准值C的样方单元(quadrat units)和不满足标准值的边缘样方单元。当样方单元内的观察对象值yi大于或等于临界值C时,就在最初的抽样单元周围增加相邻抽样单元。否则,不增加相邻抽样单元。边缘单元是指不满足临界值的单元,且分布在满足临界值抽样单元的相邻处。网络是指满足标准值C的抽样单元数或指不满足标准值C的最初的抽样单元数的群团。从图 1中可以知道抽样最后所形成的网络面积大小不一,这将使总体均值和方差的估计变得复杂而不能应用传统的抽样技术方法。这种抽样技术是一类方法,它需要根据抽样条件设定响应参数,不同响应参数有不同的估计公式。

2 估计公式

为了估计呈稀疏群团总体分布的目标平均值和方差,Thompson(1990)第1次提出了修正的Han sen-Hurwitz和Horvitz-Thompson 2种估计方法的估计量。

基于放回不等概率抽样的Hansen-Hurwitz(Cochran,1977)样本均值( HH)估计量公式为

(1)

式中:n为抽取的单元样本量;yi为第i个单元的观察值;zi为第i个单元在每次抽样中被抽中的概率。考虑在适应性群团抽样设计构造中使用Hansen-Hurwitz估计量时的不等概率是未知的,Thompson(1990)提出了方格样方抽样设计的修正Hansen-Hurwitz估计量,即将适应性群团抽样设计看作是总体网络单元加权的简单随机抽样。因此,它的样本均值Y的估计量及其抽样方差V(HH)为

(2)
(3)

式中:N为调查总体的抽样方格单元数;n为最初抽取的方格数;wi为第i个网络单元数的目标变量观察值的平均值,Wi=yi/xi, xii网络中的单元数;yi为第i个网络中的单元观察值。

Thompson(1990)还发展了Horvitz-Thompson样本平均数和方差估计量的方法。针对调查的总体单元与抽样样本单元目标可能不一致,Horvitz等(Cochran,1977)提出不放回不等概率样本平均数(HT)的估计量,即

(4)
(5)

式中:πi为入样单元网络i的包含概率;mi为包含在i网络中满足条件的单元数;bi为在i网络中的边缘单元数。Nn在最初抽样设计中为已知,mi也可以按照确定的抽样规则计算。但是抽样设计中不能提供足够的信息计算网络中每个单元的概率,这是因为边缘单元bi在抽样过程中具有不确定性,即在抽样过程中可能不知道或者不完全知道边缘单元数,所以由(5)式表示的包含概率πi实际上是非常复杂的或不可能计算的。例如,在图 1中的单元6可能在抽样过程中成为位于它左方网络的1个边缘单元。而在图 1的抽样设计中,它为抽样设计中最初抽取的一个单元。

为了解决边缘单元不确定性的问题,Thompson(1990)充分利用群团总体中3类单元的网络包含概率,提出了修正的Horvitz-Thompson(HT)估计量来估计抽样样本均值Y的估计量和均值方差,即

(6)
(7)
(8)
(9)

式中:HTV(HT)分别为样本均值和方差;αk为第k个网络所含单元数的包含概率,也称部分包含概率(partial inclus ion probability);xk为在第k个网络中所包含的抽样单元数,αjk为最初抽样单元在第j个网络和第k个网络同时入样的包含概率。由(7)式可知,计算包含概率只包含抽样过程中的已知信息xk,没有包含不满足标准值C的边缘单元数。事实上,当xk=1时,αkn/N,这就是简单随机抽样的单元入样概率。

3 适应性群团抽样技术与传统抽样技术比较

传统的抽样方法在调查任何总体观察值总和均值前要确定抽样单元数,然而适应性群团抽样技术方法确定的最终抽样单元数依赖于总体中抽样单元的观察值大小(即标准值)。2种抽样设计和技术对总体单元数的确定方法不同,但是它们的目标是一致的,即抽取调查总体单元数,观察单元内所对应的观察值,估计总体总和、总体平均数和抽样总体方差。

在传统的抽样设计和技术方案过程中,抽样单元的选择概率函数是非零的或者是常数,与总体单元内观察值的大小无关,每个单元的入样概率为αi=α(i=1,2,…,N)。同时抽样单元的选择和入样概率在抽样之前就决定了;而在自适应群团抽样设计和技术方案中选择概率可以为零或者是非常数,主要取决于总体单元内观察值的大小和所确定的标准值(或叫停规则标准)大小,每个单元所形成的网络的入样概率不是常数。因此,包含有满足标准条件的更多的总体单元数的网络将分配更大的选择概率。

传统的抽样技术设计可以对固定样地进行多次的抽样,并能分析重测数据的变化;而适应性群团抽样设计不能提供重复多次的样本容量。

对于稀疏、簇生、斑块状和聚集分布植被清查的抽样设计而言,适应性群团抽样方法较传统的抽样方法具有更多的优点。首先适应性群团抽样具有更高的抽样效率,即在相同抽样工作量情况下适应性群团抽样设计的估计量方差将会更小,传统的简单随机抽样技术估计适应性群团抽样设计的总体是有偏估计,而适应性群团抽样技术估计是无偏的。其次是调查总体目标单元群团的形状和位置常常在调查前不知道,因而无法使用分成抽样方法,这种情况下使用适应性群团抽样设计和技术方法会更有效,因为这种抽样技术通过抽样过程能确定每个种多度或丰富度的分布区域和位置等信息,当要获取稀少和濒危种的这些信息时适应性群团抽样技术的特性更显得特别重要和适用。此外,适应性群团抽样设计非常灵活。为了取得最有效的抽样设计,抽样设计人员针对不同的情况确定总体的最初抽样单元方法、单元数量、单元大小、抽样单元邻域配置结构和临界值或叫停规则。有许多选择最初抽样单元的方法,例如有放回和不放回简单随机抽样、带状抽样(strip sampling)、系统抽样(system sampling)、分层抽样(stratified sampling)、与预估数量大小成正比例的概率抽样(probability proportional sampling)和拉丁方抽样(latin square sampling)等可以作为确定最初抽样单元的抽样方法。最后,因为2个抽样单元的平均距离比其他抽样调查方法更小,而且抽样单元的位置容易发现和确定,所以适应性群团抽样技术的抽样成本可能会更少。

但是,与传统抽样技术方法比较,适应性群团抽样技术也存在一些不足,主要表现为:

1) 依据标准值C,最后的各种抽样单元数和由最初抽样单元所形成的各种最终抽样网络数是随机的,并且网络的形状和大小没有规则,其结果是事先很难确定或控制抽样时间、人力等调查成本,而这些因素常常在进行抽样和调查前就需要了解。例如,C大,网络数(network)减少以致减少边界单元数,对于比较稀疏和低密度的总体,适应性群团抽样(ACS)的效率减少;C小,网络数增加以致增加边界单元数,对于比较稀疏和低密度的总体,ACS的效率增加,但是无限制的抽样,抽样成本也将增加。为了解决这一问题,Thompson和Seber(1996)以及Lo等(1997)建议引入叫停规则,规定最终形成的样地群团总面积不能超过某一预设值。但是,叫停规则的引入却加大了最后抽样估计的复杂性。目前在叫停规则的基础上已经发展了逆的适应性群团抽样(inverse sampling) (Christman et al., 2001)、最初单元的序列值适应性群团抽样(acsord)(Su et al.,2003 )和限制性的(restricted)适应性群团抽样技术来探讨和解决这些问题(Brown,1994Brown et al., 1998Salehi et al., 2002)。

2) 适应性群团抽样方法没有充分使用抽样单元的所有信息,例如边缘单元只在作为最初抽样单元的一部分时才被利用抽样设计的估计计算,而其他大量的边缘单元没有被充分利用。为解决该问题,目前在Hansen-Hurwitz和Horvitz-Thompson估计量基础上,发展了Rao-B lackwell估计量来解决边缘单元的信息量问题(Thompson et al., 1996)。所有这些工作将会对适应性群团抽样技术的发展和完善非常有意义。

4 适应性群团抽样技术案例分析

为了说明适应性群团抽样技术2种估计方法的应用,以及2种估计方法与传统的简单随机抽样方法的不同,这里选用Thompson(1990)的抽样设计案例如图 2所示,说明适应性群团抽样的方法和技术步骤。图 2中包含总体单元数为(N=20×20),假设每个单元为10 m×10 m,研究区域总体目标值Y为190株树(方格单元内数表示林木株数)。每个单元内的数字代表单元目标观察值(例如第1行第5列的单元内有5株树,其余类推)。按照适应性群团抽样设计方法,需要事先确定3件事:首先,确定标准值C,本抽样设计标准值为C≥1;第二,定义满足标准值条件所增加的单元邻域形式(neighborhood configu ration),本例以最初抽样单元本身和满足标准值条件的一阶邻域形式增加邻域单元数;第三,确定最初抽样单元方法和数量。考虑简单说明,使用不放回的简单随机抽样方法,从总体400个单元中随机抽取13个10 m×10 m的最初抽样单元数(如图 2中的13个有圆圈的单元数),本例共有C40013个可能的最初抽样单元组合。依据上述适应性群团抽样设计步骤,所有C40013组合中的一次抽样组合(结果图 2所示)最后样本的抽样结果组成2个不规则的群团(cluster)和11个最初简单随机单元或网络(network)。2个群团的形成是在最初不放回简单随机抽样方法基础上按标准值C≥1的条件增加了15个单元(例如在研究区域上方的群团中的单元内的5、3、2、2和11株;在区域下方的群团单元内的3、1、5、10、5、13、4、5、22和3株),与网络相邻的黑色单元为边缘单元。对于图 2中所示的适应性群团抽样设计,应用不放回的不等概率抽样时的Horvitz-Thompson (HT)估计式(6)和(9)以及不放回的Hansen-Hurwitz (HH)估计式(2)和(3)计算整个研究区域内林木密度和方差,并与简单随机抽样设计估计的总体密度和方差进行比较。

图 2 13个最初抽样单元组成的适应性群团抽样设计方案 Fig. 2 Adaptive cluster sampling design with 13 initial sample units

由估计式(2),(3),(6)和(9)可知,首先计算适应性群团抽样设计中确定的13个网络数的网络内观察值分布大小、总观察值和满足条件的单元数。图 1研究区域的计算结果见表 1

表 1 基于图 2的适应性群团抽样设计计算的每个网络的目标观察值、总观察值和单元数 Tab.1 Tallied numbers of individuals per network from adaptive cluster sampling in Fig. 2

依据上述估计式计算HHHTV(HH)和V(HT)的过程比较复杂,特别是 HTV(HT)的计算量很大,这里我们应用Philippi (2005)的SAS宏函数编程和表 1中的网络标号、网络单元数(1表示没有树木的最初抽样点)和网络中的林木数量(0表示没有树木的最初抽样网络)3个变量来估计。估计结果见表 2。在图 2中一次抽样组合的抽样设计和估计方法不同,研究区域的总体和总体均值的估计量不同,不同抽样设计和不同估计方法的总体均值的方差和标准差也不同。抽样均值方差和标准差最小的是Horv itz-Thompson估计方法,均值方差和标准差分别为0.699和0.836,其次是Hansen-Hurwi tz方法,估计方差和标准差为0.721和0.849,方差和标准差最大的是简单随机抽样方法,分别为9.191和3.031。差异的原因为在适应性群团抽样设计中传统的简单抽样方法只考虑最初随机布设的抽样单元数和单元内的目标观察值,而没有考虑在最初抽样单元基础上满足标准值条件所增加的抽样单元和单元内的观察值。所以,在适应性群团抽样设计中使用简单随机抽样方法的估计量是有偏估计(Thompson et al.,1996)。单元数不同和单元内目标观察值的大小会直接影响抽样估计量误差的大小和效率。适应性群团抽样的Hansen-Hurw itz估计方法考虑了满足标准条件C≥1所增加的单元数和单元内的目标值。但是适应性群团的Horvitz-Thompson估计方法与前面提及的2种方法不同,这种方法估计的总体均值应用了入样群团的包含概率。样方群团越大,包含概率就越大,反之亦然。因此,在图 3研究区域的抽样设计中,它的估计方差比其他2种方法的估计方差更小,与同类研究结果一致( Thompson,1991aPhilippi,2005),因而适应性群团抽样设计的HT估计方法更适合本例的总体抽样。

表 2 研究区域林木数量的简单抽样、Horvitz-Thompson和Hansen-Hurwitz估计量 Tab.2 Simple random sampling、Horvitz-Thompson and Hansen-Hurwitz estimates of the number of trees in study areas
5 讨论

与传统的抽样方法比较(例如简单随机抽样),适应性群团抽样技术和方法为稀疏、簇生、斑块状和聚集分布的森林多资源清查和生态因子调查提供了准确、迅速、简便的地面抽样技术。这种抽样技术为资源管理者和资源调查专家调查稀疏、簇生、斑块状和聚集分布的资源特性提供了一种更有效率的无偏抽样设计。

适应性群团抽样设计技术的提出和研究始于1990年,虽然国际上在理论和实践方面取得了一些成果,但还有许多理论和实践上的问题需要进一步研究,比如适应性群团抽样理论的响应设计(或样地设计)的主要缺点是无法确定抽样强度,即不知要抽取多大群团样地,目前解决的方法主要以标准值C(预设值)规则确定抽样强度。标准值的大小不同,网络数量不同,因而自适应群团抽样效率不同。有时为了限制无限制地增加样本单元而采用1步或2步停止规则。是否采用停止规则?是否能使用最优或满意的停止规则来确定抽样强度?最优停止规则的抽样强度的均值和方差如何计算?标准值如何确定才能使估计值无偏和估计精度提高?应用适应性群团抽样技术和方法时样地设计的大小、形状和结构?如何将这种抽样技术应用在我国呈簇群状、散生状和长条形状分布植被的清查中并建立一套适合我国实际情况的适应性群团抽样技术设计标准和体系?这些问题都需要研究。

参考文献(References)
张南松, 祝增荣, 胡秉民. 2000. 应用二阶适应性整群抽样估计害虫密度. 浙江大学学报, 26(6): 617.
Acharya B, Bhattarai G, De Gier A, et al. 2000. Systematic adaptive cluster sampling for the assessment of rare treee species in Nepal. Forest Ecology and Management, 137: 65-73. DOI:10.1016/S0378-1127(99)00318-7
Brown J A. 1994. The application of adaptive cluster sampling to ecological studies. In Statistics in Ecology and Environmental Monitoring, 86.
Brown J A, Manly B J F. 1998. Restricted adaptive cluster sampling. Environmental and Ecological Statistics, 5: 49-63. DOI:10.1023/A:1009607403647
Christman M C, Lan F. 2001. Inverse adaptive cluster sampling. Biometrics, 57(4): 1095-1105.
Cochran W G. 1977. Sampling techniques. New York: Wiley.
Conners M E, Schwager S J. 2002. The use of adaptive cluster sampling for hydroacoustic surveys. ICES Journal of Marine Science, 59: 1314-1325. DOI:10.1006/jmsc.2002.1306
Hanselman D H, Quinn T J, Lunsford C, et al. 2003. Applications in adaptive cluster sampling of Gulf of Alaska rockfish. Fishery Bulletin, 101: 501-513.
Lo N C H, Griffith D, Hunter J R. 1997. Using a restricted adaptive cluster sampling to estimate Pacific hake larval abundance. CalCOFI Report, 38: 103-113.
Magnussen S, Kurz W, Leckie D G. 2005. Adaptive cluster sampling for estimation of deforestation rates. European Journal Forest Research, 124: 207-220. DOI:10.1007/s10342-005-0074-6
Philippi T. 2005. Adaptive cluster sampling for estimation of abundances within local populations of low-abudance plants. Ecology, 85(5): 1091-1100.
Roesch F A. 1993. Adaptive cluster sampling for forest inventory. Forest Science, 39: 655-669.
Salehi M M, Seber G A F. 2002. Unbiased estimators for restricted adaptive cluster sampling. Australian and New Zealand Jounral of Statistics, 44: 63-74. DOI:10.1111/1467-842X.00208
Smith D R, Conroy M J, Brakhage D H. 1995. Efficiency of adaptive cluster sampling for estimating density of wintering waterfowl. Biometrics, 51: 777-788. DOI:10.2307/2532964
Smith D R, Villella R F, Lemarie D P. 2003. Application of adaptive cluster sampling to low-density populations of freshwater mussels. Environmental and Ecological Statistics, 10: 7-15. DOI:10.1023/A:1021956617984
Su Z M, Quinn II T J. 2003. Estimator bisa and efficiency for adaptive cluster sampling with order statistics and a stopping rule. Environmental and Ecological Statistics, 10: 17-41. DOI:10.1023/A:1021908702054
Talvitie M, Leino O, Holopainen M. 2005. Inventory of sparse forest populations using adaptive cluster sampling. Silva Fennica, 40(1): 101-108.
Thompson S K. 1990. Adaptive cluster sampling. Journal of the American Statistical Association, 85: 1050-1059. DOI:10.1080/01621459.1990.10474975
Thompson S K. 1991a. Adaptive cluster sampling: designs with primary and secondary units. Biometrics, 47: 1103-1115. DOI:10.2307/2532662
Thompson S K. 1991b. Stratified adaptive cluster sampling. Biometrika, 78: 389-397. DOI:10.1093/biomet/78.2.389
Thompson S K, Seber G A F. 1996. Adaptive sampling. New York: John Wiley and Sons.