林业科学  2010, Vol. 46 Issue (7): 1-6   PDF    
0

文章信息

朱光玉, 唐守正, 雷渊才
Zhu Guangyu, Tang Shouzheng, Lei Yuancai
不跨越边界基于Horvitz-Thompson估计量的分层自适应群团抽样
Stratified Adaptive Cluster Sampling Based on the Adjusted Horvitz-Thompson Estimator with the Network Nonoverlapping Strata
林业科学, 2010, 46(7): 1-6.
Scientia Silvae Sinicae, 2010, 46(7): 1-6.

文章历史

收稿日期:2009-03-09
修回日期:2009-06-11

作者相关文章

朱光玉
唐守正
雷渊才

不跨越边界基于Horvitz-Thompson估计量的分层自适应群团抽样
朱光玉1,2, 唐守正1, 雷渊才1    
1. 中国林业科学研究院资源信息研究所 北京 100091;
2. 中南林业科技大学林业遥感信息工程研究中心 长沙 410004
摘要: 提出一种新的不跨越边界的基于Horvitz-Thompson估计量的分层自适应群团抽样方法,给出其估计量公式,并证明其无偏性。将9种抽样方法(简单随机抽样、分层简单随机抽样、基于修正Hansen-Hurwitz估计量的ACS、基于修正Horvitz-Thompson估计量的ACS、跨越边界基于Hansen-Hurwitz估计量的ACSⅠ、跨越边界基于Hansen-Hurwitz估计量的ACSⅡ、不跨越边界基于修正Hansen-Hurwitz估计量的ACS、跨越边界基于修正Horvitz-Thompson估计量的ACS、不跨越边界基于修正Horvitz-Thompson估计量的ACS)应用于中国乌兰布和沙漠边缘植被花棒密度调查,并对比9种抽样方法精度。结果表明:不跨越边界的基于Horvitz-Thompson估计量的分层自适应群团抽样的效果最佳;分层的抽样方法比不分层的抽样方法效率要高。
关键词:花棒    自适应群团抽样    分层自适应群团抽样    Horvitz-Thompson估计量    Hansen-Hurwitz估计量    模拟抽样    乌兰布和沙漠    
Stratified Adaptive Cluster Sampling Based on the Adjusted Horvitz-Thompson Estimator with the Network Nonoverlapping Strata
Zhu Guangyu1,2, Tang Shouzheng1 , Lei Yuancai1    
1. Institute of Forest Resources Information Techniques, CAF Beijing 100091;
2. Research Center of Forestry Remote Sensing Information Engineering, Central South University of Forestry and Technology Changsha 410004
Abstract: In this paper, a new stratified adaptive cluster sampling method is proposed based on the adjusted Horvitz-Thompson estimator with the network nonoverlapping strata.The mean and variance estimator are proved to be unbiased. Nine sampling methods were used for estimating the density of Hedysarum scoparium in Ulanbuh Desert edge in China, simple random sampling, stratified simple random sampling, adaptive cluster sampling based on the adjusted Hansen-Hurwitz estimator, adaptive cluster sampling based on the adjusted Horvitz-Thompson estimator, stratified adaptive cluster sampling Ⅰ (ACSⅠ) based on the adjusted Hansen-Hurwitz estimator with the network overlapping strata, stratified adaptive cluster sampling Ⅱ (ACSⅡ) based on the adjusted Hansen-Hurwitz estimator with the network overlapping strata, stratified adaptive cluster sampling based on the adjusted Horvitz-Thompson estimator with the network overlapping strata, stratified adaptive cluster sampling based on the adjusted Horvitz-Thompson estimator with the network nonoverlapping strata.The precisions of the nine sampling methods were compared.The result showed that the new stratified adaptive cluster sampling method based on the adjusted Horvitz-Thompson estimator with the network nonoverlapping strata was more effective than the others, and the sampling in stratified populations was more effective than the sampling in non-stratified populations.
Key words: Hedysarum scoparium    stratified adaptive cluster sampling    Horvitz-Thompson estimator    Hansen-Hurwitz estimator    simulation sampling    Ulanbuh Desert    

利用Hansen-Hurwitz(Hansen et al., 1943)估计量和Horvitz-Thompson(Horvitz et al., 1952)估计量,Thompson (1990)首次提出了自适应群团抽样(adaptive cluster sampling,简称ACS),即基于修正Hansen-Hurwitz估计量的ACS、基于修正Horvitz-Thompson估计量的ACS。随后,出现了多种自适应群团抽样设计,分层自适应群团抽样(Thompson,1991)、两阶段自适应群团抽样(Salehi et al., 1997)和两相自适应群团抽样(Felix-Medina et al., 2004)。

Thompson(1991)利用最初交叉次数的期望(expected numbers of initial intersection)、Hansen-Hurwitz估计量和最初交叉概率(initial intersection probabilities)构造了4种不同的分层适应性群团抽样设计,即跨越边界基于Hansen-Hurwitz估计量的分层ACSI、跨越边界基于Hansen-Hurwitz估计量的分层ACSⅡ、不跨越边界基于修正Hansen-Hurwitz估计量的分层ACS、跨越边界基于修正Horvitz-Thompson估计量的分层ACS。它结合了传统分层抽样和适应性群团抽样的优点。目前,传统的分层抽样研究比较多,然而,关于分层适应性群团抽样的研究非常少。

本研究利用网络交叉包含概率,提出了一种新的分层适应性群团抽样方法,不跨越边界的基于修正Horvitz-Thompson估计量的分层ACS,给出估计量公式,并证明了其无偏性。然后,以内蒙古磴口县巴彦高勒镇西南约8 km的乌兰布和沙漠边缘地区为研究区, 该地区植被花棒(Hedysarum scoparium)呈稀少、群团状分布,以花棒密度为研究对象,利用9种抽样方法:分层简单随机抽样(其均值估计为t1、相应的方差估计为v1)、跨越边界基于Hansen-Hurwitz估计量的分层ACSI(其均值估计为t2、相应的方差估计为v2)、跨越边界基于Hansen-Hurwitz估计量的分层ACSⅡ(其均值估计为t2、相应的方差估计为v2)、不跨越边界基于修正Hansen-Hurwitz估计量的分层ACS(其均值估计为t2、相应的方差估计为v2)、跨越边界基于修正Horvitz-Thompson估计量的分层ACS(其均值估计为t3、相应的方差估计为v3)、不跨越边界基于修正Horvitz-Thompson估计量的分层ACS(其均值估计为t4、相应的方差估计为v4)、简单随机抽样(其均值估计为t5、相应的方差估计为v5)、基于修正Hansen-Hurwitz估计量的ACS(其均值估计为t6、相应的方差估计为v6)和基于修正Horvitz-Thompson估计量的ACS(其均值估计为t7、相应的方差估计为v7),进行了抽样模拟试验,这9种抽样方法的最初样本均采用不放回抽取,对比分析了9种抽样方法的精度,寻求最适宜的抽样方法,用以指导研究区稀少、群团状植被的调查。

1 不跨越边界基于修正Horvitz-Thompson估计量的分层ACS 1.1 抽样设计

邻域或邻近(Neighborhood)、网络(Network)、边缘单元(edge unit)、群团(cluster)、临界值(Cα)、自适应群团抽样(ACS)的概念和自适应群团抽样的相关估计量公式见Thompson(1990)雷渊才等(2007),本研究采用一阶邻域。

现以图 1为例说明不跨越边界的分层自适应群团抽样方法。第1阶段,假设总体中有N个单元,将总体划分为L个层(strata),各层标记为h(h=1, 2, …, N),各层包括Nh个单元,从层h中,采取不放回简单随机抽样抽取nh个单元,各层分别独立进行抽样(如图 1,总体单元N=400,层L=2,单元格背景为灰白色且带点的所有单元为第1层,其余的为第2层,第1层的样本单元数N1=110,第2层的样本单元数N2=290。图中标记⊙所在的单元即为最初抽取的样本单元,Σnh=8,最初样本量为8,网格内的数字表示单元属性值)。第2阶段,按照适应性抽样规则,当最初样本单元值满足条件C (μhi表示第h层中第i个单元,相对应的感兴趣的目标变量值为yhi。单元属性值yhicα=0,cα为临界值)时,该单元的相邻单元也入样,如果相邻单元也满足条件,且相邻单元与其在同一层内,则该相邻单元继续入样,直至遇到不满足条件的单元为止(如图 1, 抽中了2个单元值大于临界值的网络, 被深黑色背景的单元所包围的单元为抽中的网络之一)。这个过程就称不跨越边界的分层适应性群团抽样。

图 1 分层自适应群团抽样 Figure 1 Stratified adaptive cluster sampling

最初样本量与最终样本:抽取的最初样本量为,最终样本为最初样本再加上按照适应性抽样规则抽取的样本单元。

不跨越边界的分层自适应群团抽样程序:1)最初样本单元的抽取,通常采用不放回抽样对各个层分别独立抽取最初样本单元,如图 1,第1层中抽取的最初样本单元数n1=2,第2层中抽取的最初样本单元数n2=6,所以,最初样本量=(2+6)=8; 2)临界值的设置和邻域的定义(如一阶邻域);3)以最初样本单元为中心,按照分层自适应群团抽样扩充原则选取额外单元,即得8个网络;4)估计总体均值或总体总和及其相应的方差。

1.2 估计量的提出与证明

考虑到群团不跨越层的边界,将总体划分为K个独立的网络。令yhi为第h层第i个网络单元值之和, xhi为第h层第i个网络的单元数。αhi为第h层第i个网络的交叉包含概率,αhij为最初样本单元与第h层第i个网络和第h层第j网络都相交的联合交叉包含概率。由Thompson(1990)中的包含概率和交叉包含概率的计算公式可得:

zhizhj为Bernoulli随机变量,如果最初样本单元与第h层第i个网络相交,则zhi=1,否则,zhi=0;如果最初样本单元与第h层第j个网络相交,则zhj=1,否则,zhj=0。由Bernoulli随机变量性质得,E(zhi) = nhαhi

由Horvitz-Thompson估计量和简单分层估计量,得总体均值估计量:

(1)

=总体均值。因此,t4为总体均值的无偏估计。t4的方差:

(2)

将样本方差sh2代替Sh2,即可得t4方差无偏估计,

(3)

其中,,显然,sh2为层方差无偏估计,将第h层看作亚总体,证明见Thompson(1990),可以得知t4v4是无偏的。yhiyhj为网络i和网络j的单元值之和。

由这种设计的估计量公式的推导过程,可以得知,它是一种基于Horvitz-Thompson分层自适应群团抽样估计量,因此称之为修正的Horvitz-Thompson估计量。

2 研究区概况与数据采集 2.1 研究区概况

研究地点位于内蒙古西部的磴口县,属于黄河河套地区,灌溉农业发达,境内自然环境分割明显,西部为沙漠戈壁。研究区选在内蒙古西部磴口县巴彦高勒镇西南约8 km黄河西岸绿洲向乌兰布和沙漠过渡的沙漠区,位于农垦区与沙漠交界处,分布有典型的沙地植被,是林业治沙技术试验区。研究区主要乔木树种为沙枣(Elaeagnus angustifolia), 主要灌木树种有白刺(Nitraria tangtorum)、梭梭(Haloxylon ammodendron)、柽柳(Tamarix chinensis)、花棒(Hedysarum scoparium)、盐爪爪(Kalidium foliatum)、柠条锦鸡儿(Caragana korshinskii)和沙蒿(Artemisia ordosica)等。主要草本植物有沙米(Agriophyllum squarrosum)、芦苇(Phragmites australis)、沙鞭(Psammochloa villosa)和沙地旋覆花(Inula salsoloides)等。

2.2 样地设置与数据采集

首先在调查区范围内,选择具有稀少群团状植被的大样地,其面积为1 000 m×1 000 m,将该大样地划分为100块面积为100 m×100 m样地。再将每个样地划分为100个10 m×10 m的小样方。以样地西南角点为原点,测量小样方植株的位置。

调查内容包括100 m×100 m样地的编号、样地面积、每个样地4个地面控制点的三维地理坐标、样地在大样地的位置图、小地形、土壤类型、土层厚度(cm)、优势种、植被起源、树种、权属、造林时间、株行距、植被类型、调查者、调查日期等。以每个小样方(10 m×10 m)为单位进行花棒株数密度的调查,经过调查得大样地花棒总株数为2 107株。

本研究以花棒密度数据作为研究总体,其在大样地中的位置分布状况如图 2。由此图分析可以得知:花棒分布稀少、集聚成群且分布广泛。

图 2 花棒分布 Figure 2 Distribution of Hedysarum scoparium
3 模拟抽样试验设计方案

邻域的定义采用一阶邻域,临界值Cα=0,扩充条件CCα

对比各抽样方法的前提是最初样本相同,最初样本的选取均采用不放回简单随机抽样,简单随机抽样的自适应群团抽样的原理与方法见Thompson(1990)雷渊才等(2007)

单元面积、总体特征和总体划分的层数等见表 1。对总体,采取不同大小的抽样比pi (pi=0.02, 0.04, 0.06, 0.08和0.1),各种抽样比均进行5 000次重复抽样试验。各层参数信息见表 2,为了更直观地理解分层参数信息,请参考图 1图 1即是单元面积为50 m×50 m的总体(抽样比为0.02)。

表 1 模拟试验总体参数 Tab.1 Simulation population experiment parameters
表 2 层参数信息 Tab.2 Stratum parameters information

本次抽样采用的模拟工具是自编的抽样程序,开发语言为VB6.0。

4 结果与分析 4.1 分层抽样设计的样本均值与方差分析

考虑对总体进行分层的情况,由表 13可以得知6种类型估计量的均值和方差估计均值的变化呈现一定的规律:1)当单元面积为10 m×10 m、20 m×20 m、40 m×40 m和50 m×50 m时,各种估计量的均值均非常接近于相应的总体均值,6种均值估计量的相对误差变化范围分别为:0.004%~1.464%,0.009%~1.338%,0.009%~1.338%,0.005%~1.494%,0.367%~3.797%和0.579%~6.682%; 2)当单元面积为10 m×10 m, 20 m×20 m, 40 m×40 m和50 m×50 m时,E(v4)<E(v3)<E(v2)<E(v2)<E(v2)<E(v1), 且E(v2), E(v2)和E(v2)的差异非常小,这是因为当各层样本量一致时,E(t2)=E(t2),E(v2)=E(v2),在这种条件下,如果抽取的网络(或群团)没有跨越层的边界,E(t2)=E(t2)=E(t2),E(v2)=E(v2)=E(v2);3)当单元大小相同时,随着抽样比的增加,6种估计量的均值方差均逐渐变小;4)当抽样比相等时,随着单元面积变大,6种估计量的均值方差逐渐变大。

表 3 分层设计重复抽样估计的花棒密度 Tab.3 Hedysarum scoparium density estimator based on stratified resampling
4.2 不分层抽样设计的样本均值与方差分析

考虑对总体不进行分层的情况,由表 14可以得知3种类型估计量的均值和方差估计均值的变化呈现一定的规律:1)当单元面积为10 m×10 m、20 m×20 m、40 m×40 m和50 m×50 m时,各种估计量的均值均非常接近于相应的总体均值,3种均值估计量的相对误差分别为0.038%~6.087%,0.005%~5.693%和0.164%~5.942%;2)当单元面积为10 m×10 m, 20 m×20 m, 40 m×40 m和50 m×50 m时,E(v7)<E(v6)<E(v5);3)当单元面积相同时,随着抽样比的增加,3种估计量的抽样效率均逐渐增加;4)当抽样比相等时,随着单元大小的增加,3种估计量的抽样效率均递减。

表 4 不分层设计重复抽样估计的花棒密度 Tab.4 Hedysarum scoparium density estimator based on unstratified resampling
5 结论

以花棒密度为研究对象,通过对9种抽样方法(简单随机抽样、分层简单随机抽样、基于修正Hansen-Hurwitz估计量的ACS、基于修正Horvitz-Thompson估计量的ACS、跨越边界基于Hansen-Hurwitz估计量的分层ACSI、跨越边界基于Hansen-Hurwitz估计量的分层ACSⅡ、不跨越边界基于修正Hansen-Hurwitz估计量的分层ACS、跨越边界基于修正Horvitz-Thompson估计量的分层ACS、不跨越边界基于修正Horvitz-Thompson估计量的分层ACS)的比较得出以下结论:

1) 不跨越边界基于修正Horvitz-Thompson估计量的分层ACS的效率最高,简单随机抽样的效率最低;

2) 分层的抽样方法优于不分层的抽样方法;

3) 当单元面积相同时,随着抽样比的增加,9种估计量的抽样效率均逐渐增加;

4) 当抽样比相等时,随着单元面积的增加,9种估计量的抽样效率均递减。

参考文献(References)
雷渊才, 唐守正. 2007. 适应性群团抽样技术在森林资源清查中的应用[J]. 林业科学, 43(11): 132-138. DOI:10.3321/j.issn:1001-7488.2007.11.022
Felix-Medina M H, Thompson S K. 2004. Adaptive cluster double sampling[J]. Biometrika, 91: 877-891. DOI:10.1093/biomet/91.4.877
Hansen M M, Hurwitz W N. 1943. On the theory of sampling from finite populations[J]. Annals of Mathematical Statistics, 14: 333-362. DOI:10.1214/aoms/1177731356
Horvitz D G, Thompson D J. 1952. A generalization of sampling without replacement from a finite universe[J]. Journal of the American Statistical Association, 47: 663-685. DOI:10.1080/01621459.1952.10483446
Salehi M M, Seber G A F. 1997. Two-stage adaptive cluster sampling[J]. Biometrics, 53: 959-970. DOI:10.2307/2533556
Thompson S K. 1990. Adaptive cluster sampling[J]. Journal of the American Statistical Association, 85: 1050-1059. DOI:10.1080/01621459.1990.10474975
Thompson S K. 1991. Stratified adaptive cluster sampling[J]. Biometrika, 78: 389-397. DOI:10.1093/biomet/78.2.389