社会  2007, Vol. 27 Issue (2): 192-205  
0

引用本文 [复制中英文]

赵延东, [挪威]Jon Pedersen. 2007. 受访者推动抽样:研究隐藏人口的方法与实践[J]. 社会, 27(2): 192-205.
[复制中文]
Zhao Yandong, Jon Pedersen. 2007. Respondent-Driven Sampling: Method and Practice of Studying Hidden Populations[J]. Chinese Journal of Sociology(in Chinese Version), 27(2): 192-205.
[复制英文]
受访者推动抽样:研究隐藏人口的方法与实践
赵延东 , [挪威]Jon Pedersen     
摘要: “隐藏人口”的特点是规模较小且成员一般不愿暴露身份,因此很难使用常规抽样方法对其进行研究。近年来出现了一种新的研究隐藏人口的方法——受访者推动抽样(RDS)方法,该方法在传统“雪球抽样”方法的基础上,结合社会网络分析的理论和方法,使研究者有可能根据样本对总体特征做出合理的推论。本文对RDS方法的理论渊源、基本思路、主要操作步骤和原理进行了简要介绍,并探讨了在实际操作过程中应注意的问题。
关键词受访者推动抽样(RDS)    隐藏人口    研究方法    
Respondent-Driven Sampling: Method and Practice of Studying Hidden Populations
Zhao Yandong , Jon Pedersen
Abstract: “Hidden populations” are characterized by their relative small sizes and the unwillingness of the members to be identified. Therefore, it is very difficult to study them by the regular sampling methods. A new sampling method known as respondent-driven sampling (RDS) has emerged in recent years to study hidden populations. Based on the traditional “snowball” sampling method and with the help of social network analysis theories and methods, RDS enables researchers to properly estimate the characteristics of a hidden population from its sample(s). This paper briefly describes the theoretical and methodological backgrounds, basic ideas, major principles, and operational procedures of RDS. It also discusses the problem areas when RDS is actually practiced.
Keywords: respondent-driven sampling    hidden population    research methodology    

近百年来,统计学家和社会科学研究者们已经发展出较为成熟的概率抽样社会调查方法,能够通过对少量样本的分析,准确地估计和描述总体人口的基本特征,但概率抽样方法并非万能的。无论是简单随机抽样,还是后来发展起来的更为复杂的分层、整群和多阶段抽样,都有一个基本的要求,那就是对总体人口的抽样框(sampling frame)要有较为明确的界定,一旦这一条件得不到满足,常规的概率抽样方法就会遇到许多难以解决的问题。

这一问题在研究隐藏人口时表现得尤为突出。所谓隐藏人口(hidden population),指的是具有如下特征的人群:第一,该群体规模较小,在总人口中所占比例极低,而且群体的规模与边界均不清楚,因此很难找到一个好的抽样框;第二,该群体的成员常常因各种原因不情愿暴露自己的身份(Heckathorn,1997:174-199)。比较常见的隐藏人口的例子有:无家可归者、吸毒者、HIV病毒阳性者、流浪艺人等等。正因为具有这些特征,按常规的概率抽样方法来对这些隐藏人口进行抽样是很困难的。原因在于,首先我们很难通过对更大范围总体人口的概率抽样来研究这些子群体,因为后者的规模通常很小,这样的抽样通常是很不经济且有偏误的。我们可以设想一个例子,假设在一个总人口为1千万人的城市中有5万名吸毒者,那么即使我们在全市总人口中抽取一个1万人的概率样本(这已经是相当大的样本了),从中可以得到的吸毒者样本也只有50人左右。如果考虑到多数吸毒者不愿透露自己吸毒的事实这一因素,实际可得的样本可能更少,依靠这么少的样本很难对吸毒者总体情况有一个准确的估计。其次,虽然最理想的方法是先确定要研究的特殊人口总体的抽样框,然后直接对他们做抽样,但问题就是这些人口的总体抽样框极难界定,这样我们几乎无法知道样本被选择的概率,从而也就无法对样本的代表性作出准确有效的估计。我们当然还可以尝试在一些特定的场所中做抽样,如到戒毒所去抽取吸毒者,但这种方法显然是有偏误的——那些不在戒毒所的吸毒者就没有可能被纳入抽样——因此无法准确反映吸毒者总体的情况。

为解决这一问题,研究者们尝试了各种新的方法。在本文中我们将介绍近年来出现的一种对隐藏人口进行抽样的新方法——受访者推动抽样(respondent-driven sampling,以下简称RDS)方法。

一、理论渊源和基本思路

受访者推动抽样方法由美国学者道格拉斯·赫克索恩(Douglas Heckthorn,1997:174-199;2001:11-34)最早提出并不断发展完善,现已成为研究隐藏人口的一种重要的抽样研究方法。这一抽样方法主要与以下两者有着理论渊源:雪球抽样方法与社会网络理论。

RDS方法源自于传统的雪球抽样(snow-ball sampling)方法,后者原本是一种非概率抽样方法,先对总体中少数成员开始调查,再通过这些成员寻找他们所知道的符合要求的新的总体成员,样本就这样像滚雪球一般越来越大。这种方法的最大缺陷是有很大偏误,无法确保所有总体成员有相同概率被纳入样本,因此无法根据样本来推论总体的情况(风笑天,2001)。RDS方法在抽样方式上承袭了雪球抽样方法的基本形式,即由受访者不断提出新的受访者名单的连锁推荐(chain-referral)方式,但同时又有效地解决了抽样偏误和抽样概率未知等问题,从而可以对总体情况作出相对准确的估计。

那么RDS方法是如何解决传统雪球抽样无法推论总体特征的问题的呢?那是因为它引入了社会网络这一概念,社会网络分析(social network analysis)是一种分析社会结构的理论和方法,它将个人或群体视为一个个点,将人与人之间、群体与群体之间的联系视为一条条连线,整个社会结构就可以视为由各个点及其连线构成的一张大网络(Scott,2001)。RDS抽样方法根据社会网络理论认为,个人总是生活在一定的社会网络之中的,即使是这些隐藏人口也不可能是完全与世隔绝的原子化个体,他们之间一定也会存在由人际互动构成的社会网络。一旦我们知道了构成隐藏人口总体的社会网络的情况,我们也就可以对总体人口的特征有一个比较清楚的了解。可见,RDS方法与常规抽样方法的最大区别在于:常规抽样方法是先从界定清晰的总体中抽取出有一定数量的有代表性的样本,然后根据样本情况直接估计总体的参数;而RDS方法是从组成了界定不清的总体的社会网络中抽取样本,然后先估计样本所在社会网络的情况,然后再根据网络情况来推断总体的情况(参见图 1)。

图 1 常规抽样方法与RDS方法的差异

研究社会网络的学者们将我们所在的世界称为一个“小世界”(small world),在这个“小世界”里,任意两个人之间的网络距离其实是相当短的(Milgram,1967:1-6;Watts & Strogatz,1998:440-442;Watts,1999:493-527)。“小世界”概念的提出者美国社会心理学家米尔格拉姆(Milgram,1967:1-6)曾经在全美国随机选择了一组“发送者”和一组“接收者”,将他们随机组织成一对一对的小组。然后给发送者一封信,要求他(她)只能通过熟人托熟人的方式将这封信交到指定的接收者手中。研究结果发现大多数发送者都能把信最终交给接收者,而且中间所托的熟人的个数(社会网络研究中的术语为“路径长度”path length)平均只需约5人。因为人类生活的网络特性,我们可以认为只要保证RDS的调查链条足够长,即使是那些相对封闭和孤立的隐藏人口成员也将最终被纳入我们的研究样本之中。

二、基本步骤和原理 (一) RDS方法的基本步骤

一个标准的RDS调查是由若干轮(wave)构成的,具体步骤如下:

1.研究者先任意找到几个要研究的隐藏人口(以下称之为目标群体)的成员,这些成员被称为“种子”(seeds),对种子进行调查后,给他们发放一定数量的物质奖励。对这些“种子”的调查是整个研究的起始轮次,或称第零个轮次(wave 0)。

2.研究者给每个“种子”发放若干张首轮调查招募券(recruitment coupon),招募券上必须标明新受访者(被招募人)的编号(编号的重要性在下文中会专门说明)。要求“种子”把这些招募券分别发给自己认识的、符合调查要求特征的目标群体成员。同时承诺:只要得到招募券的人来接受调查,招募他们的“种子”就会得到奖励,持招募券前来接受调查的人也会得到奖励。不仅如此,新来的受访者还会得到同样数量的招募券以招募更多的人来接受调查。就像“种子”一样,他们也会因招募到的每一个新人得到一份额外的奖励。

3.研究者确认每一个持首轮招募券来接受调查的人是否属于目标群体成员,如果符合要求,就对其进行调查。调查后给他们发放奖励,同时给招募他们的“种子”发放奖励。这一过程称为研究的第一轮次(wave 1)。

4.研究者再给每一个第一轮受访者发放同样数量的次轮调查招募券,券上标明新一轮被招募人的编号。要求他们把招募券发给自己认识的目标群体成员,并同样承诺会同时为持券接受调查者和招募者发放奖励,新的受访者还会得到招募新人和获得奖励的机会。

5.经确认后调查每个持次轮招募券来接受调查的目标群体成员,并奖励受访者及其招募人,完成第二轮次调查(Wave 2)。

6.重复以上步骤,进行下一轮调查,直到达到研究设计所确定的样本总数为止。

由以上介绍可知,RDS方法的操作步骤在开始时与雪球抽样是一样的,研究者可以先任意找到几个目标群体的成员,对他们进行调查,然后要求他们帮助找到新的具备调查要求特征的目标群体成员。但与传统雪球抽样法不同的是,RDS方法不是要求这些初始受访者简单地推荐新的受访者,而是通过物质激励,要求他们直接招募新的受访者来接受调查,这正是该方法被称为受访者推动的原因之所在。

(二) 双重激励机制

RDS方法的一大特点在于其招募新的受访者的机制,这种招募机制称为双重激励机制(dual incentive mechanism)。所谓双重激励,是从两个意义上说的。首先,每一个受访者参加此项研究后,不但可以在接受调查时得到一份奖励,还会因自己招募到的每一个新受访者而得到奖励,这对他们构成了一种双重激励。其次,对除“种子”以外的每个受访者而言,参加项目不仅会使自己得到好处,而且可以使他(她)们的朋友——即招募者得益,这也对受访者形成一种双重的激励,促使他们积极地加入到研究中来。

双重激励机制对保证RDS的抽样准确性具有特殊的意义。比如说,如果一个目标群体中存在较大的贫富分化,有一些很富有的人可能对接受调查所获奖励并不感兴趣,我们可能会担心按RDS方法抽取的样本中可能只会包括那些对奖励感兴趣的穷人。但是,正由于双重激励机制的存在,较富有的被调查者们会发现参加研究不仅意味着自己能得到奖励,更重要的是能使自己的穷朋友,即被招募者——得到奖励,而这对于后者来说可能是非常重要的。这样,人们接受调查的动力不仅来自于为自己谋利的动机,而且来自于维系朋友之间联系的义务和责任动机。这样,双重激励机制就保证了目标群体中具有不同特征的成员都有可能被抽中。

(三) 网络招募方式和马尔可夫过程

赫克索恩证明了RDS方法中的网络招募方式实际上是一个一阶马尔可夫过程(first-order Markov process)1,并由此得出两个基本定律:第一,只要保证足够的调查轮次,无论调查招募者的起点情况如何,最终都可以达到样本的均衡状态;第二,通过RDS方法抽样可以很快达到样本的均衡状态,因为一阶马尔可夫链的收敛速度是很快的(Heckathorn,1997:174-199)。由第一个定律可知,我们在研究开始选择“种子”时无需刻意保持“种子”的随机性2,第二个定律则表明RDS方法一般无需经过很多轮次即可达到研究目的。

我们可以通过一个假设来说明这一问题。假定一个目标群体中的男性与女性招募新的受访者的性别比例是不相同的,其中男性有70%的可能性招募男性,所招募女性的可能性只有30%;相反,女性招募新人的男女性别比例为50%对50%,这样可以构建以下招募转移概率矩阵(transition matrix):

表 1 招募转移概率矩阵

由于RDS招募新样本的过程是一个一阶马尔可夫过程,因此每一轮样本的性别比只与上一轮情况有关,这样可知每一轮样本性别比等于上一轮的性别比向量×招募转移概率矩阵。假定我们最初选定的“种子”的性别比为:男性10%,女性90%,则第一轮样本中的男女性别比应为:

$ {\left({0.1\;\;0.9} \right)^*}\left[ {\begin{array}{*{20}{c}} {0.7}&{0.3}\\ {0.5}&{0.5} \end{array}} \right] = \left({0.52\;\;0.48} \right) $

而第二轮样本中的男女性别比应为:

$ {\left({0.52\;\;0.48} \right)^*}\left[ {\begin{array}{*{20}{c}} {0.7}&{0.3}\\ {0.5}&{0.5} \end{array}} \right] = \left({0.60\;\;0.39} \right) $

依此类推,第三轮及以后样本的男女性别比分别为:

表 2 第三轮至第八轮男女性别比例(推论)

可见从第六轮开始,样本中的男女性别比已经达到均衡状态,不再变化。这证明马尔可夫过程的快速收敛特性的确可以使我们能在很短的轮次内达到样本特征的均衡。

为说明该过程不受起始样本特征的影响,我们可以改变“种子”中的性别比例后再看结果如何。例如,再假定“种子”的性别比分别为:男性50%,女性50%,以及男性90%,女性10%,分别计算这三种情况下不同轮次的性别比情况,结果如下表所示:

表 3 三种不同起始情况下的性别比变化情况

由此可见,无论起始样本的性别分布如何,只要每一轮中不同性别者招募新人的性别比率(即转移概率矩阵)不变,最终样本中的男女性别比都将稳定于0.625:0.375,而且这一均衡态大约在第五轮或第六轮就可以达到。

(四) 招募券

招募券是RDS方法中另一个值得注意的重要环节。在前面介绍操作步骤时已经强调过,在招募券上必须标明被招募者的编号,每个编号都要包含反映此人的招募过程信息。例如,通过首轮第3号“种子”招募的第2号受访者可编为320000,而通过首轮第1号“种子”招募的第3号受访者招募的第3号受访者招募的第2号受访者的编号应为133200,其余依次类推(假定这次研究一共准备进行六轮,因此预留了六位号码)。在实际调查中,还可以在招募券上注明研究的名称、执行单位和联系电话,以加强研究的权威性,获得受访者的信任。另外还可以在券上注明调查地点所在地,方便受访者找到调查点。

招募券对研究者的主要功能有两个:第一是我们只对持有招募券的受访者进行访问,并根据招募券上的编号为招募者发放奖励。第二个更重要的功能是我们要在每一份问卷上记录该受访者所持招募券上的编号,借以跟踪整个调查的流程。在后面介绍如何推论总体时我们会看到,只有准确了解每一受访者的被招募程序,我们才能计算网络中不同群体之间相互转移的概率,并有效地推论网络及总体的情况。因此,妥善管理并记录招募券是非常重要的。

给每个受访者发放多少招募券合适呢?这个数量不应太小,因为总会有些人不再招募新的受访者,如果每个人的招募券太少,可能不足以使整个调查滚动起来,但数量也不能过大,因为如果每个人一次招募的人很多,可能调查不了几轮就会达到计划研究样本数量的上限,这样对研究是不利的。

(五) 调查轮次、时间与样本规模

RDS研究中的调查轮次应该以多少为宜?从原则上说调查轮次应该是越多越好。理由是调查轮次越多,就越有可能将那些处于比较孤立的子网络中的成员纳入样本,但与此同时,轮次的增加将使整个样本规模以几何级数的速度迅速膨胀,因此轮次的多少也要受到研究经费和人力投入的限制。另外,招募过程的马尔可夫特性也说明其实无需太多轮次即可达到样本的均衡态。因此我们应根据研究各方面条件的约束来确定调查轮次。

与此相关的另一个问题是调查时间的长短如何确定。RDS的调查持续时间并无一定的要求,时间长短会受到研究对象特征、调查地点和预算等多种因素的影响。如果研究对象的“隐藏”程度不是很深,也就是说相对容易找到的话,调查时间可以相对较短;反之如果研究对象隐藏较深或彼此间隔离程度很高,就需要更长的调查时间(赫克索恩曾经用了一年的时间来调查吸毒者)。当然,调查地点和研究预算也是决定调查时间的重要因素。

常规的概率抽样调查所需样本规模(样本容量)大小是可以根据总体规模、研究所需估计精确度、总体的异质性程度等参数计算出来的(风笑天,2001),但由于隐藏人口的总体不明,因此RDS调查的样本规模无法用此方法来确定,更多地是根据研究的预算约束以及研究的实际进行情况来确定。有趣的是,由于隐藏人口一般总体非常小,用RDS方法有时可能会把当地所有的隐藏人口都纳入研究,变成了一种普查研究。

三、根据样本推论网络及总体情况

前面已经介绍过,RDS方法是通过对社会网络特征的推论来进一步推论总体情况的。赫克索恩等人证明了RDS研究中,在假定网络中所有的联系都是双向的(即A认识B,而B也认识A)的前提下,我们只需知道每个子群体的平均网络度数(degree)3,再知道子群体间的转移概率(一个子群体成员有多大概率可能招募到另一个子群体的成员),就可以推算出所有子群体在总体中所占比例(Salganik & Heckathorn,2004:193-239)。因此在实际研究中根据样本估计总体情况时所需的两条最重要信息是:1、受访者的网络度数,这可以通过询问受访者认识多少目标群体的成员而得到;2、受访者的被招募程序,这可以通过对招募券上的反映受访者被招募过程的编号记录加以确定。

赫克索恩等通过数学推演,分别得到了根据以上两条信息计算子群体网络度数、群体间转移概率并最终推断总体特征的公式。这些推演的假设只有一个,那就是目标群体中的成员都必须通过网络关系或直接或间接地联系起来。4

假设一个目标群体的总体网络仅由A、B两个子群体构成(比如说,由男性和女性构成),那么计算子群体平均网络度数的公式分别为:

$ {{\hat D}_A} = \frac{{{n_A}}}{{\sum\limits_{i = 1}^{{n_A}} {\frac{1}{{{d_i}}}} }} $ (1)
$ {{\hat D}_B} = \frac{{{n_B}}}{{\sum\limits_{I = 1}^{{n_B}} {\frac{1}{{{d_i}}}} }} $ (2)

其中$\hat D$A是子群体A的平均度数的估计值,nA是A群体的样本数,di为每一样本的网络度数,其余依此类推。

计算不同子群体间转移概率的公式为:

$ {{\hat C}_{A, B}} = \frac{{{r_{AB}}}}{{{r_{AA}} + {r_{AB}}}} $ (3)
$ {{\hat C}_{B, A}} = \frac{{{r_{BA}}}}{{{r_{BB}} + {r_{BA}}}} $ (4)

其中${\hat C}$AB是A群体成员招募B群体成员的概率估计值,rAB是A群体成员招募B群体成员的次数,rAA是A群体成员招募自己所在群体成员的次数,其余依此类推。

根据以上网络参数推算总体特征的公式为:

$ {{\hat P}_A} = \frac{{{{\hat D}_B} \cdot {{\hat C}_{B, A}}}}{{{{\hat D}_A} \cdot {{\hat C}_{A, B}} + {{\hat D}_B} \cdot {{\hat C}_{B, A}}}} $ (5)
$ {{\hat P}_B} = \frac{{{{\hat D}_A} \cdot {{\hat C}_{A, B}}}}{{{{\hat D}_A} \cdot {{\hat C}_{A, B}} + {{\hat D}_B} \cdot {{\hat C}_{B, A}}}} $ (6)

其中${\hat P}$A${\hat P}$B分别是A群体和B群体在总体中所占比例的估计值。5

通过这些计算方法,我们可以解决传统雪球抽样方法无法推论总体的缺陷,能够对总体的特征做出较准确的推断。目前已经有专门的统计软件RDSAT可对RDS所得数据进行统计分析。

四、小结与讨论 (一) RDS方法小结

RDS方法在传统的雪球抽样方法基础上,引入了社会网络分析的理论和方法,从而弥补了雪球抽样无法推论总体的缺点,为我们研究难以用常规方法抽样的“隐藏人口”提供了一种有效的抽样方法。

由于RDS不是直接通过样本来推断总体,而是根据样本所在网络情况来推断总体,因此它不仅可以告诉我们目标群体的总体特征,而且可以告诉我们目标群体是如何通过网络联结起来的。这对于研究目标群体的社会行为提供了更为丰富的信息。例如,当我们研究HIV阳性反应者时,他们的网络联系情况将有助于我们理解HIV病毒的传播过程。

RDS方法的优势在于揭示目标群体的结构性特征,它不能直接估计目标群体的总体实际规模,但是我们如果能得到一些其他制度性参数时,也可以对总体的规模作出相应的估计。

在实际操作中,RDS方法还体现出许多独特的优势:它可以吸引所有符合条件的目标群体成员主动来接受调查,而无需花费大量时间精力去寻找这些人,也基本上不会遇到拒访的问题,因此它的成本较低,调查组织和实施也更方便。另外,由于马尔可夫过程的快速收敛特性,一般只需经过几轮调查就可达到样本特征的均衡态,因此RDS的调查效率也是比较高的(Semann et al., 2002:213-223;Salganik & Heckathorn,2004:193-239)。

当然RDS方法也有它的局限,由于它的前提预设是目标群体的成员都可通过直接或间接的网络关系联结起来,因此它不适用于一些成员间彼此隔绝的群体。例如,我们不能用RDS方法来调查逃税者群体,因为他们的行为多是个体行为,彼此间很少联系。另外,RDS通过对受访者进行物质激励的方式吸引他们参加研究,这在一定程度上会带来一些研究的伦理问题。尽管RDS方法一般都会强调应允许受访者自由决定是否接受调查,但对这种抽样方法的研究伦理问题还是存在较多的争议。

目前RDS方法已经在一些对特殊群体的研究中得到应用。下面我们将结合一个使用了RDS抽样方法的社会调查实例,对RDS方法操作过程中存在的一些问题进行讨论。

(二) 实际操作的经验及问题探讨

2006年3月,中国科技促进发展研究中心、挪威FAFO应用国际研究所和南开大学云南研究院共同在云南省瑞丽市开展了一项应用受访者推动方法了解当地移民儿童生活状况的社会调查,6移民儿童在许多方面具有“隐藏人口”的特点,因此适合使用RDS方法。在实地研究中,我们发现以下几个问题值得注意和探讨。

1.在开始正式调查前,一定要对当地的基本情况以及调查的目标群体情况作一些预先了解,以确定研究组织方案,包括“种子”的个数、调查点的数量和分布、调查员的数量及调查的时间安排等具体事宜。

2.目标群体应有清晰的界定,而且要有易于观察的显著特征。这不仅便于受访者明确自己要招募对象的条件,也便于研究者确认新的受访者是否属于我们要研究的目标总体。例如,在我们的研究中,我们最终确定了研究的目标群体是“年龄在8-16岁之间、目前在瑞丽居住,且户口不在瑞丽市的少年儿童”。如果标准不明确或过于复杂,就会大大增加调查的难度。

3.奖励的数额和方式应根据调查地的实际情况和受访者的特点来确定,奖励数额不能太小,太小将不足以对受访者形成激励,调查无法继续滚动下去;但奖励数额亦不宜过大,如果过大则一方面会给研究的预算带来很大压力(RDS的样本是以几何级数的速度增长的,而且奖励是双向奖励,不仅给受访者,而且给招募人),另外如果激励力度过强,可能会导致招募者的做假行为,加大了甄别合格受访者工作的难度。奖励方式一般是直接发钱,但对某些特殊群体也可发放实物,如对无家可归者发放食物,给儿童发放玩具等。在瑞丽儿童调查中,我们就结合使用现金和玩具作为奖励。

4.调查点的设立也是一个需要因时因地制宜的问题。RDS方法的一般做法是选择一个或多个容易找到的地点作为固定的调查点,然后要求招募者把他们所招募的人带到调查点来接受调查。设立多少个调查点要根据调查地区的大小来确定,涉及的地理范围越大,设立的调查点越多。选择的地点除了要方便受访者寻找以外,还应考虑受访者的特点。在瑞丽调查中,由于我们的调查范围只限于瑞丽市区,因此一共只设立了两个调查点。另外考虑到受访者中包括有流浪儿童,我们特别注意避免离政府、公安局较近的地点,而是选择了游乐园等更为中性的场所,以消除流浪儿童的顾虑。

5. RDS的样本是以几何级数的速度增长的,在调查开始时,只会对几个“种子”调查,而随着调查轮次的进展,会有越来越多的受访者到来。更为麻烦的是,这些受访者何时到来基本上是不受调查者控制的。可能发生在某些时点突然出现一大批新到来的受访者的情况,在调查员和调查场所面积固定的情况下,这会给调查组织实施工作带来巨大的压力。在瑞丽调查中,出现高峰期时,有的孩子要排近两个小时的队才能轮到接受调查。在这种情况下,如何维持调查现场的秩序和安全,并及时顺利地完成对这些人的访问就成了很严重的问题。我们认为,在未来的调查中可以尝试与招募人预约好时间,要求他们在指定时间带自己招募的人来接受调查,这样就可以对时间和人流有一定的安排,避免出现“拥堵”现象。另外,如果条件允许,也可以考虑电话预约调查时间等方式。

6. RDS方法是通过受访者的社会网络来招募新成员的,这种招募方式有可能导致样本的重复。由于某些特殊的隐藏人口群体可能有更紧密的网络联系,样本重复的问题可能更严重。比如说,几个“种子”有可能同时招募了同一个新的受访者,还有的招募者可能会选择一些已经接受过调查的人。这不仅会降低调查的效率,还可能加大以后的分析推论工作的难度,因此应尽量避免重复调查的出现。有研究者建议可以为每个受访者拍摄照片来防止重复抽样(Salganik & Heckathorn,2004:193-239),但这样做不仅会增加成本,而且对于某些不愿暴露身份的群体来说可能也并不适合。在瑞丽调查中,我们在甄别新的受访者是否符合调查条件时,会追问他(她)们是否已经接受过调查,如果已经接受过,就将其定义为不符合条件者而终止访问。另外我们发现这一问题其实与调查点的多少和分布也有关系,调查点越多,分布越散,就越可能出现重复问题。因此不同点之间的调查员定期的轮换办法或许也可以在一定程度上减少样本重复的问题。

7. RDS方法假定所有受访者都是平等的,行动都是自由的,除了网络招募的力量以外,不受其他人或其他因素的控制和影响,但这一预设在现实生活中并不一定总能成立。在瑞丽调查中我们就发现在小学生样本中男学生偏多,女学生偏少,后来通过了解,发现这可能与家长有关。家长们对男孩子一般管束较松,而对女孩子去接受这样一群陌生人的调查则疑虑更多,这样,女孩子常常会被家长制止来接受调查。这种外来的干预就可能造成整个样本的偏误。另外,在调查中我们还发现出现了年龄较大的孩子抢夺年龄较小孩子的招募券的事情,这些也有可能破坏我们对招募过程的追踪,给以后的推论和分析带来麻烦。

作为一种新出现的抽样方法,RDS方法还存在许多不完善、不成熟之处。以上提到的这些问题,有待于我们在今后的研究中进一步探索和完善。

注释

1 如果某一事件每次发生状态转移时,都只与上一时刻的状态有关,而与过去的状态无关,则称此状态转移过程为马尔可夫过程。

2 为了有效地推论网络和总体的情况,RDS方法假设“种子”的抽取概率是与“种子”的网络度数(有关网络度数的定义在后文关于如何根据样本推论总体情况时有详细说明)高低成比例的,但赫克索恩等证明了因为招募方式的马尔可夫特性,这一假设并不需要严格遵守,也就是说“种子”的选择可以是任意的。当然,在实际操作中为方便起见,我们可以尽量使“种子”的分布更均匀一些(或者说异质性更强一些),但这并非RDS方法所必需的。

3 在社会网络分析中,一个节点的度数等于所有与其有联结的相邻点的总和,或者等于该点在邻接矩阵中所在行或列的所有非零值的总和。如果邻接矩阵的数值是二分的(只有“有关系”和“没有关系”这两种情况),则该点的度数即等于该点在邻接矩阵中的行总计或列总计(Scott,2001)。

4 在计算平均网络度数时其实还有一个假设,那就是“种子”的被选择概率与其度数大小成比例。但由于前面介绍过的招募的马尔可夫特征,这一假设并不是很严格的(参见Salganik & Heckathorn,2004)。

5 限于篇幅,以上公式的具体推演过程均未列于此文中,有兴趣者请直接参考Salganik & Heckathorn(2004)

6 该项目名称为“‘受访者推动’调查方法培训”,项目得到了挪威外交部的资助。

参考文献(Reference)
风笑天.2001.社会学研究方法[M].中国人民大学出版社.
Heckthorn, D. 1997. "Respondent-Driven Sampling: A New Approach to the Study of Hidden Populations." Social Problems (44). http://www.jstor.org/stable/3096941
——. 2001. "Respondent-driven Sampling Ⅱ: Deriving Valid Population Estimates from Chain-referral Samples of Hidden Populations." Social Problems (49). http://cn.bing.com/academic/profile?id=dda7fc8e0532c7bd91dc87766b5f222e&encoded=0&v=paper_preview&mkt=zh-cn
Salganik, M and Heckathorn, D. 2004. "Sampling and Estimation in Hidden Populations Using Respondent-Driven Sampling." Sociological Methodology (34). http://cn.bing.com/academic/profile?id=cd81c16fc03f503cdcdb7083fa78cf72&encoded=0&v=paper_preview&mkt=zh-cn
Scott, J. 2001. Social Network Analysis: A Handbook (2nd edition). Sage publication. http://cn.bing.com/academic/profile?id=3bf7ca85123773c552c98ec316c9bc00&encoded=0&v=paper_preview&mkt=zh-cn
Semann, S., Lauby, J. and Libeman, J. 2002. "Street and Network Sampling in Evaluation Studies of HIV Risk-reduction Interventions." AIDS Reviews (4).
Watts, D. 1999. "Networks, Dynamics, and the Small World Phenomenon." American Journal of Sociology (105). http://cn.bing.com/academic/profile?id=68093d9d1aaaf47246dcf01cdac5d00e&encoded=0&v=paper_preview&mkt=zh-cn
Watts, D. and Strogatz, H. 1998. "Collective Dynamics of 'Small-world' Networks." Nature (393). http://cn.bing.com/academic/profile?id=12446758e1b6c87e9b0ccf67af0e9821&encoded=0&v=paper_preview&mkt=zh-cn