广东工业大学学报  2018, Vol. 35Issue (4): 51-55.  DOI: 10.12052/gdutxb.180042.
0

引用本文 

罗薇. 抽样调查中计量误差的分解及应用[J]. 广东工业大学学报, 2018, 35(4): 51-55. DOI: 10.12052/gdutxb.180042.
Luo Wei. Decomposition and Application of Measurement Errors in Survey Sampling[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2018, 35(4): 51-55. DOI: 10.12052/gdutxb.180042.

基金项目:

国家社会科学基金资助项目(17BTJ037);广东省哲学社会科学“十二五”规划项目(GD15XGL09)

作者简介:

罗薇(1980–),女,讲师,博士,主要研究方向为统计调查与数据分析。

文章历史

收稿日期:2018-03-05
抽样调查中计量误差的分解及应用
罗薇1,2     
1. 广东工业大学 管理学院,广东 广州  510520;
2. 广东工业大学 大数据战略研究院,广东 广州  510006
摘要: 建立了以计量误差作为随机变量的一般性计量误差模型, 从方差和计量偏差两类误差效应来对误差进行分解, 进一步从方差中分离出计量方差, 包括简单计量方差和相关计量方差, 以及抽样方差, 并得出上述误差的计算公式和估计方法. 针对抽样实践中最常见的调查员误差, 结合调查员分配方式, 提出使得重复调查中计量结果的相关系数尽可能小是控制相关计量方差的关键, 而增加子样本中调查员的数量可以有效减少调查员方差.
关键词: 计量误差    相关计量方差    相关系数    调查员误差    
Decomposition and Application of Measurement Errors in Survey Sampling
Luo Wei1,2     
1. School of Management, Guangdong University of Technology, Guangzhou, 510520;
2. Institute of Big Data Strategic Research, Guangdong University of Technology, Guangzhou, 510006
Abstract: With measurement error modeled as the random variables, a general measurement error model is presented. It decomposes the errors into variance and measurement bias. The variance can be further decomposed into measurement variance and sampling variance. The measurement variance is composed with simple measurement variance and correlated measurement variance. The calculation formula and estimation method of the above errors are obtained. According to the most common interviewer effects in survey practice, combined with investigator assignments, it is proposed that the low correlation coefficient of measurement results in repeated surveys is the key to control the correlation measurement variance, and that increasing the sub-sample interviewers can effectively reduce investigator variance.
Key words: measurement error    correlated measurement variance    correlation coefficient    interviewer variance    

在抽样调查中,计量误差指样本单位的观测值与真实值不一致而产生的随机性或系统性误差[1-2]. 随机性计量误差主要源于调查员、被调查者进行调查时的主观性特性,当样本量较大时,这些误差得以相互抵消,不会对调查估计的结果造成太大的影响. 而系统性误差往往来自调查设计不合理、调查员误导、被调查者对调查内容的误解或不愿意做出真实的回答等,这些因素对调查结果的影响是系统性的,使调查获得的数据产生偏差,即使在大样本观测中这种误差也无法消除[3-4].

假设对于总体 $U$ 的每个总体单位 $k$ ,其真实值为 ${\theta _k}$ ,但是调查样本 $s$ 获得的数据可能出现了偏差,最终记录的数据是与真实值 ${\theta _k}$ 有差异的数值 ${y_k}$ ${y_k} - {\theta _k}$ 称为个体计量误差. 例如理论上,总体总和的 $\pi $ 估计量可以表示为 $\sum\nolimits_s {{\theta _k}/{\pi _k}} $ ,而实际为 $\sum\nolimits_s {{y_k}/{\pi _k}} $ ,所以,当观测值 ${y_k}$ 与真实值 ${\theta _k}$ 不一致时,计量误差可能对统计推断带来偏差. 本文将建立一般性的计量误差模型,将其分解为计量方差、抽样方差和计量偏差,采用重复调查方法对模型的有关参数进行估计,并应用于度量调查员误差的影响.

1 简单计量误差模型

为了评估计量误差对调查估计精度的影响,本文将建立一个计量误差作为随机变量的简单计量误差模型:对于给定的样本 $s$ ,假设测量过程产生的随机变量 ${y_k}$ $\left( {k \in s} \right)$ 服从特定联合概率分布(给定样本 $s$ 的条件下),称为计量误差模型,用 $m$ 来表示,简单计量误差模型可以理解为观测值 ${y_k}$ 是真实值 ${\theta _k}$ 和计量误差 ${\varepsilon _k}$ 的和,即

${y_k} = {\theta _k} + {\varepsilon _k},$ (1)

则样本设计和计量模型的联合期望Epm(·)和联合方差Vpm(·)可以分别表示为

${E_{pm}}\left( \cdot \right) = {E_p}\left[ {{E_m}\left( { \cdot \left| s \right.} \right)} \right],$ (2)

其中样本设计 $p\left( \cdot \right)$ 的期望为 ${E_p}\left( \cdot \right)$ ,给定样本 $s$ 条件下计量模型的条件期望为 ${E_m}\left( { \cdot \left| s \right.} \right)$ .

${V_{pm}}\left( \cdot \right) = {E_p}\left[ {{V_m}\left( { \cdot \left| s \right.} \right)} \right] + {V_p}\left[ {{E_m}\left( { \cdot \left| s \right.} \right)} \right],$ (3)

其中 $p\left( \cdot \right)$ 的方差为 ${V_p}\left( \cdot \right)$ ,给定样本 $s$ 条件下计量模型的条件方差为 ${V_m}\left( { \cdot \left| s \right.} \right)$ .

模型表明对任何给定的样本 $s$ ,观测值 ${y_k}$ ( $k \in s$ )的期望为 ${\mu _k} = {E_m}\left( {{y_k}\left| s \right.} \right)$ ,方差为 $\sigma _k^2 = V_m \left( {{y_k}\left| s \right.} \right)$ ${y_k}$ ${y_l}$ ( $k,l \in s$ )之间有协方差 ${\sigma _{kl}} = {C_m}\left( {{y_k},{y_l}\left| s \right.} \right)$ . 由于模型的矩并不依赖于样本 $s$ [1],因此对于所有 $k \in U$ ,第 $k$ 个总体单位的包含概率 ${\pi _k} > 0$ .

为了有效地利用计量误差模型进行计量误差效应的识别,有必要对其进行明确的定义. 对给定的概率样本 $s$ 和既定的观测数据过程,假设在同一样本 $s$ 下,对 ${y_k}$ ( $k \in s$ )的测量可以独立地重复多次,所以每个总体单位 $k \in s$ 得到一系列观测值,观测值 ${y_k}$ 虽然是变动的,但会围绕着其“长期”期望 ${\mu _k}$ 和“长期”方差 $\sigma _k^2$ 随机波动,而且总体单位 $k$ $l$ 的一系列重复观测值的协方差为 ${\sigma _{kl}}$ .

2 均方误差的分解

为了得出总体总和 ${t_\theta }$ 的估计值 $\hat t$ ,令计量误差为 $\hat t - {t_\theta }$ 。由于 ${t_\theta }$ $\hat t - {t_\theta }$ 均未知,即对一次抽样而言,计量误差并不可测,所以下文采用均方误差的概念来度量误差,即考虑按某种抽样方法得到的全部可能样本,计算每个样本的估计值 $\hat t$ ,以及全部估计值实际误差的均值[5]

${\rm{MS}}{{\rm{E}}_{pm}}\left( {\hat t} \right) = {E_{pm}}\left[ {{{\left( {\hat t - {t_\theta }} \right)}^2}} \right].$ (4)

为了进一步理解计量误差对 $\pi $ 估计量精度的影响,对均方误差进行分解, ${\hat t_\pi }$ 的均方误差分解成方差(重复观测下变动误差)和计量偏差(对个体的计量误差造成参数估计的系统性误差):

${\rm{MS}}{{\rm{E}}_{pm}}\left( {{{\hat t}_\pi }} \right) = {V_{pm}}\left( {{{\hat t}_\pi }} \right) + {\left[ {{B_{pm}}\left( {{{\hat t}_\pi }} \right)} \right]^2}.$ (5)

式(5)右边第一部分方差还可以分解为

$\begin{split}{V_{pm}}&({\hat t_\pi }) = {E_{pm}}\{ {[{\hat t_\pi } - {E_{pm}}({\hat t_\pi })]^2}\} =\\ &{E_p}[{V_m}({\hat t_\pi }|s)] + {V_p}[{E_m}({\hat t_\pi }|s)] = {V_1} + {V_2}.\end{split}$ (6)

${E_p}$ ${V_p}$ 是基于抽样设计的期望和方差, ${E_m}$ ${V_m}$ 是对样本单位重复观测下的期望和方差,其中 ${V_1}$ 称为计量方差,反映对总体单位测量的不确定性造成的参数估计方差的增大,又可以分解为

$\begin{split}{V_1} = & {E_p}[{V_m}({{\hat t}_\pi }|s)] = {E_p}(\sum {\sum\nolimits_s {{\sigma _{kl}}/{\pi _k}} } {\pi _l}) = \\ & \sum {\sum\nolimits_U {({\pi _{kl}}/{\pi _k}{\pi _l})} } {\sigma _{kl}} = \\ & \sum\nolimits_U {\sigma _k^2/{\pi _k} + } \sum\limits_{k \ne l} {\sum\nolimits_U {({\pi _{kl}}/{\pi _k}{\pi _l}){\sigma _{kl}}} } = \\ & {V_{11}} + {V_{12}}.\end{split}$ (7)

其中样本 $s$ 的包含概率为 ${\pi _k}$ ${\pi _{kl}}$ . ${V_{11}}$ 称为简单计量方差,源于重复调查中调查单位观测值的随机变动. ${V_{12}}$ 称为相关计量方差,取决于不同调查单位观测值的协方差,反映不同调查单位计量误差的相关性[6]. 显然,随着总体规模的增加,调查单位观测值的准确性将对方差造成较大的影响,在另一种极端情形下,当同一调查单位的所有重复测量值都相等,即全部的 $\sigma _k^2 = 0$ ,则 ${V_{11}} = 0$ ;当所有 $k \ne l$ ,有 ${\sigma _{kl}} = 0$ ,则 ${V_{12}} = 0$ ,调查单位间的计量相关性可能会对方差造成较大的影响,例如,在无放回简单随机抽样中,抽样比为 $f = n/N$ ,则有

$\begin{aligned}&{V_{11}} = {N^2}{\sigma ^2}/n,\\&{V_{12}} = {N^2}\left( {n - 1} \right)\rho {\sigma ^2}/n,\\&{V_1} = {V_{11}} + {V_{12}} = {N^2}\left[ {1 + \left( {n - 1} \right)\rho } \right]{\sigma ^2}/n.\end{aligned}$

其中,平均方差 ${\sigma ^2} = \sum\nolimits_U {\sigma _k^2/N} $ ,相关系数 $\rho = $ $\sum\limits_{k \ne l} {\sum\nolimits_U {{\sigma _{kl}}/\left[ {N\left( {N - 1} \right){\sigma ^2}} \right]} } $ . 显然,在合理假设 $\rho > 0$ 下,增加样本量可以减少简单计量方差,但是对相关计量方差没有效果,即使 $\rho $ 非常小,在大样本情况下,相关计量 $\left( {n - 1} \right)\rho $ 也将导致较大的计量方差,这说明了调查单元计量误差的相关性可能会对估计精度造成较大的影响[7].

${V_2}$ 表示为[1]

$\begin{split}{V_2} = & {V_p}[{E_m}({{\hat t}_\pi }|s)] = {V_p}(\sum\nolimits_s {{\mu _k}/{\pi _k}} ) = \\ &\sum {\sum\nolimits_U {{\Delta _{kl}}{{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\smile$}} \over \mu } }_k}} } {{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\smile$}} \over \mu } }_l}.\end{split}$ (8)

由于 $\sum\nolimits_s {{\mu _k}/{\pi _k}} = \sum\nolimits_s {{{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\smile$}} \over \mu } }_k}} $ 有着 $\pi $ 估计量的形式, ${\Delta _{kl}} = {\pi _{kl}} - {\pi _k}{\pi _l}$ ,式(8)表示对调查单位的测量看成抽样设计下又一级抽样的方差, ${V_2}$ 称为抽样方差. 当调查单位的观测值都不变化时(即所有 $\sigma _k^2 = 0$ ),那么 ${V_1} = 0$ ${V_{pm}}({\hat t_\pi })$ 就只剩下 ${V_2}$ 项. 如果每个总体单位的测量都没有偏差(对所有 $k$ ${\mu _k} = {\theta _k}$ ),那么 ${V_2} = \sum\nolimits_U {{\Delta _{kl}}{{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\smile$}} \over \theta } }_k}{{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\smile$}} \over \theta } }_l}} $ 是真实值 $\pi $ 估计量的抽样方差.

式(5)右边第二部分计量偏差反映总体单位测量偏差造成的系统性参数估计偏差:

${B_{pm}}\left( {{{\hat t}_\pi }} \right) = {E_{pm}}\left( {{{\hat t}_\pi }} \right) - {t_\theta }.$ (9)

由于 ${E_{pm}}\left( {{{\hat t}_\pi }} \right) = {E_p}\left[ {{E_m}\left( {{{\hat t}_\pi }\left| s \right.} \right)} \right] = {E_p}\left( {\sum\nolimits_s {{\mu _k}/{\pi _k}} } \right) = $ $ \sum\nolimits_U {{\mu _k}} $ ,所以当测量值的期望值与真实值不一致时出现计量偏差:

${B_{pm}}\left( {{{\hat t}_\pi }} \right) = \sum\nolimits_U {\left( {{\mu _k} - {\theta _k}} \right)} = B.$ (10)
3 方差的估计

针对计量误差,有时会采用一些特殊调查设计去估计方差,例如重复调查方法、访问员方差研究、随机实验方法和记录核对研究. 最常用的重复调查方法的基本思路是:根据初始抽样设计,以及通过抽取对初始设计具有代表性的子样本,得到方差成分的无偏估计[8-10]. 具体步骤如下:根据抽样设计 $p\left( \cdot \right)$ 抽出样本量为 ${n_s}$ 的原始样本 $s$ ,采用无放回简单随机抽样方法从样本 $s$ 抽取样本量为 ${n_r}$ 的子样本 $r$ ,对于每一总体单位 $k \in s$ ,第一次观测值记为 ${y_{k1}}$ ,对于每一总体单位 $k \in r$ ,第二次观测值记为 ${y_{k2}}$ ,对于 $k \in r$ ${z_k}$ 是两次测量值的差值 ${z_k} = {y_{k1}} - {y_{k2}}$ ,由此得出 ${V_{11}}$ ${V_{12}}$ 的无偏估计分别为

${\hat V_{11}} = \frac{{{n_s}}}{{2{n_r}}}\sum\nolimits_r {{{({z_k}/{\pi _k})}^2}} $ (11)

以及

${\hat V_{12}} = \frac{{{n_s}({n_s} - 1)}}{{2{n_r}({n_r} - 1)}}\left\{ \left(\sum\nolimits_r {{z_k}/{\pi _k}}\right){{^2} - \sum\nolimits_r {{{({z_k}/{\pi _k})}^2}} } \right\} .$ (12)
4 计量误差模型的应用

上述计量误差模型是没有指定观测数据过程的一般模型,这个模型可以应用到具体的实际情况. 考虑到调查员收集数据的过程中,可能把偏差、方差和相关性带入计量误差,是一种非常重要的计量误差[11-12],本节将调查员的影响引入计量误差模型. 在研究调查员方差和调查总方差的关系时,Hansen等[13]引入了4种随机性:随机选择调查区域、样本区域随机选取样本、随机选择调查员、调查员随机分配调查对象. 下文在简单计量误差模型的框架下研究不同调查员分配方案带来调查数据的相关性将如何影响计量误差.

4.1 固定分配调查员

在这种情形下,固定的调查员调查固定的总体单位,例如某个调查员负责某个区域的调查. 对固定的 $a$ 个调查员,对应固定的 $a$ 组子总体 ${U_i}\left( {i = 1,2, \cdots ,a} \right)$ $U = \bigcup\limits_{i = 1}^a {{U_i}} $ ${N_i}$ 表示组 ${U_i}$ 的大小, $N = \sum\limits_{i = 1}^a {{N_i}} $ ,计量误差模型可以表示为

${y_k} = {\theta _k} + {\varepsilon _k}.$ (13)

显然同一调查员测量的 ${y_k}$ 受同一调查员影响,这个固定影响可以用常数 ${b_i} = {E_m}\left( {{\varepsilon _k}\left| s \right.} \right)$ 表示,由同一调查员测量的值是相关的(即 ${\rho _i} \ne 0$ ),而不同的调查员测量的值是无关的,设 ${V_m}\left( {{\varepsilon _k}\left| s \right.} \right) = {v_i}$ ,所以有

${\mu _k} = {\theta _k} + {b_i},k \in {U_i};\quad\;\quad\quad\quad\quad\quad$ (14)
$\sigma _k^2 = {\nu_i},k \in {U_i};\quad\quad\quad\quad\quad\quad\quad\quad$ (15)
${\sigma _{kl}} = \left\{ \begin{array}{l}{\rho _i}\nu_i,k \in {U_i},l \in {U_i},k \ne l,\\[4pt]0,k \in {U_i},l \in {U_j},i \ne j.\end{array} \right.\;\;\;$ (16)

将式(14)~式(16)的矩表达式代入上节式(6)~式(10)中,得到 $\pi $ 估计量方差组成部分的表达式,简单计量方差为

${V_{11}} = \sum\limits_{i = 1}^a {\left(\sum\nolimits_{{U_i}} {1/{\pi _k}} \right){v_i}} ,$ (17)

相关计量方差为

${V_{12}} = \sum\limits_{i = 1}^a {\left(\mathop {\sum {} }\limits_{k \ne l} \sum\nolimits_{{U_i}} {{\pi _{kl}}/{\pi _k}{\pi _l}} \right){\rho _i}{v_i}} ,\;\;\;\;$ (18)
$\sigma _{}^2 = \sum\limits_{i = 1}^a {{N_i}{v_i}} /N,\quad\quad\quad\quad\quad\quad\quad\quad$ (19)
$\rho = \frac{{\sum\limits_{i = 1}^a {{N_i}({N_i} - 1){\rho _i}{v_i}} }}{{(N - 1)\sum\limits_{i = 1}^a {{N_i}{v_i}} }}.\quad\quad\quad\quad\quad\quad$ (20)

由式(20)可以看出,如果希望相关计量方差尽可能小,最极端的情形是 $\rho = 0$ ,则 ${N_i} = 1$ ,即每个调查员只调查一个样本单位,出于这种考虑,美国普查局对1950年后的普查项目都采用自填问卷方式,以控制住户之间的相关计量方差. 然而, ${\sigma ^2}$ 值却会因为不采用专业调查员来访问而增大.

抽样方差为

${V_2} = \sum\limits_{i = 1}^a {\sum\limits_{j = 1}^a {\sum\limits_{k \in {U_i}} {\sum\limits_{l \in {U_j}} {{\Delta _{kl}}\frac{{({\theta _k} + {b_i})({\theta _l} + {b_j})}}{{{\pi _k}{\pi _l}}}} } } } ,$ (21)

计量偏差为

$B = \sum\limits_{i = 1}^a {{N_i}{b_i}} .$ (22)

在无放回简单随机抽样下,式(21)可以简化为

${V_2} = {V_{2,SI}} = {N^2}\frac{{1 - f}}{n}(S_{\theta U}^2 + S_{bU}^2 + 2S_{\theta bU}^{}).$ (23)

其中, $S_{\theta U}^2 = {\displaystyle\frac{1}{{N - 1}}}{\sum\nolimits_U {({\theta _k} - {{\bar \theta }_U})} ^2}$ 是真实值的总体方差, $S_{bU}^2 = {\displaystyle\frac{1}{{N - 1}}}{\sum\limits_{i = 1}^a {{N_i}({b_i} - {{\bar b}_U})} ^2}$ 由调查员间的调查员偏差变化造成, $S_{\theta bU}^{} = {\displaystyle\frac{1}{{N - 1}}}{\sum\limits_{i = 1}^a {{N_i}({{\bar \theta }_{{U_i}}} - {{\bar \theta }_U})({b_i} - {{\bar b}_U})} ^{}}$ 由调查员偏差和真值之间的协方差造成. 所以,如果希望消除抽样方差中调查员的影响,则 $S_{bU}^2 = S_{\theta bU}^{} = 0$ ,即所有调查员的偏差 ${b_i}$ 相等. 例如,采用按比例分配的分层简单随机抽样,第 $i$ 层真实值的总体方差有 $S_{\theta {U_i}}^2 = {\displaystyle\frac{1}{{{N_i} - 1}}}{\sum\nolimits_{{U_i}} {({\theta _k} - {{\bar \theta }_{{U_i}}})} ^2}$ ,每层中调查员偏差为常数,抽样方差 ${V_2}$ 不受调查员偏差的影响[14]. 交叉子样本以及下面要讨论的随机分配调查员也可以杜绝样本方差中的调查员影响.

4.2 随机分配调查员到不同组

实际中,调查员一般是随机地分到各组中去,采用随机分配的一个原因是避免调查员偏差和真值间的相互作用. 在这种情形下,调查员对随机的样本组进行调查,例如将某个调查员随机地派去某个区域调查. 将总体 $U$ 分为 $a$ 组子总体 ${U_i}\left( {i = 1,2, \cdots ,a} \right)$ ,从 $U$ 中抽取的概率样本 $s$ 可以分割为 $s = \bigcup\limits_{i = 1}^a {{s_i}} $ ${s_i} = $ $ s\bigcap {{U_i}} $ ${s_i}$ 的所有调查由一个调查员实施,则计量误差模型的误差项:

${\varepsilon _k} = {B_i} + {e_k},\;\;\;\; k \in {s_i}.$ (24)

${B_i}$ 是随机分配调查员到 ${s_i}$ 造成的调查员影响, ${e_k}$ 表示调查中其他因素造成的误差项, ${B_i}$ ${e_k}$ 都是随机变量. ${B_1},\cdots,$ ${B_a}$ 是从一个调查员影响的无限总体抽取的随机样本,调查员影响 ${B_i}$ 是计量误差的一部分,对同一个调查员,所有观测值的计量误差都一样,无论其是否由同一调查员调查,剩下的误差项 ${e_k}$ 相互独立[1]. 所以可以假设 ${B_1},\cdots,$ ${B_a}$ 是具有相同均值 ${\mu _B}$ 和相同的方差 ${\nu_B}$ 的独立同分布随机变量; ${e_k}$ ( $k \in s$ )是独立的随机变量,有零均值和同方差 ${\nu_e}$ ;随机变量 ${B_i}$ ( $i = 1,\cdots,$ $a$ )和随机变量 ${e_k}$ ( $k \in s$ )相互独立. 特别的,当调查员方差 ${\nu_B}$ 为零时,调查员影响对所有观测值的计量都相同. 计量过程的第一步是确认每一个 ${s_i}$ ${B_i}$ 值,而第二步是确认每个 ${e_k}$ ( $k \in s$ )值. 在上述假设下,很容易得到模型矩:

${\mu _k} = {\theta _k} + {\mu _B},\;\;\;\;k \in U;\quad\quad\quad\quad\quad$ (25)
$\sigma _k^2 = {\nu_B} + {\nu_e},\;\;\;\;k \in U;\quad\quad\quad\quad\quad$ (26)
${\sigma _{kl}} = \left\{ \begin{array}{l}{\nu_B},\;\;\;\;k,l \in {U_i},k \ne l,\\[4pt]0,\;\;\;\;k \in {U_i},l \in {U_j},i \ne j.\end{array} \right.\;\;$ (27)

要计算 $\pi $ 估计量 ${\hat t_\pi }$ 和相应的均方误差,将式(25)~(27)代入到式(6)~式(10)中,得到各部分误差的表达式. 简单计量方差为

${V_{11}} = ({v_B} + {v_e})\sum\nolimits_U {1/{\pi _k}} ;$ (28)

相关计量方差为

${V_{12}} = {v_B}\sum\limits_{i = 1}^a {\mathop {\sum {} }\limits_{k \ne l} } \sum\nolimits_{{U_i}}^{} {{\pi _{kl}}/({\pi _k}{\pi _l})} ,$ (29)
$\sigma _{}^2 = {v_B} + {v_e},\quad\quad\quad\quad\quad\quad\quad\quad$ (30)
$\rho = \frac{{{v_B}}}{{{v_B} + {v_e}}}\frac{{\sum\limits_{i = 1}^a {N_i^2 - N} }}{{N(N - 1)}};\quad\quad\quad\quad$ (31)

抽样方差为

${V_2} = \sum {\sum\nolimits_U {{\Delta _{kl}}\frac{{({\theta _k} + {\mu _B})({\theta _l} + {\mu _B})}}{{{\pi _k}{\pi _l}}}} } ;$ (32)

计量偏差为

$B = N{\mu _B}.$ (33)

由于 ${\sigma _{kl}}(k \ne l)$ $\rho $ 非负,其他因素不变时, $\rho $ 随着调查员方差 ${v_B}$ 的增大而增大[1]. 如果调查员的影响为常数( ${v_B} = 0$ ),那么 $\rho = 0$ ,计量方差简化为

${V_1} = {v_e}\sum\nolimits_U {1/{\pi _k}} .$ (34)

如果固定调查员数量 $a = N/{N_0}$ 足够大,当每组样本量大小 ${N_i}$ 相等时(对于所有 $i,{N_i} = N/a = {N_0}$ ), $\rho $ 值以及计量方差 ${V_1}$ 都能达到最小值(假设其他因素不变,且 ${v_B}$ >0)[15]

$\rho = \frac{{{N_0} - 1}}{{N - 1}}\frac{{{v_B}}}{{{v_B} + {v_e}}}.$ (35)

最极端的情形是一个调查员只访问一个调查单位,此时 $\rho = 0$ . 忽略抽样比的情况下,再次考虑无放回简单随机抽样,假设每组样本量大小相等,因为 $\sigma _{}^2 = {v_e} + {v_B}$ ,则[1]

${V_1} + {V_2} = {N^2} + (\frac{{{v_B}}}{a} + \frac{{{v_e}}}{n} + \frac{{S_{\theta U}^2}}{n}).$ (36)

显然,增大样本量对包含 ${v_B}$ 的部分没有影响,减少这部分方差的有效方法是增加调查员的数量,式(36)的另一种形式为[1]

${V_1} + {V_2} = {N^2}[1 + ({n_0} - 1){\rho _w}]\sigma _{\rm{tot}}^2/n.$ (37)

其中, ${n_0} = n/a$ 为平均分配给调查员的调查单位数, $\sigma _{\rm{tot}}^2 = {v_e} + {v_B} + S_{\theta U}^2$ 表示每一总体单位的总方差(样本量为1时 $y$ 的方差), ${\rho _w} = {v_B}/\sigma _{tot}^2$ 称为内部调查员分配相关系数. 由式(37)容易看出,即使 ${\rho _w}$ 很小,调查员数量较少时(即平均分配给调查员的调查单位数较大时),方差也将较大. 例如,设 ${\rho _w} = 0.05$ ${n_0} = $ 10,则 $1 + ({n_0} - 1){\rho _w} = 1.45$ . 当 ${n_0} = 50$ 时, $1 + ({n_0} - 1){\rho _w} = $ 3.45是 ${n_0} = $ 10时总方差的2.4倍.

5 结论

本文在简单计量误差模型的框架下,对 $\pi $ 估计量的均方误差进行分解,应用于若干种情形下的调查员误差影响分析,主要结论如下:

(1) 均方误差可以分解为参数估计的方差和计量偏差两类误差效应,前者由计量方差和抽样方差构成,计量方差又分为简单计量方差和相关计量方差,分别反映重复调查中计量结果的随机变动以及不同调查单位计量误差之间的相关模式,后者反映观测值和真实值差异的系统模式.

(2) 调查员误差是实践中非常重要的相关误差,在固定分配调查员的情形下,为了控制相关计量方差,应使得相关系数 $\rho $ 尽可能小;一些特定的抽样设计可以减少调查员偏差对抽样方差的影响. 在随机分配调查员的情形下,调查员偏差不影响抽样方差,增大样本量不能减少调查员方差的影响,而增加子样本中调查员的数量可以有效减少调查员方差.

参考文献
[1] SARNDL C E, SWENSSON B, WRETMAN J H. Model assisted survey sampling [M]. New York: Springer, 2003: 601-614.
[2] BUZAS J S, STEFANSKI L A, TOSTESON T D. Measurement error [M]. New York: Springer, 2014: 1241-1282.
[3] LOKEN E, GELMAN A. Measurement Error and the Replication Crisis[J]. Science, 2017, 355(6325): 584-585. DOI: 10.1126/science.aal3618.
[4] 王华, 金勇进. 统计数据准确性评估的误差效应分析方法[J]. 统计与信息论坛, 2009, 24(9): 10-16.
WANG H, JIN Y J. Error effects analysis approach for statistical data accuracy evaluation[J]. Statistics & Information Forum, 2009, 24(9): 10-16.
[5] FERRO C A T, FRICKER T E. A bias-corrected decomposition of the brier score[J]. Quarterly Journal of the Royal Meteorological Society, 2012, 138(668): 1954-1960. DOI: 10.1002/qj.v138.668.
[6] SCHOOT R V D, SCHMIDT P, BEUCKELAER A D, et al. Editorial: measurement invariance[J]. Front Psychol, 2015, 6: 1064.
[7] ROOVER D, TIMMERMAN K, MARIEKE E, et al. What's hampering measurement invariance[J]. Front Psychol, 2015, 5: 604.
[8] YU C, ZHANG S, FRIEDENREICH C, et al. Using repeated measures to correct correlated measurement errors through orthogonal decomposition[J]. Communication in Statistics-Theory and Methods, 2017, 46(23): 11604-11611. DOI: 10.1080/03610926.2016.1275693.
[9] BLATTMAN C, JAMISON J, KOROKNAY-PALICZ T, et al. Measuring the measurement error: a method to qualitatively validate survey data[J]. Journal of Development Economics, 2016, 120: 99-112. DOI: 10.1016/j.jdeveco.2016.01.005.
[10] ABOWD J M, STINSON M H. Estimating measurement error in annual job earnings: a comparison of survey and administrative data[J]. Review of Economics & Statistics, 2013, 95(5): 1451-1467.
[11] BIEMER, PAUL P, GROVES R M, et al. Interviewer, respondent, and regional office effects on response variance: a statistical decomposition[J]. Applied Physics Letters, 2016, 86(7): 074104-074104.
[12] 王克林. 调查员误差的计量模型与测定方法[J]. 统计与决策, 2009, 298(22): 11-12.
WANG K L. Measurement models and measurement methods for interviewer errors[J]. Statistics & Decision, 2009, 298(22): 11-12.
[13] HANSON R H, MARKS E S. Influence of the interviewer on the accuracy of survey results[J]. Journal of the American Statistical Association, 1958, 53(283): 635-655. DOI: 10.1080/01621459.1958.10501465.
[14] ELLIOTT M R, WEST B T. " Clustering by Interviewer”: a source of variance that is unaccounted for in single-stage health surveys[J]. American Journal of Epidemiology, 2015, 182(2): 118-126. DOI: 10.1093/aje/kwv018.
[15] DIJKSTRA W. How interviewer variance can bias the results of research on interviewer effects[J]. Quality and Quantity, 1983, 17(3): 179-187. DOI: 10.1007/BF00167582.