不同方法在基于医院门/急诊伤害监测病例漏报估计中的比较研究
  疾病监测  2018, Vol. 33 Issue (3): 254-259

扩展功能

文章信息

叶鹏鹏, 汪媛, 金叶, 段蕾蕾
Ye Pengpeng, Wang Yuan, Jin Ye, Duan Leilei
不同方法在基于医院门/急诊伤害监测病例漏报估计中的比较研究
Comparison of different methods in estimating under reporting of injury cases in injury surveillance based on outpatient and emergency departments
疾病监测, 2018, 33(3): 254-259
Disease Surveillance, 2018, 33(3): 254-259
10.3784/j.issn.1003-9961.2018.03.020

文章历史

收稿日期:2017-11-16
不同方法在基于医院门/急诊伤害监测病例漏报估计中的比较研究
叶鹏鹏, 汪媛, 金叶, 段蕾蕾     
中国疾病预防控制中心慢性非传染性疾病预防控制中心伤害室, 北京 100050
摘要目的 采用不同方法估计基于医院门/急诊伤害监测病例漏报率,比较不同方法估计结果的差异并分析原因,以期对相关研究提供线索和思路。方法 采用2次独立简单随机抽样的捕获再捕获(方法1)、1次独立简单随机抽样的捕获再捕获(方法2)、样本间接估计(方法3)和样本直接估计(方法4)4种方法,通过数据模拟,对符合一定假设情形下的医院门/急诊伤害病例漏报率进行估计,并比较不同方法点估计和区间估计结果的差异。结果 方法1漏报率的点估计和区间估计结果最差,且工作量较大;方法2漏报率的点估计和区间估计结果优于方法1,且工作量也低于方法1;方法3漏报率的点估计和区间估计结果优于方法1,但劣于方法2,工作量最小;方法4漏报率的点估计和区间估计结果与方法2接近,均优于方法3,工作量略低于方法2。结论 捕获再捕获方法对门/急诊病例中伤害病例占比有要求,提高每次抽样选取的病例数量,尤其是第2次抽样的病例数量可以提高漏报率估计精度。用样本直接估计总体漏报率比先估计总量再估计率,减少了抽样误差,可以提高估计精度。每种方法增加样本量均可以提高估计精度,但会增加工作负担。根据结果,建议采用方法4进行医院门/急诊伤害监测病例漏报估计。
关键词伤害监测    漏报估计    数据模拟    
Comparison of different methods in estimating under reporting of injury cases in injury surveillance based on outpatient and emergency departments
Ye Pengpeng, Wang Yuan, Jin Ye, Duan Leilei     
Division of Injury Prevention, National Center for Chronic and Non-communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 100050, China
This study was supported by the fund for Special Survey Program for Scientific and Technological Basic Resources of the Ministry of Science and Technology: Scientific Survey of Meteorologically Sensitive Diseases in China (No. 2017FY101200) Sub-project 5, the Prediction and Early Warning of Meteorologically Sensitive Injuries, Psychological or Mental Illness(No. 2017FY101205)
Corresponding author: Duan Leilei, Email:leileiduan@vip.sina.com.
Abstract: Objective To understand the effects of different methods in estimating the underreporting rate of injury cases in injury surveillance based on outpatient and emergency departments and influencing factors, and provide evidence for the related research in future. Methods Four methods, capture-recapture with two independent simple random sampling, capture-recapture with one independent simple random sampling, sample based indirect estimation and sample based direct estimation, were used to estimate the underreporting rate of injury cases in hospitals under certain assumptions by conducting data simulation. The differences in point and interval estimation results of the 4 methods were compared. Results The first method had the worst point and interval estimation results and largest workload. The second method had better point and interval estimation results and less workload compared with the first method. The point and interval estimation results of the third method were better than those of the first method but worse than those of the second method, but the workload was least among four methods. The point and interval estimation results of the fourth method were very close to the results from the second method and it had less workload compare with the second method. Conclusion The use of capture-recapture methods had the requirement on the proportion of injury cases in outpatient and emergency departments. Increasing the number of outpatient and emergency cases from each random sampling, especially in the second random sampling, could enhance the precision of the estimated underreporting rate. Using sample based estimation, the introduction of sampling error could be reduced and the estimation precision could be improved compared with the estimation of total number of injury cases firstly. For each method, increasing the sample size could improve the precision of the estimated underreporting rate but add more workload. Based on the results, the fourth method is recommended to estimate the underreporting rate of injury cases in outpatient and emergency departments.
Key words: Injury surveillance     Underreport rate estimation     Data simulation    

伤害是全球第3位主要死因,所造成的疾病负担占全球疾病负担的10.68%[1],是各国面临的一个重要的公共卫生问题。开展伤害预防控制工作的重要前提之一是充分了解伤害信息。伤害信息的来源众多,从获取伤害信息的可行性和可操作性角度出发,大多数国家均通过医院获取伤害病例信息[2]。我国于2006年建立全国伤害监测系统,该系统以医院为基础,通过收集监测医院门/急诊伤害病例信息,了解伤害流行特征和变化趋势以及制定和评估伤害防控策略和措施提供基础数据和依据[3-4]。目前,疾病漏报研究多集中在传染性疾病、死亡和部分重点慢性非传染性疾病方面[5-12],少有研究针对医院门/急诊伤害病例,而且伤害的发病机制和发展过程与上述疾病类型也有较大差异,医院门/急诊伤害病例报送模式也因地区经济发展和医疗卫生资源投入不同存在差异,加之缺少对医院门/急诊伤害病例报送的强有力的政策法规保障,选择适宜的方法应用于医院门/急诊伤害病例漏报估计,对于进一步完善全国伤害监测系统、提高伤害监测信息的科学性和准确性至关重要[13-14]。本研究采用不同方法通过数据模拟对符合一定假设情形下的医院门/急诊伤害病例漏报率进行估计,比较不同方法结果的差异并分析其原因,以期对相关研究提供线索和思路。

1 对象与方法 1.1 研究对象

选取基于医院门/急诊伤害监测系统的伤害病例。伤害是指突然或短暂地遭受到不可耐受的能量作用而导致的人体损伤,在某些情况下,伤害是由于氧气或热能等生命基本物质的急性缺乏所致[15]。伤害病例指在监测医院门/急诊室被诊断为伤害的病例;因同一次伤害在同一监测医院复诊的病例不重复记录[16]。本研究中假定伤害监测医院符合以下情形:①医院采用纸质或电子化形式填报伤害病例,病例信息完整且可查询。②有准确的初复诊记录。③疾病诊断明确。

1.2 数据模拟参数

利用软件Stata14.1MATA编程语言实现数据模拟,相关参数设置:①根据全国伤害监测系统实际情况,部分三级和大部分二级医院年度门/急诊病例数量在80万~200万左右,因此设定年度门/急诊病例数量T为100万。②三级和大部分二级医院每年自报的门/急诊伤害病例占比约为1.00%~5.00%,因此设定实际上报门/急诊伤害病例数量占全部门/急诊病例数量的比例r为2.50%;③根据横截面调查公式计算样本量为3 746个,结合漏报估计工作量,设定选取每次简单随机选取的病例数量s为4 000个;④真实漏报率为u,其取值范围设定为0.50%~80.00%,以0.50%为单位递增,每个漏报率进行100次随机抽样。

1.3 数据模拟生成

本研究采用以下4种方法进行漏报估计:①方法1:2次独立简单随机抽样的捕获再捕获。②方法2:1次独立简单随机抽样的捕获再捕获。③方法3:样本间接估计总体漏报率。④方法4:样本直接估计总体漏报率。各方法的数据模拟生成过程:①生成100万个门/急诊病例,其中1代表符合定义的伤害病例,0代表其他病例;②方法1:对于第1次独立简单随机抽样,随机生成4 000个1代表抽中的病例,计算第1次选取的伤害病例数n1个,对于第2次独立简单随机抽样,随机生成4 000个1代表抽中的病例,计算第2次选取的伤害病例数n2个,计算2次抽样都被选中的伤害病例数为m个。③方法2:对于第1次独立简单随机抽样,随机生成4 000个1代表抽中的病例,计算第1次选取的伤害病例数为n1个,将已上报的伤害病例n2个作为第2次抽取,计算2次抽样都被选中的伤害病例数为m个。④方法3:对于第1次独立简单随机抽样,随机生成4 000个1代表抽中的病例,计算第1次选取的伤害病例数为n1个。⑤方法4:对于第1次独立简单随机抽样,随机生成4 000个1代表抽中的病例,计算第1次选取的伤害病例数为n1个,与已上报的伤害病例对比,其中有k个伤害病例未上报。

1.4 统计学分析

医院门/急诊没有可用的伤害病例库用于直接抽样,实际操作中很难从门/急诊病例总体中恰好随机抽取指定数量的伤害病例,因此上述4种方法均先从混杂有其他病例的总体中选取指定数量的门/急诊病例计算其中伤害病例数量再进行后续估计。通过数据模拟生成100万门/急诊病例(包括一定数量的伤害病例),因为已知门/急诊病例中伤害病例的全部数量,又假定实际上报的伤害病例数量,可以计算真实的伤害病例漏报率,然后采用4种方法估计伤害病例的漏报率,每种方法估计每个真实漏报率都进行100次随机抽样,将每次估计的点估计结果和区间估计结果绘制成图,直观的展示不同方法的差异。各方法的漏报率估计如下[17-18]

(1)方法1:①估计门/急诊伤害病例数总量:

② 估计总量的方差:

③ 估计漏报率及95% CI

(2)方法2:同方法1。

(3)方法3:

① 估计门急诊伤害病例数占全部门/急诊病例数量的比例:p=n1/s×100%;

② 估计门/急诊伤害病例总量及95% CIn= 1 000 000×p;

③ 估计漏报率及95% CIu = ×100%及Agresti-Coull95% CI

(4)方法4:估计漏报率及95% CIu=k/n1×100%及Agresti-Coull95% CI

2 结果 2.1 捕获再捕获

在上述假设条件和参数设定下,当真实漏报率 < 30%时,方法1漏报率100次随机抽样得到的点估计结果几乎全为0,区间估计结果跨度较大,且部分区间估计结果下限为0。原因在于门/急诊伤害病例估计数量少于实际上报数量导致无法估计漏报率,出现漏报率区间估计截断的情况,表明漏报率估计精度很差。当真实漏报率>30%时,随着漏报病例数的增加,漏报率的点估计结果有所改善,但同一个漏报率100次随机抽样得到的点估计结果存在分离现象,表明漏报率估计精度仍较差,同时区间估计结果跨度非常大,失去实际意义,见图 1。与方法1相比,方法2漏报率的点估计结果有明显改善,点估计结果为0的情况均发生在真实漏报率 < 4%时,下限为0的区间估计结果则多发生在真实漏报率 < 10%时。此后随着漏报病例数的增加,每个漏报率100次随机抽样得到的点估计结果和区间估计结果分布均比较集中,未出现无法估计漏报率和区间估计截断的情况,见图 2

图 1 基于方法1的医院门/急诊伤害病例漏报率估计结果 Figure 1 Estimated results of underreporting rate of injury cases in outpatient and emergency departments based on the method 1
图 2 基于方法2的医院门/急诊伤害病例漏报率估计结果 Figure 2 Estimated results of underreporting rate of injury cases in outpatient and emergency departments based on the method 2
2.2 样本估计总体

在上述假设条件和参数设定下,当真实漏报率 < 22%时,方法3漏报率100次随机抽样得到的部分点估计结果为0,区间估计结果跨度较大,且部分区间估计结果下限为0,存在无法估计漏报率和区间估计截断的情况,表明漏报估计精度较差,但略优于方法1。当真实漏报率>22%且 < 34%时,随着漏报病例数的增加,漏报率的点估计结果明显改善,但区间估计结果跨度较大且仍存在截断的情况。当真实漏报率>34%时,漏报率的点估计和区间估计结果均有明显改善,每个漏报率100次随机抽样得到的点估计结果和区间估计结果分布均比较集中,未出现无法估计漏报率和区间估计截断的情况,见图 3。与方法3相比,当真实漏报率 < 22%时,方法4漏报率的点估计和区间估计结果均有明显改善,当真实漏报率>4%时,点估计结果未再出现无法估计漏报的情况,真实漏报率>10%时,区间估计结果也未再出现截断的情况,此后随着漏报病例数增加,每个漏报率100次随机抽样得到的点估计结果和区间估计结果分布均比较集中,与方法2估计结果非常接近,在真实漏报率>60%时方法4的点估计和区间估计结果略差于方法3,见图 4

图 3 基于方法3的医院门/急诊伤害病例漏报率估计结果 Figure 3 Estimated results of underreporting rate of injury cases in outpatient and emergency departments based on the method 3
图 4 基于方法4的医院门/急诊伤害病例漏报率估计结果 Figure 4 Estimated results of underreporting rate of injury cases in outpatient and emergency departments based on the method 4
3 讨论

伤害监测与传染性疾病等监测相比,缺少类似《传染病防治法》等政策法规保障,也缺乏完善的信息化建设,尚无法依托于大数据平台等信息化手段开展漏报调查工作[10]。本研究主要目的是探索适用于了解医院门/急诊伤害病例漏报情况的方法,而不是了解某个地区人群的伤害发生情况,因此未采取既往研究常用的复杂抽样方法开展人群调查以获取漏报情况[8-9, 11]

本研究方法1和2采用捕获再捕获方法,该方法已广泛应用于漏报研究[19-20]。医院门/急诊伤害病例也符合使用该方法的前提[17]。方法1漏报率的点估计和区间估计结果差是因为门/急诊伤害病例占比很小,两次随机抽样同时选中的伤害病例数很少,提高每次抽样选取的门/急诊病例数量,尤其是提高第2次抽样的病例数量则可以提高漏报率估计精度[21],因此方法1更适用于烧烫伤、骨伤等就诊人群以伤害为主的专科医院。方法2将已上报的伤害病例直接视为1次独立随机抽样,因上报病例数量较大,间接提高了2次随机抽样同时选中的伤害病例数量,因此方法2估计结果优于方法1,但实际操作中需要避免人为因素对2次随机抽样独立性的影响。方法3和4采用样本估计总体方法,根据简单随机抽样性质可知,简单随机抽样选取的门/急诊病例中伤害病例占比应是全部门/急诊伤害病例中伤害病例占比的无偏估计[17],因此方法3先估计全部门/急诊伤害病例总量,再估计漏报率。在方法3的基础上,选取的门/急诊伤害病例中漏报的伤害病例占比也应是全部漏报伤害病例占全部门/急诊伤害病例比例的无偏估计[17],因此方法4可直接估计漏报率。与方法3相比,方法4减少了抽样误差,因此估计结果优于方法3。对于上述4种方法,增加选取的病例数量均可以提高漏报估计精度,但会增加实际工作负担。

上述4种方法相比,方法2、3和4漏报率的点估计和区间估计结果均优于方法1,工作量也均低于方法1,方法2和4的估计结果接近且均优于方法3,方法2和4需要进行数据比对所以工作量均大于方法3。方法2和4的主要差异在于前者是比较第1次随机抽样选取的伤害病例数与已上报的伤害病例中有多少相同,后者则是比较第1次随机抽样选取的伤害病例数与已上报的病例中有多少不同,考虑到一般情况下漏报的病例数量较少,理论上方法4的数据比对工作量应少于方法2。因此,根据估计结果和工作量,建议采用方法4进行医院门/急诊伤害监测病例漏报估计。本研究进行的数据模拟基于一定的假设条件,实际工作中可能存在违背假设的情况或者其他困难,比如诊断信息缺失、错误,字迹不清晰等情况,尚未就这些问题对漏报率估计的影响进行研究,建议针对更复杂的实际情况进行深入探索。

志谢: 感谢美国疾病预防控制中心Dr. Okafor Chioma,Dr. Cai Ying,Dr. Parker Erin M,Dr. Sleet David等专家对本研究工作的大力支持。

作者贡献:

叶鹏鹏  ORCID:0000-0002-2924-1436

叶鹏鹏:负责数据模拟、统计分析和文章撰写

汪媛、金叶:参与数据建模和文章审阅

段蕾蕾:负责总体思路设计、工作沟通协调和文章审核

参考文献
[1]
GBD 2016 DALYs and HALE Collaborators. Global, regional, and national disability-adjusted life-years (DALYs) for 333 diseases and injuries and healthy life expectancy(HALE)for 195 countries and territories, 1990-2016:a systematic analysis for the Global Burden of Disease Study 2016[J]. Lancet, 2017, 390(10100): 1260-1344. DOI:10.1016/S0140-6736(17)32130-X
[2]
李中杰, 陈曙旸, 吴宜群. 国外伤害监测系统的建立与使用情况[J]. 环境卫生学杂志, 2004, 31(4): 239-243.
Li ZJ, Chen SY, Wu YQ. The establishment and utilization of injury surveillance system in foreign countries[J]. J Environ Hyg, 2004, 31(4): 239-243.
[3]
段蕾蕾, 吴凡, 杨功焕, 等. 全国伤害监测系统发展[J]. 中国健康教育, 2012, 28(4): 338-341.
Duan LL, Wu F, Yang GH, et al. The development of Chinese national injury surveillance system[J]. Chin J Health Educ, 2012, 28(4): 338-341. DOI:10.16168/j.cnki.issn.1002-9982.2012.04.010
[4]
Duan LL, Deng X, Wang Y, et al. The national injury surveillance system in China:a six-year review[J]. Injury, 2015, 46(4): 572-579. DOI:10.1016/j.injury.2014.12.013
[5]
郭炳虹, 崔树峰, 孟海英. 2008-2015年北京市朝阳区医疗机构传染病漏报调查与分析[J]. 中国卫生统计, 2017, 34(3): 485-487.
Guo BH, Cui SF, Meng HY. The under report survey and analysis of infectious disease in Chaoyang district, Beijing city from 2008 to 2015[J]. Chin J Health Stat, 2017, 34(3): 485-487.
[6]
马莉珍, 罗湘蜀, 杨长虹, 等. 2015年四川省医疗机构传染病漏报情况调查[J]. 预防医学情报杂志, 2017, 33(3): 247-251.
Ma LZ, Luo XS, Yang CH, et al. Assessment on reporting rates of notifiable infections disease in medical institutions in Sichuan province in 2015[J]. J Prev Med Inf, 2017, 33(3): 247-251.
[7]
李涛, 李红, 李海军, 等. 2014年宁夏医疗机构法定传染病漏报调查分析[J]. 宁夏医科大学学报, 2017, 39(1): 68-70.
Li T, Li H, Li HJ, et al. The analysis of reporting rates of notifiable infections disease in medical institutions in Ningxia province in 2014[J]. J Ningxia Med Univ, 2017, 39(1): 68-70. DOI:10.16050/j.cnki.issn1674-6309.2017.01.019
[8]
周林, 刘守钦, 张军, 等. 应用捕获-标记-再捕获法评估济南市户籍居民死亡登记漏报水平[J]. 中华流行病学杂志, 2017, 38(4): 482-485.
Zhou L, Liu SQ, Zhang J, et al. Capture-mark-recapture analysis on the under-registration rate of mortality surveillance program in Jinan[J]. Chin J Epidemiol, 2017, 38(4): 482-485. DOI:10.3760/cma.j.issn.0254-6450.2017.04.014
[9]
黄少芬, 朱瑶, 林修全, 等. 应用倾向性评分加权法估计2012-2014年福建省疾病监测系统死亡病例漏报率[J]. 中华流行病学杂志, 2016, 37(11): 1476-1479.
Huang SF, Zhu Y, Lin XQ, et al. Estimation of underreporting rate of death cases in disease surveillance system of Fujian province using propensity score weighting method, 2012-2014[J]. Chin J Epidemiol, 2016, 37(11): 1476-1479. DOI:10.3760/cma.j.issn.0254-6450.2016.11.009
[10]
张立华, 房爱民, 郭翠月. 基于大数据的肺结核病漏报与漏登调查[J]. 公共卫生与预防医学, 2017, 28(4): 100-102.
Zhang LH, Fang AM, Guo CY. The analysis of under-report in tuberculosis analysis based on big data[J]. J Public Health Prev Med, 2017, 28(4): 100-102.
[11]
王保山, 贺淑梅, 张世来. 德州市德城区2014年肿瘤登记漏报调查报告[J]. 中国保健营养, 2017, 27(28): 280.
Wang BS, He SM, Zhang SL. The under-report survey in cancer registration in Decheng district, Dezhou city in 2014[J]. China Health Care Nutr, 2017, 27(28): 280. DOI:10.3969/j.issn.1004-7484.2017.28.397
[12]
武迎宏, 曹煜隆, 蔡虻, 等. 基于住院患者病案首页高风险病例来抽查医院感染漏报的方法探讨[J]. 中华医院感染学杂志, 2017, 27(12): 2827-2829.
Wu YH, Cao YL, Cai M, et al. Sampling survey methods for missing report of nosocomial infections based on high-risk case filling in the front pages of medical records[J]. Chin J Nosocomiol, 2017, 27(12): 2827-2829. DOI:10.11816/cn.ni.2017-171117
[13]
李丽萍, 刘晓剑, 潘和平. 医院伤害监测的常见问题及其原因分析[J]. 中华疾病控制杂志, 2009, 13(2): 147-150.
Li LP, Liu XJ, Pan HP. Analysis of the common problems and reasons in the process of hospital injury surveillance[J]. Chin J Dis Control Prev, 2009, 13(2): 147-150.
[14]
汪媛, 段蕾蕾, 纪翠蓉, 等. 2006-2012年全国伤害监测工作状况评估[J]. 中华流行病学杂志, 2015, 36(9): 967-970.
Wang Y, Duan LL, Ji CY, et al. Evaluation of performance of national injury surveillance in China, 2006-2012[J]. Chin J Epidemiol, 2015, 36(9): 967-970. DOI:10.3760/cma.j.issn.0254-6450.2015.09.013
[15]
Holder Y, Peden M, Krug EG, et al. Injury surveillance guidelines[M]. Geneva: World Health Organization, 2001.
[16]
中国疾病预防控制中心慢性非传染性疾病预防控制中心. 全国伤害医院监测数据集(2015)[M]. 北京: 人民卫生出版社, 2016.
National Center for Chronic and Noncommunicable Disease Control and Prevention, China CDC. The dataset of national injury surveillance system in China (2015)[M]. Beijing: People's Medical Publishing House, 2016.
[17]
金勇进, 杜子芳, 蒋妍. 抽样技术[M]. 3版. 北京: 中国人民大学出版社, 2012.
Jin YJ, Du ZF, Jiang Y. Sampling technique[M]. 3rd ed. Beijing: China Renmin University Press, 2012.
[18]
Brown LD, Cai TT, Dasgupta A. Interval estimation for a binomial proportion[J]. Stat Sci, 2001, 16(2): 101-133. DOI:10.1214/ss/1009213286
[19]
杨泽, 王克安, 金水高. 疾病监测中捕获-再捕获方法的应用[J]. 疾病监测, 1995, 10(6): 176-181.
Yang Z, Wang KA, Jin SG. Application of capture-Markrecapture method in diseases surveillance[J]. Dis Surveill, 1995, 10(6): 176-181.
[20]
Hook EB, Regal RR. Capture-recapture methods in epidemiology:methods and limitations[J]. Epidemiol Rev, 1995, 17(2): 243-264. DOI:10.1093/oxfordjournals.epirev.a036192
[21]
李丽萍, 王生. 捕获-再捕获分析及其在伤害控制中应用[J]. 中华流行病学杂志, 2003, 24(9): 835-838.
Li LP, Wang S. Application of capture-recapture method on injury control[J]. Chin J Epidemiol, 2003, 24(9): 835-838. DOI:10.3760/j.issn:0254-6450.2003.09.022