乙型肝炎(乙肝)病毒在我国的感染率较高,是我国重点防控的四个重大传染病之一[1]。由于慢性乙肝患者病情迁延,反复就诊、异地就诊等现象普遍,因而在全国传染病报告信息管理系统(NNDRS)中易造成重复报告(重报)。目前临床医生对急、慢性乙肝病例存在混乱报告现象,系统中报告的急性乙肝病例也可能存在重报。我国2004年建立NNDRS,对促进传染病监测的完整性和及时性起到了至关重要的作用,但由于该系统的查重功能仅限在年度内病例中查找,因此对于类似乙肝等存在跨年度反复报告的慢性传染病的监测数据中重报问题一直未能解决。为了解NNDRS中全国乙肝病例重报情况,初步了解重报对NNDRS报告乙肝发病率的影响,本研究对2011-2013年NNDRS中上报的乙肝病例个案进行查重分析,从而为评估我国乙肝报告现状提供参考。
资料与方法
1. 数据来源:在NNDRS中,按照“报告地区浏览”下载2011年1月1日至2013年12月31日(发病日期统计)报告病种为乙肝的全部个案信息,剔除“已删除个案”。
2. 个案定义:①原始个案:从NNDRS中按照要求下载的全部乙肝个案(含实验室诊断、临床诊断、病原携带、阳性检测和疑似病例上报的所有急性、慢性和未分类乙肝病例)。②有效分析个案:在原始个案中,NNDRS的自动统计功能仅分析“实验室诊断”和“临床诊断”乙肝病例,因此本文将原始个案中的“实验室诊断”和“临床诊断”乙肝病例个案定义为有效分析个案。
3. 数据处理:乙肝疫情报告卡记录的基本特征信息包括身份证号码、姓名、出生日期、性别、现住址编码等。对于个案信息中的姓名汉字,利用数据库函数,将汉字转换为16进制计算机编码,作为姓名的替代特征信息。将3年个案数据库整理为相同的数据结构后合并数据,应用建立的不同查重标准进行重复数据查询。
4. 查重标准:根据查找的精准程度不同,将个案特征信息变量进行组合,设定6种查重标准进行数据库中的个案比对:(A)身份证号码信息相同(不考虑其他信息因素),即视为重复报告病例;(B)出生日期相同+性别相同+姓名16进制编码完全相同+现住址标码前6位相同的个案;(C)出生日期相同+性别相同+姓名16进制编码完全相同;(D)出生日期相同+现住址前6位相同+姓名16进制编码2/3以上相同;(E)姓名16进制编码相同+性别相同+现住址前6位一致+出生日期相差在12个月内;(F)姓名16进制编码2/3以上相同+性别相同+现住址前6位一致+出生日期相差在24个月内。
5. 查重方法:从合并后的总数据库中任取一条个案记录R1,按照6种查重规则与总库中剩余个案逐一对比,将所有方法查出的重复个案取出另建新数据集。将重复个案的新数据集中任一条记录,按照6种查重规则再与总库中剩余个案逐一对比,将比对后所有查出的重复个案取出再另建新数据集,将此过程重复循环3次,标记所有与R1重复的个案。每组重复个案中以报告日期最早的个案为首次报告,其余为重复报告。
6. 统计学分析:使用SAS 9.1.3软件实现数据库查重过程。重报1 次计1 例,重报2次计2 例,其余类推。使用多种查重方案查找出的同一重复个案计1例。重报率(%)=重报病例数/报告病例数×100。矫正发病率(/10万)=(报告病例数-重报病例数)/人口数×100 000。
结 果
1. 基本情况:2011-2013年NNDRS中共上报3 389 374例原始乙肝个案(包含病原携带者123 046例、 临床诊断病例352 355例、 实验室诊断病例2 895 056例、 阳性检测172例和疑似病例18 745例),其中有效分析个案3 247 411例。原始个案库的5个主要查重指标中,26.54%(899 666例)个案有身份证号码信息,其中2011年244 382例(7.21%),2012年309 170例(9.12%),2013年346 114例(10.21%)。其余4项指标填写率均为100%。
2. 病例重复报告情况:原始个案库中,应用6种查重方案能够发现29 777~216 388例重复报告个案,6种方法查找的3年重报率为0.88%~6.38%。将查找结果合并,共有249 047例重报病例,3年重报率为7.35%;重报病例分别为34 882例、95 636例和118 529例,重报率分别为2.91%、8.11%和11.72%(表 1)。
表 1 2011-2013年NNDRS原始乙肝病例个案中重报情况
按照本研究查重方法设置,2011-2013年有效分析乙肝个案中,急性乙肝病例216 499例,其中5.57%(12 065例)为重报病例;慢性乙肝病例2 054 753例,其中7.91%(162 567例)为重报病例;未分类乙肝病例976 159例,其中6.58%(64 275例)为重报病例。以2011年数据库为基准纵向比较急性乙肝的重报情况,2012年急性乙肝病例中6.08%为既往报告病例,2013年急性乙肝病例中8.58%为既往报告病例(表 2)。
表 2 2011-2013年NNDRS中有效分析乙肝病例的重报情况
3. 重复报告病例的重报次数分析:2011-2013年NNDRS原始报告乙肝病例个案中,有217 038例个案报告次数≥2次,其中190 777例(87.90%)被报告2次;21 949例(10.11%)被报告3次;3 342例(1.54%)被报告4次;970例(0.45%)被报告≥5次(表 3)。被多次报告的个案中,年度内重复报告个案有71 709例(33.04%),其中2011-2013年度内重复报告病例分别为26 146、23 892和21 671例,分别占当年报告病例总数的2%左右。剩余145 329例(66.96%)个案均为跨年度多次报告(表 3)。
表 3 2011-2013年NNDRS中报告乙肝病例重报次数情况
4. 重报对乙肝报告发病率的影响分析:在有效分析乙肝个案中,删除重复报告个案,2011-2013年乙肝报告发病率分别从79.45/10万、80.68/10万和71.12/10万下降到77.13/10万、74.12/10万和62.79/10万,降幅分别达2.92%、8.13%和11.71%。其中,3年急性乙肝报告发病率分别从5.60/10万、5.66/10万和4.70/10万下降到5.46/10万、5.32/10万和4.30/10万,降幅分别达2.50%、6.01%和8.51%(表 4)。
表 4 2011-2013年删除重报病例后
乙肝报告发病率变化(/10万)
删除2013年全国31个省(自治区、直辖市)报告乙肝病例中的重报病例,对各省(市、自治区)乙肝报告发病率进行矫正。新疆、青海、山西、广东和福建乙肝报告发病率经矫正后分别从190.5/10万、231.2/10万、137.4/10万、131.9/10万和126.1/10万,下降到159.7/10万、204.9/10万、115.3/10万、115.7/10万和112.5/10万,分别下降了30.80/10万、26.26/10万、22.08/10万、16.25/10万和13.61/10万。北京、天津和江苏矫正后乙肝发病率下降小于1/10万(图 1)。
讨 论
我国于2004 年1 月1 日起正式启动NNDRS,法定传染病直接通过网络报告,实现了疫情监测资料从县级到国家级通过计算机网络的实时报告与管理[2]。自网络直报以来,我国乙肝报告发病一直处于较高水平。尽管全国乙肝血清流行病学调查结果显示,人群HBsAg流行率已显著下降[1, 3],但NNDRS中乙肝年报告发病人数和发病率仍未出现明显下降,乙肝报告病例历年均高达100万左右,年发病率平均80/10万~100/10万,在全国法定报告的传染病中历年排前3位。NNDRS中的乙肝病例报告准确性不高,重报、误报等诸多问题严重影响监测数据质量已成为共识。
本文对2011-2013年所有NNDRS报告的乙肝个案进行重报分析,3年系统中存在7.35%的重报病例,以2011年乙肝个案数据库为基准,重报病例比例逐年上升,从2011年的2.92%上升到2013年的11.71%。重复报告病例以跨年度重复报告为主,占66.96%;年度内重复报告占33.04%。福建、河南和内蒙古等地区均对乙肝病例的重复报告做过研究,由于查重标准设置不同,重报率有所差异,范围浮动在2.00%~18.75%[4-8]。郑家耿等[8]对三亚市医疗机构乙肝病例报告质量核实发现,12.7%的复诊乙肝病例也作为初诊病例进行网络直报,提示乙肝病例的重复报告主要是因为病例反复就诊、异地就诊等原因造成。此外,本文分析发现,除慢性乙肝病例存在反复报告外,急性乙肝病例中也存在5.57%的重复报告,且有跨年重报现象,提示目前乙肝监测系统中存在着误报问题,推测部分临床医生将慢性乙肝的急性发病期患者作为急性乙肝病例进行网络直报,但还有待于进一步现场证实。
本次分析发现,目前NNDRS系统中各省报告乙肝发病率的准确性差异较大,去除重报病例后,新疆、青海、山西、广东等地的2013年乙肝发病率显著下降,而北京、天津、江苏等地的乙肝发病率较准确,重复报告比例较低,表明在不同省份医疗机构执行乙肝病例报告标准的尺度不一致,因病例重报而造成部分省份乙肝高发,提示在开展基于NNDRS的乙肝监测及数据分析工作中,应重点关注新疆、青海等地区。NNDRS数据库中的乙肝病例重报比例随着年份的跨度增加而增高,因而推测如增加数据库查重的年份,将进一步降低全国以及高发省份的乙肝报告发病率。
本文首次尝试利用全国乙肝病例个案的大数据进行重报分析,并设置了多重查找标准,最大限度利用计算机发现可能存在的重复病例,从方法学上具有一定的借鉴意义。但本文也存在一定的局限性:首先,“姓名”汉字的书写对数据库重复病例查找影响较大。本研究将数据库中姓名汉字转化为计算机语言进行比较分析,但由于汉字中有同音不同字或字形相同读音不同的现象,尤其是少数民族姓名是否含有“·”或空格等符号,均对转换后的姓名变量产生影响,在一定程度上可能造成低估查重结果,为了尽量减少影响,参照董蒲梅等[5]的方法将姓名变量2/3以上相同作为查重变量之一。第二,“出生日期”是查重的重要指标之一,本文考虑到中国人对年龄有虚岁的表述以及阴历等对“出生日期”准确性的影响,将查重标准放宽到“出生日期相差24个月内”,但与卢爱桃等[7]使用“年龄浮动在3年以内”结果相比较,本文的查重标准更严格,因而对全国乙肝重报估计还存在低估的可能性。第三,本文结论中对预先设置的6种查重方案结果进行合并统计,在一定程度上会扩大了查重过程中的错误判断,从而高估了重报比例。因此在查重标准设置时尽量严格设置,从而降低累积的错判风险。第四,本文未能通过开展相应现场调查对数据库查重结果进行外部核实,因而从方法学上还有待于进一步探讨。
综上分析,我国2011-2013年NNDRS报告乙肝病例中存在7.35%的重复病例,且3年重报率分别为2.91%、8.11%和11.72%。乙肝重报病例以跨年重复报告为主。乙肝重复报告对新疆、青海等省份的发病率统计影响较大。