2. 默沙东研发 (中国) 有限公司, 北京 100015
2. MSD R&D (China) Co., Ltd., Beijing 100015, China
缺失数据 (missing data) 在临床试验中是非常常见且不可避免的。它一般是由于受试者在试验中失访、依从性差、不良事件、缺乏疗效等原因提前退出试验而造成,也可能是因为采集标本或测量中的问题,如疫苗临床试验中因采取的血液样本过少而未能检测到有效的抗体滴度值所造成的疗效指标缺失等。缺失数据不仅会降低试验的把握度,而且会给试验结果的评价带来偏倚。因此,一方面,在数据统计分析时,采用适当的统计分析方法提高试验的检验效能,减小因缺失数据所带来的研究偏倚,以客观评价药物的疗效; 另一方面,更为重要的是,在临床试验的执行和数据管理过程中,应注意缺失数据的核查,提高数据质量,尽量减少不必要的数据缺失。
1 缺失数据的类型和机制临床试验中受试者一般会经历多次访视进行有效性和安全性评价,若受试者因在试验期间脱落造成该受试者在某个访视时间点之后的所有数据均未观察到,这种形式的缺失数据为单调缺失 (monotonic missing)。但若受试者仅是在某次访视时间点失访或因标本检测等原因造成的某次访视时间点的数据 未能观察到,但该时间点之后仍会得到有效的观察结果,将这种缺失数据形式成为非单调缺失 (non- monotonic missing)。图 1中描述了这两种类型的缺 失数据。其中,单调缺失是临床试验中最常见的一种缺失数据形式。一个临床试验中会出现单调缺失和非单调缺失两种形式的缺失数据同时出现,但是一般以单调缺失数据为主。在数据疑问中,应特别注意非单调缺失的数据,这些数据很有可能是由于研究者或监察员的疏忽而漏填,对于这种情况务必要及时修正,减少缺失数据的比例; 对于不能补充的缺失数据,则要说明造成数据缺失的原因。
根据缺失数据产生的机制和原因,Little和Rubin[1, 2]把缺失数据分成了三种。完全随机缺失 (missing completely at random,MCAR) 是指缺失数据的产生完全独立于可观察到和不可观察到的数据,如因受试者迁居所造成的失访脱落。MCAR往往是与临床研究本身不相关的,这种缺失发生的比例不会依赖于受试者的特点。它会造成试验检验效能的 降低,但是理论上不会给试验结果带来偏倚。因此,仅对MCAR而言,数据分析中可以仅对已观察到的数据进行统计分析[3]。随机缺失 (missing at random,MAR) 是指缺失数据的产生独立于不可观察到的数据,但会与可观察的数据有关,这些可观察到的数据包括反应变量以及性别、年龄等协变量,因此,这种缺失数据也被称为协变量依赖的随机缺失 (covariate- dependent MAR) 或反应变量依赖的随机缺失 (outcome-dependent MAR)。例如,受试者在试验中因不良事件或缺乏疗效脱落而造成的缺失就属于这一类型的缺失数据。对包含MAR的数据分析中,需要考虑数据缺失与已观察数据的相关性[3]。非随机缺失 (missing not at random,MNAR) 是指缺失数据的产生不仅与已观察的数据有关,而且可能与某些未知或不可观察的数据有关。例如,意外死亡、因其他原因造成的身体健康问题造成的脱落等属于这一类型的数据缺失。MNAR的处理较为烦琐,统计分析中要给定数据缺失过程的概率分布,考虑数据观测过程和缺失过程的联合概率分布[3]。由此可见,缺失数据的不同机制和它的处理方法是息息相关的。因此,在临床试验的统计分析中,需要首先明确缺失数据的产生原因和机制,才能采用合适的缺失数据处理方法,减小由缺失数据带来的试验结果偏倚; 而关于数据缺失产生原因的明确,则需要数据管理人员和监察员等帮助。
2 临床试验中缺失数据的预防虽然缺失数据可以在统计分析中采用一定的统计模型对它所带来的偏倚进行校正,但是由于缺失数据的存在,终究还是无法知道试验真正的处理效应大小; 而且如果试验中缺失数据的比例过高,那么它所估计的试验结果的可信度也会很低; 最后,缺失数据处理的统计方法也不是万能的,特别是对于MNAR的缺失数据,目前尚没有很好的方法对它所带来的影响进行校正。因此,在临床试验中,最重要的是能够在试验的执行过程和数据管理中尽可能地预防缺失数据的产生。缺失数据的预防首先需要在试验方案的制定中就尽可能的预防缺失数据的产生[4]。另一方面,在试验过程中,需要从试验的监察、数据采集和数据核查等多个方面入手,减少可避免的缺失数据。
2.1 临床试验监察在试验方案的设计中,需要考虑如何提高受试者的依从性,减少受试者的脱落,以减少缺失数据的产生。一般情况下,在方案设计中可以考虑以下几个方面。
2.1.1 主要疗效终点的选择和明确主要疗效终点 (primary efficacy endpoint) 是临床试验中评价药物有效性的关键。它包含了两层意思: 评价疗效的主要指标和评价疗效的主要时间点,疗效终点本身也包含了时间的概念。因此,在方案设计选择疗效终点时也必须考虑这两个方面。第一,在疗效评价的主要指标选择中,不影响试验疗效评价的科学性的前提下,应当考虑该疗效评价指标测量的难易、伦理学和经济性等方面的问题。例如,在治疗失眠的药物临床试验中,多导睡眠监测虽然是评价药物疗效的金标准指标,但是该指标的测量对于患者来讲非常麻烦,且很多医院并没有多导睡眠监测仪的设备条件,这就会给患者的依从性和数据的测量带来困难。因此,在某些治疗失眠的临床试验中,可以在科学性允许的前提下采用匹兹堡睡眠质量指数等作为主要疗效评价指标,同时在所有受试者中选择部分患者进行多导睡眠监测的评定,以防止主要疗效评价指标的大面积缺失,也可以提高患者的依从性。第二,注意疗效终点的时间概念。临床试验中患者的长期随访是很困难的,因此,试验疗程在不影响试验的科学性的条件下应当尽可能的缩短,以提高患者的依从性。同时,试验方案的疗程应当结合疗效指标和试验的具体情况灵活设计。以治疗活动性十二指肠溃疡的临床试验为例,一般希望在治疗前、治疗2周和4周时评价主要疗效指标内镜下十二指肠溃疡愈合率,但是内镜检查会给患者带来很大的痛苦,内镜检查次数的增多会给患者的依从性带来一定的影响,因此,为了提高患者的依从性和考虑药物的预期疗效,方案规定治疗2周内镜检查溃疡痊愈的患者即可以提前结束试验,不必再进行治疗4周检查,并采用治疗结束时内镜下十二指肠溃疡愈合率作为主要疗效终点,而不是治疗4周内镜下十二指肠溃疡愈合率,尽可能的减小患者的负担,也可以减少主要疗效终点数据的缺失。
同时,主要疗效终点必须在试验方案中明确指出,这是因为它是试验疗效评价的关键,也是试验执行过程中监察和数据管理中数据核查的重点。只有它在方案中明确说明,数据管理人员才可以根据方案中描述的主要疗效指标和主要评价时间点撰写数据核查计划,实施数据核查,减少主要疗效终点的缺失,提高数据质量,保证试验的疗效评价。
2.1.2 数据采集的标准操作规程在某些临床试验中,由于标本采集、数据测量等原因会无法采集疗效数据或者采集到的疗效数据不可用,从而造成疗效数据的缺失。例如,疫苗临床试验常会由于收集的血液标本量过少或污染而无法测量抗体滴度水平; 治疗精神分裂症的临床试验中,由于研究者的询问技巧等原因使患者不愿回答量表评分造成数据的缺失等。因此,在临床试验的方案设计阶段,还要注意制定主要疗效指标数据采集与测量的标准操作规程,并对研究者、监察员等相关人员进行培训。特别是对于采用主观量表作为主要临床指标的临床试验,应当注意研究者沟通技巧和评分操作等培训,可以提高患者依从性、减少缺失数据的发生,还可以提高不同中心采集数据的同质性。
2.1.3 其他方面试验方案设计中需要从多方面考虑,在不影响研究科学性的前提下,采取合理的措施增加患者的依从性,减少缺失数据。例如,在疼痛临床试验中,特别是安慰剂对照的试验,为了避免试验中患者由于疼痛不可耐受而中止试验,以致无法观测治疗结束时疼痛VAS评分,可以在方案中增加补救治疗措施,允许患者在疼痛VAS评分达到一定程度时,补救性使用规定的止痛药物,且服用止痛药物的种类、剂量和疗程必需符合方案规定且详细记录,这样就能够在一定程度上减少患者因疼痛难忍脱落的可能性,且通过对补救治疗使用比例、剂量等的分析也可以避免补救治疗措施对试验评价科学性的影响。另外,试验完成后也可以给患者进行补偿治疗,这不仅能增大患者在临床试验中获益,更加符合伦理要求,而且会增加患者末次随访的可能性,防止患者脱落,减少数据缺失。此外,方案设计中还应当注意受试者人群的选择,尽量选择依从性高的受试者人群。例如,合并心脏、肝肾等严重疾病的患者,一方面从安全性考虑不适宜参加临床试验,另一方面,从数据的角度来讲,这一类患者在试验中因其他不良事件中途脱落的可能性很大,无法完成主要疗效终点的观测,因此,也应当尽量避免这一类人群的入选。
2.2 数据采集和数据检查试验执行过程中的数据采集和数据核查是临床试验中减少缺失数据的另一个重要环节。从数据管理的角度来看,在数据采集和数据核查中应当考虑以下几方面问题。
2.2.1 选择合适的EDC(electronic data capture) 等数据采集工具 在电子数据采集的环境下,EDC系统是进行数据采集的主要平台。从数据的角度来讲,EDC系统的选择需要注意几个问题。首先,数据核查功能是EDC系统必不可少的。除能够满足数据管理员逻辑核查和数据质疑的功能外,数据录入过程中应当即可以进行实时核查 (on-entry check),对主要疗效终点的漏填及时发出确认提醒信息,从数据源头上防止不必要的数据缺失。其次,良好的EDC系统应该具备受试者的随访提醒功能,即在受试者的下次随访前2~3天内,系统可以向研究者发出提醒受试者的下一次随访,以便研究者提前联系受试者按时随访,防止受试者因忘记而在访视时间点失访的可能性,保证数据的完整性。最后,友好的系统操作界面也是EDC系统所必需的。不论是数据录入、数据质疑还是疑问解答等数据管理的各个环节,EDC系统的操作界面最好要符合临床研究者和数据管理员的操作需求和习惯,减少数据的漏填。此外,EDC系统的选择还要考虑它能否和临床试验相关的交互式网络应答随机化系统 (interactive web response system,IWRS)、医院信息系统 (hospital information system,HIS) 等实现数据的互通传输,使临床试验数据的获取更接近于源数据,这些对于减少不必要的数据缺失都有重要的作用。
2.2.2 数据核查数据核查是数据管理中保证数据质量关键环节,也是预防缺失数据的关键步骤。首先,根据临床试验方案中需要采集数据的作用和重要程度,建立详细的数据核查计划。例如,主要疗效终点是试验中评价有效性的最为重要的数据,所以在数据核查中除了需要对主要评价时间点的主要疗效数据进行计算机逻辑核查外,还必需进行人工核查,保证主要疗效终点的完整性,杜绝不应该存在的数据缺失。对于次要疗效指标数据,除进行计算机逻辑核查外,也最好可以进行一定比例的人工核查,尽量减少不必要的数据缺失。其次,在数据核查和溯源的具体过程中,也应当尽可能采取可以采取的措施避免疗效数据的缺失,特别是对于主要评价时间点的主要疗效评价数据。例如,以总生存期为主要疗效终点的肿瘤临床试验中,即使受试者在试验过程中因不良事件等原因脱落,但也应当在整个试验完成时尽可能地追踪到受试者的存活情况; 且对于发生死亡的病例,可以通过死亡登记系统,对患者死亡的时间、原因等进行详细记录,减少主要疗效终点的缺失。另外,在某些由于客观原因受试者确实无法进行随访的情况下,如果研究者可以通过问诉对主要疗效终点进行评定,或者患者可以自行测量疗效指标的,研究者可以通过电话回访的方式尽可能获取受试者在此次随访的主要疗效数据,减少疗效数据的缺失。例如,以身高为主要疗效指标的治疗青少年生长缓慢的临床试验,受试者家长完全可以自行测量儿童身高,通过电话回访告知研究者。同样,以患者感知的相关量表作为主要疗效评价指标的精神类临床试验,研究者也可以通过电话问诉填写相关量表的评分,保证主要疗效数据的完整。但同时,还要杜绝一些需要研究者进行症状和体征检查评定的疗效数据也通过电话随访等方式获取。在这种情况下,即使已经得到了类似的观察数据也不能作为有效的疗效数据,但也不具有可信度,仍要以缺失数据处理。例如,某些中医症状评分需要研究者结合受试者的舌脉、面部症状等进行评定,治疗帕金森病临床试验中疗效评价也需要研究者结合受试者的步态、平衡情况等进行疗效评价,这些都无法仅靠问诉完成。
2.2.3 注意临床试验中的“伪数据”“伪数据”是指在临床试验中某一随访时间点中已填写了受试者的疗效数据,但是该数据的观测时间却已经远远超出了受试者在该时间点的访视时间窗,并不能反映受试者在该随访时间点的疗效情况,没有了在该时间点疗效评价的意义,而只能作为缺失数据来处理。例如,某治疗消化道溃疡出血的临床试验中,采用内镜下72 h内止血成功率作为主要疗效终点,但在试验执行过程中虽然研究者在服药72 h内从临床上判定了止血成功,但一部分受试者由于未能及时在72 h及可接受时间窗内进行内镜检查,虽然他们的内镜检查结果显示止血成功,但这也不足以判定受试者的内镜下72 h止血成功,从而造成了这一部分受试者的主要疗效终点缺失。因此,对于这一类临床试验,应当及早统筹安排受试者的内镜检查,保证受试者在方案允许范围内进行检查,预防可避免的数据缺失。在一些疗程短、自愈性强的临床试验中也存在类似的情况,以治疗口腔溃疡的临床试验为例,方案中一般要求在5天疗程中以日记卡记录每天的疼痛VAS评分,而个别受试者末次访视评分的评价日期却在治疗后7天甚至更长时间,这种情况下即使患者不使用任何药物也能够自愈,这些受试者的末次访视疼痛评分并不能反映药物的治疗效果。因此,在临床试验的随访观察中,应特别注意时间窗的控制,研究者可在随访观察时间点前提前通知受试者按时进行随访观察,防止患者超窗访视,造成“伪数据”的困扰。另外,在以疾病保护率作为主要疗效终点的疫苗临床试验中,如轮状疫苗临床试验,试验观察的腹泻病例可以在1~2周痊愈,所以如果试验主动监测的时间间隔过长,研究者未能在受试者发生腹泻时进行随访采样,则可能会漏掉一些腹泻病例的发生,造成“错误”的疗效数据。因此,在这一类疫苗临床试验中,需要在被动监测的基础上,根据疾病特点合理设计定期主动监测,防止病例的遗漏。
2.2.4 其他方面在数据录入中,应当注意区分’ND’、’NK’、’NA’和数据漏填之间的区别,对于不可知、不可测等数据可填写’ND’、’NK’或’NA’,而不要留空,对于主要疗效数据为’ND’、’NK’或’NA’者,还应当明确原因; 而在数据核查阶段,对于已明确记录为’ND’、’NK’或’NA’的数据可以不必重新核查,而对于无故未填写的数据,特别是主要疗效和安全性数据,则必需逐个核查,并进行数据溯源,记录主要疗效数据发生缺失的原因,以帮助判定数据缺失的机制。另外,在脱落病例的观察数据填写中,有时会将脱落前最后一次访视的观察数据填写到试验计划的末次访视处,这就会使原本单调缺失的数据变为非单调缺失,不论采用何种缺失数据处理方法都会造成错误。因此,在数据核查过程中,应当重点对脱落受试者观察数据填写的时间点进行逻辑和人工核查,保证观察数据的正确填写。
3 临床试验中的缺失数据处理方法 3.1 LOCF、BOCF和WOCFLOCF、BOCF和WOCF均是一种单重填补 (single imputation) 方法,也就是缺失数据进行一次填补后,对填补后数据进行统计分析。其中,前一次观察数据向后结转 (last observation carried forward,LOCF) 是临床试验中最常用的一种缺失数据处理方法。它是将缺失数据前面最近一次的观测值拿来进行替代填补,LOCF方法的使用非常简单,但是应当基于两个假定: ① 缺失数据满足MCAR; ② 数据缺失之后各时间点的观测值为能够访视到的最后一次时间点的观测值[5]。这两个条件是非常严格的,且Molenberghs等[6]也发现即使在MCAR的条件下,LOCF方法还是会带来一定偏倚,且偏倚的大小、方向和试验的真实处理效应有关。
基线观测值结转 (baseline observation carried forward,BOCF) 方法是用疗效指标的基线值来对缺失数据进行填补。最差一次观测值结转 (worsts observation carried forward,WOCF) 方法是用已观察到的历次访视中最差的一次观测值对缺失数据进行填补。BOCF和WOCF方法都是一种保守的缺失数据处理方法。对于因不良反应而脱落的受试者,由于他们经历了不良反应,可能并未真正从试验中获益,因此,为了体现这些患者的风险获益情况,可采用BOCF方法对缺失数据进行填补[7]。药物审评机构也经常会要求采用BOCF方法对药物的疗效评价进行保守估计,以评价药物的获益。WOCF方法则常用 于因缺乏疗效而脱落的受试者进行缺失数据填补,而且为了确保受试者确实是由于药物的疗效不佳而脱落,一般要求受试者达到了一定疗程 (如整个试验疗程的一半) 后脱落,并最好结合受试者的其他客观指标,以避免药物疗效未显现即脱落或者个人其他原因。对于确实因药物疗效问题脱落的受试者,可从保守角度采用WOCF方法进行缺失数据填补,并进入符合方案数据集,对药物疗效进行保守评价,也将采用这种试验设计方法称为缺乏疗效 (lack of efficacy,LOE) 设计。
3.2 多重填补多重填补 (multiple imputation,MI) 是指对缺失数据进行多次填补后,对多个填补后数据集进行分析和结果合并。因此,多重填补的方法一般包括数据填补和合并分析两个过程。数据填补的过程首先是根据已观察到的数据估计缺失数据的分布状态,并采用合适的填补模型 (imputation model) 进行m次填补。其中,填补模型的选择则需要根据数据缺失的机制,如单调缺失数据可采用参数回归方法。在合并分析中,首先对m个填补后数据集进行统计分析,再对m次分析结果进行合并。这两个过程在SAS中可分别由PROC MI和PROC MIANALYZE实现。多重填补的使用必需基于MCAR或MAR的缺失数据。由于它会进行多次填补,所以与LOCF等方法相比更为稳健。
3.3 重复测量数据混合效应模型与其他两种方法不同,重复测量数据混合效应模型 (mixed-effect model for repeated measures,MMRM) 方法本身不对缺失数据进行填补,而是将每个个体作为随机效应,拟合一般线性混合效应回归模型进行统计分析,模型中考虑了缺失数据的影响。MMRM也是适用于MCAR或MAR的缺失数据。与其他两种方法相比,在假定缺失数据为MCAR或MAR时,MMRM可以很好控制试验的I类错误,但是LOCF方法会造成I类错误膨胀[5]; MI方法虽然也可以控制试验的I类错误,但是较MMRM会低估处理效应,较为保守[8]。因此,MMRM方法被推荐用于临床试验中连续性缺失数据的处理。
3.4 缺失值处理与数据管理LOCF、MI和MMRM是临床试验中常用的三种缺失数据处理方法,且它们都是仅适用于MCAR或MAR的缺失数据。模拟实验表明,在MNAR的缺失数据中,三种方法都会造成I类错误的膨胀[4, 7, 8]。临床试验方案中,一般是假定缺失数据是MAR的情况下选择适当的缺失数据处理方法。因此,在数据管理中,应当注意缺失数据的产生原因,这些对于统计师判定缺失数据机制和选择适当的缺失数据处理方法都是非常重要的。另一方面,在数据核查中,应当对受试者的脱落原因进行相关逻辑核查。例如,对于因不良事件脱落的受试者,应当和记录不良事件列表清单进行交叉核对,保持二者的一致性。对于确实因不良事件脱落的受试者才可以采用BOCF方法进行缺失数据处理。同样,对于因缺乏疗效而脱落的受试者,首先应当根据方案中缺乏疗效提前退出试验标准进行相关核查,判定患者是否符合标准,明确原因; 其次,根据受试者已记录的疗效指标,特别是客观疗效指标,来看患者是否存在未好转甚至恶化的情况,对脱落原因填写的合理性进行质疑; 最后,计算因缺乏疗效脱落受试者的治疗时间,特别是对于治疗时间很短且填写缺乏疗效者进行质疑确认,并在数据盲态审核报告中说明治疗时间,以判定这些受试者能否进入符合方案数据集分析和采用WOCF方法进行数据填补。
4 讨论临床试验中的缺失数据是不可避免的,但可以尽量预防减少。数据管理是临床试验中保证数据质量的关键步骤; 同样,减少临床试验中不必要的缺失数据也必须从数据管理下手。另一方面,数据处理中数据缺失机制的判定和数据处理方法的选择需要数据管理中对受试者脱落原因的核查和记录。也就是说,无论从缺失数据的预防还是处理来讲,数据管理都起着不可替代的作用。
在临床试验中,虽然可以采用一定的统计方法对缺失数据的影响进行校正,但是能够预防缺失数据的产生仍然是第一位的。首先,在方案设计中,需要从主要疗效评价指标的选择、疗程的长短、受试者人群的选择等多个方面考虑,提高受试者的依从性,减少受试者的脱落比例,预防缺失数据的发生; 其次,在试验执行和数据管理过程中,从最初EDC系统等数据采集工具的选择、数据录入与核查等方面入手,同时结合不同类型临床试验的特点,尽可能采取合理的措施,在保证主要疗效终点数据完整性的基础上,减少可避免的缺失数据的发生。
临床试验中常用的缺失数据处理方法,包括LOCF、MI和MMRM,都是以缺失数据满足MCAR
或MAR为条件的,因此,临床试验方案中所选择的缺失数据处理方法也是基于缺失数据满足MAR的假设。但是,当试验完成发现缺失数据已经很大程度上偏离MAR的假设时,方案中原选择的缺失数据处理方法就不能满足试验的要求,特别是MNAR的缺失数据,需要选择其他方法对缺失数据带来的偏倚进行校正。此外,在缺失数据的处理中,除了方案中规定的主要方法外,还可以使用一些其他的缺失数据处理方法对试验结果进行敏感性分析 (sensitivity analysis),若敏感性分析结果和原分析结果的结论一致,可以认为试验结论有很强的可信度; 反之,若敏感性分析结果和原分析结果存在很大的差异,需要对缺失数据进行进一步分析,寻找差异来源的原因。
[1] | Rubin DB. Inference and missing data [J]. Biometrika, 1976, 63: 581-592. |
[2] | Little RJA, Rubin DB. Statistical Analysis with Missing Data [M]. 2nd ed. New York: Wiley, 2002. |
[3] | DeSouza CM, Legedza ATR, Sankoh AJ. An overview of practical approaches for handling missing data in clinical trials [J]. J Biopharm Stat, 2009, 19: 1055-1073. |
[4] | Soon G . Missing data-prevention and analysis [J]. J Biopharm Stat, 2009, 19: 941-944. |
[5] | Siddiqui O, Hung HMJ, O'Neil R. MMRM vs. LOCF: a comprehensive comparison based on simulation study and 25 NDA data sets [J]. J Biopharm Stat, 2009, 19: 227-246. |
[6] | Molenberghs G, Thijs H, Jansen I, et al. Analyzing incomplete longitudinal clinical trials data [J]. Biostatistics, 2004, 5: 445-464. |
[7] | Shao J, Jordan DC, Pritchett YL. Baseline observation carry forward: reasoning, properties, and practical issues [J]. J Biopharm Stat, 2009, 19: 672-684. |
[8] | Siddiqui O. MMRM versus MI in dealing with missing data-a comparison based on 25 NDA data sets [J]. J Biopharm Stat, 2011, 21: 423-436. |