2. 默沙东研发 (中国) 有限公司, 北京 100015
2. MSD R & D (China) Co., Ltd., Beijing 100015, China
国家食品药品监督管理总局药品审评中心2012年发布的《临床试验数据管理工作技术指南》[1] (以下简称指南) 中指出,无论临床试验过程是开放或盲法操作,在临床试验数据库锁定前,应由申办方、研究者、数据管理人员和统计分析师在盲态下共同最终审核数据中未解决的问题,并按照临床试验方案进行统计分析人群划分。作为数据库锁定前的一项重要数据管理工作,统计分析人群划分同时又是统计分析的基础,是影响试验假设是否成立的关键环节。客观的划分统计分析人群能够在一定程度上控制统计结果的偏性,更科学地展现试验结果,这也正是指南要求人群划分必须在盲态下进行的原因。客观的人群划分涉及到数据的准确性、核查的全面性以及讨论的科学性,无一不是对数据管理的严格要求,因而本文将从统计分析人群划分的角度探讨数据管理在临床试验全程中的重要性。
根据ICH-E9[2]和我国《化学药物和生物制品临床试验的生物统计学技术指导原则》[3] (以下简称指导原则) 要求,用于统计的分析集需在试验方案的统计部分中明确定义,并在盲态审核时确认每位受试者所属的分析集。在定义分析数据集时,需遵循以下两个原则: ① 使偏倚达到最小; ② 控制I类错误的增加。统计分析人群一般包括三类: 安全性数据集、全分析集和符合方案集。
1 安全性数据集的划分安全性数据集 (safety set,SS) 用于临床试验的安全性评价,通常应包括所有随机化后至少接受一次治疗的受试者。随机化入组后的受试者如果没有接受任何治疗是不作安全性分析的,因而不进入SS。但是有一种特殊情况,例如该受试者入组后接受了首次治疗,之后即失访,无任何疗后随访信息,虽然无法确定该受试者的安全性,但这不代表此例可以从SS中剔除。考虑到每位受试者在入组前均签署知情同意书,并被告知有任何不适应立即报告给主治医生,那么从“没有消息就是好消息”的角度可以认为该受试者疗后没有反馈任何信息很有可能是因为没有任何不适,即使有不适但没有反馈,这是试验依从性的问题,没有任何理由可以判定该受试者不进入SS。
是否接受过治疗关乎到是否进入SS,因而病例报告表 (case report form,CRF) 上应设计有随机入组日期、首末次接受治疗日期、每次治疗详细情况等信息采集点,数据管理员在进行数据核查时应着重核查以上信息填写的完整性和准确性,并确保研究者在数据质疑中能够准确地补充缺失信息。对于无法填补的缺失信息,例如首次治疗时间,应与研究者核实该例是否接受过治疗,并详细记录信息缺失的原因。对于门诊发药由受试者自行带回服用的试验项目,如果受试者在首次领药后即失访,往往无法获知具体的首次用药日期,在不能排除其未用药的前提下,一般应纳入SS。
2 全分析集的划分根据意向性分析 (intention-to-treat,ITT) 的基本原则,主要分析应包括所有随机化的受试者。即需要完整地随访所有随机化对象的研究结果,但实际操作中往往难以达到。因此,常采用全分析集进行分析。所谓全分析集 (full analysis set,FAS) 是指尽可能接近符合意向性分析原则的理想的受试者集。该数据集是从所有随机化的受试者中,以最少的和合理的方法剔除受试者后得出的,一般为安全性数据集的子集。
在大多数临床试验方案中,FAS通常被定义为所有遵循ITT原则、经过随机分组,至少接受过一次试验治疗并有相应的疗效评价的人群,主要用于有效性分析。CRF中关于疗效指标数据采集应设计科学、合理: ① 对于可以客观测量的指标应结合实际情况充分考虑数据采集的精度 (即小数点后保留位数) 和单位。单位应尽可能统一,尤其是主要疗效指标,例如空腹血糖指标,可将采集的血样转送至中心实验室检测。若不能统一单位,应在数据库中进行单位换算。采用电子CRF收集数据时尽可能做到不同单位的实时转换,若疗效指标为实验室检查指标,应禁止人工录入,通过设置与中心实验室对接的数据端口直接获取疗效数据,避免人工转录误差。② 对于通过量表评分来评价疗效的主观性指标,CRF上不应有人工计算的总分采集点,减少数据库中的冗余数据。
根据FAS的定义,只要接受过治疗并有相应疗效评价的受试者均应纳入,这其中必然包括一部分脱落病例和中间访视失访的病例,缺失数据不可避免,但应采取一定的预防措施尽可能减少不必要的缺失[4]。数据核查时应重点关注中间访视缺失的情况,尽可能修正由于研究者漏填而导致的缺失。对于真 实存在的缺失,一般按照统计分析计划中事先规定的缺失值填补方法进行处理,例如脱落病例的疗效缺失数据,一般呈单调缺失 (monotonic missing)[5, 6],即在某个访视时间点脱落之后的所有数据均未观察到,多采用LOCF (last observation carried forward) 法填补,即将缺失数据前面最近一次的观测值向后结转进行填补[7]。
缺失数据的填补方法有很多,要根据具体的缺失数据类型选用,应在统计分析计划中事先规定,并在盲态审核时、数据库锁定之前最终确定。一些特殊 的数据填补与FAS的划分密切相关。FAS的定义要求纳入的受试者至少有一次疗后评价,但是临床试验的实际过程中往往不可避免会有一小部分受试者因各种原因接受首次治疗后失访,无任何疗后评价数据。从遵循ITT原则、以最少的和合理的方法剔除受试者的角度出发,通常建议将此类人群纳入FAS。但是由于此类人群仅有基线数据,能否采用BOCF (baseline observation carried forward) 法[8],即用基线观测值结转填补之后所有访视点数据,还用结合试验疗效以及受试者病情变化趋势预测,若病情有加重趋势,具体的填补方法应在盲态审核时与研究者、统计师深入讨论商定。
作为安全性数据集的子集,剔除FAS的情况比较少见,一般有两种可能: ① 接受首次试验治疗后即失访的受试者主要疗效指标基线数据也缺失。例如疫苗临床试验中有效性指标一般为免疫原性指标,即使受试者按规定进行了血样采集,在血样运输和保存过程中可能由于各种原因而破损或被污染无法检测血清抗体滴度,从而导致抗体滴度基线数据缺失。基线数据的完整性和准确性关乎到能否进入FAS以及疗效评估的科学性,在数据核查时应杜绝不应该存在的数据缺失,并加强逻辑核查。② 根据受试者的疾病诊断判定不属于本试验的研究对象,即病例误纳。数据核查时应根据诊断标准审查受试者病情相关的基线数据,对于描述不清楚的数据必须要质疑,所有确定或疑似误纳的病例都应列在盲态审核决议文件中逐一讨论确认是否剔除FAS。
3 符合方案集的划分符合方案集 (per protocol set,PPS),亦称为“可评价病例”样本。它是全分析集的一个子集,包括试验中所有按方案规定完成试验治疗、无重要方案偏 离,完成所有评价内容的病例。一般应遵循以下几个标准: ① 符合试验方案规定的入选标准; ② 完成全部计划访视且完成CRF规定的填写内容; ③ 试验期间未使用可能影响疗效评价的药物或治疗; ④ 依从性良好 (80%~120%)。除特殊说明外,PPS的缺失数据一般不作结转。PPS的划分应涉及面广,是盲态审核中需要讨论的主要内容,也是主观性较强、最难以把握的环节。
根据方案规定的入选、排除标准设计CRF时,应确保能够客观、完整地采集到相应数据以判断受试者能否入选。例如,某胰岛素注射液治疗糖尿病的临床试验入选标准要求糖尿病病程应不短于6个月,因而CRF上除了入组时间还应设计有本次发病时间采集点。又例如,某拉唑类肠溶片治疗糜烂性反流性食管炎的临床试验排除标准规定了入组前两周内曾连续用质子泵抑制剂超过3天者应排除,因而CRF上不仅应设计既往病史和用药信息采集表格,该表格的数据采集项至少应包括用药名称、用法用量、用药开始日期、入组前是否继续、结束日期等,便于数据管理员计算用药结束日期距入组的间隔和用药持续时间,以进一步判定该受试者既往用药是否符合排除标准。数据核查时,应根据入选、排除标准逐一核查相应数据的完整性、逻辑性,例如既往用药史记录某药入组前已停用,但没有结束日期。对于不符合入排标准的具体情况应质疑研究者以获得进一步确认或是更正,并详细记录研究者对于有争议的疑问的专业解释。
经审查清理后的数据显示的所有违背方案入组的受试者及违背方案详情均应列在盲态审核决议文件中逐一讨论确认是否剔除PPS。在盲态审核时,不可死板教条,有些标准结合实际违背情况可适度放宽,例如上述的胰岛素试验中某糖尿病患者的病程计算为5个月零29天 (< 6个月),一般认为轻度违背方案,可纳入PPS。但放宽的度要严格控制,并应有合理的专业解释。与疗效指标相关的入排标准应严格执行,例如某注射液治疗急性脑卒中的临床试验入选标准要求NIHSS评分≥7分且≤22分,受试者入组前的NIHSS评分即使差一分也不应纳入PPS。
由于各种原因提前中止试验的受试者因为没有完成全部计划访视和CRF规定的填写内容,理论上均应剔除PPS。但有两种情况可另当别论: ① 试验预计受试者依从性差、脱落率高,例如某精神类药物临床试验的受试者都是精神病患者,若用药一段时间后仍无效而强制继续试验是违背伦理的,因而在方案中事先规定用药超过4周无效允许退出,但仍作为完成病例纳入PPS。相反的,也有因为疗效好在末次访视前已痊愈的患者不愿意继续用药而自行退出的情况,例如疗程为4周的治疗十二指肠溃疡临床试验中20% 左右的患者在用药2周后已痊愈。为避免主观性导致的偏倚,此类情况必须是可预见性的,且一般应在方案中事先声明,最短治疗时间和无效或治愈的判定标准应有科学依据,CRF上相应时间点的访视内容应设计完善,所有涉及到判定脱落病例是否纳入PPS的信息点均不可缺失,脱落后的缺失数据采用LOCF法结转。② 受试者仅是没有完成安全性评估,中止试验前已完成所有访视的主要疗效指标数据采集,因不影响主要疗效评估以及试验假设成立与否,一般认为可纳入PPS。数据核查时,对脱落病例要重点核查每次访视的疗效评估数据,排除因漏填等人为疏忽导致的缺失。
试验期间的合并药物和治疗可能会影响疗效判定,对于合并使用了影响疗效的药物和治疗的受试者应剔除PPS。有确定证据的禁用药物和治疗一般会在方案中事先声明,但仍会有一大部分疑似影响疗效的药物和治疗需要在盲态审核时讨论商定。判定是否影响疗效的依据除了药物和治疗本身的功能主治,还涉及到治疗时间、用法用量等,因此设计CRF时不仅要关注试验期间合并用药和治疗信息采集,还应包括既往病史和用药信息采集,对于既往用药在入组时未停用者应与试验期间合并用药一起审核。信息采集项至少应包括用药名称、用法用量、用药途径、用药开始和结束日期、用药原因、药物分类等,并尽可能对数据采集过程标准化。其中,① 药物名称应详细记录并要求填写通用名,数据核查时对于药物名称“不详”的记录或商品名应质疑研究者逐一补充或更正,例如商品名“洛赛克”应更正为通用名“奥美拉唑”; ② 用法用量和用药途径尽可能用中文描述,若采用英文缩写应注意书写规范、字迹清晰,例如“2次/天”也可以写成“bid”,“静脉滴注”可以写成“ivgtt”,对于字迹不清楚的记录在数据核查时应质疑研究者修订; ③对常规信息的采集进行标准化编码可以减少因字迹不清导致不必要的疑问,例如用药途径可以编码为“1=口服、2=肌注、3=静滴、4=外用等”,用药原因可以根据试验对象特点对常见的原因进行编码,例如精神病类试验的用药原因可以编码为“1=抗精神病、2=治疗椎体外系反应、3=镇静催眠等”,药物分类编码推荐采用WHO Drug标准[9]。
依从性评估一般包括是否按方案规定的访视窗接受随访以及是否按方案要求的理论量接受治疗两个方面。住院患者的依从性明显好于门诊患者,因此在试验执行、数据管理、统计分析等环节应着重考察门诊随访受试者的依从性。① 理论上每一次访视都应该在访视窗内,实际中结合试验本身的可执行性以及受试者整体依从性可以有一定程度的放宽,但对于主要评价时间点必须严格核查。访视窗的核查应包括接受治疗的时间间隔和终点主要疗效评估距首次接受治疗的时间间隔,两者应尽可能一致且都在访视窗内,不可偏差过多。例如,治疗胃溃疡的药物临床试验一般以胃镜检查结果作为主要终点,常常会出现受试者在访视窗内完成了末次访视,但是当天因未空腹不能行胃镜检查而推后的情况。设计CRF时应确保访视窗的每个时间点都能够清楚地采集到,例如首、末次用药时间,每次访视时间、胃镜检查时间、中止试验时间等,切不可以每次访视时间替代访视内所有检查的时间,并不是每次访视都能够在同一天完成所有评估项目的。② 接受治疗量是否达到理论量的80%~120% 是评价依从性的一项重要指标,CRF上应有每次发药量、上一次访视回收药量和本次访视应用药量等信息采集点便于数据管理员计算用药依从性以判定该受试者依从性是否达到理论量的80%~120%,对于超出此范围的受试者应质疑研究者确认并解释具体的原因,最终在盲态审核时商定是否剔除PPS。由于试验药物是由研究者在每次访视时按理论用量分发的,依从性超过120% 的情况比较少见,多是依从性差不足80% 的情况。并不是超出范围就一定剔除PPS,要结合实际情况具体分析。例如受试者实际用药量低于理论量的80%,但末次访视已痊愈,这种依从性差可能是由于疗效好自觉无需再用药导致,是可以考虑纳入PPS的。
符合方案集的划分涉及的信息面广、核查点多,对于同一例受试者出现多个违背方案的情况要综合判断。例如治疗胃溃疡的药物临床试验中,提前中止试验的受试者在方案事先规定的最短治疗时间内达到治愈可作为完成病例纳入PPS,由于提前中止导致的用药依从性差的情况是可以忽略的,但若是胃镜检查超窗 (推后型),检查结果可能混杂了自愈因素,影响疗效判定,综合考虑应该剔除PPS。将受试者排除在符合方案集之外的理由应在盲态审核时阐明,并在揭盲之前用文件写明。
4 三类分析人群的区别与联系安全性数据集、全分析集和符合方案集的关系见图 1,其中,安全性数据集最大,全分析集等于或接近安全性数据集,前者是后者的子集,符合方案集最小,是全分析集的子集,但两者不应相差过大,如果符合方案集中被剔除的受试者比例太大,则会影响试验的有效性分析,必要时需将剔除PPS的受试者重新纳入作敏感性分析,对研究假设是否成立给予进一步支持。
在大多数临床试验中,基于全分析集的统计分析结果是保守的,但更接近药物上市后的疗效。应用符合方案集可以显示试验药物按规定的方案使用的效果,但可能较以后实践中的疗效偏大。在确证性试验的药物有效性评价时,宜同时用全分析集和符合方案集进行统计分析。当以上两种数据集的分析结 论一致时,可以增强试验结果的可信性。当不一致时,应对其差异进行清楚的讨论和解释。一般优效性检验以FAS为主要分析集,等效性检验更关注PPS的分析结果。
5 实例分析某抗精神疾病类药物治疗精神分裂症的阳性对照临床试验,疗程6周,方案规定 ① 受试者入组前阳性和阴性综合征量表总分PANSS-T应≥70; ② 治疗2周后可酌情使用镇静催眠药,但连续使用应≤3天; ③ 治疗4周后因无效提前中止试验的受试者作为完成病例纳入PPS。CRF设计合理,所有相关核查点信息均已采集,双份录入后的数据经比对一致后由数据管理员进行数据核查、质疑、清理等工作后撰写盲态审核文件,由申办方、 研究者、数据管理员和统计分析师在盲态下共同最终审核数据,进行统计分析人群划分 (表 1)。
经讨论决议如下: 研究编号002号未曾用药,不进入SS、FAS和PPS; 013号入组后确诊为躁狂,非本试验药物适应症,仅进入SS作安全性分析; 017号符合方案规定“治疗4周后因无效提前中止试验的受试者作为完成病例纳入PPS”; 066号虽符合第③条规定,但4周访视提前了,实际治疗时间不足4周,按脱落病例处理,不进入PPS; 098号虽然脱落原因为“失访”,结合每次访视的疗效判定也符合第③条规定,作为完成病例纳入PPS; 132号提前中止试验、174号试验期间破盲,均不进入PPS; 203、215号虽完成试验,但违背方案第①、②条规定,均不进入PPS。
6 讨论数据管理开始于CRF设计,中间包括数据库建立、数据录入、核查等多个环节,在最终的盲态审核时划分统计分析人群,最后结束于数据库锁定。CRF记录信息是否完善直接影响到后期的统计分析人群划分,因而在设计阶段应慎重考虑,由申办方、研究者、数据管理员和统计师多方参与,内容应全面而简练,在确保必要信息收集无遗漏的前提下尽可能减少冗余数据的产生,例如只记录受试者出生日期即可,无需再填写年龄,避免人工计算错误导致不必要的数据疑问。
基于纸质CRF的研究大部分数据管理工作都堆积到后期,不仅效率低,而且数据错误率高,常见的错误包括因字迹不清导致录入错误以及填写前后的逻辑错误。清理不干净的数据会大大影响统计分析人群划分。采用EDC (electronic data capture) 数据管理系统能够很好地避免这类错误,基于电子CRF收集数据不存在字迹不清的问题,大部分可以预见的逻辑错误都可以在录入实时被纠正,即使有些错误无法预见,也可以在数据录入一段时间后修订逻辑校验程序,避免后期相同错误发生。此外,同步收集数据可以实时监控违背方案的情况,必要时甚至可以及时修订方案或调整试验执行具体环节。无论采用那种数据管理方式,都应该重视数据标准化,包括数据库结构、医学编码等,对于常规信息的采集也尽可能进行编码,提高数据管理效率。
划分统计分析人群时,应严格按方案要求核查违背的情况,有些方案规定比较笼统,对于疑似违背的情况研究者应结合专业知识、临床经验客观判断,并在申办方、数据管理员和统计师共同参与下商定。基于量化的方案要求判定违背情况时不可过于死板教条,非关键指标的方案偏离必要时结合试验实际情况可适度放宽,但必须有充分、合理的专业解释。
[1] | Center of Drug Evaluation, CFDA. Technical Guidelines for Data Management in Clinical Trials (临床试验数据管理工 作技术指南) [S]. 2012.http://www.cde.org.cn/news.do? method=largeInfo&id=312673. |
[2] | European Medicines Agency. ICH Harmonised Tripartite Guideline, Topic E9: Statistical Principles for Clinical Trials [S]. 2005. |
[3] | Center for Drug Evaluation, CFDA. Technical Guideline for Biostatistics of Chemical Drug and Biological Product Clinical Trials (化学药物和生物制品临床试验的生物统计学技术指导原则) [S]. 2005. |
[4] | Soon G. Missing data - prevention and analysis [J]. J Biopharm Stat, 2009, 19: 941-944. |
[5] | Rubin DB. Inference and missing data [J]. Biometrika, 1976, 63: 581-592. |
[6] | Little RJA, Rubin DB. Statistical Analysis with Missing Data (2nd edition) [M]. New York: Wiley, 2002. |
[7] | Siddiqui O, Hung HMJ, O’Neil R. MMRM vs LOCF: a comprehensive comparison based on simulation study and 25 NDA datasets [J]. J Biopharm Stat, 2009, 19: 227-246. |
[8] | Shao J, Jordan DC, Pritchett YL. Baseline observation carry forward: reasoning, properties, and practical issues [J]. J Biopharm Stat, 2009, 19: 672?684. |
[9] | World Health Organization. WHO Drug Dictionary [S]. 2015. |