药学学报  2015, Vol. 50 Issue (11): 1420-1424   PDF    
数据管理与统计学的关系
陈峰1 , 孙华龙2, 沈彤3, 于浩1    
1. 南京医科大学公共卫生学院, 江苏 南京 211166;
2. 美达临床数据技术有限公司, 上海 200031;
3. 强生中国研发中心, 北京 100025
摘要: 一个理想的临床试验必须做到科学的试验设计、严格的实施、完善的质量管理、没有争议的分析结果和可接受的风险效益比。为了达到这一要求, 临床试验从设计到实施, 从分析到总结, 都必须把质量控制的理念融入其中。而数据管理中的质量控制离不开统计学思维和方法。本文从统计学角度论述了数据管理与统计学的关系, 并强调了数据管理中必须应用统计思维和统计学方法, 以提高数据管理的质量。
关键词: 数据管理     统计学     质量控制     管理规范     标准操作规程    
Relationship of statistics and data management in clinical trials
CHEN Feng1 , SUN Hua-long2, SHEN Tong3, YU Hao1    
1. School of Public Health, Nanjing Medical University, Nanjing 211166, China;
2. Meta Clinical Technology, Shanghai 200031, China;
3. China R&D and Scientific Affaires, Pharmaceutical Company of Johnson-Johnson, Beijing 100025, China
Abstract: A perfect clinical trial must have a solid study design, strict conduction, complete quality control, non-interference of statistical result, and acceptable risk-benefit ratio. To reach the target, the quality control (QC) should be performed from the study design to conduction, from the analysis to conclusion. We discuss the relationship between data management and biostatistics from the statistical point of view, and emphasize the importance of the statistical concept and methods in the improvement of data quality in clinical data management.
Key words: data management     biostatistics     quality control     good practice     standard operating procedure    

本专辑专门讨论数据管理 (data management,DM)。临床试验中数据管理的重要性,以及统计学应用的重要性已经不言而喻。但是,很多人认为数据管理和统计学是两回事,数据库锁定前是数据管理员的事情,锁定后交由统计学人员进行分析。这种想法是错误的。本文重点论述数据管理与统计学的关系,以及统计学何时介入临床试验。

1 总体考虑

数据管理的目的是确保临床试验中所得到数据的可靠性、完整性、准确性以及能真实地再现受试者的基本信息[1, 2, 3]; 生物统计主要是确保新药临床试验中统计学原理的正确应用,从统计学角度参与临床试验的设计、数据的采集、分析和总结的全过程,并对试验的结果进行恰如其分的解释和推论[4]。在临床试验中数据管理和生物统计的相应职责见表 1

Table 1 The responsibilities of biostatistician and clinical data management in clinical trials

临床数据管理和生物统计虽然在临床试验中的分工和职责不同,但在工作中相辅相成,密不可分。随着临床试验趋于规范化,人们对生物统计学与临床数据管理的紧密联系和相互合作越来越重视。ICH E9和我国生物统计学指导原则中均明确指出,生物统计人员应该自始至终参与到临床试验的整个过程[4]。统计学的作用不仅仅是等所有数据收集后,才开始统计分析,而是要渗透到临床试验的各个环节,从试验设计、病例报告表 (case report form,CRF),CRF/eCRF的设计、数据收集、数据核查清理、统计分析直至最后的临床试验总结报告的撰写,都离不开统计学。

临床数据管理在确保临床试验中所得到数据可靠性、完整性、准确性的同时,还必须了解统计学需求,使被统计分析的数据是可用的,易于被分析的。所以从数据的采集、核查和清理的过程中,就需要有生物统计人员地密切参与。数据是临床试验的核心价值所在,生物统计人员应该充分认识到对药物的安全性和有效性而言,数据真实可靠性的重要性。

一个理想的临床试验必须做到: 毫无瑕疵的试验设计,无可挑剔的严格实施,完善可控的质量管理,没有争议的分析结果和可接受的风险效益比。

为了达到这一要求,临床试验从设计到实施,从分析到总结,都必须有严格的质量控制 (quality control,QC)。尤其是2015年7月22日CFDA发布117号公告要求所有已申报并在总局待审的药品注册申请人,均须按照《药物临床试验质量管理规范》等相关要求,对照临床试验方案,对已申报生产或进口的待审药品注册申请药物临床试验情况开展自查,确保临床试验数据真实、可靠,相关证据保存完整[5]。这反映了监管的要求已经从只是注重统计结果,向临床试验全过程监督转变。GCP要求质量控制应适用于数据处理的每个阶段,以确保所有的数据是可信的,并已正确处理[6, 7],而数据管理中的质量控制离不开统计学思维和方法。统计学的提前介入,或者说将统计学思维应用到数据管理的各个步骤中,通过规范的数据管理和严格的质量控制可使数据在采集、录入、核查、锁定、导出的各个环节减少犯错的概率,而改善临床数据的质量,从而可为统计分析提供真实可靠的数据。

2 数据管理中的统计学方法 2.1 数据采集时的统计学考虑

完善的、界面友好的CRF/eCRF设计,为数据的正确录入提供了方便。无论是纸质的CRF,还是电子CRF的设计,都必须要满足试验方案、统计分析的设计要求以及临床试验的操作要求,以方便采集的临床试验数据准确地转录/录入到CRF/eCRF上,同时数据应能快速准确地被处理、分析及解释。

2.1.1 必须完整、准确地采集研究方案所要求的数据

没有记录的事情就可以认为是没有发生过,这已经是管理者的共识,但是只有满足试验设计的统计分析要求、采用国际通用的标准化的数据结构、完整准确的数据集才可以保障准确的统计分析和科学的临床试验评价 (outcome)。

CRF设计时应该根据试验方案需要全面理解试验方案的设计,根据临床试验要求和统计分析的需求来考虑该临床试验的数据类型、源数据的产生方式,怎样去采集、录入、导入以及后续的临床数据的整合清理步骤。事实上,在临床试验的实践中,经常会有这种情况的发生,统计分析时需要的数据没有被收集,或者统计人员需要在统计分析前做大量的数据处理工作。

从统计分析的角度,以下数据通常是需要采集的: ① 人口统计学数据; ② 对研究目的必需的数据: 主要的有效性和安全性终点指标; ③ 受试者能被合适地分层; ④ 分析必需的预后因素; ⑤ 可确认受试者的是否符合纳入标准和排除标准; ⑥ 确保受试者的安全性: 不良事件、实验室检查、生命体征、体格检查、既往史、伴随用药等。

统计分析计划中对于临床试验中不同数据的阐述,关键数据的用途及其在统计分析的时间点,对于设计病例报告表以及构建临床数据库有着重要的参考意义。在保证数据采集的完整性的同时,需要根据统计分析计划书来进行数据变量的选择,注释CRF的标记,关注数据结构的相互关系以构建元数据和最后数据集。数据管理员应该尽量避免临床数据的重复采集,明确区分临床试验中需要录入CRF的数据和直接导入数据库/仓库的数据,提前考虑临床数据整合的顺畅,为研究者提供清晰的病例报告表填写指南并且帮助参与试验的研究者了解数据采集过程,加深对病例报告表与试验方案的契合的理解以方便研究者执行试验方案。

应用临床数据交换标准协会 (CDISC) 数据标准,在同一药品及其不同适应症的临床试验中采用相同变量名、代码、结构和数据格式,有助于优化研究实施,方便数据分析、交流和共享,也方便了向管理部门递交资料的流程,同时CRF的库和统计分析的SAS编程可被其他试验兼容、共享,大大缩短了研究和评价的周期并节省费用。

2.1.2 必须符合统计分析的要求

临床试验数据最终要经过统计学分析,将样本中所蕴含的信息提升到一般情况,将样本信息推断到总体。因此,临床试验中所采集的信息和数据必须采用统一的标准进行量化,以便于统计分析。

临床试验中有时采集的数据无法直接地被用于统计分析。比如CRF中伴随用药的相关描述、既往 史、家庭史等有时被设计成开放式问题,研究者在记录数据时多了许多任意性,影响了数据的准确性。而在统计分析时,生物统计人员尚需对数据进行分类编码。

事实上对于特定的适应症而言,通常伴随用药、既往史等有许多共通之处,如将这些共同点设计成闭合式的问题选项,剩下的无法特定的部分可混合用开放式,因为选项在数据库中有固定代码,数据便于统计分析。所以在CRF的设计中应有效地利用代码,尽可能减少开放式的数据采集,同时在整个临床试验中应确保代码的一致性,如: 1 = 是,2 = 否。

在CRF设计时尽可能采用多信息结构化设计,如CRF的页眉或页脚中包括申办方编码、方案代码、受试者识别号、受试者姓名缩写、页码、访视号/标签、CRF的版本号及序号等,有利于数据库编程和统计分析。 /p>

采集数据时应该确保临床试验过程中数据的一致性,如日期的格式 (YYYY/MM/DD)、小数点后保留位数、实验室检查值的单位应尽可能地采用国际标准化的度量单位,或者在数据库中转化为国际标准化单位,而采用代码来表达不知道/不适用/未执行和其他数据点时应尽可能地保持其一致性。

2.1.3 及时将采集的数据记录或录入可以避免回忆偏倚

前瞻性研究优于回顾性研究的一个特点,就是数据是及时记录的,因此避免了回忆偏倚 (bias)。这对于正确分析变量间的关系是有利的,所得结果更加可靠。但是,前瞻性研究中如果数据记录不及时,这个优势就不复存在了。精心设计的数据管理系统可以实现试验数据的及时录入,并为在最短时间内实现数据的核查和答疑提供保障,提高了数据的真实性、完整性、可靠性和安全性,从而为统计分析提供“干净”的数据。

综上所述,临床数据管理员接受生物统计学的培训,理解试验方案中有关统计学的描述,能够帮助其在CRF设计时满足试验方案数据采集的要求,有效地为统计分析提供服务。临床数据管理员虽然是CRF设计的责任者,但生物统计人员应该审核CRF,确认方案要求的数据是否被准确完整地在CRF中采集,所有采集的数据是否符合统计分析的要求,有关的检查的单位是否统一,数据的格式是否统一,采集的数据是否易于被统计分析等。

2.2 数据核查的统计学考虑

对于生物体来讲,变异(variation) 总是客观存在的,但是变异是有规律的,任何变量都有其特有的方差和分布 (distribution),变量间具有特有的关系。在数据核查中要充分利用变量及变量间固有的变异规律,对异常数据进行核查。生物统计人员通常会要求数据管理员在构建数据库的同时建立具有统计学意义的数据逻辑核查程序。

2.2.1 单个变量的核查

取值范围的逻辑核查: 主要是从变量的取值范围来核查。例如,某个量表的总分在0~40,则不在该范围的值被认为是错误的。

实验室检查的正常值范围核查: 根据不同中心、不同实验室的正常值范围,判断变量的取值是否为异常。通常,将超过正常值范围的数据作为异常值罗列出来,再进行复核。

统计学上的异常值检查: 即根据每个变量的实际分布情况,判断取值是否为异常。例如对于正态分布变量,取值在 ± 3倍的标准差以外的数据,认为是可疑数据,需要进一步复核。

2.2.2 多个变量的关系核查

除了对单个变量进行核查,还需要根据两个或多个变量间的关系进行核查。包括变量间逻辑取值的核查和相关关系的核查两个方面。

两个变量逻辑取值的核查主要检查: 当一个变量取某个值时,另外一个变量的取值的逻辑性和合理性检查。例如,性别如果是“男性”,则“是否绝经”就应该空缺的,而不应该有“是”或“否”的答案。又如,基线访视、第一次随访和最后一次访视的时间,是有序的,后续的访视时间不应该早于基线日期,等等。

相关关系的核查。变量间的相关关系也是生物体固有的特性,例如,成年人的身高与体重是相关的,且相关系数在0.7左右。我们可以根据这种相关关系,同时对两个变量进行核查。例如,从单个变量的逻辑性核查可以认为成年人的身高在140~190 cm是可接受范围,体重在40~100 kg也是可接受范围,但是,如果一个人的身高为188 cm,而体重为45 kg,则是不太符合常识的。

2.3 临床数据核查中生物统计人员的职责

执行数据核查是临床数据管理的职责。数据管理员依据临床试验方案以及其医学、统计学及科学常识对临床试验数据进行方案依从性、数据内容和科学逻辑的核查。当数据管理员将完成数据核查计划书的草案后,生物统计人员必须参与审核,确保数据核查计划符合试验的参数 (如: 安全性和有效性的关键数据点是准确的) 和统计分析的要求。

而国际上为了提高临床数据质量,通常会要求在临床试验的实施过程中进行统计学核查。统计学核查不是如临床数据管理那样去核查或清理单个的数据或受试者。它可通过一些特定的数据和变量 (制表、列表、图),其目的是去评估临床试验是否如事先计划或期待的在进行,同时需检出潜在的问题 (如: 目标分析人群、受试者的安全性,试验的依存 性,严重方案违背、结果和事件的监查等),这些潜在的问题有可能影响实施中临床试验数据的准确性和真实可靠性,影响实施中临床试验的依存性,影响其他临床试验的实施或计划,需引起足够重视。

随着电子数据采集技术的进步和在临床试验中的广泛利用,FDA正提倡直接利用电子表格采集源数据[8],临床数据的中央监查变得越来越重要。FDA和EMA相继颁布了临床研究监督的工业指南——基于风险的监查方法 (risk-based approach to monitoring)[9, 10]。监察员和数据管理人员可在线远程评价临床试验数据,生物统计人员则通过统计分析的程序对数据进行中央监查。

3 讨论

临床数据管理的目的是确保在临床试验中所得到数据的可靠性、完整性、准确性,并为统计分析及临床试验报告提供合理可用的数据。

临床数据管理员和生物统计人员虽然在临床试验中的分工和职责不同,但在工作中相辅相成,密不可分。生物统计人员必须积极地参与临床数据管理 的活动,主要体现在CRF设计、定义开放性数据代码,CRF填写指南,数据库的建立,衍生算法,注释CRF的标注,国际标准化度量单位,数据标准化格式,元数据集和数据核查计划的审核等,并运用统计学的思维和方法帮助数据管理员理解试验方案,落实方案对临床数据的要求,并且在临床数据管理过程中确保数据质量。数据管理员应该接受相应的生物统计学培训并熟知统计分析计划书,使得数据的采集、核查和清理满足统计学需求,并且在数据管理的项目启动时,主动理解生物统计人员的方案设计理念、关键数据的定义及用途和数据采集要求,认真采纳生物统计人员的审查意见,同时为生物统计人员及临床试验团队提供数据采集管理流程、数据质量管理步骤、数据管理时间节点以及对生物统计人员和临床试验团队的要求。在临床试验过程中及时与生物统计人员交流沟通,明确各个统计分析时间点的数据质量要求。在数据管理关闭过程中,提前为统计编程员提供接近完整的标准数据集、元数据集,协助其完成统计列表和图型草稿的建立,并且收集统计编程过程中对数据质量的反馈。临床数据管理员必须邀请生物统计人员和统计编程员参与锁库前的数据审查,共同完成数据库锁库程序,以便更好地对临床数据进行质量控制,为临床试验的统计分析,进而为临床试验报告提供高质量的数据。而随着电子数据采集技术的进步和在临床试验中的广泛利用,基于风险的监查中,生物统计人员和临床数据管理员的合作变得越来越重要。

参考文献
[1] Center for Drug Evaluation, CFDA. Guideline for Clinical Data Management (临床试验数据管理工作技术指南) [S]. 2012.
[2] Rondel RK, Varley SA, Webb CF. Clinical Data Management [M]. 2nd ed. John Wiley & Sons, Ltd. 2000.
[3] Krishnankutty B, Bellary S, Kumar NB, et al. Data management in clinical research: an overview [J]. Indian J Pharmacol, 2012, 44: 168-172.
[4] International Conference on Harmonization, E9. Statistical Principles for Clinical Trials [S]. 1998-02-05.
[5] China Food and Drug Administration. Announcement on the self verification of the data of clinical trials [EB/OL]. 2015-07-22. http://www.sda.gov.cn/WS01/CL0087/124800. html?from=groupmessage&isappinstalled=0&nsukey=P1sg6y E0CzF4GnA1rYl3NzyKOWUkoann4a8xfy8xhBQFXHuKHX F2vdl3WiNeJRV1pagjo ECn1jFP5kupNMDPJQ%3D%3D.
[6] International Conference on Harmonisation. Guidance for Industry, E6 Good Clinical Practice: Consolidated Guidelines [S]. 1996-05-01.
[7] China Food and Drug Administration. Good Clinical Data Management Practices (药物临床试验质量管理规范) [S]. 2003.
[8] FDA. Guidance for Industry: Electronic Source Data in Clinical Investigations [S]. 2013.
[9] FDA. Guidance for Industry: Oversight of Clinical Investigations A Risk-Based Approach to Monitoring [S]. 2013. http://www.fda.gov/downloads/Drugs/GuidanceComplianceRe gulatoryInformation/Guid ances/UCM269919.pdf.
[10] European Medicines Agency. Reflection Paper on Risk Based Quality Management in Clinical Trials [S]. MA/INS/GCP/394194/2011. 2011-08-04. http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2011/08/WC500110059.pdf.