2. 北京科林利康医学研究有限公司, 北京 100123
2. Beijing Clinical Service Center, Beijing 100123, China
在建立临床数据库时,对数据变量的命名要基于病例报告表注释来实现。病例报告表注释 (CRF annotation,aCRF) 是在空白的CRF中,在记录数据的位置上,对递交的数据集以及数据集中变量相应的名字进行标注的过程[1],它用文件记录来说明临床试验病例报告表的表格、变量条目名称、列表、访视及其他任何数据记录,也包括数据变量代码列表。它是规范临床试验数据库和每个数据集信息采集的重要工具之一。临床试验结果在申报给监管当局审阅时,aCRF也是必不可少的药政申报要求提交文件之一[2]。在临床数据管理人员和统计分析人员对数据进行处理时,也要对aCRF有充分的理解。因此,aCRF对于指导临床数据管理人员、统计程序和分析人员等在 数据采集和处理时具有重要的指导意义。本文从独特的视角对aCRF的分类,如何对CRF进行正确注释,CRF注释的流程、方法及注释时所面临的挑战等方面来进行分析和讲解。
1 CRF注释的用途及分类2015年3月,由美国食品药品监督管理局 (FDA) 发布的第2.1版《临床研究数据技术一致性指南》里对aCRF的描述是: aCRF为映射包含在数据集中的用于收集受试者数据 (采用电子或纸质的形式) 的数据采集点所对应的变量或描述变量值的PDF文件[2]。在指南里,不仅提到了aCRF是必须递交的电子文件之一,也对其在递交时的文件名称、格式,甚至内容都有具体的规定,由此可见aCRF的重要性。
按其用途,aCRF可以分为两类:
① 用于数据采集的aCRF: 指导临床数据库的变量命名,规范数据采集标准,从而使数据采集更准确和有效。对CRF进行注释时,通常基于药物研发公司自有数据标准。对于一些大的跨国制药企业,还会细分为基于不同治疗领域的数据标准。若公司没有自有标准,建议基于CDISC的CDASH标准。鉴于国际普遍接受的临床数据标准CDISC的广泛应用,本文将基于CDASH标准对用于数据采集的aCRF进行阐述,简称为CDASH aCRF。数据库设计人员要采用CDASH aCRF对具体数据变量和对有编码的变量进行命名,确定每个变量的格式等,从而建立完整的临床数据库; 数据管理人员要依据CDASH aCRF对每个变量编写数据核查计划; 数据管理人员、统计分析和程序人员、医学审核者,甚至是研究者在审核各类数据列表 (如安全性数据列表) 或原始数据时来用CDASH aCRF定位源数据的位置; SAS程序员在编写统计结果图表或数据列表 (TFLs) 时,CDASH aCRF也是必用的的文件之一。
② 用于数据递交的aCRF: 用于映射递交的数据集中具体的变量及描述变量的值,FDA对递交的aCRF的格式和内容都有严格规定,如注释须基于CDISC的SDTM标准,且必须为PDF格式文件,在指定文件夹位置存放等[3]。本文对此类aCRF简称为SDTM aCRF。SDTM aCRF对于从临床数据库导出的原始数据转化为SDTM标准的数据集的过程有重要的指导意义; FDA的数据审评人员也要依据SDTM aCRF来确定源数据。
CDASH aCRF主要应用于临床研究开始和执行阶段,而SDTM aCRF主要应用于数据库锁定后,递交监管当局的后期阶段。
2 CRF注释流程简述在项目的开始和执行阶段,基于纸质CRF或电子数据采集 (EDC) 系统的临床试验操作流程的不同,对基于CDASH标准的CRF进行注释的流程也略有区别。
在基于纸质CRF的临床试验中,首先由数据管理人员依据CDASH标准,在已经定稿的CRF上,起草aCRF的初稿,然后交由数据库设计人员和数据标准审核人员对注释的变量命名是否符合CDASH标准、变量格式是否正确、所选取的编码名称是否恰当等内容进行审核。若有任何的修改意见,数据管理人员随之修改aCRF,直至整个团队的意见达成一致后,将aCRF交由质量控制团队进行最终审核,最后所有相关人员签字确认,最终定稿。在项目执行过程中,若CRF或数据库有任何更改,则依据相同流程对aCRF进行修订,并更新版本号及日期等。
在基于EDC系统的临床试验中,通常是先由数据管理人员依据CDASH标准,起草电子CRF说明文件 (eCRF specifications),在此说明文件中,按照不同数据集,列出变量名称、数据格式、编码名称等内容,后交与数据库设计人员和数据标准审核人员对注释的变量命名是否符合CDASH标准、变量格式是否正确、所选取的编码名称是否恰当等内容进行审核。若有任何的修改意见,数据管理人员随之修改CRF说明文件,直至整个团队的意见达成一致后,将CRF说明文件交由质量控制团队进行最终审核,最后所有相关人员签字确认。最终定稿后,数据库设计人员据此说明文件完成数据库建立,然后由数据库导出定稿的CDASH aCRF。同样,在项目执行过程中 ,若CRF或数据库有任何更改,则依据相同流程对CRF说明文件进行修订,并更新版本号及日期等。
而基于SDTM的aCRF是在数据库锁定后进行,所以无论是基于纸质CRF还是EDC系统的临床试 验的CRF注释流程基本一致。即在空白的最新版CRF上,由数据管理人员或SAS程序员依据编译完成的SDTM说明文件 (SDTM specifications) 来起草SDTM aCRF,然后交与数据标准审核人员对注释的内容是否符合SDTM标准,是否依从两个指南的规定等进行审核。若有任何的修改意见,数据管理人员或SAS程序员则随之修改,直至整个团队的意见达成一致后,将SDTM aCRF交由质量控制团队进行最终审核,最后所有相关人员签字确认,最终定稿,并随着SDTM数据集一并递交至监管当局。
3 基于CDASH标准的CRF注释[4]aCRF按其用途不同,对其注释的流程和内容也有很大的区别。相对SDTM aCRF,CDASH aCRF的注释内容要丰富而且灵活得多。
由于CDASH aCRF主要用于建立临床数据库、数据核查、统计分析等,其注释的内容至少要包括以下四方面的内容: ① 变量所属的数据集名称; ② 变量名称; ③ 变量格式; ④ 对应变量的编码名称。
这里结合CDASH aCRF的几个实例来依次说明。
3.1 数据集名称符合规范的临床研究数据库,无论是基于纸质还是EDC,都会根据研究方案所规定的采集数据种类,划分为若干数据集,如人口学资料、病史、不良事件、伴随用药等。在CDASH标准里,除一般识别变量和时间变量外,总计有16个基本域 (表 1),所以在进行CDASH aCRF中,要标记出每个数据集的名称,以方便数据库设计人员建立规范的临床数据库。如图 1所示,其中的“DATASET=DM”即为标记的数据集名称,其中“DATASET”也可以是DCM、database、domain、form等,依据各自公司规定或用户习惯选择即可,而“DM”即为数据集名称,按照CDASH标准,数据集名称为两位大写字母组成。若所采集的数据不属于现有的16个域,则可依据SDTM或实际情况自定义数据集名称,但格式应为两位大写字母组成。
研究中采集的每一个数据变量都要被标记名称,命名规则依照CDASH标准,若数据变量是在CDASH标准之外,可依据CDASH标准的命名规则自行命名即可。这里需要指出的是,我们在进行变量命名时,一定要遵照成熟的数据标准,如CDISC或公司自有的数据标准,切忌随便命名,或 者命名时没有任何对具体变量具有提示特征的所谓“标准”。例如,变量按“P#V#”规则命名,这里“P”代表页码,“V”代表变量,“#”代表数字,如“P2V5”,其意义为CRF第2页第5个变量,这样貌似命名简洁直观,殊不知一旦数据脱离了数据库或CRF表,任何独立的审阅或使用数据的人都无法理解其所示意义,而且一旦遇到方案更新和CRF更新等情况,要对数据库进行修改,会对这样的命名系统造成致命的灾难。如增加几个变量,在新增加变量后的所有变量所指代的数据点都会失去原有意义,进而造成整个数据处理、统计分析的混乱。而使用CDASH标准的变量名称,使用者则会较容易地理解其名称所代表的对应变量,其多为域名加特定后 缀或者英文单词 (或简写、缩写等) 的形式命名,如图 1所示,出生日期被命名为“BRTHDAT”,即为英文“date of birth”缩略而成,又如图 2所示,收缩 压被命名为“SYSBP”,即为英文“systolic blood pressure”缩略而成,且身高被命名为“HEIGHT”就是身高的英文单词。出于方便数据采集的需要,对CDASH aCRF变量命名时都会尽量使用水平结构表 (非标准化,de-normalized) 的结构,而不是SDTM里的垂直结构表 (标准化,normalized) 进行注释。在水平结构表中,常见的变量命名多为术语、英文单词简写的形式,而在垂直结构表中,则多为域名加特定后缀的形式命名。参考表 2水平结构表和表 3垂直结构表对比,图 2和图 3的生命体征表变量命名对比即可见两种结构表命名的不同。
如表 4所示,本文仅列举部分常见CDASH变量命名片段 (后缀) 及其解释,更多内容请参见CDISC官方发布的最新版的临床数据采集协调标准 (CDASH)[4]。
除了对每个采集数据变量按照一定标准命名外,对每个变量的格式也要有具体标注,否则会对数据采集造成不必要的障碍。例如,某数据点采集的数据为文字描述,结果建立数据库时其格式为数字格式,又或采集的数据为4位数字,结果建立数据库时其格式为2位数字,这些错误势必会对数 据采集造成影响,进而影响数据质量。变量格式在CDASH aCRF中,通常有四种,即:
① 文本格式,通常在标注时以字母C (character) 标记,其后用具体数字来说明其允许的文本长度。如图 1中种族的其他描述 (RACEOTH),标记为“C200”,表示变量格式为文本、最多允许输入200个字符。
② 数字格式,通常在标注时以字母N (numerical) 标记,其后用具体数字来说明其允许的数字长度。如图 2中身高(HEIGHT),标记为“N3”,表示变量格式为数字、最多允许输入3个数字,而体重 (WEIGHT),标记为“N4.1”,则表示变量格式为带小数的数字,最多允许输入4个数字,其中包含3个整数位、1个小数位。
③ 日期格式,通常在标注时以字母D (date) 标记,其后用Y (year),M (month),D (day) 的排列组合来说明其日期格式。 如图 1中出生日期 (BRTHDAT),标记为“D-DDMMMYYYY”,表示变量格式为日期,日月年格式,且日为2位、月为3位、年为4位,如某受试者出生日期为1980年10月1日,则录入后在数据库里即显示为“01OCT1980”。
④ 时间格式,通常在标注时以字母T (time) 标记,其后用HH∶MM (hour∶minute) 的排列组合来说明其时间格式。如某变量采集的数据为时间,标记应为“T-HH∶MM”,如某时间为上午9点45分,则录入后在数据里即显示为“09∶45”。
3.4 编码名称如某个变量采集的数据有多个选项,则应标记其每个选项的编码名称。完整的公司数据 标准,除规定了变量命名标准以外,还应该有齐全的编码库。对于存在多个选项的变量,可以有多种编码与之对应,从而应对不同的临床试验设计。如图 1中,性别 (SEX) 变量对应的两个选项,其编码名称可以命名为“SEX”,那么在编码库中,找到“SEX”,则其对应的编码即为男、女两个选项,那么也可能在编码库中存在与之相关另外两个编码名称,“SEX1”和“SEX2”,其中“SEX1”可能仅仅有男一个选项,而“SEX2”可能仅有女一个选项,这样,我们可以依据不同临床试验设计来选择不同的编码。比如适应证为痛经的试验,所纳入的受试者必然只有女性,所以只选择标注“SEX2”即可,数据库设计人员在建立数据库中设计性别这个变量时,自然就只列出一个选择即可。
由于CDASH aCRF是服务于建立数据库、数据处理、数据分析等操作,所以其注释内容必然要包含充足的信息以确保对数据库建立、变量命名等提供全面、准确的指导信息,一个完善的CDASH aCRF,也在执行数据库测试 (UAT) 时,为撰写精确的测试脚本提供必要的文件支持,同时也为数据处理、统计分析等活动,提供了方便具体数据定位的有力工具。
4 基于SDTM标准的CRF注释[5]而相对于CDASH aCRF注释内容的多样性和灵活性,由于SDTM aCRF是要递交至监管当局的必备文件之一,其必须要严格遵从相应的指南及标准进行注释。如递交的SDTM aCRF要命名为“acrf.pdf”,并以PDF格式,和SDTM数据集一起存储在指定文件夹下等[2, 3]。
如图 3所示,在SDTM aCRF中只需要标注域名、变量名即可,不需要对变量的格式和编码进行标注。
尽管存在水平结构表和垂直结构表的区别,但CDASH和SDTM的变量命名是有一定的相关关系 的,总结为: ① CDASH数据收集的变量应与SDTM结构的变量有对应关系; ② 当该变量同时出现在CDASH和SDTM IG中,变量采用SDTM的变量命名原则; ③ 如果在SDTM IG中没有规定,CDASH可自主命名。
如图 4所示,本文以生命体征表的变量从CDASH到SDTM变量映射过程举例,表中大部分CDASH变量是可以直接映射至SDTM数据集中的 (黑色加粗变量名); 变量“VSPERF”,代表是否进行生命体征检测,当其采集的数据为“否”时,映射至SDTM时即为“VSSTAT”; 变量“VSDAT”和“VSTIM”代表生命体征检测日期和时间,映射至SDTM时即合并为“VSDTC”; 而由于变量 “VSCLSIG” (生命体重检测结果临床意义判定) 不包含在SDTM中VS标准域中,则在映射至SDTM时,需要进入补 充数据集“SUPPVS”中。更多详细内容,请参见CDISC官方发布的最新版临床数据采集协调标准,研究数据列表模型以及研究数据列表模型用户指南 (SDTMIG)[6]。
基于SDTM标准的CRF注释主要遵从FDA发布的《临床研究数据技术一致性指南》和CDISC发布的《SDTM源数据递交指南》这两个指导性文件,本文摘取一些主要的规定阐述如下:
① 注释的变量名必须大写。
② 对那些已经在CRF中收集,但不包含在递 交的数据集中的数据,需要在CRF中标注出“NOT SUBMITTED”。
③ 注释的内容要在PDF文件中以文本格式呈 现,且在通用的PDF浏览器中用搜索功能可以检索得到,注释不能在打印出来的CRF上手写后扫描成PDF文件。
④ 所有标注变量名和域名的文本皆须大写,且标注的内容要尽量避免覆盖CRF原有文字。
⑤ 对于重复出现的表格,在CRF中只需要标注一次即可。
⑥ 对于域名的标记文本,要适当的稍大于标记变量名称的文本,域名注释由2个大写字母及其代 表的数据集英文全称组成,如图 3所示,生命体征数据集的域名标注为“VS = vital signs”。
⑦ 标注的文本配色 (文字本身颜色及背景色) 要尽量统一,如一个表格中包含多个域的数据,可以适当使用不同配色加以区分。
⑧ 递交的SDTM aCRF文件,应该包含两种书签 (bookmark),一种为按照数据采集的时间顺序书签,另一种为按照数据表格的字母顺序排序的书签,以方便数据审核人员阅读。此外,除两种电子书签以外,还应在递交的SDTM aCRF首页列出各表格目录,以方便审核人员把aCRF打印出来阅读。
对于SDTM aCRF更详细的规定,可以参考前文提到两个指南,都可以在FDA和CDISC的官方网站免费下载。
5 讨论尽管由于我国临床试验数据管理起步相较于欧美等发达国家较晚,aCRF并不是在所有的公司或临床试验中广泛使用,而且在对CRF进行注释的过程中,存在数据标准不统一和标注内容不规范等问题。但随着我国国家食品药品监督管理总局对数据质量的日益重视,在临床试验中数据采集和数据核查在确保数据质量方面起着不可忽视的关键作用,而aCRF则是在规范临床试验数据库和每个数据集信息采集方法等方面都起到很重要的作用。同时aCRF对于临床数据管理人员、统计程序和分析人员等在数据采集和处理时也具有重要的指导意义。另一方面,随着CDISC标准在国内的深入推广,基于CDISC标准的aCRF的广泛应用也是大势所趋。
[1] | FDA. Study Data Specifications [S]. version 2.0. 2012. |
[2] | FDA. Study Data Technical Conformance Guide: Guidance for Industry Providing Regulatory Submissions in Electronic Format-Standardized Study Data [S]. version 2.1. 2015. |
[3] | CDISC. Study Data Tabulation Model Metadata Submission Guidelines (SDTM-MSG) [S]. Final 1.0. 2011. |
[4] | CDISC. Clinical Data Acquisition Standards Harmonization (CDASH) [S]. version 1.1. 2011. |
[5] | CDISC. Study Data Tabulation Model (SDTM) [S]. version 1.4. 2013. |
[6] | CDISC. Study Data Tabulation Model Implementation Guide: Human Clinical Trials [S]. version 3.2. 2013. |