中国卫生资源  2021, Vol. 24 Issue (6): 739-743  DOI: 10.13688/j.cnki.chr.2021.210056

引用本文  

许丽, 李伟, 孙学会, 等. 大型队列建设模式与运行机制及其启示[J]. 中国卫生资源, 2021, 24(6): 739-743. DOI: 10.13688/j.cnki.chr.2021.210056

基金项目

国家重点研发计划“精准医学知识自动化注释与人工审编”(2016YFC0901904);中国科学院学部学科发展战略研究“中国精准医学研究布局与关键技术发展战略研究(2021—2035)”(XK2019SMC007)

作者简介

许丽, 副研究馆员, 硕士, 主要从事生命健康领域战略研究, xuli@sibs.ac.cn

通信作者

徐萍, xuping@sibs.ac.cn

文章历史

收稿日期:2021-01-13
修订日期:2021-09-15
大型队列建设模式与运行机制及其启示
许丽 1, 李伟 1, 孙学会 2, 苏燕 1, 陈兴栋 3,4, 徐萍 1     
1. 中国科学院上海营养与健康研究所, 上海 200031;
2. 复旦大学生命科学学院, 上海 200433;
3. 复旦大学人类表型组研究院, 上海 201203;
4. 复旦大学泰州健康科学研究院, 江苏 泰州 225316
摘要:聚焦国内外的典型大型队列,从组织管理视角出发,系统梳理其建设模式、管理方案、经费筹集、运行机制以及开放共享方案等基本要素,深入剖析典型国际大型队列成功实施的关键,为我国大型队列的建设提供经验借鉴。
关键词大型队列    建设模式    管理机制    启示建议    中国    
Keywords: large cohort    construction model    management mechanism    enlightenment and suggestion    China    

队列研究是流行病学中最基本的观察性研究设计之一,通过对一定人群进行纵向观察、评估暴露和终点的关系,可揭示健康风险因素、评价预防效果、引导实验设计等,将知识转化为临床和人群早期诊断及干预策略,如20世纪40—50年代开始建设的美国弗莱明翰队列(Framingham Study)、全英医生队列(British Doctors Study)等经典队列为常见重大慢性疾病的防控作出巨大贡献[1]。随着对复杂性疾病发病机制研究的不断深入,小样本队列在人群多样性、病例数量积累、暴露信息及时采集、方法标准化以及研究基因-环境复杂交互作用等方面存在不足,医学研究对样本量的需求越来越高[2]。涉及大规模人群的大型队列(large cohort)研究则通过在数十年内对数十万人群健康状况和疾病特征持续进行追踪、随访调查和相关研究,了解人群健康状况、疾病发生情况和相关影响因素。其研究样本量大、人群具有多样性、随访期长,累积大量研究样本和人群数据,已经成为重要的开放性科研基础设施和卫生决策支撑平台。

1 发展现状概述

目前,大型队列尚无严格定义,其样本量多在5万至50万间,其中以10万以上居多[2]。据不完全统计,世界范围内10万以上人群规模的大型队列已超过30个,达50万人群规模的队列包括欧洲癌症与营养前瞻性调查队列、欧洲遗传性流行病学网络、美国国立卫生研究院退休人员协会饮食与健康研究、英国百万妇女研究和英国生物样本库(UK Biobank)项目等[3]。美国更是在2015年启动建设“全民健康”百万人群队列项目,作为精准医学计划最重要的研究内容予以布局。我国在“十三五”期间也通过“精准医学研究”重点专项,设置了百万人群队列建设与研究任务。全球10万人以上的典型大型队列案例见表 1

表 1 全球10万人以上的典型大型队列部分案例
2 建设要素剖析

现聚焦国内外的典型大型队列,从组织管理视角出发,系统梳理其建设模式、管理方案、经费筹集、运行机制以及开放共享方案等基本要素。

2.1 顶层设计

完善的顶层设计是大型队列成功实施的关键一步,其酝酿、发起与正式启动均要经过严谨的规划设计与试运行,为标准统一、科学可行的研究方案的形成和队列的成功实施提供了有力支撑。

自2000年英国UK Biobank提上议程,至2007年全面启动基线调查,耗时数年进行了规划和设计,明确了队列的研究目标、招募范围、实施计划等,并对资源采集等各环节进行了详尽分析,通过两次试运行对初步结果进行评估[4]。美国“全民健康”百万人群队列项目在实施前即发布《精准医学队列项目——建立21世纪医学研究基础》[5]的论证报告,对项目详细规划,并先后于2016年、2017年启动先导性试验和试点项目,推动基础设施建设,进行工作流程设计、测试、改进和培训。欧洲癌症与营养前瞻性调查项目正式启动前,依托世界卫生组织下属国际癌症研究机构(International Agency for Research on Cancer, IARC)和多个参与中心开展了系列试点研究,进行了受试者招募、问卷内容和样本采集试点的可行性分析以及饮食评估方法的探索,均为研究方案的最终确定提供了宝贵信息。

2.2 组织管理

大型队列建设方式分为两种:一是整合已有较小规模的队列,通过统一标准、追加规模、提高质量、制定规范、促进共享等方式建立的大型队列;二是从头设计与建设符合需求和目标的大型人群队列。从具体组织模式来看,最常见的是政府主导的一体化大型队列和多国协作的联盟式大型队列两类,其组织管理机制也不尽相同。

2.2.1 政府主导的一体化大型队列

政府主导的一体化大型队列由一个机构集中管理,设立多个分中心或站点作为实地开展调查工作的场所,相关人员和设备仍由总管理机构负责提供(或雇佣)和管理。如英国UK Biobank、美国护士健康研究队列、美国“全民健康”百万人群队列项目、中国慢性病前瞻性研究项目等均采用了此种模式。以UK Biobank为例,该项目主要由董事会全面领导和负责队列的指导、管理和监督,下设指导委员会、专家工作组、伦理委员会等具体开展管理工作,由协调中心、参与者资源中心、生化与基因的检测分析中心等职能部门以及20余个数据采集中心实际运营。

2.2.2 多国协作的联盟式大型队列

多国协作的联盟式大型队列也常设有一个总协调中心和多个参与中心,但职责划分与一体化队列不同。在该组织模式下,各参与中心代表通过组建联盟或指导委员会进行总体设计和协调,各参与中心在同一目标指导下自行组织管理、独立完成区域内的工作,所需人员和设备也多由各中心自行组织、筹措和管理。如欧洲癌症与营养前瞻性调查项目,将原本零散、规模较小和对象相对单一的队列整合成具有一定共性的大型人群队列,涉及欧洲10个国家的23个研究中心,总样本量达52万人,这种横向合并的方式广泛应用于欧盟的诸多大型研究中。在组织管理上,该项目由发起机构、活动协调中心以及各国参与中心的代表组成指导委员会负责总体协调,各参与中心根据其队列目标设置自行开展基线调查、重复调查、长期随访监测等活动。该组织模式的大型队列的优势是可在较短时间内形成大样本,但数据的标准化存在较大挑战。

2.3 经费筹集

大型队列研究耗资巨大,经费筹集是非常重要的环节,是大型队列项目顺利开展的重要保障,其资金筹集渠道包括国际组织拨款、政府支持、联合社会公益基金共同资助、产业界通过资金投入和技术支持等方式进行投资等,形成“政府启动、多元参与”的大型队列建设资助机制。美国“全民健康”百万人群队列项目是政府主导建设的大型队列,建设经费主要来源于美国政府的资助[9],至2020年政府拨款总额已达15.3亿美元。英国UK Biobank的经费来源多样,主要出资来自于多个政府部门和慈善机构[10],英国医学研究理事会(Medical Research Council, MRC)和英国维康信托基金会(Wellcome Trust)提供了UK Biobank建设的主要资金。产业界也投入资金支持UK Biobank建设,如美国再生元(Regeneron)公司等还通过提供技术平台(或提供大幅折扣)、数据分析服务等方式支持UK Biobank的数据积累。此外,UK Biobank建设较早,目前发展较为成熟,因此还通过商业转化获取一定资金,即成立了全资子公司英国生物中心(UK Biocentre)对其资源、技术进行商业转化,获得的利润全部用于推动UK Biobank发展。我国现有大型队列主要通过申请研究项目的形式获得多级政府的资助。如:中国泰州人群健康跟踪调查,持续受到科技部、江苏省以及所在地泰州市等各级政府的资助;中国慢性病前瞻性研究是中英合作项目,其出资方包括中国香港嘉道理慈善基金会、英国维康信托基金会,以及中国科技部和国家自然科学基金[6]

多国参与的联盟式大型队列的经费来源则多采用“项目分担,资金自筹”的原则,由各参与主体自行筹措资金来支持所开展的队列研究活动,这种经费筹集方式可以保障大型队列获得充足的经费支持。如欧洲癌症与营养前瞻性调查项目,采取由欧盟提供部分资金、各参与中心自筹经费的费用分担机制。该项目作为“欧洲抗癌”计划(Europe Against Cancer Programme, EAC)的一部分,通过该计划获取约50%的资金,其余部分由世界癌症研究基金会(World Cancer Research Fund, WCRF)、各参与国政府、机构或慈善组织等提供。

2.4 队列建设 2.4.1 研究对象招募与资源采集

在组织方式上,政府主导的一体化大型队列的资源采集多通过建立一个协调中心进行统筹,设立多个分中心或站点开展研究对象招募、问卷调查、数据和样本的采集与传输。同时,依托接入医疗系统的电子健康记录(electronic health record, EHR)和电子病历(electronic medical record, EMR),可提高研究对象招募的效率和可操作性。英国UK Biobank依托英国国家医疗服务体系(National Health Service, NHS)进行研究对象招募,且根据不同发展阶段的需求,前后共设立了27个评估中心(assessment center)负责数据和样本采集,并统一将采集的数据和样本发回协调中心保管。其中心化的组织模式提高了募集效率、节约成本。美国“全民健康”百万人群队列项目为保证研究对象招募以及队列能够反映国家地区、民族、种族和社会经济等人群的多样性,采用了依托国家卫生保健组织网络招募和直接招募参与者两种途径。中国慢性病前瞻性研究选取了10个现场调查地区,以居民委员会或行政村为调查点设立临时调查诊室,邀请当地社区户籍底册或登记确定调查点内所有符合入选要求的居民[11]。此外,早期开展的队列研究受限于技术条件,其招募和采集方式也相对单一,如:聚焦吸烟与肺癌关系探讨的全英医生研究通过向在英国注册登记的医生邮寄调查表收集资料;美国NHS队列早期通过向护士邮寄调查表和采血管,由参与者填写表格并自行采血后寄回,该队列2010年开始的项目三期则通过网络方式在线填写调查问卷,并到当地奎斯特诊断公司(Quest Diagnostics)患者服务中心采集血样等。

对于多国参与的联盟式大型队列,参与者招募与数据和样本资源采集由各参与中心负责,且采集的资源多归各参与中心所有。各参与中心的子队列建设包括整合原有队列、从头建设新队列等多种方式,资源采集模式也不尽相同。如欧洲癌症与营养前瞻性调查项目的23个参与中心各自独立开展招募与采集工作,研究对象多从居住在特定城镇或地理区域的普通成年人中邀请,有些参与中心则会依托健康保险、献血者协会、某些肿瘤筛查项目等进行招募。

2.4.2 资源存储与管理

典型大型队列多采用中心化模式对样本与数据资源进行集中存储与管理,具体操作根据实际情况存在多种方式。(1)集中统一储存。如:英国UK Biobank通过其数据采集中心采集的生物样本分别存储至Stockport生物样本库及手动样本备份系统中,互为备份;基线健康数据、样本分析数据、基因组学数据、影像研究数据及EHR等复杂数据,经标准化处理后集中存储于牛津大学临床试验与流行病学研究中心的中央核心数据库中。美国“全民健康”百万人群队列项目也建立了国家级中央生物样本库与数据和研究中心对生物样本和数据进行中心化存储和管理。(2)各参与中心独立保存,总协调中心镜像存储。如欧洲癌症与营养前瞻性调查项目建立了中央生物库和Oracle主数据库,由国际癌症研究机构负责总体维护和协调,各国参与中心多采用镜像储存或部分储存的方式,将生物样本和核心数据分别储存于各参与中心当地和总协调中心的中央库中。此外,为提高不同参与中心的饮食数据(核心数据)的有效性和可比性,欧洲癌症与营养前瞻性调查项目还建立校正机制,即开发了可兼容9种语言的EPIC-SOFT软件(“计算机辅助的24 h饮食回顾数据采集”软件),或通过开发通用食品成分数据库,对各参与中心的饮食数据进行标准化处理[12]

2.4.3 样本与数据共享

目前,已有多个大型队列的数据资源向全球科研人员开放与共享,且在必要情况下,某些队列的生物样本也可供申请使用。如:英国UK Biobank的资源自2012年开始陆续对全球开放,其中,表型数据可直接通过UK Biobank的数据库获得,基因组数据则发布于欧洲生物信息学研究所和英国基因组监管中心共同管理的欧洲基因组-表型档案系统;欧洲癌症与营养前瞻性调查项目的生物样本和数据资源均可供科研人员使用,资源申请由相关方向的工作组组长负责处理;尚处于招募阶段的美国“全民健康”百万人群队列项目也已向公众开放部分安全级别较低的数据。同时,各大型队列均制定相关法律准则和监管规范,以保护参与者隐私与数据安全,具体举措包括去除个人身份识别信息、建立安全存储平台、依据数据可开放程度进行分级存储和开放等[13]

2.4.4 长期随访监测与重复调查

大型队列多通过定期调查、依托医疗信息系统跟踪等方式开展长达数十年的长期随访监测,并选取部分代表性人群或全部人群开展重复调查,以评价暴露变化水平、校正回归稀释偏倚(regression dilution bias)、校准现有测量方法以及增加新的调查或测量内容等。

英国UK Biobank通过NHS系统,以信息关联、在线问卷跟进的方式,跟踪记录每名研究对象之后数十年的健康医疗档案信息,追踪其健康结局;通过设立重访数据采集中心,每2~3年即选择代表性人群开展基线数据的重新测量。欧洲癌症与营养前瞻性调查项目各参与中心每3~4年定期随访1次,通过对研究对象及其近亲进行访谈或问卷调查,调查生活方式、健康状况、患病情况的变化;在癌症发病随访方面,各癌症监测点建立终点委员会(End-point委员会),基于《EPIC研究的终点数据收集指南》进行临床和病理数据的收集和标准化,并通过死因登记、主动随访和死亡记录收集[12]。中国慢性病前瞻性研究从基线调查后6个月即开始每5年1次[14]、持续15~20年的长期随访监测,随访以死亡、发病/住院及迁移失访等事件作为随访终点,通过基于政府行政部门数据资料的常规监测和社区定向监测两种途径开展。同时,为校正回归稀释偏倚及在长期随访中增加新的测量内容以获得更多信息,项目每4~5年随机抽取5%的研究对象进行重复调查,首次重复调查从每个项目地区通过整群随机抽样设计抽取一定数量的调查点,并邀请抽取点内的所有研究对象参加重复调查,调查内容与基线调查基本一致,并增加了疾病入院治疗的相关问题[11]

3 启示与建议

大型队列建设需要持续的投入和长效科研机制的保障,通过良好的顶层设计、建立协调统一的管理机制、开展系统全面的资料收集并建立完善的政策保障体系,保障其可持续性和数据的准确性、完整性。同时,数据驱动的科学研究范式的产生和精准医学研究路径的推广,对大型队列建设提出了新的要求,即能反映人群多样性、高度的标准化和规范化、多维度和高质量的数据、高度集成信息和实质性便捷共享等,以充分发挥队列在生物医学和公共卫生领域的基础设施和平台功能。

结合国内外典型大型队列建设模式的经验剖析,提出以下建议。

3.1 在国家层面推进完善的顶层设计与机制创新

需从国家层面上加强统筹规划,通过组织各相关方进行顶层设计与周密规划,深入论证探讨符合我国国情的国家级大型队列的组织管理模式与稳定的资助机制、标准工作流程与可持续运行机制、安全存储措施和开放共享方案以及有效的知识产权保护政策等,形成国家级大型队列建设的路线图和实施方案。

3.2 系统提高大型队列的标准化、规模化、集约化

加强队列的标准化研究,通过建立标准委员会等方式,制定符合国际水准的信息和样本资料采集、存储的统一规范和数据处理标准等,以加强不同队列间的数据可比性和互补性,最大限度地发掘利用获得的信息。同时,建立统一的生物样本库与数据库,或以标准统一、互联互通、数据共享的形式搭建多点分中心的高质量平台对资源进行科学管理,以提高大型队列资源的有效规模和利用率,实现其价值的最大化。

3.3 持续提升数据精细度和数据质量,提高队列价值

结合宏观到微观多个尺度的研究方法,针对大样本开展多维度、高精度的表型组和暴露组测量以及多时间点的样本收集,持续扩展大型队列的精细化程度、提高队列价值、提升研究能力,从而系统挖掘多暴露、多表型和多结局之间的相关性,重新定义疾病发生、预后、治疗反应、健康结局,产生更合理的预防策略、更精准的人群风险分层和更好的诊疗方案,使大型队列更好地服务于精准医学。

3.4 充分依托多来源电子健康记录进行数据采集和随访监测

充分依托电子健康记录高效收集大量综合医疗记录、被动随访个体健康状况,可大大降低大型队列数据采集、随访工作的组织和实施难度,提高可操作性。同时,链接电子健康记录进行长期随访监测,以及加强同医疗、医疗保险系统、队列参与者和公众的互动以促进对健康信息的理解、共享和转化,可使公众充分了解其收益,从而保障研究对象的募集、提高长期随访监测依从性。

3.5 探索建立合理的知识产权保护与成果管理制度

强化知识产权保护意识,明确人类遗传资源保护原则,探索建立合理的知识产权保护政策与成果管理机制,从而保障队列各参与主体的权益,真正扭转各自为政、相互封锁、无序竞争等导致的资源不能共享和整合的局面,大大提高大型队列的质量、价值密度与利用率,提高人类遗传资源的综合利用水平。

· 作者声明本文无实际或潜在的利益冲突

参考文献
[1]
王笑峰, 金力. 大型人群队列研究[J]. 中国科学: 生命科学, 2016, 46(4): 406-412.
[2]
熊玮仪, 吕筠, 郭彧, 等. 大型前瞻性队列研究实施现况及其特点[J]. 中华流行病学杂志, 2014, 35(1): 93-96. DOI:10.3760/cma.j.issn.0254-6450.2014.01.022
[3]
李立明, 吕筠. 大型前瞻性人群队列研究进展[J]. 中华流行病学杂志, 2015, 36(11): 1187-1189. DOI:10.3760/cma.j.issn.0254-6450.2015.11.001
[4]
UK BIOBANK COORDINATING CENTRE. UK Biobank: protocol for a large-scale prospective epidemiological resource[EB/OL]. [2020-12-20]. http://www.ukbiobank.ac.uk/docs/UKBProtocolfinal.pdf.
[5]
NATIONAL INSTITUTE OF HEALTH. The Precision Medicine Initiative Cohort Program: building a research foundation for 21st century medicine[EB/OL]. [2020-12-20]. http://www.nih.gov/precisionmedicine/09172015-pmi-working-group-report.pdf.
[6]
金力. 人群健康大型队列建设的思考与实践[M]. 北京: 人民卫生出版社, 2015.
[7]
孙点剑一, 吕筠, 李立明. 流行病学超大规模队列研究: 开启21世纪人类复杂性疾病病因研究的钥匙[J]. 中华疾病控制杂志, 2013, 17(1): 66-71.
[8]
SHILO S, ROSSMAN H, SEGAL E. Axes of a revolution: challenges and promises of big data in healthcare[J]. Nat Med, 2020, 26(1): 29-38. DOI:10.1038/s41591-019-0727-5
[9]
WHITE HOUSE. Fact sheet: president Obama's Precision Medicine Initiative[EB/OL]. [2020-12-20]. http://www.whitehouse.gov/the-press-office/2015/01/30/fact-sheet-president-obama-s-precision-medicine-initiative.
[10]
UK Biobank. Funding awards to UK Biobank[EB/OL]. [2020-12-20]. https://www.ukbiobank.ac.uk/wp-content/uploads/2018/10/Funding-UK-Biobank-summary.pdf.
[11]
李立明, 吕筠, 郭彧, 等. 中国慢性病前瞻性研究: 研究方法和调查对象的基线特征[J]. 中华流行病学杂志, 2012, 33(3): 249-255. DOI:10.3760/cma.j.issn.0254-6450.2012.03.001
[12]
RIBOLI E, HUNT K J, SLIMANI N, et al. European Prospective Investigation into Cancer and Nutrition (EPIC): study populations and data collection[J]. Public Health Nutr, 2002, 5(6B): 1113-1124. DOI:10.1079/PHN2002394
[13]
WHITE HOUSE. Precision Medicine Initiative: data security policy principles and framework overview[EB/OL]. [2020-12-20]. https://allofus.nih.gov/protecting-data-and-privacy/precision-medicine-initiative-data-security-policy-principles-and-framework-overview.
[14]
郭彧, 孙孪孪, 谭云龙, 等. 中国慢性病前瞻性研究的标准化生物银行建设[J]. 转化医学杂志, 2014, 3(6): 321-326.