中国媒介生物学及控制杂志  2018, Vol. 29 Issue (3): 309-312

扩展功能

文章信息

阳波, 王海涛, 张婷婷, 张雯, 曹立娜, 李文平, 罗成旺
YANG Bo, WANG Hai-tao, ZHANG Ting-ting, ZHANG Wen, CAO Li-na, LI Wen-ping, LUO Cheng-wang
传染病控制中基因组大数据管理的初步构建
A study on construction of big data management in infectious disease control
中国媒介生物学及控制杂志, 2018, 29(3): 309-312
Chin J Vector Biol & Control, 2018, 29(3): 309-312
10.11853/j.issn.1003.8280.2018.03.025

文章历史

收稿日期: 2018-05-16
传染病控制中基因组大数据管理的初步构建
阳波, 王海涛, 张婷婷, 张雯, 曹立娜, 李文平, 罗成旺     
中国疾病预防控制中心传染病预防控制所设备条件处, 生物信息室, 北京 102206
摘要: 目的 探讨基因组大数据管理架构,提升传染病控制中基因组大数据管理水平。方法 收集和参考传染病控制领域基因组大数据的重要科技文献以及政策性资料,采用Delphi法咨询相关专家总结归纳管理要素,建设信息化的管理平台。结果 初步构建数据管理方案、试剂耗材及相关服务采购管理信息平台和微生物基因组数据库等协同管理体系,采购管理平台由管理部门、业务部门和测序服务公司组成,并与基因组数据库关联,进行数据的审核、验收和分析,做到数据及时更新和共享,比传统的审核流程快8~9 d。制定平台的基本框架和功能分区,改变其粗放式管理传统做法,提高了科研工作效率。结论 基因组大数据管理体系有利于加强平台管理的信息化、规范化及专业化建设,为课题的结题和审计提供统计数据,提升服务保障功能。
关键词: 传染病     基因组     大数据    
A study on construction of big data management in infectious disease control
YANG Bo, WANG Hai-tao, ZHANG Ting-ting, ZHANG Wen, CAO Li-na, LI Wen-ping, LUO Cheng-wang     
National Institute for Communicable Disease Control and Prevention, Chinese Center for Disease Control and Prevention, Beijing 102206, China
Corresponding author: LUO Cheng-wang, Email:luochengwang@icdc.cn.
Abstract: Objective To explore the management framework of genomic big data and to better serve infectious disease outbreak investigation and public health surveillance. Methods Scientific and legislative papers in the areas of genomic epidemiology and genomics in public health were extensively collected and reviewed. The Delphi method was used to consult experts on the summarization of the management factors and construction of information management platform. Results The collaborative management system including data management scheme, reagent and consumables information management platform and microbial genome database was constructed preliminarily. The reagent and consumables information management platform consisted of management department, laboratory department and company, which was connected to the genome database. It would keep data updated and shared in a timely manner. It could be 8-9 days faster than the traditional management model. The basic framework and functional division of the two platforms were drafted. It has set up to change its traditional extensive management and greatly improved the efficiency of scientific research. Conclusion The management of big genome data should be helpful to strengthen the management with informatization, standardization and specialization. It would provide statistical data for other projects, as well as audit department and enhance the service function.
Key words: Infectious disease     Genome     Big data    

随着信息技术全面融入病原微生物的基因分析领域,尤其是基因组学中高通量测序技术的出现及快速发展,传染病控制领域的大数据时代也应运而生,有关核酸、蛋白质的序列和基因组序列等数据呈几何倍数的增长[1-2],如何从传染病控制领域中海量基因组测序数据中分析并挖掘出具有科研价值和具有指导意义的数据信息迅速成为研究热点。基因测序从Sanger测序技术到纳米孔测序为代表的第4代测序[3-5]技术发生了巨大变化,能对数百万个DNA分子同时进行测序,也使得一个细菌的全基因组测序由数年缩短至几个小时之内即可完成[6-7],而全基因组测序等实验室检测结果直接决定着传染病的诊治和防控策略的制订,更需要及时、准确、高效和快速的应对,这给疾病控制工作者的科学研究和疾病控制工作带来了便利,同时也给数据的高效管理带来了极大挑战[8]。然而当前数据管理研究仅仅集中在如何提高数据本身的利用率和数据产生后的分析描述上,如各种各样的数据库技术及数据仓库技术等,很少有对数据的整个进化过程进行管理的报道。本研究旨在从管理方案的建立、订单管理、数据管理等方面探讨建立传染病预防控制领域中基因组大数据过程管理体系,为基因组大数据库的管理提供技术支持。

1 材料与方法 1.1 资料来源

对2013—2015年的调查问卷进行整理,同时收集和整理传染病控制领域基因组大数据的重要科技文献以及政策性资料,包含国内外学术杂志、书刊和Medline文献资料,比较分析国际上不同基因组大数据的工作模式和特点,归纳其共性问题;制定测序服务内容和管理范围,引物合成、探针的制作、荧光标记和基因片段及全基因组的测序均属于基因组大数据的管理范畴。

1.2 调查方法

采用Delphi法咨询相关领域专家,归纳总结咨询结果并与数据管理系统研发工程师商讨并确定采购管理系统和数据库管理系统的基本框架和工作内容,探讨基因测序服务管理的功能分区。

2 结果 2.1 管理方案的建立

管理模式包括外部和内部管理,外部管理主要是选择技术水平高、价格合适和售后服务好的基因测序公司进入采购管理平台;内部管理即从内部测序服务的申请、审批和测序结果上传验收等管理模式。

2.1.1 测序公司的入围和评估

测序服务公司的入围按照政府采购管理办法的要求,委托专业招标公司对基因测序公司的资质、业绩、价格、技术和服务等内容进行综合评估,最终确定符合条件的测序公司(可以是多家)负责基因组测序类技术服务;定期组织对所有入围公司测序服务进行盲样考核检测工作,作为对入选公司的技术服务质量考核和动态评估的一项重要指标。

2.1.2 科室申请

在所有入围的测序公司内科室以不高于协议价格自行选定;有特殊情况需求独特技术支持时,业务科室先向管理部门提交申请并详细阐明理由,经专家小组讨论通过并报领导小组批准后,可以选择入围以外的公司进行基因测序单独服务。

2.1.3 分级管理及审批

基因组测序技术单次服务金额<3万元的项目,由实验室负责人直接审批;≥3万元~<50万元的项目,须经单位分管领导审批;≥50万元的项目,须经所务会集中审议通过。

2.1.4 测序验收和入库

每次测序服务签订《服务合同》,测序结果提交基因组数据库管理系统,由专门的生物信息室进行技术审核,申请科室、服务公司和实验条件管理部门三方验收,验收通过后的数据录入采购管理系统即为出入库手续,凭出入库单到财务部门进行账务支付工作,现有管理方案比传统管理方式的时间要短(图 1)。

图 1 中国疾病预防控制中心传染病预防控制所原有及现有管理方案流程图
2.2 试剂耗材及相关服务采购管理信息平台

从便于查询统计和测序服务公司监督的角度,方便测序服务公司、管理部门和业务部门三方的使用,制定供应商信息、查询统计、订单处理、自行采购管理、短信平台和用户管理等方面管理要素,研发具有自主知识产权的试剂耗材及相关服务采购管理信息平台(http://sjcg.icdc.cn/)(图 2),建立专门的订单管理系统。业务科室可以根据公司的不同价格及服务进行选择,并在网上提交订单,同时开启自动比价功能,即递交定单后系统会自动提示更低价的测序服务供选择;采购人或供应商均可上传测序报告,方便网上常规测序验收;与财务管理系统互联互通,项目经费预算余额可实时显示和动态更新;开启课题采购明细查询功能,便于项目结题时统计采购明细,为结题审计提供数据支持。

图 2 中国疾病预防控制中心传染病预防控制所试剂耗材及相关服务采购管理信息平台
2.3 微生物基因组数据库系统

微生物基因组数据库系统(http://data.mypathogen.org:8080)功能主要包括基因组及相关图片的描述、查询、浏览与管理等,数据的查询开通模糊搜索、高级搜索、分类搜索及热词搜索等四种检索方式。系统登录包括前台登录及后台管理登录,并与试剂耗材及相关服务采购管理信息平台进行关联,数据交互后可实现基因组测序项目线上提交测序报告、在线审批和验收功能,并进一步构建了数据管理系统。

2.3.1 客户端大数据的上传和下载

由于测序数据量较大(>1 GB),且对文件的完成性和传输的连续性要求较高,传统的页面传输无法满足。因此开发了适用于基因组大数据传输的客户端,实现了数据上传、下载的稳定运行,并实现了断点续传功能,保证了数据传输的完整性。

2.3.2 用户数据的云管理

用户通过登录数据管理系统,在线管理自己的测序数据,所测序数据的在线提交并审核,自动化生成测序数据质检报告,结合测序订单信息和质检结果,由专业人员进行在线审核并入库。审核完成的数据作为单位内公共资产自动保存,无需占用本地计算机的硬件资源。

2.3.3 数据状态实时查询

微生物基因组数据库根据使用部门在线提交的基因组数据提供实时查询,随时了解数据状态和进展,按其所处的业务节点划分为“已提交,待审核”、“审核通过”、“审核不通过”3种状态,对于未通过审核的高通量测序数据同时附加了审核说明。

3 讨论

基因组数据库是分子生物信息数据库的重要组成部分,分布在医学、生物学及微生物学等有关研究领域,其数据管理是指对整个过程的数据进行获取、组织、计划、存档、共享、分析、利用和保护等所有与数据息息相关的管理活动的总称[9]。近年来,常因为疾病控制领域中数据质量缺陷和数据孤岛化等问题,导致很多测序分析结果与流行病学调查结论不一致的现象出现。越来越多的科研工作者认识到:重要的研究数据必须长期管理并保存。传统的基因组数据管理仅仅是从数据的收集和分析这一步开始,很少有从数据出现订单时就开始纳入数据管理阶段,但是随着人类基因组计划[10]、人类微生物基因组计划[11]等利用测序技术的不断发展,测序技术在病原学、微生物学等医学领域及传染病防控领域的应用越来越广泛[12],数据量成倍增加,这种从源头开始管理的模式越来越有利于数据的溯源和纠错,同时全过程的监督,极大地方便了课题审计。目前对病原微生物鉴定的金标准仍是将标本接种于合适的培养基使其扩增并进一步鉴定,然而该方法只能鉴定实际微生物种类的1%[13],并且存在着周期长及对混合感染的病原微生物的判断存在着一定偏差等缺点。高通量测序技术对样本鉴定无需再进行细菌培养,直接提取DNA进行测序,便可从整体上获得病原微生物群体的情况,因此也产生了大量的基因组数据,利用私有云服务平台基因数据库系统进行管理,节省了硬件资源和成本,同时由原有的纸质化办公转变为在线审批,提高了工作效率。

数据管理是大数据分析的关键,有效的数据管理可以更科学、更深入地分析传染病防控工作中的基因组大数据,从而使分析结果更有价值[14]。微生物基因组数据库均来源于研究者或研究机构测序数据的提交及公共数据的下载整合,所有数据通过统一标准进行收录整理,极大地方便了研究人员进行数据分析和共享。但是数据管理领域中,绝大部分管理者不是数据分析专家,因此数据的管理应以方便使用和简单操作为出发点,本文从数据管理结构、数据产生、数据分析等平台的构建,贯穿于整个大数据的管理流程就是其易用性和可操作性。传染病防控领域中基因组测序数据的管理具有一定的特殊性,测序数据的数据量非常大,通过移动硬盘的方式存储,经常会发生硬盘损失和数据丢失的情况,一旦数据丢失也很难找回;同时由于基因服务单位的人员流动性较大及对测序技术的了解水平参差不齐,在数据交接的过程中,也常常会出现数据缺失和数据格式不正确等现象。在单位层面上建立一个专门的数据管理私有云服务平台,统一备份并审核、分析和管理测序数据,提供准确、高效、安全的可视化分析工具,使得序列信息浏览起来更加直观,这样就会减少数据的缺失现象和管理混乱的局面,同时免除了用户单独购买和配置硬件及系统软件平台的需求[15],提升疾病控制领域大数据的利用率,也有利于数据的统计和分析。

数据的管理是一项长期工程,有效、规范的管理数据的注册、上传、发布和分析,使得基因组大数据的管理成为一种常态化工作,亓合媛等[16]指出,未来分析微生物组研究的关键要素就是实验元数据及测序数据的存储和管理。遗憾的是目前大数据管理效率远远低于其产生的速率,并已逐渐成为基因组大数据处理的瓶颈[17]。国际上已有许多机构建立起了公共微生物基因组数据库,并成立了相应的数据中心用以分析与管理项目产出的数据,如目前使用比较广泛的微生物数据管理与分析平台有美国阿贡实验室开发的宏基因快速注释系统[18],由专门的机构负责收集、组织、管理和发布相应数据,并提供数据检索和分析工具,为广大用户提供了良好的数据管理功能。本文数据的管理从数据产生的源头就开始纳入数据管理范围,同时各个部门的数据相互串联,不同部门协同管理并确保大数据的互联互通和共享服务,财务系统与采购管理平台管理关联,能及时更新并提供课题预算及结余经费,为测序服务的经费提供保障,采购平台自动生成的备查数据,为纪检审计部门提供全过程的监督,同时采购平台和微生物数据关联,为基因组数据的溯源提供线索,这些看似与数据的分析结果相距甚远,其实与数据的真实性、高效性和去噪声等密不可分。

传染病控制领域中基因组大数据的管理是当今甚至未来病原微生物基因组学研究中的一项重要内容,尽管国际上已有很多微生物组数据分析与管理平台,由于我国在这方面起步比较晚,且微生物基因组学数中数据量大、多源异构性和高度不完整性等特点,数据管理和存储仍将是我国今后很长一段时间内传染病控制领域中基因组大数据管理所面临的一项重要挑战[19]。在现有的微生物数据管理工作基础之上,如何实现标准化的数据接口并对微生物组数据资源的高效管理、分析及整合利用是当前亟待解决的问题,也是传染病控制领域中基因大数据管理的发展方向。

参考文献
[1]
Schatz MC. Biological data sciences in genome research[J]. Genome Res, 2015, 25(10): 1417-1422. DOI:10.1101/gr.191684.115
[2]
张阳德. 生物信息学(4):基因诊断与治疗[J]. 外科理论与实践, 2007, 11(6): 附19-28.
[3]
Eid J, Fehr A, Gray J, et al. Real-time DNA sequencing from single polymerase molecules[J]. Science, 2009, 323(5910): 133-138. DOI:10.1126/science.1162986
[4]
Laver T, Harrison J, O'Neill PA, et al. Assessing the performance of the Oxford Nanopore Technologies MinION[J]. Biomol Detect Quantif, 2015, 3: 1-8. DOI:10.1016/j.bdq.2015.02.001
[5]
姚亭秀. 四代DNA测序技术简述[J]. 生物学通报, 2017, 52(2): 5-8. DOI:10.3969/j.issn.0006-3193.2017.02.002
[6]
Heather JM, Chain B. The sequence of sequencers:the history of sequencing DNA[J]. Genomics, 2016, 107(1): 1-8. DOI:10.1016/j.ygeno.2015.11.003
[7]
Nickerson SL, Prosser DO, Lai SWS, et al. A comparison of benchtop high-throughput sequencing platforms in the diagnostic laboratory setting[J]. Pathology, 2016, 48(Suppl 1): S96.
[8]
马天有, 胡曦, 王丽娜, 等. 公共卫生大数据研究进展:生物信息的新领域[J]. 生物信息学, 2017, 15(4): 255-262.
[9]
刘桂锋, 卢章平, 阮炼. 美国高校图书馆的研究数据管理服务体系构建及策略研究[J]. 大学图书馆学报, 2016, 34(3): 16-22. DOI:10.16603/j.issn1002-1027.2016.03.002
[10]
Bentley DR, Balasubramanian S, Swerdlow HP, et al. Accurate whole human genome sequencing using reversible terminator chemistry[J]. Nature, 2008, 456(7218): 53-59. DOI:10.1038/nature07517
[11]
Aagaard K, Petrosino J, Keitel W, et al. The Human Microbiome Project strategy for comprehensive sampling of the human microbiome and why it matters[J]. FASEB J, 2013, 27(3): 1012-1022. DOI:10.1096/fj.12-220806
[12]
Fan HC, Blumenfeld YJ, Chitkara U, et al. Noninvasive diagnosis of fetal aneuploidy by shotgun sequencing DNA from maternal blood[J]. Proc Natl Acad Sci USA, 2008, 105(42): 16266-16271. DOI:10.1073/pnas.0808319105
[13]
李顺鹏, 余龙江. 快速发展中的环境微生物科学与技术:"第十二次全国环境微生物学学术研讨会"专刊序言[J]. 微生物学通报, 2010, 37(4): 485-486.
[14]
张春丽, 成彧. 大数据分析技术及其在医药领域中的应用[J]. 标记免疫分析与临床, 2016, 23(3): 327-333.
[15]
罗志辉, 吴民, 赵逸青. 大数据在生物医学信息学中的应用[J]. 医学信息学杂志, 2015, 36(5): 2-9.
[16]
亓合媛, 孙清岚, 马俊才. 微生物组大数据管理与分析[J]. 微生物学报, 2017, 57(6): 932-941.
[17]
Kyrpides NC, Eloe-Fadrosh EA, Ivanova NN. Microbiome data science:understanding our microbial planet[J]. Trends Microbiol, 2016, 24(6): 425-427. DOI:10.1016/j.tim.2016.02.011
[18]
Glass EM, Wilkening J, Wilke A, et al. Using the Metagenomics RAST Server(MG-RAST)for analyzing Shotgun metagenomes[J]. Cold Spring Harb Protoc, 2010, 2010(1): 5368.
[19]
刘晓亮, 王坤, 马军. 大数据时代的卫生信息化建设思考[J]. 中国卫生信息管理杂志, 2014, 11(1): 43-46.