大数据时代下生物信息技术在生物医药领域的应用前景

引用本文

HU Rui-feng, XING Xiao-yan, SUN Gui-bo, SUN Xiao-bo. The prospect of using bioinformatics technology in the field of biological medicine in the Era of Big Data[J]. Acta Pharm Sin, 2014, 49(11): 1512-1519. 复制到剪切板

胡瑞峰, 邢小燕, 孙桂波, 孙晓波. 大数据时代下生物信息技术在生物医药领域的应用前景[J]. 药学学报, 2014, 49(11): 1512-1519. 复制到剪切板

大数据时代下生物信息技术在生物医药领域的应用前景

胡瑞峰, 邢小燕, 孙桂波, 孙晓波

中国医学科学院、北京协和医学院药用植物研究所, 北京 100193

收稿日期: 2014-7-15;修回日期: 2014-8-27.

基金项目：国家重大新药创制科技专项(2012ZX09501001;2012ZX 09301002);国家自然科学基金资助项目(81374011);国家自然基金青年科学基金项目(81303257).

* 通讯作者：xbsun@implad.ac.cn

摘要：随着信息技术的快速发展, 大数据时代冲击着各个行业。在生物医药领域, 基因组测序技术的革新使得低成本、高通量、快速度成为现实, 与此相关数据信息也出现了爆炸性增长, 生物医药领域被悄然融入大数据的行列, 因此迫切需要高性能计算以及有效的技术与方法对这些信息进行处理, 提取有效数据, 为生物医药发展提供支撑。本文针对目前生物医药数据处理过程中面临的主要问题, 初步探讨生物信息技术在生物医药领域中的应用及广阔前景。

关键词：大数据生物医药生物信息学高性能计算

The prospect of using bioinformatics technology in the field of biological medicine in the Era of Big Data

HU Rui-feng, XING Xiao-yan, SUN Gui-bo, SUN Xiao-bo

Institute of Medicinal Plant Development, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100193, China

Abstract: With the advanced development of information technology, there is a huge impact on various industries for the arrival of big data. In the biomedical field, innovative genome sequencing technology enables low-cost, high-throughput, and high-speed to become a reality, which leads to an explosive growth in data and also appeared in an urgent need to process those massive biological information. High performance computing(HPC)along with effective methods is one of the best ways to deal with the problem of big data in biomedical field which could serve the biomedical development best. We discussed the issues faced in biomedical big data processing and concluded that the bioinformatics is an indispensable component of biomedical technologies.

Key words: big data biomedicine bioinformatics high-performance computing

大数据, 被美国政府认为是“未来的新石油”, 被视为等同于人力资源和物质资源的国家重要战略资源。一个国家所具有的数据规模以及处理和使用数据的能力代表着一个国家的部分综合实力, 对数据的有效运用有助于国家和社会的安全、稳定和快速发展^{[1, 2]}。大数据是一种内容庞大而又多样化的信息资产, 对大数据的处理需要敏锐的洞察能力、强大的处理能力以及有效的使用方式。

目前, 世界范围内各个国家均对大数据的研究高度重视, 大数据科学研究和应用成为当今世界研究热点。在发达国家, 各种大数据项目或计划已相继推出, 一些国际著名大学也着手成立了大数据研究机构。

本文中侧重概述了信息技术的发展过程以及大数据的产生, 重点介绍目前生物医药领域的数据信息, 总结了在信息爆炸式膨胀发展的阶段, 生物信息学在生物医学领域中的应用, 以及如何做好这些应用, 并对其未来前景进行了展望。

1大数据时代

20世纪80年代著名的未来学家阿尔文·托夫勒在《第三次浪潮》中将人类社会的发展划分为3个阶段, 即农业阶段、工业阶段、信息化阶段 (服务阶段)。信息化阶段起始于20世纪50年代, 发展至今日, 信息已经充斥于生活的每一个角落, 大数据的产生离不开信息技术的发展。

《Nature》2008年9月出版专刊, 讨论了大数据存储、管理和分析等问题, 昭示着大数据时代的到来。2011年, 《Science》发布专刊“Dealing with data”, 重点描述了“有效组织和利用数据对社会发展的推动作用”。2012年4月, ERCIM News发布专刊“Big Data”, 集中论述了大数据数据管理与数据处理方面的关键问题。从2013年开始, 国际电子电器工程学会 (IEEE) 计算机学会决定, 每年举办一次“IEEE Big Data”国际学术会议^[1]。在国际范围内各行各业对大数据技术的探讨和开发愈演愈热。在生物医药领域, 随着各种新型技术的不断出现, 使得数据库中的信息量不断增大^{[3, 4]}。面对如此庞大的数据量, 如何对它们进行有效的存储、分析、加工处理并最终获得更有价值的信息将是我们面临的主要问题, 同时也将带来前所未有的机遇^{[5, 6, 7]}。

1.1 信息的技术发展

计算机的出现满足了数据信息保存和处理的需要, 互联网 (Internet) 的诞生与发展促进了信息的交流。技术的不断成熟, 让互联网技术仅用几十年的发展时间即经历了由简单到复杂、由低级到高级、从区域性服务到全球化共享的发展过程。发展到今天, 互联网已普遍平民化使用。在日常生活中, 我们甚至已经无法离开网络, 网络成为了生活的一部分, 可以说, 网络的广泛使用才使得计算机更具有存在的意义和价值。目前, 网络技术正朝着高速、智能、移动互联的方向发展。

1.2 数据的产生

Internet的出现, 使得传统的信息收集、传输及交换方式发生了根本性的变化, 并且数字化的数据可以很容易被分享、复制、整合。根据IDC报道, 近几年互联网上的数据每年增长速度为50%, 几乎每两年便翻一番, 目前世界上90% 以上的数据是最近几年才产生的^{[8, 9]}。

2生物医药数据

在生物医药领域, 各种仪器平台的数字化, 无数的数码传感器, 时时刻刻都在产生着大量数据^[8]。在生物信息行业, 随着测序技术的发展以及计算机计算能力增强, 全基因组的测序价格由十年前的上亿美元降至今天的数千美元, 这使得更多人、物种的DNA信息的获取成为可能^{[10, 11, 12]}。

坐落在英国的欧洲生物信息研究中心 (EBI), 是欧洲分子生物学实验室的一部分, 同时也是世界上最大的生物信息数据中心之一, 目前保存有20 PB的数据量, 包括基因组信息、蛋白质信息、小分子数据等^[13]。在EBI中基因组数据约有2 PB, 并且以每年 2 PB的数据量进行增长^[13]。华大基因是世界上最大的基因组数据产生者之一, 每天都会产生6 TB的基因组数据^[13]。从1982年至今, GenBank中的数据几乎每18个月翻一番^[14]。“千人基因组计划”仅仅测序产生的原始数据量就会接近PB的级别^{[15, 16]}。著名的蛋白质结构数据库PDB数据库, 包含有近10万条生物大分子的数据信息, 而每条信息的数据量达到GB级别^[17]。随着技术的进步, 每年也将有大量新数据的增加。CAS数据库中包含有超过7 900万条的化学物质数据, 包括合金、配位化合物、矿物质、高聚物以及盐类等, 此外还有7 000余万条的化合物反应信息。

3生物医药大数据的解决之道

“大数据”不等于“海量数据”, 其所代表的含义并不只是说数据量庞大, 还包括对这些大量数据的存储、管理、分析和利用^[18]。大数据的价值, 不仅仅在于拥有海量的数据信息, 更重要的是在于对这些含有意义的数据进行专业化处理, 提取最具价值的信息^[19]。生物医药数据所蕴含的信息价值更是不可估量的。

3.1 数据挖掘 (data mining,DM) —— 信息收集与提取

数据挖掘又称为数据库中的知识发现 (knowledge discovery in database,KDD), 是对大量观察到的数据进行收集、分析和提取, 从中发现事先未知的联系和规律, 进而形成知识^[20]。

2000多年前, 张仲景在写《伤寒论》时并没有像现在这样做实验, 在序言中他提到“勤求古训、博采众方”。他做的重要一点就是从其他医药家积累的经验里面抽取了最具有价值的有关中医防治疾病的方法。李时珍在编写《本草纲目》一书时, 曾参考八百余种历代有关医药及其学术书籍, 完成了这部药物学的总结性巨著。“药王”孙思邈走访民间集万家之言, 博采精华, 去伪存真, 同时博览众家医书, 完成不朽著作《千金要方》。以上典籍对中医学具有深远的影响, 至今仍在使用。张仲景、李时珍、孙思邈博览典籍、汲取众长过程就是在进行数据的挖掘。

时至今日, 面对海量的数据已无法采用人工的方式来完成。数据挖掘和知识发现是生物信息学在生物医药领域研究的主要任务^[21]。目前数据挖掘技术已被应用于基因芯片分析、DNA序列比对、生物文献的挖掘以及生物数据的可视化等^[22]。另外, 我国中医药发展拥有上千年的历史, 尤其近些年的快速发展, 积累了大量的临床经验和基础研究数据, 由于中药的作用特点, 使得这些数据更加的复杂, 但对人类疾病的治疗也更具有意义。改革开放以来, 国家也在逐步重视中医药的开发和利用, 使用现代化技术对这些数据进行整理和分析将有助于我国中医药的研究与开发, 必能大大提高中医药的研发水平。

3.2 高性能计算 (high performance calculation, HPC) —— 数据计算

生物大数据的规模和计算强度已经远超过了我们个人电脑所能处理的范围^[23]。生物信息的计算必须要有高效的方法。目前比较流行的快速高效计算方法有并行计算和GPU计算。

并行计算 (parallel computing), 即一个任务分配给多条流水线路或多个处理器来完成。并行计算可以充分调用可用于计算的资源。在生物信息学中典型的应用就是分子对接计算^[24], 每个独立的处理器处理一个待筛选的小分子, 将成千上万的独立数据分配给众多的节点, 最后经管理系统将结果搜集整理并输出。目前流行的并行软件系统有Sun Grid Engine (SGE) 和Open Portable Batch System (OpenPBS)^[24]。

GPU计算是随着对计算性能要求的提高而出现的, CPU在逻辑运算和事务处理中具有较强的性能, 而GPU则具有更高的数据计算效率^[25]。单个GPU芯片中可以集成上千个处理器, 具有极其强大的浮点数运算能力^[25]。同时, 使用CUDA编程技术可以很好的解决复杂计算问题^[15]。生物医药领域的计算具有数据量大、计算度复杂、要求精度高的特点, 这些正是GPU计算的优势所在, 生物医药领域的大数据处理将是GPU计算的最佳用武之地^{[26, 27]}。

3.3 云服务平台 (cloud services platform) —— 数据分析与处理

云服务是一种基于WEB的服务方式, 云服务平台的出现很好地实现了软件、硬件和其他计算资源的共享^{[15, 28]}。只需将数据、需求提交, 支付相应的费用 (远远低于设备购置费用, 而且目前有公用免费平台), 短暂的时间之后就可以得到需要的结果^[12], 并且结果数据具有相对规定统一格式。例如NCBI的BLAST计算、上海药物研究所的TarFisDock平台等。在国际上比较有名的云计算平台是亚马逊弹性计算云 (EC2, Elastic Compute Cloud)。在国内, 华大基因为应对生物医药大数据的计算以及提供更优质的服务开发了基于云计算的在线基因组分析平台, 称为“EasyGenomics”, 该平台具有成千上万的处理器以及大规模的存储空间, 用来应对EB级别的数据处理^{[13, 15]}。本实验室开发的NetCAD网络平台搜集了近2万个人类蛋白, 发现了它们之间的近13万条相互作用关系, 可以为冠心病研究人员提供有效的帮助^[29]。

4 大数据时代生物信息技术在生物医药研究中的可应用性

生物信息学 (bioinformatics) 是伴随着人类基因组计划项目的启动而产生的一门交叉学科。生物信息学已成为整个生命科学发展的重要支持力量, 被誉为解读“生命天书的慧眼”^[30]。在当前“大数据时代”, 重视生物信息学的发展极为重要, 也更加需要计算机技术的支持^[31]。

生物信息技术已在基因组领域取得了巨大的成功, 目前生物信息技术的应用也不再只是局限于对DNA序列的分析, 在生物医学的很多领域都在被广泛的应用, 比如医学成像技术、计算机辅助药物设计、大分子建模等, 在生物医药数据的处理中, 生物信息技术将必不可少^{[27, 32, 33, 34, 35]}。

4.1 应用于药物研究与开发 4.1.1 网络药理学

传统西药以单分子单靶点的研究思路在新药研发中遇到了巨大的瓶颈问题^{[36, 37]}。在一个完整的生物体内, 各个机制的完美运行依靠的是系统的完整性, 一个完整的生物系统存在各个节点之间相互作用, 形成一个稳定的复杂网络体系, 在这些网络中某些无标度节点的缺失并不会引起系统的偏转或瘫痪, 疾病出现时往往是稳定的系统被打乱, 多个网络节点出现问题, 单靶点思路已不再适合解决此类问题^{[38, 39, 40]}。

网络生物学采用数学图论模型对其进行研究, 借助于成熟的网络拓扑学理论、属性以及研究方法, 对涉及到的疾病分子及其相互作用抽象为网络节点和边, 利用相关计算方法对其研究, 寻找新的发现、新的方法。现阶段兴起的网络药理学对于传统医药学现代化研究来说是一个很好的契机^{[37, 41, 42]}。探索新的算法程序, 开发针对性的应用程序将是网络药理学研究中的必要任务, 建立完整可靠的蛋白网络数据库、疾病网络数据库以及药物网络数据库势在必行^{[29, 36, 43]}。

复杂网络计算方法的运用以及计算工具的开发将可以快速推进网络药理学的普及与应用, 有利于加快新药物的研发进程, 造福人类^{[42, 44, 45, 46, 47]}。目前网络的构建方法主要包括: 使用计算机编程语言进行程序设计、使用Matlab、R等集成环境进行网络的构建以及使用类似CytoScape、Pajek、NetworkX等软件或插件包直接生成网络。

本实验室利用计算机计算冠心病蛋白互作网络 (NetCAD), 发现MKP-3蛋白节点具有重要的网络属性, 在ERK1/2通路中具有重要作用。经实验表明,在心肌细胞缺血/再灌注时, 会诱使MKP-3大量表达, 使ERK1/2通路失活, 减少eNOS表达以及NO的产生, 从而保护心肌细胞。而丹参中所含有的丹酚酸成分可以有效地促进MKP-3的产生^{[48, 49, 50]}。应用现阶段国际上权威的microRNA靶基因预测软件PicTar、TargetScanS、miRanda获得了119个与心肌梗死发病相关的microRNA靶基因, 通过对靶基因进行基因本体注释、功能富集分析及信号通路分析, 阐明与心肌梗死相关的microRNA的生物学功能; 同时还基于心肌梗死相关的生物学表型凋亡, 建立了与凋亡相关的microRNA-靶基因生物网络。本课题组通过网络分析, 筛选出了与心肌细胞凋亡相关的重要microRNA分子——miR-106b, 并进一步通过动物实验, 首次证明了miR-106b在缺氧诱导的心肌细胞凋亡中具有调控作用, 并发现CDKN1A (p21) 是miR-106b抑制心肌细胞凋亡的功能靶基因。进一步通过基因“功能缺失”和“功能获得”实验研究发现, miR-106b通过直接与p21 mRNA的3'-UTR片段结合, 负向调控心肌细胞中p21的表达, 发挥抗细胞凋亡的作用, 进一步验证了CDKN1A(p21)为miR-106b调控缺氧诱导的心肌细胞凋亡的功能靶基因^[51]。

此外, 课题组前期利用网络药理学技术构建“冠心病/心肌缺血疾病-靶标-成分 (群)”网络, 并对课题组自主研发的冠心病临床一线用药——冠心丹参滴丸所含的化学成分物质建立化合物数据库, 与血瘀证相关的主要作用靶点数据库通过合适的数学模型建立双向关联图, 将化合物—靶点网络与生物网络整合在一起, 分析化合物对此网络中心与特定节点上的结合数量与结合程度, 初步预测方剂的有效成分群和有效靶点群。进一步从整体、离体、细胞、分子多层次对其活性成分及作用机制开展了一系列实验验证。冠心丹参方主要活性成分丹酚酸B、木犀草素、木犀草苷、山柰酚、三七皂苷R1均具有显著的抗心肌细胞损伤作用。丹酚酸B通过PI3K-Akt信号通路发挥抗心肌细胞凋亡的作用; 木犀草素及其糖苷 (木犀草苷) 可通过增加抗氧化能力, 维持线粒体功能及调节上游信号通路PI3K-Akt和ERK1/2, 进而激活Nrf2并诱导HO-1表达发挥心肌保护作用; 山奈酚可能通过抑制阿霉素激活p53信号和ERK/ MAPK途径, 抑制氧化应激诱导的体内、体外心肌细胞凋亡, 发挥心肌保护作用; 三七皂苷R1可通过抑制转录因子NF-κB活化, 改善iNOS和eNOS表达的失衡, 抑制LPS诱导产生TNF-α和IL-1β, 减少心肌的炎症和凋亡反应。利用前期构建的“疾病-靶标-成分”网络信息预测, 发现三七皂苷R1能够通过激活ERα和PI3K/Akt信号通路改善感染性休克导致的心肌损伤, 七叶胆苷ⅩⅦ通过激活雌激素受体依赖的PI3K/Akt信号通路, 进而活化Nrf2/ARE信号通路, 上调HO-1表达对神经细胞的损伤具有明显的保护作用, 通过实验验证网络预测, 为神经退行性疾病治疗提供新的实验依据。相关的研究在British Journal of Pharmacology、Free Radical Research、Toxicology and Applied Pharmacology、Toxicology和Toxicology Letters等国际核心期刊上发表^{[52, 53, 54, 55, 56, 57]}。

本课题组利用系统生物学原理, 基于网络药理学技术, 针对中药毒性特点 (多成分、多影响因素、多靶点、多指标评价、早期即而出现) 及安全性评价需求, 构建中药网络毒理学评价技术, 开展符合中药毒性特点的安全性评价, 将会为中药毒理学研究提供新的思路与模式, 提升其研究能力与水平。

4.1.2 分子对接

在现代药物研究中开发出的新药往往会出现“单药多靶”或“单靶多药”的情形, 使得在用药过程中出现意想不到的后果。使用计算机辅助药物设计中的分子对接技术可以有效地预测药物分子潜在的作用靶标, 可以为药物作用机制的研究提供方向性指导。

分子对接技术主要应用于基于结构的药物设计中, 以靶标蛋白的空间结构为基础, 通过匹配最佳的化合物小分子来寻找潜在的药物, 高通量的筛选极大地缩短了药物开发的时间^{[58, 59]}。分子对接技术目前仍在不断的发展过程中, 并且取得了显著的成效^{[60, 61, 62]}。使用分子对接技术发现的HIV-1蛋白酶抑制剂是一个非常成功的例子, 通过了FDA的认证并且已经上市^{[63, 64, 65, 66, 67]}。

目前常用的Docking工具有DOCK、AutoDock4、surflex、glide、gold、MVD等, 但目前分子对接面临的瓶颈问题是打分函数不够精确, 不能完全模拟分子在体内的相互作用环境, 并且计算强度大, 对于大规模的筛选无法短时间内完成。针对以上问题, 首先需要不断研究改进新的算法, 使得结果能够更加的精确; 其次, 利用计算机网络技术构建大规模以及超大规模的集群计算网络, 使得计算更加快速。Richards用互联网把世界上两百多个国家的350万台个人计算机连接起来, 能够在几天之内从数十亿的类药分子库里筛选出目标蛋白质的配体^[68]。

上面提到的HIV-1蛋白酶抑制剂是计算机辅助药物设计发现新药物的一个成功例子, 除此之外, 使用生物信息技术发现的新靶点新药物还有多例^[69]。

表 1 利用计算机技术发现的典型药物靶点信息

4.2 应用于基因生物学

人类基因组计划的完成, 使得人类基因研究得到了空前的快速发展。目前, 世界范围内已进入后基因组时代, 大量数据不断累计, 亟待寻求快速、有效的解决方法。大数据分析技术可以为DNA分析提供强有力理论支持和工具支持。

4.2.1 致病基因通路分析

目前威胁人类健康的重大疾病中多为复杂性疾病, 致病基因往往是多个, 各个基因或许在不同时间、空间起着不同的作用。利用大数据技术可分析发现不同阶段、不同位置的遗传控制因素, 从而进行有针对性的治疗, 达到更加有效的治疗效果。Alsulami等^{[74, 75]}利用基因通路分析变异基因与血压之间的关系, 发现CD47基因与血压之间有密切关系。

4.2.2 序列相似性分析

在基因研究中一个重要的方面就是寻找基因间的相似性与差异性。使用非线性相关统计法、神经网络、分类及聚类算法进行相似性分析可以发现核酸序列之间的异同点, 有助于研究生物个体或遗传疾病之间的差异性, 或研究不同物种之间的鉴定与区分。使用序列相似性分析技术, 陈士林课题组提出ITS2作为中药鉴定区分的有效序列, 并取得了可喜成果^[76]。

4.3 应用于临床医学 4.3.1致病因素关联分析

通过检索病案数据库中大量的病人病情信息以及病人的个人信息, 使用聚类分析算法对这些信息进行关联性分析, 以发现某种疾病与外在环境因素的潜在关系, 指导患者远离这些致病因素, 有效降低或预测疾病的发生。Prather等^[77]利用数据挖掘有关技术成功地对Duke大学医学中心的产科病人早产的3个危险因素进行了分析。

4.3.2提高诊断准确率

疾病的致病因素错综复杂, 而且不同阶段症状各不相同, 不同疾病之间有时会具有高度相似的病症特征, 大数据分析技术有关分类分析的方法可应用于疾病快速高效的病情诊断。秦中广等^[78]利用粗糙集理论对类风湿病进行诊断, 取得了良好的效果。Kusiak等^{[79, 80]}使用大数据处理的相关算法对实体性肺结节进行诊断, 准确率高达100%。

4.3.3 病情发展预测

基于大量的病例数据信息, 使用人工智能技术有效地对数据进行高效精确的判读, 归纳形成规律性的知识, 将其应用于疾病发展趋势的预测可以大大提高病情发展预测的准确性。研究表明基于大量数据分析的早产预测准确率远远高于人工预测^[81]。

使用大数据技术可以进行行为或趋势自动预测、关联分析、聚类分析以及偏差检验等, 不但可应用于病情诊断和演化预测、DNA序列相似搜索与比较、疾病相关因素分析以及诊断数据监测和确认, 还可以应用于医学图像分析、药理毒理信息挖掘、药物的不良反应发现等。大部分从事生命科学的研究人员一辈子可能也就会关注某一个物种, 或者某一种疾病, 甚至可能只是其中的某一条信号通路。美国斯坦福大学Butte教授及其实验室通过搜集、使用并分析各个公开数据库里现有的信息, 在糖尿病、肥胖症、移植排斥反应以及新药发现等方面都颇有建树^[31]。

5问题与讨论

计算机技术在药物的研究与开发中具有重要的作用, 极大地提高了生物医药的开发效率^[82]。在未来信息技术蓬勃发展的时代, 将会有大量实验数据产生, 现代药物的研究与开发中, 信息技术必不可少^{[83, 84]}。

2013年7月, 剑桥大学John Boyle在Nature上发表题为《生物学必须发展自己的大数据系统》(Biology must develop its own big-data systems)^[23]的评论文章中指出, 在现代生物学研究中, 所产生的大量信息, 如果没有有效工具的帮助, 科学家将很难分析这些信息, 这也催生了大数据管理系统的出现, 但这很难设计, 更难利用, 因此, 生命科学的很多数据管理项目最终都失败了。全球实验室产生数据的大小、复杂性和异质性是在增长的, 研究人员需要寻找方法来管理和整合数据以期在基因组学、蛋白质组学等领域有所发现。对于生命科学研究, 数据管理系统很可能需要从事生命科学研究的科学家设计和开发。现在, 研究人员设计一个适合科学家采用的开放的数据管理系统已成为一种必然。

高通量生物技术使得生物医学数据急剧增长, 生物信息学以及计算生物学成为生命科学研究和生物医药研究中不可或缺的组成部分。越来越多的重大科研项目中涉及到生物信息技术的支持, 甚至成为项目的主导技术, 生物信息技术已经成为生物医药研究中前沿领域和创新的源头。生物信息学的发展将对分子生物学、药物研究与开发、生物医学资源共享带来巨大的影响和冲击, 利用生物信息技术使无序数据规范化、条理化, 可为后续研究提供方便, 支撑科学研究的进行, 并且规范化的数据有可能带来重大规律性的发现。

6总结与展望

现在的生物医学技术在不断的朝着微观世界发展, 基因序列、蛋白质序列、蛋白质结构与功能、分子间相互作用、信号通路、调控原件等是目前生物医学研究中的热点, 如山一样的数据堆积正在阻挡科学研究的进步。计算机辅助计算将是生物大数据分析的必由之路, 也必将成为生物研究中的中流砥柱。

在未来, 大数据研究将会不断冲击传统的思维模式, 带来思维的变革, 将更加细致诠释量变与质变的关系, 将更加注重分析事物与事物之间的相互关系。对于未来试验的设计, 将从过去的假设验证的模式转变为基于数据分析的预测验证模式, 对学术研究的基本方法产生重大影响。

参考文献

[1]	Wang CH, Chen WN, Zhang J, et al. Challenging scientific problems for technologies and applications of big data [J]. Bull Nat Nat Sci Foundation of China(中国科学基金), 2014, 02: 92-98.
[2]	Li GJ. Great scientific value of research on big data [J]. Commun CCF(中国计算机学会通讯), 2012, 8: 8-15.
[3]	Frankel F, Reid R. Big data: distilling meaning from data [J]. Nature, 2008, 455: 30-30.
[4]	Gerstein M. Genomics: ENCODE leads the way on big data [J]. Nature, 2012, 489: 208-208.
[5]	Gijzen H. Development: big data for a sustainable future [J]. Nature, 2013, 502: 38-38.
[6]	Meng XF, Ci X. Big data management: concepts, techniques and challenges [J]. J Comput Res Dev(计算机研究与发展), 2013, 50: 146-169.
[7]	Li GJ, Cheng XQ. Research status and scientific thinking of big data [J]. Bull Chin Acad Sci(中国科学院院刊), 2012, 27: 647-657.
[8]	Moore GE. Cramming more components onto integrated circuits [J]. Electronics, 1965, 38: 114-117.
[9]	Wang YZ, Jin XL, Cheng XQ. Network big data: present and future [J]. Chin J Comput(计算机学报), 2013, 36: 1125- 1138.
[10]	Lynch C. Big data: how do your data grow? [J]. Nature, 2008, 455: 28-29.
[11]	Donovan S. Big data: teaching must evolve to keep up with advances [J]. Nature, 2008, 455: 461-461.
[12]	Waldrop M. Big data: wikiomics [J]. Nature, 2008, 455: 22-25.
[13]	Marx V. Biology: the big challenges of big data [J]. Nature, 2013, 498: 255-260.
[14]	Gene Bank. http://www.ncbi.nlm.nih.gov/genbank/statistics [OL]. 2014-04-20.
[15]	Schadt EE, Linderman MD, Sorenson J, et al. Computational solutions to large-scale data management and analysis [J]. Nat Rev Genetics, 2010, 11: 647-657.
[16]	Pennisi E. How will big pictures emerge from a sea of biological data? [J]. Science, 2005, 309: 94-94.
[17]	PDB. http://www.rcsb.org/pdb/statistics/contentGrowthChart. do?content=total&seqid=100 [OL]. 2014-04-20.
[18]	Boyd D, Crawford K. Six provocations for big data [J/OL]. 2011. http://dx.doi.org/10.2139/ssrn.1926431.
[19]	Goldston D. Big data: data wrangling [J]. Nature, 2008, 455: 15. doi: 10.1038/455015a.
[20]	Gong ZL, Chen Y, Su Y, et al. Application of data mining in biomedical data analysis [J]. J Shanghai Jiaotong Univ(Med Sci)(上海交通大学学报医学版), 2010, 30: 1420- 1423.
[21]	Howe D, Costanzo M, Fey P, et al. Big data: the future of biocuration [J]. Nature, 2008, 455: 47-50.
[22]	Zhou AH, Zheng YP, Wang LQ. Summary of medical data mining [J]. Chin J Prac Med(中华医学实践杂志), 2005, 4: 126-128.
[23]	Boyle J. Biology must develop its own big-data systems [J]. Nature, 2013, 499: 7.
[24]	Dudley JT, Butte AJ. A quick guide for developing effective bioinformatics programming skills [J]. PLoS Comput Biol, 2009, 5: e1000589.
[25]	Li JY, Zhao DS, Wang YM. GPU computing and its application in biomedical research [J]. Mil Med Sci(军事医学), 2011, 35: 634-636.
[26]	Trelles O, Prins P, Snir M, et al. Big data, but are we ready? [J]. Nat Rev Genetics, 2011, 12: 224-224.
[27]	Community cleverness required [J]. Nature, 2008, 455: 1. DOI: 10.1038/455001a.
[28]	Dai L, Gao X, Guo Y, et al. Bioinformatics clouds for big data manipulation [J]. Biol Direct, 2012, 7: 43.
[29]	Ren G, Liu Z. NetCAD: a network analysis tool for coronary artery disease-associated PPI network [J]. Bioinformatics, 2013, 29: 279-280.
[30]	Hu YG, Xu WB. Application of data mining in bioinformatics [J]. China J Bioinform(生物信息学), 2004, 3: 40-42.
[31]	Service RF. Biology's dry future [J]. Science, 2013, 342: 186-189.
[32]	Field D, Sansone SA, Collis A, et al. 'Omics data sharing [J]. Science, 2009, 326: 234-236.
[33]	Hu RF. Computer and medical science [M]//Zhuang TG. Computer Applications in Biomedical Engineering(计算机在生物医学中的应用). Nanjing: Southeast University Press, 1991: 1-7.
[34]	Zheng WG, Guo Y, Cang CY. The current states of bioinformatics and its future [J]. Port Health Control(口岸卫生控制), 2004, 9: 40-43.
[35]	Wang JZ. Compouter and medical science [J]. Int J Biomed Eng(国际生物医学工程杂志), 1980, 2: 12-16.
[36]	Liu AL, Du GH. Network pharmacology: new guidelines for drug discovery [J]. Acta Pharm Sin(药学学报), 2010, 45: 1472-1477.
[37]	Liu ZH, Sun XB. Network pharmacology: new opportunity for the modernization of traditional Chinese medicine [J]. Acta Pharm Sin(药学学报), 2012, 47: 696-703.
[38]	Arrell D, Terzic A. Network systems biology for drug discovery [J]. Clin Pharm Ther, 2010, 88: 120-125.
[39]	Hopkins AL. Network pharmacology [J]. Nat Biotechnol, 2007, 25: 1110-1110.
[40]	Hopkins AL. Network pharmacology: the next paradigm in drug discovery [J]. Nat Chem Biol, 2008, 4: 682-690.
[41]	Barabási AL, Gulbahce N, Loscalzo J. Network medicine: a network-based approach to human disease [J]. Nat Rev Genetics, 2011, 12: 56-68
[42]	Berger SI, Iyengar R. Network analyses in systems pharmacology [J]. Bioinformatics, 2009, 25: 2466-2472.
[43]	Gao Z, Li H, Zhang H, et al. PDTD: a web-accessible protein database for drug target identification [J]. BMC Bioinform, 2008, 9: 104.
[44]	Gertsch J. Botanical drugs, synergy, and network pharmacology: forth and back to intelligent mixtures [J]. Planta Med, 2011, 77: 1086-1098.
[45]	Li S, Zhang XG, Ji L, et al. Strategies and methodologies of studying complex diseases by bioinformatics [J]. World Chin J Dig(世界华人消化杂志), 2003, 11: 1465-1465.
[46]	Li S. Computational systems biology-based TCM research: a case study of Cold/Hot ZHENG and associated formula [J]. World Sci Technol-Mod Tradit Chin Med(世界科学技术-中医药现代化), 2007, 9: 105-111.
[47]	Li S, Wang YY, Yong L, et al. A discussion and case study of complexities in traditional Chinese medicine [J]. J System Simul(系统仿真学报), 2002, 14: 1429-1431.
[48]	Yang D, Xie P, Liu Z. Ischemia/reperfusion-induced MKP-3 impairs endothelial NO formation via inactivation of ERK1/2 pathway [J]. PLoS One, 2012, 7: e42076.
[49]	Meng X, Sun G, Ye J, et al. Notoginsenoside R1-mediated neuroprotection involves estrogen receptor-dependent crosstalk between Akt and ERK1/2 pathways: a novel mechanism of Nrf2/ARE signaling activation [J]. Free Radical Res, 2014, 48: 445-460.
[50]	Meng XB, Sun GB, Wang M, et al. P90RSK and Nrf2 activation via MEK1/2-ERK1/2 pathways mediated by notoginsenoside R2 to prevent 6-hydroxydopamine-induced apoptotic death in SH-SY5Y Cells [J/OL]. Evidence-Based Complement Altern Med, 2013. http://dx.doi.org/10.1155/2013/971712
[51]	Liu Z, Yang D, Xie P, et al. MiR-106b and MiR-15b modulate apoptosis and angiogenesis in myocardial infarction [J]. Cell Physiol Biochem, 2012, 29: 851-862.
[52]	Sun B, Xiao J, Sun XB, et al. Notoginsenoside R1 attenuates cardiac dysfunction in endotoxemic mice: an insight into oestrogen receptor activation and PI3K/Akt signaling [J]. Br J Pharmacol, 2013, 168: 1758-1770.
[53]	Meng X, Wang M, Wang X, et al. Suppression of NADPH oxidase- and mitochondrion-derived superoxide by notoginsenoside R1 protects against cerebral ischemia-reperfusion injury through estrogen receptor-dependent activation of Akt/ Nrf2 pathways [J]. Free Radic Res, 2014, 48: 823-838.
[54]	Meng X, Wang M, Sun G, et al. Attenuation of Abeta25-35- induced parallel autophagic and apoptotic cell death by gypenoside XVII through the estrogen receptor-dependent activation of Nrf2/ARE pathways [J]. Toxicol Appl Pharmacol, 2014, 279: 63-75.
[55]	Xiao J, Sun GB, Sun B, et al. Kaempferol protects against doxorubicin-induced cardiotoxicity in vivo and in vitro [J]. Toxicology, 2012, 292: 53-62.
[56]	Sun J, Sun G, Meng X, et al. Isorhamnetin protects against doxorubicin-induced cardiotoxicity in vivo and in vitro [J]. PLoS One, 8: e64526.
[57]	Wang M, Sun GB, Sun X, et al. Cardioprotective effect of salvianolic acid B against arsenic trioxide-induced injury in cardiac H9c2 cells via the PI3K/Akt signal pathway [J]. Toxicol Lett, 2013, 216: 100-107.
[58]	Anderson AC. The process of structure-based drug design [J]. Chem Biol, 2003, 10: 787-797.
[59]	Chen YZ, Yung UC. Application of computer-aided drug target search in probing molecular mechanism of bioactive Chinese natural products [J]. Chin J Med Chem(中国药物化学杂志), 2001, 11: 145-148.
[60]	Bajorath J. Rational drug discovery revisited: interfacing experimental programs with bio- and chemo-informatics [J]. Drug Discov Today, 2001, 6: 989-995.
[61]	Joseph-McCarthy D. Computational approaches to structure- based ligand design [J]. Pharmacol Ther, 1999, 84: 179-191.
[62]	Gao L, Liu AL, Du GH. Advances of computer-aided drug design in drug development [J]. Chin Pharm J(中国药学杂志), 2011, 46: 641-645.
[63]	Wlodawer A, Vondrasek J. Inhibitors of HIV-1 protease: a major success of structure-assisted drug design [J]. Ann Rev Biophys Biomol Struct, 1998, 27: 249-284.
[64]	Vondrasek J, Wlodawer A. HIVdb: a database of the structures of human immunodeficiency virus protease [J]. Proteins: Struct, Funct, Bioinformatics, 2002, 49: 429-431.
[65]	Zhao J, Jiang P, Zhang W. Molecular networks for the study of TCM pharmacology [J]. Briefings Bioinform, 2010, 11: 417-430.
[66]	Tsai TY, Chang KW, Chen CYC. iScreen: world's first cloud- computing web server for virtual screening and de novo drug design based on TCM database@ Taiwan [J]. J Comput Aided Mol Design, 2011, 25: 525-531.
[67]	Xu XJ. Study on computer simulation for Chinese traditional compound medicine [J]. Prog Chem(化学进展), 1999, 11: 202-204.
[68]	Duan AX, Chen J, Liu HD, et al. Applications and developments of molecular docking method [J]. J Anal Sci(分析科学学报), 2009, 25: 473-477.
[69]	Marrone TJ, Briggs JM, McCammon JA. Structure-based drug design: computational advances [J]. Annu Rev Pharmacol Toxicol, 1997, 37: 71-90.
[70]	Oikonomakos NG, Skamnaki VT, Tsitsanou KE, et al. A new allosteric site in glycogen phosphorylase b as a target for drug interactions [J]. Structure, 2000, 8: 575-584.
[71]	Weitz-Schmidt G, Welzenbach K, Brinkmann V, et al. Statins selectively inhibit leukocyte function antigen-1 by binding to a novel regulatory integrin site [J]. Nat Med, 2001, 7: 687-692.
[72]	Pargellis C, Tong L, Churchill L, et al. Inhibition of p38 MAP kinase by utilizing a novel allosteric binding site [J]. Nat Struct Mol Biol, 2002, 9: 268-272.
[73]	Wright SW, Carlo AA, Carty MD, et al. Anilinoquinazoline inhibitors of fructose 1, 6-bisphosphatase bind at a novel allosteric site: synthesis, in vitro characterization, and X-ray crystallography [J]. J Med Chem, 2002, 45: 3865-3877.
[74]	He L, Wang Y, Yang Y, et al. Identifying the gene signatures from gene-pathway bipartite network guarantees the robust model performance on predicting the cancer prognosis [J]. Biomed Res Int, 2014, 2014: 424509.
[75]	Alsulami H, Liu X, Beyene J. Pathway-based analysis of rare and common variants to test for association with blood pressure [J]. BMC Proc, 2014, 8: S101.
[76]	Li X, Yang Y, Henry RJ, et al. Plant DNA barcoding: from gene to genome [J]. Biol Rev, 2014. DOI: 10.1111/brv.12104.
[77]	Prather JC, Lobach DF, Goodwin LK, et al. Medical data mining: knowledge discovery in a clinical data warehouse [J]. Proc AMIA Annu Fall Symp, 1997: 101-105.
[78]	Qin ZG, Deng YZ. The application of rough set in the Chinese medicine Rheumatic Arthritis diagnosis [J]. Chin J Biomed Eng(中国生物医学工程学报), 2001, 20: 357-363.
[79]	Kusiak A, Kernstine K, Kern J, et al. Data mining: medical and engineering case studies [C]//Proceedings of the industrial engineering research 2000 conference, Cleveland, Ohio, 2000: 21-23.
[80]	Kusiak A, Kern JA, Kernstine KH, et al. Autonomous decision-making: a data mining approach [J]. IEEE Trans Inf Technol Biomed, 2000, 4: 274-284.
[81]	Tan BL. Research on rough set theory and its application [J]. China CIO News(信息系统工程), 2009, 10: 79-78.
[82]	Ojima I. Modern natural products chemistry and drug discovery [J]. J Med Chem, 2008, 51: 2587-2588.
[83]	Zhu W, Chen KJ, Xu XJ. Applications of computerized virtual screening technique in TCM [J]. Chin J Integr Med(中国中西医结合杂志), 2007, 27: 263-266.
[84]	Zheng M, Liu X, Xu Y, et al. Computational methods for drug design and discovery: focus on China [J]. Trends Pharm Sci, 2013, 34: 549-559.


药学学报 2014, Vol. 49 Issue (11): 1512-1519	PDF