2. 盐城市第三人民医院,盐城 224001
2. Department of Dermatology, Yancheng Third People' s Hospital, Yancheng 224001
一般来说,天然活性物质其实就是生物在生命活动中的一种代谢产物,本质上就是一种化合物。但是这里要探讨的天然活性物质其实是一种次级代谢产物,这些次级代谢产物结构复杂,数量、种类庞大,单纯依靠小规模、单种类的逐一研究和发现已经无法满足现代科技的发展,因此需要建立此类次级代谢产物的数据库,以便新的次级代谢产物被分离出来后可以迅速的归类和进行进一步的研究,同时也可以利用这类数据库对后续次级代谢产物的开发提供平台和支撑,这也是我们建立数据库来帮助寻找天然活性物质的原因。
到目前为止,已经有很多天然活性物质被分离出来,并进行了药理学实验,结果发现它们有非常复杂的作用机制[1]。而且,药物化学家还对天然活性物质进行修饰改造,以此来改善这些物质的药理药效和安全性[2]。而事实上,天然活性物质之所以有其特殊的作用和特点,关键在于其所处环境中不同生物之间的相互作用[3],这也给人们研究天然活性物质提出了难题,因此,建立天然活性物质的数据库就显得极为重要。其实,天然活性物质的寻找和代谢组学有联系又有各自不同的特点。单纯天然活性物质的寻找只关注寻找有用的物质,代谢组学则强调样品中所有物质的收集。尽管这两者有重复的部分[4],有时也用到了某个相同的技术,如质谱和核磁共振它们都会用到。虽然现代技术的进步为代谢产物的分离提供了很大的帮助,但是鉴于天然活性物质结构的复杂和数据的庞大,分析化学家想要研究它们还是非常困难。例如,一些生物活性代谢物是相当小的,一些是亲水的,一些是亲脂的。所以建立基于含有海量数据的天然活性物质的代谢组数据库就具有很重要的现实意义。
在基于代谢组学理论的数据库建立之前,关于天然活性物质所建立的数据库大都是依靠光谱分析建立的,要想搜索它们必须依靠相应的物理化学参数,这样虽然可以很明确的找到某个或某种化合物,但是无法确定复杂的混合物或孤立的没有明确参数的化合物。因此,通过代谢组学实验所得到的一些天然活性物质,如果想要得到其极其精确的结构和功能,必须依赖依靠光谱所建立的数据库的完整性和可访问性,即数据库越庞大、越详细越好。
多年来,研究人员主要依赖商业数据库或者自己开发建立的小型数据库,或者一些其他机构内部的不公开访问的数据库。随着代谢组学的发展,基于代谢组学理论建立的数据库采取了完全截然不同的策略,无论是从样品获取、数据分析、搜索算法、甚至最后原始数据积累等方面已经开始了开放获取数据库和数据交换方面的实践探索。虽然在将来一段时间里,商业数据库仍然是寻找新的天然活性物质的主要工具,但是,由于其所能搜索的内容和搜索算法都是专有的,因此,这些商业数据库很难大规模推广。所以,未来关于天然活性物质数据库的发展将向如何共享数据库、如何更好使用基于代谢组学理论所建立的数据库方面发展,商业的、小型的、算法深奥的一些不是基于代谢组学理论建立的数据库将逐步被兼并和替代。
下面就每个数据库的开发国家及实验室,数据库内容,数据量,更新周期,数据库的特点等方面分别进行介绍,按照这些数据库建立所用的技术手段分为以下几类。
1 以质谱分析为基础的数据库目前,在天然活性物质的发现过程中,我们运用的质谱分析方法主要有气相色谱法、高效液相色谱和在线质谱分析。气相色谱法的优势是可以反映物质的结构属性,尤其是多级气相色谱,且由于色谱技术的发展,更高的灵敏度、更快的采集速度、更高的分辨率、更高准确性的色谱技术都有了长足进步。因此,气相色谱和高效液相色谱在代谢组学上有着非常重要的应用[5]。以质谱分析为基础的数据库主要有以下几种。
1.1 GMD(golm metabolome database)GMD(http://gmd.mpimp-golm.mpg.de/)由德国波茨坦的马克斯普朗克分子植物生理研究所建立并维护,是一个基于气相色谱分析的数据库,同时还加入了一些电子轰击质谱的数据。此数据库对所收集的天然活性物质均设定了特定的标记物,当用户利用GMD数据库搜索所需代谢物时,就可以利用这些标记物来快速的找到。GMD的查询方式非常简单,提供了网页模式和程序模式两种入口,便于进入。GMD还可提供进化树的搜索[6],利用此项功能,即使某个代谢物的结构无法完全确定,也可以将其归为某种代谢物种类下,方便后续的研究。
1.2 METLINMETLIN(http://metlin.scripps.edu)是由美国斯克里普斯研究院开发的新型数据库,是一个非常全面的质谱或二级质谱数据库,包含大约62 000个已经检测的光谱峰值数据,有超过12 000个代谢物数据,还包括大量的理论光谱峰值数据。所有数据都是在标准条件下利用QTOF质谱仪获得的。该数据库共有超过240 000个条目,支持批量查询,不足是不能进行数据的下载,只能查询[7]。
1.3 MassBankMassBank(http://www.massbank.jp/)是由日本国家生物科学数据库中心和日本科学技术振兴机构建立并维护,是目前为止最全面的一个以质谱分析为基础的代谢组学数据库,也是基于色谱分析、高效液相为基本数据的整合查询平台[8]。该数据库可以通过在线搜索界面或Mass++软件进行搜索,MassBank还有一个简单的访问门户接口,允许以编程方式提交查询。MassBank的不足在于保留时间不可以作为一个搜索参数在该数据库中进行搜索。
1.4 ReSpectReSpect(http://spectra.psc.riken.jp)由日本的RIKEN植物科学中心建立并维护,是一个专门针对植物代谢产物的二级质谱数据库,截至2011年9月已收录8 649条记录,对应3 595个代谢物。其特点是建立了物种分类和代谢物分类之间的关系,当要寻找某个新的天然活性物质时,可借助该数据库先确定物种的种类,再确定代谢物的种类[9]。
1.5 GNPS(The Global Natural Products Social)GNPS(http://gnps.org/)由美国佐治亚州乡土植物学会发起建立,是一个强调天然活性物质生物起源的二级质谱数据库。除了包含自己的一些独特的光谱数据外,还包括一些来自MassBank和ReSpect的数据。该数据库的特点是利用网络和计算机等工具去除了重复记录,便于查找。其他的一些质谱数据库,如HMDB、MMCD、SDBS2、Spektraris将会在后面的多参数数据库中介绍到。
2 以核磁共振为基础的数据库核磁共振技术虽然可以精确分析蛋白质的结构,但是,与质谱分析及高效液相气相相比,核磁共振技术不够灵敏,速度不够快。因此,在分析天然活性物质结构方面并不是一个经常采用的方法。下面介绍几个基于核磁共振技术的代谢组学数据库。
2.1 NAPROC-13NAPROC-13(http://c13.usal.es/c13/usuario/views/inicio.jsp?lang=en & country=EN)由西班牙萨拉曼卡大学建立并维护,是一个收集大分子( > 20 000)代谢物的数据库,并且这些代谢物已经按照生化性质进行了分类[10]。
2.2 NMRShiftDBNMRShiftDB(http://nmrshiftdb.nmr.uni-koeln.de/)由德国研究委员会建立并维护和SDBS(http://sdbs.db.aist.go.jp)由日本国立研究开发法人产业技术综合研究所建立并维护,也是基于核磁共振技术的代谢组学数据库,但是它们所包含的代谢物不仅仅局限于天然活性物质,还包含一些其他物质。但是,它们的光谱范围有限,数量很多但种类不全[11]。
2.3 BML-NMRBML-NMR数据库(http://www.bml-nmr.org/)由伯明翰大学收集建立,虽然只包含203种天然活性物质,但是,每一种天然活性物质的结构都非常精确[12]。BMRB数据库(http://www.bmrb.wisc.edu/)由威斯康星大学建立并维护,该数据库更加注重蛋白质、多肽和核酸等常见生物大分子[13]。
上述几个基于核磁共振的数据库都必须借助专有软件才可以接入。如COLMAR是用来接入BMRB的[14]。这些工具只是用来接入相应数据库,接入后可以搜索到相应结果,如果要对结果进行分析还要进一步借助其他工具。
3 多参数数据库根据代谢组学标准的倡议[15],一种在最高置信度(MSI 1级)的化合物的识别,需要一个比较正交参数来衡量。在MSI 2级的化合物的识别,也就是对化合物的注释,最好由一个数据库单独完成。在MSI 3级的化合物的识别,也就是化合物种类的判定,最好是基于简单的光谱数据库即可完成。因此,通过对多种类型的色谱和光谱参数进行比较,如一个数值既可以放在二级质谱数据库,也可以放在核磁共振数据库中进行比较,这样可有效降低假阳性,提高正确率。这样的数据库称为多参数数据库。
NMRShiftDB[16]和SDBS[17]既可以进行单一的搜索也可以在多个光谱类型中进行查询。但是,这些数据库包含的光谱信息针对天然活性物质的较少,所以从这些数据库中搜索到的化合物通常不是天然活性物质,而更多的是合成化合物;HMDB含有很多光谱数据,还提供了一个查询接口,使用复杂的布尔逻辑组合即可以搜索到相关结果[18];MMCD包含一维或二维的核磁共振数据,大约包含800种次级代谢物[19];Spektraris数据库包含HPLC-MS和NMR数据库的内容,更加关注天然活性物质(目前已经有超过700种代谢物);MS2数据库既包含MS2的内容,同时也涵盖部分MS的内容,并且其数据还提交给MassBank。
4 不依赖光谱数据的数据库以上介绍的数据库,都是依靠自身获取的数据汇集而成的数据库,下面介绍几个依靠收集其他数据库信息而建成的数据库。
UNPD(http://pkuxxj.pku.edu.cn/UNPD/index.php)由北京大学建立,通过链接相关数据库的信息,可以查询到大于20万种的天然活性物质[20]。KEGG(http://www.genome.jp/kegg/)由Kanehisa实验室建立[21]和MetaCyc(http://metacyc.org/)由SRI国际公司支持建立[22]根据他人注释或序列比对,通过代谢途径以及代谢产物和代谢反应的关系推断出新的代谢物,虽然无法证实,但是这些产物可能真的存在。SuperNatural数据库(http://bioinformatics.charite.de/supernatural)由德国查理特大学医学院结构生物信息学小组建立并维护,其根据代谢物结构和作用机制的相似度等方面的信息,可以提供大于30万种代谢物的检索[23]。ChEBI(http://www.ebi.ac.uk/chebi/)由英国剑桥惠康基因组实验室建立并维护,是一个手工打造的化学和生物物质数据库。由于是手工打造的,它包含的代谢物记录比其他一些结构数据库少,但每个化合物的注释非常详细[24]。有些数据库被开发成专门检索物质的结构多样性。例如,AfroDB可提供下载1 000多种从非洲植物中提取的天然产物的结构信息[25]。此外,还有中国台湾的TCMD数据库包含了从中药分离出来的超过2万种代谢物的结构记录[26]。
5 数据记录的标准化和信息存储的集中化目前,虽然已建立许多关于天然活性物质的代谢组学数据库,但是这些数据库基本上都是各自为战,数据的记录标准各不相同,数据的存储也是各行其是。因此很多学者还是坚持所有的代谢组学数据库需要采用一个标准化的记录格式,同时建立一个统一的代谢组学数据库[27-30]。其中最关键的是为代谢物制定标准的化学结构标识符,同时整合资源形成统一的存储空间。但要将旧的数据库按照统一的标准做非常困难,因为旧的数据库所用的技术比较落后,获得的化合物丰度低、结构奇异、且很多不是天然活性物质。例如,NAPROC-13、ReSpect和Spektraris-NMR就是靠简单记录峰值数据,最后汇集而成的。上述数据库的建立过程虽然繁琐,但在统一的代谢数据库未建立之前,需要这些基础数据库的不断充实,且后续的发展趋势一定是数据记录的标准化和信息存储的集中化。
6 结论开放型的代谢组学数据库对研究天然活性物质的人员来说是非常有用的。但是,关于天然活性物质的数据库还是太少。因此,建议一个开放的和基于标准所建立的数据库应该允许不同资源之间的数据交换,从而提高准确性、覆盖范围和特殊功能。同时,数据库的建设也应该确保广泛的参与,应该让研究人员将获得的数据共享,从而实现共赢,节约成本,提高效率。
[1] | Harvey AL. Natural products in drug discovery. Drug Discov Today, 2008, 13 (19-20): 894–901. DOI:10.1016/j.drudis.2008.07.004 |
[2] | Cragg GM, Newman DJ. Natural products:a continuing source of novel drug leads. Biochim Biophys Acta, 2013, 1830 (6): 3670–3695. DOI:10.1016/j.bbagen.2013.02.008 |
[3] | Duffy B, Schouten A, Raaijmakers JM. Pathogen self-defense:mechanisms to counteract microbial antagonism. Annu Rev Phytopathol, 2003, 41 : 501–538. DOI:10.1146/annurev.phyto.41.052002.095606 |
[4] | Johnson SR, Lange BM. Open-access metabolomics databases for natural product research:present capabilities and future potential. Front Bioeng Biotechnol, 2015, 3 : 22. |
[5] | Zhang A, Sun H, Wang P, et al. Modern analytical techniques in metabolomics analysis. Analyst, 2012, 137 (2): 293–300. DOI:10.1039/C1AN15605E |
[6] | Hummel J, Strehmel N, Selbig J, et al. Decision tree supported substructure prediction of metabolites from GC-MS profiles. Metabolomics, 2010, 6 (2): 322–333. DOI:10.1007/s11306-010-0198-7 |
[7] | Benton HP, Wong DM, Trauger SA, Siuzdak G. XCMS2:processing tandem mass spectrometry data for metabolite identification and structural characterization. Anal Chem, 2008, 80 (16): 6382–6389. DOI:10.1021/ac800795f |
[8] | Horai H, Arita M, Kanaya S, et al. MassBank:a public repository for sharing mass spectral data for life sciences. J Mass Spectrom, 2010, 45 (7): 703–714. DOI:10.1002/jms.v45:7 |
[9] | Sawada Y, Nakabayashi R, Yamada Y, et al. RIKEN tandem mass spectral database (ReSpect) for phytochemicals:a plant-specific MS/MS-based data resource and database. Phytochemistry, 2012, 82 : 38–45. DOI:10.1016/j.phytochem.2012.07.007 |
[10] | López-Pérez JL, Therón R, delOlmo E, Díaz D. NAPROC-13:a database for the dereplication of natural product mixtures in bioassay-guided protocols. Bioinformatics, 2007, 23 (23): 3256–3257. DOI:10.1093/bioinformatics/btm516 |
[11] | Steinbeck C, Krause S, Kuhn S. NMRShiftDB-constructing a free chemical information system with open-source components. J Chem Inf Comput Sci, 2003, 43 (6): 1733–1739. DOI:10.1021/ci0341363 |
[12] | Ludwig C, Easton JM, Lodi A, et al. Birmingham metabolite library:a publicly accessible database of 1-D 1H and 2-D 1H J-resolved NMR spectra of authentic metabolite standards (BML-NMR). Metabolomics, 2012, 8 : 8–18. DOI:10.1007/s11306-011-0347-7 |
[13] | Ulrich EL, Akutsu H, Doreleijers JF, et al. BioMagResBank. Nucleic Acids Res, 2008, 36 : 402–408. |
[14] | Bingol K, Bruschweiler-Li L, Li DW, Brüschweiler R. Customized metabolomics database for the analysis of NMR 1H-1H TOCSY and 13C-1H HSQC-TOCSY spectra of complex mixtures. Anal Chem, 2014, 86 (11): 5494–5501. DOI:10.1021/ac500979g |
[15] | Sumner LW, Amberg A, Barrett D, et al. Proposed minimum reporting standards for chemical analysis Chemical Analysis Working Group (CAWG) Metabolomics Standards Initiative (MSI). Metabolomics, 2007, 3 (3): 211–221. DOI:10.1007/s11306-007-0082-2 |
[16] | Steinbeck C, Kuhn S. NMRShiftDB-compound identification and structure elucidation support through a free community-built web database. Phytochemistry, 2004, 65 (19): 2711–2717. DOI:10.1016/j.phytochem.2004.08.027 |
[17] | Yamamoto O, Someno K, Wasada N, et al. An integrated spectral data base system including IR, MS, 1H-NMR, 13CNMR, ESR and Raman spectra. Anal Sci, 1988, 4 : 233–239. DOI:10.2116/analsci.4.233 |
[18] | Wishart DS, Jewison T, Guo AC, et al. HMDB 3. 0-The Human Metabolome Database in 2013. Nucleic Acids Res, 2013, 41 : 801–807. DOI:10.1093/nar/gks1065 |
[19] | Cui Q, Lewis IA, Hegeman AD, et al. Metabolite identification via the Madison Metabolomics Consortium Database. Nat Biotechnol, 2008, 26 (2): 162–164. DOI:10.1038/nbt0208-162 |
[20] | Gu J, Gui Y, Chen L, et al. Use of natural products as chemical library for drug discovery and network pharmacology. PLoS One, 2013, 8 (4): e62839. DOI:10.1371/journal.pone.0062839 |
[21] | Kanehisa M, Goto S, Sato Y, et al. Data, information, knowledge and principle:back to metabolism in KEGG. Nucleic Acids Res, 2014, 42 : 199–205. DOI:10.1093/nar/gkt1076 |
[22] | Caspi R, Foerster H, Fulcher CA, et al. The MetaCyc Database of metabolic pathways and enzymes and the BioCyc collection of Pathway/Genome Databases. Nucleic Acids Res, 2008, 36 (Database issue): 623–631. |
[23] | Banerjee P, Erehman J, Gohlke BO, et al. Super Natural II-a database of natural products. Nucleic Acids Res, 2015, 43 (Database issue): 935–939. |
[24] | Hastings J, de Matos P, et al. The ChEBI reference database and ontology for biologically relevant chemistry:enhancements for 2013. Nucleic Acids Res, 2013, 41 : 456–563. DOI:10.1093/nar/gks1146 |
[25] | Ntie-Kang F, Zofou D, Babiaka SB, et al. AfroDb:a select highly potent and diverse natural product library from African medicinal plants. PLoS One, 2013, 8 (10): e78085. DOI:10.1371/journal.pone.0078085 |
[26] | Chen CY. TCM Database@Taiwan:the world' s largest traditional Chinese medicine database for drug screening in silico. PLoS One, 2011, 6 (1): e15939. DOI:10.1371/journal.pone.0015939 |
[27] | Kind T, Scholz M, Fiehn O. How large is the metabolome? A critical analysis of data exchange practices in chemistry. PLoS One, 2009, 4 (5): e5440. DOI:10.1371/journal.pone.0005440 |
[28] | Griffin JL, Steinbeck C. So what have data standards ever done for us? The view from metabolomics. Genome Med, 2010, 3 : 1–3. DOI:10.1186/1755-8794-3-1 |
[29] | Kim HK, Choi YH, Verpoorte R. NMR-based plant metabolomics:where do we stand, where do we go?. Trends Biotechnol, 2011, 29 (6): 267–275. DOI:10.1016/j.tibtech.2011.02.001 |
[30] | Goeddel LC, Patti GJ. Maximizing the value of metabolomic data. Bioanalysis, 2012, 4 (18): 2199–2201. DOI:10.4155/bio.12.210 |