药学学报  2015, Vol. 50 Issue (3): 272-277   PDF    
运用基于高通量测序和大数据挖掘的元基因组学方法分析中药制剂的物种成分
白虹1, 宁康2 , 王长云1    
1. 中国海洋大学医药学院, 海洋药物教育部重点实验室, 山东 青岛 266003;
2. 中国科学院青岛生物能源与过程研究所, 单细胞研究中心生物信息学团队, 山东省能源生物遗传资源重点实验室, 中国科学院生物燃料重点实验室, 山东 青岛 266101
摘要:中药制剂质量评价以化学成分分析为主, 而物种成分分析近年来引起了中医药界的极大关注, 特别是对于丸剂类中药制剂的质量评价更为重要。建立中药制剂物种成分的快速、准确、系统的分析方法, 是实现中药现代化、产业化和国际化的关键之一。中药制剂物种成分分析的实质是对包含多个生物物种的混合体系 (混合生物样本) 的物种鉴定。基于高通量测序和大数据挖掘技术的元基因组学方法是目前认识、分析生物混合体系结构和功能最有效、最重要的方法之一。利用元基因组学方法将有助于建立中药制剂的物种评价方法。通过选择合适的DNA分子标记, 可对配伍处方药材物种进行鉴别, 同时通过大规模数据分析和挖掘鉴别制剂中的混伪品、有毒动植物或受保护动植物的成分, 以及在生产过程引入的生物杂质, 从而为中药制剂的有效性、安全性和合法性提供评价依据。
关键词中药     物种成分     元基因组学     高通量测序     大数据挖掘    
Biological ingredient analysis of traditional Chinese medicines utilizing metagenomic approach based on high-throughput-sequencing and big-data-mining
BAI Hong1, NING Kang2 , WANG Chang-yun1    
1. Key Laboratory of Marine Drugs, the Ministry of Education of China, School of Medicine and Pharmacy, Ocean University of China, Qingdao 266003, China;
2. Shandong Key Laboratory of Energy Genetics, CAS Key Laboratory of Biofuels and BioEnergy Genome Center, Computational Biology Group of Single Cell Center, Qingdao Institute of Bioenergy and Bioprocess Technology, Chinese Academy of Sciences, Qingdao 266101, China
Abstract: The quality of traditional Chinese medicines (TCMs) has been mainly evaluated based on chemical ingredients, yet recently more attentions have been paid on biological ingredients, especially for pill-based preparations. It is a key approach to establish a fast, accurate and systematic method of biological ingredient analysis for realization of modernization, industrialization and internationalization of TCMs. The biological ingredient analysis of TCM preparations could be abstracted as the identification of multiple species from a biological mixture. The metagenomic approach based on high-throughput-sequencing (HTS) and big-data-mining has been considered as one of the most effective methods for multiple species analysis of a biological mixture, which would also be helpful for the analysis of biological ingredients in TCMs. Simultaneous identification of diverse species, including the prescribed species, adulterants, toxic species, protected species and even the biological impurities introduced through production process, could be achieved by selecting appropriate DNA biomarkers, as well as applying large-scale sequence comparison and data mining. By this approach, it is prospective to offer an evaluation basis for the effectiveness, safety and legality of TCM preparations.
Key words: traditional Chinese medicine     biological ingredient     metagenomics     high-throughput-sequencing     big-data-mining    

广义的中药包括中药材、中药饮片、中药提取物和中药制剂。自20世纪90年代中期以来,我国中药材、中药提取物等中药产品的出口呈现出逐年上升 的态势,而其中中药制剂出口额却在低位徘徊[1,2]。制约中药制剂走向国际化的主要原因之一在于其质量评价体系不完善,难以标准化。

中药制剂是在中医药理论指导下,按照“君臣佐使”的组方原则,选择适宜的药味和剂量,采用合理的制剂工艺制成随时可以取用的现成药品,如各种丸剂、散剂和冲剂等。中药制剂往往含有多种动植物成分,其药效是多种药味整体作用的体现,是多种成分、多种机制综合作用的结果。中药制剂质量评价内容主要分为化学成分分析和物种成分分析。目前,对于中药制剂化学成分的分析方法研究较多,而对于其物种成分的分析方法研究较少。化学成分分析一般通过TLC定性分析和HPLC定量分析,而物种成分分析则一般通过显微鉴别和TLC鉴别进行定性分析。上述方法的局限性在于难以区分形态相似的近缘种及含有相同主要化学成分的物种,且不能检测制剂中的未知杂质物种成分。近年来,对中药制剂物种成分的鉴定引起了国内外极大关注,特别是对于药材粉碎后直接入药的丸剂、散剂类中药制剂的质量评价尤为重要。由于中药材采收或加工过程中的生物污染、错误鉴别、使用伪品、掺假等,都可能影响中药制剂的质量,甚至产生潜在的危害。因此,建立科学、合理、可操作性强的中药制剂物种成分分析方法是实现中药现代化、产业化和国际化的关键之一。

中药制剂物种成分分析的实质是对包含多个生物物种的混合体系 (混合生物样本) 的物种鉴定。基于高通量测序和大数据挖掘技术的元基因组学方法是目前认识、分析生物混合体系结构和功能最有效、最重要的方法之一。通过对高通量测序数据进行深度的数据挖掘,能够对样品中的生物组成进行定性和定量分析,有助于建立快速、准确、系统的中药制剂物种成分分析方法。

1 基于高通量测序和大数据挖掘的元基因组学研究进展

生命科学的深入研究与生物技术的发展对DNA 测序技术提出了新的要求。在传统Sanger测序技术基础上发展起来的新一代测序技术 (next-generation sequencing) 以其高通量、低成本的优势在许多领域得到了广泛应用。其突出特征是,单次运行产出的 序列数据量大,故而又称为高通量测序技术 (high- throughput sequencing)。随着测序技术的提高和基因组学的发展,对单一物种DNA序列的测定已经不能满足学科的发展,人们提出了一种新的研究思路,即元基因组学 (也称宏基因组学,metagenomics) 研究策略[3,4,5]。元基因组学在首次提出时,其研究对象为微生物群落,即对环境样品中微生物群体基因组进行测序,从而获取所需功能基因的序列、微生物多样性及其与环境之间的关系。元基因组学方法主要包括相对独立却又紧密互补的两种手段: 经扩增的进化标记序列的测定和全基因组的解析,前者采用特异性引物进行系统发育标记分子 (如16S rRNA等生物标记) 的扩增,并通过测序来识别生物群落的物种组分并定量其相对丰度; 后者则测定体系中所有的DNA序列,理论上能够提供包括进化标记在内的所有基因组信息。因此,元基因组学方法能够客观、全面、快速地分析生物混合体系的结构和功能。这种研究思路已逐步渗透到多个研究领域,包括土壤、海洋、人体口腔及胃肠道等生物群落的研究[6,7,8,9,10] (图 1)。

图1 元基因组学研究的应用范围

元基因组学方法的基础是高通量测序和大数据挖掘。高通量测序为元基因组学研究提供了海量数 据,而要充分挖掘蕴藏于海量数据中的规律,大数据驱动的研究策略必不可少[11]。大数据挖掘具有三大 特点 (3V): 数据量大 (volume of data)、处理数据的速度快 (velocity of processing the data) 和数据源多变 (variability of data sources)[12]。具体到元基因组研究而言,大数据研究的3V特点体现在: ① 研究对象具有数据量大的特点。通常情况下,一次微生物群落 元基因组测序会涉及到数百个微生物物种,相关的高通量测序数据量产出十分巨大。如,口腔菌群等简单微生物群落,通常包括100个左右物种,相关的生物标记测序数据量在100 MB左右,而全基因组测序数据量则超过100 GB; 土壤菌群等复杂微生物群落,相应的生物标记和全基因组测序数据量则分别超过1 GB和1 TB。② 对数据处理的准确性和速度要求高。如,对于微生物生态环境监控等研究[13,14],需要基于监测结果进行条件控制,从而具有较高的时效性要求; 对于能源微生物资源筛选和合成生物学研究[15],则对功能模块的鉴别效率和准确性要求均较高。③ 数据来源多变且具有较大的异质性。元基因组研究数据的样本来源多样和采样方式各异的特点,导致了数据来源的较大异质性。同时GreenGenes等生物标记数据库[16] (数据库大于10 GB) 和NCBI系列等通用数据库[17] (数据库大于1 TB) 中的参考序列也具有一定的异质性。源数据和数据库数据的异 质性,会导致数据缺失和矛盾等问题,成为生物混合体研究的瓶颈。可见,由于微生物群落等混合生物样品组成复杂,数据比对和挖掘过程也较复杂,因此元基因组学研究获得的数据具有典型的大数据特点,需要智能化的算法才能够深入挖掘数据之间的相关性[11, 18]

2 元基因组学方法应用于中药制剂物种成分分析

元基因组学方法不但是研究微生物群落的利器,也是研究其他混合生物样品的重要手段。元基因组学方法应用于中药制剂物种成分的系统性分析,是近年发展起来的中药物种鉴定的新手段。2012年,澳大利亚学者将元基因学研究思路首次应用到非微生物群落的中药制剂物种成分的分析中,以叶绿体trnL基因和核糖体16S rRNA基因作为分子标记,应用高通量测序技术对15种进口中药制剂进行了测序和分

析,较全面、完整地检测出每种制剂所包含的动植物种类[19]。2014年,本课题组运用基于高通量测序和大数据挖掘的元基因组学研究策略,对我国传统中药制剂六味地黄丸的物种成分进行了系统性分析,鉴别出了处方物种和非处方物种,在此基础上对不同厂家制剂产品的一致性进行了比较分析[20]

2.1 元基因组学方法应用于中药制剂物种成分分析的技术基础

随着系统生物学的应用,基因组学、蛋白质组学和代谢组学等分子生物学技术开始应用到中药研究领域,尤其是基因组学方法的引入给中药物种鉴定带来了新的思路。元基因组学方法应用于中药制剂 物种成分分析,其本质为基于DNA分子标记的物种鉴别。同一物种的基因组信息是唯一且稳定的,不会随着时间、外形、外界环境的变化而变化,只需极少量的样品就可以获得完整的基因信息,从而对其进行物种鉴定。基于DNA分子标记的物种鉴定技术是利用基因组中一段公认的、通用的标准短序列来进行物种鉴定的分子诊断技术[21]。DNA分子标记具有以下优点: ① 生物体各个发育阶段的组织块都可用于鉴定,而不需要传统分类学要求的“典型标本”; ② 不受生态环境引起的形态差异影响; ③ 不依赖分类学专家对专科专属长期积累的形态分类实践经验; ④ DNA序列能提供明确的信息,易于数字化和构建数据库。近年来,基于DNA分子标记的鉴定方法在单味中药材基源鉴别和真伪鉴别的研究中已日臻成熟[22,23,24],各类药用动植物的基因序列数据也在不断完善[25, 26]。上述技术的发展和数据库的完善为物种的快速鉴定提供了分子水平的精细分类学标准,使物种的准确、快速鉴定成为可能,也为中药制剂物种成分分析奠定了方法学基础。

2.2 元基因组学方法应用于中药制剂物种成分分析的基本步骤

基于高通量测序和大数据挖掘的元基因组学方法适合于药材粉碎后直接入药的丸剂、散剂等中药 制剂物种成分的分析。由于所有物种的分析和测定在一次试验中即可完成,因此制剂中所含的中药材种类越多,该方法的优越性越明显,其基本步骤 (图 2) 分述如下。

2.2.1 基因组提取

中药制剂的原料多为饮片,由于炮制方法的不同可能会造成药材DNA或多或少的降解,且制剂中一般会含有辅料,可能影响DNA的提取结果。因此,根据不同中药制剂的特性,选择合适的DNA提取方法,获得高质量的基因组是下一步物种成分分析的首要环节。前期作者以六味地黄丸 为研究对象,对3种不同DNA提取试剂盒法和改良CTAB法进行了比较,发现改良CTAB法的提取效率高于其他3种试剂盒法,原因可能由于改良CTAB法可根据研究对象的特性改变提取条件,从而获得高质量的基因组[27]。这一方法适用于六味地黄丸,理论上也应适用于其他中药制剂。改良CTAB法中每个步骤可以根据需要进行适当调整,当对某些中药制剂的DNA提取效果不佳时,可根据其制剂所含的物种成分及制剂特点改变提取条件,例如,可通过增加裂解时间或改变裂解液的组成提高DNA的提取率,或通过增加有机溶剂萃取次数提高DNA的纯度等。

图2 元基因组学方法应用于中药制剂物种成分分析的基本步骤
2.2.2 分子标记片段的选择及PCR扩增

选择适当的分子标记是基于DNA分子标记进行物种鉴定的关键。理想的分子标记应符合以下几个标准: 在种间有明显的遗传变异和分化,同时种内变异足够小; 片段长度适中,以保证能顺利得到PCR (polymerase chain reaction,聚合酶链式反应) 扩增产物,且一个反应就能完成测序工作; 存在保守区域,便于设计通用引物。目前,线粒体COI基因中约650 bp长的一段序列已成功运用在动物物种的鉴定上,但是在植物中还没有一个可接受的通用分子标记。国内外学者对植物鉴定通用DNA分子标记进行了探索,尝试从叶绿体和核基因组中找到合适的基因片段[28, 29]。近年来,研究表明,内转录间隔区ITS2[26, 30]和叶绿体trnL[19, 31]是适合植物鉴定的分子标记。ITS2序列变异较大,并具备二级结构,可为鉴别物种提供独特的分子特征,具有较高的鉴定效率。此外,trnL的DNA序列相对较短,对于长期贮藏和DNA已部分降解的样品而言,trnL表现出较高的PCR扩增 和测序效率,但分辨率较低。针对药用动植物,陈士林等[32]首次提出将ITS2序列作为药用植物鉴定的通用分子标记,并建立了以ITS2为核心、psbA-trnH为补充序列的植物类药材DNA 分子标记鉴定体系和以COI序列为核心、ITS2 为辅助序列的动物类药材DNA分子标记鉴定体系。本课题组选择ITS2和trnL作为分子标记,对六味地黄丸进行物种成分分析,结果表明,ITS2具有较高的鉴别效率。现有这些研究对中药制剂基于DNA分子标记的物种鉴定无疑具有参考价值。

2.2.3 高通量测序

目前主流的高通量测序技术包括454测序和Solexa测序技术等。454测序序列一般读长较长 (700 bp左右)、序列数较少 (1 000 000左右),适合于大片段序列或重复序列的分析; 而Solexa测序序列一般读长较短 (150 bp左右)、序列数较多 (1 000 000 000左右),适合于多变序列的分析。这两种主流方法均适合于中药制剂中物种成分的DNA测序。

2.2.4 生物信息学数据分析

在针对混合生物样品高通量测序数据的整理与挖掘方面,目前的元基因组学分析方法 (表 1) 具有准确、高效等特点,并有助于相关知识的挖掘,适用于针对中药制剂物种成分研究的大数据分析。高通量测序技术为中药制剂物种鉴定和分析提供数据基础。一般来说,一个中药制剂样本包括多种来源的动植物成分,相关的生物标记测序数据量在100 MB左右,而全基因组测序数据量远超1 GB。针对来源于多样本的GB级数据,可通过序列比对、聚类和相关性分析,进行系统的物种鉴定和分析。

由于中药制剂样本中含有多个物种 (生物混合体系),针对单物种鉴定的方法 (Blast序列搜索法[34]、距离法[42]、建树法[43]等) 不完全适用于中药制剂中物种成分的鉴定。如Blast序列搜索法一次可以分析某一物种,但是对于生物混合体系成分的鉴定效率较低,且整体分析错误率较高。目前,生物混合体系物 种鉴定和比较方法日渐成熟。例如,Phyloshop[44]和Parallel-Meta[36]是基于物种间序列进化关系的生物混合体系物种组成分析方法; MEGAN[37]和STAMP[45]是直接基于物种分类学的生物混合体系物种组成分析方法; UniFrac[39]、Fast UniFrac[38]和Meta-Storms[41]是多个样本基于进化层面的物种组成比较分析方法。本课题组前期在针对六味地黄丸的研究中,利用了NCBI等数据库中所有已知ITS2和trnL序列建立了小型数据库,并基于此数据库利用Parallel-Meta等方法搜索、鉴定六味地黄丸中的物种成分,利用Meta-Storms等方法对不同样本的物种进行了比较[20],成功地对处方物种和非处方物种进行了鉴定。当前生物信息学数据分析方法的快速发展,对基于DNA分子标记的中药制剂物种成分分析具有推动作用。

1 利用元基因组学方法分析中药制剂物种成分涉及的大数据分析方法
3 展望

利用元基因组学方法分析中药制剂的物种成分显示了多方面的优点: ① 对生物混合体系具有强大的分析能力,可同时检测处方物种、混伪品、有毒动植物或受保护动植物的成分,以及在生产过程中引入的生物杂质,从而保证中药制剂的有效性、安全性和合法性。② 对于物种的鉴别从理论上来说具有唯一性。例如,药厂生产所用中药材的基原物种可能包括多个来源,不同的基原物种通过传统鉴别方法很难将其从制剂中区分开来,但从基因角度进行分析则能准确将其界定。③ 将中药制剂物种成分质量评价数字化。数字化的评价体系有助于建立数据库,从而提高中药制剂物种成分的信息化管理和标准化监控,提高中药制剂现代化水平。

基于元基因组学的中药制剂物种成分分析方法目前尚在探索和发展过程中,受中药基因组数据库完善程度的影响,某些中药物种目前还无法鉴别,或只能鉴别到属以上的水平。受DNA提取方法的限制,对于中药制剂中包含的炮制药材或由于长期储存而造成DNA降解的药材不能完全或准确地进行鉴定,对于主要由中药提取物或矿物药组成的中药制剂本方法也不适用。此外,由于测序成本的原因,元基因组学方法应用于中药制剂物种成分分析主要是基于分子标记的物种鉴定。基于分子标记的物种鉴定技术是传统物种鉴定的强有力补充,目前该技术多应用于单味药材,在中药材真伪鉴别、多基源品种的鉴别中表现出极高的准确率和重现性。在单味药材基于分子标记的物种鉴定基础上,将基于高通量测序和大数据挖掘的元基因组学方法用于中药制剂的物种成分分析,具有广阔的发展前景。随着高通量测序技术和相关大数据挖掘方法的日趋成熟,基于全基因组测序的中药制剂物种成分分析将成为可能,这意味着相关物种的功能基因也将被解析,有助于在系统生物学层面阐释中药制剂辨证论治的整体观。可以预见,基于高通量测序和大数据挖掘的元基因组学方法,对大数据驱动的标准化中药制剂质量评价体系的构建,将起到重要的支撑作用。

参考文献
[1] Dann SG, Selvaraj A, Thomas G, et al. mTOR complex1- S6K1 signaling: at the crossroads of obesity, diabetes and cancer [J]. Trends Mol Med, 2007, 13: 252-259.
[2] Sutherland SIM, Pe Benito R, Henshall SM, et al. Expression of phosphorylated-mTOR during the development of prostate cancer [J]. Prostate, 2014, 74: 1231-1239.
[3] Matsuoka T, Yashiro M. The role of PI3K/Akt/mTOR signaling in gastric carcinoma [J]. Cancers, 2014, 6: 1441- 1463.
[4] Zoncu R, Efeyan A, Sabatini DM, et al. mTOR: from growth signal integration to cancer, diabetes and ageing [J]. Nat Rev Mol Cell Biol, 2011, 12: 21-35.
[5] Vega F, Medeiros LJ, Leventaki V, et al. Activation of mammalian target of rapamycin signaling pathway contributes to tumor cell survival in anaplastic lymphoma kinase-positive anaplastic large cell lymphoma [J]. Cancer Res, 2006, 66: 6589-6597.
[6] Riemenschneider MJ, Betensky RA, Pasedag SM, et al. AKT activation in human glioblastomas enhances proliferation via TSC2 and S6 kinase signaling [J]. Cancer Res, 2006, 66: 5618-5623.
[7] Yu ZB, Luo Y. Import and export analysis of traditional Chinese medicine in 2012 [J]. Mod Chin Med (中国现代中药), 2013: 143-146.
[8] Yu ZB. Import and export analysis of traditional Chinese medicine in 2013 [J]. Mod Chin Med (中国现代中药), 2014, 16: 151-154.
[9] Handelsman J, Rondon MR, Brady SF, et al. Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products [J]. Chem Biol, 1998, 5: R245-R249.
[10] Handelsman J. Metagenomics: application of genomics to uncultured microorganisms [J]. Microbiol Mol Biol Rev, 2004, 68: 669-685.
[11] Hugenholtz P, Tyson GW. Microbiology: metagenomics [J]. Nature, 2008, 455: 481-483.
[12] Tringe SG, Von Mering C, Kobayashi A, et al. Comparative metagenomics of microbial communities [J]. Science, 2005, 308: 554-557.
[13] Venter JC, Remington K, Heidelberg JF, et al. Environmental genome shotgun sequencing of the Sargasso Sea [J]. Science, 2004, 304: 66-74.
[14] Yang F, Zeng X, Ning K, et al. Saliva microbiomes distinguish caries-active from healthy human populations [J]. ISME J, 2011, 6: 1-10.
[15] Gill SR, Pop M, DeBoy RT, et al. Metagenomic analysis of the human distal gut microbiome [J]. Science, 2006, 312: 1355-1359.
[16] Qin J, Li Y, Cai Z, et al. A metagenome-wide association study of gut microbiota in type 2 diabetes [J]. Nature, 2012, 490: 55-60.
[17] Hunter CI, Mitchell A, Jones P, et al. Metagenomic analysis: the challenge of the data bonanza [J]. Brief Bioinform, 2012, 13: 743-746.
[18] May M. Life science technologies: big biological impacts from big data [J]. Science, 2014, 344: 1298-1300.
[19] Hazen TC, Rocha AM, Techtmann SM. Advances in monitoring environmental microbes [J]. Curr Opin Biotechnol, 2013, 24: 526-533.
[20] Wang J, McLenachan PA, Biggs PJ, et al. Environmental bio-monitoring with high-throughput sequencing [J]. Brief Bioinform, 2013, 14: 575-588.
[21] Sommer MO, Church GM, Dantas G. A functional metagenomic approach for expanding the synthetic biology toolbox for biomass conversion [J]. Mol Syst Biol, 2010, 6: 360.
[22] DeSantis TZ, Hugenholtz P, Larsen N, et al. Greengenes, a chimera-checked 16S rRNA gene database and workbench compatible with ARB [J]. Appl Environ Microbiol, 2006, 72: 5069-5072.
[23] http://www.ncbi.nlm.nih.gov/nuccore/.
[24] Teeling H, Glockner FO. Current opportunities and challenges in microbial metagenome analysis - a bioinformatic perspective [J]. Brief Bioinform, 2012, 13: 728-742.
[25] Coghlan ML, Haile J, Houston J, et al. Deep sequencing of plant and animal DNA contained within traditional Chinese medicines reveals legality issues and health safety concerns [J]. PLoS Genet, 2012, 8: e1002657.
[26] Cheng X, Su X, Chen X, et al. Biological ingredient analysis of traditional Chinese medicine preparation based on high-throughput sequencing: the story for Liuwei Dihuang Wan [J]. Sci Rep, 2014, 4: 5147.
[27] Hebert PD, Cywinska A, Ball SL. Biological identifications through DNA barcodes [J]. Proc Biol Sci, 2003, 270: 313-321.
[28] Han JP, Li MN, Luo K, et al. Identification of Daturae Flos and its adulterants based on DNA barcoding technique [J]. Acta Pharm Sin (药学学报), 2011, 46: 1408-1412.
[29] Ji SG, Pan SL, Wang J, et al. Phylogeny relationship and molecular identification of ten Huperzia species (Huperziaceae) based on marK gene sequences [J]. China J Chin Mater Med (中国中药杂志), 2007, 32: 1971-1975.
[30] Che J, Tang L, Liu YJ, et al. Molecular identity of Crocus sativus and its misused substitutes by ITS sequence [J]. China J Chin Mater Med (中国中药杂志), 2007, 32: 668-671.
[31] Lou SK, Wong KL, Li M, et al. An integrated web medicinal materials DNA database: MMDBD (Medicinal Materials DNA Barcode Database) [J]. BMC Genomics, 2010, 11: 402.
[32] Chen SL, Yao H, Han JP, et al. Validation of the ITS2 region as a novel DNA barcode for identifying medicinal plant species [J]. PLoS One, 2010, 5: e8613.
[33] Cheng X, Chen X, Su X, et al. DNA extraction protocol for biological ingredient analysis of Liuwei Dihuang Wan [J]. Genomics Proteomics Bioinformatics, 2014, 12: 137-143.
[34] Chase MW, Salamin N, Wilkinson M, et al. Land plants and DNA barcodes: short-term and long-term goals [J]. Philos Trans R Soc Lond Biol Sci, 2005, 360: 1889-1895.
[35] Ning SP, Yan HF, Hao G, et al. Current advances of DNA barcoding study in plants [J]. Biodiv Sci (生物多样性), 2008, 16: 417-425.
[36] Pang X, Song J, Zhu Y, et al. Applying plant DNA barcodes for Rosaceae species identification [J]. Cladistics, 2010, 27: 165-170.
[37] Taberlet P, Coissac E, Pompanon F, et al. Power and limitations of the chloroplast trnL (UAA) intron for plant DNA barcoding [J]. Nucleic Acids Res, 2007, 35: e14.
[38] Chen SL, Pang XH, Yao H, et al. Identification system and perspective for DNA barcoding Traditional Chinese Materia Medica [J]. World Sci Technol/Mod Tradit Chin Med Mater Med (世界科学技术: 中医药现代化), 2012, 13: 747-754.
[39] Zhou Q, Su X, Jing G, et al. Meta-QC-Chain: comprehensive and fast quality control method for metagenomic data [J]. Genomics Proteomics Bioinformatics, 2014, 12: 52-56.
[40] Altschul SF, Gish W, Miller W, et al. Basic local alignment search tool [J]. J Mol Biol, 1990, 215: 403-410.
[41] Su X, Pan W, Song B, et al. Parallel-META 2.0: enhanced metagenomic data analysis with functional annotation, high performance computing and advanced visualization [J]. PLoS One, 2014, 9: e89323.
[42] Su X, Xu J, Ning K. Parallel-META: efficient metagenomic data analysis based on high-performance computation [J]. BMC Syst Biol, 2012, 6: S16.
[43] Huson DH, Auch AF, Qi J, et al. MEGAN analysis of metagenomic data [J]. Genome Res, 2007, 17: 377-386.
[44] Hamady M, Lozupone C, Knight R. Fast UniFrac: facilitating high-throughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data [J]. ISME J, 2010, 4: 17-27.
[45] Lozupone C, Knight R. UniFrac: a new phylogenetic method for comparing microbial communities [J]. Appl Environ Microbiol, 2005, 71: 8228-8235.
[46] Su X, Wang X, Jing G, et al. GPU-Meta-Storms: computing the structure similarities among massive amount of microbial community samples using GPU [J]. Bioinformatics, 2014, 30: 1031-1033.
[47] Su X, Xu J, Ning K. Meta-Storms: efficient search for similar microbial communities based on a novel indexing scheme and similarity score for metagenomic data [J]. Bioinformatics, 2012, 28: 2493-2501.
[48] Ross HA, Murugan S, Li WLS. Testing the reliability of genetic methods of species identification via simulation [J]. Syst Biol, 2008, 57: 216-230.
[49] Guindon S, Dufayard JF, Lefort V, et al. New algorithms and methods to estimate maximum-likelihood phylogenies: assessing the performance of PhyML 3.0 [J]. Syst Biol, 2010, 59: 307-321.
[50] Shah N, Tang H, Doak TG, et al. Comparing bacterial commu­nities inferred from 16S rRNA gene sequencing and shotgun metagenomics [J]. Pac Symp Biocomput, 2011: 165-176.
[51] Parks DH, Beiko RG. Identifying biologically relevant differences between metagenomic communities [J]. Bioinfor­matics, 2010, 26: 715-721.