基于化学信息学方法预测药物靶点的研究进展

引用本文

FANG Jian-song, LIU Ai-lin, DU Guan-hua, et al. Research advance in the drug target prediction based on chemoinformatics[J]. Acta Pharm Sin (药学学报), 2014, 49(10): 1357-1364.

方坚松, 刘艾林, 杜冠华. 基于化学信息学方法预测药物靶点的研究进展[J]. 药学学报, 2014, 49(10): 1357-1364. 复制到剪切板

基于化学信息学方法预测药物靶点的研究进展

方坚松¹, 刘艾林^1,2,3 , 杜冠华^1,2,3

1. 中国医学科学院、北京协和医学院药物研究所, 北京 100050;
2. "药物靶点研究与新药筛选"北京市重点实验室, 北京 100050;
3. "天然药物活性物质与功能"国家重点实验室, 北京 100050

收稿日期: 2014-4-14;修回日期: 2014-5-26.

基金项目：重大新药创制项目（2014ZX09507003-002）；卫生行业科研专项（200802041）；国际合作项目（2011DFR31240）

* 通讯作者：liuailin@imm.ac.cn;dugh@imm.ac.cn

摘要：网络药理学与多向药理学等新兴学科的出现迫使科学家们重新认识与探索已有药物新的作用机制。药物靶点的预测对阐释药物分子作用机制和老药新用等领域都具有重大意义。本文结合近年来国内外多个课题组的研究成果，主要综述了当前几种基于化学信息学方法预测小分子潜在靶点的方法，包括基于配体结构特征的预测方法、基于蛋白结构特征的预测方法以及基于数据挖掘技术的预测方法，通过应用实例，说明这些方法的优势，并提出今后的发展方向。

关键词：化学信息学靶点预测数据挖掘相似性搜索

Research advance in the drug target prediction based on chemoinformatics

FANG Jian-song¹, LIU Ai-lin^1,2,3 , DU Guan-hua^1,2,3

1. Institute of Materia Medica, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100050, China;
2. Beijing Key Laboratory of Drug Target and Screening Research, Beijing 100050, China;
3. State Key Laboratory of Bioactive Substance and Function of Natural Medicines, Beijing 100050, China

Abstract: The emerging of network pharmacology and polypharmacology forces the scientists to recognize and explore new mechanisms of existing drugs. The drug target prediction can play a key significance on the elucidation of the molecular mechanism of drugs and drug reposition. In this paper, we systematically review the existing approaches to the prediction of biological targets of small molecule based on chemoinformatics, including ligand-based prediction, receptor-based prediction and data mining-based prediction. We also depict the strength of these methods as well as their applications, and put forward their developing direction.

Key words: chemoinformatics target prediction data mining similarity search

进入后基因组时代,伴随着化学基因组以及药理学技术的飞速发展涌现了数量庞大的潜在靶点和海量的生物活性数据,然而随着冗余数据的积累,仅凭简单的分析方法已经不能满足高通量大规模数据分析的需求^[1]。化学信息学的快速发展恰好满足了化学基因组学急需解决的大数据处理和信息提取任务要求。化学信息学主要研究如何适当地选取化合物库的多样性、如何表征药物分子特征、如何度量不同分子间的差异性、如何识别类药分子、分子结构和生物性能关系、如何研发相应的计算机软硬件等,这就包括了化学计量学及计算化学的研究任务和内容^[2]。化学信息学方法在后基因组时代的一个重要应用就是根据已有的各种生物和化学信息来预测小分子化合物的潜在作用靶点,以及阐释其作用机制,加速药物的研发进程。药物靶点的预测对于早期药物分子的成药性评价和老药新用等领域都具有重大意义,但由于通量、精度和费用的限制,实验手段的应用难以广泛开展。作为一类快速而低成本的方法,计算机辅助靶点预测算法的开发正受到越来越多的重视。本文结合国内外多个课题组的研究成果,综述各种常见的药物靶点预测理论方法及资源,并介绍了化学信息学方法在药物靶标预测方面的成功应用。

根据研究策略的不同,可将基于化学信息学的药物靶点预测分为3类: 基于配体特征的预测、基于蛋白结构特征的预测、基于数据挖掘方法的预测^[3,4]。对于每种研究策略,作者将结合靶点预测的方法原理与国内外研究成果进行较为详细的介绍 (表 1)。

表 1 常见的免费药物靶点在线预测工具

名称	方法	网址
Similarity ensemble approach (SEArch)	Fingerprint-based	http://sea.bkslab.org/search/
SuperPred	Fingerprint-based	http://prediction.charite.de/
PASS INet	Fingerprint-based	http://www.pharmaexpert.ru/PASSOnline/
Binding DB	Fingerprint-based	http://www.bindingdb.org/bind/index.jsp
PubChem	Fingerprint-based	http://pubchem.ncbi.nlm.nih.gov/
ChemBank	Fingerprint-based	http://chembank.broadinstitute.org/
Query Chem	Fingerprint-based	http://llama.mshri.on.ca/~jklekota/QueryChem.html
ChemIDPlus	Fingerprint-based	http://chem.sis.nlm.nih.gov/chemidplus/
KEGG Ligand Database	Fingerprint-based	http://www.genome.jp/kegg/ligand.html
ChemMapper	3D-similarity	http://lilab.ecust.edu.cn/chemmapper/
ReverseScreen--3D	Hybrid 2D/3D	http://www.modelling.leeds.ac.uk/ReverseScreen3D
PharmMapper	Pharmacophore-based	http://59.78.96.61/pharmmapper
DRAR-CPI	Docking-based	http://cpi.bio-x.cn/drar
TarFisDock	Docking-based	http://www.dddc.ac.cn/tarfisdock
IDTarget	Docking-based	http://idtarget.rcas.sinica.edu.tw/index.php
CPI-Predictor	Data mining-based	http://www.lmmd.org/online_services/cpi_predictor/predict/

表 1 常见的免费药物靶点在线预测工具

1 基于配体结构特征的药物靶点预测

基于配体结构特征的药物靶点预测主要包括化学相似性搜索以及反向药效团搜索。化学相似性搜索的理论依据是结构或物理化学性质相似的小分子化合物可作用于性质相同或相近的靶点^[5]。因此,可通过比较查询分子与已知靶点活性分子的结构或物理化学性质来预测查询分子的潜在作用靶点。反向药效团搜索是指通过预先构建好含有多个药效团模型的药效团数据库,再用单个查询分子去反向匹配,最终寻找与查询结构匹配较好的靶点。 1.1 化学相似性搜索

最常见的化学相似性检索有二维结构相似性检索和三维分子相似性方法。二维结构相似性检索主要是采用基于分子指纹方法生成的二维拓扑描述符,如MDL PublicKeys、SciTegic ECFP (extended connectivity fingerprints) 等,然后通过计算相似度如Tanimoto系数来比较两个分子之间的相似性^[6]。

Keiser等^[7]通过将65 000个配体分子与数百个药物靶点进行关联,进而使用配体拓扑学计算每个药物靶点集合的相似性打分值,并使用统计学模型对相似性分值的重要性进行排序。最终发现了一些已有的药物可靶向新的靶点,如麻醉药美沙酮可作用于新的靶点毒蕈碱M3受体,麻醉和止泻药洛哌丁胺可靶向神经激肽NK2受体。SEArch正是该课题组基于此理论基础进一步发展起来的一个基于二维分子指纹描述符 (Scitegic ECFP4) 的在线靶点预测工具。该工具可通过输入查询分子的smiles格式,选择检索ChEMBL、MDL Drug Data Report等不同的活性数据库,最终预测查询分子的潜在靶点。

SuperPred^[8,9]是由Dunkel等开发的一个同样基于化学结构相似性的在线靶点预测工具,目前源数据最新版本更新至2014年4月。当用户输入一个查询结构时,服务器先计算该分子的二维分子指纹,并通过计算该分子与服务器中的341 000个已知化合物的Tanimoto相似度,由于这些已知化合物本身已关联至1 800多个药物靶点,从而可预测出未知分子的潜在作用靶点。经验证,当计算的相似度值大于0.85时,该方法的准确率可达到81%。同样基于分子指纹相似性的靶点预测工具还有PASS程序^[10]。截止至2014年5月,PASS可预测给定小分子超过3 500种生物活性。该方法是在总结了超过250 000个生物活性分子的构效关系的基础上,经留一法验证准确率超过95%。同样,基于化学相似性搜索的在线数据库还有Binding DB^[11]、PubChem^[12]、ChemBank^[13]、Query Chem^[14]、ChemIDPlus^[15]、KEGG LIGAND^[16]等。这些数据库本身收集了大量的小分子结构信息与活性数据,可为用户免费提供化学结构的相似性检索。

三维分子相似性方法是基于三维形状相似的分子可作用于相似或相同靶点的假设。ChemMapper^[17]是基于华东理工大学李洪林课题组开发的三维分子相似性程序SHJAFTS进行靶点预测及化学关系发现的多功能免费Web计算平台。该平台从各类化合物数据库中整合了超过35万个包含生物活性及靶点注释的化合物。该课题组针对NMDA型谷氨酸受体抑制剂Vadilex进行了预测,发现了数个已证实的靶点。AbdulHameed等^[18]通过整合Drugbank上1 150个包含生物活性及靶点注释信息的药物分子,然后应用三维形状比较程序ROCs计算查询分子与药物分子的相似度,从而预测查询分子的潜在靶点。该方法经过了Database of Useful Decoy (DUD) 数据库上2 950个含有靶点注释信息活性分子的外部验证,并被证实可成功预测已知药物的新靶点。

Reverse Screen 3D^[19]是由英国丽兹大学Jackson课题组在2011年开发的一个基于二维/三维杂合相似性方法的在线靶点预测程序。该程序基于RCSB Protein Data Bank (PDB) 数据库,通过自行构建药物靶点数据库,采用LigaMatch匹配法,搜寻与查询分子相匹配的潜在靶点。通过对20个查询分子进行外部验证,结果表明该程序可成功预测大部分的药物靶点。另外以4-OH tamoxifen作为查询分子的验证结果表明,该程序明显优于其他在线靶点预测程序如INVDOCK、TarFisDock和PharmMapper。 1.2 反向药效团搜索

反向药效团搜索是另一种常见的基于配体特征靶点预测方法。PharmMapper^[20]是上海药物研究所刘晓峰博士开发的以活性小分子为探针、搜寻潜在药物靶点,从而预测小分子生物活性的反向药效团匹配方法。该课题组建立了相应的公共网络服务器PharmMapper (http://59.78.96.61/pharmmapper)。PharmMapper内置了超过7 000个药效团模型,这些模型关联1 627个药物靶点信息。PharmMapper可自动寻找与查询分子构象最为匹配的药效团,并根据其匹配程序进行打分排序。PharmMapper在计算速度方面具有较大优势,可以在数分钟至数十分钟内完成靶点的预测,为药物新靶标发现提供信息技术支撑,有力地促进药物靶标发现研究。

Inte:Ligand药效团数据库^[21]由奥地利维也纳Inte:Ligand公司开发的一个高质量的三维药效团数据库。该数据库包含2 500多个药效团模型,覆盖了300多种临床相关的药物治疗靶点,该数据库可无缝地集成到Catalyst和Discovery Studio/PipelinePilot环境中,从而在Accelrys标准软件产品中进行使用。Schuster^[22]于2010年综述了使用反向药效团模型方法预测小分子靶点的几个典型成功案例。Steindl等^[23]用LigandScout构建了5个抗病毒靶点的50个药效团模型,然后用基于Pipeline Pilot的药效团并行筛选方法测试100个注释有靶点信息的抗病毒化合物。测试结果表明,该方法可以成功预测88% 化合物的靶点信息。类似的研究也被成功运用于CYP抑制剂^[24]以及PPAR抑制剂^[25]的靶点预测。Rollinger等^[26]采用基于配体的反向药效团方法对昙香科植物昙香的16个次级代谢物进行靶点预测的研究,他们使用了Inte:Ligand公司开发的包含2 289个药效团模型的数据库进行反向寻靶,最终挑选预测结果中的3个靶点进行了实验验证。结果表明,arborinine分子可在体外抑制乙酰胆碱酯酶 (AchE) 的活性 (IC₅₀ = 34.8 μmol·L^-1),在人类鼻病毒外壳蛋白 (HBV) 抑制实验中6,7,8-trimethoxycoumarin与arborinine活性分别为11.98和3.16 μmol·L^-1; 同时rutamarin分子被验证为大麻受体-2 (CB2) 配体分子,实验亲和力为7.4 μmol·L^-1。

基于配体结构特征的药物靶点预测方法近年来发展迅速,一方面是由于具有靶点注释信息的生物活性数据库越来越多,这些数据库均可利用相似度搜索进行靶点预测; 另一方面该类方法计算速度非常迅速,可在数秒内完成对数百万分子的检索,这为通过网络访问提交任务从而迅速反馈结果提供了可行性。但由于该类方法并不考虑相应生物靶点大分子的三维结构,未能充分体现查询分子与预测靶点的相互结合模式。另外仅仅考虑查询小分子与活性数据库中小分子相似度打分值未能真正客观体现药物与潜在靶点的亲和力,这是由于活性数据库中小分子间活性值差异大,或针对同一个靶点的活性测试结果因来源不同而测试方法不统一的情况。因此,如能在打分函数中合理考虑到这些因素,则可提高预测的精度。 2 基于蛋白结构特征的药物靶点预测

基于蛋白结构特征的靶点预测通常指的是反向分子对接方法^[27]。该方法是将查询分子与靶点数据库如PDB中的若干个药物靶点分子进行分子对接,从中挑选出结合情况最好的候选者,认为其为给定小分子化合物的潜在靶点。

INVDOCK^[28]是由新加坡国立大学于2001年开发的第一个反向对接程序,并成功应用于药物分子4H-三苯氧胺和维生素E的靶点预测。所有蛋白分子的三维结构来自PDB数据库,并采用分子对接程序DOCK中的算法,通过重叠球体定义受体分子潜在结合位点,将药物分子与2 700多个结合位点进行反向对接,用基于蛋白-配体相互作用能的亲合性打分函数进行打分并排序,从而预测出药物分子的潜在靶点。上海交通大学Bio-X研究所杨轮博士等同样采用DOCK分子对接程序,开发了基于反向分子对接的网站服务DRAR-CPI: http://cpi.bio-x.cn/drar/,用于化合物-蛋白质相互作用网络预测,并成功发现多个与药物副作用密切相关的脱靶蛋白^[29]。

TarFisDock^[30]也是一个基于网络、蛋白质结构数据库进行小分子-蛋白相互作用自动搜索的工具。它是由中国科学院上海药物研究所于2006年开发,并建立了相应的公共网络服务器(http://www.dddc.ac.cn/ tarfisdock)。该课题组运用此方法发现了一个抗幽门螺旋杆菌天然产物的作用靶点肽脱甲酰基酶,并测定了天然产物与该蛋白复合物的晶体结构^[31]。这提示了TarFishDock进行靶点预测可靠性较高,有望成为一种对老药进行靶点辨识及机制研究的有用工具。2008年他们又进一步发展了潜在药物靶点库 (PDTD),包含1 207个重要靶点的信息和三维结构,为用反向对接方法寻找化合物的药物作用靶点提供了技术支撑^[32]。IDTarget^[33]是由国立台湾大学生物信息学课题组开发的一款反向寻靶的免费在线工具。该程序目前可预测小分子与7 864个靶点的相互作用,它采用改良的Autodock打分函数,考虑小分子的柔性构象变化,通过结合自由能作为对接结果优劣的依据。该程序已被成功应用于蛋白激酶抑制剂和他汀类药物靶点的预测^[34,35]。复旦大学Liu等系统地评价了5种反向对接程序 (Gold、Flex、Tarfisdock、TarSearch-X以及TarSearch-M) 在靶点预测方面的准确性。该研究小组使用了8个活性小分子作为查询结构,靶点数据库包含1 594个已知的药物靶点,结果显示5 个反向对接程序中靶点预测准确率最好的程序为TarSearch-X,其次为Gold程序^[36]。

为了寻找5个含有1,3,5-triazepan-2,6-dione骨架的代表性衍生物潜在靶点,Muller等^[37]从PDB数据库中收集了2 150个成药性活性位点,构建新的靶点数据库,并运用高通量分子对接的方法,将5个分子反向对接至所构建的靶点数据库,从中挑选预测结果较好的5个潜在靶点进行实验验证,结果发现该类衍生物均可作用于其中一个靶点secreted phospholipase A2 (sPLA2),其抑制活性在微摩尔级别。Zahler等^[38]同样利用反向对接的方法预测了3个靛玉红衍生物 (5BIO、6BIO和7BIO) 可能作用的激酶靶点,共预测了84个含有不同亚型的激酶蛋白,最终挑取了排名前五中的PDK-1激酶进行体外活性验证,结果发现了6BIO具有较强抑制该激酶活性 (IC₅₀ = 1.5 μmol·L^-1)。Lauro等^[39]课题组也报道了类似的研究,他们使用反向对接方法研究了多酚类天然产物可能作用的与癌症相关的163个靶点,值得提出的是他们将不同靶点的结合自由能打分进行了归一化,从而降低了预测结果的假阳性。根据预测结果,他们用体外实验证实了xanthohumol和isoxanthohumol对PDK1以及PKC蛋白激酶的抑制活性。

尽管基于蛋白结构特征的靶点预测方法准确率较基于配体特征的高些,但仍存在一些制约因素使得其推广不容乐观。首先,反向对接方法本身以及所依赖的打分函数的精度仍需要提高,同时需要考虑打分值在不同靶点体系上如何归一化的问题^[40]。其次,该类方法对计算资源要求较高,很难实现及时反馈预测结果; 此外,目前仍有大量的靶蛋白未被实验解析出来,而同源膜建蛋白又难以准确反映真实靶点的三维结构,造成其预测谱相对局限。 3 基于数据挖掘方法的药物靶点预测

数据挖掘方法是另一种较为常用的药物靶点预测方法。数据挖掘一般是指从海量数据中自动搜索隐藏于其中的与活性有着特殊关系性信息的过程。机器学习是最为常见的数据挖掘方法之一。首先,需要将收集的数据集分为训练集与测试集,选择合适的机器学习算法如神经网络、支持向量机等,以训练集为学习对象构建预测模型,并用测试集验证模型的可靠性。目前已有大量采用机器学习算法进行药物靶点预测的研究报道。通常所用到的数据集是包含标准化注释信息的化学基因组数据库。这些数据库可很好的满足对海量药物靶点作用信息进行数据挖掘的素材要求。表 2列出了可用于数据挖掘方法预测药物靶点的一些常用商业数据库。这些数据库的源数据收集自权威化学或生物类期刊以及专利数据库,包含小分子的化学结构信息与活性数据。通过数据挖掘这些配体的信息,可建立相应的靶点预测模型。

表 2 可用于数据挖掘方法预测药物靶点的商业数据库

3.1 基于配体的数据挖掘方法

Nidhi等^[41]采用多类别的朴素贝叶斯算法对WOMBAT数据库中关联964个已知靶点的活性化合物进行训练,建立预测模型。每个靶点对应于一个类别,使用二维分子指纹描述符ECFP表征每个化合物的特征。并用最终的输出模型预测MDDR数据库中化合物的靶点,获得了77% 的准确率。Nigsh等^[42]运用两种不同机器学习算法 (Bayesian和Winnow) 对WOMBAT数据库中覆盖20类不同药理活性的13 000个化合物进行训练,分别使用ECFP_4以及MOLPRINT 2D两种不同分子指纹描述符描述化合物,结果表明Winnow算法所构建的预测模型较Bayesian的更准确。

Niwa^[43]采用概率神经网络方法,对MDDR数据库中关联7大类靶点注释信息的799个化合物进行研究,随机选取其中60% 用作训练集,20% 用于改进模型参数的测试集,剩余20% 用于评估模型预测能力的外部测试集。在预测模型的建立过程中,仅以常见的24种原子类型作为化合物结构的描述符,预测结果表明90% 左右的化合物靶点信息可被正确分类。紧接着模型被用于测试含有靶点注释信息 (非原先7大类靶点) 的另外26 317个化合物,结果显示67%～98% 的化合物可被正确地划分到所属靶蛋白家族中。

Wale等^[44]使用了ECFP4分子指纹描述符进行药物靶点预测研究,数据集是基于Pubchem上含有231种靶点注释信息的40 170个小分子,运用贝叶斯分类法、二类支持向量机、基于排序的支持向量机、基于级联的支持向量机等4种不同方法训练模型并比较了模型的预测情况。结果表明,基于级联的支持向量机方法构建的模型优于基于其他方法。Koutsoukas等^[45]采用两类概率算法 (拉普拉斯脸的贝叶斯优化算法以及Parzen窗口估计法) 分别对ChEMBL数据库中关联894个人源靶蛋白注释信息的105 946个化合物进行学习,分子指纹描述符采用ECFP_4,输出的预测模型经外部测试集验证表明结果不是特别理想,两类模型对于排在前1% 化合物的预测准确率分别仅为63.3% 和66.6%。

本实验室应用支持向量机技术和贝叶斯算法,构建了丁酰胆碱酯酶抑制剂 (BuChEI) 的分类模型,并成功应用于BuChEI的虚拟筛选,结合生物活性评价实验,发现了10个活性化合物,其中6个为结构新颖的化合物^[46]。 3.2 基于配体与蛋白结构相结合的数据挖掘方法

数据挖掘方法预测药物靶点不仅仅只限于单纯引入配体的描述信息,还能通过同时考虑配体与受体信息的方法来进行预测。四川大学杨胜勇课题组^[47]最近开发了一种采用概率融合的方法将分子对接与药效团结合起来用于药物靶点的预测,可互补两种方法单独使用时的缺陷。这种概率融合方法是基于信度函数理论 (Dempster-Shafer Theory),通过计算查询分子与靶蛋白库中每个靶点对接得到的ChemSore Goldscore以及药效团匹配得到的fitvalue值,经概率分配曲线将3个打分值转换为3个概率值,运用该理论最终输出针对每个靶点的综合概率C-value 值, 将所有的C-value值进行排序,排名靠前的则是该查询结构的潜在靶点。作者采用经典的多靶点药物4-tamoxifen对该方法进行验证,结果表明该方法明显优于单独使用药效团或分子对接进行靶点预测的其他方法。

另一种同时考虑配体和受体信息的方法是基于计算化学基因组学的数据挖掘方法。计算化学基因组学方法是指同时计算小分子与靶点蛋白的描述符,整合成描述配体-受体复合物的组合描述符,然后运用机器学习的方法构建计算模型用于药物靶点信息的预测^[48,49,50]。Yabuuchi等^[51]采用机器学习算法构建了预测药物-靶点相互作用信息的化学基因组模型,并将其运用于发现GPCRs和激酶两类靶点家族的全新活性小分子。他们的方法获得了较为满意的预测结果,其中几个新的配体已被生物实验所证实。中国科学院上海药物研究所王飞博士等计算配体的物理化学描述符和靶点蛋白一级序列描述符,使用支持向量机构建了计算化学基因组模型用于化合物-蛋白质预测。几个新化学结构骨架的配体作用于GPR40、SIR TK p38和GSK-3P被试验成功确证^[52]。华东理工大学程飞雄博士等^[53]基于多个高准确度的多靶点

QSAR模型,开发了预测药物-靶点相互作用的软件和相应基于网页服务CPI-Predictor,该软件可以对GPCR和激酶两大家族中300多个重要靶点进行系统性预测,从而输出小分子可能作用各个靶点的概率值,可用于全新化合物的靶点蛋白预测。目前CPI- Predictor预测的多个老药如星形孢菌素、可卡因的新靶点已被文献报道的试验数据证实。黄酮类化合物百可利是本实验室研制的具有自主知识产权的一类新药,针对前期在动物模型水平发现其具有抗帕金森药效的基础,为了寻找百可利可能作用的靶点,解释其作用机制,作者结合了数据库挖掘、分子对接、药效团搜索、化学相似性搜索等多种药物靶点预测方法,成功预测了百可利可作用于抗帕金森靶点COMT以及MAO-B,同时证明了其并非作用于NMDA受体^[54]。南开大学程彬峰等利用Molinspiration、PharmMapper和KEGG等生物信息学手段对清肺消炎丸进行吸收、靶点及作用通路的预测分析从而探索其抗炎的网络调控机制。该研究建立了“药物-靶点-通路-网络”的研究模式,初步揭示了清肺消炎丸抗炎的多维调控机制,为中药复方的研究提供了新的思路和方法^[55]。

基于数据挖掘方法的药物靶点预测具有快速灵活、准确率较高等优点。其主要缺点有: ① 采用机器学习方法构建的模型只能适用于预测特定化学空间上的化合物,而对于非该化学空间的化合物则不能保证其原有预测准确率; ② 训练模型采用的数据集必须含有精确的注释信息,即要求小分子与靶点有明确的对应关系且靶点命名需要标准化,因此普通的化合物数据库并不适用; ③ 这类模型往往难以做到定量预测,这是由于构建模型所需生物活性数据的来源以及类型不统一难以保证源数据的高精度。 4 结语

大量药物靶点预测方法的开发与运用,促进了新兴学科网络药理学的发展。在这些靶点预测工具的辅助下,研究者发现了很多在研活性化合物或经典老药新的作用机制,这对加速药物研发进程及药物的重新定位具有重大的研究意义。

在应用这些靶点预测方法时,面临的问题主要有两个方面: ① 对于预测模型构建过程中所需要的源数据,还有待于系统、全面优化与整合; 源数据中因物种差异或实验条件不同导致的假阳性数据需要剔除掉,同一化合物经不同课题组报道得到的多个活性数据需要标准化处理; ② 尽管本文综述的3大类预测方法各有特色,并且在实践中不乏成功案例,但每种预测方法均有自身的局限性。基于配体的方法无法系统性的预测靶蛋白的优劣次序; 基于蛋白结构的方法受限于蛋白分子的三维结构信息以及对接的精度。在研究实践中因时制宜,充分结合利用各种方法的优势,扬长补短,尤为关键。

随着生命科学的发展,越来越多的药物靶点和潜在靶点结构信息得到解析,同时也将出现海量的小分子生物活性信息,借助不断完善的靶点预测方法和专业软件,通过多种预测方法的综合应用,相信基于化学信息学的靶点预测方法的应用定能得到更广泛的应用。

参考文献

[1]	Yang HQ, Li XJ. Chemical proteomics and discovery of drug targets [J]. Acta Pharm Sin (药学学报), 2011, 46: 877-882.
[2]	Gasteiger J. The scope of chemoinformatics [M]//Hand-book of Chemoinformatics: From Data to Knowledge. Weinheim: Wiley-VCH Verlag GmbH, 2003: 3-5.
[3]	Koutsoukas A, Simms B, Kirchmair J, et al. From in silico target prediction to multi-target drug design: current databases, methods and applications [J]. J Proteomics, 2011, 74: 2554-2574.
[4]	Zheng MY, Liu X, Xu Y, et al. Computational methods for drug design and discovery: focus on China [J]. Trends Pharmacol Sci, 2013, 34: 549-559.
[5]	Willett P, Barnard JM, Downs GM. Chemical similarity searching [J]. J Chem Inf Comput Sci, 1998, 38: 983-996.
[6]	Rognan D. Chemogenomic approaches to rational drug design [J]. Br J Pharmacol, 2007, 152: 38-52.
[7]	Keiser MJ, Roth BL, Armbruster BN, et al. Relating protein pharmacology by ligand chemistry [J]. Nat Biotechnol, 2007, 25: 197-206.
[8]	Dunkel M, Günther S, Ahmed J, et al. SuperPred: drug classification and target prediction [J]. Nucleic Acids Res, 2008, 36: W55-W59.
[9]	Hecker N, Ahmed J, von Eichborn J, et al. SuperTarget goes quantitative: update on drug-target interactions [J]. Nucleic Acids Res, 2012, 40: D1113-D1117.
[10]	Poroikov V, Filimonov D, Lagunin A, et al. PASS: identification of probable targets and mechanisms of toxicity [J]. SAR QSAR Environ Res, 2007, 18: 101-110.
[11]	Liu TQ, Lin YM, Wen X, et al. BindingDB: a web-accessible database of experimentally determined pro-tein-ligand binding affinities [J]. Nucleic Acids Res, 2007, 35: D198-D201.
[12]	Wang YL, Xiao JW, Suzek TO, et al. PubChem: a public information system for analyzing bioactivities of small molecules [J]. Nucleic Acids Res, 2009, 37: W623-W633.
[13]	Seiler KP, George GA, Happ MP, et al. ChemBank: a small-molecule screening and cheminformatics resource database [J]. Nucleic Acids Res, 2008, 36: D351-D359.
[14]	Klekota J, Roth FP, Schreiber SL, et al. Query Chem: a Google-powered web search combining text and chemical structures [J]. Bioinformatics, 2006, 22: 1670-1673.
[15]	Tomasulo P. ChemIDplus-Super source for chemical and drug information [J]. Med Ref Serv Qua, 2002, 21: 53-59.
[16]	Goto S, Okuno YS, Hattori M, et al. LIGAND: database of chemical compounds and reactions in biological pathways [J]. Nucleic Acids Res, 2002, 30: 402-404.
[17]	Gong JY, Cai CQ, Liu XF, et al. ChemMapper: a versatile web server for exploring pharmacology and chemical structure association based on molecular 3D similarity method [J]. Bioinformatics, 2013, 29: 1827-1829.
[18]	AbdulHameed MDM, Chaudhury S, Singh N, et al. Exploring polypharmacology using a ROCS-based target fishing approach [J]. J Chem Inf Model, 2012, 52: 492-505.
[19]	Kinnings SL, Jackson RM. ReverseScreen3D: a structure-based ligand matching method to identify protein targets [J]. J Chem Inf Model, 2011, 51: 624-634.
[20]	Liu XF, Ou YS, Yu B, et al. PharmMapper server: a web server for potential drug target identification using pharmacophore mapping approach [J]. Nucleic Acids Res, 2010, 38: W609-W614.
[21]	Inte:Ligand PharmacophoreDB. Inte: Ligand, Vienna, Aus-tria.
[22]	Schuster D. 3D pharmacophores as tools for activity profiling [J]. Drug Discov Today Technol, 2011, 7: e205-e211.
[23]	Steindl TM, Schuster D, Laggner C, et al. Parallel screen-ing and activity profiling with HIV protease inhibitor pharmacophore models [J]. J Chem Inf Model, 2007, 47: 563-571.
[24]	Schuster D, Laggner C, Steindl TM, et al. Development and validation of an in silico P450 profiler based on pharmacophore models [J]. Curr Drug Discovery Technol, 2006, 3: 1-48.
[25]	Markt P, Schuster D, Kirchmair J, et al. Pharmacophore modeling and parallel screening for PPAR ligands [J]. J Comput Aided Mol Des, 2007, 21: 575-590.
[26]	Rollinger JM, Schuster D, Danzl B, et al. In silico target fishing for rationalized ligand discovery exemplified on constituents of Ruta graveolens [J]. Planta Med, 2009, 75: 195-204.
[27]	Rognan D. Structure-based approaches to target fishing and ligand profiling [J]. Mol Inf, 2010, 29: 176-187.
[28]	Chen YZ, Zhi DG. Ligand-protein inverse docking and its potential use in the computer search of protein targets of a small molecule [J]. Proteins, 2001, 43: 217-226.
[29]	Luo H, Chen J, Shi LM, et al. DRAR-CPI: a server for identifying drug repositioning potential and adverse drug reactions via the chemical-protein interactome [J]. Nucleic Acids Res, 2011, 39: W492-W498.
[30]	Li HL, Gao ZT, Kang L, et al. TarFisDock: a web server for identifying drug targets with docking approach [J]. Nucleic Acids Res, 2006, 34: W219-W224.
[31]	Cai JH, Han C, Hu TC, et al. Peptide deformylase is a potential target for anti-Helicobacter pylori drugs: reverse docking, enzymatic assay, and X-ray crystallography validation [J]. Protein Sci, 2006, 15: 2071-2081.
[32]	Gao ZT, Li HL, Zhang HL, et al. PDTD: a web-accessible protein database for drug target identification [J]. BMC Bioinf, 2008, 9: 104.
[33]	Wang JC, Chu PY, Chen CM, et al. idTarget: a web server for identifying protein targets of small chemical molecules with robust scoring functions and a divide-and-conquer docking approach [J]. Nucleic Acids Res, 2012, 40: W393-W399.
[34]	Zahler S, Tietze S, Totzke F, et al. Inverse in silico screening for identification of kinase inhibitor targets [J]. Chem Biol, 2007, 14: 1207-1214.
[35]	Lin YC, Lin JH, Chou CW, et al. Statins increase p21 through inhibition of histone deacetylase activity and release of promoter-associated HDAC1/2 [J]. Cancer Res, 2008, 68: 2375-2383.
[36]	Liu HF, Shen Q, Zhang J, et al. Evaluation of various inverse docking schemes in multiple targets identification [J]. J Mol Graph Model, 2010, 29: 326-330.
[37]	Muller P, Lena G, Boilard E, et al. In silico-guided target identification of a Scaffold-Focused Library: 1, 3, 5-triazepan-2, 6-diones as novel phospholipase A2 inhibitors [J]. J Med Chem, 2006, 49: 6768-6778.
[38]	Zahler S, Tietze S, Totzke F, et al. Inverse in silico screening for identification of kinase inhibitor targets [J]. Chem Biol, 2007, 14: 1207-1214.
[39]	Lauro G, Romano A, Riccio R, et al. Inverse virtual screening of antitumor targets: pilot study on a small database of natural bioactive compounds [J]. J Nat Prod, 2011, 74: 1401-1407.
[40]	Wang RX, Lu YP, Fang XL, et al. An extensive test of 14 scoring functions using the PDBbind refined set of 800 protein-ligand complexes [J]. J Chem Inf Comput Sci, 2004, 44: 2114-2125.
[41]	Nidhi, Glick M, Davies JW, et al. Prediction of biological targets for compounds using multiple-category Bayesian models trained on chemogenomics databases [J]. J Chem Inf Model, 2006, 46: 1124-1133.
[42]	Nigsch F, Bender A, Jenkins JL, et al. Ligand-target prediction using Winnow and naive Bayesian algorithms and the implications of overall performance statistics [J]. J Chem Inf Model, 2008, 48: 2313-2325.
[43]	Niwa T. Prediction of biological targets using probabilistic neural networks and atom-type descriptors [J]. J Med Chem, 2004, 47: 2645-2650.
[44]	Wale N, Karypis G. Target fishing for chemical com-pounds using target-ligand activity data and ranking based methods [J]. J Chem Inf Model, 2009, 49: 2190-2201.
[45]	Koutsoukas A, Lowe R, KalantarMotamedi Y, et al. In silico target predictions: defining a benchmarking data set and comparison of performance of the multiclass Naïve Bayes and Parzen-Rosenblatt window [J]. J Chem Inf Model, 2013, 53: 1957-1966.
[46]	Fang JS, Yang RY, Gao L, et al. Predictions of BuChE inhibitors using support vector machine and naive bayesian classification techniques in drug discovery [J]. J Chem Inf Model, 2013, 53: 3009-3020.
[47]	Li GB, Yang LL, Xu Y, et al. A combined molecular dock-ing-based and pharmacophore-based target prediction strategy with a probabilistic fusion method for target ranking [J]. J Mol Graph Model, 2013, 44: 278-285.
[48]	van Westen GJP, Wegner JK, IJzerman AP, et al. Proteochemometric modeling as a tool to design selective compounds and for extrapolating to novel targets [J]. MedChemComm, 2011, 2: 16-30.
[49]	Geppert H, Humrich J, Stumpfe D, et al. Ligand prediction from protein sequence and small molecule information using support vector machines and fingerprint descriptors [J]. J Chem Inf Model, 2009, 49: 767-779.
[50]	Weill N, Rognan D. Development and validation of a novel protein-ligand fingerprint to mine chemogenomic space: application to G protein-coupled receptors and their ligands [J]. J Chem Inf Model, 2009, 49: 1049-1062.
[51]	Yabuuchi H, Niijima S, Takematsu H, et al. Analysis of multiple compound-protein interactions reveals novel bioactive molecules [J]. Mol Syst Biol, 2011, 7: 472.
[52]	Wang F, Liu DX, Wang HY, et al. Computational screening for active compounds targeting protein sequences: methodology and experimental validation [J]. J Chem Inf Model, 2011, 51: 2821-2828.
[53]	Cheng FX, Zhou YD, Li J, et al. Prediction of chemical-protein interactions: multitarget-QSAR versus computational chemogenomic methods [J]. Mol Biosyst, 2012, 8: 2373-2384.
[54]	Gao L, Fang JS, Bai XY, et al. In silico target fishing for the potential targets and molecular mechanisms of baicalein as an antiparkinsonian agent: discovery of the protective effects on NMDA receptor-mediated neurotoxicity [J]. Chem Biol Drug Des, 2013, 81: 675-687.
[55]	Cheng BF, Hou YY, Jiang M, et al. Anti-inflammatory mechanism of Qingfei Xiaoyan Wan studied with network pharmacology [J]. Acta Pharm Sin (药学学报), 2013, 48: 686-693.


药学学报 2014, Vol. 49 Issue (10): 1357-1364	PDF