膜蛋白在生物体的许多生命活动中起着非常重要的作用,如细胞的增殖和分化、能量转换、信号转导及物质运输等。目前有大约60%的药物作用靶点是膜蛋白[1]。关于膜蛋白结构的研究对探究疾病的发病机理和有效治疗有着重要意义,也是当前的研究热点之一。研究膜蛋白结构的技术包括X射线衍射、核磁共振波谱、电子显微镜、原子力显微镜、红外光谱和圆二色谱等。其中X射线衍射和核磁共振波谱技术是对膜蛋白三维结构进行研究的主要方法。尤其利用固体核磁共振技术(Solid state NMR)可在接近膜蛋白的天然环境的磷脂双分子层中研究膜蛋白的三维结构信息和动力学特征,在膜蛋白结构研究领域具有独特的优势和广阔的发展前景[2, 3]。采用固体核磁共振研究膜蛋白的结构与功能,需要制备大量的同位素富集的膜蛋白样品,重组表达就成为了获取膜蛋白样品的重要手段。常用于重组膜蛋白的表达系统有真核表达系统、原核表达系统和近些年来发展的无细胞表达系统。其中以大肠杆菌(E.coli)为代表的原核表达系统因为操作简单、成本相对低廉、遗传背景清楚、方便同位素标记,以及有大量可利用的表达载体和宿主菌株等原因,是目前获取重组膜蛋白的最主要途径。对于一些膜蛋白而言,采用增加蛋白可溶性或者促使蛋白形成包涵体的标签进行融合表达,是很好的增加蛋白产量的办法,但是目前还没有普遍有效的融合标签可用于所有膜蛋白的超量表达[4, 5, 6]。因此,如何提高蛋白表达量一直是膜蛋白三维结构研究过程中首先需要解决的问题。本文归纳了近些年来基因序列优化在膜蛋白原核表达技术研究上的最新进展,并从稀有密码子的优化、mRNA的稳定性与翻译起始、mRNA与核糖体行为、翻译的效率与膜蛋白的折叠4个方面对基因序列影响膜蛋白表达的优化因素进行了总结,旨在对原核系统中膜蛋白的超量表达提供一些思路和参考。
1 膜蛋白基因序列特点基因的碱基序列上携带的遗传信息,不仅决定了所合成肽链的氨基酸组成和顺序,还会影响基因的转录和翻译过程,这些遗传信息是决定蛋白质丰度的主要原因[7]。膜蛋白通常含有一个或几个疏水性很强的跨膜片段,其组成以疏水性氨基酸残基为主[8]。编码疏水性氨基酸的密码子中,其尿嘧啶含量要明显高于亲水性氨基酸的密码子[9],与可溶蛋白相比膜蛋白在基因组转录中处于明显劣势[10, 11],这种碱基特异性是可能原因之一。此外,在膜蛋白基因序列上还存在影响蛋白折叠和插入的信号,它们对膜蛋白的结构和功能的保持至关重要。对多药耐药基因的研究发现,同义密码子的替换会影响其产物P-糖蛋白折叠和插入膜的时机,从而使P-糖蛋白底物特异性发生改变[12]。在啤酒酵母膜蛋白的跨膜区后第45个密码子及第75个密码子左右经常会出现一些翻译暂停信号,由于翻译过程中核糖体通道正好可以容纳30-72个氨基酸,这些信号可能与新合成的跨膜区的折叠有关[13, 14]。
因此,对于外源膜蛋白在原核表达系统中出现的表达水平低、可溶性差、易错误折叠和聚集的现象[4, 15],在具体实践中结合表达宿主对目的基因进行碱基序列优化是促使膜蛋白高效,且正确表达的一项十分常用的解决手段[4, 16, 17]。
2 膜蛋白基因序列的优化分析蛋白的表达是遗传信息从基因的DNA序列经过转录、翻译和肽链折叠而形成蛋白质等一系列的过程。因此膜蛋白基因序列的优化会涉及到mRNA的转录水平、翻译的效率以及翻译过程中肽链的折叠等等多个方面。下面将从稀有密码子优化、mRNA的稳定性与翻译起始、mRNA与核糖体行为、翻译的效率与膜蛋白的折叠四个方面进行介绍。
2.1 稀有密码子的优化除甲硫氨酸和色氨酸之外,其他的氨基酸至少对应两个密码子。不同物种之间对密码子的偏好有明显差异,使用频率低的密码子被称为稀有密码子[18, 19]。大量研究表明,稀有密码子的存在会影响膜蛋白的最终表达水平,因此异源表达的膜蛋白通常要在基因序列上对密码子进行优化[9, 17, 20, 21, 22]。许多膜蛋白,如秀丽隐杆线虫氯离子通道蛋白(Caen-orhabditis elegans GluCl ion channel)、人类细胞色素P4504F11(Human cytochrome P450 4F11)、G蛋白偶联受体(G-protein-coupled receptor)等,经过密码子优化后在大肠杆菌中得到了良好的表达[22, 23, 24, 25]。除此之外,稀有密码子的出现在有些情况下还会造成点突变甚至移码突变,从而表达出序列错误的多肽。如有些情况下稀有密码子AGA编码的精氨酸(Arg)会被错误翻译成赖氨酸(Lys)[26],串联的稀有密码子如AGG-AGG、AGA-AGA及3个连续的CGG可能会造成阅读框的改变[27, 28],终止密码子UGA被翻译成色氨酸(Trp)造成通读而产生后续的冗余序列[29]。因此,应该避免在膜蛋白的基因序列中含有大量稀有密码子,对此最直接的办法是对基因序列中的密码子进行优化,目前有Codon Usage Analyzer、Graphical Codon Usage Analyzer等许多在线程序或网站可以利用。另一种解决方式是采用带有稀有密码子额外拷贝的表达菌株,如已经商业化的BL21 Codon Plus或Rosetta菌株,这在一定程度上也可以避免或减轻稀有密码子造成的不良影响[20, 30]。
值得一提的是,大肠杆菌在不同的培养基中对密码子的偏好性可能会发生变化,比如2012年,Weissman课题组发现丝氨酸密码子在LB培养基和含葡萄糖的富营养培养基中表现有很大差异[31]。但到目前为止,这种关于培养基成分对大肠杆菌密码子偏好性影响的研究并不多见。
2.2 mRNA的稳定性与翻译起始mRNA的降解是影响膜蛋白基因高效表达的重要因素。mRNA的降解与其自身的碱基序列有很大关联,一个碱基的突变就可能会使mRNA稳定性出现巨大变化,从而导致膜蛋白的最终表达水平大受影响。以大肠杆菌OmpA蛋白和人体多巴胺D2型受体(DRD2)为例:当OmpA基因5'端的密码子被一些不常用的同义密码子取代后,mRNA的半衰期缩短了4倍,mRNA水平和最终的蛋白产量都降低了10倍[32];至于DRD2基因,当第957位的胞嘧啶(C)被胸腺嘧啶(T)替换后,mRNA的半衰期从8 h降至4 h,蛋白产量也下降到了原来的50%,但是同时将第1101碱基突变为腺嘌呤(A)后,mRNA稳定性和蛋白表达水平又恢复正常[33]。mRNA的降解还可能与其第20-45个密码子的裸露有密切关联,在这一段序列前面或后面加一些低翻译速率的密码子分别可以缩短或延长mRNA的半衰期,原因可能是核糖体在这段序列上更长时间的停留和包裹可以保护mRNA免于被降解[34]。
在mRNA起始密码子附近的-4-+37位碱基处避免形成稳定的二级结构对于蛋白的表达非常重要,这正是核糖体在翻译起始的部位[35]。mRNA 5'端临近翻译起始部位疏松的二级结构有利于核糖体亚基的快速识别和重组,提高翻译的起始效率[7]。高效的翻译起始和延伸,一方面加快了肽链的合成速率;另一方面,由于核糖体迅速的结合在一定程度上抑制了mRNA自身的降解,使转录出来的mRNA保持一个比较高的水平[7]。在有些条件下,mRNA 5'端二级结构的优化甚至比全局的密码子优化对膜蛋白基因的表达影响更为明显[17, 20, 35]。如对人体神经细胞突触回蛋白和大肠杆菌FtsH蛋白的研究发现,膜蛋白的表达水平与其N端氨基酸密码子选择不同而导致的mRNA 5'端的二级结构变化有着很大关系[20, 36]。事实上,很多高表达基因为了使mRNA 5'端保持有利于翻译起始的二级结构而不得不在密码子偏好性上作出妥协[37, 38, 39]。因此,运用聚合酶链式反应(PCR)等技术对基因序列的5'端进行改造或者添加一些碱基降低翻译起始部位mRNA二级结构的稳定性,是使膜蛋白获得高效表达的一个有效手段[17, 40]。
2.3 mRNA与核糖体行为膜蛋白基因序列的优化还需要考虑到核糖体诱捕和类似核糖体结合序列(SD序列)等影响核糖体行为的因素。在蛋白质的合成过程中,一条mRNA通常会同时结合多个核糖体,每个核糖体合成一条肽链,它们的相对独立并同时进行使得翻译过程十分高效。但是,mRNA上密码子的使用不仅影响到核糖体在某个位置的移动速率,还会关系到相邻核糖体之间的距离,在整体翻译速率非常快的情况下,后面有一个翻译速率慢的密码子有可能引起核糖体的碰撞和形成队列,这通常会使这些核糖体被诱捕而长时间不能移动,从而影响了翻译的效率,因此在序列优化时需要防止翻译过程中核糖体的碰撞和队列来节省翻译的时间[41]。另外,膜蛋白基因中类似核糖体结合序列(SD序列)的结构也是一个不能忽略的因素。一方面,类SD序列的存在可能会使核糖体在该位置上被长时间扣押而导致翻译停滞,极大地降低肽链延伸速率甚至造成蛋白合成提前终止;另一方面,原核表达是转录和翻译的耦合,终止密码子附近的类SD序列导致核糖体在翻译即将结束时移动减速,使其不会影响到终止子茎环结构的折叠从而确保转录的正常终止[31]。
2.4 翻译的效率与膜蛋白的折叠膜蛋白基因携带的遗传信息还会调节翻译的肽链的折叠、复合物的形成及膜蛋白的插入等[12, 42]。适时的翻译速率的减缓对膜蛋白在大肠杆菌中正确表达是非常重要的,慢的翻译速率可以让超量表达的膜蛋白更好地折叠、定位并保真[43]。如对蛋白家族数据库(Pfam)的统计显示,许多与膜相关的蛋白质都有很长的稀有密码子簇,这些稀有密码子簇大都在前130个氨基酸残基内,并且在靠近N端的区域稀有密码子的数量会大幅攀升。在基因表达的过程中,稀有密码子簇引起的翻译的减速或暂停,有利于初始合成的肽链在核糖体通道里形成所需的α螺旋结构。离开核糖体后,α螺旋上的疏水残基与水环境相互作用,快速地重新排列形成更为复杂的结构,所以存在于膜蛋白结构域之间的稀有密码子簇的一个作用可能就是通过形成多个翻译暂停,对蛋白结构进行分步包装,使蛋白正确地折叠和定位。因此在基因编码区设置适当的翻译暂停位点对于膜蛋白结构的正确形成,如跨膜螺旋的折叠,有很好的促进作用[42]。
3 总结我们从稀有密码子的优化、mRNA的稳定性与翻译起始、mRNA与核糖体行为、翻译的效率与膜蛋白的折叠4个方面对基因序列上影响膜蛋白表达的优化因素进行了总结,并列举了一些优化方案和成功实例。基因的序列优化工作是膜蛋白原核表达的重要开端,在实际操作过程中多个因素之间经常会相互影响,必要的时候可能需要作出一定程度的妥协才能得到最优的序列,一段合适的基因序列可以让后面的表达纯化工作达到事半功倍的效果。目前对于mRNA降解、翻译暂停和膜蛋白折叠等过程的认识还不够充分,所以膜蛋白基因序列的优化也还需要未来更多工作的支持。膜蛋白的表达本身是多个过程的综合考量,除了本文所讲的基因序列优化外,后续的表达载体、融合标签以及宿主菌的选择、培养条件的优化等也是膜蛋白高效表达时应该认真考虑和设计的工作。
[1] | Yildirim MA, Goh KI, Cusick ME, et al. Drug-target network[J]. Nature Biotechnology, 2007, 25(10):1119-1126. |
[2] | Cross TA, Ekanayake V, Paulino J, et al. Solid state NMR:The essential technology for helical membrane protein structural characterization[J]. Journal of Magnetic Resonance, 2014, 239:100-109. |
[3] | Chen YK, Zhang ZF, Tang XQ, et al. Conformation and topology of diacylglycerol kinase in E. coli membranes revealed by solid-state NMR spectroscopy[J]. Angewandte Chemie-International Edition, 2014, 53(22):5624-5628. |
[4] | Su PC, Si W, Baker DL, et al. High-yield membrane protein expression from E. coli using an engineered outer membrane protein F fusion[J]. Protein Science, 2013, 22(4):434-443. |
[5] | Dong GF, Wang CZ, Wu YH, et al. Tat peptide-mediated soluble expression of the membrane protein LSECtin-CRD in Escherichia coli[J]. PLoS One, 2013, 8(12):e83579. |
[6] | Zuo X, Lie S, Hall J, et al. Enhanced expression and purification of membrane proteins by SUMO fusion in Escherichia coli[J]. Journal of Structural and Functional Genomics, 2005, 6(2-3):103-111. |
[7] | Guimaraes JC, Rocha M, Arkin AP. Transcript level and sequence determinants of protein abundance and noise in Escherichia coli[J]. Nucleic Acids Research, 2014, 42(8):4791-4799. |
[8] | Prilusky J, Bibi E. Studying membrane proteins through the eyes of the genetic code revealed a strong uracil bias in their coding mRNAs[J]. Proceedings of the National Academy of Sciences of the United States of America, 2009, 106(16):6662-6666. |
[9] | Norholm MHH, Light S, Virkki MTI, et al. Manipulating the genetic code for membrane protein production:what have we learnt so far?[J]. Biochimica Et Biophysica Acta-Biomembranes, 2012, 1818(4):1091-1096. |
[10] | Greenbaum D, Jansen R, Gerstein M. Analysis of mRNA expression and protein abundance data:an approach for the comparison of the enrichment of features in the cellular population of proteins and transcripts[J]. Bioinformatics, 2002, 18(4):585-596. |
[11] | Jansen R, Gerstein M. Analysis of the yeast transcriptome with structural and functional categories:characterizing highly expressed proteins[J]. Nucleic Acids Research, 2000, 28(6):1481-1488. |
[12] | Kimchi-Sarfaty C, Oh JM, Kim IW, et al. A “silent” polymorphism in the MDR1 gene changes substrate specificity[J]. Science, 2007, 315(5811):525-528. |
[13] | Kepes F. The“+70 pause”:Hypothesis of a translational control of membrane protein assembly[J]. Journal of Molecular Biology, 1996, 262(2):77-86. |
[14] | Dessen P, Kepes F. The PAUSE software for analysis of translational control over protein targeting:application to E-nidulans membrane proteins[J]. Gene, 2000, 244(1-2):89-96. |
[15] | Katzen F, Peterson TC, Kudlicki W. Membrane protein expression:no cells required[J]. Trends in Biotechnology, 2009, 27(8):455-460. |
[16] | Wang Q, Mei C, Zhen HH, et al. Codon preference optimization increases prokaryotic cystatin C expression[J]. Journal of Biom-edicine and Biotechnology, 2012, doi:org/10. 1155/2012/732017. |
[17] | Norholm MHH, Toddo S, Virkki MTI, et al. Improved production of membrane proteins in Escherichia coli by selective codon substitutions[J]. Febs Letters, 2013, 587(15):2352-2358. |
[18] | Grosjean H, Fiers W. Preferential codon usage in prokaryotic genes-the optimal codon anticodon interaction energy and the selective co-don usage in efficiently expressed genes[J]. Gene, 1982, 18(3):199-209. |
[19] | Gouy M, Gautier C. Codon usage in bacteria-correlation with gene expressivity[J]. Nucleic Acids Research, 1982, 10(22):7055-7074. |
[20] | Löw C, Jegerschöld C, Kovermann M, et al. Optimisation of over-expression in E. coli and biophysical characterisation of human membrane protein synaptogyrin 1[J]. PLoS One, 2012, 7(6):e38244. |
[21] | Hardt B, Volker C, Mundt S, et al. Human endo-alpha 1, 2-mannosidase is a golgi-resident type II membrane protein[J]. Biochimie, 2005, 87(2):169-179. |
[22] | Hassan KA, Xu ZQ, Watkins RE, et al. Optimized production and analysis of the staphylococcal multidrug efflux protein QacA[J]. Protein Expression and Purification, 2009, 64(2):118-124. |
[23] | Slimko EM, Lester HA. Codon optimization of Caenorhabditis elegans GluCl ion channel genes for mammalian cells dramatically improves expression levels[J]. Journal of Neuroscience Methods, 2003, 124(1):75-81. |
[24] | Sohl CD, Guengerich FP. Kinetic Analysis of the three-step steroid aromatase reaction of human cytochrome P450 19A1[J]. Journal of Biological Chemistry, 2010, 285(23):17734-17743. |
[25] | Baneres JL, Martin A, Hullot P, et al. Structure-based analysis of GPCR function:conformational adaptation of both agonist and receptor upon leukotriene B-4 binding to recombinant BLT1[J]. Journal of Molecular Biology, 2003, 329(4):801-814. |
[26] | Calderone TL, Stevens RD, Oas TG. High-level misincorporation of lysine for arginine at AGA codons in a fusion protein expressed in Escherichia coli[J]. Journal of Molecular Biology, 1996, 262(4):407-412. |
[27] | Gurvich OL, Baranov PV, Gesteland RF, et al. Expression levels influence ribosomal frameshifting at the tandem rare arginine codons AGG_AGG and AGA_AGA in Escherichia coli[J]. Journal of Bacteriology, 2005, 187(12):4023-4032. |
[28] | McNulty DE, Claffee BA, Huddleston MJ, et al. Mistranslational errors associated with the rare arginine codon CGG in Escherichia coli[J]. Protein Expression and Purification, 2003, 27(2):365-374. |
[29] | Vyas VV, Esposito D, Sumpter TL, et al. Clinical manufacturing of recombinant human interleukin 15. I. Production cell line development and protein expression in E. coli with stop codon optimization[J]. Biotechnology Progress, 2012, 28(2):497-507. |
[30] | Whittaker MM, Whittaker JW. Expression and purification of recombinant Saccharomyces cerevisiae mitochondrial carrier protein YGR257Cp(Mtm1p)[J]. Protein Expression and Purification, 2014, 93:77-86. |
[31] | Li GW, Oh E, Weissman JS. The anti-Shine-Dalgarno sequence drives translational pausing and codon choice in bacteria[J]. Nature, 2012, 484(7395):538-541. |
[32] | Deana A, Ehrlich R, Reiss C. Silent mutations in the Escherichia coli ompA leader peptide region strongly affect transcription and translation in vivo[J]. Nucleic Acids Research, 1998, 26(20):4778-4782. |
[33] | Duan JB, Wainwright MS, Comeron JM, et al. Synonymous mutations in the human dopamine receptor D2(DRD2)affect mRNA stability and synthesis of the receptor[J]. Human Molecular Genetics, 2003, 12(3):205-216. |
[34] | Pedersen M, Nissen S, Mitarai N, et al. The functional half-life of an mRNA depends on the ribosome spacing in an early coding region[J]. Journal of Molecular Biology, 2011, 407(1):35-44. |
[35] | Kudla G, Murray AW, Tollervey D, et al. Coding-Sequence determinants of gene expression in Escherichia coli[J]. Science, 2009, 324(5924):255-258. |
[36] | Makino S, Qu JN, Uemori K, et al. A silent mutation in the ftsH gene of Escherichia coli that affects FtsH protein production and colicin tolerance[J]. Molecular & General Genetics, 1997, 254(5):578-583. |
[37] | Hockenberry AJ, Sirer MI, Amaral LAN, et al. Quantifying position-dependent codon usage bias[J]. Molecular Biology and Evolution, 2014, 31(7):1880-1893. |
[38] | Bentele K, Saffert P, Rauscher R, et al. Efficient translation initiation dictates codon usage at gene start[J]. Molecular Systems Biology, 2013, 9:675. |
[39] | Goodman DB, Church GM, Kosuri S. Causes and effects of N-terminal codon bias in bacterial genes[J]. Science, 2013, 342(6157):475-479. |
[40] | Tang ZM, Salamanca-Pinzon SG, Wu ZL, et al. Human cytochrome P450 4F11:Heterologous expression in bacteria, purification, and characterization of catalytic function[J]. Archives of Biochemistry and Biophysics, 2010, 494(1):86-93. |
[41] | Mitarai N, Pedersen S. Control of ribosome traffic by position-dependent choice of synonymous codons[J]. Physical Biology, 2013, 10(5):056011. |
[42] | Chartier M, Gaudreault F, Najmanovich R. Large-scale analysis of conserved rare codon clusters suggests an involvement in co-translational molecular recognition events[J]. Bioinformatics, 2012, 28(11):1438-1445. |
[43] | Fluman N, Navon S, Bibi E, et al. mRNA-programmed translation pauses in the targeting of E. coli membrane proteins. [J]. Elife, 2014, 3. doi:10. 7554/eLife. 03440. |