文章信息
- 温强, 徐林初, 江香梅, 李江, 顾胤聪, 徐立安, 黄敏仁
- Wen Qiang, Xu Linchu, Jiang Xiangmei, Li Jiang, Gu Yincong, Xu Li'an, Huang Minren
- 基于454测序的油茶DNA序列微卫星观察与分析
- Survey and Analysis of Microsatellites from DNA Sequences in Camellia Species Using 454 Pyrosequencing
- 林业科学, 2013, 49(8): 43-50
- Scientia Silvae Sinicae, 2013, 49(8): 43-50.
- DOI: 10.11707/j.1001-7488.20130807
-
文章历史
- 收稿日期:2013-03-11
- 修回日期:2013-04-23
-
作者相关文章
2. 江西省林业科学院 南昌 330032
2. Jiangxi Forestry Academy Nanchang 330032
山茶属(Camellia)植物绝大部分都具有重要的经济价值与观赏价值,其中重要的油用物种如油茶(Camellia oleifera)称之为“东方的橄榄树”而闻名于世(Zhang et al., 2008)。目前在生产上通称的油茶是指种子含油率较高、有栽培及食用价值的山茶属多个种的总称,包括如油茶、浙江红山茶(C.chekiangoleosa)、短柱茶(C. brevistyla)等。当前全国油茶选育工作已进入新品种选育及种质创新阶段(庄瑞林,2010),从大量的油茶遗传资源中选育并丰富油茶良种迫在眉睫,因而研究油茶遗传变异规律、开展油茶分子标记辅助育种势在必行。
微卫星标记作为共显性分子标记,具有稳定、高效的特点,正被广泛运用于林木遗传变异分析、遗传连锁图谱构建以及遗传育种等研究中。该标记来源于广泛散布于基因组中的较短重复单元组成的微卫星序列,有研究认为这些序列是在基因组进化过程中导致并维持数量性状变异的重要因素(Kashi et al.,2006),同时是基因组中变异率相对较高的一类DNA 序列(Christian,2000)。微卫星的密度与分布特点在不同物种的整个基因组序列中呈现丰富多样性(Dieringer et al., 2003),其中分布于DNA 序列的编码区域微卫星重复单位的类型及微卫星长度的变异影响不同调节蛋白在翻译过程中的相互关系(Lue et al., 1989),甚至可能影响上游激活序列的转录活力(Martienssen et al., 2001)。微卫星重复单位的高度变异表现为微卫星数目的整倍性变异或重复单元序列中的不完全相同序列(Gow,2005),从而造成多个位点的多态性,使得利用微卫星开发的SSR(simple sequence repeat)标记具有较高的遗传多态性。同时,从在植物组织中直接参与功能表达的编码序列中开发的SSR 标记,与其他标记相比,可更多地将标记与表型相关联(Varshney et al., 2005),势必包含更加丰富的生物学信息。
山茶属中茶(C. sinensis)的SSR 分析报道较多(金基强等,2007; Sharma et al., 2009),而山茶属中重要油用物种的SSR 分析仅见史洁等(2012)对浙江红山茶基因组开展的SSR 研究。近年来,454 测序技术引领的高通量测序为在大量DNA 序列基础上开展多物种的微卫星比较分析乃至大量SSR 标记的开发成为可能。基于前述,本研究在对普通油茶、浙江红山茶、短柱茶3 个典型油茶树种454 高通量深度测序获得的大量基因组与转录组序列的基础上,充分发掘微卫星信息,分析比较油茶DNA 序列中微卫星重复序列的组成与分布特征,为山茶属不同树种基因组的分化提供重要参数,同时也为油茶多态性高的微卫星标记的开发提供生物信息学参考。
1 材料与方法 1.1 基因组及转录组序列来源普通油茶、浙江红山茶与短柱茶转录组序列及普通油茶基因组序列来源于各1 /4 个454 GS FLX组经纯化后直接上机测序,测序得到的基因组序列用454 测序仪自带的Newbler 软件进行处理和拼接; 其他转录组序列的获得及拼接处理参见陈英等(2011)的报道。
1.2 454 序列中微卫星的挖掘与统计采用MISA 软件(Thiel et al., 2003)对454 序列中的2 ~ 6 核苷酸重复类型SSR 进行检索,检索标准同时包括精确型(perfect)及复合型(compound)SSR 重复单元(Weber,1990),含二(dinucleotide repeat microsatellites,DNRs)、三(trinucleotide repeat microsatellites,TNRs)、四(tetranucleotide repeat microsatellites,TTNRs)、五(pentanucleotide repeat microsatellites,PTNRs)和六核苷酸重复微卫星类型(hexanucleotide repeat microsatellites,HXNRs)的基序(motif),检索标准依据Berube 等(2007)的方法,最小长度为18 bp,最小重复数分别为9,6,5,5,4 次。
Excel 软件统计检索数据,包括微卫星各种重复单元所占百分比含量、微卫星的平均跨度和发生频率(含有微卫星的DNA 序列与分析的独立序列总数之比)。在统计重复基序类型时,将基序的所有可能的+ 1 移码及其互补序列都视为同一个基序类型。如对于二核苷酸重复基序AC 而言,AC =CA = TG = GT,将这4 种二核苷酸重复类型出现的次数之和作为重复基序AC 出现的次数。按照这种方法,二核苷酸重复基序只有4 种类型,三核苷酸重复基序只有10 种类型(Jurka et al., 1995; Cardle et al.,2000)。
1.3 EST 序列中不同长度微卫星的分布及变异统计油茶3 树种EST 序列中长度≥18 bp 的SSR,利用EXCEL 的作图功能对不同长度重复单元构成的相同类型的微卫星分别绘制饼图,图中每一扇区对应不同长度的微卫星及其在同类型微卫星中的出现频率,扇区的多少反映了微卫星长度的变异情况,扇区越多说明对应类型的微卫星获得或失去重复单元的速率越快,因此对应类型的微卫星总体上会有更高的多态性。
1.4 微卫星在Unigene 上的分布采用ESTscan 软件(Iseli et al., 1999)以拟南芥(Arabidopsis thaliana)转录组数据库为参照[参数设置插入与缺失(indel)罚值为15],获取EST 序列的CDS 区域,分析微卫星在无冗余独立基因(unigene)序列的编码(CDS)及非编码区域(UTR)的分布规律,同时结果采用NCBI 的ORF Finder 软件(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)进行验证,数据结果采用Excel 软件进行统计并绘制饼图。此外,以精确型Motif 为检索标准,进一步统计编码区域及非编码区域中2 ~6 核苷酸的组成情况。
2 结果与分析 2.1 油茶454 序列微卫星分布的基本特征经MISA 软件发掘4 种序列来源的微卫星(表 1)。比较微卫星分布频率与跨度,转录组序列微卫星发生频率依次为: 短柱茶(0. 056)> 浙江红山茶(0. 055)> 普通油茶(0. 047),而普通油茶转录组序列比其基因组序列具有较高相对含量的微卫星。在所检索序列的所有微卫星重复单元中,二核苷酸均为主要的重复类型,所占比例依次为普通油茶基因组序列(62. 40%)> 短柱茶EST 序列(58. 77%)>浙江红山茶EST 序列(55. 53%)> 普通油茶EST 序列(55. 43%); 除六核苷酸重复单元外,其他4 种核苷酸重复单元表现为重复单元的碱基长度与不同类型重复单元的丰度呈负相关; 在所检测重复单元类型中,转录组序列中三、六核苷酸重复单元百分含量明显高于普通油茶基因组序列中的。几种主要的核苷酸重复单元占总量的百分含量见表 2。在二核苷酸重复基序类型中,以AG 类型最多,而CG 重复仅在普通油茶基因组序列及浙江红山茶转录组序列中极少量出现; 而对于三核苷酸重复基序类型,在3树种转录组序列中以AAG 类型最多,普通油茶基因组序列中三核苷酸序列则以AAT 类型数量最多;另外在所有序列中四核苷酸重复类型所占比例均表现出AAAT 类型含量最高。
微卫星DNA 的多态性主要来源于串联数目的不同,因而了解序列中不同长度微卫星的分布及变化对于今后有针对性地开发高多态性的SSR 标记意义重大。统计显示普通油茶、浙江红山茶、短柱茶的EST 序列所含微卫星长度上存在较为丰富的变化,其中检索出来的重复基元序列长度大小不等,普通油茶为18 ~ 70 个碱基,浙江红山茶为18 ~ 72 个碱基,短柱茶为18 ~ 170 个碱基,其中170 个碱基长度的微卫星仅出现了1 次; 3 树种微卫星序列平均长度大致相同,依次分别为23. 272,23. 054 及23. 123 个碱基。此外,对EST 序列所含不同长度重复单元的微卫星的长度变异情况进行了分析,结果(图 1)显示,3树种存在相似的规律,即对于2 ~ 5 核苷酸重复单元,这些微卫星的长度变异与对应的重复单元类型的碱基长度呈反比,而六核苷酸重复单元则有别于前者,表现为相反的趋势。
油茶3 树种Unigene 上的SSR 经ESTscan 软件检索确定其分区情况,数据利用Excel 软件绘制饼图(图 2),3树种中除浙江红山茶有16. 83%、短柱茶有13. 52%、普通油茶有16. 52%的SSR 不能确定其在Unigene 上的位置之外,其余的SSR 均能明确其在UTR 区域或者CDS 区上的分布,并具有较为相似的分布规律。总水平上,3 树种表现为分布于UTR 区域的SSR 所占比例均高于分布于CDS 区域的,而各分部区域比例总的表现为3'UTR > CDS > 5'UTR。
此外,排除未知及横跨在UTR 与CDS 区域(文中称之为兼有)的微卫星重复单元,以精确型Motif为检索标准,进一步统计仅落在CDS 及UTR 区域中2 ~ 6 核苷酸重复单元的组成情况。图 3 显示3树种不同长度重复单元的分布规律基本一致,在UTR 区域,重复单元主要以二核苷酸重复单元为主,占分布其上的重复单元总数的70% 以上,除六碱基重复单元其他5 种重复单元呈现依次减少的趋势,同时,数据显示3 树种分布于5'UTR 区域的三碱基微卫星的比例均高于3'UTR 的; 而在CDS 区域,重复单元则以三核苷酸重复单元为主,占分布其上重复单元总数的50%以上,其次为六核苷酸重复单元,占总数的25%以上。
本研究DNA 序列来自山茶属分属油茶组、红山茶组、短柱茶组的3 个油用代表树种,同时在各1 /4个454 测序反应的结果中既包括了3 树种的EST 序列,又具有普通油茶基因组序列,检索结果较能全面地反映油茶DNA 序列中微卫星的分布特征。从MISA 软件总的检索结果来看,所有序列中SSR 的发生频率在0. 031 ~ 0. 067 之间,出现跨度在6 251. 09 ~ 9 530. 38 bp 之间,约小于Kantety 等(2002)禾谷类作物SSR 发生频率(0. 07 ~ 0. 10),在许玉兰等(2012)统计的近年来文献报道的13 种林木中EST 序列的发生频率(0. 015 9 ~ 0. 145 9)范围之内。短柱茶与浙江红山茶的微卫星频率与跨度较为接近,均高于普通油茶基因组及转录组序列的观测值,造成这一结果的主要原因可能在于前二者为二倍体,而普通油茶为六倍体,多倍体植物核中存在的重复基因及重复基因组使测序效率下降,同时多倍体基因组重组过程中重复序列易出现基因入侵现象(杨继,2001),这也降低了重复序列的复杂性。同时,油茶454 序列检索显示,油茶3 树种的EST 序列与普通油茶基因组序列相比,后者微卫星含量相对最少,Morgante 等(2002)和Lawson 等(2006)对基因组全序列的分析和比较发现拟南芥等植物的基因组DNA 比EST 中的微卫星分布密度要低,这与本文的结果一致。在所观测的序列中微卫星重复单元中二、三核苷酸重复单元居多,其中以二核苷酸重复单元最为丰富,这与Kantety 等(2002)、Varshney 等(2002)对禾谷类作物中的微卫星研究结果三核苷酸类型最多不同。从近年来林木微卫星研究报道来看,模式树种杨树(Populus)基因组中三核苷酸重复类型含量最多(Li et al., 2007),但在其他树种如麻疯树(Jatropha curcas)(Yadav et al., 2011)、橡胶树(Hevea brasiliensis)(Feng et al., 2009)、银杏(Ginkgo biloba)(樊洪泓等,2009)、北美鹅掌楸(Liriodendron tulipifera)(胥猛等,2008)EST 序列中重复单元则是以二核苷酸重复单元最多,可见油茶的这一特点非特例现象。
此外,油茶454 序列的二核苷酸重复单元类型中均以(AG)n类型为最多,而(AC)n相对稀少,四核苷酸以(AAAT)n类型最多,而检索到三核苷酸重复类型在油茶3 树种的EST 序列中最多的为(AAG)n,这与杨树、桉树(Eucalyptus)EST 序列检索结果一致(阎毛毛等,2011),同时也与山茶属茶树EST 序列中微卫星的分布特征(金基强等,2007;Sharma et al., 2009)相一致。Li 等(2004)认为AAG重复是植物微卫星中最主要的三核苷酸重复单元,但本研究检索到三核苷酸重复类型在普通油茶基因组序列中则以(AAT)n最多,而史洁等(2012)检索基因覆盖度在10% 的浙江红山茶基因组序列微卫星分布中三核苷酸重复类型也以(AAT)n最多,初步推断这是山茶属树种基因组序列微卫星有别于其EST 序列的主要特点。另外,Morgante 等(2002)研究了单子叶植物中的(CG)n重复单元,认为这些基序增加了微卫星序列中GC 含量的同时也可能是某些特定的氨基酸序列; Li 等(2007)在对杨树基因组微卫星的研究中也提到,SSR 序列中的GC 含量显著相关于微卫星的功能。本研究中普通油茶基因组序列与浙江红山茶转录组序列中也同样包含极个别的(CG)n重复单元,而在三核苷酸重复中也存在少量的(CCG)n类型,这些序列是否与某些特定功能相关有待今后进一步研究。
3.2 微卫星长度变异及在Unigene 的分布SSR 虽然是一些简单序列的重复,但它却有着复杂的进化机制(Ellegren,2004)。在对SSR 的研究中,提出了很多解释SSR 进化或突变的模型,但这些模型都具有一定的局限性,不能完全解释SSR的特征。从油茶3 树种EST 序度的分布来看,长度≥18 bp 的微卫星其序列长短不一,但平均值均在23 bp 左右,显示短序列的重复单元占多数且相对集中,而长序列则分散而稀疏。由于微卫星序列越长,其稳定性越差,尤其在基因区,微卫星序列越长则基因越不稳定(李淑娴等,2010)。根据这一分析,判断油茶表达基因所含的微卫星可能会受到强烈趋同选择的压力,从而使这些重复序列向较短的序列进化。另外,微卫星重复单元长度的变化情况可以反映微卫星位点获得(或失去)重复单元的活跃程度。本研究通过对EST 不同长度重复单元的微卫星长度进行分析,结果显示除六核苷酸重复微卫星之外,这些微卫星的长度变异与所含重复单元的长度变化呈反比。故总体而言,除六核苷酸微卫星外,五核苷酸重复微卫星理论多态性最低,而二核苷酸重复微卫星理论多态性最高。
目前的研究已经表明,SSR 偏向分布于转录区,其在转录区的分布密度要比非转录区高得多,即使在转录区SSR 的分布也不是均匀的随机分布,其在UTR 的密度要显著高于CDS 区(Li et al., 2002)。本研究中转录组的微卫星无论是频度还是跨度均高于基因组区域,也显示SSR 共同的分布规律。SSR位点在Unigene 的位置会决定或者影响到其功能和变异。通常位于CDS 区的SSR,当其长度发生变异时会影响到蛋白质的翻译,甚至产生新的表型性状,这使得位于CDS 区的SSR 比位于UTR 区的SSR 面临着更大的选择压力(Li et al., 2004),而油茶EST序列的SSR 位点,位于CDS 区的数量要少于UTR区总的数量,这与前述事实相符。此外,对Unigene上的精确型不同类型重复单元在各自分布区域的分布含量进行统计的结果显示,UTR 区域的二核苷酸重复单元数量占相当高比例,而CDS 区域内三核苷酸重复单元的比例远远高于其他重复单元类型,这一结果与Morgante 等(2002)和Li 等(2004)的研究结果一致。另外,本研究中油茶3 树种5'UTR 区域的三核苷酸微卫星的分布均高于3'UTR,这一结果与拟南芥的相关研究(Morgante et al., 2002)一致。部分5'UTR 区域内的某些SSR 发生变异时,该特定变异区域会通过影响转录和翻译来调控基因的表达,即在基因表达过程中起到一定的辅助作用(Kalia et al., 2011),而基因内的SSR 比基因组其他区域的SSR 面临着更大的选择压力,因而可以预计5'UTR 区域的SSR 相对3'UTR 要保守些。
[1] | 陈英,江香梅,张露,等. 2011. 基于油茶57 万条EST 序列的转录组学研究. 林业科学,47(2) : 161 - 163.(1) |
[2] | 樊洪泓,李廷春,李正鹏,等. 2009. 银杏EST 序列中微卫星的分布特征. 基因组学与应用生物学,28( 5) : 869 - 873.(1) |
[3] | 金基强,崔海瑞,龚晓春,等. 2007. 用EST-SSR 标记对茶树种质资源的研究. 遗传,29( 1) : 103 - 108.(2) |
[4] | 李淑娴,张新叶,王英亚,等. 2010. 桉树EST 序列中微卫星含量及相关特征. 植物学报,45 ( 3) : 363 - 371.(1) |
[5] | 史洁,尹佟明,管宏伟,等. 2012. 油茶基因组微卫星特征分析. 南京林业大学学报: 自然科学版,36( 2) : 47 - 51.(2) |
[6] | 许玉兰,蔡年辉,康向阳,等. 2012. EST-SSR 标记的开发及其在木本植物中的分布特点. 中国农学通报,28( 4) : 1 - 7.(1) |
[7] | 胥猛,李火根. 2008. 鹅掌楸EST-SSR 引物开发及通用性分析. 分子植物育种,6( 3) : 615 - 618.(1) |
[8] | 阎毛毛,戴晓港,李淑娴,等. 2011. 松树、杨树及桉树表达基因序列微卫星比对分析. 基因组学与应用生物学, 30( 1) : 103 - 109.(1) |
[9] | 杨继. 2001. 植物多倍体基因组的形成与进化. 植物分类学报,39( 4) : 357 - 371.(1) |
[10] | 庄瑞林. 2010. 我国油茶育种选育工作的历史回顾与展望. 林业科技开发,24( 6) : 1 - 5.(1) |
[11] | Berube Y,Zhuang J,Rungis D,et al. 2007. Characterization of ESTSSRs in loblolly pine and spruce. Tree Genetics & Genomes,3( 3) :251 - 259.(1) |
[12] | Cardle L,Ramsay L,Milbourne D,et al. 2000. Computational and experimental characterization of physically clustered simple sequence repeats in plants. Genetics,156( 2) : 847 - 854.(1) |
[13] | Christian S. 2000. Evolutionary dynamics of microsatellite DNA.Chromosoma,109( 6) : 365 - 371.(1) |
[14] | Dieringer D,Schltterer C. 2003. Two distinct modes of microsatellite mutation processes: evidence from the complete genomic sequences of nine species. Genome Research,13( 10) : 2242 - 2251.(1) |
[15] | Ellegren H. 2004. Microsatellites: simple sequences with complex evolution. Nature Reviews Genetics,5 ( 6) : 435 - 445.(1) |
[16] | Feng S P,Li W G,Huang H S,et al. 2009. Development,application and cross-species /genera transferability of EST-SSR makers for rubber tree ( Hevea brasiliensis) . Molecular Breeding,23( 1) : 85 -97.(1) |
[17] | Gow J L. 2005. A high incidence of clustered microsatellite mutations revealed by parent-offspring analysis in the African freshwater snail Bulinus forskalii ( Gastropoda pulmonata ) . Genetica, 124( 1) : 77 - 83.(1) |
[18] | Iseli C,Jongeneel C V,Bucher P. 1999. ESTScan: a program for detecting,evaluating,and reconstructing potential coding regions in EST sequences. Proceedings of the International Conference on Intelligent Systems Molecular Biology,138 - 148.(1) |
[19] | Jurka J,Pethiyagoda C. 1995. Simple repetitive DNA sequence from primates: compilation and analysis. Journal of Molecular Evolution,40( 2) : 120 - 126.(1) |
[20] | Kalia R K,Rai M K,Kalia S,et al. 2011. Microsatellite markers: an overview of the recent progress in plants. Euphytica, 177( 3) : 309 - 334.(1) |
[21] | Kantety R V,La R M,Matthews D E,et al. 2002. Data mining for simple sequence repeats in expressed sequence tags from barley,maize, rice, sorghum and wheat. Plant Molecular Biology,48( 5 /6) : 501 - 510.(1) |
[22] | Kashi Y,King D G. 2006. Simple sequence repeats as advantageous mutators in evolution. Trends in Genetics,22( 5) : 253 - 259.(1) |
[23] | Lawson M J,Zhang L. 2006. Distinct patterns of SSR distribution in the Arabidopsis thaliana and rice genomes. Genome Biology,7 ( 2 ) :R14 doi: 10. 1186 /gb-2006-7-2-r14.(2) |
[24] | Li Shuxian,Yin Tongming. 2007. Map and analysis of microsatellites in the genome of Populus: the first sequenced perennial plant. Science in China Series C: Life Sciences,50( 5) : 690 - 699.(1) |
[25] | Li Y C,Abraham B,Fahima K T,et al. 2004. Microsatellites within genes: structure, function, and evolution. Molecular Biology Evolution,21( 6) : 991 - 1007.(1) |
[26] | Li Y C,Korol A B,Fahima T,et al. 2002. Microsatellites: genomic distribution, putative functions and mutational mechanisms: a review. Molecular Ecology,11( 12) : 2453 - 2465.(1) |
[27] | Lue N F,Buchman A R,Kornberg R D. 1989. Activation of yeast RNA polymerase II transcription by a thymidine-rich upstream element in vitro. Proceedings of the National Academy of Sciences of USA,86( 2) : 486 - 490.(1) |
[28] | Martienssen R A,Colot V. 2001. DNA methylation and epigenetic inheritance in plants and filamentous fungi. Science,293( 5523) :1070 - 1074.(1) |
[29] | Morgante M, Hanafey M, Powell W. 2002. Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes.Nature Genetics,30( 2) : 194 - 200.(2) |
[30] | Sharma R K, Bhardwaj P, Negi R, et al. 2009. Identification,characterization and utilization of unigene derived microsatellite markers in tea ( Camellia sinensis L. ) . BMC Plant Biology,9( 1) :53.(2) |
[31] | Thiel T,Michalek W,Varshney R K,et al. 2003. Exploiting EST databases for the development of cDNA derived microsatellite markers in barley ( Hordeum vulgare L. ) . Theoretical and Applied Genetics,106( 3) : 411 - 422.(1) |
[32] | Varshney R K,Thiel T,Stein N,et al. 2002. In silico analysis on frequency and distribution of microsatellites in ESTs of some cereal species. Cell Molecular Biology Letter,7( 2A) : 537 - 546.(1) |
[33] | Varshney R K,Graner A,Sorrells M E. 2005. Genic microsatellite markers in plants: features and applications. Trends in Biotechnology,23( 1) : 48 - 55.(1) |
[34] | Weber J L. 1990. Informativeness of human ( dC-dA)n·( dG-dT)n polymorphisms. Genomics,7( 4) : 524 - 530.(1) |
[35] | Yadav H K,Ranjan A,Asif M H,et al. 2011. EST-derived SSR markers in Jatropha curcas L. : development, characterization,polymorphism,and transferability across the species genera. Tree Genetics & Genomes,7( 1) : 207 - 219.(1) |
[36] | Zhang D L,Stack L,Zhang R Q,et al. 2008. Teaoil camellia—eastern“olive”for the world. Acta Horticulturae,769: 43 - 48.(1) |