林业科学  2013, Vol. 49 Issue (6): 160-166   PDF    
DOI: 10.11707/j.1001-7488.20130623
0

文章信息

张新叶, 张亚东, 彭婵, 宋丛文, 杨彦伶
Zhang Xinye, Zhang Yadong, Peng Chan, Song Congwen, Yang Yanling
水杉基因组微卫星分析及标记开发
Analysis of Genomic Microsatellite Sequence and Development of SSR Markers in Metasequoia glyptostroboides
林业科学, 2013, 49(6): 160-166
Scientia Silvae Sinicae, 2013, 49(6): 160-166.
DOI: 10.11707/j.1001-7488.20130623

文章历史

收稿日期:2012-09-14
修回日期:2012-11-22

作者相关文章

张新叶
张亚东
彭婵
宋丛文
杨彦伶

水杉基因组微卫星分析及标记开发
张新叶1, 张亚东1, 彭婵1, 宋丛文2, 杨彦伶1    
1. 湖北省林业科学研究院 武汉 430075;
2. 湖北生态工程职业技术学院 武汉 430200
关键词水杉    基因组    微卫星    标记开发    
Analysis of Genomic Microsatellite Sequence and Development of SSR Markers in Metasequoia glyptostroboides
Zhang Xinye1, Zhang Yadong1, Peng Chan1, Song Congwen2, Yang Yanling1     
1. Hubei Forestry Academy Wuhan 430075;
2. Hubei Ecology Vocational College Wuhan 430200
Abstract: In this paper, the partial genome of Metasequoia glyptostroboides, a rare plant, was sequenced by using the ROCHE-454 GLX high-throughput sequencing platform. Through sequence assembly and microsatellite finding, 1 965 microsatellite loci were obtained in the sequence and the repeat unit length was 2-5 base pairs, by which 921 pairs of primer were designed with the Primer 3 Plus software. Analysis of these microsatellite sequences showed that tetranucleotide microsatellite was the most abundant, accounting for 38.8% of the total repeat sequences, followed by dinucleotide (31.8%), trinucleotide (22%) and pentanucleotide (7.4%) in the M. glyptostroboides genome. Among the dinucleotide repeat types, AG type was the most, accounting for 13.9% of total repeats and 43.8% of dinucleotide repeats. In the eight trinucleotide repeat types, AAG type accounted for 8.3% of total repeats and 37.7% of trinucleotide repeats, followed by ATG (23.1%), AAC (16.7%) and AAT (13.0%). The analysis of different lengths of the microsatellite repeat unit showed that the most abundant variants were dinucleotide microsatellite and there were 23 different types of repeat lengths, followed by the tetranucleotide repeat (10 types), trinucleotide repeat (8 types) and pentanucleotide repeat (3 types). The validation of SSR markers showed that, 87 pairs brought about clear products and 46 pairs had polymorphic products, accounting for 62.14% and 32.86% out of the 140 primer pairs,respectively.
Key words: Metasequoia glyptostroboides    genome    microsatellites    marker development    

微卫星(microsatellite)又称简单重复序列(simple sequence repeat,SSR),是指以少数几个核苷酸为单位,多次串联重复的 DNA 序列,其普遍存在于真核生物及一些原核生物基因组中。基因组序列中微卫星重复序列变异最快,在群体间和不同个体间通常表现出很高的序列多态性,且呈共显性遗传。由于重复单元重复次数的高度可变性及其侧翼序列的相对保守性,微卫星作为一种分子标记被广泛应用于物种的指纹鉴定、亲子谱系分析、群体遗传结构分析、遗传图谱构建、比较基因组及分子标记辅助育种等诸多研究领域(李淑娴等,2010)。

近年来,随着 EST(expressed sequenced tags)计划在不同物种间的扩展和研究内容的深入,来源于不同类型的基因表达序列信息在公共数据库中急剧上升,使得 EST 序列成为开发不同物种 EST-SSR 标记的主要来源(张新叶等,2009)。这些 EST-SSR 标记来自于基因的编码序列,因此可成为控制基因表达的功能分子标记(Choudhary et al.,2009)。但相比于基因组 SSR,EST-SSR 的不足在于其更保守,通常只存在于基因表达丰富区,而基因组 SSR 多态性更高,且遍布于整个基因组中(Saha et al.,2006)。而且,最近建立的 GA(Illumina 公司)、SOLiD(ABI 公司)和454(Roche 公司)等新一代测序平台在进行高通量基因组测序的同时,体现出价格低、速度快等特点,短期内即可产生千兆碱基的数据量(Holt et al.,2008),完全改变了先前开发基因组 SSR 标记费时、费力且成本高的缺点。因此,新一代测序技术将对那些没有足够数据库资源的物种开发大量分子标记(包括基因组 SSR 标记)的工作发挥重要作用。

水杉(Metasequoia glyptostroboides)是世界珍稀的孑遗植物,也是我国一级保护植物。水杉素有“活化石”之称,它对于古植物、古气候、古地理和地质学,以及裸子植物系统发育的研究均有重要意义。尽管水杉在世界各国、各地区的引种栽培取得了巨大成功(王希群等,2005),但水杉的遗传学相关基础研究较少。在水杉细胞遗传学方面,仅1948年 Stebbins 指出水杉的染色体2n=22,后来Schlarbaum等(1983)He等(2004)进行确认; 在水杉遗传多样性研究中,所有相关研究都是利用 RAPD、AFLP 及等位酶等随机标记(李春香等,1999 ; 李晓东等,2005 ; 李作洲,2003 ; Li et al.,2005),在开发水杉特异标记方面,仅 Cui等(2010)新开发了11个可利用的微卫星标记。

针对这一现状,本研究利用 ROCHE-454 GLX 高通量测序平台获得的水杉基因组序列,在序列拼接的基础上,开展了微卫星序列查找,对水杉基因组所含微卫星重复序列的特征和组成情况进行了分析,并根据所发现的1 965个微卫星开发出921个SSR 标记位点。本研究结果将对利用分子标记研究水杉群体的遗传变异提供较丰富的标记资源,同时对保存遗传学及分子标记辅助育种具有重要价值。

1 材料与方法 1.1 微卫星序列查找及引物设计

水杉基因组测序材料为武汉九峰山附近的1株水杉,利用 ROCHE-454 GLX 测序仪进行序列测定,在序列组装的基础上利用软件SSRIT(simple sequence repeatidentification tool)在线(http:∥www.gramene.org/de/seaches/ssrtool)对组装的序列进行SSR 序列查找。查找标准为: 重复次数分别不小于5次、4次和3次的二核苷酸、三核苷酸、四核苷酸及更多核苷酸重复序列。最后再应用引物设计软件Primer 3 Plus(http:∥www.bioinformatics.nl/cgi-bin/primer3plus/primer3 plus.cgi)对含有SSR 的水杉基因组序列进行引物设计。SSR 引物设计原则为: 序列长度大于100 bp; 引物长度为18~25 bp; 退火温度Tm值55~60 ℃ ; GC 含量40 %~60 % ; PCR 扩增产物长度为100~300 bp(张新叶等,2009)。

1.2 水杉基因组微卫星组成及序列长度变异分析

根据微卫星重复的序列特征不同,利用 EXCEL 表统计分析2~5核苷酸重复类型所占比例,找出不同类型微卫星中的优势重复单元,分析其碱基组成及频率; 并对2~5核苷酸重复类型中不同 SSR 的分布和长度变异情况进行分析,了解水杉基因组微卫星长度多态性等相关信息。

1.3 水杉基因组 SSR 标记初步验证

以武汉九峰山附近随机采集的水杉叶片为植物材料,利用改进的 CTAB 法进行基因组总 DNA 提取(Doyle et al.,1987)。 PCR 反应体系15 μL: 10 μmol·L-1Tris- HCl(pH 8.3),50 mmol·L-1KCl,2.0 mmol·L-1MgCl2,0.01 % gelatin,0.1 mg BSA,200 μmol·LdNTP(Promega),引物2.0 μmol·L-1Taq聚合酶(Takara)0.5 U,10 ng 基因组 DNA。PCR反应在仪器 GenAMP 9700(ABI)上进行,反应程序采用 Touch-down PCR: 94 ℃ 5 min; 94 ℃ 30 s,59 ℃ 30s(△℃ = - 1.0 ℃),72 ℃ 30 s,9个循环; 94 ℃30 s,55 ℃ 30 s,72 ℃ 30 s,21个循环; 72 ℃ 3 min; 4 ℃保存。PCR 产物检测采用琼脂糖凝胶(引物初筛)和聚丙烯酰胺凝胶(引物复筛)进行。

2 结果与分析 2.1 水杉基因组序列测定及微卫星序列查找

在水杉 DNA 文库构建基础上,利用 ROCHE-454 GLX测序仪进行序列测定,共得到1 534 336条序列,测得水杉基因组401.01 Mb 的 DNA 序列,片段平均读长为261.4 bp。利用 GS Assembler 软件对序列进行了序列组装和拼接,共获得28 459个长度大于100bp 的Contigs,最大的 Contig 长度为49 762 bp,Contig size 为4 040个,Contigs 平均长度为290.28bp,平均 Contig size 为15.43个。

由于微卫星扩增片段一般在100~300 bp 之间,这些 Contigs 适合用于微卫星标记开发。利用 SSRIT 软件要求及查找标准,在28 459个 Contigs 序列中,共获得2~5核苷酸重复序列1 965个,没有发现大于5个核苷酸的重复序列,其中二、三、四、五核苷酸重复序列的数量分别为625个、432个、762个和146个。根据引物设计原则及 Primer 3 Plus 的要求,共获得水杉基因组 SSR 引物921对,表 1列出了开发的部分引物的信息。

表 1 本研究开发的部分水杉微卫星引物 Tab.1 Partial genomic SSR primer information of Metasequoia glyptostroboides
2.2 水杉基因组微卫星组成和相关特征分析

按照微卫星重复序列结构的不同,可以分为精确型 SSR、非精确型以及复合型 SSR。精确型 SSR 是由1种串联重复序列以不间断的重复方式组成的单一重复类型的微卫星(Weber,1990)。本研究仅对水杉基因组中由2~5核苷酸重复构成的精确型 SSR 进行分析,建立相关水杉基因组 SSR 数据库。

参考有关学者对重复序列单元分类的标准(Jurka et al.,1995),对本研究建立的水杉基因组SSR 数据库中的重复序列进行分析。结果(表 2)发现,以四核苷酸为重复单元的 SSR 含量最多,占总数的38.8%,之后依次为二核苷酸(31.8%)、三核苷酸(22%)和五核苷酸(7.4%)。其中,该数据库中的二核苷酸重复微卫星只有3种类型,缺少 GC-CG 类型;三核苷酸重复微卫星有8种,缺少 GGC-CGC和ACG-TCG 类型; 但在四核苷酸和五核苷酸重复序列中,各种不同重复单元类型丰富,四核苷酸中包含了116种,五核苷酸中包含了88种重复序列微卫星。

表 2 基因组 SSR 重复序列类型及相关统计信息 Tab.2 Distribution of the genomic SSR based on the motif sequence

在二核苷酸重复类型中,AG 重复序列的数量最多,总发现频率为274次,占所有发现重复序列总数的13.9 %,占二核苷酸重复类型的43.8 % 。在8种三核苷酸重复类型中,AAG 重复序列数量最多,占总重复序列数的8.3 %,占三核苷酸重复类型的37.7 %,其次为 ATG(23.1 %)、AAC(16.7 %)和AAT(13.0 %),其他类型相对较少。四核苷酸和五核苷酸重复类型较多,但不同类型所占比例相对较小。图 1显示了不同长度重复单元微卫星中各重复单元的含量比例。

图 1 不同长度重复单元微卫星中各重复单元含量比例 Fig. 1 Percentage of repeats in different types of microsatellites 图中每一个扇区分别对应不同的重复单元 ; 若对应单元频率≤0.02 ,则合并在同一扇区内。
Differentrepeats of microsatellitesare demonstrated in separate slices.If the corresponding percentage ≤0.02 ,slices were combined for percentages.

进一步对含不同长度重复单元的水杉微卫星的出现频率进行统计,结果表明(表 3),二核苷酸重复微卫星长度变异类型最丰富,有23种不同长度的重复类型,其次是四核苷酸重复(10种)、三核苷酸重复(8种),变异类型最少的是五核苷酸重复,只出现3种不同长度的重复类型; 同时还表明,在2~5核苷酸重复微卫星类型中,每种类型都有其占绝对优势的不同长度的 SSR,在2~5核苷酸重复中,出现频率最高的 SSR 分别占各自类型总频率的60.2 % 、86.6 % 、91.1 %和89.0 %,尤其在四核苷酸重复类型中,重复3次的 SSR 出现频率高达694次,而重复4次的骤降为47次。表明水杉基因组微卫星序列具有明显的物种特异性。

表 3 水杉基因组不同长度重复单元微卫星的变异 Tab.3 Length diversification of the microsatellites in partsequences of Metasequoia glyptostroboides genome
2.3 水杉基因组 SSR 标记验证

在设计好的921对水杉基因组 SSR 引物中,随机选取140对引物进行 PCR 扩增,其中分别含有二核苷酸、三核苷酸、四核苷酸及五核苷酸重复单元。首先采用1个 DNA样品对这140对引物进行初筛(图 2),结果显示有15对引物没有扩增产物,占总比例的10.71 %,有38对引物的 PCR 产物不清晰,其余87对引物有清晰谱带,占合成引物总数的62.14 % 。然后利用5个不同的水杉 DNA 样品对初筛出的87对引物进行多态性检验,结果显示(图 3),有46对引物检测出多态性,占初筛引物总数的32.86 %,占复筛引物总数的52.87 % 。

图 2 引物初筛电泳结果 Fig. 2 Primer screening by agarose gel electrophoresis using 1 DNA sample 1 - 24 : 引物 The primer; M: The DNA marker.
图 3 引物多态性检测电泳结果 Fig. 3 Polymorphism detection of SSR primer by PAGE electrophoresis using 5 DNA samples
3 结论与讨论

由于水杉基因组信息资源的匮乏使其分子标记开发受到严重制约,目前可查阅利用的水杉微卫星标记仅有11对(Cui et al.,2010),因此,通过快速高效测序方法获得足够长度能覆盖基因组的序列信息对全面开发 SSR 分子标记具有重要意义。本研究完成了水杉基因组400 Mb 以上的序列测定,获得了150余万条序列,而且经组装和拼接,获得近3万个有效 Contigs,这些数据为水杉基因组微卫星序列查找提供了可靠且丰富的来源,同时也保障了所开发水杉基因组 SSR 标记的准确性,这一点在本研究结果中得到了充分体现;如本研究共在28 459个Contigs 序列中获得2~5核苷酸重复序列1 965个,获得高质量的 SSR 引物921对,引物验证结果也充分表明所开发 SSR 标记的高效性,在140对引物中,约90 % 的引物可以得到有效扩增。由于本试验在验证标记时,为方便试验,统一设置了 PCR 条件,没有针对每个引物的退火温度进行调整,因此,能得到62.14 % 的高标准初筛结果和32.86 % 多态性标记比例,表明本研究标记开发的可行性和可靠性。

由于微卫星序列与基因组中的其他序列相比变异频率较高,所以微卫星被认为是在基因组进化过程中导致并维持数量性状变异的重要因素之一(Tautz et al.,1986 ; Kashi et al.,1997),因此,研究基因组中的微卫星特征对于了解所研究物种的基因组进化具有重要意义。越来越多的研究表明,基因组中的微卫星具有重要的功能,包括基因调控、发展和进化等各个方面。Gábor等(2000)对9大类真核生物基因组中微卫星的分布进行了分析,显示微卫星主要分布在内含子区和基因间隔区,只有少部分分布在外显子区。在原核生物和酵母的基因组中,处于优势的重复序列类型是三碱基,而比它们更高等的生物基因组中,则倾向于两碱基和单碱基重复序列类型。在Lawson等(2006)对拟南芥(Arabidopsis thaliana)和水稻(Oryza sativa)的基因组微卫星分析中,发现两者都是三碱基重复序列最丰富,其次是二碱基和四碱基重复序列。在杨树(Populus)基因组(Tuskan et al.,2004)和火炬松(Pinus taeda)基因组(Echt et al.,2011)中,微卫星最丰富的是二碱基重复序列,然后是三碱基和四碱基。而对本研究构建的水杉微卫星数据库的分析发现,水杉基因组中的优势重复序列类型是四碱基重复单元(38.8 %),其次是二碱基(31.8 %)、三碱基(22 %)和五碱基(7.4 %)。而且发现在火炬松(Echt et al.,2011)和杨树(Tuskan et al.,2004)这2个木本植物基因组中,两者有相同的组成规律,最丰富的二核苷酸类型都是AT,其次是AG,最丰富的三核苷酸类型都是AAT和AAG,最丰富的四核苷酸类型是AAAT,即处于优势数目的重复拷贝类型富含 A/T。但在本研究中,最丰富的二核苷酸类型是 AG,占二核苷酸重复类型的43.8 %,其次是AT(37.8 %)和AC(18.4 %),且只有这3种类型,缺少 GC-CG 类型。在出现的8种三核苷酸重复类型中,AAG 重复序列数量最多,占三核苷酸重复类型的37.7 %,其次为ATG(23.1 %)、AAC(16.7 %)和AAT(13.0 %)。最丰富的四核苷酸类型是TTAA,占四核苷酸重复类型的8.8 % 。这些重复序列组成特征明显不同于火炬松和杨树基因组相关组成。这些差异充分表明不同物种基因组中,其微卫星序列的组成特征不同,也同时表明水杉作为一种“活化石”植物,有着其独特的基因组组成,与目前广泛研究的模式植物拟南芥、水稻和杨树等的基因组存在较大差异。

微卫星序列长度的分化情况反映了微卫星序列获得(或失去)重复单元的速率,这一特征与微卫星位点的多态性直接相关(李淑娴等,2010)。根据 Temnykh等(2001)对微卫星的分类: 长度 L≥20 bp 的 SSR 为第1类,12 bp < L < 20 bp 的为第2类,且两类 SSR 相比,L ≥ 20 bp 的 SSR 具有更高的多态性。这一规律是 Weber(1990)最早于人类的微卫星实验数据中发现,并已在很多生物体中得到证实。第2类 SSR 由于片段长度较短,在滑链错配时可产生的错配位点就会相对较少,故多态性不如第1类。片段长度小于12 bp 的 SSR 的突变率与其他序列没有差别,呈随机变异趋势(阎毛毛等,2011)。本研究对发现的1 965个微卫星长度进行分析发现,水杉基因组序列所含微卫星在长度上存在极显著的变异,发现微卫星长度从10~528 bp 不等,微卫星平均长度为13.32 bp。其中长度 L ≥20 bp 的微卫星仅占5.1 % 。这一结果显示水杉基因组序列中的微卫星在进化过程中可能受趋同选择的影响,从而使这些微卫星在较短长度的区间内大量富集。通过对含不同长度重复单元的微卫星的长度变异情况看,这些微卫星的长度变异与所含重复单元的长度大致成反比,微卫星的长度变异程度随着重复单元长度的增加而降低,该结果与油茶基因组微卫星特征分析的结果相似(史洁等,2012)。总体而言,在本研究构建的水杉微卫星数据库中,五核苷酸重复微卫星理论多态性最低,而二核苷酸重复微卫星理论多态性最高。

水杉基因组大小目前还没有确定,本研究完成的400 Mb 的水杉基因组序列信息将成为水杉基因组研究的重要基石,基于这些序列开发的高质量微卫星标记将使水杉基因组研究更加深入,并将为水杉及相关物种的分子研究提供有效的遗传工具,在更多领域更深层次的研究中得到更广泛的应用。

参考文献(References)
[1] 李春香,杨群,周建平,等. 1999.水杉自然居群遗传多样性的RAPD研究.中山大学学报, 38(1): 59-63.(1)
[2] 李淑娴,张新叶,王英亚,等. 2010.桉树EST序列中微卫星含量及相关特征.植物学报, 45(3):363-371.(2)
[3] 李晓东,杨佳,史全芬,等. 2005. 8个栽培水杉居群遗传多样性的等位酶分析.生物多样性, 13(2): 97-104.(1)
[4] 李作洲.2003.水杉孑遗居群AFLP遗传变异的空间分布.生物多样性, 11(4): 265-275.(1)
[5] 史洁,尹佟明,管宏伟,等.2012.油茶基因组微卫星特征分析.南京林业大学学报:自然科学版,36(2): 47-51.(1)
[6] 王希群,马履一,田华,等. 2005.中国水杉引种研究.广西植物, 25(1): 40-47.(1)
[7] 阎毛毛,戴晓港,李淑娴,等.2011.松树、杨树及桉树表达基因序列微卫星比对分析.基因组学与应用生物学, 30(1):103-109.(1)
[8] 张新叶,宋丛文,张亚东,等. 2009.杨树EST-SSR标记的开发.林业科学, 45(9):53-59.(2)
[9] Choudhary S, Sethy N K, Shokeen B, et al. 2009. Development of chickpea EST-SSR markers and analysis of allelic variation across related species. Theor Appl Genet, 118(3):591-608.(1)
[10] Cui Minyan, Yu Shuo, Liu Min, et al. 2010. Isolation and characterization of polymorphic microsatellite markers in Metasequoia glyptostroboides (Taxodiaceae). Conservation Genet Resour, 2(9): 19-21.(2)
[11] Doyle J J, Doyle J L. 1987. A rapid DNA isolation procedure for small quantities of fresh leaf tissue. Phytochemical Bulletin, 19: 11-15.(1)
[12] Echt C S, Saha S, Deemer D L, et al. 2011. Microsatellite DNA in genomic survey sequences and UniGenes of loblolly pine. Tree Genetics & Genomes, 7(4):773-780.(2)
[13] Gábor Tóth, Zoltán Gáspári, Jerzy Jurka.2000. Microsatellites in different eukaryotic genomes: survey and analysis. Genome Res, 10(7):967-981.(1)
[14] He Zican, Li Jianqiang, Cai Qing, et al. 2004. Cytogenetic studies on Metasequoia glyptostroboides, a living fossil species. Genetica, 122(3):269-276.(1)
[15] Holt R A, Jones S J. 2008. The new paradigm of flow cell sequencing. Genome Res, 18(6):839-846.(1)
[16] Jurka J, Pethiyagoda C. 1995. Simple repetitive DNA sequences from primates: compilation and analysis. J Mol Evol, 40(2):120-126.(1)
[17] Kashi Y, King D, Soller M.1997. Simple sequence repeats as a source of quantitative genetic variation. Trends Genet, 13(2):74-78.(1)
[18] Lawson M J, Zhang L Q. 2006. Distinct patterns of SSR distribution in the Arabidopsis thaliana and rice genomes. Genome Bio, 7(2):R14.(1)
[19] Li Yuanyuan, Chen Xiaoyong, Zhang Xin, et al. 2005. Genetic differences between wild and artificial populations of Metasequoia glyptostroboides: Implications for species recovery. Conservation Biology, 19(1): 224-231.(1)
[20] Saha M C, Cooper J D, Mian M A R, et al. 2006. Tall fescue genomic SSR markers: development and transferability across multiple grass species. Theor Appl Genet, 113(8):1449-1458.(1)
[21] Schlarbaum S E, Johnson L C, Tsuchiya T. 1983. Chromosome studies of Metasequoia glyptostroboides and Taxodium distichum. Bot Gaz, 144(4):559-565.(1)
[22] Tautz D, Trick M, Dover G A.1986.Cryptic simplicity in DNA is a major source of genetic variation. Nature, 322(6080):652-656.(1)
[23] Temnykh S, DeClerck G, Lukashova A, et al. 2001. Computational and experimental analysis of microsatellites in rice (Oryza sativa L.): frequency, length variation, transposon associations, and genetic marker potential. Genome Res, 11(8):1441-1452.(1)
[24] Tuskan G A, Gunter L E, Yang Z K, et al. 2004. Characterization of microsatellites revealed by genomic sequencing of Populus trichocarpa. Can J For Res, 34(1): 85-93.(2)
[25] Weber J L. 1990. Informativeness of human (dC-dA)n·(dG-dT)n polymorphisms. Genomics, 7(4): 524-530.(2)