工作空间

文章信息

王光霞, 杨杞, 王瑞刚, 李国婧. 2016
中间锦鸡儿转录组EST-SSR 标记系统性识别与引物筛选
生物技术通报,2016,32(2): 178

WANG Guang-xia, YANG Qi, WANG Rui-gang, LI Guo-jing. 2016
Systematical Identification and Primer Screening of EST-SSR Marker in Transcriptome of Caragana intermedia
Biotechnology Bulletin,2016,32(2): 178

文章历史

收稿日期:2015-04-07

中间锦鸡儿转录组EST-SSR 标记系统性识别与引物筛选
王光霞, 杨杞, 王瑞刚, 李国婧    
内蒙古农业大学生命科学学院,呼和浩特 010018
摘要: 旨在对中间锦鸡儿转录组数据库EST 信息进行SSR 系统性识别和初步验证,为进一步SSR 分子标记开发提供依据。对HiSeq2000 测序技术获得的中间锦鸡儿转录组Unigenes 进行SSR 位点搜索,共获得45 706 个SSR 位点,出现频率为10.38%,平均4.30kb 出现一个SSR 位点。SSR 重复类型以单核苷酸重复序列基元为主,所占比例为56.47% ;二核苷酸、三核苷酸重复序列基元的数量所占比例分别是20.56% 和21.04% ;其他数量的基元所占比例仅为1.9%。多核苷酸重复类型中最多的为2 核苷酸重复AG/CT ;其次为3 核苷酸重复AAG/CTT。针对EST-SSR 位点随机挑选了150 对引物,通过琼脂糖凝胶电泳进行PCR 验证,其中有79 对能获得扩增条带,21 对引物扩增出单一条带,比例为14.0%。
关键词中间锦鸡儿     EST-SSR 位点识别     引物筛选    
Systematical Identification and Primer Screening of EST-SSR Marker in Transcriptome of Caragana intermedia
WANG Guang-xia, YANG Qi, WANG Rui-gang, LI Guo-jing     
College of Life Sciences,Inner Mongolia Agricultural University,Hohhot 010018
Abstract:The aim of the study is to systematically identify and preliminary validate the SSR(simple sequence repeats)of EST(expressed sequence tags)in transcriptome database of Caragana intermedia for providing the basis in the further development of SSR molecular marker. Searching the SSR loci from Unigenes of the C. intermedia transcriptome by HiSeq2000 sequencing technology, total 45 706 SSR were obtained, accounting for 10.38% of the total Unigenes, averagely one SSR per 4.30 kb. Mononucleotide repeats were dominant in SSR with the ratio of 56.47%, bi- and tri-nucleotide repeats were 20.56% and 21.04%, and others were only 1.9%. Among all polynucleotide motifs, bi-nucleotide AG/CT were the most, second most was tri-nucleotide AAG/CTT. Totally 150 SSR primer pairs were randomly selected according to EST-SSR loci, PCR was verified by agarose gel electrophoresis, and 79 primer pairs showed clear amplified DNA fragments. While 21 out of the 79 primer pairs amplified single band, with a ratio of 14.0%.
Key words: Caragana intermedia     EST-SSR site reorganization     primer screening    


中间锦鸡儿(Caragana intermedia Kuang et H.C.Fu)又名柠条,属于豆科蝶形花亚科锦鸡儿属多年生落叶大灌木饲用植物。它对恶劣环境条件有着广泛的适应性,对干旱、严寒、高温和盐碱等具有极强的抵抗和忍受能力:中间锦鸡儿抗旱性强,在年降雨量仅有100 mm的地区依然可以正常生长;在高温抗性试验中,46℃时才开始表现出受害性状,抗热极限温度可达49℃;而它对低温也有极强的耐受能力,可抵御-30℃至-40℃的低温,在冻土层深达290 cm的地区依然可以安全过冬,是干旱草原、荒漠草原地带的优良固沙植物和水土保持植物。另外,柠条还具有很高的饲用及药用价值,也是重要的生物质能源植物和造纸原料。柠条在生态效益和经济效益上所发挥的巨大作用,已引起越来越多人的高度重视[1, 2]

SSR(Simple sequence repeat)是指在基因编码区或非编码区含有1-6个核苷酸重复单元序列[1, 2],其在不同近缘种属中具有较强的转移性,另外其侧翼序列保守性通常较高,因而基于EST序列开发的SSR标记在不同物种间具有良好的通用性,具有分布性广、共显性及等位基因突变率高、分析简单和置信度高等特点,是种群遗传学研究中的有效分子标记之一。EST-SSR标记是通过对表达序列标签EST中的SSR位点进行分析而产生的一种遗传标记,已成为重要农艺性状定位、基因作图、遗传多样性、比较基因组学研究的重要工具[3, 4]

有关锦鸡儿属植物分子标记的报道较少,段永红等[7]曾应用RAPD技术,对我国不同产地的30份锦鸡儿属植物材料进行遗传多样性分析。郭强等[8]选用9对细胞核SSR(nSSR)和10对叶绿体SSR(cpSSR)标记对河西走廊14种锦鸡儿遗传多样性进行分析。一些关于锦鸡儿属植物ISSR分子标记开发的研究也逐渐开展[9, 10]。此外,与中间锦鸡儿亲缘关系极近的柠条锦鸡儿(Caragana korshinskii)中,有关AFLP标记(扩增限制性片段长度多态性)的研究也有所报道[11],这些分子标记很多是对锦鸡儿属植物进行遗传多样性和分类的研究,而用SSR标记研究中间锦鸡儿的多样性的研究较少,尤其是SSR标记的特异性引物开发较少。因此,对柠条锦鸡儿EST-SSR标记进行系统性识别并开发更稳定和有效的标记引物对于推进锦鸡儿属植物遗传多样性及遗传结构探索、开展中间锦鸡儿植物种质资源的研究以及选育新优良抗逆新品种及北方生态环境治理等工作有重要的理论和现实意义。

本研究以中间锦鸡儿转录组测序数据为基础,对362 633条Unigenes中的SSRs位点进行系统搜索和引物批量设计,对它们在转录组中的分布特征进行统计及分析,并且挑选150对引物进行PCR验证,旨在为该植物的SSR分子标记开发和利用奠定基础。

1 材料与方法 1.1 材料

实验植物材料为中间锦鸡儿,种子采自内蒙古自治区四子王旗坡底村(111°41' E,41°26' N)。挑选饱满的中间锦鸡儿种子,播种于装有蛭石的培养钵中,置于25℃、16 h光照/8 h 黑暗、光照强度7 000-8 000 lx 的温室下培养。

1.2 方法 1.2.1 基因组DNA的提取

剪取1个月大小中间锦鸡儿小苗叶片,利用植物基因组提取试剂盒(天根生化科技有限公司)进行基因组DNA的提取。

1.2.2 SSR分子标记的鉴定

对Trinity程序组装获得的转录组All-Unigenes,用MISA程序(http //pgrc.ipk-gatersleben.de/misa/misa.html)扫描转录组SSR位点。SSR位点搜索各重复单元最小重复次数的参数分别定为:单核苷酸≥10、二核苷酸≥6、三核苷酸≥5、四核苷酸≥5、五核苷酸≥5和六核苷酸≥5;复合型SSR(Compound Microsatellite)设置为两个SSR位点之间的最大间距为100个碱基。

1.2.3 SSR引物的设计

利用Perl语言下的Premier5.0软件在SSR位点核心序列两端设计引物,设计参数为:引物的长度18-24 bp;Tm 60℃左右,GC含量在50%左右。

1.2.4 SSR引物验证

引物由上海派诺森公司合成。反应体系中包含:中间锦鸡儿DNA模板1 μL、上、下游引物(2 μmol/L)各1 μL、10×PCR Buffer 2 μL、dNTPs(各2.5 mmol/L)0.5 μL、rTaq DNA Polymer-ase(2.5 U/μL)0.5 μL、ddH2O水补足到14 μL,混匀。PCR扩增反应条件为:95℃ 5 min;95℃ 30 s,56℃ 30 s,72℃ 30 s,35个循环;72℃ 5 min。SSR-PCR扩增产物在2%的琼脂糖凝胶上电泳、检测并照相记录,初步对所设计引物进行筛选。

2 结果 2.1 中间锦鸡儿SSR位点出现频率及分类

通过MISA软件对转录组组装的362 633 Unig-enes、总长度为196 528 580 bp的测序数据进行SSRs位点搜索。结果(表 1)表明,中间锦鸡儿转录组362 633个Unigenes数据库中发现37 631个简单重复序列,含有2个或2个以上SSR位点的序列有6 525条,复合型SSR序列为3 016条,共有45 706个SSR位点,SSR发生频率为10.38%,平均4.30 kb出现一个SSR位点,SSR位点平均长度为115.37 bp。由数据可以看出,中间锦鸡儿的SSR位点较多,位点平均长度较长,出现频率也相对高。

表 1 中间锦鸡儿SSR 位点分布情况
2.2 中间锦鸡儿SSR位点长度分布特征

中间锦鸡儿45 706条简单重复序列的SSR位点长度分布特征(表 2)显示,SSR的长度存在极显著的变异,搜索到的SSR序列长度从10-283个碱基不等,SSR平均长度为115个碱基。其中SSR中长度≤11 bp的重复序列基元有16 959个,占总数的37.10%;长度在12-20 bp、21-30 bp、31-40 bp、41-100 bp、101-150 bp和>150 bp的重复序列基元数目分别为24 729、3 031、402、20、523和42个,其所占比例分别为54.10%、6.63%、0.88%、0.04%、1.14%和0.09%。需要指出的是长度在41-100 bp的重复序列基元中,20个SSR的序列长度均为100 bp,即全部SSR中没有长度在41-99 bp之间的重复序列基因存在。根据以上数据可以看出,重复基元长度≥12 bp的基元占全部基元总数的比例达到62.90%,其中20 bp以上的重复基元比例达到8.80%。已有研究认为,SSR位点长度<12 bp时,多态性较低,SSR位点长度在12-20 bp之间时,多态性较高,SSR位点长度≥20 bp时,多态性很高。依据以上研究标准,本研究中54.10%的重复基元长度在12-20 bp之间,其中20 bp以上的重复基元比例达到8.80%,总体来看,获得的中间锦鸡儿SSR分子标记的多态性较好,后期开发利用的价值较高。值得关注的是中间锦鸡儿SSR的平均长度非常长,为115.37 bp,长度在100 bp以上的重复基元数量占总重复基元的比例达1.23%,其中最长重复单元的长度达到283 bp,这在已报道的植物中是非常少见的。

表 2 中间锦鸡儿SSR 位点长度分布特征
2.3 SSR重复序列基元频率分布及类型 2.3.1 SSR位点不同类型基元分布

对全部SSR位点的各种重复基元进行统计分析。结果(表 3)显示,中间锦鸡儿EST-SSR中,单核苷酸重复序列基元的数目最多,共25 812个,占总数的56.47%;三核苷酸重复序列基元的数目居于第二,共9 621个,所占比例21.04%;二核苷酸重复序列基元的数目为9 396个,所占比例20.56%;二核苷酸和三核苷酸的总比例占到全部SSRs数量的41.6%。4-6个核苷酸重复序列基元占SSRs的总比例较少,为1.9%。其中,四核苷酸重复序列基元的数目为797个,所占比例1.74%,五核苷酸重复序列基元的数目为80,所占比例0.16%;六核苷酸重复基元在最小重复次数为5的条件下,没有检测到符合条件的重复序列基元存在,可能是重复次数设置太高所致。以上结果说明,中间锦鸡儿SSR位点中主要的重复序列类型为单核苷酸重复,在多核苷酸重复中以三核苷酸重复序列基元和二核苷酸重复序列基元为主。

表 3 中间锦鸡儿SSR 位点不同类型基元分布

除单核苷酸外,SSRs位点中共检测到305种重复序列基元类型,数量排在前十位的基元类型依次为A/T、AG/CT、AAG/CTT、AAC/GTT、AC/GT、ACC/GGT、ATC/ATG、AGC/CTG、AT/AT和AGG/CCT,数目分别为9 537、1 552、1 184、775、769、569、560、547、505和418条。

2.3.2 SSR主要重复基元的出现数量及频率

根据SSR重复基元的核苷酸数可将其分为1-6个核苷酸重复类型。多核苷酸重复基元的主要类型列表,如表 4所示。

表 4 SSR 位点主要重复基元种类及数量

在SSR的多核苷酸重复基元中,二核苷酸重复种类共4种,以AG/CT数量最多,为5 592个,占全部二核苷酸重复基元的59.51%;其次是AC/GT,共2 115个,占22.51%;居于第三位的是其AT/AT,总数为1 651个,占17.57%;重复次数最少的是CG/CG类型,只有38个,仅占总比例的0.40%。三核苷酸共有10种重复类型,其中AAG/CTT重复基元类型数目最多,共有2 522个,占三核苷酸重复基元总数的26.21%;接下来数量依次较高的是AAC/GTT、ATC/ATG、ACC/GGT、AGC/CTG类型,重复基元数量都在1 000个以上,分别为1 349、1 071、1 033和1 012个,占三核苷酸重复基元总数依次为14.02%、11.13%、10.74%和10.52%。重复基元数量最少的为ACT/AGT,为285个,占其类型总数的2.96%。四核苷酸总共有29种类型,为179个,占其四核苷酸重复基元总数22.32%;其次为AAAG/CTTT,为140个,占其总数的17.46%;接下来是ACAT/ATGT,为64个,占其总数的7.98%;数量在20-40之间的重复基元类型共有7种,依次为AATT/AATT、ACTC/AGTG、AATC/ATTG、ATCC/ATGG、AAGG/CCTT、AGAT/ATCT及AAAC/GTTT,其余类型的四核苷酸重复基元数量<20;其他四核苷酸重复类型还有11种,数量为93个,占总数的11.60%。

五核苷酸重复基元共找到40种不同的类型,各类型中,AAATC/ATTTG 重复基元的数量最多,共有6个;AATTC/AATTG、ACACG/CGTGT、ACAGC/CTGTG、ACCCT/AGGGT、ACGCT/AGCGT以及AACCC/GGGTT这6种重复基元类型的数目均为4个;其余类型的存在数量都为1或2个,其中数量仅为1个的重复基元类型有19种。六核苷酸重复基元未被检测到,应该是检测设定的最小重复次数较为严格的原因。

2.4 SSRs引物的初步筛选

以中间锦鸡儿基因组DNA为模板对所设计合成的150对引物进行扩增、筛选,电泳结果(图 1)显示,有清晰扩增条带的引物的共有79对,占引物总数的52.67%;其中显示单一条带的有21对,占总数的14%。

图 1 SSR 引物PCR 验证
3 讨论

不同植物中SSR分布特点不一样,包括SSR的发生频率和分布频率、重复基元的主要类型和种类等[12]。不同木本植物中EST-SSR发生频率差异较大,如蒙古栎仅为1.59%,杨树和桉树则接近15%,相差近10倍[13];同一种植物中变化趋势较为接近,如火炬松、马尾松分别为4.32%和3.62%、杨树及桉树发生频率则分别为14.83%和14.99%[14, 15]。中间锦鸡儿属于灌木,本研究中其SSR发生频率为10.38%,比火炬松与马尾松的高,比杨树及桉树的低。关于SSR出现频率在不同植物中变化也较大,但总体表现都很低,可能由于含有微卫星的基因具有较低的表达丰度,故导致了EST序列中微卫星出现频率偏低。有报道表明农作物报道的变化更大,报道较多的水稻、小麦、花生和玉米中分别是11.81、17.42、23.80和28.32 kb,木本植物的SSR分布频率在4-55 kb之间[16],其中针叶松中SSR分布频率比被子植物低,大约分别是50 kb[17],中间锦鸡儿属于木本植物,本研究结果中,中间锦鸡儿SSR分布频率约为4.30 kb,其SSR分布频率比柽柳(54.99 kb)[18]、枳壳(28.05 kb)[19]等植物高,而比杨树(3.88 kb)等 植物略低[20]。不同植物间或同种植物内SSR出现频率不同,这种差异可能是物种间的真实SSR信息差异或搜寻SSR时所用长度最低标准不同造成的[21]。除此之外,还与基因组大小、基因组中转录部分的比例及低拷贝序列出现的频率等有关[22]

SSR的重复类型在不同植物中分布也不一样,对全基因组微卫星的分布已经完成的包括单子叶植物(短柄草、高粱、水稻)和双子叶植物(拟南芥、苜蓿)几种植物总的SSR分析可知单核苷酸重复最为丰富[23],如橡胶树的重复类型就是以单核苷酸重复类型最多,为45.3%,而多数木本植物以二、三核苷酸重复类型为主[24]。多数植物的EST-SSR都是以二、三核苷酸重复基元为主。而本研究中,中间锦鸡儿SSR重复类型与橡胶树类似,也以单核苷酸重复序列基元为主,占其全部重复序列基元总数的56.47%;其三核苷酸重复序列基元的数目占总数的21.04%,居于第二。这是由于EST是表达标签序列,加上密码子以三核苷酸为一个功能单位。Metzgar等[25]研究比较了7种真核生物编辑区和非编辑区SSR的区别,发现三核苷酸和六核苷酸重复类型在编辑区和非编辑区都有一个很大的长度变化,而其他重复类型在编辑区出现比非编辑区少很多,说明这两种类型在被翻译成蛋白质时受到移码(frameshift)突变而造成了三核苷酸位移,主要受突变压力的控制而产生。

关于木本植物核苷酸的重复类型,二核苷重复的主要基元为AG、AT和AC,三核苷酸重复主要是 AAG、AAT 和AGG,有的甚至占有绝对优势[26]。在砂梨23类二核苷重复基序中AT重复基序出现的频率最高(32.3%)[28];海棠以CT/TC为最多,其次是AG/GA[29];橡胶树的EST-SSR 位点中,TC/AG、CT/GA和CTT/GAA、AAG/TTC、AGA/TCT是二、三核苷酸的优势重复类型。本研究中SSRs位点中共检测到305种重复序列基元类型,数量居前的二、三核苷酸基元类型有AG/CT、AC/GT、AT/AT和AAG/CTT、AAC/GTT、ACC/GGT、AGG/CCT等,这与前人研究有相似之处,也有不同之处。不同重复基元的出现频率表现出明显的偏倚性似乎在多数植物中都存在,这可能是受所分析的EST群体量的影响,更有可能是由于高级基元SSR 自身长度的限制[30],也可能与其稳定性有关。

本研究中150对SSR引物中有79条能扩出条带来,占总设计引物的比例为51.7%;其中有21个引物扩增出一条带,比例为14.0%。引物没有得到扩增片段可能为以下原因:第一,引物对所扩增的序列包含较大的内含子,无法在电泳图上显示;第二,引物对的一端或两端恰好处于某一个剪切位点上;第三,设计引物的EST序列存在问题。这些问题将在今后的研究中一一验证并解决。

4 结论

通过对中间锦鸡儿转录组测序获得的Unigenes序列进行位点进行查找,得到 45 706 个位点,SSR重复类型以单核苷酸重复序列基元为主,其次较多是三核苷酸、二核苷酸重复序列基元。SSR引物验证扩增比率偏低,为51.7%。

参考文献
[1] 梅二罕, 赵建龙, 李俊梅. 发展中间锦鸡儿的重要意义[J]. 内蒙古林业, 2004(2):10-11.
[2] 牛西午. 关于在我国西北地区大力发展柠条林的建议[J]. 山西农业科学, 1999, 27(1):3-7.
[3] Tautz D, Renz M. Simple sequences are ubiquitous repetitive components of eukaryotic genomes[J]. Nucleic Acids Research, 1984, 12(10):4127-4138.
[4] Lagercrantz U, Ellegren H, Andersson L. The abundance of various polymorphic microsatellite motifs differs between plants and vertebrates[J]. Nucleic Acids Research, 1993, 21(5):1111-1115.
[5] Varshney RK, Graner A, Sorrells ME. Genic microsatellite markers in plants:features and applications[J]. Trends in Biotechnology, 2005, 23(1):48-55.
[6] 刘洁, 胡蝶, 楚海家, 等. 花苜蓿抗旱耐盐EST-SSR标记筛选[J]. 植物科学学报, 2013, 31(5):493-499.
[7] 段永红, 牛西午, 李素清, 孙毅. 锦鸡儿属植物遗传多样性的RAPD分析[J]. 华北农学报, 2009, 24(1):143-148.
[8] 郭强, 时永杰, 魏臻武, 等. 河西走廊14种锦鸡儿遗传多样性SSR分析[J]. 草地学报, 2008, 16(3):227-233.
[9] 杨九艳, 杨劼, 杨明博, 等. 鄂尔多斯高原锦鸡儿属药用植物的ISSR分析[J]. 中草药, 2006(10):1562-1566.
[10] 宋俊双, 王赞, 高洪文. 三种锦鸡儿遗传多样性ISSR分析(简报)[J]. 草地学报, 2006, 14(4):384-386.
[11] 王赞, 高洪文, 韩建国. 柠条锦鸡儿 DNA 提取及 AFLP 反应体系的建立[J]. 草地学报, 2005, 13(2):126-129.
[12] Rungis D, Bérub Y, Zhang J, et al. Robust simple sequence repeat markers for spruce(Picea spp.)from expressed sequence tags[J]. Theoretical and Applied Genetics, 2004, 109(6):1283-1294.

[13] Martin MA, Mattioni C, Cherubini M, et al. Genetic diversity in European Chestnut populations by means of genomic and genic microsatellite markers[J]. Tree Genetics & Genomes, 2010, 6(5):735-744.
[14] 阎毛毛, 戴晓港, 李淑娴, 等. 松树、杨树及桉树表达基因序列微卫星比对分析[J]. 基因组学与应用生物学, 2011(1):23-24.
[15] 李淑娴, 张新叶, 王英亚, 等. 桉树EST序列中微卫星含量及相关特征[J]. 植物学报, 2010, 45(3):363-371.
[16] Gao LF, Tang JF, Li HW, et al. Analysis of microsatellites in major crops assessed by computational and experimental approaches[J]. Molecular Breeding, 2003, 12(3):245-261.
[17] 张新叶, 宋丛文, 张亚东, 等. 杨树EST-SSR标记的开发[J]. 林业科学, 2009, 45(9):53-59.

[18] 张如华, 李锐, 赵景奎, 等. 柽柳EST-SSRs标记开发与群体检测[J]. 分子植物育种, 2011, 9:1291-1296.
[19] 杨春霞, 温强, 叶金山, 等. 枳壳EST-SSR标记的开发[J]. 分子植物育种, 2011, 9(1):123-127.
[20] Bérubé Y, Zhuang J, Rungis D, et al. Characterization of EST-SSR In loblolly pine and spruce[J]. Tree Genetic s& Genomes, 2007, 3(3):251-259.
[21] Nicot N, Chiquet V, Gandon B, et al. Study of simple sequence repeat(SSR)markers from wheat expressed sequence tags(ESTs)[J]. Theor Appl Genet, 2004, 109:800-805.
[22] Morgante M, Hanafey M, Powell W. Microsatellites are preferentia-lly associated with nonrepetitive DNA in plant genomes[J]. Nature Genetics, 2002, 30(2):194-200.
[23] Sonah H, Deshmukh RK, Sharma A, et al. Genome-wide distribution and organization of microsatellites in plants:An insight into marker development in brachypodium[J]. PLoS One, 2011, 6(6):e21298.
[24] Feng SP, Li WG, Huang HS, et al. Development, application and cross-species/genera transfer ability of EST-SSR markers for rubber tree(Hevea brasiliensis)[J]. Molecular Breeding, 2009, 23(1):85-97.
[25] Metzgar D, Bytof J, Wills C. Selection against framshift mutations limits micorsatellite expansion in coding DNA[J]. Genome Res, 2000, 10(1):72-80.
[26] 许玉兰, 蔡年辉, 康向阳, 等. EST-SSR标记的开发及其在木本植物中的分布特点[J]. 中国农学通报, 2012, 28(4):1-7.