四川动物  2019, Vol. 38 Issue (5): 512-520

扩展功能

文章信息

宋琪, 郭宪光, 陈达丽
SONG Qi, GUO Xianguang, CHEN Dali
基于454 GS FLX高通量测序的南疆沙蜥微卫星特征分析及其候选引物设计
Characterization of Microsatellite DNA Loci and Design of Candidate Primers to Amplify These Regions for Phrynocephalus forsythii by Using 454 GS FLX
四川动物, 2019, 38(5): 512-520
Sichuan Journal of Zoology, 2019, 38(5): 512-520
10.11984/j.issn.1000-7083.20190010

文章历史

收稿日期: 2019-01-09
接受日期: 2019-05-24
基于454 GS FLX高通量测序的南疆沙蜥微卫星特征分析及其候选引物设计
宋琪1,2 , 郭宪光1 , 陈达丽3 *     
1. 中国科学院成都生物研究所, 成都 610041;
2. 中国科学院大学, 北京 100049;
3. 四川大学华西基础医学与法医学院, 成都 610064
摘要:南疆沙蜥Phrynocephalus forsythii是我国特有的一种小型爬行动物,分布于塔里木盆地。利用Roche 454 GS FLX高通量测序对该物种基因组测序,获得了55 909条高质量序列。利用Krait搜索并初步统计和分析基因组微卫星序列,共得到1~6个碱基重复类型的完美型微卫星12 109个。不同类型微卫星中,四碱基重复类型数目最多,有4 037个,约占总数的33.34%,其次是二碱基,约占总数的28.09%,再是三碱基、单碱基、五碱基和六碱基,分别约占总数的18.72%、13.91%、4.48%和1.46%。单碱基微卫星中C最多,二碱基微卫星中AC最多,三碱基、四碱基、五碱基和六碱基中最多的分别是AAC、AAAT、AAAAT和AACCCT。AC、AAAT、C、AG、A、AAC、AAT、AAAC、ACC和ACG是数量最多的10种重复拷贝类别。挑选部分三、四碱基重复类型的微卫星序列设计了100对可用于后续对南疆沙蜥微卫星标记开发的候选引物。本研究开启了对南疆沙蜥基因组微卫星特征的了解,为利用微卫星标记研究南疆沙蜥种群遗传结构奠定了基础。
关键词南疆沙蜥    基因组    微卫星    分布    引物序列    
Characterization of Microsatellite DNA Loci and Design of Candidate Primers to Amplify These Regions for Phrynocephalus forsythii by Using 454 GS FLX
SONG Qi1,2 , GUO Xianguang1 , CHEN Dali3 *     
1. Chengdu Institute of Biology, Chinese Academy of Sciences, Chengdu 610041, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China;
3. West China School of Basic Medical Sciences and Forensic Medicine, Sichuan University, Chengdu 610064, China
Abstract: The Forsyth's toad-headed agama, Phrynocephalus forsythii, is an endemic small lizard in the Tarim Basin in northwest China. The genome data of P. forsythii was generated using Roche 454 sequencing platform, and 55 909 high quality sequences were obtained. A total of 12 109 simple sequence repeats (SSRs) with 1-6 bp nucleotide motifs were identified by using Krait. Among the different repeat types of screened microsatellite DNA, tetranucleotide, having 4 037 (33.34%), was the most common repeat unit followed by the di-(28.09%), tri-(18.72%), mono-(13.91%), penta-(4.48%) and hexanucleotides (1.46%). Additionally, C, AC, AAC, AAAT, AAAAT, and AACCCT were the most common repeat units among the mono-hexanucleotides, respectively. In the genome of P. forsythii, there were 10 predominant repeat types, including AC, AAAT, C, AG, A, AAC, AAT, AAAC, ACC and ACG. One hundred pairs of candidate primers containing a part of tri-and tetranucleotide repeat types were designed to amplify the microsatellite DNA loci in P. forsythii. This study sheds new light on understanding the feature of genomic microsatellite DNA in P. forsythii, and lays a foundation for further studying the population genetic structure of P. forsythii by using microsatellite markers.
Keywords: Phrynocephalus forsythii    genome    microsatellite    distribution    primer sequence    

微卫星DNA又叫简短串联重复或简单序列重复(simple sequence repeats,SSRs),一般是以1~6个核苷酸为重复单位的串联重复序列,在种群内不同个体之间的重复数量不同(Tóth et al., 2000)。随着PCR技术的出现,微卫星DNA的这一特性被转化为用途广泛的遗传标记。同时,微卫星DNA在病毒到真核生物的基因组中均有分布,且具有高度的长度多态性(Zane et al., 2002),加之微卫星这一共显性分子标记有突变率快、多态性高、易于扩增等优点,被广泛应用于种群遗传、谱系地理、个体识别和亲子鉴定等领域(Selkoe & Toonen,2006)。开发微卫星标记的方法虽然很多,但步骤繁琐、耗时耗力的问题在二代测序系统推出前一直存在。2007年,罗氏454公司推出了基于焦磷酸测序法的第二代基因组测序系统——Genome Sequencer FLX System (GS FLX)。454高通量测序除具有二代测序高效、快捷的普遍特点外,还有比其他二代测序的片段读长更大的优点,因此更适合于微卫星标记的开发(Allentoft et al., 2009Xia et al., 2018)。

南疆沙蜥Phrynocephalus forsythii隶属于鬣蜥科Agamidae沙蜥属Phrynocephalus,是我国特有的一种小型卵胎生爬行动物(头体长36~50 mm,尾长48~62 mm),分布于新疆维吾尔自治区天山山脉以南海拔1 400~ 3 100 m的广大地区。南疆沙蜥的研究集中在生态适应(戴昆,马鸣,1991)、核型(曾晓茂等,1997)、组织学(吾玛尔·阿布力孜,杨立中,1999吾玛尔·阿布力孜等,2000)、基于ND4基因的谱系地理格局(Zhang et al., 2010)以及线粒体基因组特征(Chen et al., 2016, 2019Shao et al., 2016)等。微卫星标记的研究仅见于Nie等(2015)运用转录组测序对青海沙蜥P. vlangalii开展微卫星位点筛选,跨物种在南疆沙蜥中检测得到22个可扩增的微卫星位点。

本研究通过Roche 454 GS FLX高通量测序对南疆沙蜥进行低覆盖度基因组测序,并利用Krait(Du et al., 2018)首次在南疆沙蜥基因组中进行微卫星的查找与统计,旨在对其基因组水平上的微卫星重复序列的种类、数量等分布特征进行初步探索。考虑到微卫星标记多态性,三碱基和四碱基重复微卫星的不易产生由于滑链错配形成影子带(O'reilly & Wright,1995)等优越性(O'connell & Wright,1997),因此,选取部分三、四碱基重复的微卫星进行引物设计筛选,得到可用于微卫星分析的部分候选引物,以期为利用微卫星标记研究南疆沙蜥种群遗传结构奠定基础。

1 材料和方法 1.1 样品收集、基因组DNA提取及Roche 454 GS FLX高通量测序

用于基因组测序的南疆沙蜥标本(标本号:WGXG08351)于2008年6月采自新疆维吾尔自治区若羌县(86.25804°E,41.33690°N,海拔827 m),标本经75%乙醇固定后,保存于中国科学院成都生物研究所两栖爬行动物标本馆。其肝脏组织样品固定于95%乙醇,-20 ℃保存。将提取的基因组DNA送至上海美吉生物信息科技有限公司进行Roche 454 GS FLX基因组测序。采用GS FLX系统对测序数据进行过滤、整理,使用Newbler 2.6(Roche,2011)对优化后的原始数据从头拼装,并将组装出的contigs和未拼装进去的single read序列合并。

1.2 微卫星序列的查找及引物设计

采用Krait(Du et al., 2018)对合并的总序列进行完美型微卫星位点的查找,搜索标准如下:单碱基重复≥12个拷贝,二碱基重复≥7个拷贝、三碱基重复≥5个拷贝,其他碱基重复(四碱基、五碱基、六碱基)≥4个拷贝;重复序列两端的侧翼序列长100 bp;其余参数采用默认设置。同时,对部分三碱基和四碱基重复类型在Krait中基于primer3和primer3-py进行引物设计,参数为:PCR产物长100~450 bp;引物长20~27 bp;引物熔解温度55~65 ℃;GC含量30%~70%;其余采用默认参数设置。对设计出的引物再依据以下原则二次筛选:①引物序列碱基尽量随机分布,3’端不超过3个连续的G或C,避免引物在GC富集序列区的错误引发;②引物自身及引物之间尽量无互补序列,避免引物自身折叠成发卡结构使引物本身复性,引物自身无连续4个碱基或4个碱基的互补;③引物序列3’端尽量无连续的3个相同碱基相连的情况,避免引起错配。

2 结果 2.1 测序数据统计及基因组组装

采用Roche 454 GS FLX高通量测序对原始测序数据的每条read质量过滤后,对下机数据进行统计,得到78 927条reads,共39 807 639 bp,最短的22 bp,最长的1 132 bp,平均长度为504.4 bp,本次测序获得的reads长度主要为581~760 bp。利用Newbler对reads拼接得到670个contigs,共341 384 bp,最短的100 bp,最长的15 140 bp,平均为509.5 bp。未拼接上的reads有55 239个,共27 984 639 bp。

2.2 南疆沙蜥基因组微卫星的数量和分布特点

将组装出的contigs和未组装进去的single read序列合并,得到合并序列55 909个,共28 326 023 bp。对合并的总序列进行微卫星位点的查找,获得南疆沙蜥全基因组中6种完美型微卫星12 109个,总长度371 160 bp,占基因组的1.32%,相对丰度为427.62个/Mb。其中,数量最多的为四碱基重复类型,占重复类型序列总数的33.34%;其次是二碱基重复类型,占28.09%;其余几种类型占比均小于20%,最少的为六碱基重复类型,只占1.46%,相对丰度为6.25个/Mb(表 1)。

表 1 不同重复类型的完美型微卫星在南疆沙蜥基因组的分布情况 Table 1 Distribution of perfect SSRs with different repeat types in the genome of Phrynocephalus forsythii
微卫星类型
SSR type
单碱基
Mononucleotide
二碱基
Dinucleotide
三碱基
Trinucleotide
四碱基
Tetranucleotide
五碱基
Pentanucleotide
六碱基
Hexanucleotide
总数
Total
重复序列数量 1 684 3 402 2 267 4 037 542 177 12 109
长度/bp 23 498 131 828 65 067 131 868 13 805 5 094 371 160
占比/% 13.91 28.09 18.72 33.34 4.48 1.46 100
平均长度/bp 13.95 38.75 28.70 32.66 25.47 28.78 30.66
相对丰度/(个/Mb) 59.47 120.14 80.06 142.56 19.14 6.25 427.62
相对密度/(bp/Mb) 829.81 4 655.39 2 297.78 4 656.80 487.51 179.89 13 107.18
2.2.1 各种重复拷贝类别的数量和相应的比例

同一种类型的重复序列中,各重复拷贝类别所占的比例也不相同(表 2)。单碱基重复类型中,C最多,有1 206个;二碱基重复类型中,AC最多,有2 101个。AAC(392个)、AAAT(1 592个)、AAAAT(181个)和AACCCT(40个)分别是三碱基、四碱基、五碱基和六碱基重复类型中最多的重复拷贝类别。所有搜索到的完美型微卫星中,AC(17.35%)、AAAT(13.15%)、C(9.96%)、AG(9.67%)、A(3.95%)、ATAG(3.63%)、AAC(3.24%)、AGG(2.96%)、AAT(2.64%)和AAAC(2.58%)是数量最多的前10种重复拷贝类别。其他重复拷贝类别数量均不超过300个,相对丰度均不超过10个/Mb(图 1)。

表 2 南疆沙蜥基因组中微卫星拷贝数前10的重复基序类别 Table 2 Top 10 abundant motif categories of microsatellites in Phrynocephalus forsythii
重复基序
Motif
数目
Counts
长度
Length/bp
占比
Percent/%
平均长度
Average length/bp
相对丰度
Relative abundance/(个/Mb)
AC 2 101 95 144 17.35 45.29 74.19
AAAT 1 592 47 760 13.15 30.00 56.22
C 1 206 17 204 9.96 14.27 42.59
AG 1 171 34 562 9.67 29.51 41.35
A 478 6 294 3.95 13.17 16.88
ATAG 439 25 932 3.63 59.07 15.50
AAC 392 10 527 3.24 26.85 13.84
AGG 358 7 506 2.96 20.97 12.64
AAT 320 13 191 2.64 41.22 11.30
AAAC 312 7 072 2.58 22.67 11.02

图 1 南疆沙蜥基因组中相对丰度最高的微卫星基序分布 Fig. 1 Relative abundance of the most relative abundant microsatellite motifs in the genome of Phrynocephalus forsythii
2.2.2 各种重复类型微卫星拷贝数的数量分布

单碱基重复分布范围为12~32次,主要分布在12~16次,有1 464个,占单碱基重复类型总数的86.94%;二碱基重复分布范围为7~204次,主要分布在7~11次,有1 402个,占二碱基重复类型总数的41.21%;三碱基重复分布范围为5~35次,主要分布在5~13次,有1 832个,占三碱基重复类型总数的80.81%;四碱基重复分布范围为4~121次,主要分布在4~15次,共3 616个,占四碱基重复类型总数的89.57%;五碱基重复分布范围主要为4~7次,共492个,占五碱基重复类型总数的90.77%;六碱基重复分布范围为4~10次,主要分布在4~7次,共169个,占六碱基重复类型总数的95.48%(图 2表 3)。

图 2 南疆沙蜥不同重复拷贝类型微卫星的重复次数分布 Fig. 2 Distribution of the copy number in different microsatellite motifs for Phrynocephalus forsythii

表 3 分布频率最高的重复拷贝类型微卫星的拷贝数分布情况 Table 3 Distribution of the number of copy repeats among the most frequent microsatellite motifs
类型Type 重复次数Repeats number 分布最多的范围(数量)
Range (number)
总数Total 比例Percent/%
≤10 11~20 21~30 ≥31
单碱基 0 1 621 50 13 12~16 (1 464) 1 684 86.94
二碱基 1 254 916 501 731 7~11 (1 402) 3 402 41.21
三碱基 1 641 410 206 10 5~13 (1 832) 2 267 80.81
四碱基 2 958 952 124 3 4~15 (3 616) 4 037 89.57
五碱基 523 19 0 0 4~7 (492) 542 90.77
六碱基 177 0 0 0 4~7 (169) 177 95.48
2.2.3 微卫星位点的引物设计及候选引物序列

挑选了部分三碱基和四碱基重复的微卫星进行引物的设计,对引物二次筛选后,最后保留100对候选引物(表 4)。

表 4 100对扩增南疆沙蜥微卫星DNA的候选引物 Table 4 The list of 100 pairs of candidate primers to amplify the microsatellite DNA loci for Phrynocephalus forsythii
位点
Locus
重复基序
Repeat motif
上游引物序列
Forward primersequence (5’-3’)
熔解温度
Meltingtemperature/℃
下游引物序列
Reverse primersequence (5’-3’)
熔解温度
Meltingtemperature/℃
PCR产物长度
PCR productlength/bp
ssr-208 (AAC)5 CCACTTCCAGCCAGTGAAGC 60.89 AGCCCGGAAAGACAAGATGG 60.04 128
ssr-631 (AAC)6 ATACCTCCAACATGCTTGGC 57.16 ATGACGTTACTCGCAATAGG 55.39 115
ssr-277 (AAC)5 TCTGAAGAGAAATATACAGGGCTGG 59.93 TGAAGCAGTTAAGCTCCCGC 60.67 152
ssr-4172 (AAC)6 CACGACCTTGTCTCATTGTGC 59.80 TGCTGCTTATTAAAGAATTCCAGC 58.11 111
ssr-4807 (AAC)15 AGGTTTCCAGGAATGTTTGCC 59.03 TGAGGCTTATATCATCACAAGGC 58.35 157
ssr-5855 (AAC)14 GCATAGTTATCTTGTCTGCTGCG 60.06 GGTGTGTGTGTTTCTGTTTCTCC 60.18 134
ssr-5893 (AAC)14 TGATGATGACGACGACGACG 60.25 AGACACACACATCTGCCTGG 59.96 138
ssr-9794 (AAC)14 TCGGTCATGACTGTAACGACG 60.14 TTCCCACCCATCCTTCATGC 60.03 147
ssr-261 (AAC)22 TGTGTGCATTTGCTTGTGCC 60.53 CAGCTGTTGTAATCCCACAAGC 60.10 209
ssr-654 (AAC)23 TCCTTCGGTGAGGCAAATCC 60.04 GTTCAACCTGACACAAGGCC 59.33 135
ssr-2449 (AAC)19 AAATGATGACGACGACGACG 58.74 CCTGTGGCCAAGCTACTCC 60.08 189
ssr-3004 (AAC)20 GTTGGAGGCAACATGACAGC 59.76 ATGCCAAAGCTTGCTTGACC 62.14 157
ssr-5885 (AAC)19 TGGCACCAAAGAAGGAAAGC 58.96 GAAAGCTTCCAGAACACGGC 59.76 170
ssr-8668 (AAC)20 CCGTCTGTAGTGGCCAGC 60.13 TCCCTCCAGACCAGTACGG 60.00 258
ssr-10784 (AAC)20 AATCCACCTTACAGCATGACC 58.00 CGATGACGACAATGACGACG 59.44 153
ssr-247 (AAT)5 GCTTGAGGAAGGAAGGGAGG 60.11 GGGGTAAATGCTGCAAGTGC 60.11 174
ssr-21 (AAT)6 ACCTTGTGCTCACAGGAAGG 59.89 GAACTGCGATGAAAGGGACG 59.28 129
ssr-273 (AAT)6 AGTTGTCCATGTACAGGCAGG 58.23 TGAGGGGTTAGTCTAAAGTTGG 57.10 117
ssr-477 (AAT)6 ACTACTGCTGTTGGTGCTGC 60.68 CGGGCGAGCATATGTTTCC 59.06 113
ssr-606 (AAT)7 TCGCCGTCTTAGAGTTCTGC 60.07 AGTGGTTGCCAGTGAGATGG 59.96 149
ssr-639 (AAT)24 TGCTTAGCAGGCTAGCATGG 55.52 TGGTGTTAGAGGGAGAGAGG 57.47 163
ssr-1314 (AAT)25 TCTGTGCATTCCCAGTCTGG 59.67 GGAGATGGAAGAAGCCCACC 60.11 220
ssr-724 (AGG)7 CCTCTCCAAGCAGGGATCC 59.05 AAGCTCAAGATCGTGGGACC 59.75 107
ssr-443 (AGG)8 AATGTTGCTGATACTGGTACTAGG 59.80 CTCAGTGATCCATCGGGTCC 58.11 175
ssr-163 (ATG)5 GAGGAGGAGGAGGAGATCGG 60.25 CAAGCCAAGGACGGAGAGG 60.08 174
ssr-207 (ATG)6 GGTAGCGTGTCTGAGCTGG 60.89 AGCCCGGAAAGACAAGATGG 60.04 128
ssr-417 (ATG)6 GCTTGAGGAAGGAAGGGAGG 60.25 GTTTACAGGAGAGAGGGACTTCC 59.80 135
ssr-78 (ATG)13 GGTAGCGTGTCTGAGCTGG 60.15 TGCTACTACTACTACTGCTACTGC 59.18 218
ssr-204 (AAG)5 ACCTTGTGCTCACAGGAAGG 55.22 CTGACTCTTTCATTGACTCCG 56.38 121
ssr-501 (AGG)5 ACTACTGCTGTTGGTGCTGC 60.04 AATGCAGTTGCCGCTCATCC 61.66 172
ssr-740 (AGG)6 TGACATGGCTGTATGAGAGC 60.98 GCAGGTAGGCAGGTATGTGG 60.18 107
ssr-368 (AAG)6 ACCTTGTGCTCACAGGAAGG 59.96 AGGCACTGAAATCCACCGG 60.00 146
ssr-232 (ACC)5 TCAATGACACCAAGCACTGC 60.25 GTGGCACATAGGGAGTCTTCC 60.13 122
ssr-593 (ACC)7 CAGGCCAATCCTTACCAGGG 59.77 ACAACAACAACAGCAGCAGC 60.18 139
ssr-1969 (ACC)13 AGTGATAGTACGCCACGTGG 59.55 GCTGTCATTAGTCAGACATGCC 59.39 115
ssr-9999 (ACC)13 ATCAGCATACCAGCTCACCG 59.89 TCCAGGGCTGAGTTATCTGG 58.50 194
ssr-10563 (ACC)17 ACAAATCCAGCATAGTATCTGTTGC 59.70 AGTAAGCACCAAGACACTTCG 58.24 165
ssr-2887 (CCG)10 AGGAGGAAGTCGAGACGTGG 60.96 GAGGCCGTCGATGGAGACC 62.14 141
ssr-393 (CCG)5 AGCTGTCACCCATGTATGGC 62.16 TGGATGGAGAGGGACTGCC 60.69 134
ssr-2305 (ATC)12 CATCGTTGTCGTCGTTGTCG 59.91 TGGAGTGTGGGTTATTCCGC 60.04 189
ssr-2793 (ATC)11 CAGTGCTTTATTGTGCCAGC 58.01 ACTCCAGCTTAACACCTGGC 59.96 156
ssr-3466 (ATC)27 CATCTGCTACATGCCTCTGC 58.77 CCTAATCTCTGGCCTCATTGC 58.50 153
ssr-4503 (ATC)18 TCTCATAGGTCTGGTTCACTAAGC 59.60 GCTGTGCCTCACTGATAGACG 60.80 151
ssr-5180 (ATC)15 GACAAACATGCACCACCACC 59.97 GGGTCACACTCAATATTCTGTGG 59.06 158
ssr-6874 (ATC)12 CCATATCCAGTCTCCTGCTAGG 59.17 AGTAACAGGAGGGCATCAGG 58.79 206
ssr-587 (AAAT)4 ATCCTTGCAGGTGGGAATGG 56.99 TTGTAAGCTGCCTTGAGTCC 57.81 102
ssr-100 (AAAT)5 GATGGGTTCCTACCAGGTGC 60.11 ATTGCAGCCTTGTGTAAGCC 59.11 155
ssr-141 (AAAT)5 CTGTAAACCGCCCAGAGTCC 60.39 AAACAGAACTCGAGGCAAAGG 58.78 158
ssr-380 (AAAT)5 TCAATGACACCAAGCACTGC 60.16 TGTAAACCGCCCAGAGTAGC 59.75 102
ssr-17 (AAAT)5 GTGCTCACAGGCCAGTACC 60.38 CTACAGCTGGTAGGCAGGC 59.86 147
ssr-392 (AAAT)6 TCAATGACACCAAGCACTGC 58.98 TTGTAAACCGCCCTGAGTCC 59.96 154
ssr-449 (AAAT)6 AGAGTGGGAGGGAAGGAAGG 59.19 TTTGTCGCCTGATTGTTCGC 59.76 123
ssr-153 (AAAT)7 AGTTGTCCATGTACAGGCAGG 60.00 GTATTCTGTTAGCGCCCACG 59.07 161
ssr-252 (AAAT)7 AATGTTGCTGATACTGGTACTAGG 59.83 GCTACAGCTCACTTGATATGGC 59.19 106
ssr-213 (AAAT)8 TCAATGACACCAAGCACTGC 60.14 ATCATGGGCCAATCGTGGG 60.15 157
ssr-636 (AAAT)8 ATAAGATGAGGTGCAGGCGG 58.56 GTGCAACTTGGTGAGGATCC 58.83 116
ssr-84 (AAAT)11 TCAATGACACCAAGCACTGC 59.05 AACACACTGCCCAGAGTAGC 59.96 133
ssr-1024 (AAAT)11 CGTCTTTCCTTGGGAGTGCC 60.96 TTGTTCGCCGCTTAGAGTCC 60.39 165
ssr-1777 (AAAT)11 CTGTAAGACGCCTTGGGTCC 60.39 TGGGCCAGTTTGACTCTTGG 60.18 199
ssr-990 (AAAT)12 TGAACTTTCAGTGACAACAGCC 59.32 AAACATGACCACAGTGCTGC 59.33 177
ssr-1208 (AAAT)14 ACTGAGTGGAACGATGTCTGG 59.73 TGACCTTGTTGGCAGATGGG 60.25 120
ssr-1223 (AAAT)14 ACCTTTGGGTAGTGGACAGC 59.60 CCTTAGTCCACTGAGCCACC 59.75 156
ssr-1338 (AAAT)14 TGCTTCATTGCTGAACTGCC 59.40 TGAGCCGCTTAGGTCTTTCC 59.75 199
ssr-1663 (AAAT)14 GCCAGCCAGCTTATAACAGG 58.69 CCCTGTCATGTGATTGCTTGC 60.14 169
ssr-1771 (AAAT)14 TCTTGGAGGACTGATGAAGGC 59.44 TGGTGTTAAATGATGCTGTGACC 59.49 163
ssr-1158 (AAAT)15 AGTTCTTCGGGAAGATGGCC 59.75 CAGGATGATCCAGTACGGCC 59.97 119
ssr-1403 (AAAT)15 GCAGGCTTCGTGTACAATCC 59.27 GGAGAGTGCATGGTTTCATTCC 59.58 186
ssr-835 (AAAT)15 CTGACATGCCTCACAATGCC 59.55 CTGGGTTGCCAAATGAGTGG 59.40 170
ssr-1310 (AAAT)16 TTGTCACCCATACTGAGGCC 59.38 CAGGTTATCACACTGCTGGC 58.91 158
ssr-1066 (AAAT)16 ACTGCAACTCCCAGAAGTCC 59.60 CCACCCAGAGTAGCCCTAGG 60.76 191
ssr-262 (ATAG)4 CTGTAAACCGCCCAGAGTCC 60.18 AGATCCTGGCCGTGAAAGC 60.08 136
ssr-910 (ATAG)13 CCAAAGTGGCCTTGCTGC 59.66 ATCCCCAGAGTGATGCATGG 59.52 117
ssr-844 (ATAG)17 ATCTACCTCACTGGACCTGG 57.83 CACCCAGGTAGTGTAGTTTGC 58.58 203
ssr-913 (ATAG)17 AAAGTGCCACCAAGCCCAGC 63.90 TAGCTGGCTGGCTGGCTGG 64.61 126
ssr-789 (ATAG)20 ATGGGTCTCTTCAGGCAAGC 60.03 TGACTTGACTGACTAGCTGGC 59.73 198
ssr-1668 (ATAG)23 AGGAAATACACTGCCCAGAGC 60.07 AATCAGCAAAGGTCAGTGGG 58.08 191
ssr-83 (AAAC)4 TCAATGACACCAAGCACTGC 59.05 AACACACTGCCCAGAGTAGC 59.96 133
ssr-240 (AAAC)4 AGCTGTCACCCATGTATGGC 60.18 GCTTAGCTCCAGTCTCAGGG 59.54 186
ssr-379 (AAAC)4 CCACTTCCAGCCAGTGAAGC 57.39 TATATTGTTGGATGCTGCCC 55.55 109
ssr-621 (AAAC)4 GTGCCTCAGCTGGTATCAGG 60.07 TCCTTGAGAATTTGCACCAACC 59.37 145
ssr-1321 (AAAC)13 TTCTGTTGGGAAGACGGTGC 60.53 TTGTGGATACCCTGGACTGC 59.38 171
ssr-183 (AAAG)4 GTGCTCACAGGCCAGTACC 60.25 CTCCCACTCACCTTCCTTCC 59.38 136
ssr-1087 (AAAG)11 CGGATACAAATACAAAGAGCCC 57.19 CCTGTGTTAACCGACAACAGG 59.13 200
ssr-1406 (AAAG)14 AACTCCAGGCTAGGCTGTGG 61.56 TGTCCTTGCAGAGTTCTCAGG 59.65 162
ssr-1665 (AAAG)14 TATGGGCTTACCTCACCAGG 58.49 TTGCCACCATTGTCCTAGGC 60.32 148
ssr-404 (AAAG)16 GATGGGTTCCTACCAGGTGC 59.24 CCAAATCCAGATCAGGTTGCC 59.25 202
ssr-354 (AATG)4 GTGCTCACAGGCCAGTACC 60.18 TGATTCATTGTGGTTTCAGCTGG 59.74 117
ssr-1664 (AATC)11 ATCCTCCTGCAGATACAGCC 58.94 AGGTGTTCATGTAGAAGGCTAGC 60.12 104
ssr-81 (ATCC)10 CCACTTCCAGCCAGTGAAGC 61.24 CCATCCATCCATCCATCCATCC 60.36 172
ssr-3524 (ATCC)13 AATGCCTACTGCCAGAAACC 58.16 AGTGATTTGACTGCTGCTGC 59.12 147
ssr-4478 (ATCC)14 GTCTGTCCGTCCATCCATCC 59.89 CTGACCCTGCTTAGCTTCCG 60.46 213
ssr-5989 (ATCC)12 AAGCAAGCAACTGAGCAAGC 59.97 GCTAGTCTTGTTAGGATTGCACC 59.38 125
ssr-8782 (ATCC)11 TCTGTGTTGATGTTCCATGTCC 58.59 GCACAATGCAAGAACAATGC 57.13 204
ssr-113 (AAGG)6 GCTTGAGGAAGGAAGGGAGG 59.75 TGAACAATAGCTTGCAACAGCC 60.03 139
ssr-581 (AAGG)6 GGTGCGCTGTTATTCTTGCC 59.38 GTGGGTGTGCTTGCTTATGC 60.11 138
ssr-574 (ACGG)4 TTGGTTGGTGTACAGAGGCG 60.32 TTGATCCAACGGGCTCAAGG 60.32 145
ssr-764 (ACTG)4 TGTTTAATTGTCGATTCAGGATGGC 59.89 GACAGGTGATCCCAGTACGC 60.18 138
ssr-517 (ACTC)9 GTAGTCCATTGTTGCAAGCCG 57.62 CCATGGAGTCACAAAGAGTTGG 59.18 170
ssr-91 (AGGG)4 AGCTGTCACCCATGTATGGC 60.11 AGGAGATGAAGAACGGGTTGG 59.72 176
ssr-723 (AGGG)5 TGACTGAAGGGAGGAGGAGG 57.84 GCAGAATCACTAGCCATGGC 59.05 113
3 讨论

本研究利用Roche 454 GS FLX高通量测序平台对南疆沙蜥进行了低覆盖度基因组测序,并利用Krait(Du et al., 2018)进行微卫星的查找与统计。结果表明,不同类型的微卫星在南疆沙蜥基因组中丰度差异很大,以四碱基重复类型最多。与以往对物种基因组中进行微卫星查找的研究相比,这种情况很少见。植物基因组中,已有研究表明占优势的微卫星是二碱基重复(Tóth et al., 2000)或六碱基重复(马秋月等,2013廖卓毅等,2014)。对动物的研究,无脊椎动物中占主导的微卫星重复类别没有特别明显的规律,最丰富的类型既有单碱基重复(汪自立等,2013),又有二碱基重复(高焕等,2004)和三碱基重复(魏朝明等,2007汪自立等,2013);脊椎动物中单碱基重复占主导的较多(黄杰等, 2012, 2015戚文华等,2013李午佼等,2014聂虎等,2017崔凯,岳碧松,2018)。有研究推测,多数物种基因组微卫星中单碱基重复丰度最高,可能是由于微卫星序列越长,突变率就越高,因此稳定性就越差(Wierdl et al., 1997);在很多真核生物中,重复长度和重复频率呈负相关(Katti et al., 2001)。然而,我们对南疆沙蜥的研究结果与之相差甚远,与南疆沙蜥同属于爬行类的红尾蚺Boa constrictor和原矛头蝮Protobothrops mucrosquamatus也并未表现出一致的微卫星重复类型(聂虎等,2017)。总体而言,不同物种基因组中的微卫星重复类型丰度表现不尽相同,重复长度和重复频率的相关关系可能也不宜一概而论。

从南疆沙蜥重复基序的拷贝数分布来看,重复次数少的类型占多数。谱系(Weber & Wong,1993Schlötterer et al., 1998)、种群(Goldstein & Clark,1995)和克隆株(Wierdl et al., 1997)的微卫星分析结果均支持SSR位点的变异频率与拷贝数存在一定相关性,即重复次数越多,SSR产生变异的可能性越大,但Schlötterer(2000)认为这种相关性是否呈线性关系还有待进一步研究。

Guichoux等(2011)统计,自1990年以来,有关微卫星的论文数量增长迅猛,一定程度上也促进了二代测序技术的发展。而二代测序出现之前,微卫星重复类型的获得对于非模式生物来说均是一个瓶颈(Guichoux et al., 2011)。随着高通量测序技术的发展,测序成本逐渐降低,可获得的数据越来越多,这为进一步增进对非模式物种的深度了解提供了很好的契机。Nie等(2015)运用Illumina高通量RNA-seq测序技术对青海沙蜥进行转录组测序,鉴定筛选出25个微卫星位点,其中22个位点可在南疆沙蜥中扩增。本研究使用454 GS FLX高通量测序技术对南疆沙蜥进行基因组测序,SSR分子标记开发及分析,利用软件预测首次对南疆沙蜥基因组微卫星进行了搜索统计并设计筛选了100对基于三碱基和四碱基重复的候选引物,为利用微卫星标记研究南疆沙蜥种群遗传结构奠定了基础。

参考文献
崔凯, 岳碧松. 2018. 绿尾虹雉全基因组微卫星分布规律研究[J]. 四川动物, 37(5): 533–540.
戴昆, 马鸣. 1991. 新疆南部三种沙蜥对山地及荒漠的适应性初报[J]. 干旱区研究, 8(1): 47–49.
高焕, 刘萍, 孟宪红, 等. 2004. 中国对虾(Fenneropenaeus chinensis)基因组微卫星特征分析[J]. 海洋与湖沼, 35(5): 424–431. DOI:10.3321/j.issn:0029-814X.2004.05.005
黄杰, 杜联明, 李玉芝, 等. 2012. 红原鸡全基因组中微卫星分布规律研究[J]. 四川动物, 31(3): 358–363.
黄杰, 周瑜, 刘与之, 等. 2015. 基于454 GS FLX高通量测序的四川山鹧鸪基因组微卫星特征分析[J]. 四川动物, 34(1): 8–14.
李午佼, 李玉芝, 杜联明, 等. 2014. 大熊猫和北极熊基因组微卫星分布特征比较分析[J]. 四川动物, 33(6): 874–878.
廖卓毅, 马秋月, 戴晓港, 等. 2014. 利用高通量测序技术分析核桃基因组微卫星特征[J]. 东北林业大学学报, 42(2): 65–68, 82. DOI:10.3969/j.issn.1000-5382.2014.02.016
马秋月, 戴晓港, 陈赢男, 等. 2013. 枣基因组的微卫星特征[J]. 林业科学, 49(12): 81–87.
聂虎, 曹莎莎, 赵明朗, 等. 2017. 红尾蚺和原矛头蝮基因组微卫星分布特征比较分析[J]. 四川动物, 36(6): 639–648.
戚文华, 蒋雪梅, 肖国生, 等. 2013. 牛和绵羊全基因组微卫星序列的搜索及其生物信息学分析[J]. 畜牧兽医学报, 44(11): 1724–1733.
汪自立, 黄杰, 杜联明, 等. 2013. 二斑叶螨和肩突硬蜱基因组微卫星分布规律研究[J]. 四川动物, 32(4): 481–486. DOI:10.3969/j.issn.1000-7083.2013.04.001
魏朝明, 孔光耀, 廉振民, 等. 2007. 蜜蜂全基因组中微卫星的丰度及其分布[J]. 应用昆虫学报, 44(4): 501–504. DOI:10.3969/j.issn.0452-8255.2007.04.008
吾玛尔·阿布力孜, 杨立中. 1999. 南疆沙蜥精巢的显微结构观察[J]. 新疆大学学报(自然科学版), 16(2): 52–57.
吾玛尔·阿布力孜, 于甫尔·米吉提, 杨立中. 2000. 南疆沙蜥受精过程的细胞学研究[J]. 新疆大学学报(自然科学版), 17(2): 69–73. DOI:10.3969/j.issn.1000-2839.2000.02.015
曾晓茂, 王跃招, 刘志君, 等. 1997. 九种沙蜥的核型——兼论中国沙蜥属核型演化[J]. 动物学报, 43(4): 399–410. DOI:10.3321/j.issn:0001-7302.1997.04.010
Allentoft M, Schuster SC, Holdaway R, et al. 2009. Identification of microsatellites from an extinct moa species using high-throughput (454) sequence data[J]. Biotechniques, 46(3): 195–200. DOI:10.2144/000113086
Chen DL, Li J, Guo XG. 2019. Next-generation sequencing yields a nearly complete mitochondrial genome of the Forsyth's toad-headed agama, Phrynocephalus forsythii (Reptilia, Squamata, Agamidae)[J]. Mitochondrial DNA Part B, 4(1): 817–819. DOI:10.1080/23802359.2019.1574681
Chen DL, Zhou T, Guo XG. 2016. The complete mitochondrial genome of Phrynocephalus forsythii (Reptilia, Squamata, Agamidae), a toad-headed agama endemic to the Taklamakan Desert[J]. Mitochondrial DNA, 27(6): 4046–4048. DOI:10.3109/19401736.2014.1003837
Du LM, Zhang C, Liu Q, et al. 2018. Krait: an ultrafast tool for genome-wide survey of microsatellites and primer design[J]. Bioinformatics, 34(4): 681–683. DOI:10.1093/bioinformatics/btx665
Goldstein DB, Clark AG. 1995. Microsatellite variation in North American populations of Drosophila melanogaster[J]. Nucleic Acids Research, 23(19): 3882–3886. DOI:10.1093/nar/23.19.3882
Guichoux E, Lagache L, Wagner S, et al. 2011. Current trends in microsatellite genotyping[J]. Molecular Ecology Resources, 11(4): 591–611. DOI:10.1111/j.1755-0998.2011.03014.x
Katti MV, Ranjekar PK, Gupta VS. 2001. Differential distribution of simple sequence repeats in eukaryotic genome sequences[J]. Molecular Biology and Evolution, 18(7): 1161–1167. DOI:10.1093/oxfordjournals.molbev.a003903
Nie H, Wu Y, Qiao L, et al. 2015. Development of novel microsatellite DNA markers for toad-headed agama Phrynocephalus vlangalii using next generation sequencing[J]. Conservation Genetics Resources, 7(2): 385–388. DOI:10.1007/s12686-014-0376-4
O'connell M, Wright JM. 1997. Microsatellite DNA in fishes[J]. Reviews in Fish Biology and Fisheries, 7(3): 331–363. DOI:10.1023/A:1018443912945
O'reilly P, Wright JM. 1995. The evolving technology of DNA fingerprinting and its application to fisheries and aquaculture[J]. Journal of Fish Biology, 47(sA): 29–55. DOI:10.1111/j.1095-8649.1995.tb06042.x
Roche. 2011. 454 sequencing system software manual version 2.6. Part C: GS de novo assembler, GS reference mapper, SFF tools: Roche[M]. Branford, Connecticut: 454 Life Sciences Corporation.
Schlötterer C, Ritter R, Harr B, et al. 1998. High mutation rate of a long microsatellite allele in Drosophila melanogaster provides evidence for allele-specific mutation rates[J]. Molecular Biology & Evolution, 15(10): 1269–1274.
Schlötterer C. 2000. Evolutionary dynamics of microsatellite DNA[J]. Chromosoma, 109(6): 365–371. DOI:10.1007/s004120000089
Selkoe KA, Toonen RJ. 2006. Microsatellites for ecologists: a practical guide to using and evaluating microsatellite markers[J]. Ecology Letters, 9(5): 615–629. DOI:10.1111/j.1461-0248.2006.00889.x
Shao M, Ma L, Wang Z. 2016. The complete mitochondrial genome of the toad-headed lizard, Phrynocephalus forsythii (Reptilia, Squamata, Agamidae)[J]. Mitochondrial DNA Part A, 27(5): 3147–3148. DOI:10.3109/19401736.2015.1007306
Tóth G, Gáspári Z, Jurka J. 2000. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Research, 10(7): 967–981. DOI:10.1101/gr.10.7.967
Weber JL, Wong C. 1993. Mutation of human short tandem repeats[J]. Human Molecular Genetics, 2(8): 1123–1128. DOI:10.1093/hmg/2.8.1123
Wierdl M, Dominska M, Petes TD. 1997. Microsatellite instability in yeast: dependence on the length of the microsatellite[J]. Genetics, 146(3): 769–777.
Xia Y, Luo W, Yuan S, et al. 2018. Microsatellite development from genome skimming and transcriptome sequencing: comparison of strategies and lessons from frog species[J]. BMC Genomics, 19(1): 886. DOI:10.1186/s12864-018-5329-y
Zane L, Bargelloni L, Patarnello T. 2002. Strategies for microsatellite isolation: a review[J]. Molecular Ecology, 11(1): 1–16. DOI:10.1046/j.0962-1083.2001.01418.x
Zhang Q, Xia L, He J, et al. 2010. Comparison of phylogeographic structure and population history of two Phrynocephalus species in the Tarim Basin and adjacent areas[J]. Molecular Phylogenetics and Evolution, 57(3): 1091–1104. DOI:10.1016/j.ympev.2010.10.003