四川动物  2019, Vol. 38 Issue (1): 62-67

扩展功能

文章信息

宋琪, 刘金龙, 郭宪光
SONG Qi, LIU Jinlong, GUO Xianguang
基于Roche 454 GS FLX高通量测序的叶城沙蜥基因组微卫星特征分析
Characterization of Microsatellites in Phrynocephalus axillaris Genome Using Roche 454 GS FLX
四川动物, 2019, 38(1): 62-67
Sichuan Journal of Zoology, 2019, 38(1): 62-67
10.11984/j.issn.1000-7083.20180264

文章历史

收稿日期: 2018-09-03
接受日期: 2018-10-29
基于Roche 454 GS FLX高通量测序的叶城沙蜥基因组微卫星特征分析
宋琪1,2 , 刘金龙1 , 郭宪光1*     
1. 中国科学院成都生物研究所, 成都 610041
2. 中国科学院大学, 北京 100049
摘要:叶城沙蜥Phrynocephalus axillaris是我国特有的一种小型爬行动物,广泛分布于新疆塔里木盆地、吐鲁番-哈密盆地和甘肃敦煌盆地。本研究利用Roche 454 GS FLX高通量测序技术进行叶城沙蜥微卫星位点筛选,获得了91 190条高质量序列。用Krait搜索微卫星位点,共得到1~6个碱基重复类型的完美型微卫星序列29 890个。不同类型微卫星中,单碱基重复类型数目最多,有14 630个,占总数的48.95%,其次是二碱基,约占28.60%,四碱基、三碱基、五碱基和六碱基分别占10.73%、10.48%、0.92%和0.32%。二碱基微卫星中AC重复类型数量最多,三碱基、四碱基、五碱基和六碱基中分别是ATC、AAAT、AAAAT和AATCCC。叶城沙蜥完美型微卫星中数量最多的11种重复拷贝类型分别为C、A、AC、AG、AAAT、ATC、AT、AAT、ATAG、AGG和AAC。本研究深化了对叶城沙蜥基因组的了解,并为以后开发和筛选大量高质量微卫星标记提供了数据支持,也为利用微卫星标记研究叶城沙蜥种群遗传结构和谱系地理模式奠定了基础。
关键词叶城沙蜥     基因组序列     微卫星     分布    
Characterization of Microsatellites in Phrynocephalus axillaris Genome Using Roche 454 GS FLX
SONG Qi1,2 , LIU Jinlong1 , GUO Xianguang1*     
1. Chengdu Institute of Biology, Chinese Academy of Sciences, Chengdu 610041, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: Yarkand toad-headed agama (Phrynocephalus axillaris), a small reptile endemic to China, is widely distributed in Tarim Basin, Turpan-Hami Basin, Xinjiang Uygur Autonomous Region and Dunhuang Basin, Gansu province. The whole genome of P. axillaris was sequenced using Roche 454 GS FLX platform, and 91 190 high quality sequences were obtained. A total of 29 890 simple sequence repeats with 1-6 bp nucleotide motifs were identified by Krait. Among the different repeat types of the microsatellites, mononucleotide (48.95%) was the most common repeat unit, followed by the di- (28.60%), tetra- (10.73%), tri- (10.48%), penta- (0.92%) and hexanucleotides (0.32%). AC, ATC, AAAT, AAAAT, and AATCCC were the most common repeat units among the di-, tri-, tetra-, penta-, and hexanucleotides, respectively. In the genome of P. axillaris, there were 11 predomiant repeat types, which included C, A, AC, AG, AAAT, ATC, AT, AAT, ATAG, AGG and AAC. This study contributes to the understanding of the genetic feature for P. axillaris, and will provide data support for development and screening of high quality microsatellite markers. In addition, this study lays a foundation for further revealing the population genetic structure and phylogeographic pattern of this lizard using microsatellite markers.
Keywords: Phrynocephalus axillaris     genome     microsatellite     distribution    

微卫星(microsatellite)又称为简短串联重复(short tandem repeats,STRs)或简单序列重复(simple sequence repeats,SSRs),Skinner等(1974)在寄居蟹Pagurus pollicaris中发现微卫星DNA序列开启了对真核生物中微卫星序列的了解。直到Powell等(1996)定义了微卫星位点,认为微卫星DNA序列一般是以1~6个核苷酸为重复单位的串联重复序列,在从病毒到真核生物的基因组中均有分布,并且具有高度的长度多态性(Zane et al., 2002)。由于微卫星突变速率快、多态性高、分布广泛、符合孟德尔遗传、易于检测等优点,被广泛应用于种群遗传、谱系地理和亲子鉴定等领域。据Guichoux等(2011)统计,1990—2009年有关微卫星的论文数量增长迅猛。而开发微卫星标记的传统方法耗时、耗力(Abdelkrim et al., 2009),采用高通量测序技术获得微卫星序列已发展为主流方法(曾聪等,2013黄杰等,2015Zhou et al., 2016)。其中,二代测序技术——Roche 454测序除高效、快捷外,其片段读长更大,更适合微卫星标记的开发(Allentoft et al., 2009程晓凤等,2011)。

叶城沙蜥Phrynocephalus axillaris隶属于鬣蜥科Agamidae沙蜥属Phrynocephalus,是我国特有的一种小型爬行动物,分布于我国新疆天山山脉南部地区,包括塔里木盆地及周边的吐鲁番-哈密盆地和敦煌盆地(赵尔宓等,1999)。其栖息生境为戈壁、荒漠或沙漠边缘地带以及固定沙丘的丘间平地(<3 000 m;赵尔宓等,1999)。有关叶城沙蜥种群遗传结构,利用线粒体基因数据并未得到很好的解析,这可能与其分化时间太短或不完全谱系分选有关(Zhang et al., 2010李俊,2013)。基于微卫星位点变异速率快、多态性高等特点,有望更全面地解析叶城沙蜥的种群遗传结构。

叶城沙蜥微卫星标记的研究仅见于Nie等(2015)运用转录组测序对青海沙蜥P. vlangalii开展的微卫星位点开发,跨物种在叶城沙蜥中检测到17个可扩增的微卫星位点。本研究通过Roche 454 GS FLX高通量测序,对叶城沙蜥基因组进行测序,同时用搜索软件扫描基因组序列,搜索和输出其微卫星序列。本研究首次对叶城沙蜥核基因组微卫星序列进行了初步的统计和分析,旨在对其基因组水平上的微卫星重复序列的种类、数量等进行初步探索,以期为开发和筛选大量高质量微卫星标记提供数据支持,也为利用微卫星标记研究叶城沙蜥的种群遗传结构和谱系地理模式奠定基础。

1 材料和方法 1.1 样品收集、基因组DNA提取及Roche 454 GS FLX高通量测序

用于基因组测序的叶城沙蜥标本(标本号:WGXG08226)于2008年6月采于新疆维吾尔自治区吐鲁番沙漠植物园(89.19°E,42.86°N),经75%乙醇固定后,保存于中国科学院成都生物研究所两栖爬行动物标本馆。其肝脏组织样品固定于95%乙醇中,-20 ℃保存。2013年11月将提取的基因组DNA送上海美吉生物信息科技有限公司,采用基于焦磷酸测序法的高通量基因测序系统——Roche 454 GS FLX进行基因组测序。

1.2 数据分析

采用Roche 454 GS FLX系统对测序数据进行过滤、整理,使用Newbler 2.6(Roche,2011)对优化后的原始数据从头拼装(de novo assembly),并将组装出的contigs和未拼装的single read序列合并。采用Krait(Du et al., 2018)对合并的总序列进行微卫星位点的查找,所使用的搜索标准如下:单碱基重复≥9次,其他碱基重复(二碱基、三碱基、四碱基、五碱基、六碱基)≥5次,其余参数采用默认设置。

2 结果与分析 2.1 测序数据统计

原始测序数据的每条read经过质量过滤后,对下机数据进行统计,得到91 190条reads,共47 982 924 bp,最短的27 bp,最长的1 168 bp,平均长度为526.2 bp,主要集中分布在550~750 bp(图 1)。

图 1 Roche 454 GS FLX原始数据长度分布统计 Fig. 1 Distribution of the sequence length for the raw reads data in Roche 454 GS FLX A~C″代表不同的序列长度范围A to C″ means different ranges of sequence length;A. 1~40,B. 41~60,C. 61~80,D. 81~100,E. 101~120,F. 121~140,G. 141~160,H. 161~180,I. 181~200,J. 201~220,K. 221~240,L. 241~260,M. 261~280,N. 281~300,O. 301~320,P. 321~340,Q. 341~360,R. 361~380,S. 381~400,T. 401~420,U. 421~440,V. 441~460,W. 461~480,X. 481~500,Y. 501~520,Z. 521~540,A′. 541~560,B′. 561~580,C′. 581~600,D′. 601~620,E′. 621~640,F′. 641~660,G′. 661~680,H′. 681~700,I′. 701~720,G′. 721~740,K′. 741~760,L′. 761~780,M′. 781~800,N′. 801~820,O′. 821~840,P′. 841~860,Q′. 861~880,R′. 881~900,S′. 901~920,T′. 921~940,U′. 941~960,V′. 961~980,W′. 981~1 000,X′. 1 001~1 020,Y′. 1 021~1 040,Z′. 1 041~1 060,A″. 1 061~1 080,B″. 1 081~1 140,C″. 1 141~1 180
2.2 基因组组装

利用Newbler对reads拼接,得到715个contigs,共359 650 bp,最短的100 bp,最长的15 025 bp,平均为503 bp。未拼接上的reads有65 873个,共34 820 132 bp。

2.3 微卫星位点分析

将组装出的contigs和未组装的single read序列合并,得到合并序列66 588个,共35 179 782 bp。对合并的总序列进行微卫星位点分析,获得微卫星重复序列29 890个。重复类型最多的为单碱基重复类型,占总重复类型的48.95%;其次是二碱基重复类型,占28.60%;最少的为六碱基重复类型,仅占0.32%(表 1)。

表 1 不同重复类型的完美型微卫星在叶城沙蜥基因组的分布 Table 1 Distribution of perfect microsatellites for different repeat types in the genome of Phrynocephalus axillaris
单碱基 二碱基 三碱基 四碱基 五碱基 六碱基 总计
重复序列数量 14 630 8 550 3 132 3 207 274 97 29 890
比例/% 48.95 28.60 10.48 10.73 0.92 0.32 100
2.3.1 各重复拷贝类型的数量和相应的比例

同一种类型的重复序列中,各重复拷贝类型所占的比例不相同(表 2)。二碱基重复类型中,AC重复拷贝类型最多,占二碱基重复序列总数的54.94%,有4 697个,其次是AG(37.20%)和AT(6.84%),CG最少,只有87个,占1.02%。三碱基重复类型中,有9种重复拷贝类型,数量较多的是ATC和AAT,分别有588个和498个,占三碱基重复序列总数的18.78%和15.90%,其他类型详见表 2。四碱基重复类型的重复拷贝类型有27种,最多的是AAAT,有1 288个,占四碱基重复序列总数的40.16%,其次是ATAG,占15.06%,其他类型相对较少,占比均不超过10%。五碱基重复类型中,AAAAT重复拷贝类型最多,有87个,占五碱基重复序列总数的31.75%;其次是AAAAC(16.42%)、AATAG(5.11%)、AAAAG(4.01%),其他类型均不超过10个。六碱基重复类型中,最多的是AATCCC,有20个,占六碱基重复序列总数的20.62%,其他类型均不超过20个。

表 2 叶城沙蜥基因组中分布频率最高的微卫星重复类型 Table 2 The most frequent microsatellite motifs detected in the genome of Phrynocephalus axillaris
微卫星重复类型 常见重复拷贝类型(比例/%)
单碱基 C(54.50) A(45.50)
二碱基 AC(54.94) AG(37.20)
AT(6.84) CG(1.02)
三碱基 ATC(18.78) AAT(15.90)
AGG(15.20) AAC(14.75)
ACC(12.74) AAG(10.38)
四碱基 AAAT(40.16) ATAG(15.06)
AAAG(6.80) AAAC(6.64)
AAGG(4.83) ACAG(3.68)
五碱基 AAAAT(31.75) AAAAC(16.42)
AATAG(5.11) AAAAG(4.01)
六碱基 AATCCC(20.62) ATATAG(10.31)
AAATAT(6.19) AAGGAG(4.12)
2.3.2 各种重复类型微卫星拷贝数的数量分布

二碱基重复为5~186次,主要分布在5~9次,有6 248个,占二碱基重复类型总数的73.08%;三碱基重复为5~36次,主要分布在5~10次,有2 162个,占三碱基重复类型总数的69.03%;四碱基重复为5~43次,主要分布在5~14次,共2 625个,占四碱基重复类型总数的81.85%;五碱基重复为5~11次,共261个,占五碱基重复类型总数的95.26%;六碱基重复为5~17次,主要分布在5~9次,共87个,占六碱基重复类型总数的89.69%(图 2)。

图 2 叶城沙蜥不同重复类型微卫星拷贝数的分布 Fig. 2 Distribution of the copy number in different microsatellite motifs for Phrynocephalus axillaris

数量最多的前11个完美型微卫星重复类型依次是C、A、AC、AG、AAAT、ATC、AT、AAT、ATAG、AGG、AAC,这些微卫星在基因组中均出现400次以上,占完美型微卫星总数的89.96%。

3 讨论

由于单碱基重复难以准确测定(Sun et al., 2006),通常在分析开始就被舍弃(Kim et al., 2008)。本研究表明,除单碱基重复外的所有重复类型中,二碱基重复最多,这与大熊猫Ailuropoda melanoleuca和北极熊Ursus maritimus(李午佼等,2014)、褐菖鲉Sebastiscus marmoratus(Song et al., 2017)和团头鲂Megalobrama amblycephala(曾聪等,2013)等类似。这可能与微卫星序列越长、突变率越高、稳定性越差有关(Wierdl et al., 1997)。在很多真核生物中,重复长度和重复频率呈负相关(Katti et al., 2001)。本研究发现随拷贝数增加,重复序列数量变少,也符合这一整体趋势。此外,AC重复是叶城沙蜥基因组中二碱基重复中最多的类型,占54.94%,同时也是除单碱基重复外所有重复类型中最多的一类。脊椎动物基因组的30%~67%微卫星重复是二碱基重复,而AC重复是最多的一种(Tóth et al., 2000),本研究结果也支持了此观点。

表 3 分布频率最高的重复类型微卫星的拷贝数分布 Table 3 Distribution of the copy repeats number of the most frequent microsatellite motifs
类型 重复次数 总数 比例/%
≤10 11~20 21~30 ≥31
C 5 174 2 733 55 12 7 974 26.68
A 4 752 1 880 23 1 6 656 22.27
AC 2 889 768 508 532 4 697 15.71
AG 2 299 647 180 55 3 181 10.64
AAAT 883 405 1 288 4.31
ATC 277 203 108 588 1.97
AT 564 21 585 1.96
AAT 225 79 180 14 498 1.67
ATAG 90 260 131 2 483 1.62
AGG 431 43 2 476 1.59
AAC 303 102 55 2 462 1.55
合计 17 887 7 141 1 242 618 26 888 89.96

二代测序出现前,对于非模式生物,微卫星重复类型的获得均是一个瓶颈(Guichoux et al., 2011)。随着高通量测序技术的发展,测序成本逐渐降低,可获得的数据越来越多,这为进一步增进对非模式物种的深度了解提供了契机。Nie等(2015)运用高通量测序技术对青海沙蜥进行转录组测序,鉴定、筛选出25个微卫星位点,其中17个可在叶城沙蜥中扩增;而经Bonferroni校正后,其中有9个显著偏离哈迪-温伯格平衡(P<0.01),且这些位点的扩增适用性及多态性尚未在叶城沙蜥的不同种群中验证。本研究使用高通量测序技术对叶城沙蜥进行基因组SSR分子标记开发及分析,并基于Krait(Du et al., 2018)对基因组中完美型微卫星进行统计,深化了对叶城沙蜥基因组的认识和了解,并为下一步开发和筛选大量高质量微卫星标记提供数据支持,还为利用微卫星标记研究叶城沙蜥种群遗传结构和谱系地理模式奠定了基础。

参考文献
程晓凤, 黄福江, 刘明典, 等. 2011. 454测序技术开发微卫星标记的研究进展[J]. 生物技术通报, 8: 82–90.
黄杰, 周瑜, 刘与之, 等. 2015. 基于454 GS FLX高通量测序的四川山鹧鸪基因组微卫星特征分析[J]. 四川动物, 34(1): 8–14.
李俊. 2013.叶城沙蜥线粒体基因组特征及基于ND4基因的谱系地理研究[D].北京: 中国科学院大学.
李午佼, 李玉芝, 杜联明, 等. 2014. 大熊猫和北极熊基因组微卫星分布特征比较分析[J]. 四川动物, 33(6): 874–878.
曾聪, 高泽霞, 罗伟, 等. 2013. 基于454 GS FLX高通量测序的团头鲂ESTs中微卫星特征分析[J]. 水生生物学报, 37(5): 982–988.
赵尔宓, 赵肯堂, 周开亚, 等. 1999. 中国动物志爬行纲(第二卷)有鳞目蜥蜴亚目[M]. 北京: 科学出版社: 157-160.
Abdelkrim J, Robertson BC, Stanton JAL, et al. 2009. Fast, cost-effective development of species-specific microsatellite markers by genomic sequencing[J]. Biotechniques, 46(3): 185–191. DOI:10.2144/000113084
Allentoft ME, Schuster SC, Holdaway RN, et al. 2009. Identification of microsatellites from an extinct moa species using high-throughput (454) sequence data[J]. Biotechniques, 46(3): 195–200. DOI:10.2144/000113086
Du LM, Zhang C, Liu Q, et al. 2018. Krait: an ultrafast tool for genome-wide survey of microsatellites and primer design[J]. Bioinformatics, 34(4): 681–683. DOI:10.1093/bioinformatics/btx665
Guichoux E, Lagache L, Wagner S, et al. 2011. Current trends in microsatellite genotyping[J]. Molecular Ecology Resources, 11(4): 591–611. DOI:10.1111/men.2011.11.issue-4
Katti MV, Ranjekar PK, Gupta VS. 2001. Differential distribution of simple sequence repeats in eukaryotic genome sequences[J]. Molecular Biology and Evolution, 18(7): 1161–1167. DOI:10.1093/oxfordjournals.molbev.a003903
Kim TS, Booth JG, Gauch HG, et al. 2008. Simple sequence repeats in Neurospora crassa: distribution, polymorphism and evolutionary inference[J]. BMC Genomics, 9(1): 31. DOI:10.1186/1471-2164-9-31
Nie H, Wu YY, Qiao L, et al. 2015. Development of novel microsatellite DNA markers for toad-headed agama Phrynocephalus vlangalii using next generation sequencing[J]. Conservation Genetics Resources, 7(2): 385–388. DOI:10.1007/s12686-014-0376-4
Powell W, Machray GC, Provan J. 1996. Polymorphism revealed by simple sequence repeats[J]. Trends in Plant Science, 1(7): 215–222. DOI:10.1016/S1360-1385(96)86898-0
Roche. 2011. 454 sequencing system software manual version 2.6. Part C: GS de novo assembler, GS reference mapper, SFF tools: Roche[M]. Branford, Connecticut: 454 Life Sciences Corporation.
Skinner DM, Beattie WG, Blattner FR, et al. 1974. The repeat sequence of a hermit crab satellite deoxyribonucleic acid is (-T-A-G-G-)n·(-A-T-C-C-)n[J]. Biochemistry, 13(19): 3930–3937. DOI:10.1021/bi00716a018
Song N, Chen M, Gao T, et al. 2017. Profile of candidate microsatellite markers in Sebastiscus marmoratus using 454 pyrosequencing[J]. Journal of Oceanology and Limnology, 35(1): 198–202. DOI:10.1007/s00343-016-5103-4
Sun XY, Liu YD, Lutterbaugh J, et al. 2006. Detection of mononucleotide repeat sequence alterations in a large background of normal DNA for screening high-frequency microsatellite instability cancers[J]. Clinical Cancer Research, 12(2): 454–459. DOI:10.1158/1078-0432.CCR-05-0919
Tóth G, Gáspári Z, Jurka J. 2000. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Research, 10(7): 967–981. DOI:10.1101/gr.10.7.967
Wierdl M, Dominska M, Petes TD. 1997. Microsatellite instability in yeast: dependence on the length of the microsatellite[J]. Genetics, 146(3): 769–779.
Zane L, Bargelloni L, Patarnello T. 2002. Strategies for microsatellite isolation: a review[J]. Molecular Ecology, 11(1): 1–16. DOI:10.1046/j.0962-1083.2001.01418.x
Zhang Q, Xia L, He J, et al. 2010. Comparison of phylogeographic structure and population history of two Phrynocephalus species in the Tarim Basin and adjacent areas[J]. Molecular Phylogenetics and Evolution, 57(3): 1091–1104. DOI:10.1016/j.ympev.2010.10.003
Zhou Q, Luo D, Ma L, et al. 2016. Development and cross-species transferability of EST-SSR markers in Siberian wildrye (Elymus sibiricus L.) using Illumina sequencing[J]. Scientific Reports, 6: 20549. DOI:10.1038/srep20549