扩展功能
文章信息
- 宋琪, 刘金龙, 郭宪光
- SONG Qi, LIU Jinlong, GUO Xianguang
- 基于Roche 454 GS FLX高通量测序的叶城沙蜥基因组微卫星特征分析
- Characterization of Microsatellites in Phrynocephalus axillaris Genome Using Roche 454 GS FLX
- 四川动物, 2019, 38(1): 62-67
- Sichuan Journal of Zoology, 2019, 38(1): 62-67
- 10.11984/j.issn.1000-7083.20180264
-
文章历史
- 收稿日期: 2018-09-03
- 接受日期: 2018-10-29
2. 中国科学院大学, 北京 100049
2. University of Chinese Academy of Sciences, Beijing 100049, China
微卫星(microsatellite)又称为简短串联重复(short tandem repeats,STRs)或简单序列重复(simple sequence repeats,SSRs),Skinner等(1974)在寄居蟹Pagurus pollicaris中发现微卫星DNA序列开启了对真核生物中微卫星序列的了解。直到Powell等(1996)定义了微卫星位点,认为微卫星DNA序列一般是以1~6个核苷酸为重复单位的串联重复序列,在从病毒到真核生物的基因组中均有分布,并且具有高度的长度多态性(Zane et al., 2002)。由于微卫星突变速率快、多态性高、分布广泛、符合孟德尔遗传、易于检测等优点,被广泛应用于种群遗传、谱系地理和亲子鉴定等领域。据Guichoux等(2011)统计,1990—2009年有关微卫星的论文数量增长迅猛。而开发微卫星标记的传统方法耗时、耗力(Abdelkrim et al., 2009),采用高通量测序技术获得微卫星序列已发展为主流方法(曾聪等,2013;黄杰等,2015;Zhou et al., 2016)。其中,二代测序技术——Roche 454测序除高效、快捷外,其片段读长更大,更适合微卫星标记的开发(Allentoft et al., 2009;程晓凤等,2011)。
叶城沙蜥Phrynocephalus axillaris隶属于鬣蜥科Agamidae沙蜥属Phrynocephalus,是我国特有的一种小型爬行动物,分布于我国新疆天山山脉南部地区,包括塔里木盆地及周边的吐鲁番-哈密盆地和敦煌盆地(赵尔宓等,1999)。其栖息生境为戈壁、荒漠或沙漠边缘地带以及固定沙丘的丘间平地(<3 000 m;赵尔宓等,1999)。有关叶城沙蜥种群遗传结构,利用线粒体基因数据并未得到很好的解析,这可能与其分化时间太短或不完全谱系分选有关(Zhang et al., 2010;李俊,2013)。基于微卫星位点变异速率快、多态性高等特点,有望更全面地解析叶城沙蜥的种群遗传结构。
叶城沙蜥微卫星标记的研究仅见于Nie等(2015)运用转录组测序对青海沙蜥P. vlangalii开展的微卫星位点开发,跨物种在叶城沙蜥中检测到17个可扩增的微卫星位点。本研究通过Roche 454 GS FLX高通量测序,对叶城沙蜥基因组进行测序,同时用搜索软件扫描基因组序列,搜索和输出其微卫星序列。本研究首次对叶城沙蜥核基因组微卫星序列进行了初步的统计和分析,旨在对其基因组水平上的微卫星重复序列的种类、数量等进行初步探索,以期为开发和筛选大量高质量微卫星标记提供数据支持,也为利用微卫星标记研究叶城沙蜥的种群遗传结构和谱系地理模式奠定基础。
1 材料和方法 1.1 样品收集、基因组DNA提取及Roche 454 GS FLX高通量测序用于基因组测序的叶城沙蜥标本(标本号:WGXG08226)于2008年6月采于新疆维吾尔自治区吐鲁番沙漠植物园(89.19°E,42.86°N),经75%乙醇固定后,保存于中国科学院成都生物研究所两栖爬行动物标本馆。其肝脏组织样品固定于95%乙醇中,-20 ℃保存。2013年11月将提取的基因组DNA送上海美吉生物信息科技有限公司,采用基于焦磷酸测序法的高通量基因测序系统——Roche 454 GS FLX进行基因组测序。
1.2 数据分析采用Roche 454 GS FLX系统对测序数据进行过滤、整理,使用Newbler 2.6(Roche,2011)对优化后的原始数据从头拼装(de novo assembly),并将组装出的contigs和未拼装的single read序列合并。采用Krait(Du et al., 2018)对合并的总序列进行微卫星位点的查找,所使用的搜索标准如下:单碱基重复≥9次,其他碱基重复(二碱基、三碱基、四碱基、五碱基、六碱基)≥5次,其余参数采用默认设置。
2 结果与分析 2.1 测序数据统计原始测序数据的每条read经过质量过滤后,对下机数据进行统计,得到91 190条reads,共47 982 924 bp,最短的27 bp,最长的1 168 bp,平均长度为526.2 bp,主要集中分布在550~750 bp(图 1)。
2.2 基因组组装利用Newbler对reads拼接,得到715个contigs,共359 650 bp,最短的100 bp,最长的15 025 bp,平均为503 bp。未拼接上的reads有65 873个,共34 820 132 bp。
2.3 微卫星位点分析将组装出的contigs和未组装的single read序列合并,得到合并序列66 588个,共35 179 782 bp。对合并的总序列进行微卫星位点分析,获得微卫星重复序列29 890个。重复类型最多的为单碱基重复类型,占总重复类型的48.95%;其次是二碱基重复类型,占28.60%;最少的为六碱基重复类型,仅占0.32%(表 1)。
单碱基 | 二碱基 | 三碱基 | 四碱基 | 五碱基 | 六碱基 | 总计 | |
重复序列数量 | 14 630 | 8 550 | 3 132 | 3 207 | 274 | 97 | 29 890 |
比例/% | 48.95 | 28.60 | 10.48 | 10.73 | 0.92 | 0.32 | 100 |
同一种类型的重复序列中,各重复拷贝类型所占的比例不相同(表 2)。二碱基重复类型中,AC重复拷贝类型最多,占二碱基重复序列总数的54.94%,有4 697个,其次是AG(37.20%)和AT(6.84%),CG最少,只有87个,占1.02%。三碱基重复类型中,有9种重复拷贝类型,数量较多的是ATC和AAT,分别有588个和498个,占三碱基重复序列总数的18.78%和15.90%,其他类型详见表 2。四碱基重复类型的重复拷贝类型有27种,最多的是AAAT,有1 288个,占四碱基重复序列总数的40.16%,其次是ATAG,占15.06%,其他类型相对较少,占比均不超过10%。五碱基重复类型中,AAAAT重复拷贝类型最多,有87个,占五碱基重复序列总数的31.75%;其次是AAAAC(16.42%)、AATAG(5.11%)、AAAAG(4.01%),其他类型均不超过10个。六碱基重复类型中,最多的是AATCCC,有20个,占六碱基重复序列总数的20.62%,其他类型均不超过20个。
微卫星重复类型 | 常见重复拷贝类型(比例/%) | |
单碱基 | C(54.50) | A(45.50) |
二碱基 | AC(54.94) | AG(37.20) |
AT(6.84) | CG(1.02) | |
三碱基 | ATC(18.78) | AAT(15.90) |
AGG(15.20) | AAC(14.75) | |
ACC(12.74) | AAG(10.38) | |
四碱基 | AAAT(40.16) | ATAG(15.06) |
AAAG(6.80) | AAAC(6.64) | |
AAGG(4.83) | ACAG(3.68) | |
五碱基 | AAAAT(31.75) | AAAAC(16.42) |
AATAG(5.11) | AAAAG(4.01) | |
六碱基 | AATCCC(20.62) | ATATAG(10.31) |
AAATAT(6.19) | AAGGAG(4.12) |
二碱基重复为5~186次,主要分布在5~9次,有6 248个,占二碱基重复类型总数的73.08%;三碱基重复为5~36次,主要分布在5~10次,有2 162个,占三碱基重复类型总数的69.03%;四碱基重复为5~43次,主要分布在5~14次,共2 625个,占四碱基重复类型总数的81.85%;五碱基重复为5~11次,共261个,占五碱基重复类型总数的95.26%;六碱基重复为5~17次,主要分布在5~9次,共87个,占六碱基重复类型总数的89.69%(图 2)。
数量最多的前11个完美型微卫星重复类型依次是C、A、AC、AG、AAAT、ATC、AT、AAT、ATAG、AGG、AAC,这些微卫星在基因组中均出现400次以上,占完美型微卫星总数的89.96%。
3 讨论由于单碱基重复难以准确测定(Sun et al., 2006),通常在分析开始就被舍弃(Kim et al., 2008)。本研究表明,除单碱基重复外的所有重复类型中,二碱基重复最多,这与大熊猫Ailuropoda melanoleuca和北极熊Ursus maritimus(李午佼等,2014)、褐菖鲉Sebastiscus marmoratus(Song et al., 2017)和团头鲂Megalobrama amblycephala(曾聪等,2013)等类似。这可能与微卫星序列越长、突变率越高、稳定性越差有关(Wierdl et al., 1997)。在很多真核生物中,重复长度和重复频率呈负相关(Katti et al., 2001)。本研究发现随拷贝数增加,重复序列数量变少,也符合这一整体趋势。此外,AC重复是叶城沙蜥基因组中二碱基重复中最多的类型,占54.94%,同时也是除单碱基重复外所有重复类型中最多的一类。脊椎动物基因组的30%~67%微卫星重复是二碱基重复,而AC重复是最多的一种(Tóth et al., 2000),本研究结果也支持了此观点。
类型 | 重复次数 | 总数 | 比例/% | |||
≤10 | 11~20 | 21~30 | ≥31 | |||
C | 5 174 | 2 733 | 55 | 12 | 7 974 | 26.68 |
A | 4 752 | 1 880 | 23 | 1 | 6 656 | 22.27 |
AC | 2 889 | 768 | 508 | 532 | 4 697 | 15.71 |
AG | 2 299 | 647 | 180 | 55 | 3 181 | 10.64 |
AAAT | 883 | 405 | — | — | 1 288 | 4.31 |
ATC | 277 | 203 | 108 | — | 588 | 1.97 |
AT | 564 | 21 | — | — | 585 | 1.96 |
AAT | 225 | 79 | 180 | 14 | 498 | 1.67 |
ATAG | 90 | 260 | 131 | 2 | 483 | 1.62 |
AGG | 431 | 43 | 2 | — | 476 | 1.59 |
AAC | 303 | 102 | 55 | 2 | 462 | 1.55 |
合计 | 17 887 | 7 141 | 1 242 | 618 | 26 888 | 89.96 |
二代测序出现前,对于非模式生物,微卫星重复类型的获得均是一个瓶颈(Guichoux et al., 2011)。随着高通量测序技术的发展,测序成本逐渐降低,可获得的数据越来越多,这为进一步增进对非模式物种的深度了解提供了契机。Nie等(2015)运用高通量测序技术对青海沙蜥进行转录组测序,鉴定、筛选出25个微卫星位点,其中17个可在叶城沙蜥中扩增;而经Bonferroni校正后,其中有9个显著偏离哈迪-温伯格平衡(P<0.01),且这些位点的扩增适用性及多态性尚未在叶城沙蜥的不同种群中验证。本研究使用高通量测序技术对叶城沙蜥进行基因组SSR分子标记开发及分析,并基于Krait(Du et al., 2018)对基因组中完美型微卫星进行统计,深化了对叶城沙蜥基因组的认识和了解,并为下一步开发和筛选大量高质量微卫星标记提供数据支持,还为利用微卫星标记研究叶城沙蜥种群遗传结构和谱系地理模式奠定了基础。
程晓凤, 黄福江, 刘明典, 等. 2011. 454测序技术开发微卫星标记的研究进展[J]. 生物技术通报, 8: 82–90. |
黄杰, 周瑜, 刘与之, 等. 2015. 基于454 GS FLX高通量测序的四川山鹧鸪基因组微卫星特征分析[J]. 四川动物, 34(1): 8–14. |
李俊. 2013.叶城沙蜥线粒体基因组特征及基于ND4基因的谱系地理研究[D].北京: 中国科学院大学. |
李午佼, 李玉芝, 杜联明, 等. 2014. 大熊猫和北极熊基因组微卫星分布特征比较分析[J]. 四川动物, 33(6): 874–878. |
曾聪, 高泽霞, 罗伟, 等. 2013. 基于454 GS FLX高通量测序的团头鲂ESTs中微卫星特征分析[J]. 水生生物学报, 37(5): 982–988. |
赵尔宓, 赵肯堂, 周开亚, 等. 1999. 中国动物志爬行纲(第二卷)有鳞目蜥蜴亚目[M]. 北京: 科学出版社: 157-160. |
Abdelkrim J, Robertson BC, Stanton JAL, et al. 2009. Fast, cost-effective development of species-specific microsatellite markers by genomic sequencing[J]. Biotechniques, 46(3): 185–191. DOI:10.2144/000113084 |
Allentoft ME, Schuster SC, Holdaway RN, et al. 2009. Identification of microsatellites from an extinct moa species using high-throughput (454) sequence data[J]. Biotechniques, 46(3): 195–200. DOI:10.2144/000113086 |
Du LM, Zhang C, Liu Q, et al. 2018. Krait: an ultrafast tool for genome-wide survey of microsatellites and primer design[J]. Bioinformatics, 34(4): 681–683. DOI:10.1093/bioinformatics/btx665 |
Guichoux E, Lagache L, Wagner S, et al. 2011. Current trends in microsatellite genotyping[J]. Molecular Ecology Resources, 11(4): 591–611. DOI:10.1111/men.2011.11.issue-4 |
Katti MV, Ranjekar PK, Gupta VS. 2001. Differential distribution of simple sequence repeats in eukaryotic genome sequences[J]. Molecular Biology and Evolution, 18(7): 1161–1167. DOI:10.1093/oxfordjournals.molbev.a003903 |
Kim TS, Booth JG, Gauch HG, et al. 2008. Simple sequence repeats in Neurospora crassa: distribution, polymorphism and evolutionary inference[J]. BMC Genomics, 9(1): 31. DOI:10.1186/1471-2164-9-31 |
Nie H, Wu YY, Qiao L, et al. 2015. Development of novel microsatellite DNA markers for toad-headed agama Phrynocephalus vlangalii using next generation sequencing[J]. Conservation Genetics Resources, 7(2): 385–388. DOI:10.1007/s12686-014-0376-4 |
Powell W, Machray GC, Provan J. 1996. Polymorphism revealed by simple sequence repeats[J]. Trends in Plant Science, 1(7): 215–222. DOI:10.1016/S1360-1385(96)86898-0 |
Roche. 2011. 454 sequencing system software manual version 2.6. Part C: GS de novo assembler, GS reference mapper, SFF tools: Roche[M]. Branford, Connecticut: 454 Life Sciences Corporation. |
Skinner DM, Beattie WG, Blattner FR, et al. 1974. The repeat sequence of a hermit crab satellite deoxyribonucleic acid is (-T-A-G-G-)n·(-A-T-C-C-)n[J]. Biochemistry, 13(19): 3930–3937. DOI:10.1021/bi00716a018 |
Song N, Chen M, Gao T, et al. 2017. Profile of candidate microsatellite markers in Sebastiscus marmoratus using 454 pyrosequencing[J]. Journal of Oceanology and Limnology, 35(1): 198–202. DOI:10.1007/s00343-016-5103-4 |
Sun XY, Liu YD, Lutterbaugh J, et al. 2006. Detection of mononucleotide repeat sequence alterations in a large background of normal DNA for screening high-frequency microsatellite instability cancers[J]. Clinical Cancer Research, 12(2): 454–459. DOI:10.1158/1078-0432.CCR-05-0919 |
Tóth G, Gáspári Z, Jurka J. 2000. Microsatellites in different eukaryotic genomes: survey and analysis[J]. Genome Research, 10(7): 967–981. DOI:10.1101/gr.10.7.967 |
Wierdl M, Dominska M, Petes TD. 1997. Microsatellite instability in yeast: dependence on the length of the microsatellite[J]. Genetics, 146(3): 769–779. |
Zane L, Bargelloni L, Patarnello T. 2002. Strategies for microsatellite isolation: a review[J]. Molecular Ecology, 11(1): 1–16. DOI:10.1046/j.0962-1083.2001.01418.x |
Zhang Q, Xia L, He J, et al. 2010. Comparison of phylogeographic structure and population history of two Phrynocephalus species in the Tarim Basin and adjacent areas[J]. Molecular Phylogenetics and Evolution, 57(3): 1091–1104. DOI:10.1016/j.ympev.2010.10.003 |
Zhou Q, Luo D, Ma L, et al. 2016. Development and cross-species transferability of EST-SSR markers in Siberian wildrye (Elymus sibiricus L.) using Illumina sequencing[J]. Scientific Reports, 6: 20549. DOI:10.1038/srep20549 |