林麝全基因组微卫星分布规律研究
  四川动物  2017, Vol. 36 Issue (4): 420-424

扩展功能

文章信息

卢婷, 王晨, 杜超, 刘姝, 沈咏梅, 张修月, 岳碧松
LU Ting, WANG Chen, DU Chao, LIU Shu, SHEN Yongmei, ZHANG Xiuyue, YUE Bisong
林麝全基因组微卫星分布规律研究
Distribution Regularity of Microsatellites in Moschus berezovskii Genome
四川动物, 2017, 36(4): 420-424
Sichuan Journal of Zoology, 2017, 36(4): 420-424
10.11984/j.issn.1000-7083.20170044

文章历史

收稿日期: 2017-02-17
接受日期: 2017-04-26
林麝全基因组微卫星分布规律研究
卢婷1# , 王晨1# , 杜超1, 刘姝2, 沈咏梅2, 张修月1, 岳碧松1*     
1. 四川大学生命科学学院, 四川省濒危野生动物保护生物学重点实验室, 成都 610064
2. 四川省药用动物工程技术研究中心, 成都 610081
摘要:林麝Moschus berezovskii是中国重要的资源动物,也是国家Ⅰ级重点保护野生动物。本研究使用生物信息学方法,分析林麝全基因组中完美型微卫星的分布特征。在林麝2.53 Gb的基因组序列中,共搜索到665 524个完美型微卫星,总长度为11 517 784 bp,占基因组序列总长度的0.42%,总丰度为244个/Mb。林麝基因组中,单碱基微卫星序列数量最多,为221 058个,约占总微卫星数的33.22%,丰度为81.05个/Mb,然后依次为二碱基、五碱基、三碱基、四碱基、六碱基重复类型微卫星。林麝基因组中数目最多的10种微卫星类别依次为:A、AACTG、AGC、AC、AT、AG、AAAT、AAC、AAT和AAAC,占所有基因组微卫星的93.2%,表现出明显的A、T偏好。林麝基因组微卫星序列分布研究表明,其在外显子(2 530个)上的分布数量远低于内含子(200 906个)和基因间隔区(454 596个),与前人关于微卫星在非编码区的分布多于编码区的结论一致。本研究为深入研究林麝基因组特征及筛选更多优良微卫星标记提供了基础数据。
关键词林麝     全基因组     微卫星     分布规律    
Distribution Regularity of Microsatellites in Moschus berezovskii Genome
LU Ting 1# , WANG Chen 1# , DU Chao 1, LIU Shu 2, SHEN Yongmei 2, ZHANG Xiuyue 1, YUE Bisong 1*     
1. Sichuan Key Laboratory of Conservation Biology on Endangered Wildlife, College of Life Sciences, Sichuan University, Chengdu 610064, China;
2. Sichuan Medicinal Animal Engineering Technology Research Center, Chengdu 610081, China
Abstract: Forest musk deer (Moschus berezovskii) is a critically endangered species. Perfect microsatellite number and distribution regularity of microsatellites in forest musk deer genome were analyzed by microsatellite search tool. A repertoire of 665 524 perfect SSRs with 1-6 bp nucleotide motifs accounting for 0.42% of forest musk deer genome (2.53 Gb) were scanned, and the abundance of microsatellites was 244 no./Mb. Mono-nucleotide was the most abundant category with the highest relative abundance (81.05 no./Mb), accounting for 33.22% of all the SSRs, followed by di-nucleotide (21.68%), pentra-nucleotide (21.09%), tri-nucleotide (18.08%), tetra-nucleotide (5.86%), and hexa-nucleotide (0.09%). The most abundant microsatellite repeats in forest musk deer genome were A, AACTG, AGC, AC, AT, AG, AAAT, AAC, AAT, and AAAC, totally accounting 93.2% of the scanned microsatellites and showed an apparent A and T preference. The number of microsatellites located on the coding sequences (n=2 530) was less than that on the non-coding sequence such as introns (n=200 906) and intergenic regions (n=454 596), and this was consistent with previous studies. This study provides adequate material for the future study of forest musk deer.
Keywords: Moschus berezovskii     genome     microsatellite     distribution regularities    

微卫星序列由核心序列和侧翼序列组成,其核心序列由l~6个核苷酸基序串联重复构成(蒋雪梅等,2015)。微卫星广泛分布于真核生物、原核生物和病毒的基因组中(Tautz,1989李午佼等,2014),除分布于基因组的非编码区(如内含子和基因间隔区)外,也存在于编码区(Ellegren,2004Huang et al., 2015)。微卫星核心序列的重复数具有高可变性,使其在不同个体中有差异,并且同一位点在不同个体中存在多个等位基因(李玉芝,2012),因而微卫星具有高度多态性。但微卫星的侧翼序列相对保守,可以根据它的保守性设计引物,再通过PCR方法对基因组DNA进行扩增得到微卫星标记。微卫星不仅在基因组中分布广泛、多态性高,而且还具有杂合子比率高、选择中性、共显性遗传、分析方法简单、实验结果稳定等优点,被广泛用于遗传图谱构建(Massault et al., 2010)、亲缘关系鉴定(Serbezov et al., 2010)、种群遗传多样性分析(戚文华等,2014)等研究。

林麝Moschus berezovskii隶属于偶蹄目Cetartiodactyla麝科Moschidae麝属Moschus。成体雄麝香腺囊分泌的麝香具有较高的经济价值和药用价值(Meng et al., 2006),野外乱捕滥猎猖獗,加之其栖息地破坏,野生林麝已经濒临灭绝(王淯等,2006Huang et al., 2013)。我国20世纪50年代开始人工饲养研究,取得了可喜成果,但存在管理粗放、近交退化、疾病多、繁殖力低等问题,阻碍了人工养麝业的正常发展(王淯等,2006Sheng & Liu,2007许珂等,2013)。本研究在完成林麝全基因组测序的基础上,对微卫星序列特征和分布规律进行统计分析,对进一步筛选高质量的林麝微卫星分子标记和林麝分子遗传学研究具有重要意义。

1 研究方法 1.1 数据来源

林麝基因组大小为2.53 Gb,文件为FASTA格式,由北京诺禾致源生物信息科技有限公司测序,本实验室组装和注释。

1.2 微卫星搜索

使用本实验室开发的微卫星搜索统计软件MSDBv2.4(Du et al., 2013),从林麝基因组中扫描搜索微卫星序列。设置的统计标准如下:(1) 重复次数,单碱基微卫星重复次数为12次及以上,二碱基和三碱基微卫星重复次数分别为7次和5次及以上,四、五、六碱基微卫星重复次数为4次及以上;(2) 重复序列的侧翼序列长度大于200 bp。

1.3 微卫星定位

根据林麝基因组的注释信息,使用本实验室编写的Python脚本对搜索到的微卫星序列进行定位,判断微卫星在基因组的具体位置。

2 结果 2.1 不同重复类型的微卫星的总体分布特征

在林麝2.53 Gb的基因组序列中搜索到完美型微卫星序列总数为665 524个;重复序列总长度为11 517 784 bp,占基因组序列总长度的0.42%;总丰度为244个/Mb。

不同重复类型微卫星的数量分布特征如表 1所示:林麝基因组中,单碱基微卫星序列数量最多,为221 058个,约占微卫星总数的33.22%,丰度为81.05个/Mb;其次是二碱基微卫星,为144 258个,约占微卫星总数的21.68%,丰度为52.89个/Mb;六碱基微卫星数目最少,为567个,只占微卫星总数的0.09%,丰度为0.21个/Mb。

表 1 微卫星各重复类型的数目、总长度、比例和丰度 Table 1 The number, percent and abundance of microsatellites in different types of repeats
重复类型
Repeat type
数目
Number
总长度
Total length/bp
比例
Percent/%
丰度
Frequency/(no./Mb)
单碱基Mono-221 0583 120 96533.2281.05
二碱基Di-144 2582 651 58821.6852.89
三碱基Tri-120 3192 047 54818.0844.11
四碱基Tetra-38 989661 6125.8614.29
五碱基Pentra-140 3333 021 45521.0951.45
六碱基Hexa-56714 6160.090.21
总数Total665 52411 517 784100244
注:重复类型中的Mono-,Di-,Tri-,Tetra-,Pentra-和Hexa-的后缀都是nucleotide。
Notes:The suffix of Mono-,Di-,Tri-,Tetra-,Pentra-and Hexa-is nucleotide.
2.2 各重复类型微卫星核心序列重复次数分布

林麝基因组中,不同类型微卫星重复次数范围有较大的差异。单碱基微卫星的重复次数主要分布在12~16次,数量占单碱基微卫星总数的88.90%,重复12次的数目高达65 000个,最高重复次数为733次;二碱基微卫星序列重复拷贝数主要分布在7~10次,数量占二碱基微卫星总数的77.69%,重复7次的二碱基微卫星最多,有51 305个,最高重复次数达1 560次;三碱基微卫星重复拷贝数主要分布在5~7次,占95.56%,重复5次的数量超过了三碱基微卫星总数一半,为67 308个,最高重复次数为175次;四碱基微卫星中,4次重复拷贝的微卫星数目最多,为3 224个,占所有四碱基微卫星总数的82.65%,最高重复次数为437次;五碱基微卫星数目最多的也是4次重复拷贝,达100 000个,占所有五碱基微卫星数量的73.22%,最高重复次数为111次;在总数只有567个的六碱基微卫星中,其重复拷贝数在4~26次,但重复4次的六碱基微卫星超过了450个,占六碱基微卫星总数的83.07%,最高重复次数为26次。6种重复类型微卫星的最高重复次数所对应的微卫星数量都为1个,且重复次数与微卫星数量表现出随着重复次数的增加,微卫星数量逐渐减少的趋势。

2.3 含量丰富的微卫星类别

林麝基因组微卫星序列中,除了不同重复类型的微卫星数量差异明显外,同种微卫星类型不同类别的数量也有很大差别(表 2)。在单碱基和五碱基微卫星中,A和AACTG重复序列数量占绝对优势,分别占同类微卫星数量的98.67%和95.46%;其余4种微卫星类型中最多的重复拷贝类别分别为:AC、AGC、AAAT和AACCCT。除六碱基微卫星外,单碱基至五碱基微卫星都表现出一种重复拷贝类别数量占明显优势的结果,如三碱基微卫星中,AGC重复类别数量为97 662个,占三碱基微卫星总数(120 319) 的81.17%,远超过剩下所有重复类别的总和。所有微卫星重复类别中,数目最多的10种依次为:A(32.77%),AACTG(20.13%),AGC(14.67%),AC(14.00%),AT(5.92%),AG(1.70%),AAAT(1.66%),AAC(0.81%),AAT(0.80%)和AAAC (0.72%),有明显的A、T偏好。这10种重复拷贝类别的数量都大于4 500个,占所有基因组微卫星总数的93.2%。

表 2 二碱基至六碱基微卫星数目最多的重复拷贝类别 Table 2 The most frequent microsatellite motifs in 2-6 repeats
二碱基Di-三碱基Tri-四碱基Tetra-五碱基Pentra-六碱基Hexa-
AC(64.60%)AGC(81.17%)AAAT(28.34%)AACTG(95.46%)AACCCT(15.52%)
AT(27.30%)AAC(4.50%)AAAC(12.37%)AAGTG(0.85%)ACCCCC(7.58%)
AG(7.83%)AAT(4.45%)ATCC(8.13%)AACGG(0.71%)ACCATC(6.35%)
CG(0.27%)ACC(3.16%)ACTG(6.24%)AGATC(0.45%)ACACAG(6.17%)
CCG(2.47%)AAAG(6.17%)AAAAC(0.39%)CCCCGG(4.94%)
AGG(1.74%)AATG(5.11%)AACAG(0.35%)ACTGCT(4.59%)
2.4 微卫星在基因组上的分布特征

林麝基因组微卫星在基因组上的定位结果表明,共有203 375个微卫星分布在基因上,在基因间区的有454 596个。对分布在基因上的微卫星进一步定位分析,结果如表 3,有2 530个微卫星在外显子上,占基因上微卫星总数的0.38%,包括1~6碱基微卫星个数分别为:27、19、2 363、22、16和83个。外显子上三碱基微卫星数量最多,共由10种三碱基微卫星重复拷贝类别组成:CCG(702),AGC(630),AGG(398),ACC(396),ATC(107),AAG(66),AAC(33),ACG(26),AAT(3) 和ACT(2)。除ATC与ACT对应的是终止密码子外,其余8种都是氨基酸密码子,它们所对应的氨基酸分别是:CCG-Gly,AGC-Ser,AGG-Ser,ACC-Trp,AAG-Phe,AAC-Leu,ACG-Cys和AAT-Leu。内含子上有200 906个微卫星,占基因上微卫星总数的30.53%,其数量远多于外显子微卫星的数量。内含子中最多的微卫星重复类型是单碱基微卫星,共有72 718个,占33.19%,其次是二碱基微卫星和三碱基微卫星。

表 3 微卫星在基因内外的数量分布 Table 3 Number, percentage, and relative abundance of microsatellites in different regions
区域Regions外显子
Exon
内含子
Intron
基因间区
Intergenic
regions
总数
Total
单碱基
Mono-
No.2772 718146 364219 109
%0.0133.1966.80100.00
No./Mb0.0127.2254.7882.01
二碱基
Di-
No.1945 26497 063142 346
%0.0131.8068.19100.00
No./Mb0.0116.9436.3353.28
三碱基
Tri-
No.2 36335 89181 280119 534
%1.9830.0368.00100.00
No./Mb0.8813.4330.4244.74
四碱基
Tatra-
No.2211 95926 44238 423
%0.0631.1268.82100.00
No./Mb0.014.489.9014.38
五碱基
Pentra-
No.1634 926103 117138 059
%0.0125.3074.69100.00
No./Mb0.0113.0738.5951.67
六碱基
Hexa-
No.83148330561
%14.8026.3858.82100.00
No./Mb0.030.060.120.21
总计
All SSRs
No.2 530200 906454 596658 032
%0.3830.5369.08100.00
No./Mb0.9575.19170.14246.28
3 讨论

本研究以实验室组装的林麝基因组序列为基础,利用生物信息学方法对林麝基因组中完美型微卫星序列进行搜索统计。微卫星序列含量分析表明,林麝的微卫星序列占基因组比例(0.42%)与哺乳纲Mammalia物种如牛Bos taurus (0.48%)、绵羊Ovis aries(0.48%)(戚文华等,2013)、牦牛Bos grunniens(0.47 %)(Ma,2015)等物种基本一致,而低于大熊猫Ailuropoda melanoleuca(0.64%)、北极熊Ursus maritimus(0.79%)(李午佼等,2014)、人类Homo sapiens (3%)(Subramanian et al., 2003)和小鼠Mus musculus(2.85%)(童晓玲等,2006)。此结果与王月月等(2015)的研究一致,他们认为,亲缘关系越近,物种基因组微卫星特征越相似。

研究表明,不同物种基因组微卫星的数量、重复类型、密度等都存在很大差别(Webster et al., 2002汪自立等,2013)。林麝基因组微卫星中单碱基微卫星数量占优势(33.22%),这与牛、绵羊(戚文华等,2013)、牦牛(Ma,2015)等物种基因组中优势微卫星类型相同。在啮齿类和节肢动物基因组中,二碱基微卫星数量占优势,而酵母Saccharomyces cerevisiae和丝状真菌Neurospora crassa(黄杰等,2012)等基因组中,三碱基微卫星占主导地位。

在林麝基因组微卫星中,6种碱基重复类型都表现出同种重复类型的微卫星随着微卫星核心序列重复次数的增加,其对应的微卫星数量逐步减少的趋势,如单碱基微卫星主要集中在重复12~16次,而最高重复数733次的单碱基微卫星只有1个,从而使单碱基微卫星序列的长度主要集中在12~16 bp。这个规律与Ellegren(2000)的研究相符,他们认为在基因座上,长等位基因倾向于变短,从而阻止微卫星长度的无限增长,因此微卫星序列的长度一般会维持在一定范围内。这可能与微卫星的稳定性有关,随着微卫星长度的增加,其稳定性会下降(Wierdl et al., 1997),而长微卫星数量不多可能是由于它们有下调的突变偏好且存在时间短(Harr & Schlötterer,2000)。

微卫星在林麝基因组中的分布也有差异,其在外显子(2 530个)上的分布数量远低于非编码区,如内含子(200 906个)和基因间隔区(454 596个),此结果支持前人关于微卫星在非编码区的分布多于编码区的结论(Ellegren,2004)。外显子所有微卫星序列中,三碱基微卫星数量最为丰富,占外显子微卫星总数的93.40%,这可能是编码区中非三碱基微卫星类型的突变会导致移码突变,而生物的选择作用将会减少这些非三碱基微卫星的固定,从而减少其含量(Metzgar et al., 2000Doyle et al., 2013)。

微卫星作为遗传标记的应用实践表明,相对于二碱基、三碱基微卫星,四碱基微卫星位点在PCR过程中,不易出现滑带(stutter bands)或阴影带(shadow bands),相对能产生更稳定、更精确的基因分型结果(Archie et al., 2003Li et al., 2010)。然而,目前已公布的微卫星标记全部为二碱基微卫星(Zou et al., 2005Xia et al., 2006Zhang et al., 2007Zhao et al., 2008)。根据林麝基因组四碱基微卫星序列分析结果,共搜索到四碱基微卫星38 989个,但绝大多集中在低重复次数(重复4次),重复5次以上的很少,林麝四碱基微卫星数量有限,这是到目前为止分离筛选得到的高质量四碱基微卫星分子标记较少的重要原因。

参考文献
黄杰, 杜联明, 李玉芝, 等. 2012. 红原鸡全基因组中微卫星分布规律研究[J]. 四川动物, 31(3): 358–363.
蒋雪梅, 胡廷章, 向兴胜, 等. 2015. 杨树全基因组微卫星序列的统计及其生物信息学分析[J]. 西南农业学报, 28(2): 527–533.
李午佼, 李玉芝, 杜联明, 等. 2014. 大熊猫和北极熊基因组微卫星分布特征比较分析[J]. 四川动物, 33(6): 874–878.
李玉芝. 2012. 大熊猫基因组微卫星序列分析和遗传标记筛选[D]. 成都: 四川大学.
戚文华, 蒋雪梅, 肖国生, 等. 2013. 牛和绵羊全基因组微卫星序列的搜索及其生物信息学分析[J]. 畜牧兽医学报, 44(11): 1724–1733.
戚文华, 蒋雪梅, 肖国生, 等. 2014. 猪全基因组中微卫星分布规律[J]. 畜牧与兽医, 46(8): 9–13.
童晓玲, 代方银, 李斌, 等. 2006. 小鼠基因组中的微卫星重复序列的数量、分布和密度[J]. Current Zoology, 52(1): 138–152.
汪自立, 黄杰, 杜联明, 等. 2013. 二斑叶螨和肩突硬蜱基因组微卫星分布规律研究[J]. 四川动物, 32(4): 481–486.
王月月, 刘雪雪, 董坤哲, 等. 2015. 7种家养动物全基因组微卫星分布的差异研究[J]. 中国畜牧兽医, 42(9): 2418–2426.
王淯, 姜海瑞, 薛文杰, 等. 2006. 林麝(Moschus berezovskii)研究概况和进展[J]. 四川动物, 25(1): 195–200.
许珂, 卜书海, 梁宗锁, 等. 2013. 林麝研究进展[J]. 黑龙江畜牧兽医(7): 147–150.
Archie EA, Moss CJ, Alberts SC. 2003. Characterization of tetranucleotide microsatellite loci in the African Savannah elephant (Loxodonta africana africana)[J]. Molecular Ecology Notes, 3(2): 244–246. DOI:10.1046/j.1471-8286.2003.00412.x
Doyle JM, Siegmund G, Ruhl JD, et al. 2013. Microsatellite analyses across three diverse vertebrate transcriptomes (Acipenser fulvescens, Ambystoma tigrinum, and Dipodomys spectabilis)[J]. Genome, 56: 407–414. DOI:10.1139/gen-2013-0056
Du LM, Li YZ, Zhang XY, et al. 2013. MSDB:a user-friendly program for reporting distribution and building databases of microsatellites from genome sequences[J]. Journal of Heredity, 104(1): 154–157. DOI:10.1093/jhered/ess082
Ellegren H. 2000. Heterogeneous mutation processes in human microsatellite DNA sequences[J]. Nature Genetics, 24(4): 400–402. DOI:10.1038/74249
Ellegren H. 2004. Microsatellites:simple sequences with complex evolution[J]. Nature Reviews Genetics, 5(6): 435–445. DOI:10.1038/nrg1348
Harr B, Schl tterer C. 2000. Long microsatellite alleles in Drosophila melanogaster have a downward mutation bias and short persistence times, which cause their genome-wide underrepresentation[J]. Genetics, 155(3): 1213–1220.
Huang J, Li YZ, Li P, et al. 2013. Genetic quality of the Miyaluo captive forest musk deer (Moschus berezovskii) population as assessed by microsatellite loci[J]. Biochemical Systematics & Ecology, 47(8): 25–30.
Huang J, Li YZ, Du LM, et al. 2015. Genome-wide survey and analysis of microsatellites in giant panda (Ailuropoda melanoleuca), with a focus on the applications of a novel microsatellite marker system[J]. BMC Genomics, 16(1): 1–12. DOI:10.1186/1471-2164-16-1
Li YZ, Xu X, Shen FJ, et al. 2010. Development of new tetranucleotide microsatellite loci and assessment of genetic variation of giant panda in two largest giant panda captive breeding populations[J]. Journal of Zoology, 282(1): 39–46. DOI:10.1111/j.1469-7998.2010.00707.x
Ma Z. 2015. Genome-wide characterization of perfect microsatellites in yak (Bos grunniens)[J]. Genetica, 143(4): 1–6.
Massault C, Hellemans B, Louro B, et al. 2010. QTL for body weight, morphometric traits and stress response in European sea bass Dicentrarchus labrax[J]. Animal Genetics, 41(4): 337–345.
Meng X, Zhou C, Hu J, et al. 2006. Musk deer farming in China[J]. Animal Science An International Journal of Fundamental & Applied Research, 82(1): 1–6.
Metzgar D, Bytof J, Wills C. 2000. Selection against frameshift mutations limits microsatellite expansion in coding DNA[J]. Genome Research, 10(1): 72–80.
Serbezov D, Bernatchez L, Olsen EM, et al. 2010. Mating patterns and determinants of individual reproductive success in brown trout (Salmo trutta) revealed by parentage analysis of an entire stream living population[J]. Molecular Ecology, 19(15): 3193–3205. DOI:10.1111/mec.2010.19.issue-15
Sheng HL, Liu ZX. 2007. The musk deer in China[M]. Shanghai: The Shanghai Scientific & Technical Publishers..
Subramanian S, Mishra RK, Singh L. 2003. Genome-wide analysis of microsatellite repeats in humans:their abundance and density in specific genomic regions[J]. Genome Biology, 4(2): 1–10. DOI:10.1186/gb-2003-4-2-p1
TautzD. 1989. Hyper variability of simple sequences as a general source for polymorphic DNA markers[J]. Nucleic Acids Research, 17(16): 6463–6471.
Webster MT, Smith NGC, Ellegren H. 2002. Microsatellite evolution inferred from human-chimpanzee genomic sequence alignments[J]. Proceedings of the National Academy of Sciences of the United States of America, 99(13): 8748–8753. DOI:10.1073/pnas.122067599
Wierdl M, Dominska M, Petes TD. 1997. Microsatellite instability in Yeast:dependence on the length of the microsatellite[J]. Genetics, 146(3): 769–779.
Xia S, Zou FD, Yue BS. 2006. Six microsatellite loci in forest musk deer, Moschus berezovskii[J]. Molecular Ecology Notes, 6(1): 113–115. DOI:10.1111/men.2006.6.issue-1
Zou F, Yue B, Liu X, et al. 2005. Isolation and characterization of microsatellite loci from forest musk deer (Moschus berezovskii)[J]. Zoological Research, 22(5): 593–598.
Zhang SC, Yue BS, Zou FD. 2007. Isolation and characterization of microsatellite DNA markers from forest musk deer (Moschus berezovskii)[J]. Zoological Research, 690(24): 6227–6232.
Zhao SS, Xuan C, Fang SG, et al. 2008. Development and characterization of 15 novel microsatellite markers from forest musk deer (Moschus berezovskii)[J]. Conservation Genetics, 9(3): 723–725. DOI:10.1007/s10592-007-9362-7