四川动物  2018, Vol. 37 Issue (5): 533-540

扩展功能

文章信息

崔凯, 岳碧松
CUI Kai, YUE Bisong
绿尾虹雉全基因组微卫星分布规律研究
Distribution Patterns of Microsatellites in the Genome of Lophophorus lhuysii
四川动物, 2018, 37(5): 533-540
Sichuan Journal of Zoology, 2018, 37(5): 533-540
10.11984/j.issn.1000-7083.20180096

文章历史

收稿日期: 2018-03-22
接受日期: 2018-05-15
绿尾虹雉全基因组微卫星分布规律研究
崔凯 , 岳碧松*     
四川大学生命科学学院, 生物资源与生态环境教育部重点实验室, 成都 610065
摘要:分析了绿尾虹雉Lophophorus lhuysii全基因组中微卫星的数量和分布规律,并对外显子中含有微卫星的基因进行了注释分析。结果显示,在绿尾虹雉1.01 Gb的全基因组中,1~6个碱基重复类型的完美型微卫星序列共292 430个,总长度5 465 549 bp,相对丰度为290.47个/Mb,占全基因组的0.54%,序列长度主要为10~43 bp。不同类型的微卫星中,单碱基重复类型数量最多,长度为3 535 260 bp,占71.75%,其次是四碱基(611 568 bp,9.99%)、二碱基(376 944 bp,7.07%)、三碱基(335 742 bp,6.38%)、五碱基(500 615 bp,3.93%)和六碱基(105 420 bp,0.88%)重复类型。在绿尾虹雉全基因组中,数目最多的10种优势微卫星分别是:A、C、AAAC、AT、AAAT、AC、AAT、AAC、AG、AAAAC,共计占90.20%,表现出明显A偏倚。分布于外显子的微卫星有2 816个,内含子的有101 791个,基因间区的有187 823个。外显子的微卫星分布于1 314个编码基因中。GO注释分析发现,这些编码基因主要与细胞组分有关,富集前10的条目主要与代谢、转录和合成过程有关。KEGG富集最显著的通路是黏着连接通路。位于外显子的微卫星移码突变可能会造成基因突变,进而可能会影响绿尾虹雉对环境信号的处理。本研究为绿尾虹雉的微卫星筛选和进一步的遗传多样性、功能研究提供了数据基础,从分子角度为绿尾虹雉的保护提供了基础信息。
关键词绿尾虹雉     基因组     微卫星    
Distribution Patterns of Microsatellites in the Genome of Lophophorus lhuysii
CUI Kai , YUE Bisong*     
Key Laboratory of Bio-Resource and Eco-Environment of Ministry of Education, College of Life Sciences, Sichuan University, Chengdu 610065, China
Abstract: In this study, the quantity and distribution of genome-wide microsatellites in the Chinese monal (Lophophorus lhuysii) were analyzed, and the coding genes containing microsatellites were annotated. The results showed that in the whole genome of L. lhuysii (1.01 Gb), there were perfect microsatellite sequences of bases 1-6 with a total length of 5 465 549 bp and relative abundance of 290.47 loci/Mb, accounting for 0.54% of the whole genome sequence. The microsatellite sequence length was mainly between 10-43 bp. Among the different types of microsatellites, mononucleotide microsatellites (3 535 260 bp, 71.75%) were the most abundant simple sequence repeats (SSRs), and the lengths of other types of microsatellites were much smaller than the mononucleotide type. The other microsatellites were tetranucleotide (611 568 bp, 9.99%), dinucleotide (376 944 bp, 7.07%), trinucleotide (335 742 bp, 6.38%), pentanucleotide (500 615 bp, 3.93%) and hexanucleotide (105 420 bp, 0.88%). The top 10 dominant microsatellites in L. lhuysii genome were A, C, AAAC, AT, AAAT, AC, AAT, AAC, AG and AAAAC, accounting for 90.20% of the SSRs and showing an obvious A bias. The number of microsatellites located on the exon region was 2 816, and was significantly less than that on the 101 791 non-coding sequences and 187 823 intergenic regions. The genes (n=1 314) in which the microsatellites were distributed in the exon region were annotated. GO annotation analysis showed that these genes were mainly related to cellular components and the top 10 enriched terms were predominantly related to metabolism, synthesis process and transcription. The most enriched KEGG pathway was related to adherens junction. The microsatellites in the exon likely cause genetic mutations. The microsatellites distributed in the exon region were found to be associated with environmental information processing, cellular basic component and metabolism. Any mutations in this location might affect the ability of L. lhuysii to adapt to environmental stimulation and fluctuations. This study provides basic data for the further study of microsatellite and genetic diversity in L. lhuysii, and provides useful information for the protection of L. lhuysii.
Keywords: Lophophorus lhuysii     genome     microsatellite    

微卫星每个单元长1~6 bp,广泛分布于真核生物的基因组中,包括编码区和非编码区(Beckman & Weber,1992)。研究表明,可能是DNA复制过程中的“滑链(strand slippage)”现象造成微卫星DNA多态性信息容量较高(Levinson & Gutman,1987)。由于多态性信息丰富、易于检测、数量多、在基因组内分布均匀等优点,微卫星被作为优良的遗传标记得到了广泛的应用(Gupta et al., 1996Pérez et al., 2001Ma et al., 2004)。

绿尾虹雉Lophophorus lhuysii隶属于鸡形目Galliformes雉科Phasianidae,中国特有种,国家Ⅰ级重点保护野生动物,世界自然保护联盟(IUCN)濒危物种红色名录将其列为易危(VU)物种(BirdLife International,2016)。绿尾虹雉主要分布于四川、云南西北部、西藏东南部、甘肃东南部和青海南部(郑光美,2015),常栖息于海拔3 000~ 4 500 m的高山草甸、灌丛和裸岩地带,缺少食物的冬季会垂直迁徙到海拔2 000 m左右的地区活动(何芬奇,卢汰春,1985卢汰春等,1986)。由于人类活动和自然灾害等因素,绿尾虹雉的种群数量持续下降(刘梦瑶等,2013)。本研究从基因组水平对绿尾虹雉的微卫星特性及相关功能进行分析,可对该物种的群体遗传多样性和亲缘关系的研究提供数据支持,为该物种的保护提供有用信息。

1 研究方法 1.1 绿尾虹雉全基因组序列

绿尾虹雉的全基因组序列由本实验室测序组装,基因组全长1.01 Gb,Scaffold N50为6.9 Mb。相关研究项目信息及测序数据已上传至NCBI(Bioproject ID:PRJNA321629)。基因组的相关基因结构注释也由本实验室分析所得。

1.2 数据分析 1.2.1 微卫星搜索统计和定位

微卫星的搜索和统计利用本实验室自主开发的Krait(Du et al., 2017)完成,该软件可从Github(https://github.com/lmdu/krait/releases)下载。对绿尾虹雉全基因组Scaffolds的FASTA序列上的微卫星序列进行搜索和统计,得到相关的类型和位置信息。本研究微卫星的搜索标准为:单碱基重复12次以上,二碱基重复7次以上,三碱基重复5次以上,四到六碱基重复次数均为4次以上。进一步利用自编脚本与基因组注释GFF文件和得到的微卫星注释文件进行比较查找,定位外显子中所含的全部微卫星序列,并进行统计分析,得到所含微卫星外显子的基因FASTA序列。

1.2.2 微卫星所在外显子的基因序列注释分析

注释分析主要利用Gene Ontology(GO)和KEGG通路注释。GO注释要先将编码基因的蛋白质序列与NR库进行BLAST比对(参数:E-value<1E-5),随后的结果导入Blast2GO(Conesa et al., 2005)进行GO条目注释。注释到的条目利用网页版的WEGO(Jia et al., 2006)进行分类统计并作图。注释得到所有GO分为三大类:细胞组分、分子功能和生物学过程。GO富集和KEGG通路富集分析利用KOBAS 2.0(Xie et al., 2011)网页提交注释的编码蛋白质序列执行,统计检验利用卡方检验,显著水平设置为α=0.05,最终获得GO富集条目和KEGG富集相关通路。

2 结果 2.1 微卫星类型和丰度

对微卫星的重复类型和数量进行统计(表 1)。绿尾虹雉的全基因组中,6种完美型微卫星总数为292 430个,总长度达5 465 549 bp,占基因组的0.54%,相对丰度为290.47个/Mb。其中,数量和长度最多的是单碱基类型,达209 830个(71.75%),相对丰度为208.43个/Mb。其余微卫星占比都小于10%,依次是四碱基(9.99%)、二碱基(7.07%)、三碱基(6.38%)、五碱基(3.93%),最少的是六碱基(0.88%,相对丰度为2.56个/Mb)。

表 1 绿尾虹雉基因组中完美型微卫星分布概况 Table 1 The perfect microsatellite types in Lophophorus lhuysii
类型
Type
数目
Counts
长度
Length/bp
占比
Percent/%
平均长度
Average length/bp
相对丰度
Relative abundance/(个/Mb)
相对密度
Relative density/(bp/Mb)
单碱基 209 830 3 535 260 71.75 16.85 208.43 3 511.59
二碱基 20 669 376 944 7.07 18.24 20.53 374.42
三碱基 18 649 335 742 6.38 18.00 18.52 333.49
四碱基 29 203 611 568 9.99 20.94 29.01 607.47
五碱基 11 498 500 615 3.93 43.54 11.42 497.26
六碱基 2 581 105 420 0.88 40.84 2.56 104.71
总数 292 430 5 465 549 100.00 18.69 290.47 5 428.96
2.2 不同类型微卫星重复次数

绿尾虹雉不同类型微卫星的重复次数分布差异较大,单碱基重复次数最多,主要为12~32次(71.75%),12次最多,有39 900个;其余5种类型的重复次数和长度都较低,均低于10%,主要为4~11次(图 1)。微卫星偏倚十分明显,主要集中在单碱基,其中,A最丰富,有195 729个,占66.93%,C相对较少,有14 101个,占4.82%;二碱基中,AT最多,有9 849个,占3.37%,其次是AC(2.56%)和AG(1.13%),CG最少,仅有37个,占0.01%;三碱基中最多的是AAT,有5 535个,占1.89%;四碱基中AAAC和AAAT最多,分别占3.81%和2.80%;五碱基中AAAAC最多,占1.07%(表 2图 2)。

图 1 绿尾虹雉中各重复单元微卫星重复次数分布 Fig. 1 Repeat distribution of each microsatellite type in Lophophorus lhuysii

表 2 绿尾虹雉全基因组微卫星拷贝数前10的类型 Table 2 abundant motif categories of microsatellites in Lophophorus lhuysii
重复基序
Motif
数目
Counts
长度
Length/bp
占比
Percent/%
平均长度
Average length/bp
相对丰度
Relative abundance/(个/Mb)
相对密度
Relative density/(bp/Mb)
A 195 729 3 216 111 66.93 16.43 194.42 3 194.58
C 14 101 319 149 4.82 22.63 14.01 317.01
AAAC 11 135 205 880 3.81 18.49 11.06 204.50
AT 9 849 171 716 3.37 17.43 9.78 170.57
AAAT 8 178 161 356 2.80 19.73 8.12 160.28
AC 7 491 145 828 2.56 19.47 7.44 144.85
AAT 5 535 102 099 1.89 18.45 5.50 101.42
AAC 5 332 93 978 1.82 17.63 5.30 93.35
AG 3 292 58 836 1.13 17.87 3.27 58.44
AAAAC 3 143 71 295 1.07 22.68 3.12 70.82

图 2 绿尾虹雉全基因组中相对丰度最高的微卫星基序分布 Fig. 2 Relative abundance of the most relative abundant microsatellite motifs in the genome of Lophophorus lhuysii
2.3 微卫星定位在外显子中的编码基因功能注释

对微卫星进行全基因组定位,其中,分布于外显子的有2 816个,分布于1 314个编码基因中,数量最少,只占0.96%;分布于内含子和基因间区的数量庞大,分别有101 791个(34.81%)和187 823个(64.23%)。外显子是编码蛋白的翻译区,对基因行使的功能具有重要作用,所以对在外显子中定位到微卫星的编码基因进行了GO和KEGG注释分析。

2.3.1 GO注释和富集分析

GO注释主要分为三大类:细胞组分、分子功能和生物学过程(图 3)。所得GO条目为599个,分布于695个基因中。WEGO分析发现,268个归于细胞部分,135个与分子功能有关,196个参与到生物学过程中。细胞组分中主要与细胞和细胞部分(GO:0005623,GO:0044464)有关,分子功能中主要与连接(GO:0005488)有关,生物学过程中主要与细胞过程和代谢过程(GO:0009987,GO:0008152)有关。GO条目富集前10的主要与代谢、合成过程和转录有关,其中,RNA代谢过程富集最显著(P=7.92E-16),有122个(表 3)。

图 3 绿尾虹雉微卫星分布于外显子的基因GO功能注释 Fig. 3 The GO function annotation of exon microsatellites in Lophophorus lhuysii

表 3 绿尾虹雉微卫星分布于外显子的基因GO富集 Table 3 The GO enrichment of exon microsatellites in Lophophorus lhuysii
条目
Term
GO编号
GO ID
输入数
Input number
背景数
Background number
P
P-value
RNA代谢过程RNA metabolic process 0016070 122 1 078 7.92E-16
核酸代谢过程Nucleic acid metabolic process 0090304 132 1 215 8.63E-16
含碱基复合物代谢过程的调控
Regulation of nucleobase-containing compound metabolic process
0019219 108 913 2.88E-15
RNA代谢过程的调控
Regulation of RNA metabolic process
0051252 102 838 3.43E-15
氮复合物代谢过程的调控
Regulation of nitrogen compound metabolic process
0051171 112 971 4.11E-15
核酸模板转录的调控
Regulation of nucleic acid-templated transcription
1903506 99 808 6.15E-15
转录和DNA模板的调控
Regulation of transcription,DNA-templated
0006355 98 796 6.49E-15
核糖核酸生物合成的过程的调控
Regulation of RNA biosynthetic process
2001141 99 809 6.60E-15
核酸模板的转录Nucleic acid-templated transcription 0097659 101 837 7.77E-15
核糖核酸生物合成的过程RNA biosynthetic process 0032774 101 839 8.91E-15
2.3.2 KEGG注释和富集分析

对绿尾虹雉外显子中含有微卫星的基因进行KEGG注释,得到903个KO number,将这些条目进行富集分析,富集到了14个通路中。这些通路中,黏着连接富集最显著,有14个基因,P值为2.03E-04;黏着斑的基因总数最多,有21个,P值为5.11E-03。将这些通路进行功能分类,主要分为机体系统、细胞过程、环境信息处理、遗传信息处理、人类疾病和代谢。其中,环境信息处理相关的通路最多,7个通路含有80个基因;其次是细胞过程,2个通路含有35个基因;机体系统的最少,只有1个通路6个基因(表 4)。

表 4 绿尾虹雉微卫星分布于外显子的基因KEGG富集 Table 4 The KEGG enrichment of exon microsatellites in Lophophorus lhuysii
功能分类
Functional classification
通路
Pathway
输入数
Input number
背景数
Background number
P
P-value
细胞过程Cellular process 黏着连接Adherens junction 14 68 2.03E-04
黏着斑Focal adhesion 21 179 5.11E-03
机体系统Organism system 背腹轴形成Dorso-ventral axis formation 6 23 5.17E-03
环境信息处理
Environmental information processing
ECM受体交互ECM-receptor interaction 11 71 6.66E-03
FoxO信号通路FoxO signaling pathway 14 116 1.62E-02
ABC转运体ABC transporters 7 41 1.82E-02
TGF-beta信号通路TGF-beta signaling pathway 10 74 2.08E-02
Notch信号通路Notch signaling pathway 7 44 2.47E-02
MAPK信号通路MAPK signaling pathway 19 203 5.04E-02
ErbB信号通路ErbB signaling pathway 12 74 3.40E-03
人类疾病Human disease 单纯疱疹病毒感染Herpes simplex infection 14 128 3.19E-02
代谢Metabolism 赖氨酸退化Lysine degradation 7 47 3.27E-02
遗传信息处理
Genetic information processing
RNA转运RNA transport 14 134 4.30E-02
碱基切除修复Base excision repair 5 30 4.66E-02
3 讨论

利用全基因组数据对绿尾虹雉微卫星序列进行鉴定和分类注释,可为其分子标记和种群遗传多样性研究等提供有用信息。本文对绿尾虹雉全基因组微卫星进行了搜索分析,1.01 Gb基因组中完美型微卫星292 430个,长度主要在10~43 bp,总长度5 465 549 bp,占全基因组的0.54%,相对丰度290.47个/Mb。雉科鸟类中,红原鸡Gallus gallus共有28 272个微卫星(0.49%)(黄杰等,2012),火鸡Meleagris gallopavo有177 733个(0.28%)(李午佼等,2012)。与人类3%微卫星含量(Subramanian et al., 2003)相比,绿尾虹雉等雉科鸟类的微卫星数量较少,这或许与哺乳动物基因组较大且重复序列较多有关。人类基因组大小为2.91 Gb,重复序列占基因组的66%~69%(Koning et al., 2011),而鸟类基因组较小且重复序列少,如绿尾虹雉基因组中重复序列只占9.9%。这些证据说明,人类基因组会有相对较多的微卫星。在所有微卫星类型中,绿尾虹雉的单碱基型微卫星最多,达71.75%,其中An含量最高(66.93%)。该结果与红原鸡相似,都以An和Tn为主,单碱基占65.1%(黄杰等,2012)。重复单位增加,微卫星位点的总数会相应减少(Bennett,2000)。在许多动植物中,都表现出微卫星A和T碱基偏倚,如红原鸡(黄杰等,2012)、核桃Juglans regia (廖卓毅,2015)、林麝Moschus berezovskii(卢婷等,2017)、虎皮鹦鹉Melopsittacus undulatus(黄杰等,2017)和天麻Gastrodia elata(周天华等,2017)等。真核生物中普遍存在的ployA(Gallie,1991)或许是大部分物种全基因组微卫星预测结果表现强烈偏倚的原因,此外,真核生物非编码区的CpG岛易被甲基化(Bird,1986),或也与这种偏倚有关。此外,绿尾虹雉和其他几种雉科鸟类比其他物种有较明显的A碱基偏倚,重复次数最多的重复单元类型分别是A、AT、AAT、AAAC,这种雉科鸟类普遍特点也有待深入研究。

外显子区是重要的表达区域,本文对绿尾虹雉微卫星进行了外显子定位分析,发现外显子中有2 816个(0.96%)微卫星,分布于1 314个编码基因中。GO注释到695个基因中,其中涉及较多关于细胞和细胞部分,富集前10的条目主要与代谢、合成过程和转录有关。KEGG富集到14个通路中,其中最显著富集到黏着连接通路,而大分类下环境信息处理条目最多。微卫星属于不稳定DNA序列,易发生扩增,而位于外显子中的微卫星发生移码突变可能会造成基因突变,而这些基因又与绿尾虹雉处理环境信息、代谢和细胞的基本组分息息相关,若发生突变可能会使这些信号通路的信息传递和一些物质的代谢过程受到影响。

微卫星在真核生物中分布多、分类广,有着多方面的用途:可用于个体识别和亲缘鉴定;是一种常用的遗传标记,可用于研究遗传多态性揭示物种的起源、迁徙和进化等;也可用于遗传病肿瘤诊断等医学有关用途(张云武等,2001)。本文利用软件预测首次对绿尾虹雉的全基因组微卫星进行了搜索鉴定,并对其分布规律进行了探究,为后续的微卫星筛选提供数据基础。

参考文献
何芬奇, 卢汰春. 1985. 绿尾虹雉的冬季生态研究[J]. 动物学研究, 12(4): 523–527.
黄杰, 杜联明, 李玉芝, 等. 2012. 红原鸡全基因组中微卫星分布规律研究[J]. 四川动物, 31(3): 358–363.
黄杰, 原宝东, 杨承忠. 2017. 虎皮鹦鹉全基因组中微卫星分布规律研究[J]. 野生动物学报, 38(3): 422–426. DOI:10.3969/j.issn.1000-0127.2017.03.012
李午佼, 杜联明, 黄杰, 等. 2012.珍珠鸟、火鸡和红原鸡基因组微卫星比较分析[C].成都: 首届中国西部动物学学术研讨会. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-DWLP201206001012.htm
廖卓毅. 2015.基于454测序核桃基因组微卫星和核苷酸变异序列的特征分析[D].南京: 南京林业大学. http://cdmd.cnki.com.cn/Article/CDMD-10298-1015809350.htm
刘梦瑶, 高依敏, 陈建宁, 等. 2013. 绿尾虹雉保护生物学研究现状[J]. 江西林业科技(2): 36–39. DOI:10.3969/j.issn.1006-2505.2013.02.012
卢汰春, 刘如笋, 何芬奇, 等. 1986. 绿尾虹雉生态学研究[J]. 动物学报(3): 76–82, 109.
卢婷, 王晨, 杜超, 等. 2017. 林麝全基因组微卫星分布规律研究[J]. 四川动物, 36(4): 420–424.
张云武, 张亚平, Oliver AR, 等. 2001. 微卫星及其应用[J]. 动物学研究, 22(4): 315–320. DOI:10.3321/j.issn:0254-5853.2001.04.012
郑光美. 2015. 中国雉类[M]. 北京: 高等教育出版社.
周天华, 丁家玺, 田伟, 等. 2017. 天麻基因组微卫星特征分析与分子标记开发[J]. 西北植物学报, 37(9): 1728–1735.
Beckman JS, Weber JL. 1992. Survey of human and rat microsatellites[J]. Genomics, 12(4): 627–631. DOI:10.1016/0888-7543(92)90285-Z
Bennett P. 2000. Demystified … microsatellites[J]. Molecular Pathology, 53(4): 177–183. DOI:10.1136/mp.53.4.177
Bird AP. 1986. CpG-rich islands and the function of DNA methylation[J]. Nature, 321(6067): 209. DOI:10.1038/321209a0
BirdLife International. 2016. The IUCN red list of threatened species[EB/OL].[2017-03-15]. http://dx.doi.org/10.2305/IUCN.UK.2016-3.RLTS.T22-679192A92806697.en.
Conesa A, Götz S, Garcíagómez JM, et al. 2005. Blast2GO:a universal tool for annotation, visualization and analysis in functional genomics research[J]. Bioinformatics, 21(18): 3674–3676. DOI:10.1093/bioinformatics/bti610
Du L, Zhang C, Liu Q, et al. 2017. Krait:an ultrafast tool for genome-wide survey of microsatellites and primer design[J]. Bioinformatics, 34(4): 681–683.
Gallie DR. 1991. The cap and poly(A) tail function synergistically to regulate mRNA translational efficiency[J]. Genes Development, 5(11): 2108–2116. DOI:10.1101/gad.5.11.2108
Gupta PK, Balyan HS, Sharma PC, et al. 1996. Microsatellites in plants:a new class of molecular markers[J]. Currentence, 70(1): 45–54.
Jia Y, Lin F, Zheng H, et al. 2006. WEGO:a web tool for plotting GO annotations[J]. Nucleic Acids Research, 34: 293–297. DOI:10.1093/nar/gkl031
Koning APJD, Gu W, Castoe TA, et al. 2011. Repetitive elements may comprise over two-thirds of the human genome[J]. PLoS Genetics, 7(12): e1002384. DOI:10.1371/journal.pgen.1002384
Levinson G, Gutman GA. 1987. Slipped-strand mispairing:a major mechanism for DNA sequence evolution[J]. Molecular Biology & Evolution, 4(3): 203–221.
Ma H, Yue Y, Liu Y. 2004. Microsatellite DNA molecular marker and its application in animal breeding and genetics[J]. Journal of Animal Science & Veterinary Medicine, 23(5): 16–19.
Pérez MA, Gallego FJ, Martínez I, et al. 2001. Detection, distribution and selection of microsatellites in the genome of the yeast Saccharomyces cerevisiae as molecular markers[J]. Letters in Applied Microbiology, 33(6): 461–466. DOI:10.1046/j.1472-765X.2001.01032.x
Subramanian S, Mishra RK, Singh L. 2003. Genome-wide analysis of microsatellite repeats in humans:their abundance and density in specific genomic regions[J]. Genome Biology, 4(2): 1–10. DOI:10.1186/gb-2003-4-2-p1
Xie C, Mao X, Huang J, et al. 2011. KOBAS 2.0:a web server for annotation and identification of enriched pathways and diseases[J]. Nucleic Acids Research, 39(Web Server issue): W316–W322.