扩展功能
文章信息
- 崔凯, 岳碧松
- CUI Kai, YUE Bisong
- 绿尾虹雉全基因组微卫星分布规律研究
- Distribution Patterns of Microsatellites in the Genome of Lophophorus lhuysii
- 四川动物, 2018, 37(5): 533-540
- Sichuan Journal of Zoology, 2018, 37(5): 533-540
- 10.11984/j.issn.1000-7083.20180096
-
文章历史
- 收稿日期: 2018-03-22
- 接受日期: 2018-05-15
微卫星每个单元长1~6 bp,广泛分布于真核生物的基因组中,包括编码区和非编码区(Beckman & Weber,1992)。研究表明,可能是DNA复制过程中的“滑链(strand slippage)”现象造成微卫星DNA多态性信息容量较高(Levinson & Gutman,1987)。由于多态性信息丰富、易于检测、数量多、在基因组内分布均匀等优点,微卫星被作为优良的遗传标记得到了广泛的应用(Gupta et al., 1996;Pérez et al., 2001;Ma et al., 2004)。
绿尾虹雉Lophophorus lhuysii隶属于鸡形目Galliformes雉科Phasianidae,中国特有种,国家Ⅰ级重点保护野生动物,世界自然保护联盟(IUCN)濒危物种红色名录将其列为易危(VU)物种(BirdLife International,2016)。绿尾虹雉主要分布于四川、云南西北部、西藏东南部、甘肃东南部和青海南部(郑光美,2015),常栖息于海拔3 000~ 4 500 m的高山草甸、灌丛和裸岩地带,缺少食物的冬季会垂直迁徙到海拔2 000 m左右的地区活动(何芬奇,卢汰春,1985;卢汰春等,1986)。由于人类活动和自然灾害等因素,绿尾虹雉的种群数量持续下降(刘梦瑶等,2013)。本研究从基因组水平对绿尾虹雉的微卫星特性及相关功能进行分析,可对该物种的群体遗传多样性和亲缘关系的研究提供数据支持,为该物种的保护提供有用信息。
1 研究方法 1.1 绿尾虹雉全基因组序列绿尾虹雉的全基因组序列由本实验室测序组装,基因组全长1.01 Gb,Scaffold N50为6.9 Mb。相关研究项目信息及测序数据已上传至NCBI(Bioproject ID:PRJNA321629)。基因组的相关基因结构注释也由本实验室分析所得。
1.2 数据分析 1.2.1 微卫星搜索统计和定位微卫星的搜索和统计利用本实验室自主开发的Krait(Du et al., 2017)完成,该软件可从Github(https://github.com/lmdu/krait/releases)下载。对绿尾虹雉全基因组Scaffolds的FASTA序列上的微卫星序列进行搜索和统计,得到相关的类型和位置信息。本研究微卫星的搜索标准为:单碱基重复12次以上,二碱基重复7次以上,三碱基重复5次以上,四到六碱基重复次数均为4次以上。进一步利用自编脚本与基因组注释GFF文件和得到的微卫星注释文件进行比较查找,定位外显子中所含的全部微卫星序列,并进行统计分析,得到所含微卫星外显子的基因FASTA序列。
1.2.2 微卫星所在外显子的基因序列注释分析注释分析主要利用Gene Ontology(GO)和KEGG通路注释。GO注释要先将编码基因的蛋白质序列与NR库进行BLAST比对(参数:E-value<1E-5),随后的结果导入Blast2GO(Conesa et al., 2005)进行GO条目注释。注释到的条目利用网页版的WEGO(Jia et al., 2006)进行分类统计并作图。注释得到所有GO分为三大类:细胞组分、分子功能和生物学过程。GO富集和KEGG通路富集分析利用KOBAS 2.0(Xie et al., 2011)网页提交注释的编码蛋白质序列执行,统计检验利用卡方检验,显著水平设置为α=0.05,最终获得GO富集条目和KEGG富集相关通路。
2 结果 2.1 微卫星类型和丰度对微卫星的重复类型和数量进行统计(表 1)。绿尾虹雉的全基因组中,6种完美型微卫星总数为292 430个,总长度达5 465 549 bp,占基因组的0.54%,相对丰度为290.47个/Mb。其中,数量和长度最多的是单碱基类型,达209 830个(71.75%),相对丰度为208.43个/Mb。其余微卫星占比都小于10%,依次是四碱基(9.99%)、二碱基(7.07%)、三碱基(6.38%)、五碱基(3.93%),最少的是六碱基(0.88%,相对丰度为2.56个/Mb)。
类型 Type |
数目 Counts |
长度 Length/bp |
占比 Percent/% |
平均长度 Average length/bp |
相对丰度 Relative abundance/(个/Mb) |
相对密度 Relative density/(bp/Mb) |
单碱基 | 209 830 | 3 535 260 | 71.75 | 16.85 | 208.43 | 3 511.59 |
二碱基 | 20 669 | 376 944 | 7.07 | 18.24 | 20.53 | 374.42 |
三碱基 | 18 649 | 335 742 | 6.38 | 18.00 | 18.52 | 333.49 |
四碱基 | 29 203 | 611 568 | 9.99 | 20.94 | 29.01 | 607.47 |
五碱基 | 11 498 | 500 615 | 3.93 | 43.54 | 11.42 | 497.26 |
六碱基 | 2 581 | 105 420 | 0.88 | 40.84 | 2.56 | 104.71 |
总数 | 292 430 | 5 465 549 | 100.00 | 18.69 | 290.47 | 5 428.96 |
绿尾虹雉不同类型微卫星的重复次数分布差异较大,单碱基重复次数最多,主要为12~32次(71.75%),12次最多,有39 900个;其余5种类型的重复次数和长度都较低,均低于10%,主要为4~11次(图 1)。微卫星偏倚十分明显,主要集中在单碱基,其中,A最丰富,有195 729个,占66.93%,C相对较少,有14 101个,占4.82%;二碱基中,AT最多,有9 849个,占3.37%,其次是AC(2.56%)和AG(1.13%),CG最少,仅有37个,占0.01%;三碱基中最多的是AAT,有5 535个,占1.89%;四碱基中AAAC和AAAT最多,分别占3.81%和2.80%;五碱基中AAAAC最多,占1.07%(表 2,图 2)。
重复基序 Motif |
数目 Counts |
长度 Length/bp |
占比 Percent/% |
平均长度 Average length/bp |
相对丰度 Relative abundance/(个/Mb) |
相对密度 Relative density/(bp/Mb) |
A | 195 729 | 3 216 111 | 66.93 | 16.43 | 194.42 | 3 194.58 |
C | 14 101 | 319 149 | 4.82 | 22.63 | 14.01 | 317.01 |
AAAC | 11 135 | 205 880 | 3.81 | 18.49 | 11.06 | 204.50 |
AT | 9 849 | 171 716 | 3.37 | 17.43 | 9.78 | 170.57 |
AAAT | 8 178 | 161 356 | 2.80 | 19.73 | 8.12 | 160.28 |
AC | 7 491 | 145 828 | 2.56 | 19.47 | 7.44 | 144.85 |
AAT | 5 535 | 102 099 | 1.89 | 18.45 | 5.50 | 101.42 |
AAC | 5 332 | 93 978 | 1.82 | 17.63 | 5.30 | 93.35 |
AG | 3 292 | 58 836 | 1.13 | 17.87 | 3.27 | 58.44 |
AAAAC | 3 143 | 71 295 | 1.07 | 22.68 | 3.12 | 70.82 |
2.3 微卫星定位在外显子中的编码基因功能注释
对微卫星进行全基因组定位,其中,分布于外显子的有2 816个,分布于1 314个编码基因中,数量最少,只占0.96%;分布于内含子和基因间区的数量庞大,分别有101 791个(34.81%)和187 823个(64.23%)。外显子是编码蛋白的翻译区,对基因行使的功能具有重要作用,所以对在外显子中定位到微卫星的编码基因进行了GO和KEGG注释分析。
2.3.1 GO注释和富集分析GO注释主要分为三大类:细胞组分、分子功能和生物学过程(图 3)。所得GO条目为599个,分布于695个基因中。WEGO分析发现,268个归于细胞部分,135个与分子功能有关,196个参与到生物学过程中。细胞组分中主要与细胞和细胞部分(GO:0005623,GO:0044464)有关,分子功能中主要与连接(GO:0005488)有关,生物学过程中主要与细胞过程和代谢过程(GO:0009987,GO:0008152)有关。GO条目富集前10的主要与代谢、合成过程和转录有关,其中,RNA代谢过程富集最显著(P=7.92E-16),有122个(表 3)。
条目 Term |
GO编号 GO ID |
输入数 Input number |
背景数 Background number |
P值 P-value |
RNA代谢过程RNA metabolic process | 0016070 | 122 | 1 078 | 7.92E-16 |
核酸代谢过程Nucleic acid metabolic process | 0090304 | 132 | 1 215 | 8.63E-16 |
含碱基复合物代谢过程的调控 Regulation of nucleobase-containing compound metabolic process |
0019219 | 108 | 913 | 2.88E-15 |
RNA代谢过程的调控 Regulation of RNA metabolic process |
0051252 | 102 | 838 | 3.43E-15 |
氮复合物代谢过程的调控 Regulation of nitrogen compound metabolic process |
0051171 | 112 | 971 | 4.11E-15 |
核酸模板转录的调控 Regulation of nucleic acid-templated transcription |
1903506 | 99 | 808 | 6.15E-15 |
转录和DNA模板的调控 Regulation of transcription,DNA-templated |
0006355 | 98 | 796 | 6.49E-15 |
核糖核酸生物合成的过程的调控 Regulation of RNA biosynthetic process |
2001141 | 99 | 809 | 6.60E-15 |
核酸模板的转录Nucleic acid-templated transcription | 0097659 | 101 | 837 | 7.77E-15 |
核糖核酸生物合成的过程RNA biosynthetic process | 0032774 | 101 | 839 | 8.91E-15 |
对绿尾虹雉外显子中含有微卫星的基因进行KEGG注释,得到903个KO number,将这些条目进行富集分析,富集到了14个通路中。这些通路中,黏着连接富集最显著,有14个基因,P值为2.03E-04;黏着斑的基因总数最多,有21个,P值为5.11E-03。将这些通路进行功能分类,主要分为机体系统、细胞过程、环境信息处理、遗传信息处理、人类疾病和代谢。其中,环境信息处理相关的通路最多,7个通路含有80个基因;其次是细胞过程,2个通路含有35个基因;机体系统的最少,只有1个通路6个基因(表 4)。
功能分类 Functional classification |
通路 Pathway |
输入数 Input number |
背景数 Background number |
P值 P-value |
细胞过程Cellular process | 黏着连接Adherens junction | 14 | 68 | 2.03E-04 |
黏着斑Focal adhesion | 21 | 179 | 5.11E-03 | |
机体系统Organism system | 背腹轴形成Dorso-ventral axis formation | 6 | 23 | 5.17E-03 |
环境信息处理 Environmental information processing |
ECM受体交互ECM-receptor interaction | 11 | 71 | 6.66E-03 |
FoxO信号通路FoxO signaling pathway | 14 | 116 | 1.62E-02 | |
ABC转运体ABC transporters | 7 | 41 | 1.82E-02 | |
TGF-beta信号通路TGF-beta signaling pathway | 10 | 74 | 2.08E-02 | |
Notch信号通路Notch signaling pathway | 7 | 44 | 2.47E-02 | |
MAPK信号通路MAPK signaling pathway | 19 | 203 | 5.04E-02 | |
ErbB信号通路ErbB signaling pathway | 12 | 74 | 3.40E-03 | |
人类疾病Human disease | 单纯疱疹病毒感染Herpes simplex infection | 14 | 128 | 3.19E-02 |
代谢Metabolism | 赖氨酸退化Lysine degradation | 7 | 47 | 3.27E-02 |
遗传信息处理 Genetic information processing |
RNA转运RNA transport | 14 | 134 | 4.30E-02 |
碱基切除修复Base excision repair | 5 | 30 | 4.66E-02 |
利用全基因组数据对绿尾虹雉微卫星序列进行鉴定和分类注释,可为其分子标记和种群遗传多样性研究等提供有用信息。本文对绿尾虹雉全基因组微卫星进行了搜索分析,1.01 Gb基因组中完美型微卫星292 430个,长度主要在10~43 bp,总长度5 465 549 bp,占全基因组的0.54%,相对丰度290.47个/Mb。雉科鸟类中,红原鸡Gallus gallus共有28 272个微卫星(0.49%)(黄杰等,2012),火鸡Meleagris gallopavo有177 733个(0.28%)(李午佼等,2012)。与人类3%微卫星含量(Subramanian et al., 2003)相比,绿尾虹雉等雉科鸟类的微卫星数量较少,这或许与哺乳动物基因组较大且重复序列较多有关。人类基因组大小为2.91 Gb,重复序列占基因组的66%~69%(Koning et al., 2011),而鸟类基因组较小且重复序列少,如绿尾虹雉基因组中重复序列只占9.9%。这些证据说明,人类基因组会有相对较多的微卫星。在所有微卫星类型中,绿尾虹雉的单碱基型微卫星最多,达71.75%,其中An含量最高(66.93%)。该结果与红原鸡相似,都以An和Tn为主,单碱基占65.1%(黄杰等,2012)。重复单位增加,微卫星位点的总数会相应减少(Bennett,2000)。在许多动植物中,都表现出微卫星A和T碱基偏倚,如红原鸡(黄杰等,2012)、核桃Juglans regia (廖卓毅,2015)、林麝Moschus berezovskii(卢婷等,2017)、虎皮鹦鹉Melopsittacus undulatus(黄杰等,2017)和天麻Gastrodia elata(周天华等,2017)等。真核生物中普遍存在的ployA(Gallie,1991)或许是大部分物种全基因组微卫星预测结果表现强烈偏倚的原因,此外,真核生物非编码区的CpG岛易被甲基化(Bird,1986),或也与这种偏倚有关。此外,绿尾虹雉和其他几种雉科鸟类比其他物种有较明显的A碱基偏倚,重复次数最多的重复单元类型分别是A、AT、AAT、AAAC,这种雉科鸟类普遍特点也有待深入研究。
外显子区是重要的表达区域,本文对绿尾虹雉微卫星进行了外显子定位分析,发现外显子中有2 816个(0.96%)微卫星,分布于1 314个编码基因中。GO注释到695个基因中,其中涉及较多关于细胞和细胞部分,富集前10的条目主要与代谢、合成过程和转录有关。KEGG富集到14个通路中,其中最显著富集到黏着连接通路,而大分类下环境信息处理条目最多。微卫星属于不稳定DNA序列,易发生扩增,而位于外显子中的微卫星发生移码突变可能会造成基因突变,而这些基因又与绿尾虹雉处理环境信息、代谢和细胞的基本组分息息相关,若发生突变可能会使这些信号通路的信息传递和一些物质的代谢过程受到影响。
微卫星在真核生物中分布多、分类广,有着多方面的用途:可用于个体识别和亲缘鉴定;是一种常用的遗传标记,可用于研究遗传多态性揭示物种的起源、迁徙和进化等;也可用于遗传病肿瘤诊断等医学有关用途(张云武等,2001)。本文利用软件预测首次对绿尾虹雉的全基因组微卫星进行了搜索鉴定,并对其分布规律进行了探究,为后续的微卫星筛选提供数据基础。
何芬奇, 卢汰春. 1985. 绿尾虹雉的冬季生态研究[J]. 动物学研究, 12(4): 523–527. |
黄杰, 杜联明, 李玉芝, 等. 2012. 红原鸡全基因组中微卫星分布规律研究[J]. 四川动物, 31(3): 358–363. |
黄杰, 原宝东, 杨承忠. 2017. 虎皮鹦鹉全基因组中微卫星分布规律研究[J]. 野生动物学报, 38(3): 422–426. DOI:10.3969/j.issn.1000-0127.2017.03.012 |
李午佼, 杜联明, 黄杰, 等. 2012.珍珠鸟、火鸡和红原鸡基因组微卫星比较分析[C].成都: 首届中国西部动物学学术研讨会. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-DWLP201206001012.htm |
廖卓毅. 2015.基于454测序核桃基因组微卫星和核苷酸变异序列的特征分析[D].南京: 南京林业大学. http://cdmd.cnki.com.cn/Article/CDMD-10298-1015809350.htm |
刘梦瑶, 高依敏, 陈建宁, 等. 2013. 绿尾虹雉保护生物学研究现状[J]. 江西林业科技(2): 36–39. DOI:10.3969/j.issn.1006-2505.2013.02.012 |
卢汰春, 刘如笋, 何芬奇, 等. 1986. 绿尾虹雉生态学研究[J]. 动物学报(3): 76–82, 109. |
卢婷, 王晨, 杜超, 等. 2017. 林麝全基因组微卫星分布规律研究[J]. 四川动物, 36(4): 420–424. |
张云武, 张亚平, Oliver AR, 等. 2001. 微卫星及其应用[J]. 动物学研究, 22(4): 315–320. DOI:10.3321/j.issn:0254-5853.2001.04.012 |
郑光美. 2015. 中国雉类[M]. 北京: 高等教育出版社. |
周天华, 丁家玺, 田伟, 等. 2017. 天麻基因组微卫星特征分析与分子标记开发[J]. 西北植物学报, 37(9): 1728–1735. |
Beckman JS, Weber JL. 1992. Survey of human and rat microsatellites[J]. Genomics, 12(4): 627–631. DOI:10.1016/0888-7543(92)90285-Z |
Bennett P. 2000. Demystified … microsatellites[J]. Molecular Pathology, 53(4): 177–183. DOI:10.1136/mp.53.4.177 |
Bird AP. 1986. CpG-rich islands and the function of DNA methylation[J]. Nature, 321(6067): 209. DOI:10.1038/321209a0 |
BirdLife International. 2016. The IUCN red list of threatened species[EB/OL].[2017-03-15]. http://dx.doi.org/10.2305/IUCN.UK.2016-3.RLTS.T22-679192A92806697.en. |
Conesa A, Götz S, Garcíagómez JM, et al. 2005. Blast2GO:a universal tool for annotation, visualization and analysis in functional genomics research[J]. Bioinformatics, 21(18): 3674–3676. DOI:10.1093/bioinformatics/bti610 |
Du L, Zhang C, Liu Q, et al. 2017. Krait:an ultrafast tool for genome-wide survey of microsatellites and primer design[J]. Bioinformatics, 34(4): 681–683. |
Gallie DR. 1991. The cap and poly(A) tail function synergistically to regulate mRNA translational efficiency[J]. Genes Development, 5(11): 2108–2116. DOI:10.1101/gad.5.11.2108 |
Gupta PK, Balyan HS, Sharma PC, et al. 1996. Microsatellites in plants:a new class of molecular markers[J]. Currentence, 70(1): 45–54. |
Jia Y, Lin F, Zheng H, et al. 2006. WEGO:a web tool for plotting GO annotations[J]. Nucleic Acids Research, 34: 293–297. DOI:10.1093/nar/gkl031 |
Koning APJD, Gu W, Castoe TA, et al. 2011. Repetitive elements may comprise over two-thirds of the human genome[J]. PLoS Genetics, 7(12): e1002384. DOI:10.1371/journal.pgen.1002384 |
Levinson G, Gutman GA. 1987. Slipped-strand mispairing:a major mechanism for DNA sequence evolution[J]. Molecular Biology & Evolution, 4(3): 203–221. |
Ma H, Yue Y, Liu Y. 2004. Microsatellite DNA molecular marker and its application in animal breeding and genetics[J]. Journal of Animal Science & Veterinary Medicine, 23(5): 16–19. |
Pérez MA, Gallego FJ, Martínez I, et al. 2001. Detection, distribution and selection of microsatellites in the genome of the yeast Saccharomyces cerevisiae as molecular markers[J]. Letters in Applied Microbiology, 33(6): 461–466. DOI:10.1046/j.1472-765X.2001.01032.x |
Subramanian S, Mishra RK, Singh L. 2003. Genome-wide analysis of microsatellite repeats in humans:their abundance and density in specific genomic regions[J]. Genome Biology, 4(2): 1–10. DOI:10.1186/gb-2003-4-2-p1 |
Xie C, Mao X, Huang J, et al. 2011. KOBAS 2.0:a web server for annotation and identification of enriched pathways and diseases[J]. Nucleic Acids Research, 39(Web Server issue): W316–W322. |