四川动物  2019, Vol. 38 Issue (5): 521-525

扩展功能

文章信息

郑帅, 周闯, 范振鑫, 李静, 岳碧松, 孟杨
ZHENG Shuai, ZHOU Chuang, FAN Zhenxin, LI Jing, YUE Bisong, MENG Yang
四川山鹧鸪基因组中内源性逆转录病毒的分析
Analysis of Endogenous Retroviruses in Sichuan Partridge's Genome
四川动物, 2019, 38(5): 521-525
Sichuan Journal of Zoology, 2019, 38(5): 521-525
10.11984/j.issn.1000-7083.20190086

文章历史

收稿日期: 2019-03-11
接受日期: 2019-05-17
四川山鹧鸪基因组中内源性逆转录病毒的分析
郑帅1 , 周闯1 , 范振鑫1 , 李静1 , 岳碧松1 , 孟杨1,2 *     
1. 生物资源与生态环境教育部重点实验室, 四川大学生命科学学院, 成都 610065;
2. 四川大学自然博物馆, 成都 610065
摘要:内源性逆转录病毒(ERV)是插入到宿主基因组中的、可以稳定遗传的病毒基因组,能够在宿主体内表达和复制,调节插入位点附近的基因表达,以及抑制同源病毒的感染。从四川山鹧鸪Arborophila rufipectus基因组中确定了3 962个全长ERV拷贝,其中4个具有完整的结构,72个具有自我复制的能力,554个含有gagpolenv基因所编码的蛋白质结构域。根据逆转录酶序列的相似性,确定了7个ERV家族,并依据与其他物种的相似性对家族进行了命名。其中,AruERV-L包含122个ERV拷贝,为拷贝数最多的家族。7个ERV家族的年龄分布在0~12百万年,其中AruERV-K1是最年轻的家族,其约86%的拷贝年龄在1百万年以内。
关键词四川山鹧鸪    基因组    内源性逆转录病毒    内源性逆转录病毒家族    内源性逆转录病毒年龄    
Analysis of Endogenous Retroviruses in Sichuan Partridge's Genome
ZHENG Shuai1 , ZHOU Chuang1 , FAN Zhenxin1 , LI Jing1 , YUE Bisong1 , MENG Yang1,2 *     
1. Key Laboratory of Bio-Resource and Eco-Environment of Ministry of Education, College of Life Sciences, Sichuan University, Chengdu 610065, China;
2. Museum of Natural History, Sichuan University, Chengdu 610065, China
Abstract: Endogenous retroviruses (ERV) are viral genomes that can insert and stably inherit in the host's genome. The expression and replication of ERV genomes are capable of regulating the expression of neighboring host genes and inhabiting the infection of homologous viruses. We identified 3 962 ERV copies in the genome of Sichuan partridge (Arborophila rufipectus), in which 4 copies had complete structures, 72 copies were capable of expressing and replicating and 554 copies had protein domains encoded by gag, pol or env genes. Based on the similarity of reverse transcriptase sequence, 7 ERV families were identified, and the names of these retroviruses were assigned according to the degree of sequence similarity with other species' ERV. Among the 7 families, AruERV-L was found to have the largest family size containing 122 copies. The ages of ERV in the 7 families distributed between 0 and 12 million years, and AruERV-K1 might be the youngest family with approximately 86% copies within 1 million years old.
Keywords: Arborophila rufipectus    genome    endogenous retrovirus    endogenous retrovirus family    endogenous retrovirus age    

内源性逆转录病毒(endogenous retrovirus,ERV)起源于逆转录病毒,是当逆转录病毒感染宿主的生殖细胞并将基因组插入到生殖细胞基因组中,传递给下一代所形成。因此,ERV是位于宿主基因组中的病毒基因组,具有如下结构:5’ LTR-gag-pol-env-LTR 3’。长末端重复是位于ERV序列两端的2段相同DNA序列,含有启动子、聚腺苷酸化位点等调控元件。gagpolenv分别代表 3个蛋白质的编码基因。虽然在漫长的演化过程中,其结构会发生一些变异,但仍然具有很高的保守性,识别基因组中ERV也主要是根据其结构特征和蛋白质编码基因的序列相似性。

ERV插入宿主基因组中的位置是随机的(Bolisetty et al., 2012),如果插入到基因附近或基因内部,就会改变基因原有结构,影响基因表达,可能产生有害的结果。但对宿主不利的ERV在负选择作用下会被逐渐清除出宿主基因组,而不妨碍宿主正常的生理活动,而对宿主有利的ERV就会被保留下来。ERV在宿主基因组中并非静止,它可以通过自我复制产生新的拷贝,插入到基因组中的其他位置。病毒的再次感染也会形成新的ERV,这样宿主基因组中就存在很多来源于同一种逆转录病毒的ERV拷贝,形成ERV家族(Gifford & Tristem,2003)。除了垂直传递外,ERV还可以在宿主间进行水平传递,从一个宿主中释放出来,感染另一个宿主。ERV与同源的外源性逆转录病毒之间也存在交互,它们可以相互交换基因组片段,形成新的重组病毒(Payne & Nair,2012)。ERV具有许多重要的生物学功能,比如参与人类胎盘的形态发生,避免宿主被同源的外源性病毒感染,调节插入位点附近的基因表达等(武元峰,栾洋,2014)。

由ERV衍生的重复序列在鸟类基因组中广泛存在,其含量为0.17%~4.11%(Zhang et al., 2014),但大多数都是不完整的ERV片段或单独出现的长末端重复。很多鸟类的性状都与ERV的插入有关,例如雌相羽(Matsumine et al., 1991)、白羽鸡(Chang et al., 2006)、绿壳蛋(Wang et al., 2013)等。某些种类的ERV还具有致癌性,如ALV-J能够引起家鸡Gallus gullus domesticus发生肿瘤(Gao et al., 2010)。四川山鹧鸪Arborophila rufipectus是中国西南山区特有的珍稀雉科Phasianidae鸟类,被世界自然保护联盟(IUCN)列为濒危(EN)物种,也是国家Ⅰ级重点保护野生动物。受捕猎、生境丧失等影响,其成熟个体的数量仅为1 000~2 499只,且在持续下降中(IUCN,2018)。其生态习性(廖文波,胡锦矗,2010)、行为特征(廖文波,2011)、基因组中的微卫星(Huang et al., 2015)、Chicken Repeat 1转座子(Cui et al., 2016)等已有研究,对山鹧鸪属Arborophila鸟类的系统发生关系和演化历史的研究也取得了很大进展(李雪娟等,2014Yan et al., 2017)。但对四川山鹧鸪基因组中的ERV仍然知之甚少,本文比较全面地呈现了四川山鹧鸪基因组中ERV的分布情况,对全面了解这一濒危物种,采取更好的保护策略具有重要意义。

1 材料与方法 1.1 基因组测序

测序样品来源于四川老君山国家级自然保护区的1只四川山鹧鸪。相关项目信息和原始数据已上传至NCBI(PRJNA419836)。测序采用paired-end共构建了8种不同插入长度的DNA文库,包括小片段文库(插入长度为250 bp、500 bp与800 bp)和大片段文库(插入长度为2 kb、5 kb、10 kb、15 kb与20 kb)。对小片段文库,测序采用Illumina HiSeq X Ten平台,大片段文库采用Illumina HiSeq 2500平台,测序深度达~274×,读长均为150 bp,获得的数据总量为347.94 Gb。

1.2 基因组的de novo组装

首先使用SOAPdenovo 2 2.04-r240(SOAPdenovo-63mer;Luo et al., 2012)将读长组装成contig和scaffold。小片段文库用于组装contig,大片段文库用于将contig连接为scaffold,运行参数为:SOAPdenovo-63mer all-s config_file-o out_prefix-K 27-p 30-d 5-M 3-F;然后使用SSPACE 3.0(Boetzer et al., 2011)根据大片段文库将SOAPdenovo2输出的scaffold进一步连接,运行参数为:SSPACE_Standard_v3.0.pl-l library.txt-s scaffold_file.fa-T 30-v 1-g 0-k 7;最后使用GapCloser 1.12(Luo et al., 2012)根据小片段文库对scaffold中的缺口(连续的N)进行填补,采用默认的参数运行。最终获得1.09 Gb的基因组序列,scaffold N50长度为4.57 Mb。

1.3 确定和注释ERV

采用LTRharvest 1.5.10(Ellinghaus et al., 2008)确定基因组中的ERV,主要参数设置为:minlenltr=100,maxlenltr=1 000,similar=90,overlaps=no。注释采用LTRdigest 1.5.10(Steinbiss et al., 2009),采用关键词“retro”搜索Pfam数据库,找到了与ERV蛋白质相关的41个条目,又包括了Steinbiss等(2009)构建的Pfam文库,最终确定了1个含有53个Pfam条目的文库,作为LTRdigest的输入,用于检测gagpolenv基因所编码蛋白质的结构域。

1.4 定义家族与估算年龄

首先使用Usearch 1.0.667_i86linux32(Edgar,2010)聚类,主要参数设置为:cluster_fast id= 0.80,query_cov=0.80,maxaccepts=5,maxrejects=105;然后使用RAxML 8.2.12(Stamatakis,2014)构建系统发生树,主要参数设置为:raxml-f a-x 1237-p 1237-# autoMRE-m GTRGAMMA-T 4;最后进行手工检验,若有2个或多个Usearch家族处于系统发生树的同一分支,则将这些家族合并,形成一个新的家族。

年龄估算使用公式T=D/2R,式中,T代表ERV的年龄,D是2个长末端重复序列的演化距离,采用MEGA X(Kumar et al., 2018)计算,R是每百万年的碱基替换率,采用红原鸡Gallus gallus和火鸡Meleagris gallopavo的常染色体年替换率:3.6×10-9(Axelsson,2004)计算。

2 结果 2.1 ERV的数量与结构特征

位于ERV序列两端的长末端重复长度一般为100~1 000 bp,是识别基因组中ERV的重要特征。具有2个可识别的长末端重复的ERV称为全长ERV,2个长末端重复之间的序列称为ERV的内部序列。通过de novo从四川山鹧鸪基因组中确定了3 962个全长ERV拷贝,总长度为18.01 Mb,占基因组的1.65%。利用LTRdigest对ERV的引物结合位点,多嘌呤序列,gagpolenv 3个基因编码的蛋白质结构域进行注释。发现有4个拷贝同时具有这5种特征,即具有完整的结构;11个拷贝同时含有3种蛋白质结构域;72个拷贝同时具有引物结合位点和多嘌呤序列,表明它们具有自我复制的能力;554个拷贝含有至少1个蛋白质结构域,其中,约73%(404个拷贝)含有逆转录酶域(Pfam ID:RVT_1)。

在排除了重复的、长度<80 bp、未知碱基N的含量>80%和被Chicken Repeat 1污染的拷贝后,共获得2 579个高质量的全长ERV拷贝,其中318个含有逆转录酶域被用于定义ERV家族。

2.2 ERV家族的定义与命名

根据Wicker等(2007)提出的转座子家族的定义方法,基于逆转录酶序列的相似性,将318个含有逆转录酶域的ERV拷贝分成了48个不同的家族。其中11个家族的拷贝数>3,2个家族的拷贝数为2,其余35个家族的拷贝数为1。为了确定四川山鹧鸪基因组中的ERV与已发现其他物种的关系,将拷贝数>3的11个家族中所有拷贝的内部序列作为查询序列,用BLASTN搜索了Repbase数据库(Bao et al., 2015),结果发现,仍然有4个家族的序列中含有Chicken Repeat 1。为了尽可能避免Chicken Repeat 1对ERV家族的污染,将这4个家族移出分类系统,最终获得7个ERV家族,并依据BLASTN结果中的Repbase条目名称,力求反映与其他物种ERV的亲缘关系,对这7个ERV家族分别进行了命名(表 1):每个家族名都由2个部分组成:第一部分为代表四川山鹧鸪这一物种的“Aru”前缀,第二部分为代表家族归属的类别名。

表 1 ERV家族 Table 1 Assigned ERV families
家族编号
FamilyID
家族大小
Familysize
Repbase条目
Repbase entry
匹配数量
Matchednumber
命名
Assignedname
3 122 GGERVL-C 56 AruERV-L
Kronos-I 35
GGERVL-A 31
7 84 Birddawg_I 84 AruDawg
15 11 TguERV4_I 11 AruERV-4
13 7 ERV2-N1_MUn-I 4 AruERV-K1
TguERVK1_I 3
0 6 ERV2-3_Pca-I 6 AruERV-2
11 4 GGERVK1 4 AruERV-K2
34 4 GGERV20_I 4 AruERV-20
注:BLASTN结果中匹配到对应的Repbase条目的ERV拷贝数
Note:Number of matched ERV copies corresponding to the Repbase entry by BLASTN

AruERV-L是四川山鹧鸪基因组中最大的ERV家族,包含了122个拷贝。为了确定其他鸟类中是否也含有ERV-L拷贝,将AruERV-L家族所有拷贝的内部序列作为查询序列,用BLASTN(identity≥80%,coverage≥80%)分别搜索了红原鸡、绿尾虹雉Lophophorus lhuysii、日本鹌鹑Coturnix japonica、火鸡、非洲鸵鸟Struthio camelus、原鸽Columba livia和斑胸草雀Taeniopygia guttata 7种具有代表性的鸟类基因组。结果在后3种鸟中未发现ERV-L的拷贝,前4种鸟的ERV-L拷贝数分别是159个、137个、70个和35个。

2.3 ERV的年龄分布

在ERV插入基因组的事件发生时,其两端的长末端重复序列相同,但随着时间的增加,基因突变使2个长末端重复之间产生差异。因此可以通过比较全长ERV 5’端和3’端的长末端重复的差异来估算ERV的年龄,即该ERV的插入事件发生在多少时间以前(Huda et al., 2008)。

上述7个家族中有5个家族含有年龄为0的ERV拷贝,即2个长末端重复完全相同的拷贝(图 1)。也就是说这些ERV拷贝的插入事件发生在最近,即这些家族的某些拷贝在最近有活动,进行了自我复制,产生了新的拷贝。5个家族中,AruDawg中年龄为0的拷贝含有9个,AruERV-K1含有3个,AruERV-L含有2个,AruERV-4、AruERV-20各含有1个。

图 1 ERV家族年龄分布 Fig. 1 Distribution of the ages of ERV families

将年龄在1百万年以内的ERV拷贝称为年轻拷贝。7个家族中,除AruERV-K2外,其余的均含有年轻拷贝,AruERV-K1含有年轻拷贝的比例最高,约86%(6/7),AruDawg含有年轻拷贝的数量最多,为45个(约54%)。可以推测,这2个ERV家族至今仍处于活跃状态(图 1)。

3 讨论

虽然四川山鹧鸪基因组中全长ERV拷贝的总量接近4 000个,但大多数拷贝都缺少进行自我复制所必需的引物结合位点、多嘌呤序列等调控元件,只有约2%的拷贝保留有进行自我复制产生新拷贝的能力,这些拷贝是演化过程中维系ERV家族存在的关键。

AruERV-L是四川山鹧鸪基因组中含量最丰富的ERV家族,其年龄分布范围也非常广泛,最远可追溯到12百万年以前,可见AruERV-L在四川山鹧鸪中具有悠久的演化历史。ERV-L是一个值得注意的ERV家族,Bénit等(1999)发现该家族普遍存在于胎盘哺乳动物中。而红原鸡、绿尾虹雉、四川山鹧鸪、日本鹌鹑和火鸡也都含有ERV-L,且四川山鹧鸪分支在雉科鸟类的系统发生树中出现的最早(李雪娟等,2014),因此有理由推测,ERV-L普遍存在于雉科鸟类中。在非洲鸵鸟、原鸽和斑胸草雀3种非雉科鸟类中并未发现ERV-L,这说明ERV-L在鸟类中的存在并不具有普遍性。那么ERV-L在哺乳动物和鸟类中的引进就很可能是独立发生的。

四川山鹧鸪基因组中最年轻的ERV家族是AruERV-K1。年轻的ERV一般具有比较完整的结构,能够自主转录与复制,对宿主的各项生理功能产生影响的可能性更大。ERV插入基因组中位置的随机性,也使得其具有影响宿主生理活动各个方面的潜能(Bolisetty et al., 2012)。经过漫长的演化,四川山鹧鸪表现出了特殊的环境适应性(Fu et al., 2017),而ERV始终动态地存在于基因组中,很可能在其适应性演化中扮演着重要角色。因此,深入了解这些ERV的生理功能,对采取更加科学的方法保护四川山鹧鸪具有十分重要的意义。

参考文献
廖文波. 2011. 四川山鹧鸪育雏期幼体鸣声行为[J]. 西华师范大学学报(自然科学版), 32(2): 127–131, 150.
廖文波, 胡锦矗. 2010. 四川山鹧鸪生态习性研究进展[J]. 绵阳师范学院学报, 29(2): 67–71, 75. DOI:10.3969/j.issn.1672-612X.2010.02.018
李雪娟, 黄原, 雷富民. 2014. 山鹧鸪属鸟类线粒体基因组的比较及系统发育研究[J]. 遗传, 36(9): 912–920.
武元峰, 栾洋. 2014. 内源性逆转录病毒生物学功能及与肿瘤的关系[J]. 生命科学, 26(9): 955–961.
Axelsson E. 2004. Male-biased mutation rate and divergence in autosomal, z-linked and w-linked introns of chicken and turkey[J]. Molecular Biology and Evolution, 21(8): 1538–1547. DOI:10.1093/molbev/msh157
Bao W, Kojima KK, Kohany O. 2015. Repbase update, a database of repetitive elements in eukaryotic genomes[J]. Mobile DNA, 6: 11. DOI:10.1186/s13100-015-0041-9
Bénit L, Lallemand JB, Casella JF, et al. 1999. ERV-L elements: a family of endogenous retrovirus-like elements active throughout the evolution of mammals[J]. Journal of Virology, 73(4): 3301–3308.
Boetzer M, Henkel CV, Jansen HJ, et al. 2011. Scaffolding pre-assembled contigs using SSPACE[J]. Bioinformatics, 27(4): 578–579. DOI:10.1093/bioinformatics/btq683
Bolisetty M, Blomberg J, Benachenhou F, et al. 2012. Unexpected diversity and expression of avian endogenous retroviruses[J]. mBio, 3(5): e00344-12. DOI:10.1128/mBio.00344-12
Chang CM, Coville JL, Coquerelle G, et al. 2006. Complete association between a retroviral insertion in the tyrosinase gene and the recessive white mutation in chickens[J]. BMC Genomics, 7: 19. DOI:10.1186/1471-2164-7-19
Cui Y, Yan C, Sun T, et al. 2016. Identification of CR1 retroposons in Arborophila rufipectus and their application to Phasianidae phylogeny[J]. Molecular Ecology Resources, 16(4): 1037–1049. DOI:10.1111/1755-0998.12514
Edgar RC. 2010. Search and clustering orders of magnitude faster than BLAST[J]. Bioinformatics, 26(19): 2460–2461. DOI:10.1093/bioinformatics/btq461
Ellinghaus D, Kurtz S, Willhoeft U. 2008. LTRharvest, an efficient and flexible software for de novo detection of LTR retrotransposons[J]. BMC Bioinformatics, 9(1): 18. DOI:10.1186/1471-2105-9-18
Fu Y, Dai B, Wen L, et al. 2017. Unusual incubation behavior and embryonic tolerance of hypothermia in the Sichuan partridge (Arborophila rufipectus)[J]. Journal of Ornithology, 158(3): 707–715.
Gao YL, Qin LT, Pan W, et al. 2010. Avian leukosis virus subgroup J in layer chickens, China[J]. Emerging Infectious Diseases, 16(10): 1637–1638. DOI:10.3201/eid1610.100780
Gifford R, Tristem M. 2003. The evolution, distribution and diversity of endogenous retroviruses[J]. Virus Genes, 26(3): 291–315.
Huang J, Zhu D, Song XH, et al. 2015. High-throughput microsatellite markers discovery for the Sichuan hill partridge (Arborophila rufipectus) and assessment of genetic diversity in the Laojunshan population[J]. Biochemical Systematics and Ecology, 60: 266–272. DOI:10.1016/j.bse.2015.04.031
Huda A, Polavarapu N, Jordan IK, et al. 2008. Endogenous retroviruses of the chicken genome[J]. Biology Direct, 3: 9. DOI:10.1186/1745-6150-3-9
IUCN. 2018. The IUCN red list of threatened species[DB/OL]. (2018-02)[2018-12-23]. https://www.iucnredlist.org/species/22679035/92800034.
Kumar S, Stecher G, Li M, et al. 2018. MEGA X: molecular evolutionary genetics analysis across computing platforms[J]. Molecular Biology and Evolution, 35(6): 1547–1549. DOI:10.1093/molbev/msy096
Luo R, Liu B, Xie Y, et al. 2012. SOAPdenovo2: an empirically improved memory-efficient short-read de novo assembler[J]. GigaScience, 1: 18. DOI:10.1186/2047-217X-1-18
Matsumine H, Herbst MA, Ou SH, et al. 1991. Aromatase mRNA in the extragonadal tissues of chickens with the henny-feathering trait is derived from a distinctive promoter structure that contains a segment of a retroviral long terminal repeat. Functional organization of the Sebright, Leghorn, and Campine aromatase genes[J]. Journal of Biological Chemistry, 266(30): 19900–19907.
Payne LN, Nair V. 2012. The long view: 40 years of avian leukosis research[J]. Avian Pathology, 41(1): 11–19.
Stamatakis A. 2014. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies[J]. Bioinformatics, 30(9): 1312–1313. DOI:10.1093/bioinformatics/btu033
Steinbiss S, Willhoeft U, Gremme G, et al. 2009. Fine-grained annotation and classification of de novo predicted LTR retrotransposons[J]. Nucleic Acids Research, 37(21): 7002–7013. DOI:10.1093/nar/gkp759
Wang ZP, Qu LJ, Yao JF, et al. 2013. An EAV-HP insertion in 5' flanking region of SLCO1B3 causes blue eggshell in the chicken[J]. PLoS Genetics, 9(1): e1003183. DOI:10.1371/journal.pgen.1003183
Wicker T, Sabot F, Huavan A, et al. 2007. A unified classification system for eukaryotic transposable elements[J]. Nature Reviews Genetics, 8(12): 973–982. DOI:10.1038/nrg2165
Yan CC, Mou BQ, Meng Y, et al. 2017. A novel mitochondrial genome of Arborophila and new insight into Arborophila evolutionary history[J]. PLoS ONE, 12(7): e0181649. DOI:10.1371/journal.pone.0181649
Zhang GJ, Li B, Li C, et al. 2014. Comparative genomic data of the avian phylogenomics project[J]. GigaScience, 3(1): 26. DOI:10.1186/2047-217X-3-26