文章信息
- 彭珍, 刘静, 郭月, 李英, 杜建厂
- PENG Zhen, LIU Jing, GUO Yue, LI Ying, DU Jianchang
- 大豆HGm1 helitron转座元件的鉴定与生物信息学分析
- Identification and bioinformatics analysis of HGm1 helitrons in Glycine max
- 南京农业大学学报, 2016, 39(4): 527-533
- Journal of Nanjing Agricultural University, 2016, 39(4): 527-533.
- http://dx.doi.org/10.7685/jnau.201602003
-
文章历史
- 收稿日期:2016-02-02
2. 江苏省农业科学院农业生物技术研究所/江苏省农业生物学重点实验室, 江苏 南京 210014
2. Institute of Biotechnology/Jiangsu Key Laboratory of Agrobiology, Jiangsu Academy of Agricultural Sciences, Nanjing 210014, China
近年来,基因组学的研究进展表明:各种类型的重复序列,特别是转座元件(transposable elements,TEs)是植物基因组的重要组成成分[1]。根据转座方式的不同,真核生物的转座元件主要分为两大类,即反转录转座子和DNA转座子[2]。植物中的DNA转座子主要有CACTA、Mutator、PIF/Harbinger、hAT、Tc1/mariner和helitron[2]。除helitron外,其他5种类型的DNA转座子均具有末端反向重复序列(terminal inverted repeats,TIRs)和靶位点重复序列(target site duplications,TSDs)的特征[2]。一般认为,反转录转座子主要分布在基因较少的异染色质区域,是除植物多倍化外影响植物基因组大小的重要因素,而大部分DNA转座子则经常分布在基因内部或者基因调控区域,从而影响基因的结构和功能[1-5]。
Kapitonov等[6]在对拟南芥、水稻和线虫基因组的计算分析中,首次报道了helitron,并发现其含量在基因组中通常小于5%。与其他类型的DNA转座子不同,helitron转座元件通常以TC开头,CTRR(R代表A或G)结尾,在3′末端形成1个发夹结构,并在转座过程中插入到AT丰富区域[6, 7]。虽然helitron的拷贝数和DNA含量相对较少,但由于其在滚环复制的转座过程中经常捕获和携带基因片段,频繁插入到基因内部或基因调控区,产生与基因调控相关的小RNA等;因此,其在改变基因的结构与组成、调控基因表达和影响基因组进化过程中起着重要的作用[6-11]。
大豆是我国重要的经济作物和油料作物之一,在农业生产中处于较为重要的地位。2010年,大豆国际协作组宣布完成大豆基因组的测序[12]。Du等[13]基于公开发表的大豆基因组序列,鉴定了3万多个插入位置明确的转座元件,并对LTR-反转录转座子进行了详细的生物信息学分析。作为DNA转座子的重要组成部分,helitron转座元件目前主要在玉米中研究较多,在大豆中还缺乏系统的分析。一般认为,玉米中的helitron具有拷贝数多且结构复杂,和基因的关系密切,以及影响玉米表型等特点。这些研究结果提示:helitron转座元件在大豆基因组中可能也有广泛的分布,并可能对大豆基因和基因组产生较为重要的影响。本研究中,我们以大豆(Glycine max)基因组[12]和大豆转座子数据[13]为研究对象,利用基因组学和生物信息学的研究手段,系统鉴定了11个家族的1 000多个helitron转座元件。其中,最大的家族HGm1由于具有拷贝数最多和结构相对完整以及序列相似度高等特征,引起了我们的注意和兴趣。因此,我们对HGm1家族的结构特征、染色体分布、插入和捕获基因片段等进行了研究,旨在为进一步探究helitron转座元件如何影响宿主基因和基因组进化以及基因的功能提供一定的帮助。
1 材料与方法 1.1 HGm1家族的鉴定与组分分析综合以结构特征为基础的软件HelSearch_V1.0[14]、HelitronScanner_V1.0[15],基于同源搜索的方法BLAST[16]以及Cross_match(http://www.phrap.org/)的鉴定方法,全面鉴定大豆基因组Gmax_189(https://phytozome.jgi.doe.gov/pz/portal.html)中helitron转座元件,同时结合转座子数据库(http://www.soybase.org/soytedb/)中已鉴定的82个helitron转座子,对鉴定出的元件按照3′端30 bp相似度不小于80%的原则进行家族分类,对拷贝数较多的HGm1家族元件按照5′端30 bp相似度不小于80%的原则进行亚家族分类[14]。同时,用RepeatMasker(http://www.repeatmasker.org/cgi-bin/WEBRepeatMasker/)、SSRLocator、TRF、IRF和weblogo(http://weblogo.berkeley.edu/logo.cgi)等工具详细解析其内部结构特征和侧翼序列的碱基组成以及染色体分布等[17, 18, 19, 20]。
1.2 HGm1家族在染色体上的分布为了研究HGm1家族在染色体上分布是否具有偏向性,我们对这些元件分染色体进行了t测验。将所有成员按染色体划分到常染色质区和异染色质区,由于每条染色体的常染色质和异染色质区间长度不同,我们对不同区间内helitron的密度进行了成对的t测验,以明确HGm1家族成员在异染色质和常染色质区的分布是否具有显著性差异。
1.3 HGm1家族的插入分析借助自行撰写的perl脚本程序,通过对转座元件与基因的位置比较分析,确定可能受到HGm1插入影响的基因,并对这些基因的表达量、结构和功能进行分析。利用agriGO网站(http://bioinfo.cau.edu.cn/agriGO/analysis.php)[21]在线工具,以Glycine max(V1.1)基因组序列为参照,将鉴定出的相邻基因进行功能聚类。
1.4 HGm1家族捕获基因和基因片段的分析以鉴定的元件为问询序列,对NCBI nr数据库(ftp://ftp.ncbi.nlm.nih.gov/blast/db/)进行BLASTx[16]序列一致性搜索,设置参数为E<10-5。然后,将BLASTx[16]的结果导入到本地化的Blast2GO 3.1[22]软件中进行功能注释。利用perl脚本程序,通过对基因和该家族元件位置的分析,确定元件内部可能捕获的完整基因,并将它们进行功能聚类。
1.5 HGm1家族潜在的转座和转录活性采用大豆的表达序列标签(expressed sequence tags,ESTs)数据(http://www.ncbi.nlm.nih.gov/nucest/?term=soybean),来分析helitron转座元件的表达情况。大豆ESTs数据库包含了不同组织部位与不同外界条件下基因的表达情况。采用BLAST程序[16]搜索大豆HGm1家族元件与ESTs数据库的匹配,鉴定具有潜在功能转座元件。参数设定:E<10-10,相似度≥99%,比对长度≥100 bp。
2 结果与分析 2.1 HGm1家族的鉴定与特征分析综合运用基于结构特征和同源搜索的方法,在大豆基因组中共鉴定出254个HGm1家族成员,其中有50个是转座子数据库中已有的,其余的成员为本研究中首次报道的。这些成员序列长度多集中在5~10 kb(76个)和10~15 kb(86个)之间,占总拷贝数的64%(表 1)。同时,对这些成员的3′端50 bp进行了序列保守性分析(图 1)。结果显示:该家族成员在靠近末端存在ACCCGTGC|GCACGGGT的回文序列,中间的4个碱基形成loop环结构(GTAT),主要以CTAR(R代表A或G)结尾。这些数据表明:HGm1家族符合helitron的基本特征。
| 项目 Item | 长度/kb Length | 插入位点 Target site | ||||||||||||||
| 0~5 | >5~10 | >10~15 | >15~20 | >20~30 | AT | TT | GT | CT | AA | TA | GA | AG | CA | TG | ||
| 拷贝数 Copy number | 41 | 76 | 86 | 18 | 33 | 157 | 37 | 26 | 11 | 9 | 8 | 3 | 1 | 1 | 1 | |
|
图 1 HGm1家族3′末端50 bp序列保守性 Fig. 1 Sequence conservation of 50 bp in HGm1 3′ end |
为了解HGm1家族成员的插入偏向性,首先对这些元件插入位置的碱基组成进行了统计。如表 1所示:约62%拷贝数的成员插入到碱基AT之间,这与已报道的其他作物的helitron插入特性一致[6-7, 9]。值得注意的是,除插入到AT中间外,也有很多HGm1元件插入到GT或TT之间,个别插入到AA或GA等碱基之间。
为探讨引起HGm1家族成员插入偏向性的遗传机制,对这些元件及元件侧翼序列的GC含量进行了统计。HGm1成员本身的GC含量为31%,略低于基因组中染色体和基因的GC含量(分别为37%和34%),但高于两端侧翼序列的GC含量(分别为26%和23%)。此外,对HGm1两端50 bp的序列碱基组成分别进行了统计。结果表明:5′端GC含量相对较低(24%),但3′端GC含量很高(45%),这可能与3′端需要保持相对稳定的发夹结构有关。
2.2 HGm1家族成员序列组分分析转座子在基因组中经常以巢式的方式存在[23]。为探讨HGm1家族成员可能包含的其他类型的转座元件,将各成员在染色体上的位置与大豆转座子数据库中转座子的位置[13]进行比较。结果显示:HGm1家族有68个成员内部包含有1个或多个外源转座子,这些外源转座子共计83个。其中:包括30个Copia、41个Gypsy型反转录转座子、6个Mutator、4个PIF、1个TC1以及1个未知类型的DNA转座子。
为进一步研究HGm1家族成员包含的其他转座子成分,用RepeatMasker等软件对其序列进行了分析[17, 19-20]。结果(表 2)显示:该家族成员内部仍然存在大量的转座子DNA、简单重复序列、串联重复序列以及反向重复序列等。这些序列可能是HGm1元件在长期演化过程中经过多轮的重组事件形成的,也可能是不同元件之间序列差异较大的原因之一。
| 类型 Categories | 数量 Number | 长度/bp Length | 占元件长度的比例/% Proportion of element length |
| 转座子Transposons | 120 | 68633 | 2.33 |
| 逆转座子Retroelements | 95 | 58833 | 2.00 |
| LINE/L | 3 | 255 | 0.01 |
| LTR/Copia | 58 | 41741 | 1.42 |
| LTR/Gypsy | 34 | 16837 | 0.57 |
| DNA转座子 DNA transposons | 22 | 9097 | 0.31 |
| DNA/CMC-EnSpm | 9 | 5907 | 0.20 |
| DNA/hAT-Ac | 5 | 2649 | 0.09 |
| DNA/MULE-MuDR | 8 | 541 | 0.02 |
| 类转座子Transposons-like | 3 | 703 | 0.02 |
| rRNA | 1 | 41 | 0.00 |
| 简单重复序列 Simple repeat | 1642 | 81113 | 2.75 |
| 低度重复序列 Low complexity | 189 | 9147 | 0.31 |
| A-rich | 163 | 7944 | 0.27 |
| GA-rich | 21 | 873 | 0.03 |
| G-rich | 5 | 330 | 0.01 |
| 随机重复序列 Tandem repeats | 1410 | 163687 | 5.55 |
| 反向重复序列 Invertedrepeats | 922 | 126500 | 4.29 |
| 总计Total | 4284 | 449121 | 15.24 |
与反转录转座子不同,helitron转座子在染色体上的分布在不同物种中差异较大。例如:helitron转座子在拟南芥中主要分布在基因较少的近着丝粒区域;在线虫中分布在基因较少的染色体臂上;在水稻中则没有明显的富集区域[9]。为探讨HGm1家族成员在大豆基因组中的分布,按照不同染色体和不同染色体结构类型(常染色质和异染色质)对其进行了频率统计(图 2)。结果显示:与拟南芥基因组中helitron的分布情况相似,HGm1家族成员主要分布在基因较少的重组受到显著抑制的异染色质区域(t-test,P=0.000 01)。
|
图 2 HGm1家族在各染色体上的分布 Fig. 2 The distribution of HGm1 members across chromosomes |
尽管转座子主要分布在基因较少的区域,但也有一些元件频繁地插入到基因附近,从而影响基因的结构、表达及其表型。为研究HGm1转座子插入可能产生的对临近基因的影响,对其基因组位置和基因的位置进行了比较。结果显示:该家族共有64个成员插入到72个功能基因的附近(<2 kb)。为深入了解这些相邻基因的功能,将这些基因进行了GO功能注释(图 3-A),包括细胞组分(cellular component)、分子功能(molecular function)和生物进程(biological process)。数据显示:这些相邻的基因在生物进程方面主要涉及细胞进程和代谢进程,在细胞组分方面主要涉及细胞和细胞器以及细胞组成,在分子功能方面主要涉及催化和拼接活动(图 3-A),分子功能中的催化和拼接活动主要是氧化还原和蛋白结合活动。
|
图 3 HGm1相邻基因和捕获基因的功能聚类分析 Fig. 3 Functional enrichment analysis of the adjacent genes close to HGm1 and the genes captured by HGm1 A:相邻基因的GO聚类GO functional enrichment analysis of the adjacent genes close to HGm1;B:捕获的完整基因的GO聚类GO functional enrichment analysis of the intact genes captured by HGm1;C:捕获基因片段的聚类Functional enrichment analysis of the gene fragments captured by HGm1 |
DNA转座子的特点之一是能够频繁地捕获基因和基因片段[6-9]。为探讨HGm1家族成员捕获基因和基因片段的频率和发生规律,首先对其序列内部包含的完整基因进行了注释。数据显示:该家族中共有115个成员内部包含有完整的功能基因(非转座相关),这些功能基因共计154个。对这些完整基因的功能注释显示:它们主要涉及生物进程方面的细胞和代谢进程,细胞组分方面的细胞组成,分子功能方面的催化、拼接和电子载体携带活动等(图 3-B),在其分子功能方面主要是铁离子和四吡咯的结合活动。此外,应用Blast2Go工具,对HGm1捕获的基因片段也进行了统计和功能注释。结果显示:捕获的基因片段主要与生物学进程中的细胞进程、代谢进程,细胞组分中的细胞和细胞器,以及分子功能中的催化和拼接有关(图 3-C),具体来说主要是生物学进程中的活性腺苷甲硫氨酸和脂多糖的合成以及葡聚糖的代谢,细胞组分中的细胞壁和质外体的组成,分子功能中的氧化还原酶、水解酶、肽酶活动,以及ATP结合和金属离子结合活动。
2.6 HGm1转座元件的转录活性EST序列包含大量与基因功能有关的遗传信息。为明确HGm1家族的转录活性,我们将其成员的DNA序列与NCBI数据库中大豆的718 980条EST序列进行比较分析,发现HGm1家族有68个成员匹配到802条不同的EST序列上。其中,52个成员匹配到的EST序列具有明确的组织和胁迫条件注释信息。为了解HGm1家族成员在不同组织和不同胁迫条件下的表达情况,我们对这些成员进行了进一步的分类统计(图 4)。结果显示:虽然HGm1元件在根、茎、叶、花和种子等组织中都有表达,但更多的是在种子中进行表达(图 4-A);HGm1元件在干旱胁迫、盐胁迫、生长素胁迫和组织培养条件下都有表达,但绝大多数是在干旱胁迫和组织培养条件下发生的,说明这两种条件可能更有利于诱导HGm1转录(图 4-B)。
|
图 4 大豆HGm1家族成员在不同组织、胁迫和组织培养下的表达 Fig. 4 Expression analysis of HGm1 members in different tissues and under differentconditions of stress and tissue culture in Glycine max A:不同组织下的表达Expression in different tissues;B:组织培养和不同胁迫条件下的表达 Expression under different conditions of stress and tissue culture |
转座子是基因组中能够跳跃的一段DNA。在前期的研究中,我们利用测序完成的大豆基因组序列建立了相对完整的转座子数据库[13],并对LTR-反转录转座子进行了全基因组的分析[24],但对大豆DNA转座子还未进行详细的生物信息学分析。本研究中,我们对大豆基因组中最大的helitron家族HGm1进行了细致的研究。研究结果显示:与LTR反转录转座子相似,HGm1 helitron家族成员更多地分布在基因较少的异染色质区域,这与玉米基因组中helitron多分布在基因丰富区域有所不同[5]。与LTR-反转录转座子相似,这种分布可能是由于转座子的插入偏向性和自然选择共同作用的结果[25]。
除分布规律外,本研究还丰富了我们对大豆helitron转座子结构和功能的认识。本研究的结果表明:大豆基因组中HGm1转座子符合helitron的基本特征,如3′端具有发夹结构;通常以CTRR结尾;一般插入到AT碱基中间。除符合一般helitron的特征外,还发现HGm1家族具有以下特点:1)经常插入到AT以外的碱基中间;2)频繁地捕获完整的非转座相关的功能基因(154个);3)组织特异性表达(主要在种子中)和选择性的胁迫条件(干旱胁迫和组织培养)下表达。这些特点将有助于我们加深对植物基因组中helitron的了解,对于后续开展功能基因的研究也有很好的借鉴作用。需要指出的是,与反转录转座子不同,DNA转座子的转座不需要以RNA为媒介,是直接从DNA 到DNA的过程。本研究中检测到很多HGm1 helitron拷贝与EST序列相匹配,这些匹配的EST序列可能来自于:1) helitron转座酶本身的表达产物;2)携带基因片段的转录本;3)携带的来自于反转录转座子(或部分片段)转录的产物。其具体的转录机制还有待于进一步研究。
本研究中,我们主要应用生物信息学的方法,对大豆基因组中HGm1 helitron家族进行了系统的鉴定和分析。尽管我们综合了基于结构特征从头寻找的软件HelSearch[14]和HelitronScanner[15],基于同源搜索的方法BLAST[16]和Cross_match以及人工校对的方法等,但这些方法都是基于现有的生物信息学工具和基因组序列基础上的,预测的准确性和完整性还有待于后续试验的进一步验证,部分缺失的HGm1成员对于大豆基因和基因组的影响也还有待于后续进一步评估。相信随着测序技术的不断进步,基因组组装质量将不断提高,更多更好的生物信息学工具也将被开发出来,有关转座子方面的研究和应用也将在不久的将来取得更大的进展。
| [1] | Feschotte C,Jiang N,Wessler S R. Plant transposable elements:where genetics meets genomic[J]. Nat Rev Genet,2002,3(5):329-341. |
| [2] | Wicker T,Sabot F,Hua-Van A,et al. A unified classification system for eukaryotic transposable elements[J]. Nat Rev Genet,2007,8(12):973-982. |
| [3] | Bennetzen J L. Transposable element contributions to plant gene and genome evolution[J]. Plant Molecular Biology,2000,42(1):251-269. |
| [4] | 孙俊,房经贵,王飞,等. 苹果Ty1-copia类逆转座子LTR10序列及其在苹果属植物中的遗传多样性分析[J]. 南京农业大学学报,2010,33(1):43-48.DOI:10.7685/j.issn.1000-2030.2010.01.009. Sun J,Fang J G,Wang F,et al. Analysis on the sequence of Ty1-copia retrotransposon LTR10 and its genetic diversity in Malus genus[J]. Journal of Nanjing Agricultural University,2010,33(1):43-48(in Chinese with English abstract). |
| [5] | 彭珍,徐珍珍,刘静,等. 高等植物helitron转座子的研究进展[J]. 西北植物学报,2015,35(12):2558-2566. Peng Z,Xu Z Z,Liu J,et al. Research progress on helitron transposable elements in high plants[J]. Acta Bot Boreal-Occident Sin,2015,35(12):2558-2566(in Chinese with English abstract). |
| [6] | Kapitonov V V,Jurka J. Rolling-circle transposons in eukaryotes[J]. Proc Natl Acad Sci USA,2001,98(15):8714-8719. |
| [7] | Feschotte C,Wessler S R. Treasures in the attic:rolling circle transposons discovered in eukaryotic genomes[J]. Proc Natl Acad Sci USA,2001,98(16):8923-8924. |
| [8] | Morgante M,Brunner S,Pea G,et al. Gene duplication and exon shuffling by helitron-like transposons generate intraspecies diversity in maize[J]. Nature Genetics,2005,37(9):997-1002. |
| [9] | Yang L,Bennetzen J L. Distribution,diversity,evolution,and survival of helitrons in the maize genome[J]. Proc Natl Acad Sci USA,2009,106(47):19922-19927. |
| [10] | Lal S K,Giroux M J,Brendel V,et al. The maize genome contains a helitron insertion[J]. Plant Cell,2003,15(2):381-391. |
| [11] | Gupta S,Gallavotti A,Stryker G A,et al. A novel class of helitron-related transposable elements in maize contain portions of multiple pseudogenes[J]. Plant Mol Biol,2005,57(1):115-127. |
| [12] | Schmutz J,Cannon S B,Schlueter J,et al. Genome sequence of the palaeopolyploid soybean[J]. Nature,2010,463(7278):178-183. |
| [13] | Du J,Grant D,Tian Z,et al. SoyTEdb:a comprehensive database of transposable elements in the soybean genome[J]. BMC Genomics,2010,11:113. |
| [14] | Yang L,Bennetzen J L. Structure-based discovery and description of plant and animal helitrons[J]. Proc Natl Acad Sci USA,2009,106(31):12832-12837. |
| [15] | Xiong W,He L,Lai J,et al. HelitronScanner uncovers a large overlooked cache of helitron transposons in many plant genomes[J]. Proc Natl Acad Sci USA,2014,111(28):10263-10268. |
| [16] | Altschul S F,Madden T L,Schaffer A A,et al. Gapped BLAST and PSI-BLAST:a new generation of protein database search programs[J]. Nucleic Acids Research,1997,25(17):3389-3402. |
| [17] | Smit A F,Hubley R,Green P. RepeatMasker Open-4.0.5[EB/OL].(2014-01-31)[2015-10-12]. http://www.repeatmasker.org. |
| [18] | Crooks G E,Hon G,Chandonia J M,et al. WebLogo:a sequence logo generator[J]. Genome Research,2004,14(6):1188-1190. |
| [19] | da Maia L C,Palmieri D A,de Souza V Q,et al. SSR Locator:tool for simple sequence repeat discovery integrated with primer design and PCR simulation[J]. International Journal of Plant Genomics,2008,2008:412696. |
| [20] | Benson G. Tandem repeats finder:a program to analyze DNA sequences[J]. Nucleic Acids Research,1999,27(2):573-580. |
| [21] | Du Z,Zhou X,Ling Y,et al. AgriGO:a GO analysis toolkit for the agricultural community[J]. Nucleic Acids Research,2010,38(Web Server issue):W64-W70. |
| [22] | Conesa A,G tz S,Garía-Gómez J M,et al. Blast2GO:a universal tool for annotation,visualization and analysis in functional genomics research[J]. Bioinformatics,2005,21(18):3674-3676. |
| [23] | SanMiguel P,Tikhonov A,Jin Y K,et al. Nested retrotransposons in the intergenic regions of the maize genome[J]. Science,1996,274(5288):765-768. |
| [24] | Du J C,Tian Z X,Hans C S,et al. Evolutionary conservation,diversity and specificity of LTR-retrotransposons in flowering plants:insights from genome-wide analysis and multi-specific comparison[J]. The Plant Journal,2010,63:584-598. |
| [25] | Xu Y X,Du J C. Young but not relatively old retrotransposons are preferentially located in gene-rich euchromatic regions in tomato(Solanum lycopersicum)plants[J]. The Plant Journal,2014,80(4):582-591. |


