Bioinformatics and expression analysis of the intronless genes of grape genome
真核生物中的基因一般由外显子与内含子两部分构成, 根据内含子的有无又分为有内含子基因与无内含子基因。一般认为, 内含子数与真核生物基因组的复杂程度有着很大的联系, 越复杂的生物体其体内内含子数就越多[1]。大部分真核生物的基因多含有2个或2个以上的内含子, 而原核生物才具有大量的无内含子基因[2]。无内含子基因未被内含子所间隔, 能够连续编码成蛋白质。内含子有利于物种进化, 可增加基因的长度, 提高基因间的重组频率, 且具有调控作用等[3], 而无内含子基因对于物种进化、重组等均无优势。研究表明在胁迫作用下快速应答的基因更趋向于没有内含子的基因, 无内含子基因可以延缓调节反应, 快速调节整个生长发育过程[4-5]。另外, 真核生物无内含子基因作为一种结构简单的基因, 可以作为对照基因来研究多外显子基因的进化机制。研究表明真核生物中无内含子基因所占基因组的比例为2.7%~97.7%, 目前在人、小鼠、大鼠、水稻、拟南芥以及玉米等物种上已有无内含子基因的相关报道[6-9]。在植物中对全基因组水平的无内含子基因的相关研究较少, 而大基因家族无内含子基因的研究相对多一些, 例如F-box蛋白、DEAD box RNA解旋酶、拟南芥中含有蛋白质的五肽多肽重复序列(PPR)的无内含子基因, 水稻早期生长素反应性SAUR(小生长素上调RNA)基因家族的58个成员均为无内含子基因[10-14]。近年来, 葡萄基因组测序的完成为葡萄基因组学的研究提供了更加全面的思路和条件[15-17], 但关于葡萄无内含子基因的结构以及功能分析却鲜有报道。
本文结合前人的研究, 对葡萄全基因组无内含子基因数、长度、亚细胞结构、GO功能类型以及其在不同组织的表达情况进行研究。这些数据不仅有利于葡萄基因组进化机制的研究, 而且对葡萄无内含子基因及多外显子基因的进化机制研究提供了数据来源和试验依据。
1 材料与方法
1.1 数据的来源
本研究所用的19条葡萄染色体的注释基因和蛋白质序列均从葡萄基因组网站(http://www.genoscope.cns.fr/externe/GenomeBrowser/Vitis/)上下载。葡萄芯片数据来源于NCBI的GEO数据库, 芯片编号为GSE36128。葡萄芯片数据包括53个葡萄样品, 覆盖了不同阶段的大部分葡萄组织或器官[18]。进一步将下载的数据利用UltraEdi、OriginLab以及Excel 2006等软件提取出无内含子的基因。所提取的无内含子基因是从下载的葡萄基因组注释文件里筛选出的只含1行“exon”的基因。
1.2 无内含子基因结构特征分析
利用Excel 2006软件对葡萄19条染色体的长度、基因数以及所筛选出的无内含子基因数和长度进行整理分析。其中根据无内含子基因数以及长度的分布情况建立起相应的数据透视表并将数据利用HemI绘图。同时使用Gene Structure Display Server(http://gsds.cbi.pku.edu.cn/)工具将随机挑选的20条有内含子与无内含子基因结构绘图。
1.3 无内含子基因的功能预测
通过在线预测蛋白质功能分类的工具ProtFun(http://www.cbs.dtu.dk/services/ProtFun/)进行葡萄无内含子基因的蛋白质功能预测。对葡萄无内含子基因序列进行分析, 选出在“Gene Ontology Category”(GO分类)下最大概率值时所指示的注释信息。
1.4 无内含子基因的亚细胞定位预测
利用在线工具基于蛋白质N端分选信号的预测软件TargetP(http://www.cbs.dtu.dk/--services/TargetP/)对葡萄无内含子基因进行亚细胞定位预测。
1.5 无内含子基因在不同组织中的表达分析
将葡萄基因库中所有的无内含子基因和有内含子基因按照不同染色体取平均值, 比较2类基因在不同组织中的表达差异, 并采用HemI软件进行热图的绘制。
2 结果与分析
2.1 葡萄无内含子基因在基因组中的分布
2.1.1 葡萄无内含子基因分布
本研究共鉴定出4 906个葡萄无内含子基因, 分布在19条染色体上, 占整个基因组的13.8%(表 1)。每条染色体上平均有258个无内含子基因, 不同染色体的无内含子基因数有差异。其中Chr17上无内含子基因数最少, 为142, Chr18上最多, 为393。无内含子基因数随不同染色体上基因数的增加而增加。无内含子基因数与染色体长度及染色体上的总基因数成正比。另外, 不同染色体上无内含子基因的平均长度基本一致。葡萄每个基因(包括无内含子基因)的平均长度约为5 319 bp, 无内含子基因的平均长度仅为977 bp。葡萄全基因组中总基因的平均长度约为无内含子基因平均长度的5.4倍, 说明无内含子的基因长度较短。每条染色体上的无内含子基因数与该染色体的长度呈正相关关系(y=0.045 5x+10.676, R2=0.687 6)。每条染色体上的无内含子基因数与该染色体上总基因数也呈正相关关系(y=44.544x+7 270.4, R2=0.518 5)。染色体上无内含子基因与该染色体总基因数的比值大多都集中在1.2%~1.5%, 但在Chr17和Chr3上两者的比值差异较大, 分别为0.9%和1.9%。
表 1 葡萄无内含子基因在染色体上的数量、长度以及不同区段无内含子基因数的分布
Table 1
The number, length and the distribution in different sections of the intronless genes on the chromosome
编号 Code |
染色体长度/Mb Chromosome length |
基因数 Genes number |
无内含子基因数 Intronless gene number |
无内含子基因数占总基因数的比例/% Ratio of intronless gene number to genes number |
无内含子基因数集中区段占无内含子基因总数的比例/% Ratio of focus on the segments of intronless gene number to total intronless gene number |
无内含子基因数最多的区段占无内含子基因总数的比例/% Ratio of the most of segment of intronless gene number to total intronless gene number |
无内含子基因平均长度/bp Average length of intronless genes |
基因平均长度/bp Average length of genes |
Chr1 |
23.04 |
21 203 |
264 |
1.25 |
66.7 |
9.0 |
995.84 |
5 218.15 |
Chr2 |
18.78 |
14 361 |
199 |
1.39 |
59.3 |
11.1 |
964.78 |
4 995.67 |
Chr3 |
19.34 |
15 376 |
293 |
1.91 |
60.3 |
12.3 |
1006.55 |
4 518.83 |
Chr4 |
23.87 |
21 500 |
236 |
1.11 |
59.7 |
8.9 |
928.61 |
5 735.43 |
Chr5 |
25.02 |
20 996 |
302 |
1.44 |
75.2 |
10.9 |
944.89 |
5 471.19 |
Chr6 |
21.51 |
20 062 |
235 |
1.17 |
69.4 |
9.4 |
1 003.91 |
5 842.57 |
Chr7 |
21.03 |
20 919 |
267 |
1.28 |
69.7 |
13.1 |
1 037.37 |
5 188.89 |
Chr8 |
22.39 |
22 998 |
284 |
1.23 |
77.5 |
8.5 |
1 088.94 |
5 357.88 |
Chr9 |
23.01 |
17 078 |
256 |
1.50 |
71.9 |
7.8 |
977.84 |
4 925.07 |
Chr10 |
18.14 |
12 553 |
158 |
1.26 |
32.9 |
15.2 |
990.63 |
5 696.96 |
Chr11 |
19.82 |
17 048 |
172 |
1.01 |
36.1 |
11.1 |
897.15 |
5 944.53 |
Chr12 |
22.70 |
19 479 |
291 |
1.49 |
68.3 |
8.7 |
969.83 |
5 197.42 |
Chr13 |
24.40 |
19 479 |
281 |
1.44 |
58.0 |
10.7 |
952.86 |
5 708.99 |
Chr14 |
30.27 |
24 749 |
348 |
1.41 |
58.9 |
8.9 |
1 007.29 |
5 370.04 |
Chr15 |
20.30 |
14 127 |
250 |
1.77 |
59.6 |
10.4 |
850.39 |
5 166.72 |
Chr16 |
22.05 |
15 001 |
275 |
1.83 |
36.7 |
9.1 |
937.84 |
4 749.34 |
Chr17 |
17.13 |
15 704 |
142 |
0.91 |
72.5 |
9.9 |
1 134.88 |
5 938.82 |
Chr18 |
29.36 |
26 739 |
393 |
1.47 |
62.8 |
8.4 |
966.23 |
5 013.02 |
Chr19 |
24.02 |
17 300 |
244 |
1.41 |
77.7 |
10.7 |
900.69 |
5 026.58 |
2.1.2 葡萄染色体上不同区段无内含子基因分布
由图 1可见:葡萄19条染色体中无内含子基因的分布具有一定的差异性。在Chr1、Chr2、Chr5、Chr7、Chr9、Chr19上的无内含子基因主要集中在染色体的中上端与下端, 在Chr3、Chr4、Chr10、Chr11、Chr13上主要集中在上端, 在Chr6、Chr12、Chr18上主要分布在中上端, 在Chr8、Chr15、Chr16、Chr17上主要分布在染色体的中下端, 在Chr14上主要集中在下端。其中, 有16条染色体的无内含子基因最多的区段数占整条染色体无内含子数的58%以上(表 1), 说明这16条染色体的无内含子分布较为集中。另外3条染色体Chr10、Chr11和Chr13中的无内含子集中区段占该染色体无内含子数的比例较低, 说明这3条染色体上的无内含子分布比较分散。无内含子数最多的区段占该染色体无内含子数的比例均分布在7.8%~15.2%, 其中以8%~10%的情况最多。总体上葡萄无内含子基因更趋向于集在染色体的端部, 且上端分布较下端多。
在葡萄19条染色体中, Chr7、Chr8、Chr12、Chr14和Chr17的无内含子基因较长, Chr1与Chr19的无内含子基因大多数较短。按照染色体不同区段无内含子基因的长短将不同染色体进行分类, 其中属于中端小、两端大的染色体有:Chr3、Chr4、Chr6、Chr7、Chr12、Chr13和Chr14;属于上端大、下端小的染色体有:Chr1、Chr9、Chr10、Chr11、Chr17和Chr18;属于上端小、下端大的染色体有:Chr15和Chr16;属于中下端小的染色体有Chr2和Chr19(图 2)。
2.2 葡萄无内含子基因结构特征分析
葡萄染色体上的无内含子基因长度主要分布在150~900 bp, 其中长度为600~750 bp的无内含子基因数最多。小于900 bp的无内含子基因占总无内含子基因的58%, 而小于1 800 bp的无内含子基因占总无内含子基因的87%, 说明大多数无内含子基因长度都小于1 800 bp。而长度大于3 000 bp的无内含子基因仅占1.6%(图 3和图 4)。
2.3 葡萄无内含子基因的功能分析
对葡萄无内含子基因在3个不同亚细胞结构中的分布以及这些基因编码产物的13个不同GO功能进行分类, 结果(图 5)显示, 葡萄无内含子基因在叶绿体中所占的比例相对较多, 为21.31%, 信号肽中占18.59%, 线粒体中仅为0.27%;另外59.83%的基因在其他部位上, 说明参与光合的无内含子基因较多。根据预测基因编码产物的GO功能, 可知葡萄无内含子基因被归属于生长因子的蛋白所占比例最多(25.76%), 其次为转录调控蛋白(13.99%), 电压门控离子通道蛋白(10.39%)以及结构蛋白(9.24%)。而被归属于阳离子通道的蛋白比例最少(0.06%)。
2.4 葡萄无内含子基因在不同组织中的表达
通过葡萄基因芯片平台, 对不同染色体上所有含有内含子基因与无内含子基因表达的芯片数据进行分析并取平均值。从图 6可以看出:无内含子基因的信号强度比有内含子基因的弱。这说明相对于葡萄基因组中的其他基因, 无内含子基因大部分都具有较低的表达水平(图 6)。
3 讨论
无内含子基因是与基因序列间断的基因相对应的另一种基因, 它们不被内含子隔开, 能够连续编码为蛋白质。随着生物信息学与基因组学的快速发展, 人们对于无内含子基因的研究也越来越多。在真核生物中无内含子基因占全部基因的2.7%~97.7%[6]。迄今为止已经鉴定出了部分植物及部分脊椎动物的无内含子基因[7, 19-21]。另外对于无内含子基因的功能以及进化也已有研究, 如Sakharkar等[19]研究了小鼠与大鼠基因组进化过程中无内含子基因的功能; Yan等[22]在禾本科植物无内含子基因数据库PIGD上更新了无内含子基因的数据库。
本试验中, 以葡萄19条染色体上4 906个无内含子基因为材料。将葡萄无内含子基因在不同染色体上的分布进行比较, 发现无内含子基因更趋向位于染色体的两端, 这与Yan等[9]对玉米无内含子基因的研究结果相一致。本研究中, 对葡萄无内含子基因的GO分析发现, 它们主要为生长因子、转录调控、电压门控离子通道及结构相关蛋白, 这与Sang等[4]和Jain等[5]的研究结果相一致。本研究发现, 无内含子基因长度与有内含子基因的长度相差很大, 说明外显子长度被限制在比内含子长度更短的范围内, 这与Deutsh等[23]的研究结果一致。通过葡萄基因芯片平台, 对不同染色体上的所有含有内含子的基因与无内含子的基因表达的芯片数据进行分析, 结果表明无内含子基因的信号强度比含有内含子基因的弱。这说明葡萄基因组中无内含子基因大部分都具有较低的表达水平。我们推断这可能是由于无内含子基因结构较为简单, 基因较为古老造成的。这与在水稻和拟南芥中无内含子基因的研究结果相一致[5]。
本研究通过基因组学和生物信息学研究了葡萄无内含子的基因结构、序列特征和功能, 并对及其进化进行分析, 为今后更加深入了解葡萄基因组奠定基础, 也为葡萄生物信息学研究提供了新途径。