林业科学  2011, Vol. 47 Issue (2): 161-163   PDF    
0

文章信息

陈英, 江香梅, 张露, 张新叶, 项东云, 温强, 江聪, 王光萍, 黄敏仁, 徐立安
Chen Ying, Jiang Xiangmei, Zhang Lu, Zhang Xinye, Xiang Dongyun, Wen Qiang, Jiang Cong, Wang Guangping, Huang Minren, Xu Li'an
基于油茶组59万条EST序列的转录组学初步分析
Transcriptome Characterization for Camellia Sect. Oleifera Based on the 592 499 ESTs
林业科学, 2011, 47(2): 161-163.
Scientia Silvae Sinicae, 2011, 47(2): 161-163.

文章历史

收稿日期:2010-10-22
修回日期:2010-11-24

作者相关文章

陈英
江香梅
张露
张新叶
项东云
温强
江聪
王光萍
黄敏仁
徐立安

基于油茶组59万条EST序列的转录组学初步分析
陈英1, 江香梅2, 张露3, 张新叶4, 项东云5, 温强1,2, 江聪1, 王光萍1, 黄敏仁1, 徐立安1    
1. 南京林业大学 南京 210037;
2. 江西省林业科学院 南昌 330032;
3. 江西农业大学 南昌 330045;
4. 湖北省林业科学研究院 武汉 430079;
5. 广西林业科学研究院 南宁 530002
关键词:油茶    转录组    454 GS FLX    表达序列标签    
Transcriptome Characterization for Camellia Sect. Oleifera Based on the 592 499 ESTs
Chen Ying1, Jiang Xiangmei2, Zhang Lu3, Zhang Xinye4, Xiang Dongyun5, Wen Qiang1,2, Jiang Cong1, Wang Guangping1, Huang Minren1, Xu Li'an1    
1. Nanjing Forestry University Nanjing 210037;
2. Jiangxi Academy of Forestry Nanchang 330032;
3. Jiangxi Agricultural University Nanchang 330045;
4. Hubei Academy of Forestry Wuhan 430079;
5. Guangxi Academy of Forestry Nanning 530002
Abstract: To investigate gene diversity and expression pattern in Camellia Sect. Oleifera, 454 GS FLX platform and Titanium regent were used to produce expressed sequence tags (ESTs) from flower buds of 3 Camellia species. A total of 5 920 499 ESTs were generated. Clustering those sequences twice by Cap3 produced 15 733 contigs and 20 606 singlets in C. oleifera, 19 397 contigs and 26 882 singlets in C. chekiangoleosa, 14 779 contigs and 25 389 singlets in C. brevistyla. The GC gradients in 3 transcriptomes basically followed a normal distribution. In additional all contigs and singlets were functionally categorized into GO(Gene Ontology) categories respectively.
Key words: Camellia    transcriptome    454 GS FLX    expressed sequence tags    

油茶组(Camellia Sect. Oleifera)植物是我国特有的木本油料植物,主要分布全国14个省(区),种植面积达300万hm2。茶油为油茶组多个树种种仁油的统称,其中以油茶(Camellia oleifera)最为常见,其次是浙江红山茶(C.chekiangoleosa)和短柱茶(C.brevistyla)等。茶油是优质食用植物油,富含油酸、亚油酸等不饱和脂肪酸,且易消化耐贮藏(何方等,2004)。大幅提高茶油在食用油供给中的比例,可以缓解我国日益紧张的食用油供给矛盾。此外油茶最显著的一个特点,它不与农作物争地,从而大大减缓国家耕地资源短缺的压力。

常规育种与分子生物学相结合是林木遗传改良的必由之路。油茶的产量、品质、抗逆等重要性状遗传变异规律有待从群体、个体、细胞、分子水平上系统深入地研究。但是油茶的遗传改良研究与杨树等树种相比,则相对滞后。其重要原因之一:油茶的基础研究薄弱,对油茶的研究集中在选优栽培方面,分子水平的研究主要在种质资源的RAPD分析,而对该物种的遗传背景知之甚少,亟待加强(黄永芳等,2006温强等,2008)。

表达序列标签(expressed sequence tags,ESTs)即为转录的DNA序列,通过对cDNA的3′或5′端进行单向测序得到EST序列,具有经济和高效的特点,已成为基因组研究与寻找新基因的重要手段(Huminiecki et al., 2000Schuler,1997)。本研究分别以油茶、浙江红山茶和短柱茶花芽为材料,采用新一代高通量的454焦磷酸测序仪,获得了大量的EST序列,并初步进行了生物信息学分析,将为了解油茶基因表达模式,进行油茶生长、发育、脂肪酸代谢、抗性等关键基因及其调控机制的研究,以及进一步进行油茶重要性状改良和品种选育提供基础。

1 材料与方法 1.1 材料

于2009年11月,从江西省林业科学研究院油茶采穗圃分别采集油茶、浙江红山茶及短柱茶花芽,用液氮冷冻, -80 ℃保存备用。

1.2 研究方法

1) 总RNA提取和cDNA反转录 总RNA提取参照Xu等(2009)的方法。以1 μg总RNA为模板,采用SMARTTM PCR cDNA Synthesis kit (Clontech)反转录合成cDNA,然后采用PCR Advantage Ⅱ polymerase (Clontech)对cDNA进行扩增,扩增条件为95 ℃1 min;94 ℃15 s,65 ℃30 s,68 ℃3 min,18个循环。最后采用PureLinkTM PCR Purification kit (Invitrogen)去除体系中小于300 bp的片段。

2) 454文库构建和测序 应用高通量测序平台454 GS FLX Titanium对cDNA样品测序。5 μg双链cDNA打断为300~800 bp的片段后,两端添加特异性衔接子A和B,变性为单链连接到磁珠上,经Emulsion PCR富集后,置于PicoTiterPlate板上,上机测序(Margulies et al., 2005)。

3) 序列处理与拼接 原始序列采用SeqClean和Lucy软件去掉文库制备及测序过程中所用的接头序列、低复杂度序列、头尾低质量区域,以及最终长度小于100 bp的序列。将得到的序列进行2次cap3拼接,第1次控制质量分数cutoff为15,第2次控制相似性在95%以上。GC含量(GC gradient)分析窗口移动值为51 bp。

4) 功能注释 根据TAIR9注释所含Gene Ontology (GO)信息,对序列(按分子功能、细胞组分、生物学过程)进行分类(Berardini et al., 2004)。

2 结果与分析 2.1 454测序和EST序列拼接

采用454 GS FLX高通量测序仪,油茶、浙江红山茶和短柱茶各1/4个测序反应分别获得了217 996, 219 906和154 597条EST序列,总计592 499条。3个种的EST序列长度为150~600 bp(图 1)。3个树种的EST长度在400~500 bp均具有高的频率分布,油茶有68%以上的EST序列长度达350 bp以上,而浙江红山茶和短柱茶EST序列长度在350 bp以上的均占73%以上,因此获得的EST序列质量较高。

图 1 有效读序长度分布 Figure 1 The distribution of trimmed reads length

将得到的高质量序列进行2次cap3拼接,第1次控制质量分数cutoff为15,第2次控制相似性在95%以上(表 1)。油茶、浙江红山茶和短柱茶的Contig总长分别达7 360 906,9 418 520和7 793 169 bp,基因组平均覆盖度分别达到10.31,8.44和7.22倍,中位Contig长度分别为487,504和542 bp。

表 1 有效reads序列拼接结果 Tab.1 The assemble results of trimmed reads
2.2 ESTs序列GC含量分布

GC含量是基因组DNA序列碱基组成的重要特征,蕴涵基因结构、功能和进化信息。已经有很多研究观察到人类基因组GC含量的不均匀性和长程变化,GC含量的不均匀性导致基因组不同GC含量的长片段性质和功能的差异(陈祥贵等,2008)。

为了了解油茶转录组中GC含量,采用GC含量分析窗口移动值为51 bp,计算该51 bp片段中GC数目(图 2)。统计结果表明:3个转录组的GC含量基本呈正态分布,这与单子叶植物长筒石蒜(Lycoris longituba)花苞EST中GC含量分布有所不同,长筒石蒜花苞的GC含量虽也基本呈正态分布,但略微向左倾斜(Cui et al., 2004)。

图 2 重叠群和单一序列GC含量分布 Figure 2 The distribution of GC basepair number in contigs and singlets
2.3 转录组基因注释

将各物种的contig和singlet序列根据TAIR9注释所含Gene Ontology (GO)信息,对序列(按分子功能、细胞组分、生物学过程)进行分类(Berardini et al., 2004)。油茶contig中有1 720条归入分子功能(molecular function),1 306条归入细胞组分(cellular component),1 632条归入生物学过程(biological process)。浙江红山茶contig中有1 937条归入分子功能,1 514条归入细胞组分,1 876条归入生物学过程。短柱茶contig中有1 743条归入分子功能,1 383条归入细胞组分,1 719条归入生物学过程(图 3)。

图 3 重叠群和单一序列GO分类 Figure 3 The contigs and singlets functionally categorized into GO categories

油茶singlets中有1 184条归入分子功能,844条归入细胞组分,1 119条归入生物学过程。浙江红山茶singlets中有1 249条归入分子功能,898条归入细胞组分,1 184条归入生物学过程。短柱茶singlets中有1 487条归入分子功能,1 118条归入细胞组分,1 445条归入生物学过程(图 3)。

3 结论与讨论

油茶基因组研究相对比较薄弱,本研究通过采用454 GS FLX Titanium高通量测序仪对油茶、浙江红山茶、短柱茶花芽的转录组进行了测序,获得了大量的表达序列标签(EST序列),达570 049条,且序列质量较高,平均70%以上序列长度超过350 bp。将得到的高质量序列进行2次cap3拼接,油茶获得contig15 733条,singlet 20 606条;浙江红山茶获得contig19 397条,singlet26 882条;短柱茶获得contig14 779条,singlet25 389条。

与传统测序相比,454高通量测序的长度与传统测序的读长相当,完全可以满足转录组测序的要求,且454测序还具有速度快、通量高、成本低的优点,是高通量发现油茶功能基因的更为有效手段。谭晓风等(2006)以油茶优良无性系湘林1号和湘林4号近成熟种子为材料构建cDNA文库,随机挑取2 327个克隆进行3′端测序,获得了1 979条数据完整无N、X且序列长于200 bp的EST序列。本研究3/4个测序反应最终获得了570 049条EST序列。此外,在测油茶转录组的同时,另外1/4个反应也测定了油茶的基因组序列,共获得176 731条序列,用454测序仪自带的Newbler软件进行处理和拼接,得到9 438个contig,其中1 379个contig长度大于500 bp(large contig),89 318个singlet,序列总长30 773 610 bp。因而,本研究结果可为油茶重要性状基因解析,发掘油茶生长、发育、抗性等关键基因,阐述基因型与表型的关联性,性状改良和品种选育提供理论基础。

参考文献(References)
陈祥贵, 胡军, 杨潇, 等. 2008. 人类蛋白编码基因局部GC水平相关性分析[J]. 遗传, 30(9): 1169-1174.
黄永芳, 陈锡沐, 庄雪影, 等. 2006. 油茶种质资源遗传多样性分析[J]. 林业科学, 42(4): 38-43.
温强, 雷小林, 叶金山, 等. 2008. 油茶高产无性系的ISSR分子鉴别[J]. 中南林业科技大学学报, 28(1): 39-43.
谭晓风, 胡芳名, 谢禄山, 等. 2006. 油茶种子EST文库构建及主要表达基因的分析[J]. 林业科学, 42(1): 43-48.
Berardini T Z, Mundodi S, Reiser L, et al. 2004. Functional annotation of the Arabidopsis genome using controlled vocabularies[J]. Plant Physiol, 135(2): 745-755. DOI:10.1104/pp.104.040071
Cui Y L, Zhang X Y, Zhou Y, et al. 2004. Identification and expression analysis of EST-based genes in the bud of Lycoris longituba[J]. Genomics Proteomics & Bioinformatics, 2(1): 43-46.
Huminiecki L, Bicknell R. 2000. In silico cloning of novel endothelial-specific genes[J]. Genome Research, 10(4): 796-806.
Margulies M, Egholm M, Altman W E, et al. 2005. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 437(7057): 376-380. DOI:10.1038/nature03959
Schuler G D. 1997. Pieces of the puzzle:expressed sequence tags and the catalog of human genes[J]. Journal of Molecular Medicine, 75(10): 694-698. DOI:10.1007/s001090050155
Xu M, Zang B, Yao H S, et al. 2009. Isolation of high quality RNA and molecular manipulations with various tissues of Populus[J]. Russian Journal of Plant Physiology, 56(5): 716-719. DOI:10.1134/S1021443709050197