
文章信息
- 陈英, 江香梅, 张露, 张新叶, 项东云, 温强, 江聪, 王光萍, 黄敏仁, 徐立安
- Chen Ying, Jiang Xiangmei, Zhang Lu, Zhang Xinye, Xiang Dongyun, Wen Qiang, Jiang Cong, Wang Guangping, Huang Minren, Xu Li'an
- 基于油茶组59万条EST序列的转录组学初步分析
- Transcriptome Characterization for Camellia Sect. Oleifera Based on the 592 499 ESTs
- 林业科学, 2011, 47(2): 161-163.
- Scientia Silvae Sinicae, 2011, 47(2): 161-163.
-
文章历史
- 收稿日期:2010-10-22
- 修回日期:2010-11-24
-
作者相关文章
2. 江西省林业科学院 南昌 330032;
3. 江西农业大学 南昌 330045;
4. 湖北省林业科学研究院 武汉 430079;
5. 广西林业科学研究院 南宁 530002
2. Jiangxi Academy of Forestry Nanchang 330032;
3. Jiangxi Agricultural University Nanchang 330045;
4. Hubei Academy of Forestry Wuhan 430079;
5. Guangxi Academy of Forestry Nanning 530002
油茶组(Camellia Sect. Oleifera)植物是我国特有的木本油料植物,主要分布全国14个省(区),种植面积达300万hm2。茶油为油茶组多个树种种仁油的统称,其中以油茶(Camellia oleifera)最为常见,其次是浙江红山茶(C.chekiangoleosa)和短柱茶(C.brevistyla)等。茶油是优质食用植物油,富含油酸、亚油酸等不饱和脂肪酸,且易消化耐贮藏(何方等,2004)。大幅提高茶油在食用油供给中的比例,可以缓解我国日益紧张的食用油供给矛盾。此外油茶最显著的一个特点,它不与农作物争地,从而大大减缓国家耕地资源短缺的压力。
常规育种与分子生物学相结合是林木遗传改良的必由之路。油茶的产量、品质、抗逆等重要性状遗传变异规律有待从群体、个体、细胞、分子水平上系统深入地研究。但是油茶的遗传改良研究与杨树等树种相比,则相对滞后。其重要原因之一:油茶的基础研究薄弱,对油茶的研究集中在选优栽培方面,分子水平的研究主要在种质资源的RAPD分析,而对该物种的遗传背景知之甚少,亟待加强(黄永芳等,2006;温强等,2008)。
表达序列标签(expressed sequence tags,ESTs)即为转录的DNA序列,通过对cDNA的3′或5′端进行单向测序得到EST序列,具有经济和高效的特点,已成为基因组研究与寻找新基因的重要手段(Huminiecki et al., 2000;Schuler,1997)。本研究分别以油茶、浙江红山茶和短柱茶花芽为材料,采用新一代高通量的454焦磷酸测序仪,获得了大量的EST序列,并初步进行了生物信息学分析,将为了解油茶基因表达模式,进行油茶生长、发育、脂肪酸代谢、抗性等关键基因及其调控机制的研究,以及进一步进行油茶重要性状改良和品种选育提供基础。
1 材料与方法 1.1 材料于2009年11月,从江西省林业科学研究院油茶采穗圃分别采集油茶、浙江红山茶及短柱茶花芽,用液氮冷冻, -80 ℃保存备用。
1.2 研究方法1) 总RNA提取和cDNA反转录 总RNA提取参照Xu等(2009)的方法。以1 μg总RNA为模板,采用SMARTTM PCR cDNA Synthesis kit (Clontech)反转录合成cDNA,然后采用PCR Advantage Ⅱ polymerase (Clontech)对cDNA进行扩增,扩增条件为95 ℃1 min;94 ℃15 s,65 ℃30 s,68 ℃3 min,18个循环。最后采用PureLinkTM PCR Purification kit (Invitrogen)去除体系中小于300 bp的片段。
2) 454文库构建和测序 应用高通量测序平台454 GS FLX Titanium对cDNA样品测序。5 μg双链cDNA打断为300~800 bp的片段后,两端添加特异性衔接子A和B,变性为单链连接到磁珠上,经Emulsion PCR富集后,置于PicoTiterPlate板上,上机测序(Margulies et al., 2005)。
3) 序列处理与拼接 原始序列采用SeqClean和Lucy软件去掉文库制备及测序过程中所用的接头序列、低复杂度序列、头尾低质量区域,以及最终长度小于100 bp的序列。将得到的序列进行2次cap3拼接,第1次控制质量分数cutoff为15,第2次控制相似性在95%以上。GC含量(GC gradient)分析窗口移动值为51 bp。
4) 功能注释 根据TAIR9注释所含Gene Ontology (GO)信息,对序列(按分子功能、细胞组分、生物学过程)进行分类(Berardini et al., 2004)。
2 结果与分析 2.1 454测序和EST序列拼接采用454 GS FLX高通量测序仪,油茶、浙江红山茶和短柱茶各1/4个测序反应分别获得了217 996, 219 906和154 597条EST序列,总计592 499条。3个种的EST序列长度为150~600 bp(图 1)。3个树种的EST长度在400~500 bp均具有高的频率分布,油茶有68%以上的EST序列长度达350 bp以上,而浙江红山茶和短柱茶EST序列长度在350 bp以上的均占73%以上,因此获得的EST序列质量较高。
![]() |
图 1 有效读序长度分布 Figure 1 The distribution of trimmed reads length |
将得到的高质量序列进行2次cap3拼接,第1次控制质量分数cutoff为15,第2次控制相似性在95%以上(表 1)。油茶、浙江红山茶和短柱茶的Contig总长分别达7 360 906,9 418 520和7 793 169 bp,基因组平均覆盖度分别达到10.31,8.44和7.22倍,中位Contig长度分别为487,504和542 bp。
![]() |
GC含量是基因组DNA序列碱基组成的重要特征,蕴涵基因结构、功能和进化信息。已经有很多研究观察到人类基因组GC含量的不均匀性和长程变化,GC含量的不均匀性导致基因组不同GC含量的长片段性质和功能的差异(陈祥贵等,2008)。
为了了解油茶转录组中GC含量,采用GC含量分析窗口移动值为51 bp,计算该51 bp片段中GC数目(图 2)。统计结果表明:3个转录组的GC含量基本呈正态分布,这与单子叶植物长筒石蒜(Lycoris longituba)花苞EST中GC含量分布有所不同,长筒石蒜花苞的GC含量虽也基本呈正态分布,但略微向左倾斜(Cui et al., 2004)。
![]() |
图 2 重叠群和单一序列GC含量分布 Figure 2 The distribution of GC basepair number in contigs and singlets |
将各物种的contig和singlet序列根据TAIR9注释所含Gene Ontology (GO)信息,对序列(按分子功能、细胞组分、生物学过程)进行分类(Berardini et al., 2004)。油茶contig中有1 720条归入分子功能(molecular function),1 306条归入细胞组分(cellular component),1 632条归入生物学过程(biological process)。浙江红山茶contig中有1 937条归入分子功能,1 514条归入细胞组分,1 876条归入生物学过程。短柱茶contig中有1 743条归入分子功能,1 383条归入细胞组分,1 719条归入生物学过程(图 3)。
![]() |
图 3 重叠群和单一序列GO分类 Figure 3 The contigs and singlets functionally categorized into GO categories |
油茶singlets中有1 184条归入分子功能,844条归入细胞组分,1 119条归入生物学过程。浙江红山茶singlets中有1 249条归入分子功能,898条归入细胞组分,1 184条归入生物学过程。短柱茶singlets中有1 487条归入分子功能,1 118条归入细胞组分,1 445条归入生物学过程(图 3)。
3 结论与讨论油茶基因组研究相对比较薄弱,本研究通过采用454 GS FLX Titanium高通量测序仪对油茶、浙江红山茶、短柱茶花芽的转录组进行了测序,获得了大量的表达序列标签(EST序列),达570 049条,且序列质量较高,平均70%以上序列长度超过350 bp。将得到的高质量序列进行2次cap3拼接,油茶获得contig15 733条,singlet 20 606条;浙江红山茶获得contig19 397条,singlet26 882条;短柱茶获得contig14 779条,singlet25 389条。
与传统测序相比,454高通量测序的长度与传统测序的读长相当,完全可以满足转录组测序的要求,且454测序还具有速度快、通量高、成本低的优点,是高通量发现油茶功能基因的更为有效手段。谭晓风等(2006)以油茶优良无性系湘林1号和湘林4号近成熟种子为材料构建cDNA文库,随机挑取2 327个克隆进行3′端测序,获得了1 979条数据完整无N、X且序列长于200 bp的EST序列。本研究3/4个测序反应最终获得了570 049条EST序列。此外,在测油茶转录组的同时,另外1/4个反应也测定了油茶的基因组序列,共获得176 731条序列,用454测序仪自带的Newbler软件进行处理和拼接,得到9 438个contig,其中1 379个contig长度大于500 bp(large contig),89 318个singlet,序列总长30 773 610 bp。因而,本研究结果可为油茶重要性状基因解析,发掘油茶生长、发育、抗性等关键基因,阐述基因型与表型的关联性,性状改良和品种选育提供理论基础。
陈祥贵, 胡军, 杨潇, 等. 2008. 人类蛋白编码基因局部GC水平相关性分析[J]. 遗传, 30(9): 1169-1174. |
何方, 胡芳名. 2004. 测树学[M]. 2版. 经济林栽培学: 北京:中国林业出版社: 278-279.
|
黄永芳, 陈锡沐, 庄雪影, 等. 2006. 油茶种质资源遗传多样性分析[J]. 林业科学, 42(4): 38-43. |
温强, 雷小林, 叶金山, 等. 2008. 油茶高产无性系的ISSR分子鉴别[J]. 中南林业科技大学学报, 28(1): 39-43. |
谭晓风, 胡芳名, 谢禄山, 等. 2006. 油茶种子EST文库构建及主要表达基因的分析[J]. 林业科学, 42(1): 43-48. |
Berardini T Z, Mundodi S, Reiser L, et al. 2004. Functional annotation of the Arabidopsis genome using controlled vocabularies[J]. Plant Physiol, 135(2): 745-755. DOI:10.1104/pp.104.040071 |
Cui Y L, Zhang X Y, Zhou Y, et al. 2004. Identification and expression analysis of EST-based genes in the bud of Lycoris longituba[J]. Genomics Proteomics & Bioinformatics, 2(1): 43-46. |
Huminiecki L, Bicknell R. 2000. In silico cloning of novel endothelial-specific genes[J]. Genome Research, 10(4): 796-806. |
Margulies M, Egholm M, Altman W E, et al. 2005. Genome sequencing in microfabricated high-density picolitre reactors[J]. Nature, 437(7057): 376-380. DOI:10.1038/nature03959 |
Schuler G D. 1997. Pieces of the puzzle:expressed sequence tags and the catalog of human genes[J]. Journal of Molecular Medicine, 75(10): 694-698. DOI:10.1007/s001090050155 |
Xu M, Zang B, Yao H S, et al. 2009. Isolation of high quality RNA and molecular manipulations with various tissues of Populus[J]. Russian Journal of Plant Physiology, 56(5): 716-719. DOI:10.1134/S1021443709050197 |