四川动物  2018, Vol. 37 Issue (2): 121-126

扩展功能

文章信息

晋家正, 李午佼, 牟必琴, 沈咏梅, 耿福能, 岳碧松, 范振鑫
JIN Jiazheng, LI Wujiao, MOU Biqin, SHEN Yongmei, GENG Funeng, YUE Bisong, FAN Zhenxin
药用美洲大蠊全基因组测序分析
Whole Genome Sequencing and Analysis of Medicinal Periplaneta americana
四川动物, 2018, 37(2): 121-126
Sichuan Journal of Zoology, 2018, 37(2): 121-126
10.11984/j.issn.1000-7083.20170377

文章历史

收稿日期: 2017-11-28
接受日期: 2017-12-21
药用美洲大蠊全基因组测序分析
晋家正1 , 李午佼2 , 牟必琴3 , 沈咏梅3 , 耿福能2 , 岳碧松1 , 范振鑫1,3*     
1. 生物资源与生态环境教育部重点实验室, 四川大学生命科学学院, 成都 610065
2. 药用美洲大蠊四川省重点实验室, 四川西昌 615000
3. 四川省药用动物工程技术研究中心, 四川西昌 615000
摘要:以美洲大蠊Periplaneta americana为原料生产的康复新液等药品临床疗效显著,得到了广泛应用。本文以四川好医生攀西药业有限责任公司饲养的药用美洲大蠊为材料,首次采用Illumina HiSeq 2000和PacBio SMRT测序平台开展了全基因组测序,并进行基因组组装、注释和分析。原始测序数据经过滤后得到1.4 Tb的二代测序数据和33.81 Gb的三代测序数据。组装结果表明,美洲大蠊基因组大小为3.26 Gb,这在已报道的昆虫基因组中仅次于东亚飞蝗Locusta migratoria。基因组重复序列含量为62.38%,杂合度为0.635%,表明其为复杂基因组。组装的Contig N50和scaffold N50长度分别为28.2 kb、315 kb,单拷贝基因完整性为88.1%,小片段文库测序数据平均比对率为99.8%,测序和组装质量满足后续分析要求。采用De novo预测、同源预测和基于转录本预测3种方法共注释到14 568个基因,其中92.4%的基因获得了功能注释。本研究首次完成了美洲大蠊的全基因组测序,也是大蠊属Periplaneta昆虫的第一个基因组,为美洲大蠊遗传进化分析和药用基因资源挖掘打下了重要基础。
关键词美洲大蠊     药用昆虫     全基因组测序     基因组装     基因注释    
Whole Genome Sequencing and Analysis of Medicinal Periplaneta americana
JIN Jiazheng1 , LI Wujiao2 , MOU Biqin3 , SHEN Yongmei3 , GENG Funeng2 , YUE Bisong1 , FAN Zhenxin1,3*     
1. Key Laboratory of Bio-Resources and Eco-Environment of Ministry of Education, College of Life Sciences, Sichuan University, Chengdu 610065, China;
2. Sichuan Key Laboratory of Medicinal American Cockroach, Xichang, Sichuan Province 615000, China;
3. Sichuan Medicinal Animals Engineering Research Center, Xichang, Sichuan Province 615000, China
Abstract: In this study, the whole genomic DNA of medicinal American cockroach (Periplaneta americana) was firstly sequenced by Illumina HiSeq 2000 and PacBio SMRT platforms. In total, 1.4 Tb Illumina data and 33.81 Gb PacBio data were retained after the quality control of the raw sequence data. After genome assembly using these clean data, here we confirm that the complete genome size of P. americana is 3.26 Gb, and this is only smaller than Locusta migratoria among all of the reported genomes of insects. Specifically, the heterozygosity rate of P. americana genome is 0.635%, and 62.38% of the genome sequences are found to be repeats sequences. The lengths of Contig N50 and scaffold N50 are 28.2 kb and 315 kb, respectively. Moreover, 88.1% of the single copy orthologs are successfully detected by using BUSCO analysis, and the results of gene prediction based on De novo, homology and transcriptome showed that there are 14 568 genes in the genome of P. americana, and 92.4% of them can be functionally annotated. Our study provides the first whole genome sequence of P. americana, and also the first genomic information of the insect in Periplaneta genus, which can significantly contribute to further genome based analysis and the exploration of medicinal resources.
Keywords: Periplaneta americana     whole genome sequencing     genome assembly     genome annotation          

美洲大蠊Periplaneta americana属昆虫纲Insecta蜚蠊目Blattaria蜚蠊科Blattidae大蠊属Periplaneta,是人们熟知的卫生害虫,同时也是重要的药用昆虫。蜚蠊入药早在《神农本草经》中就有记载,中医学认为蟑螂具有活血散瘀、解毒消疳和利尿消肿的功效,还被广泛应用于治疗疔疮、肿毒及虫蛇咬伤等方面。四川好医生攀西药业有限责任公司在四川省西昌市建立了药用美洲大蠊人工养殖基地,实现了规模化和标准化饲养,成为国内首家昆虫类药材—美洲大蠊GAP认证养殖基地,用美洲大蠊制成的康复新液等多种药物临床应用效果良好,特别是在治疗人腔道溃疡损伤和促创面修复等方面效果显著。近年来,随着对美洲大蠊及其提取物研究的不断深入,其抗肿瘤、抗氧化、增强免疫及其对糖尿病和心血管疾病的效果也受到关注(肖小芹等,2007马俊等,2015谭巧云等,2016夏超等,2016陈佳松等,2017李娇等,2017张蕊等,2017)。

有关美洲大蠊的研究,国外主要集中在美洲大蠊生物学、生态学习性、抗药性及防治、生理生化及过敏原等方面(Ahmed et al., 2010Kim et al., 2016Tahir et al., 2017)。近年来,国内的研究主要集中在化学成分分析、临床应用和药用价值评估等方面(郭美仙等,2017Yun et al., 2017Zhao et al., 2017)。随着测序技术和基因组分析方法的飞速发展,大量动物、植物和微生物的基因组测序陆续完成,取得了丰硕的研究成果。到目前为止,还没有美洲大蠊全基因组测序的研究报道。本文以人工繁殖的药用美洲大蠊为材料,完成了全基因组测序、组装和注释,对进一步从基因组水平阐释美洲大蠊的遗传进化、生理生化、环境适应及药物研发等具有重要意义。

1 材料与方法 1.1 美洲大蠊样品及DNA提取

测序用美洲大蠊样品由四川好医生攀西药业有限责任公司在四川省西昌市的药用美洲大蠊规范化封闭式人工养殖基地提供。在去除3只美洲大蠊雄性成虫的翅膀、附肢和消化道并进行表面消毒后,直接送杭州和壹基因科技有限公司建库测序。

1.2 文库构建和测序

美洲大蠊DNA提取、文库构建和测序均由杭州和壹基因科技有限公司完成。共构建了37个文库,其中包括长片段文库24个,插入片段大小分别为2 kb、5 kb、10 kb和20 kb;短片段文库13个,插入片段大小分别为250 bp、500 bp和800 bp。采用二代测序平台的Illumina HiSeq 2000和三代测序平台的PacBio SMRT进行高通量测序,原始测序数据经过滤后用于基因组组装与质量评估。

1.3 基因组组装与质量评估

利用Jellyfish(Marçais & Kingsford,2011)进行k-mer统计分析,对基因组大小、杂合度和重复序列进行评估。分别使用DISCOVAR(Weisenfeld et al., 2014)和BESST(Sahlin et al., 2014)构建Contig序列和scaffold序列,并通过Soap Gapcloser(Luo et al., 2012)补缺得到更长的scaffold片段,最后利用三代测序数据补洞和延伸,完成基因组组装。利用BUSCO(Simão et al., 2015)进行单拷贝基因完整性分析,并使用bowtie2(Langmead & Salzberg,2012)将所有小片段序列比对回组装好的基因组,以检查基因区是否完整。最后,进行GC深度分析,检查组装好的基因组中是否存在污染序列。

1.4 基因结构与功能注释

基因注释采用De novo结构注释、同源结构注释和基于转录本预测相结合的方法。De novo结构注释是在屏蔽重复序列之后,用内华达古白蚁Zootermopsis nevadensis和德国小蠊Blattella germanica基因组信息训练Augustus(Stanke et al., 2008)和SNAP (Korf,2004)的预测模型;同源结构注释通过下载7种昆虫的蛋白质序列文件,利用TBLASTN比对到美洲大蠊基因组,最后利用GeneWise(Birney et al., 2004)对可能的基因区域进行结构预测;基于转录本预测是将美洲大蠊转录组数据通过Blast比对回基因组,然后利用PASA(Haas et al., 2003)对基因进行预测。最后利用EVidenceModeler(Haas et al., 2008)和Apollo(Lewis et al., 2002)进行整合。用Blastp将翻译的蛋白质序列与3个非冗余蛋白质数据库(Swiss-Prot,KOG和NCBI NR)进行比对,同时使用InterProScan(Hunter et al., 2008)完成美洲大蠊基因的功能注释。

2 结果 2.1 文库构建和测序

本研究共获得小片段文库测序850 Gb和大片段文库测序2.1 Tb的原始数据,经质量控制删除后得到1.4 Tb的二代数据,覆盖深度大约446×(表 1);同时还获得约10×的三代数据,用于scaffold序列延伸(表 2)。

表 1 美洲大蠊Illumina HiSeq 2000平台测序 Table 1 Genomic sequencing of Periplaneta americana by Illumina HiSeq 2000 platform
插入片段长度/bp 数量 Raw data Clean data
Read长度/bp 数据量/Gb 测序深度/× Read长度/bp 数据量/Gb 测序深度/×
250 4 150 273.40 85.44 125 206.60 64.56
500 6 150/250 409.40 127.94 125/250 332.20 103.81
800 3 150 172.00 53.75 125 129.00 40.31
2k 6 125/150 610.78 190.87 100/125 299.18 93.49
5k 6 150 640.60 200.19 125 211.80 66.19
10k 8 150 443.20 138.50 125 158.32 49.48
20k 4 150 389.00 121.56 125 90.30 28.22
Sum 37 2 938.38 918.24 1 427.40 446.06

表 2 美洲大蠊PacBio SMRT平台测序 Table 2 Genomic sequencing of Periplaneta americana by PacBio SMRT
Raw data Clean data
Reads数量 5 012 701 4 991 481
数据量/Gb 34.96 33.81
N50/bp 9 664 9 454
最长read长度/bp 51 878 52 286
GC含量 0.36 0.36
数量>100/bp 4 994 739 4 953 333
数量>2/kb 4 233 333 4 163 635
2.2 基因组组装与质量评估

当k=17时的k-mer分布如图 1。双峰分布表明美洲大蠊基因组的杂合程度较高,所有的k-mer总数为173 392 497 379,峰值为54,计算得到美洲大蠊基因组的大小约为3.2 Gb,杂合率约为0.635%,属于复杂基因组。

图 1 美洲大蠊基因组17 bp-mer分布图 Fig. 1 bp-mer distribution curve of Periplaneta americana genome 横坐标为17 bp-mer深度,纵坐标为该深度下的k-mer频数所占比例 X-axis: 17 bp-mer depth, Y-axis: proportion of k-mer frequency

通过De novo组装,基因组大小为3.26 Gb,与预测基因组大小基本符合。组装的Contig N50为28.2 kb,scaffold N50为315 kb(表 3)。通过BUSCO评估显示,单拷贝基因完整性为88.1%,小片段文库比对率平均为99.8%,表明基因组的基因完整性较高(表 4)。基因组GC含量为0.346,GC深度分析表明,美洲大蠊基因组GC含量分布在一个合理的范围,没有明显的污染差异区域(图 2)。

表 3 美洲大蠊基因组组装 Table 3 Statistics of Periplaneta americana genome assembly
Scaffold
长度Length/bp 数量Number
最大长度 3 757 585
N90 24 742 14 519
N80 101 945 8 239
N70 170 856 5 807
N60 238 809 4 198
N50 314 539 3 012
N40 396 211 2 086
N30 498 085 1 351
N20 625 756 765
N10 820 695 309
总长度 326 152 269
长度≥2 000 bp 53 791
GC含量 0.346

表 4 BUSCO基因完整性评估 Table 4 Genome integrality based on BUSCO
BUSCO项目 数量 百分比/%
完整的BUSCOs 267 88.1
单拷贝BUSCOs 261 86.1
多拷贝BUSCOs 6 2.0
片段化BUSCOs 23 7.6
缺少BUSCOs 13 4.3
总计 303

图 2 美洲大蠊基因组GC含量深度分布 Fig. 2 Correlation between GC content and sequencing depth in the genome of Periplaneta americana
2.3 基因结构与功能注释

在美洲大蠊基因组重复序列注释中,共注释到1 993.9 Mb的重复序列。其中,DNA转座子最多,达到517 Mb,占基因组大小的16.18%,其次是LINE转座子,达到436 Mb,SINE转座子和LTR转座子所占基因组的比例都比较小,只有1.8%左右。

De nove预测中使用的3个软件预测到的基因数差异较大(表 5),同源预测得到3.5万个基因,而基于转录本预测到约23万个基因。利用EVidenceModeler整合所有的预测结果,在去除仅有De novo证据支持的基因后,最终得到14 568个可信度较高的基因序列。

表 5 3种方法预测的美洲大蠊基因数 Table 5 Predicted protein-coding genes of Periplaneta americana using 3 methods
预测方式 软件 参考数据 预测基因数目
De novo预测 Augustus 古白蚁、德国小蠊 89 530
SNAP 148 560
GeneMark 自身基因组序列 80 445
同源预测 GeneWise 近缘物种蛋白质序列 35 701
基于转录本预测 PASA 美洲大蠊转录组数据 237 134
预测结果整合EVidenceModeler 14 568

在预测的14 568个基因中,有13 464个基因能由4个数据库(NR库、KOG库、Interpro库和Swiss-Prot库)获得功能注释(图 3),注释率达92.4%,能被4个数据库同时注释到的基因数为10 773个,占功能注释基因总数的80.0%。

图 3 美洲大蠊基因功能注释统计 Fig. 3 Gene function annotations of Periplaneta americana
3 讨论

随着基因组学的飞速发展,完成基因组测序的动物越来越多,组装的质量也越来越高。已经报道的昆虫基因组大小变化很大,有的只有几百兆,东亚飞蝗Locusta migratoria的基因组达6.5 Gb(Wang et al., 2014),而本研究的美洲大蠊基因组为3.26 Gb。基因组的复杂程度也各不相同。美洲大蠊的基因组重复序列含量高、杂合度高,属于复杂基因组,给测序和组装带来极大困难。尽管大大提高了文库数量和测序量,并辅以三代测序方法,但美洲大蠊基因组的组装质量还是不能与脊椎动物及其他简单基因组相比。但与近年来完成的几种昆虫基因组相比,美洲大蠊基因组的组装质量较高(表 6),能够满足进一步分析的要求。

表 6 7种昆虫的基因组测序和组装结果比较 Table 6 Comparison of 7 insect genome sequences
昆虫名称 基因组大小 测序深度/× Scaffold N50/kb Contig N50/kb
诗神袖蝶Heliconius melpomene1 269 Mb 277 51
中欧山松大小蠹Dendroctonus ponderosae2 208 Mb 700 581
刺舌蝇Glossina morsitans3 366 Mb 120
内华达古白蚁Zootermopsis nevadensis4 562 Mb 98.4 740 20
东亚飞蝗Locusta migratoria5 6.5 Gb 114 320 9.3
白纹伊蚊Aedes albopictus6 1 967 Mb 314 195.54 17.3
美洲大蠊Periplaneta americana 3.26 Gb 446 315
注Notes:1. Consortium et al., 2012, 2. Keeling et al., 2013, 3. Geoffrey et al., 2014, 4. Terrapon et al., 2014, 5. Wang et al., 2014, 6. Chen et al., 2015

目前公布的昆虫基因组中,蜚蠊目昆虫只有3种,即德国小蠊和2种白蚁:内华达古白蚁和Macrotermes natalensis。美洲大蠊是第一个完成基因组测序的大蠊属昆虫,对于进一步研究大蠊属昆虫的起源进化及药用资源开发利用具有重要意义。

致谢: 感谢药用美洲大蠊四川省重点实验室提供美洲大蠊样品,四川好医生攀西药业有限责任公司提供经费赞助。
参考文献
陈佳松, 陈峰, 彭锐, 等. 2017. 基于转录组测序分析美洲大蠊提取物促进小鼠创面愈合的分子机制[J]. 四川动物, 36(4): 398–403. DOI:10.11984/j.issn.1000-7083.20170106
郭美仙, 刘晓波, 刘光明, 等. 2017. 美洲大蠊提取物对H22腹水瘤小鼠肿瘤微环境的影响[J]. 大理学院学报, 2(10): 5–9. DOI:10.3969/j.issn.2096-2266.2017.10.002
李娇, 郭美仙, 张冰清, 等. 2017. 美洲大蠊提取物CⅡ-3对肝癌H22荷瘤小鼠作用研究[J]. 中华肿瘤防治杂志, 24(11): 739–744.
马俊, 曾远生, 刘炜. 2015. 美洲大蠊提取物对力竭运动大鼠心血管氧化损伤的保护作用[J]. 中国应用生理学杂志, 31(5): 404–406.
谭巧云, 满红霞, 那凯歌, 等. 2016. 美洲大蠊提取物对口腔溃疡大鼠模型的作用[J]. 中国临床药理学杂志, 32(11): 1014–1016.
夏超, 王佳佳, 李芳群, 等. 2016. 美洲大蠊水提取物对免疫性肝纤维化大鼠的保护作用[J]. 安徽医科大学学报, 51(2): 199–204.
肖小芹, 汪世平, 徐绍锐, 等. 2007. 美洲大蠊提取物抗炎, 镇痛作用的实验研究[J]. 中国病原生物学杂志, 2(2): 140–143.
张蕊, 袁发璐, 李婷, 等. 2017. 美洲大蠊提取物对人肝癌HepG2细胞的作用机制研究[J]. 中国现代医学杂志, 27(12): 1–8. DOI:10.3969/j.issn.1005-8982.2017.12.001
Ahmed A, Minha K, Namood-e-Sahar, et al. 2010. In silico identification of potential American cockroach (Periplaneta americana) allergens[J]. Iranian Journal of Public Health, 39(3): 109–115.
Birney E, Clamp M, Durbin R. 2004. GeneWise and genomewise[J]. Genome Research, 14(5): 988–995. DOI:10.1101/gr.1865504
Chen XG, Jiang XT, Gu JB, et al. 2015. Genome sequence of the Asian tiger mosquito, Aedes albopictus, reveals insights into its biology, genetics, and evolution[J]. Proceedings of the National Academy of Sciences of the United States of America, 112(44): E5907. DOI:10.1073/pnas.1516410112
Consortium THG, Kanchon KD, James RW, et al. 2012. Butterfly genome reveals promiscuous exchange of mimicry adaptations among species[J]. Nature, 487(7405): 94–98. DOI:10.1038/nature11041
Geoffrey MA, Patrick PA, Joanna EA, et al. 2014. Genome sequence of the tsetse fly (Glossina morsitans):vector of African trypanosomiasis[J]. Science, 344(6182): 380–386. DOI:10.1126/science.1249656
Haas BJ, Delcher AL, Mount SM, et al. 2003. Improving the arabidopsis genome annotation using maximal transcript a lignment assemblies[J]. Nucleic Acids Research, 31(19): 5654–5666. DOI:10.1093/nar/gkg770
Haas BJ, Salzberg SL, Zhu W, et al. 2008. Automated eukaryotic gene structure annotation using EVidenceModeler and the program to assemble spliced alignments[J]. Genome Biolology, 9(1): R7. DOI:10.1186/gb-2008-9-1-r7
Hunter S, Apweiler R, Attwood TK, et al. 2008. InterPro:the integrative protein signature database[J]. Nucleic Acids Research, 37(suppl_1): D211–D215.
Keeling CI, Yuen MM, Liao NY, et al. 2013. Draft genome of the mountain pine beetle, Dendroctonus ponderosae Hopkins, a major forest pest[J]. Genome Biology, 14(3): R27. DOI:10.1186/gb-2013-14-3-r27
Kim IW, Lee JH, Subramaniyam S, et al. 2016. De novo transcriptome analysis and detection of antimicrobial peptides of the American cockroach Periplaneta americana (Linnaeus)[J]. PLoS ONE, 11(5): e0155304. DOI:10.1371/journal.pone.0155304
Korf I. 2004. Gene finding in novel genomes[J]. BMC Bioinformatics, 5(1): 59. DOI:10.1186/1471-2105-5-59
Langmead B, Salzberg SL. 2012. Fast gapped-read alignment with Bowtie 2[J]. Nature Methods, 9(4): 357–359. DOI:10.1038/nmeth.1923
Lewis SE, Searle S, Harris N, et al. 2002. Apollo:a sequence annotation editor[J]. Genome Biolology, 3(12): research0082.1–82.14.
Luo R, Liu B, Xie Y, et al. 2012. SOAPdenovo2:an empirically improved memory-efficient short-read de novo assembler[J]. Giga Science, 1(1): 18. DOI:10.1186/2047-217X-1-18
Marçais G, Kingsford C. 2011. A fast, lock-free approach for efficient parallel counting of occurrences of k-mers[J]. Bioinformatics, 27(6): 764–770. DOI:10.1093/bioinformatics/btr011
Sahlin K, Vezzi F, Nystedt B, et al. 2014. BESST-efficient scaffolding of large fragmented assemblies[J]. BMC Bioinformatics, 15(1): 281. DOI:10.1186/1471-2105-15-281
Simão FA, Waterhouse RM, Ioannidis P, et al. 2015. BUSCO:assessing genome assembly and annotation completeness with single-copy orthologs[J]. Bioinformatics, 31(19): 3210–3212. DOI:10.1093/bioinformatics/btv351
Stanke M, Diekhans M, Baertsch R, et al. 2008. Using native and syntenically mapped cDNA alignments to improve de novo gene finding[J]. Bioinformatics, 24(5): 637–644. DOI:10.1093/bioinformatics/btn013
Tahir HM, Mustafa R, Khan AA, et al. 2017. Toxicity and resistance of American cockroach, Periplaneta americana L.(Blattodea:Blattidae) against malathion[J]. African Entomology, 25(2): 361–366. DOI:10.4001/003.025.0361
Terrapon N, Li C, Robertson HM, et al. 2014. Molecular traces of alternative social organization in a termite genome[J]. Nature Communications, 5(6183): 3636.
Wang X, Fang X, Yang P, et al. 2014. The locust genome provides insight into swarm formation and long-distance flight[J]. Nature Communications, 5(5): 2957.
Weisenfeld NI, Yin S, Sharpe T, et al. 2014. Comprehensive variation discovery in single human genomes[J]. Nature Genetic, 46(12): 1350–1355. DOI:10.1038/ng.3121
Yun JE, Hwang JS, Lee DG. 2017. The antifungal activity of the peptide, periplanetasin-2, derived from American cockroach Periplaneta americana[J]. Biochemical Journal, 474(17): 3027–3043. DOI:10.1042/BCJ20170461
Zhao Y, Yang A, Tu P, et al. 2017. Anti-tumor effects of the American cockroach, Periplaneta americana[J]. Chinese Medicine, 12(1): 26. DOI:10.1186/s13020-017-0149-6