药学学报  2021, Vol. 56 Issue (2): 618-629     DOI: 10.16438/j.0513-4870.2020-1419   PDF    
北柴胡、紫花阔叶柴胡叶绿体全基因组解析及柴胡属药用植物叶绿体基因组比较与系统发育分析
张明英, 张雨曲, 李依民, 高静, 沈霞, 杨新杰, 颜永刚, 王昌利, 张岗     
陕西中医药大学药学院/陕西省秦岭中草药应用开发工程技术研究中心, 陕西 西安 712046
摘要: 柴胡属(Bupleurum L.)是伞形科(Apiaceae)中具有重要经济价值的药用类群。本研究利用Illumina HiSeq X Ten平台测序获得北柴胡(B. chinense DC.)和紫花阔叶柴胡(B. boissieuanum H. Wolff)的叶绿体全基因组序列, 对其进行了组装、注释和特征分析, 并与同属已发表的叶绿体全基因组进行了比较和系统发育分析。北柴胡和紫花阔叶柴胡叶绿体全基因组大小分别为155 458、155 800 bp, 均为由一个大单拷贝区(large single copy, LSC; 85 343、85 804 bp)、一个小单拷贝区(small single copy, SSC; 17 495、17 410 bp)和一对反向重复区(inverted repeat, IRa/IRb; 26 310、26 293 bp)构成的环状四分体结构; 两者分别注释得到129个基因, 包括84个蛋白编码基因、37个tRNA基因和8个rRNA基因; 此外, 两者重复序列的类型与分布模式相似, 但数量有所差异。比较基因组学分析结果表明, 柴胡属植物叶绿体全基因组大小、结构、GC含量及基因组成和排列顺序等在种内、种间均高度保守, IRs区未出现明显扩张或收缩; 序列的种间变异高于种内, 非编码序列(包括基因间区和内含子)变异高于编码基因序列, LSC和SSC区序列变异高于IRs区; 此外, 筛选到11条核苷酸多样性较高的种间高变异序列, 分别位于LSC和SSC区。系统发育分析结果强烈支持柴胡属为单系, 其中, 北柴胡同种不同个体聚为一支, 并与紫花鸭跖柴胡(B.commelynoideum H. Boissieu)亲缘关系最近, 而紫花阔叶柴胡与三岛柴胡(B. falcatum L.)亲缘关系更近。本研究将为柴胡属药用植物的分类鉴定、系统发育及资源开发利用等相关研究提供基础。
关键词: 柴胡属    叶绿体基因组    简单重复序列    序列变异    系统发育    
Complete plastid genomes of Bupleurum chinense DC. and B. boissieuanum H. Wolff, with comparative and phylogenetic analyses of medicinal Bupleurum species
ZHANG Ming-ying, ZHANG Yu-qu, LI Yi-min, GAO Jing, SHEN Xia, YANG Xin-jie, YAN Yong-gang, WANG Chang-li, ZHANG Gang     
College of Pharmacy and Shaanxi Qinling Application Development and Engineering Center of Chinese Herbal Medicine, Shaanxi University of Chinese Medicine, Xi'an 712046, China
Abstract: Bupleurum L.(Apiaceae) is an economically important genus, in which many species are of medicinal value. In this study, the complete plastid genomes(plastomes) of B. chinense DC. and B. boissieuanum H. Wolff were sequenced and their characteristics were investigated. Comparative and phylogenetic analyses were conducted with other published Bupleurum plastomes. The complete plastomes of B. chinense and B. boissieuanum were 155 458 and 155 800 bp in length, and both exhibited the typical quadripartite circular structure consisting of a large single copy region(LSC, 85 343 and 85 804 bp), a small single copy region(SSC, 17 495 and 17 410 bp), and a pair of inverted repeat regions(IRa/b, 26 310 and 26 293 bp), respectively. A total of 129 genes, including84 protein-coding genes, 37 transfer RNA(tRNA) genes, and eight ribosomal RNA(rRNA) genes were identified from each of the two plastomes. Repeat sequences detected were similar in types and distribution patterns, but the numbers were slightly different. Comparative analyses revealed that the Bupleurum plastomes were highly conserved in length, structure, the guanine and cytosine(GC) content, and gene content and order, both intraspecifically and interspecifically, and no obvious expansion or contraction of the inverted repeat regions occurred. Sequence variation was lower within the same species than among different species, noncoding sequences(including intergenic regions and introns) showed a higher divergence than the protein-coding sequences, and sequences in the LSC and SSC regions were more divergent than those in the IR regions. In addition, 11 sequences with higher nucleotide diversity among species were detected in the LSC and SSC regions. All studied Bupleurum species were inferred forming a monophyletic group with a 100% bootstrap value. Bupleurum chinense and B. boissieuanum were phylogenetically closest to B. commelynoideum and B. falcatum, separately, with all three B. chinense accessions clustered into a distinct clade. These results provide genetic information for further species identification, phylogenetic resolution, and will assist in exploration and utilization of medicinal Bupleurum species.
Key words: Bupleurum    plastid genome    simple sequence repeat    sequence divergence    phylogeny    

柴胡属Bupleurum L.是伞形科Apiaceae一个具有重要药用和经济价值的类群。中国分布有柴胡属植物约42种16变种[1], 其中36种(包括一些变种及变型) 均可入药使用[2-4]。中药材柴胡(Bupleuri Radix) 在《神农本草经》中被列为“上品”, 具有疏散退热、疏肝解郁、升举阳气之功效, 是最常用的大宗药材之一。《中华人民共和国药典》 (2020年版, 一部)[5]规定, 中药材柴胡来源于伞形科柴胡属药用植物柴胡(北柴胡) B. chinense DC.或狭叶柴胡(红柴胡) B. scorzonerifolium Willd.的干燥根。药理学研究揭示柴胡属药用植物含有皂苷、挥发油、黄酮、甾醇等活性成分, 具有抗炎、抗肿瘤、调节神经和免疫等作用[6-8], 因而在现代药物开发研究中被广泛使用。

柴胡属也是分类和系统发育研究中的一个“困难”类群。染色体核型[9]、果实形态[10, 11]、花粉形态[12]以及ITS、trnH-psbA、matK、rbcL和rps16等DNA分子标记[13-16]为柴胡属植物的分类鉴定与系统学研究提供了重要依据。然而, 虽然柴胡属的单系性已经得到分子证据的支持, 但属内不同物种间的系统发育关系目前仍然存在争议[17, 18]。高通量测序技术和生物信息学分析方法的快速发展使得叶绿体全基因组序列在解析低阶元“困难”植物类群系统发育关系研究中得到广泛应用, 并且在解决柴胡属植物种间系统发育关系问题中的优势已初见端倪[17]。目前柴胡属北柴胡[17, 19]、红柴胡[20]、紫花阔叶柴胡B. boissieuanum H. Wolff[21]、三岛柴胡B. falcatum L.[22]、紫花鸭跖柴胡B. commelynoideum de Boiss.[17]、竹叶柴胡B. marginatum Wall. ex DC.[23]、龙血树柴胡B. dracaenoides Huan C. Wang, Z. R. He & H. Sun[24]和长茎柴胡B. longicaule Wall. ex DC.[25]等物种的叶绿体基因组已有研究报道, 但不同种间及同种不同个体间叶绿体比较基因组学和系统发育相关研究还鲜有报道。

本研究新测序获得北柴胡和紫花阔叶柴胡两个物种的叶绿体全基因组序列, 对其进行组装、注释和特征解析, 并与柴胡属其他已发表的叶绿体基因组进行比较基因组学和系统发育分析, 旨在全面解析北柴胡、紫花阔叶柴胡叶绿体全基因组序列与结构特征; 探讨柴胡属植物叶绿体基因组的整体特征与变异模式, 比较序列的种间、种内变异情况, 并筛选种间高变异序列; 基于叶绿体系统发育基因组学分析解析柴胡属代表药用植物种间系统发育关系。进而为柴胡属药用植物的分类鉴定、保护遗传学及资源开发利用等相关研究提供基础。

材料与方法

实验材料  野生北柴胡、紫花阔叶柴胡分别采自陕西省宝鸡市太白县桃川镇路坪沟(33°1'12" N, 107°30'0″E) 和宝河沟(34°3'0″N, 107°31'48″E), 由陕西中医药大学药学院王继涛高级实验师鉴定。采集到的新鲜幼嫩叶片放入硅胶中快速脱水干燥, 用于基因组DNA提取, 凭证标本(采集号: 610330_1908、610330_1905, 采集人: 张明英) 保存于陕西中医药大学中药标本馆。

基因组DNA提取与测序  利用植物基因组DNA提取试剂盒(TIANGEN, 北京) 提取总DNA, 1.0%的琼脂糖凝胶电泳检测DNA质量, Qubit 3.0 (Thermo Fisher Scientific, USA) 荧光定量仪检测DNA浓度。检测合格后的基因组总DNA构建长度约350 bp的插入片段文库, 利用Illumina HiSeq X Ten平台进行序列读长为150 bp的双端测序(paired-end sequencing)。利用NGS QC ToolKit[26]对测序得到的原始序列(raw reads) 进行质控(参数设置选择默认值), 过滤去除接头(adapter) 和低质量序列(reads), 得到高质量待分析序列(clean reads)。

叶绿体全基因组序列组装、拼接与注释  以GenBank数据库中收录的北柴胡叶绿体全基因组序列(Accession: NC_046774) 作为序列延伸的种子(seed), 在Linux系统中运行脚本, 利用GetOrganelle程序包依次调用Bowtie2、BLAST、SPAdes软件, 对clean reads进行筛选、比对和组装, 获得序列重叠群(contigs)[27]。利用Bandage软件[28]将contigs拼接成环并除去冗余序列, 同时将拼接结果与上述seed (NC_046774) 序列在Geneious软件[29]中进行比对以确定反向重复区(inverted repeat regions, IRs) 的方向, 初步完成叶绿体全基因组序列的从头组装。再利用Bowtie2将原始序列重新映射到组装完成的叶绿体全基因组序列上, 通过检测序列覆盖度来评估和验证大单拷贝区(large single copy, LSC)、小单拷贝区(small single copy, SSC) 与两个反向重复区的4个边界及各contigs拼接处的正确性[30], 最终得到完整的叶绿体全基因组序列。

同样以北柴胡叶绿体全基因组(NC_046774) 的注释结果作为参考, 在Linux系统中运行脚本, 利用PGA (plastid genome annotator)软件[31]对组装完成的叶绿体全基因组序列进行注释, 并在Geneious软件中校正注释结果。利用在线软件tRNAscan-SE (http://lowelab.ucsc.edu/tRNAscan-SE/) 确定所有tRNA基因的边界。最后, 利用Organellar Genome DRAW (OGDRAW) 软件(https://chlorobox.mpimp-golm.mpg.de/OGDraw.html) 在线绘制叶绿体全基因组图谱。组装并注释完成后的北柴胡、紫花阔叶柴胡叶绿体全基因组序列利用sequin软件编辑并提交至GenBank数据库, 检索号分别为MN756857和MN756856。

重复序列检测与叶绿体全基因组比较分析  利用REPuter软件(https://bibiserv.cebitec.uni-bielefeld.de/reputer) 检测叶绿体全基因组序列中的分散重复序列(dispersed repeats), 参数设置为最小重复序列长度= 30 bp, 重复序列间的相似度 > 90%[32]。串联重复序列(tandem repeats) 利用Tandem repeats finder软件(https://tandem.bu.edu/trf/trf.html) 进行检测, 参数设置选择默认值[33]。目前, 柴胡属北柴胡(NC_046774和MN893666)、红柴胡(MT239475)、紫花阔叶柴胡(NC_036017)、紫花鸭跖柴胡(MT162552)、竹叶柴胡(MN968501)、以及三岛柴胡(KM207676) 和B. latissimum Nakai (NC_033346) 共7种8个个体的叶绿体全基因组序列已在GenBank数据库开放获取。利用MISA软件对本研究新测序获得的北柴胡、紫花阔叶柴胡与上述8个个体叶绿体全基因组序列中的简单重复序列(simple sequence repeats, SSRs) 分别进行检测, 参数设置均为单核苷酸重复单元不少于10个, 二核苷酸重复单元不少于5个, 三核苷酸和四核苷酸重复单元不少于4个, 五核苷酸和六核苷酸重复单元不少于3个, 且两个SSRs之间的距离不小于100 bp[34]。并对SSRs的类型、数量和分布模式分别进行比较分析。

利用mVISTA软件在LAGAN模型[35]下对本研究新测序获得的北柴胡与紫花阔叶柴胡以及柴胡属上述8个已发表个体的叶绿体全基因组序列进行比较分析。同时, 对种间及同种不同个体间叶绿体基因组的IR/SC边界位置进行比较, 分析IRs区收缩与扩张情况。

系统发育与序列变异分析  将包括本研究新测序的北柴胡、紫花阔叶柴胡在内的柴胡属所有10个叶绿体全基因序列构建序列矩阵, 并选取同来自伞形科的药用植物当归属Angelica L.当归A. sinensis (Oliv.) Diels (NC_042826) 和藁本属Ligusticum L.藁本L. sinense Oliv. (NC_038088) 作为外类群, 利用RAxML以最大似然法(maximum likelihood, ML)[36]进行系统发育重建分析。序列比对利用MAFFT软件[37]完成, 并利用Geneious软件对比对结果进行必要的手动检查调整; 核苷酸替换模型选择GTR+G; 系统发育树各分支的靴带支持率(bootstrap values, BS) 通过进行1 000次自展重复分析获得。此外, 利用MEGA软件[38]分别计算种间、种内遗传距离(pairwise distance)。

为了进一步分析柴胡属植物叶绿体全基因组序列间的变异情况, 将所有7种10个个体及北柴胡同种3个个体的叶绿体全基因组序列(去掉一个IR区) 分别构建多序列矩阵, 比对和检查调整之后, 利用DNAsp软件[39]进行滑动窗口分析(sliding window analysis), 计算核苷酸多样性指数Pi, 并根据分析结果筛选种间高变异序列。滑动窗口(windows length) 大小设置为600 bp, 步长(step size) 为200 bp。将筛选到的种间高变异序列分别提取出来, 构建联合矩阵, 再次进行系统发育分析, 验证其对于种间划分与系统发育关系的分辨率。方法和参数设置同前。

结果与分析 1 叶绿体全基因组测序、序列组装拼接与注释

北柴胡和紫花阔叶柴胡测序分别得到38 031 172条(6.5 Gb) 和42 649 376条(7.29 Gb) raw reads, 过滤去除adapters和低质量reads后最终分别得到36 190 390条和41 233 108条clean reads, 即clean reads的比例分别为95.16%和96.68%。组装拼接后两者均得到完整的环状四分体结构叶绿体全基因组, 序列总长度分别为155 458 bp和155 800 bp, 由大单拷贝区(长度分别为85 343 bp、85 804 bp)、小单拷贝区(17 495 bp、17 410 bp) 和一对反向重复区(26 310 bp、26 293 bp) 组成(图 1)。两者叶绿体全基因组序列及LSC和IRs区的GC含量均相同, 依次为37.7%、35.8%和42.8%, SSC区的GC含量分别为31.4%和31.5% (表 1)。

图 1 Plastid genome maps of B. chinense and B. boissieuanum. Genes inside and outside the circle are transcribed in a clockwise and counter clockwise direction, respectively. Genes are color-coded based on their functions. The grey area in the inner circle indicates the GC content of the plastid genome sequence

表 1 Comparison of the plastid genome features of B. chinense, B. boissieuanum and the other eight accessions from Bupleurum

在北柴胡和紫花阔叶柴胡叶绿体全基因组序列中分别注释得到129个基因, 包括84个蛋白编码基因、37个tRNA基因和8个rRNA基因(表 2)。其中, 6个蛋白编码基因(rpl2、rpl23、rps7、rps12、ndhB和ycf2)、7个tRNA基因(trnI-CAU、trnL-CAA、trnV-GAC、trnI-GAU、trnA-UGC、trnR-ACG和trnN-GUU) 和4个rRNA基因(rrn16、rrn23、rrn4.5、rrn5) 分别在两个反向重复区出现一次重复, 同时, 由于rps19和ycf1基因分别横跨LSC/IRb和SSC/IRa边界, 因此在IRa和IRb区对应位置分别产生一个假基因φrps19和φycf1 (图 12)。此外, rpl16、rpl2、rpoC1、rps16、atpF、ndhB、ndhA、petB、petD和trnK-UUU、trnG-UCC、trnL-UAA、trnV-UAC、trnI-GAU、trnA-UGC基因各包含有1个内含子, rps12、ycf3和clpP基因各包含2个内含子, 同时, rps12基因的5'端和两个重复的3'端分别位于LSC区和IR区, 被分成2个独立的转录单元, 为反式剪切(trans-spliced) 基因。

表 2 Gene composition in the plastid genomes of B. chinense and B. boissieuanum. Notes: Bold font means genes duplicated in the IRs regions; a represents the gene has two separate transcription units; b and c indicate genes span the LSC and IRb, SSC and IRa regions, respectively; d and e indicate genes with one and two introns, separately

图 2 Comparisons of the borders of LSC, SSC and IRa/b regions among the ten Bupleurum plastid genomes. Numbers above represent the distance between the gene ends and the borders sites, and numbers below represent the length of the LSC, SSC and IRa/b regions. The φ symbol indicates pseudogenes. This figure is not to scale
2 重复序列分析

北柴胡和紫花阔叶柴胡叶绿体全基因组序列中分别检测到33条和38条长度不小于30 bp且重复序列间相似度大于90%的分散重复序列, 包括正向重复(forward repeats, F)、反向重复(reverse repeats, R)、回文重复(palindromic repeats, P) 和互补重复(complement repeats, C) 序列, 数量依次分别为16和17、0和3、16和16以及1和2。同时, 分别检测到22条和30条长度为9~49 bp、重复次数为2~4次的串联重复序列。SSRs的数量、类型及其在叶绿体基因组中的分布情况分别见表 34。这些SSRs主要分布于叶绿体基因组的LCS区(约占总数的66.67%~75%), 并且主要分布于非编码的基因间区序列中。编码基因序列总长度占叶绿体全基因组全长的49.64%~50.31%, 而编码基因序列中分布的SSRs数量仅占其总数的13.89%~22.03%。

表 3 Numbers and distribution of the detected SSRs in the plastid genomes of B. chinense, B. boissieuanum and the other eight accessions from Bupleurum

表 4 Types and their proportions of the detected SSRs in the plastid genomes of B. chinense, B. boissieuanum and the other eight accessions from Bupleurum
3 比较基因组学分析

叶绿体全基因组序列比较分析结果见图 23。柴胡属植物叶绿体全基因组序列所编码的基因类别、数量和排列顺序在种间、种内均高度一致; 序列间的变异主要发生在非编码基因间区, 且种内变异小于种间; 此外, IRs区没有出现明显扩张或收缩现象。核苷酸多样性分析结果显示, 种间序列的Pi值整体变化范围为0~0.022 2, LSC、SSC和IRs区的平均Pi值依次为0.006 3、0.008 8和0.001 1。同时, 筛选到11条Pi > 0.015的种间高变异序列, 分别位于LSC区(trnK-UGG_rps16、petN_psbM×3、petA_psbJ×2+psbJ) 和SSC区(ndhF+ndhF_rpl32×2、ycf1×3), 见图 4

图 3 Sequence identity among the plastid genomes of B. chinense and B. boissieuanum and the other eight accessions from Bupleurum, with B. chinense (MN756857) as reference. Coding and noncoding regions are colored in blue and red, respectively

图 4 The nucleotide diversity of the ten Bupleurum plastid genomes. Window length: 600 bp; step size: 200 bp
4 系统发育分析

系统发育建树结果如图 5所示, 柴胡属所有10个个体以100%的支持率聚为一个单系, 其中, 竹叶柴胡、红柴胡和B. latissimum依次从基部独立分化出来; 北柴胡同种3个个体聚为一支, 并与紫花鸭跖柴胡构成姐妹关系; 紫花阔叶柴胡与三岛柴胡亲缘关系最近, 但紫花阔叶柴胡同种两个不同个体MN756856和NC_036017却并未聚类为一支, 而是NC_036017与三岛柴胡以93%支持率构成姐妹关系, 再与MN756856共同聚为一个单系(支持率为100%)。11个高变异序列联合分析构建的系统发育树干群节点支持率普遍偏低, 同时, 紫花阔叶柴胡MN756856、NC_036017和三岛柴胡三者之间的拓扑关系与叶绿体全基因组序列的建树结果出现冲突, 即MN756856和NC_036017以88%的支持率构成姐妹关系, 再与三岛柴胡聚为一支(支持率为70%)。

图 5 Maximum likelihood phylogenetic tree of Bupleurum inferred utlizing dadasets of the complete plastid genome sequences and the concatenated 11 highly divergent sequences (differences in topology were indicated by dotted lines). Numbers beside each node are bootstrap values (BS) inferred from the two datasets
讨论

本研究对北柴胡和紫花阔叶柴胡叶绿体全基因组的分析结果表明, 两者均具有被子植物叶绿体基因组典型的环状四分体结构, 所编码的基因类别、数量及排列顺序完全相同, 同时具有高度相似的GC含量(仅SSC区有0.1%的微小差别)。其中, IRs区序列的GC含量最高, 各区域序列中GC含量从高到低依次为IRs > Genome > LSC > SSC。进一步分析发现, IRs区分布的4个rRNA基因序列中较高的GC含量(50.5%~56.5%, 平均55.3%) 是引起IRs区整体GC含量偏高的一个重要因素。此外, 北柴胡、紫花阔叶柴胡叶绿体全基因组序列的总长度、CG含量、基因组成等与柴胡属其他已报道的物种亦高度一致[17, 19-22], 但与同为伞形科的当归属[40]、四带芹属Tetrataenium (DC.) Manden.[41]等植物却存在不同程度的差异。包括本研究新测序的北柴胡、紫花阔叶柴胡在内的柴胡属7种10个不同个体叶绿体全基因组、LSC、SSC和IRs区长度的种间差异范围分别为8~1 117 bp、32~1 097 bp、0~198 bp和1~22 bp, 即总长度的差异主要来自于LSC区, 而SSC和IRs区长度相对保守。序列比对分析发现, LSC区长度差异主要是由非编码基因间区中出现的串联重复序列和短片段插入/缺失所引起。而相比于不同物种间, 北柴胡同种3个不同个体间叶绿体全基因组、LSC、SSC及IRs区的长度则更为保守。

被子植物叶绿体基因组的环状四分体结构使得其两个反向重复区与大、小单拷贝区之间存在4个边界, 即LSC/IRb、IRb/SSC、SSC/IRa和IRa/LSC。在进化过程中, IRs区常发生收缩或向单拷贝区扩张现象, 这也是导致被子植物不同类群叶绿体基因组长度差异的一个重要原因[42]。Downie等[43]研究发现, 伞形科植物叶绿体基因组的LSC/IRb及IRa/LSC边界在不同属间常存在较大变异。本研究对柴胡属7种10个代表植物个体叶绿体全基因组IR/SC边界位置的分析结果显示, IRs区长度分别为26 288~26 310 bp, 其中, rps19基因横跨LSC和IRb区, 其下游有70 bp的序列位于IRb区; ycf1基因横跨SSC和IRa区, 下游有1 871~1 877 bp的序列分布于IRa区, 种间、种内均未出现明显的IRs区收缩或扩张现象, 说明柴胡属植物叶绿体基因组IRs区大小和基因组成高度保守。但与伞形科当归属[40]、四带芹属[41]、天胡荽属Hydrocotyle L.[43]等的植物IRs区大小均存在明显差异, 与Downie等的研究结果一致。

SSRs也称为微卫星DNA (microsatellites DNA), 是以少数核苷酸(一般1~6个) 为基本重复单元构成的简单串联重复序列, 普遍存在于真核生物基因组中, 具有多态性高、分布广泛、两端(侧翼) 序列高度保守等特点[44]。此外, 分布于植物叶绿体基因组中的SSRs还同时兼具单亲遗传模式, 被作为分子标记广泛用于群体遗传学[45]、谱系地理学[46]等相关研究。本研究分析结果表明, 柴胡属7种10个代表植物个体叶绿体全基因序列中的SSRs均以单核苷酸重复(占总数的65.28%~75.00%) 为主要类型, 其次为二核苷酸(12.12%~20.83%) 和三核苷酸(7.81%~12.28%), 且随着拷贝数目增加, SSRs数量明显减少。单核苷酸和二核苷酸SSRs的重复序列类型分别以A/T (约占单核苷酸SSRs总数的91.49%~100%) 和AT/TA (100%) 为主, 三核苷酸SSRs的重复单元亦主要由A、T碱基组合(ATA/AAT/ATT/TAA/TAT/TTA, 60%~80%) 构成, 进一步验证了叶绿体基因组序列中的SSRs主要由polyA或polyT所构成, 而较少出现C或G串联重复这一结论[47]。这些SSRs可以为柴胡属药用植物分子遗传学相关研究提供候选分子标记。

基于mVISTA的叶绿体全基因组序列比较分析结果(图 2) 可以看出, 柴胡属植物叶绿体全基因组序列的种内变异小于种间, 北柴胡同种3个不同个体间叶绿体全基因组序列高度保守; 同时, IRs区序列的变异显著小于LSC和SSC区, 且编码序列的变异低于非编码序列(基因间区和部分内含子), 这与Li等[17]对柴胡属5种植物叶绿体基因组序列的分析结果相同, 也与伞形科其他属[40, 41]及其他被子植物多个不同类群叶绿体基因组序列变异模式一致[48-50]。此外, 核苷酸多样性分析结果显示, 柴胡属不同物种间及北柴胡同种不同个体间叶绿体全基因组序列的核苷酸多样性指数Pi平均值分别为0.005 6和0.000 4, 同时, LSC、SSC和IRs区序列的种间Pi平均值依次为0.006 3、0.008 8和0.001 1, 进一步证明柴胡属植物叶绿体全基因组序列在种内和种间均高度保守, 且序列变异主要出现在LSC和SSC区, 与mVISTA分析结果一致。

柴胡属药用植物是中药材的重要来源, 但由于属内物种数量较多, 不同种间甚至同种不同个体间常存在不同程度的形态变异, 导致种间分类鉴定与系统发育关系存在较多问题。本研究基于叶绿体全基因组序列构建的系统发育树中, 除紫花阔叶柴胡(NC_036017) 与三岛柴胡之间姐妹关系的支持率为93%之外, 其余分支均得到100%的支持率; 此外, 7个不同物种间的遗传距离为0.001~0.015 (平均为0.005 1), 显著高于北柴胡同种3个不同个体间的遗传距离(0~0.001, 平均为0.000 3), 说明柴胡属植物叶绿体全基因组序列包含丰富的种间演化信息位点。然而紫花阔叶柴胡同种两个不同个体MN756856和NC_036017却并未聚类为一支, 而是NC_036017与三岛柴胡以93%支持率构成姐妹关系, 再与MN756856共同聚为一个单系。进一步对这3个叶绿体全基因组序列进行了两两分析比较, 结果发现, 紫花阔叶柴胡MN756856和NC_036017两者之间存在293 bp的变异位点, 遗传距离为0.002, 而三岛柴胡与MN756856和NC_036017之间的变异位点数量分别为207 bp和217 bp, 遗传距离均为0.001。结合前人基于形态特征、染色体核型和核基因序列的研究结论[9, 11], 推测这一结果可能是由于样品鉴定问题引起。因此, 在保证原始实验材料准确鉴定的前提下, 可以增加种间、种内个体取样密度, 并结合核基因数据进一步进行分析验证。

被子植物叶绿体基因组序列中的一些高变异区(divergence hotspot regions) 序列往往可以作为物种鉴定及系统发育关系分析等相关研究的分子标记[51]。本研究在柴胡属种间共筛选到11条Pi值> 0.015的高变异序列。然而, 尽管这11条序列联合分析构建的系统发育树拓扑结构与叶绿体全基因组序列分析结果基本一致, 但多个干群节点的支持率明显降低。这一结果说明有限的分子片段所包含的种间系统发育信息不足, 而叶绿体全基因组序列是解决柴胡属植物种间分类鉴定和系统发育关系问题一个更为理想的选择。

作者贡献: 第一作者张明英负责论文设计、实验、数据分析及论文撰写; 通讯作者张岗负责论文设计、数据分析和论文指导; 李依民、高静、沈霞参与实验及数据分析; 颜永刚、杨新杰参与样品采集; 张雨曲、王昌利参与数据分析。所有作者参与论文修改。

利益冲突: 本文所有的作者之间不存在利益冲突。

参考文献
[1]
She ML, Watson MF. Apiaceae(Umbelliferae)in Flora of China[M]. Beijing: Science Press, 2005: 60-74.
[2]
Huang HQ, Wang XH, Fu H, et al. Research progress on medicinal plant resources of Bupleurum L.[J]. Chin Tradit Herb Drugs(中草药), 2017, 48: 2989-2996.
[3]
Pan SL, Shun QS, Bai QM, et al. The Coloured Atlas of the Medicinal Plants from Genus Bupleurum in China(中国药用柴胡原色图志)[M]. Shanghai: Shanghai Science and Technology Literature Publishing House, 2002.
[4]
Li SJ. Bupleurum L. in Medicinal Flora of China(中国药用植物志)[M]. Beijing: Peking University Medical Press, 2018: 607-647.
[5]
Chinese Pharmacopoeia Commission. Pharmacopoeia of the People's Republic of China(中华人民共和国药典)[M]. Beijing: China Medical Science Press, 2020: 293.
[6]
Sun P, Li YJ, Wei S, et al. Pharmacological effects and chemical constituents of Bupleurum[J]. Mini Rev Med Chem, 2019, 19: 34-55.
[7]
Liu SH, Tsai HP, Guo JL, et al. Anti-inflammatory effect and chemical composition of Bupleurum chinense and Bupleurum kaoi[J]. Nat Prod Chem Res, 2014, 2: 139.
[8]
Yu JQ, Deng AJ, Qin HL. Distinctive features of chemical composition of Bupleurum chinense applicable to original authentication[J]. Anal Methods, 2014, 6: 1067-1075. DOI:10.1039/C3AY41530A
[9]
Liang QL, Wang CB, Ma XG, et al. Chromosomal study on Chinense Bupleurum L. (Apiaceae)[J]. Plant Sci J(植物科学学报), 2013, 31: 11-22.
[10]
Ma XG, Wang CB, He XJ. Micromorphological features of pericarp surface of Bupleurum L. (Apiaceae)in China and its taxonomic significance[J]. Acta Bot Boreal-Occident Sin(西北植物学报), 2010, 30: 1388-1396.
[11]
Wang CB, Ma XG, He XJ. Fruit features of some Bupleurum species(Apiaceae)and their systermatical implication[J]. Plant Sci J(植物科学学报), 2011, 29: 399-408.
[12]
Wang PL, Pu FD. Pollen morphology of Bupleurum L. from SinoHimalaya and its systematic significance[J]. Chin J Appl Environ Biol(应用与环境生物学报), 1995, 1: 34-43.
[13]
Wang CB, Ma XG, He XJ. A taxonomic reassessment in the Chinese Bupleurum(Apiaceae): insights from morphology, nuclear ribosomal internal transcribed spacer, and chloroplast(trnH-psbA, matK)sequences[J]. J Syst Evol, 2011, 49: 558-589. DOI:10.1111/j.1759-6831.2011.00157.x
[14]
Wang QZ, Zhou SD, Liu TY, et al. Phylogeny and classification of Chinese Bupleurum based on nuclear ribosomal DNA internal transcribed spacer and rps16[J]. Acta Biol Crac Ser Bot, 2008, 50: 105-116.
[15]
Moon BC, Choo BK, Ji YI, et al. Molecular authentication and phylogenetic relationship of Bupleurum species by the rDNA-ITS sequences[J]. Korea J Herbol, 2009, 24: 59-68.
[16]
Yuan BC, Li WD, Ma YS, et al. The molecular identification of Bupleurum medicinal species and the quality investigation of Bupleuri Radix[J]. Acta Pharm Sin(药学学报), 2017, 52: 162-171.
[17]
Li J, Xie DF, Guo XL, et al. Comparative analysis of the complete plastid genome of five Bupleurum species and new insights into DNA barcoding and phylogenetic relationship[J]. Plants(Basel, Switzerland), 2020, 9: 543.
[18]
Zhou J, Gong X, Downie SR, et al. Towards a more robust molecular phylogeny of Chinese Apiaceae subfamily Apioideae: additional evidence from nr DNA ITS and cpDNA intron(rpl16 and rps16)sequences[J]. Mol Phylogenet Evol, 2009, 53: 56-68. DOI:10.1016/j.ympev.2009.05.029
[19]
Zhang F, Zhao ZY, Yuan QJ, et al. The complete chloroplast genome sequence of Bupleurum chinense DC. (Apiaceae)[J]. Mitochondr DNA Part B Resour, 2019, 4: 3665-3666. DOI:10.1080/23802359.2019.1678427
[20]
Zhang F, Yang Z, Wang Z, et al. The complete chloroplast genome sequence of Bupleurum scorzonerifolium Willd. (Apiaceae)[J]. Mitochondr DNA Part B Resour, 2020, 5: 1998-1999. DOI:10.1080/23802359.2020.1756489
[21]
Wu Y, Zhang TZ, Qiu DY, et al. Complete plastid genome of Bupleurum boissieuanum, an endemic herb plant in western China[J]. Conserv Genet Resour, 2018, 10: 635-637. DOI:10.1007/s12686-017-0890-2
[22]
Shin DH, Lee JH, Kang SH, et al. The complete chloroplast genome of the Hare's ear root, Bupleurum falcatum: its molecular features[J]. Genes, 2016, 7: 20. DOI:10.3390/genes7050020
[23]
Deng XD, Liu HZ, Yang YH, et al. The first complete chloroplast genome sequence of the medicinal plant Bupleurum marginatum(Apiaceae)[J]. Mitochondr DNA Part B Resour, 2020, 5: 1836-1838. DOI:10.1080/23802359.2020.1752122
[24]
Zhao ZC, Liu J, Zhou MM, et al. Chloroplast genome characterization of Bupleurum dracaenoides, a critically endangered woody species endemic to China, with insights of Apioideae phylogeny[J]. Gene Rep, 2020. DOI:10.1016/j.genrep.2020.100784
[25]
Yang LC, Xiong F, Xiao YM, et al. The complete chloroplast genome of Bupleurum longicaule var. strictum, an annual herb endemic to China[J]. Mitochondr DNA Part B Resour, 2020, 5: 899-901. DOI:10.1080/23802359.2020.1718024
[26]
Patel RK, Jain M. NGS QC Toolkit: a toolkit for quality control of next generation sequencing data[J]. PLoS One, 2012, 7: e30619. DOI:10.1371/journal.pone.0030619
[27]
Jin JJ, Yu WB, Yang JB, et al. GetOrganelle: a simple and fast pipeline for de novo assembly of a complete circular chloroplast genome using genome skimming data[J]. Bio Rxiv, 2018, 4: 256479.
[28]
Wick RR, Schultz MB, Zobel J, et al. Bandage: interactive visualization of de novo genome assemblies[J]. Bioinformatics, 2015, 31: 3350-3352. DOI:10.1093/bioinformatics/btv383
[29]
Kearse M, Moir R, Wilson A, et al. Geneious basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data[J]. Bioinformatics, 2012, 28: 1647-1649. DOI:10.1093/bioinformatics/bts199
[30]
Langmead B, Salzberg SL. Fast gapped-read alignment with Bowtie 2[J]. Nat Methods, 2012, 9: 357-359. DOI:10.1038/nmeth.1923
[31]
Qu XJ, Moore MJ, Li DZ, et al. PGA: a software package for rapid, accurate, and flexible batch annotation of plastomes[J]. Plant Methods, 2019, 15: 50. DOI:10.1186/s13007-019-0435-7
[32]
Kurtz S, Choudhuri JV, Ohlebusch E, et al. REPuter: the manifold applications of repeat analysis on a genomic scale[J]. Nucleic Acids Res, 2001, 29: 4633-4642. DOI:10.1093/nar/29.22.4633
[33]
Benson G. Tandem repeats finder: a program to analyze DNA sequences[J]. Nucleic Acids Res, 1999, 27: 573-580. DOI:10.1093/nar/27.2.573
[34]
Beier S, Thiel T, Munch T, et al. MISA-web: a web server for microsatellite prediction[J]. Bioinformatics, 2017, 33: 2583-2585. DOI:10.1093/bioinformatics/btx198
[35]
Frazer KA, Pachter L, Poliakov A, et al. VISTA: computational tools for comparative genomics[J]. Nucleic Acids Res, 2004, 32(suppl_2): W273-W279.
[36]
Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies[J]. Bioinformatics, 2014, 30: 1312-1313. DOI:10.1093/bioinformatics/btu033
[37]
Katoh K, Toh H. Parallelization of the MAFFT multiple sequence alignment program[J]. Bioinformatics, 2010, 26: 1899-1900. DOI:10.1093/bioinformatics/btq224
[38]
Tamura K, Stecher G, Peterson D, et al. MEGA6: molecular evolutionary genetics analysis version 6.0[J]. Mol Biol Evol, 2013, 30: 2725-2729. DOI:10.1093/molbev/mst197
[39]
Librado P, Rozas J. Dna SP v5: a software for comprehensive analysis of DNA polymorphism data[J]. Bioinformatics, 2009, 25: 1451-1452. DOI:10.1093/bioinformatics/btp187
[40]
Park I, Yang S, Kim WJ, et al. Sequencing and comparative analysis of the chloroplast genome of Angelica polymorpha and the development of a novel indel marker for species identification[J]. Molecules, 2019, 24: 1038. DOI:10.3390/molecules24061038
[41]
Kang L, Xie DF, Xiao QY, et al. Sequencing and analyses on chloroplast genomes of Tetrataenium candicans and two allies give new insights on structural variants, DNA barcoding and phylogeny in Apiaceae subfamily Apioideae[J]. Peer J, 2019, 7: e8063. DOI:10.7717/peerj.8063
[42]
Kim KJ, Lee HL. Complete chloroplast genome sequences from Korean ginseng(Panax schinseng Nees)and comparative analysis of sequence evolution among 17 vascular plants[J]. DNA Res, 2004, 11: 247-261. DOI:10.1093/dnares/11.4.247
[43]
Downie SR, Jansen RK. A comparative analysis of whole plastid genomes from the Apiales: expansion and contraction of the inverted repeat, mitochondrial to plastid transfer of DNA, and identification of highly divergent noncoding regions[J]. Syst Biol, 2015, 40: 336-351.
[44]
Powell W, Morgante M, Mc Devitt R, et al. Polymorphic simple sequence repeat regions in chloroplast genomes: applications to the population genetics of pines[J]. Proc Natl Acad Sci U S A, 1995, 92: 7759-7763. DOI:10.1073/pnas.92.17.7759
[45]
Du Q, Wang B, Wei Z, et al. Genetic diversity and population structure of Chinese white poplar(Populus tomentosa)revealed by SSR markers[J]. J Hered, 2012, 103: 853-862. DOI:10.1093/jhered/ess061
[46]
Chmielewski M, Meyza K, Chybicki I, et al. Chloroplast microsatellites as a tool for phylogeographic studies: the case of white oaks in Poland[J]. iForest, 2015, 8: 765-771. DOI:10.3832/ifor1597-008
[47]
Kuang DY, Wu H, Wang YL, et al. Complete chloroplast genome sequence of Magnolia kwangsiensis(Magnoliaceae): implication for DNA barcoding and population genetics[J]. Genome, 2011, 54: 663-673. DOI:10.1139/g11-026
[48]
Yang QQ, Jiang M, Wang LQ, et al. Complete chloroplast genome of Allium chinense: comparative genomic and phylogenetic analysis[J]. Acta Pharm Sin(药学学报), 2019, 54: 173-181.
[49]
Zhou JG, Chen XL, Cui YX, et al. Molecular structure and phylogenetic analyses of complete chloroplast genomes of two Aristolochia medicinal species[J]. Int J Mol Sci, 2017, 18: 1839. DOI:10.3390/ijms18091839
[50]
Zhu S, Niu Z, Xue Q, et al. Accurate authentication of Dendrobium officinale and its closely related species by comparative analysis of complete plastomes[J]. Acta Pharm Sin B, 2018, 8: 969-980. DOI:10.1016/j.apsb.2018.05.009
[51]
Li XX, Tan W, Sun JH, et al. Comparison of four complete chloroplast genomes of medicinal and ornamental Meconopsis species: genome organization and species discrimination[J]. Sci Rep, 2019, 9: 10567. DOI:10.1038/s41598-019-47008-8