森林与环境学报  2020, Vol. 40 Issue (1): 54-61   PDF    
http://dx.doi.org/10.13324/j.cnki.jfcf.2020.01.008
0

文章信息

顾光仕, 李颖林, 刘丹, 陈辉, 郑国华, 李煜
GU Guangshi, LI Yinglin, LIU Dan, CHEN Hui, ZHENG Guohua, LI Yu
锥栗基因组SSR开发及农家品种的遗传多样性分析
Development of genome SSR and analysis of genetic diversity in Castanea henryi
森林与环境学报,2020, 40(1): 54-61.
Journal of Forest and Environment,2020, 40(1): 54-61.
http://dx.doi.org/10.13324/j.cnki.jfcf.2020.01.008

文章历史

收稿日期: 2019-02-26
修回日期: 2019-09-18
锥栗基因组SSR开发及农家品种的遗传多样性分析
顾光仕1,2 , 李颖林1,2 , 刘丹1,2 , 陈辉1,2 , 郑国华1,2 , 李煜1,2     
1. 福建农林大学林学院, 福建 福州 350002;
2. 福建农林大学经济林研究所, 福建 福州 350002
摘要:本文对锥栗SSR富集文库进行Illumina MiSeq高通量测序,利用生物信息学对得到的序列进行SSR特征分析,开发锥栗基因组SSR并对农家品种进行了遗传多样性分析。在2 051 475条序列中,总共搜索到2 117 345个SSR,以复合形式存在的SSR数量为640 155个。二核苷酸为重复单元的SSR数量最多,占总数的73.22%,之后依次为三核苷酸(12.61%)、单核苷酸(12.56%)、四核苷酸(1.33%),单碱基重复、二碱基重复和三碱基重复的优势重复单元分别为:A/T、AC/GT、AAG/CTT。对SSR的长度多态性进行了评价。以8个农家品种为材料,在100对基因组SSR引物中筛选出多态性和特异性较好的引物10对。对25个锥栗农家品种进行了遗传多样性分析观测等位基因和期望杂合度分别为6.3和0.705,有效等位基因数为3.628,Shannon信息指数为1.441,表明锥栗农家品种具有较高的遗传多样性水平。
关键词锥栗    基因组    SSR    遗传多样性    
Development of genome SSR and analysis of genetic diversity in Castanea henryi
GU Guangshi1,2 , LI Yinglin1,2 , LIU Dan1,2 , CHEN Hui1,2 , ZHENG Guohua1,2 , LI Yu1,2     
1. College of Forestry, Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China;
2. Nontimber Product Forest Institute, Fujian Agriculture and Forestry University, Fuzhou, Fujian 350002, China
Abstract: SSR enriched library was sequenced by Illumina MiSeq, and the sequence of SSR was analyzed. Genome SSR was developed, and the genetic diversity of Castanea henryi cultivars was analyzed. In the 2 051 475 sequence, a total of 2 117 345 SSRs were searched, and the number of SSRs present in a composite form was 640 155. The most of SSRs was dinucleotide, accounting for 73.22% of the total, followed by trinucleotide (12.61%), single nucleotide (12.56%), and tetranucleotide (1.33%). The dominant repeating units of the single base, the two base and the three base are:A/T, AC/GT, AAG/CTT, respectively. The polymorphism of SSR was evaluated. Using 8 cultivars as materials, 10 pairs of primers with high polymorphism and specificity were screened in 100 pairs of genomic SSR primers, and the genetic diversity of 25 cultivars were analyzed. The locus and expected heterozygosity were 6.3 and 0.705, respectively. The effective allele number was 3.628, and the Shannon information index was 1.441. The results indicated that there was a high level of genetic diversity in the cultivars of C. henryi.
Key words: Castanea henryi (Skam)Rehd. et Wils.     genome     simple sequence repeat (SSR)     genetic diversity    

锥栗[Castanea henryi (Skam)Rehd. et Wils.]属壳斗科栗属树种,是我国南方著名的木本粮食和果材兼用树种,锥栗果实香甜可口,风味较板栗更佳。作为我国特有的栗属植物,锥栗分布于我国秦岭以南地区,现在闽北和浙南山区大面积种植[1]。相比于同属的板栗(Castanea mollissima Bl.)和茅栗(Castanea seguinii Dode),锥栗树干较为通直。4月底至6月中旬为锥栗的花期,9—10月为锥栗的集中收获期。锥栗喜光耐旱,生长环境要求排水良好,宜种植在海拔1 800 m以下的山坡,既抗旱又耐寒,生长较快。作为优良的经济树种,闽北锥栗拥有抗逆性强、产量高和果实品质佳等一系列优良特性,经过不断地人工选育与嫁接繁殖,建瓯市已经培育出30多个优良农家品种[2-3],对林农致富和山区经济发展发挥了重要作用。长期以来,由于缺乏相应的科学管理手段,野生锥栗资源经营管理还相对比较粗放,其果实品质较差,经济效益不高,加之近年来的开荒种果,植树造林,野生锥栗资源正在不断遭受破坏,面积也在逐年缩小[4]。需要通过分子标记对锥栗野生和栽培群体进行遗传多样性分析,制定相应的保护策略。

限制性片段长度多态性(restriction fragment length polymorphism, RFLP)和扩增片段长度多态性(amplified fragment length polymorphism,AFLP)分子标记技术复杂,操作繁琐,具有放射性危害;随机扩增多态性DNA(random amplified polymorphic DNA,RAPD)、相关序列扩增多态性(sequence-related amplified polymorphism,SRAP)、简单重复序列间扩增(inter-simple sequence repeat, ISSR)标记技术重复性差[5]。简单重复序列间(simple sequence repeat, SSR)分布于整个基因组中,SSR分子标记具有高多态性、共显性,重复性和稳定性好,对DNA要求低,操作简单,高性价比等特性,广泛应用于遗传多样性研究,种质资源鉴定、遗传图谱构建及基因定位等[6]。董蒙蒙等[7-8]通过SRAP和其他栗属SSR分子标记对建瓯市17个主栽农家品种进行遗传多样性分析,利用10对SRAP引物获得200个条带,多态性条带183个,利用12对其他栗属SSR引物共扩增出180个条带,多态性条带163个,表明建瓯市17个主栽农家品种遗传多样性丰富。向晖等[9]通过15个SRAP引物组合对7个野生锥栗居群共扩增出221个位点,平均多态性位点数为155.06,23个锥栗品种多态性位点百分率占比为89.14%,刘国彬[10]通过13对ISSR引物,对锥栗37个农家品种共扩增出来156条谱带,多态性条带为129条,这些研究都表明锥栗具有丰富的遗传多样性。目前的遗传多样性研究均使用其它栗属树种的SSR,锥栗SSR还未开发,限制了锥栗遗传育种的研究。

本研究将对锥栗SSR富集文库进行Illumina MiSeq高通量测序,利用生物信息学对得到的序列进行SSR特征分析,开发锥栗基因组SSR并对农家品种进行遗传多样性分析。开发的基因组SSR为锥栗栽培和野生群体的遗传多样性研究奠定基础。

1 材料与方法 1.1 研究材料

选取福建农林大学经济林研究所泰宁试验地的25个农家品种。以野生锥栗种子育苗为砧木,于2000年将25个农家品种繁育成无性系,种植于泰宁。田间试验采用完全随机区组设计,每小区10株,3次重复,株行距4 m×4 m,对25个农家品种进行1~25编号。本研究于2017年5月采集各农家品种的无病害叶片,通过水培带回实验室,用锡箔纸包裹叶片置于液氮中速冻,将样品保存于-80 ℃冰箱中。

1.2 研究方法 1.2.1 DNA提取

采集无病害叶片,通过改良CTAB法提取DNA,用0.8%的琼脂糖凝胶电泳检测DNA的质量,用Nano Drop ND-1000核酸蛋白检测仪(Nano Drop Technologies Inc.,美国)检测DNA的浓度。

1.2.2 SSR富集文库的构建及测序

将15个农家品种的DNA混池后片段化,构建标准的基因组文库(文库的插入片段大小控制在400 bp左右);采用选择杂交法(磁珠富集法)富集基因组文库中的SSR片段;SSR富集所采用的探针包括8种,即p(AG)10、p(AC)10、p(AAC)8、p(ACG)8、p(AAG)8、p(AGG)8、p(ACAT)6和p(ATCT)6;将富集到的基因组文库上机测序,采用Illumina MiSeq系统收集数据。测序数据中包含一些带接头、低质量的Reads,通过接头污染去除、质量过滤、长度过滤得到高质量Reads。将建库测序的文库Read的R1端和R2端进行整合。采用FLASH的4个参数对序列进行整合, 参数为①没min overlap:10;②max mismatch density:0.5;③allow “outie” pairs:false;④cap mismatch quals:false。运用SSR识别工具(microsatellite identification tool,MISA)搜索mono-10、di-6、tri-5、Tetra-5、penta-5、hexa-5,符合序列中两个不同SSR允许的最大间隔设置为100 bp。采用Perl程序屏蔽序列上的重复序列(用字母R代替),过滤掉侧翼序列短于20 bp的SSR(过短的侧翼序列无法进行相似性比对)。利用uclust(v1.2.22 q)软件对过滤后的序列进行聚类,聚类所采用的核苷酸序列的相似度设置为98%。采用Perl程序对聚类结果进行解析,根据SSR的长度分别对每一个类进行统计,一个类中所有SSR的长度一致,则该类的多态性为1;如果同一类中SSR具有2种长度则该类的多态性为2;依次类推,获得每一个类的SSR的多态性。

1.2.3 SSR引物筛选

将得到的SSR引物通过多态性长度及重复碱基数选择100对SSR引物进行筛选,反应体系:约55 ng DNA,2.5 mmol·L-1 MgCl2,2 μL 1xPCR buffer,1.5 U Taq酶,0.2 mmol·L-1 dNTPs,0.4 mmol·L-1上游引物,0.4 mmol·L-1下游引物,加ddH2O至25 μL。PCR反应程序:95 ℃预变性5 min;30个循环(94 ℃变性50 s,60 ℃退火50 s,72 ℃延伸2 min);72 ℃延伸10 min。

取5 μL的PCR扩增产物,使用8%非变性聚丙烯酰胺凝胶进行电泳分离DNA片段,电压250 V,电泳150 min后取下凝胶,蒸馏水漂洗2次,每次1 min;通过固定液,固定延伸产物;蒸馏水漂洗2次,每次1 min;置于银染液中,进行染色;蒸馏水漂洗2次,每次10 s,置于显色液中进行显色;蒸馏水漂洗2次,每次1 min,终止染色。使用数码相机照相, 采取人工读取电泳图的方式,进行筛选。选取8个农家品种对100对基因组SSR引物进行筛选。

1.2.4 农家品种的遗传多样性分析

利用筛选的引物对25个农家品种进行PCR扩增,数据转换成POPGENE软件要求的格式;使用POPGENE version1.32软件计算以下多态性指数:观测基因数(Na),有效等位基因数(Ne)、观测杂合度(Ho)、期望杂合度(He)、Shannon信息指数(I)、Nei总基因多样性(Ht)、Nei′s种群内基因多样性(Hs)、基因分化系数(FST)、基因流(Nm);利用NTSYS 2.1软件计算遗传相似系数(simple match coefficient,SM)以及以非加权组平均法(unweighted pair-group method using arithmetic average algorithm,UPGMA)进行聚类分析。

2 结果与分析 2.1 测序数据统计

通过Illumina MiSeq高通量测序找到1 249 808 996 bp碱基数,有5 145 026个Reads,平均242.91个Reads,710个模糊碱基(表 1)。得到2 572 513个序列,碱基序列长度在35~251 bp,GC值为35.8%。由图 1可知,单碱基质量分布处于25%~75%之间,本次测序过滤后的数据平均质量较好。

表 1 测序数据统计 Table 1 Sequencing data statistics
样品名
Sample
文库名
Lib. name
Reads总数
Reads number
碱基总数
Total bases/bp
模糊碱基
占比N/%
GC含量
GC content/%
碱基识别率在99%以上
的碱基占比Q20/%
碱基识别率在99.99%以上
的碱基占比Q30/%
锥栗C. henryi PE400 5 145 026 1 249 808 996 5.6e-05 35.8 89.89 80.4
注:横坐标是reads碱基位置(5′→3′),纵坐标是所有reads在该位点碱基Q值统计。红线代表中位数,蓝线代表平均数,黄线代表 25%~75%区间,触须是10%~90%区间。Note:the abscissa is the reads base position (5′→3′), and the ordinate is the statistics of the base Q values of all reads at that position.The red line represents the median, the blue line represents the average, the yellow line represents the 25%-75% range, and the tentacles are in the 10%-90% range. 图 1 单碱基质量分布图 Fig. 1 Single base mass distribution map
2.2 基因组SSR特征分析

通过计算read的R1端和R2端整合后各序列的长度,做出长度分布图(图 2),序列长度主要集中在200~250与350~400 bp之间。通过过滤得到高质量Reads数量4 729 726,占下机Reads的91.93%。通过序列合并,得到2 364 881,可以合并的Read pair数2 051 475对,占整数的86.75%。在2 051 475条序列中,总共搜索到2 117 345个SSR。在所有具有SSR的序列中565 603条序列包含1个以上SSR,以复合形式存在的SSR数量为640 155个(表 2)。

图 2 序列长度分布图 Fig. 2 Sequence length map
表 2 SSR搜索结果统计 Table 2 SSR search result statistics
序列特征Sequence characteristic 值Value
序列数量
Total number of sequences examined
2 051 475
序列长度
Total size of examined sequences/bp
639 558 631
SSR的数量
Total number of identified SSRs
2 117 345
包含SSR的序列数量
Number of SSR containing sequence
1 386 501
包含1个以上SSR的序列的数量
Number of sequences containing more than one SSRs
565 603
以复合形式存在的SSR的数量
Number of SSRs present in compound formation
640 155

分别对不同类型的SSR模体进行统计。在锥栗基因组SSR数据库中,以二核苷酸为重复单元的SSR含量最多,占总数的73.22%,之后依次为三核苷酸(12.61%)、单核苷酸(12.56%)、四核苷酸(1.33%)、六核苷酸(0.23%)和五核苷酸(0.06%)(表 3)。

表 3 SSR模体结果统计 Table 3 SSR phantom result statistics
SSR模体类型SSR motif type SSR模体数量SSR motif number 百分比Percentage/%
单核苷酸重复模体Mononucleotide repeat motifs 265 848 12.56
双核苷酸重复模体Dinucleotide repeat motifs 1 550 263 73.22
三核苷酸重复模体Trinucleotide repeat motifs 266 923 12.61
四核苷酸重复模体Tetranucleotide repeat motifs 28 112 1.33
五核苷酸重复模体Pentanucleotide repeat motifs 1 262 0.06
六核苷酸重复模体Hexanucleotide repeat motifs 4 937 0.23
总重复模体Total repeat motifs 2 117 345 100.00

对每一种SSR重复类型,按照碱基序列组成进行细分,单碱基重复、二碱基重复和三碱基重复的优势重复单元分别为:单核苷酸优势重复类型为A/T,有255 848条,占单碱基重复类型的95.94%。双核苷酸优势重复类型为AC/GT,有693 105条,占二碱基重复类型的44.71%。三核苷酸优势重复类型为AAG/CTT,有110 713条,占三碱基重复类型的41.48%。其结果统计见表 4

表 4 单、双、三核苷酸重复模体结果统计 Table 4 Statistics of mono-, di-, and tri-nucleotide repeat phantom
重复Repeat 类型Type 数量Number
单核苷酸重复模体
Mono-nucleotide
A/T 255 072
C/G 10 776
合计Total 265 848
双核苷酸重复模体
Di-nucleotide
AC/GT 693 105
AG/CT 621 939
AT/AT 230 220
CG/CG 4 999
合计Total 1 550 263
三核苷酸重复模体
Tri-nucleotide
AAC/GTT 88 221
AAG/CTT 110 713
AAT/ATT 19 376
ACC/GGT 5 309
ACG/CGT 8 265
ACT/AGT 1 577
AGC/CTG 2 939
AGG/CCT 19 778
ATC/ATG 9 224
CCG/CGG 1 521
合计Total 266 923

根据SSR的长度分别对每一类进行统计,同一类中所有SSR的长度聚类进行分析,SSR长度多态性中为17的为1。长度多态性1、2和3为98.65%,说明锥栗SSR长度多态性较低,结果见表 5

表 5 SSR长度多态性评估 Table 5 SSR length polymorphism assessment
类别Terms 群集计数Count of clusters 百分比Percentage/%
SSLP=1 521 052 81.48
SSLP=2 84 956 13.29
SSLP=3 24 181 3.78
SSLP=4 6 719 1.05
SSLP=5 1 774 0.28
SSLP=6 512 0.08
SSLP=7 172 0.03
SSLP=8 54 0.008 4
SSLP=9 22 0.003 4
SSLP=10 8 0.001 3
SSLP=11 2 0.000 3
SSLP=12 2 0.000 3
SSLP=17 1 0.000 2
Total 639 455 100.00
注:SSLP为同一类SSR的长度多态性。Note:SSLP means the length polymorphism among the same SSR.

根据SSR的长度分别对每一类进行统计,同一类中所有SSR的长度聚类进行分析,SSR长度多态性中为17的为1。长度多态性1、2和3为98.65%,说明锥栗SSR长度多态性较低,结果见表 5

2.3 基因组SSR的开发

以8个农家品种为材料,对100对引物进行筛选,最终选出稳定性好、重复性高和多态性高的10对基因组SSR引物组合(表 6图 3)。

表 6 基因组SSR引物序列 Table 6 Genome SSR primers
引物名称
Primer name
引物序列(5'→3')
Primer sequence(5'→3')
重复类型
Repeat type
预期片段大小
Expected fragment size/bp
退火温度
Annealing temperature/℃
FAFUZL-1 F:ATTGCTTTCGCTGTTGGTTT; R:AGCGTGATATCAGCGAACCT (GTTGGT)6 123 60
FAFUZL-2 F:AAATCTGCGTGAGAGGCTGT; R:AACGGTGGTCTGATTTCTGATT (TCACAC)5 278 60
FAFUZL-3 F:CGGTGCATCTGTCAATCAG; R: ACCAGTGCATGTCCACAGAA (TGGGTG)5 177 60
FAFUZL-4 F:CTCTGCCTCAAGTTTACGCC; R: CTGGCCTTATTGCATGTGTG (CGTGTG)8 143 60
FAFUZL-5 F:CAGGGAATGCAAGTGATGAA; R: TTGGTACCGTCCTCTGAGTTG (GGTGTT)6 137 60
FAFUZL-6 F:AGCCAGTGGTTTCACGGTAG; R: CCTCTCTTTGACCCAACCAA (TGGTGT)7 154 60
FAFUZL-7 F:ACCGTACTACGCTCCACAGG; R: TTGGTACCGTCCTCTGAGTTG (GGTGTT)5 276 60
FAFUZL-8 F:ATTGTCGTTGTTGTTGGGGT; R: AACGGTGGTCTGATTTCTGATT (TCACAC)5 144 60
FAFUZL-9 F:CCACCGCACTTGTACCCTAT; R: GGCCGTAGAAGTTGAGCTTG (CCCACA)6 227 60
FAFUZL-10 F:TAGCGGTAGTTTTTGCACCC; R: CTGCCCTGTGTACTCCATCA (GT)13 193 60
注:泳道1~8为引物FAFUZL-1的扩增结果、泳道9为maker、泳道10~17为引物FAFUZL-3的扩增结果。Note: lanes 1-8 are the amplification results of the primer FAFUZL-1, lane 9 is the maker, and lanes 10-17 are the amplification results of the primer FAFUZL-3. 图 3 基因组SSR引物筛选 Fig. 3 Primer screening of genomic SSR
2.4 遗传多样性分析

利用10对SSR引物组合,对25个福建省泰宁县锥栗主栽农家品种进行扩增,共扩增出70个位点,平均每对引物扩增出7个位点,扩增片段大小主要集中在111~355 bp之间。FAFUZL-4和FAFUZL-2观测等位基因和期望杂合度最高,平均观测等位基因和期望杂合度分别为6.3和0.705(表 7)。FAFUZL-4有效等位基因数最高,平均有效等位基因数为3.628。FAFUZL-4的Shannon信息指数最高,平均Shannon信息指数为1.441。FAFUZL-5观察杂合度为0.958,高于其它9对SSR引物,表明锥栗农家品种具有较高的遗传多样性水平。

表 7 10对SSR引物组合的扩增多态性 Table 7 The polymorphism of the 10 SSR primers
引物名称
Primer name
观测等位基因
Na
有效等位基因数
Ne
Shannon信息指数
I
观察杂合度
Ho
期望杂合度
He
FAFUZL-4 9.000 5.031 1.879 0.708 0.801
FAFUZL-1 3.000 2.327 0.947 0.458 0.570
FAFUZL-2 9.000 5.016 1.786 0.955 0.801
FAFUZL-6 6.000 2.571 1.191 0.792 0.611
FAFUZL-9 5.000 2.711 1.217 0.500 0.631
FAFUZL-8 6.000 3.470 1.433 0.958 0.712
FAFUZL-10 7.000 3.338 1.452 0.478 0.700
FAFUZL-3 5.000 3.149 1.316 0.800 0.682
FAFUZL-5 5.000 4.056 1.491 0.958 0.753
FAFUZL-7 8.000 4.610 1.695 0.864 0.783
平均Mean 6.300 3.628 1.441 0.747 0.705
2.5 遗传相似性与聚类分析

由25个锥栗农家品种的遗传相似系数可知(表 8),25个锥栗农家品种遗传相似系数在0.957~0.471之间,变幅为0.486,表明25个锥栗农家品种间存在较大的遗传变异,其中6号农家品种和14号农家品种遗传相似系数最大,说明二者的亲缘关系最近,遗传差异最小;19号农家品种和21号农家品种相似系数最小,说明两者亲缘关系最远,遗传差异最大。

表 8 25个锥栗农家品种的遗传距离与遗传相似系数 Table 8 The genetic distance and the similarity coefficients of 25 C. henryi culticars
品种
Cultivar
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1 1 0.700 0.800 0.700 0.671 0.657 0.700 0.729 0.700 0.757 0.771 0.729 0.600 0.700 0.757 0.671 0.700 0.600 0.729 0.700 0.543 0.757 0.643 0.757 0.786
2 0.357 1 0.671 0.943 0.714 0.671 0.771 0.686 0.771 0.629 0.729 0.657 0.586 0.714 0.800 0.743 0.714 0.529 0.657 0.743 0.471 0.657 0.543 0.686 0.771
3 0.223 0.398 1 0.700 0.700 0.657 0.671 0.700 0.643 0.729 0.886 0.786 0.743 0.671 0.671 0.643 0.700 0.686 0.700 0.700 0.657 0.929 0.671 0.729 0.786
4 0.357 0.059 0.357 1 0.743 0.671 0.829 0.686 0.800 0.629 0.729 0.657 0.529 0.686 0.829 0.771 0.714 0.529 0.600 0.771 0.500 0.686 0.571 0.686 0.829
5 0.398 0.337 0.357 0.297 1 0.643 0.714 0.743 0.743 0.629 0.700 0.686 0.614 0.686 0.743 0.686 0.743 0.614 0.714 0.743 0.557 0.686 0.686 0.771 0.714
6 0.420 0.398 0.420 0.398 0.442 1 0.786 0.700 0.757 0.614 0.686 0.614 0.657 0.957 0.729 0.643 0.586 0.686 0.757 0.614 0.629 0.643 0.700 0.643 0.643
7 0.357 0.260 0.398 0.188 0.337 0.241 1 0.686 0.914 0.629 0.671 0.686 0.614 0.800 0.943 0.771 0.600 0.643 0.657 0.686 0.586 0.657 0.600 0.686 0.771
8 0.317 0.377 0.357 0.377 0.297 0.357 0.377 1 0.686 0.686 0.729 0.800 0.671 0.714 0.714 0.714 0.771 0.729 0.686 0.743 0.700 0.686 0.714 0.857 0.800
9 0.357 0.260 0.442 0.223 0.297 0.278 0.090 0.377 1 0.657 0.729 0.657 0.614 0.771 0.914 0.743 0.600 0.586 0.686 0.686 0.500 0.629 0.543 0.686 0.743
10 0.278 0.464 0.317 0.464 0.464 0.487 0.464 0.377 0.420 1 0.729 0.743 0.586 0.657 0.657 0.571 0.714 0.586 0.714 0.657 0.500 0.686 0.629 0.714 0.686
11 0.260 0.317 0.121 0.317 0.357 0.377 0.398 0.317 0.317 0.317 1 0.786 0.686 0.729 0.671 0.671 0.671 0.629 0.643 0.700 0.600 0.843 0.614 0.729 0.786
12 0.317 0.420 0.241 0.420 0.377 0.487 0.377 0.223 0.420 0.297 0.241 1 0.757 0.657 0.686 0.657 0.771 0.671 0.686 0.714 0.643 0.771 0.657 0.857 0.771
13 0.511 0.535 0.297 0.638 0.487 0.420 0.487 0.398 0.487 0.535 0.377 0.278 1 0.671 0.614 0.557 0.643 0.686 0.757 0.614 0.571 0.729 0.614 0.671 0.643
14 0.357 0.337 0.398 0.377 0.377 0.044 0.223 0.337 0.260 0.420 0.317 0.420 0.398 1 0.771 0.686 0.629 0.671 0.771 0.657 0.614 0.657 0.686 0.686 0.657
15 0.278 0.223 0.398 0.188 0.297 0.317 0.059 0.337 0.090 0.420 0.398 0.377 0.487 0.260 1 0.771 0.657 0.586 0.686 0.714 0.557 0.657 0.543 0.714 0.771
16 0.398 0.297 0.442 0.260 0.377 0.442 0.260 0.337 0.297 0.560 0.398 0.420 0.585 0.377 0.260 1 0.686 0.586 0.571 0.800 0.586 0.571 0.600 0.714 0.743
17 0.357 0.337 0.357 0.337 0.297 0.535 0.511 0.260 0.511 0.337 0.398 0.260 0.442 0.464 0.420 0.377 1 0.643 0.743 0.771 0.557 0.686 0.686 0.829 0.743
18 0.511 0.638 0.377 0.638 0.487 0.377 0.442 0.317 0.535 0.535 0.464 0.398 0.377 0.398 0.535 0.535 0.442 1 0.643 0.614 0.686 0.700 0.729 0.671 0.643
19 0.317 0.420 0.357 0.511 0.337 0.278 0.420 0.377 0.377 0.337 0.442 0.377 0.278 0.260 0.377 0.560 0.297 0.442 1 0.714 0.471 0.686 0.714 0.771 0.629
20 0.357 0.297 0.357 0.260 0.297 0.487 0.377 0.297 0.377 0.420 0.357 0.337 0.487 0.420 0.337 0.223 0.260 0.487 0.337 1 0.500 0.686 0.657 0.771 0.714
21 0.611 0.752 0.420 0.693 0.585 0.464 0.535 0.357 0.693 0.693 0.511 0.442 0.560 0.487 0.585 0.535 0.585 0.377 0.752 0.693 1 0.643 0.671 0.614 0.586
22 0.278 0.420 0.074 0.377 0.377 0.442 0.420 0.377 0.464 0.377 0.171 0.260 0.317 0.420 0.420 0.560 0.377 0.357 0.377 0.377 0.442 1 0.657 0.714 0.771
23 0.442 0.611 0.398 0.560 0.377 0.357 0.511 0.337 0.611 0.464 0.487 0.420 0.487 0.377 0.611 0.511 0.377 0.317 0.337 0.420 0.398 0.420 1 0.714 0.629
24 0.278 0.377 0.317 0.377 0.260 0.442 0.377 0.154 0.377 0.337 0.317 0.154 0.398 0.377 0.337 0.337 0.188 0.398 0.260 0.260 0.487 0.337 0.337 1 0.800
25 0.241 0.260 0.241 0.188 0.337 0.442 0.260 0.223 0.297 0.377 0.241 0.260 0.442 0.420 0.260 0.297 0.297 0.442 0.464 0.337 0.535 0.260 0.464 0.223 1

由聚类图(图 4)可知遗传相似系数为0.67时,25个农家品种可以聚为三大类,第Ⅰ类包括:23号、18号、21号农家品种;第Ⅱ类包括:6号、14号、19号、13号农家品种;第Ⅲ类包括其它18个农家品种。相似系数为0.79时,第III类被分为A~G7个小类。A类包括:16号、20号;B类包括:9号、15号、7号、2号、4号、25号;C类包括:8号、24号、12号、17号;D类包括:5号;E类包括:10号;F类包括:3号、22号、11号;G类包括1号。

图 4 25个锥栗农家品种的聚类图 Fig. 4 Clustering map of 25 C. henryi culticars
3 讨论与结论

锥栗基因组SSR种类丰富,在高质量可合并的2 051 475条序列中,总共搜索到2 117 345个SSR,以复合形式存在的SSR数量有640 155个。锥栗GC含量为35.8%,GC含量及其分布是生物体基因组的一个重要特征,由于GC通过3个氢键配对,GC含量通过影响基因组DNA的热稳定性来影响基因组的某些功能,所以GC含量对基因组特定区域的稳定及相关功能有重要的作用。GC含量还是物种演化的特征之一,不同物种基因组序列之间的GC含量相差很大,近缘物种的GC分布有相似的趋势,通过GC分布图,可以初步判断两个物种在演化上的距离,如拟南芥[Arabidopsis thaliana (Linn.) Heynh.]GC含量为36%左右,人类基因组的平均GC含量为42%左右。此外蛋白编码序列的GC含量较高,借助GC含量的不均一分布,还可以分析基因组的特征结构,如DNA复制起点。二核苷酸为重复单元的SSR含量最多,占总数的73.22%,之后依次为三核苷酸(12.61%)、单核苷酸(12.56%)、四核苷酸(1.33%)。单碱基重复和三碱基重复的优势重复单元为:A/T、AAG/CTT。

狗枣猕猴桃、杜仲(Eucommia ulmoides Oliv.)和油茶(Camellia oleifera Abel)重复单元最多为二核苷酸,次之为单核苷酸[12-14],枣(Ziziphus jujuba Mill.)、二穗短柄草[Brachypodium distachyon (L.) P.Beauv.]和玉米(Zea mays Linn.)基因组微卫星重复单元最多的为六碱基重复[15],而水稻(Oryza sativa Linn.)、高粱[Sorghum bicolor (L.)Moench]优势重复碱基为三碱基[16],与本试验结果不相同。因为不同物种的基因组存在大小不同,碱基比例不同,SSR丰富度不同,导致不同物种间的SSR重复碱基存在不同。张晗等[17]研究表明谷子[Setaria italica (L.) Beauv]的优势重复单元为二核苷酸和三核苷酸,与本试验结果相似,说明谷子和锥栗都拥有较高的变异频率和较久的进化史。

单核苷酸优势重复单元A/T为255 848个,与枣和杜仲重复形式相同。A/T碱基含量高,表明碱基的偏好性[18],可能是长期进化变异的结果。双核苷酸优势重复单元AC/GT和AG/CT为1 315 044个,与北美乔松和火炬松重复碱基类似,AC、GA、GT重复能影响DNA结构及DNA重组[19-20]

SSR具有分布范围广、检测模板的质量要求低、共显性、多态性高等优点,已经广泛应用于遗传多样性、基因定位克隆等研究中。另外,SSR标记比其他类型的分子标记更加经济和有效[21-25]。开发合适的SSR分子标记是构建遗传图谱的关键,遗传图谱是对数量性状定位的基础。徐礼羿利用茶树SSR构建了16个连锁群,图谱覆盖度为1 165.4 cmol,平均图距为6.7 cmol,并对茶树的茶橙瘿螨、日灼病和炭疽病抗性QTL的定位进行了分析[26]。本研究开发的SSR标记可以用于栗属树种的遗传多样性分析及遗传图谱的构建。

10对SSR引物组合对25个福建省泰宁县锥栗主栽农家品种共扩增出来70个位点,平均每对引物扩增出7个位点,扩增片段大小主要集中在111~355 bp之间,分布范围比较集中。平均观测等位基因和期望杂合度分别为6.3和0.705,平均有效等位基因数为3.628,平均Shannon信息指数为1.441,表明锥栗具有较高的遗传多样性水平。与董蒙蒙[27]在17个锥栗主栽农家品种的研究相比,本研究遗传多样性更为丰富。主要原因为本研究应用了通过高通量测序手段开发的锥栗SSR引物,与董蒙蒙使用的其它栗属树种的SSR不同;而且本研究使用的样本更丰富。

25个锥栗农家品种遗传相似系数在0.957~0.471之间,变幅为0.486,表明25个锥栗农家品种间存在较大的遗传变异,其中6号农家品种和14号农家品种遗传相似系数最大,说明二者的亲缘关系最近,遗传差异最小;19号农家品种和21号农家品种相似系数最小,说明二者亲缘关系最远,遗传差异最大。通过对锥栗农家品种的遗传多样性分析,可以为后续锥栗资源的开发利用提出合理的策略,从而为锥栗进一步的遗传改良提供参考。

参考文献(References)
[1]
陈辉. 锥栗人工林生态培育[M]. 北京: 中国林业出版社, 2000.
[2]
龚榜初, 陈增华. 锥栗农家品种资源调查研究[J]. 林业科学研究, 1997, 10(6): 574-580.
[3]
李颖林, 董蒙蒙, 陈辉, 等. 锥栗主栽农家品种表型性状变异及选择研究[J]. 西南林业大学学报, 2018, 38(3): 36-43.
[4]
吴光福. 借助情报调研开发野生锥栗[J]. 中国信息导报, 1996(6): 40.
[5]
赵君, 苏翻身, 于长虹, 等. 几种常用的分子标记技术的比较[J]. 内蒙古农业科技, 1999(3): 32-33.
[6]
李雪柔, 丁健, 阮成江, 等. RNA-seq技术开发刺五加目的基因SSR标记[J]. 分子植物育种, 2019, 17(14): 4722-4728.
[7]
董蒙蒙, 陈辉, 李颖林, 等. 基于SRAP的锥栗主栽农家品种遗传多样性分析[J]. 森林与环境学报, 2017, 37(4): 429-434.
[8]
董蒙蒙, 陈辉, 李煜, 等. 锥栗主栽农家品种遗传多样性的SSR分析[J]. 经济林研究, 2017, 35(2): 18-23.
[9]
向晖, 袁德义, 范晓明, 等. 锥栗种质资源遗传多样性的SRAP分析[J]. 植物遗传资源学报, 2016, 17(6): 1072-1081.
[10]
刘国彬.锥栗自然居群及农家品种遗传多样性的ISSR分析[D].武汉: 华中农业大学, 2009.
[11]
李煜.杜仲高密度遗传连锁图谱构建与重要数量性状的分子标记[D].咸阳: 西北农林科技大学, 2015: 13-14.
[12]
吴东洋, 业宁, 徐逸卿, 等. 狗枣猕猴桃叶绿体基因组微卫星特征分析[J]. 北方园艺, 2018(9): 30-35.
[13]
吴敏, 杜红岩, 乌云塔娜, 等. 杜仲基因组微卫星特征及SSR标记开发[J]. 林业科学研究, 2015, 28(3): 387-393. DOI:10.3969/j.issn.1001-1498.2015.03.013
[14]
史洁, 尹佟明, 管宏伟, 等. 油茶基因组微卫星特征分析[J]. 南京林业大学学报(自然科学版), 2012, 36(2): 47-51. DOI:10.3969/j.issn.1000-2006.2012.02.010
[15]
马秋月, 戴晓港, 陈赢男, 等. 枣基因组的微卫星特征[J]. 林业科学, 2013, 49(12): 81-87.
[16]
郑燕, 张耿, 吴为人. 禾本科植物微卫星序列的特征分析和比较[J]. 基因组学与应用生物学, 2011, 30(5): 513-520. DOI:10.3969/gab.030.000513
[17]
张晗, 王雪梅, 王东建, 等. 谷子基因组SSR信息分析和标记开发[J]. 分子植物育种, 2013, 11(1): 30-36.
[18]
SCHORDERET D F, GARTLER S M. Analysis of CpG suppression in methylated and nonmethylated species[J]. Proceedings of the National Academy of Sciences of the United States of America, 1992, 89(3): 957-961. DOI:10.1073/pnas.89.3.957
[19]
BIET E, SUN J S, DUTREIX M. Conserved sequence preference in DNA binding among recombination proteins:an effect of ssDNA secondary structure[J]. Nucleic Acids Research, 1999, 27(2): 596-600. DOI:10.1093/nar/27.2.596
[20]
ECHT C S, MAY-MARQUARDT P. Survey of microsatellite DNA in pine[J]. Genome, 1997, 40(1): 9-17.
[21]
TAUTZ D. Hypervariability of simple sequences as a general source for polymorphic DNA markers[J]. Nucleic Acids Research, 1989, 17(16): 6463-6471. DOI:10.1093/nar/17.16.6463
[22]
LIAO G L, LI Z Y, HUANG C H, et al. Genetic diversity of inner quality and SSR association analysis of wild kiwifruit (Actinidia eriantha)[J]. Scientia Horticulturae, 2019, 248: 241-247. DOI:10.1016/j.scienta.2019.01.021
[23]
吴艳艳, 田青兰, 刘洁云, 等.基于完全型SSR标记的西番莲遗传多样性分析[J/OL].分子植物育种, 1-6.(2019-02-26)[2019-03-22]. https://www.cnki.net/KCMS/detail/46.1068.s.20190225.1600.012.html.
[24]
李晓辉, 李新海, 李文华, 等. SSR标记技术在玉米杂交种种子纯度测定中的应用[J]. 作物学报, 2003, 29(1): 63-68.
[25]
白玉. DNA分子标记技术及其应用[J]. 安徽农业科学, 2007, 35(24): 7422-7424. DOI:10.3969/j.issn.0517-6611.2007.24.019
[26]
徐礼羿.茶树SSR遗传连锁图谱构建及茶橙瘿螨、日灼病和炭疽病抗性QTL的定位[D].雅安: 四川农业大学, 2016: 27-32.
[27]
董蒙蒙.基于表型性状与分子标记的锥栗主栽农家品种遗传多样性分析[D].福州: 福建农林大学, 2017: 59-63.
锥栗基因组SSR开发及农家品种的遗传多样性分析
顾光仕 , 李颖林 , 刘丹 , 陈辉 , 郑国华 , 李煜