畜牧兽医学报  2023, Vol. 54 Issue (7): 2772-2782. DOI: 10.11843/j.issn.0366-6964.2023.07.011    PDF    
芯片和重测序在猪遗传结构研究中的应用比较
杨晴1,2, 巩静1,2, 赵雪艳2,3, 朱晓东4, 耿立英1, 张传生1, 王继英2,3     
1. 河北科技师范学院动物科技学院,秦皇岛 066600;
2. 山东省农业科学院畜牧兽医研究所 山东省畜禽疫病 防治与繁育重点实验室,济南 250100;
3. 农业农村部畜禽生物组学重点实验室,济南 250100;
4. 枣庄黑盖猪养殖有限公司,枣庄 277100
摘要:旨在比较芯片与测序SNP分型技术、标记密度对遗传多样性、系统发生树和近交系数等分析结果的影响,探讨遗传结构分析中低成本、高效的分型方法和适宜的SNP密度。本研究以35头枣庄黑盖猪的CAUPorcineSNP50芯片数据和重测序数据为基础,以重测序数据为“原材料”构建了随机34K、均匀34K、均匀340K和均匀3 400K 4个SNP面板,利用CAUPorcineSNP50芯片和各SNP面板的SNP标记分析了枣庄黑盖猪的遗传多样性、系统发生树和基因组近交系数。结果表明:1)利用芯片SNP标记分析的观察杂合度(observed heterozygosity, HO)(0.385 9 vs. 0.320 0~0.324 1)、期望杂合度(expected heterozygosity, HE)(0.381 3 vs. 0.333 5~0.334 6)、遗传距离(0.305 7 vs. 0.279 8~0.280 6)等遗传多样性指标值均高于各测序SNP面板,利用芯片SNP标记构建的系统发生树与各测序SNP面板存在较大不同,这可能是由于芯片设计中倾向于选择高MAF的SNP位点等原因所导致。2)各测序SNP面板对HO (0.320 0~0.324 1)、HE(0.333 5~0.334 6)、遗传距离(0.279 8~0.280 6)和系统发生树分析影响较小,但对纯合性片段(runs of homozygosity, ROH)的数目(784~106 547)和长度(0.20~13.51 Mb)及基因组近交系数FROH(0.127~0.263)影响很大。目前畜禽基因组近交系数分析采用的50 K左右基因组SNP芯片有利于检测大片段ROH,对中小片段的ROH检测力差,故估计的基因组近交系数可能比实际值偏低。综上所述,不同SNP分型技术对遗传多样性、系统发生树和ROH的分析结果影响较大。测序组中,不同SNP密度对遗传多样性、系统发生树分析结果影响较小,但对ROH以及FROH分析结果影响很大。
关键词SNP芯片    重测序    遗传多样性    系统进化树    基因组近交系数    
Comparison of Array and Resequencing in Pig Genetic Structure Studies
YANG Qing1,2, GONG Jing1,2, ZHAO Xueyan2,3, ZHU Xiaodong4, GENG Liying1, ZHANG Chuansheng1, WANG Jiying2,3     
1. College of Animal Science and Technology, Hebei Normal University of Science and Technology, Qinhuangdao 066600, China;
2. Shandong Key Laboratory of Animal Disease Control and Breeding, Institute of Animal Science and Veterinary Medicine, Shandong Academy of Agricultural Sciences, Jinan 250100, China;
3. Key Laboratory of Livestock and Poultry Multi-omics of Ministry of Agriculture and Rural Affairs, Jinan 250100, China;
4. Zaozhuang Heigai Pig Breeding Co. Ltd., Zaozhuang 277100, China
Abstract: This study aimed to compare the effects of SNP genotyping techniques (array and sequencing) and marker densities on the analysis results of genetic diversity, phylogenetic tree and genomic inbreeding coefficient, and explore low-cost and efficient genotyping method and appropriate SNP density in genetic structure study. The data of the CAUPorcine SNP50 array and the resequencing data of 35 Zaozhuang Heigai pigs were used in this study. In this study, using resequencing data as "raw materials", 4 SNP panels of random 34K, even 34K, even 340K and even 3 400K were constructed. The genetic diversity, phylogenetic tree and genomic inbreeding coefficient of Zaozhuang Heigai pigs were analyzed using SNP data of CAUPorcine SNP50 array and several sequencing panels. The results showed that: 1) The index values of genetic diversity, including observed heterozygosity (HO) (0.385 9 vs. 0.320 0-0.324 1), expected heterozygosity (HE) (0.381 3 vs. 0.333 5-0.334 6), and genetic distance (0.305 7 vs. 0.279 8-0.280 6), estimated by array SNPs were higher than those by the SNPs of sequencing panels, and the phylogenetic tree constructed by array SNPs was of much difference from those by the SNPs of sequencing panels. These may be caused by the tendency of choosing higher minor allele frequency (MAF) SNPs in array design. 2) All sequencing panels had small impact on the analysis results of HO (0.320 0-0.324 1), HE (0.333 5-0.334 6), genetic distance (0.279 8-0.280 6) and phylogenetic tree, but had great impact on the number (784-106 547) and length (0.20-13.51 Mb) of runs of homozygosity (ROH) and genomic inbreeding coefficient (FROH) (0.127-0.263). Currently used 50 K genome-wide SNP arrays in the analysis of inbreeding coefficient of livestock and poultry is good at detection of large fragments of ROHs, but weak in identification small and medium ones. So the genomic inbreeding coefficient estimated by them may be lower than the actual value. In summary, different SNP genotyping techniques have a significant impact on the analysis results of genetic diversity, phylogenetic tree, and ROH. In the sequencing group, different SNP densities had a small impact on genetic diversity and phylogenetic tree analysis results, but had a significant impact on ROH and FROH analysis results.
Key words: SNP array    resequencing    genetic diversity    phylogenetic tree    genomic inbreeding coefficient    

随着高密度芯片和测序技术的高速发展,生物全基因组范围内检测出的标记数量逐渐增多,大量的遗传标记信息使基因组遗传变异分析得以更为准确和精准的实施。当前,SNP芯片与测序技术已成为动植物进行遗传变异信息分析工作的主要工具,被广泛应用于遗传多样性分析[1-2]、选择信号检测[3-4]、全基因组关联分析[5-6]、基因组选择等[7-8]。SNP芯片具有自动化、成本低、效率高等优点,但其存在检测位点较少、特异性强、无法发现新功能位点等缺点[9]。测序不受参考基因组的限制,甚至可通过提高测序深度来获得所测样本的全部遗传变异信息,包括覆盖低、中、高密度甚至全基因组范围内的所有已知或未知的SNP位点信息[10],但其存在数据量大、分析复杂、成本较高的缺点[11]。实际研究中,还是要根据研究目的选择适当的分型方法。虽然增加SNP检测密度会提高分析结果的准确度,但在实际应用中,高密度分型会带来高昂的经济成本,极大地限制了高密度标记在基因组遗传变异分析中的应用空间,所以根据研究目的探索适当的标记密度和经济的分型方法,保证分析结果的准确性,成为近年来SNP标记分析的热点研究内容之一。

已有报道显示,低密度面板的基因组选择,通过基因型填充等方法能够达到中高密度,甚至测序数据相似的基因组预测精确程度,是一种低成本且高效的遗传评估方法[12-14]。但是分析不同分型方法或不同SNP密度对全基因组遗传变异分析结果是否存在影响且影响是否较大的报道仍较少。因此,本研究以35头枣庄黑盖猪的高密度SNP芯片数据和重测序SNP数据为基础,利用重测序信息构建不同密度的SNP面板,以探究不同SNP分型方法和不同SNP密度对遗传变异分析的影响,找到适用于遗传变异分析的低成本、高效的分型方法和SNP密度,为今后猪及其他畜禽遗传特性分析中适宜的基因分型技术和标记密度的选择提供重要参考。

1 材料与方法 1.1 样本来源

本研究所用的35头枣庄黑盖猪均采自山东省枣庄黑盖猪养殖有限公司,包括16头母猪和19头公猪。采集试验猪耳组织样品存放于装有75%酒精的2 mL冻存管内,放入-20 ℃低温冰箱中保存备用。

1.2 DNA提取与质检

取样本耳组织0.5 g左右,采用血液/细胞/组织基因组DNA提取试剂盒(DP304,TIANGEN公司,北京)进行基因组DNA的提取。利用NanoDrop 2000和琼脂糖凝胶电泳对DNA的浓度和质量进行检测,浓度>50 ng ·μL-1,1.8 < A260 nm/A280 nm < 2.0,1.8 < A260 nm/A230 nm < 2.2,电泳条带清晰,无拖尾现象。

1.3 基因分型和质控

使用CAUPorcineSNP50芯片(北京康普森生物技术有限公司)对35个个体进行SNP分型,SNP检出率平均为97.97%。基于华大-MGISEQ-T7技术测序平台,利用双末端测序(paired-end)的方法对35个个体进行基因组重测序,平均测序深度为13X,Q20为98.18%。原始数据质控后,使用BWA软件[15]的BWA-MEN算法将质控数据与参考基因组(Ensembl Sus Scrofa11.1)进行比对,使用GATA[16]进行重比对,最后使用Samtools软件[17]和Bcftools软件[18]检测基因组范围内的SNP。

使用Plink(V1.90)[19]对SNP芯片和重测序中的数据按如下标准进行质量控制,标准如下:1)仅保留位于常染色体上的SNP位点;2)芯片数据删除检出率(call rate) < 90%的SNP位点,重测序数据删除检出率 < 95%的SNP位点;3)删除检出率 < 90%的个体;4)删除最小等位基因频率(MAF) < 0.05的SNP位点。

1.4 不同密度SNP面板的构建

基于重测序检测的SNP位点,利用R语言CVrepGPAcalc包(https://github.com/SmaragdaT/CVrep/)构建不同密度的SNP面板[20],依据SNP芯片密度共设计了3个梯度,分别为34K、340K和3 400K。面板的构建有两种方法,第一种是在整个基因组中随机抽样来选择SNP,第二种是根据特定步长的物理距离均匀的选择SNP。其中,34K面板选择两种方法分别进行构建,340K和3 400K面板均采用第二种方法进行构建。

1.5 数据分析

使用Plink(V1.90)计算群体的最小等位基因频率(minor allele frequency, MAF)、观察杂合度(observed heterozygosity, HO)、期望杂合度(expected heterozygosity, HE)、群体内遗传距离等遗传多样性指标,使用Plink(V1.90)将数据格式转化为vcf格式,再利用vcf2phylip和Phylip通过邻接法(neighbor-joining, NJ)构建系统发生树[21-22],最后利用FigTreev1.4.4软件(http://tree.bio.ed.ac.uk/software/figtree/)将计算结果可视化。使用Plink(V1.90)计算状态同源距离(identity by descent distance, IBS距离),随后计算个体间遗传距离(1-IBS距离),并利用BioLadder在线软件(https://www.bioladder.cn/web/#/chart/6)绘制个体间遗传距离热图。

使用R语言CMplot软件包对SNP在染色体上的分布进行可视化,使用R语言detectRUNS软件包[23]对基因组进行长纯合片段(runs of homogeneity,ROH)检测并计算各分组内的群体内近交系数(FROH),参数设置[24-26]为:SNP密度最小为每1 000 kb必须有1个SNP;连续两个SNPs的间隔最大为1 000 kb;滑窗大小为50个SNPs;ROH滑窗中允许有1个SNP位点为杂合;ROH滑窗中允许有5个SNPs位点缺失;滑动窗口重叠比例至少为5%;ROH最少个数为40个SNPs。

2 结果 2.1 SNP分型与质控

利用CAUPorcineSNP50芯片和基因组重测序对35头枣庄黑盖猪进行基因组SNP检测,分别获得了43 832个和31 437 418个SNPs位点。芯片的SNP检出率平均为0.979 8,重测序的检出率平均为0.997 0。各质控条件下芯片和重测序数据SNP位点的详细剔除数量见表 1。经过数据质控后,芯片和测序数据剩余位点的比例分别为78.69%和65.76%。

表 1 SNP质控结果汇总 Table 1 Summary of SNP quality control results
2.2 不同密度SNP面板的构建

通过质控标准的芯片SNP位点个数为34 494个。依据芯片密度(34K)设置梯度,以重测序数据为“原材料”构建不同密度SNP面板。芯片和各密度SNP面板的SNP位点数目、MAF和相邻SNP间距详见表 2。可以看出,芯片标记MAF均值为0.292,高于测序各组标记的MAF均值(0.244~0.245)。密度同为34K的3组相比,芯片SNP间距均值最大(70 809.82 bp),均匀34K的次之(65 819.90 bp),随机34K的最小(63 359.20 bp)。但是,随机34K组SNP间距的标准差最大(80 185.61 bp),远高于芯片(57 626.21 bp)和均匀34K(1 771.16 bp)。综合来看,芯片的SNP位点在染色体上的分布均匀度介于随机34K和均匀34K之间。与图 1密度分布图所示结果一致。不同密度测序SNP面板(均匀34K、均匀340K和均匀3 400K)相比较,均匀34K的SNP间距均值约为均匀340K的10倍,基本与构建面板时采用的步长大小(10×)相一致,标准差大小随SNP密度的增加而减小。

表 2 芯片和各测序面板SNP数目、最小等位基因频率和间距 Table 2 SNP number, MAF and space of adjacent SNPs of array and sequencing panels
A. 芯片;B. 随机34K;C. 均匀34K A. Array; B. Random 34K; C. Even 34K 图 1 SNPs在染色体上密度分布图 Fig. 1 Density distribution map of SNPs on chromosomes
2.3 遗传多样性和遗传距离分析

利用芯片和各测序SNP面板的SNP标记分析枣庄黑盖猪的遗传多样性结果见表 3。可以看出,利用芯片SNP标记分析的HOHE、遗传距离均高于测序各组,利用各测序面板SNP标记分析的HOHE、遗传距离基本相同,特别是均匀分布的3组SNP(34K、340K和3400K)的遗传多样性指标更为接近。图 2展示了使用芯片和测序各组数据分析的35头枣庄黑盖猪样本间遗传距离矩阵热图,与表 3结果一致,芯片与随机34K及均匀分布SNP组间的差别最为明显。

表 3 芯片和各测序面板遗传多样性参数值 Table 3 Values of genetic diversity analyzed based on array and sequencing panels
A. 芯片;B. 随机34K;C. 均匀34K。矩阵中每一个小方格代表样本两两之间的遗传距离值,该值越大越接近紫色,越小越接近黄绿色 A. Array; B. Random 34K; C. Even 34K. Each small square in the matrix represents the genetic distance value between two samples, the larger the value, the color is closer to purple, and the smaller the value, the color is closer to yellow-green 图 2 样本间遗传距离热图 Fig. 2 Heat map of genetic distance between samples
2.4 系统发生树

利用芯片和各测序SNP面板的SNP标记构建了枣庄黑盖猪群体邻接法系统发生树,详见图 3。系统发生树是表示个体间亲缘关系的树状图,相同分支上的个体具有相近亲缘关系,为同一个家系。可以看出,基于芯片和各测序SNP面板的SNP标记构建的系统发生树均将35头枣庄黑盖猪划分为3大分支,每个大分支又可进一步细分成1~3个小分支。仔细对比分支上的个体,芯片与随机34K、芯片与3组均匀SNP数据均存在一定的差别,而3个均匀分布的SNP数据(34K、340K和3 400K)构建的系统发生树基本一致。

A. 芯片;B. 随机34K;C. 均匀34K;D. 均匀340K A. Array; B. Random 34K; C. Even 34K; D. Even 340K 图 3 邻接法构建的系统发生树 Fig. 3 Phylogenetic trees constructed by neighbor-joining method
2.5 基于ROH的基因组近交系数分析

利用芯片和各测序SNP面板的SNP标记分析了枣庄黑盖猪ROH和基因组近交系数,详见表 4。可以看出,芯片与随机34K相比,芯片检测的ROH数目少(723 vs. 784),但ROH长度大(14.86 Mb vs. 12.85 Mb),二者的FROH相近(0.125 vs. 0.127);均匀34K与随机34K相比,均匀34K数据检测到ROH数目更多(789 vs. 784),长度更大(13.51 Mb vs. 12.85 Mb),FROH近交系数更高(0.134 vs. 0.127)。3个均匀分布的数据组相比,随着标记密度增加,检测的ROH数目逐渐增多,ROH长度逐渐降低,估计的FROH近交系数也逐渐增加。

表 4 芯片和各测序面板ROH及基因组近交系数值 Table 4 ROH and genomic inbreeding coefficients based on array and sequencing panels
3 讨论

单核苷酸多态性(SNPs)是人类和其他动物可遗传的变异中最常见的一种,在基因组中广泛存在,作为第三代分子标记在畜禽遗传多样性分析、选择信号检测、全基因组关联分析、基因组选择等方面发挥着重要作用。近来的研究表明,人类基因组上SNP总数可达3 800万个[27],目前已鉴定出的猪SNP已经超过四千余万个[28]。基因组测序可以获得所测样本的全部SNP信息,因此,WGS数据有望可以用来更好地估计个体之间的真实关系[29]。SNP芯片仅包含了鉴定出的SNP位点的一个子集,SNP芯片的覆盖率和密度适当的情况下,在估计基因组关系、遗传多样性分析等方面与测序技术一样有价值[30]

本研究中,35头枣庄黑盖猪基因组重测序共检测到3 143.7万个SNPs位点,经过数据质控后,测序数据剩余位点的比例(65.76%)小于芯片数据(78.69%),这与基因组重测序检测到的SNPs中含有大量的(6 976 769个,占位点总数的22.19%)低MAF位点(MAF < 0.05)有关。与本研究结果一致,Wang等[31]、Eynard等[29]在对大约克猪、荷斯坦牛的基因组测序数据分析中也发现基因组测序包含了20%左右的低MAF(MAF < 0.05)位点。与基因组测序相比,芯片基因组SNP在设计过程中,优先选择测序样本中发现的高MAF的SNP位点[32]。本研究所用的CAUPorcineSNP50芯片整合现有重要经济功能基因公开报道的候选位点,并加入部分地方猪种全基因组重测序鉴定的特有SNP综合优化研制而成,所以该芯片SNP位点平均MAF值(0.292)高于各测序面板(0.244~0.245)。

利用芯片SNP标记分析的HOHE、遗传距离等遗传多样性各指标值均高于测序各组,利用芯片SNP标记构建的系统发生树与测序各组也存在较大不同,而测序各组SNP标记分析的遗传多样性各指标值基本相同,构建的系统发生树基本相似。本研究结果说明,分型方法对遗传多样性、遗传距离和系统发生树分析存在影响。以往的研究表明,芯片SNP位点由于倾向于选择高MAF位点、位点群体代表性不全面等原因(即确定偏倚(ascertainment biases))会影响遗传多样性、群体分化、连锁不平衡等分析的结果[33-35]。据此推测,本研究中芯片与测序对遗传距离分析结果的不同可能是由于芯片和测序标记MAF差异所致。在测序方法下,不同SNP密度对遗传多样性、遗传距离和系统发生树分析结果影响较小,说明3.4万个标记已经能充分满足系统发生树分析所需的标记数量,增加标记数目和增加数据运算量并不能进一步提高遗传多样性和系统发生树的分析精确性。

利用ROH计算基因组近交系数FROH是利用全基因组信息评估近交的一种方法,现已有多项研究证明它可以准确计算近交系数[36-37]。本研究利用芯片和各测序SNP面板的SNP标记分析的枣庄黑盖猪的ROH和基因组近交系数(表 4),随着标记密度增加估计的FROH近交系数也逐渐增加。说明SNP密度对ROH检测结果具有明显影响,该结果与Purfield等[38]、Feren akovi c ' 等[39]和Zhang等[40]在牛上的研究结果相似。当研究对象和ROH检测参数相同时,50K芯片适用于检测长ROH片段(> 4 Mb),770K芯片能够检测到大多数50K芯片检测不到的短ROH片段(0.5~1 Mb)[38-39]。长ROH片段反映最近世代发生过近交,而短ROH说明较远世代产生近交,因为世代数越短ROH片段被重组打断的可能性就越小,需要密度大于50K的基因型才能准确地检测出短ROH[40]。根据本研究结果可以看出,目前畜禽基因组近交系数分析采用的50K左右基因组SNP芯片有利于检测大片段ROH,对中小片段的ROH检测力较差,故估计的近交系数偏低。

4 结论

本研究以重测序数据为“原材料”构建了不同密度SNP面板,利用芯片和各测序SNP面板的SNPs标记分析枣庄黑盖猪的遗传多样性、系统发生树和基因组近交系数。结果表明,利用芯片SNP标记分析的HOHE、遗传距离等遗传多样性指标值均高于各测序组,利用芯片SNP标记构建的系统发生树与各测序组也存在较大不同,此外,芯片数据检测出的ROH长度较测序组大,基于ROH计算的近交系数偏小。各测序组的不同SNP密度对遗传多样性和系统发生树分析结果影响较小,但对ROH及基于ROH计算的基因组近交系数影响很大。因此,在研究初期进行试验设计时,要根据研究目的选择适宜的基因分型技术和标记密度,以降低成本和提高结果的准确性。

参考文献
[1]
JIN S H, XIA J J, JIA F M, et al. Complete mitochondrial genome, genetic diversity and phylogenetic analysis of Pingpu Yellow chicken (Gallus gallus)[J]. Animals(Basel), 2022, 12(21): 3037.
[2]
MACHOVA K, MARINA H, ARRANZ J J, et al. Genetic diversity of two native sheep breeds by genome-wide analysis of single nucleotide polymorphisms[J]. Animal, 2022, 17(1): 100690.
[3]
SUN X L, GUO J Z, LI L, et al. Genetic diversity and selection signatures in Jianchang Black goats revealed by whole-genome sequencing data[J]. Animals(Basel), 2022, 12(18): 2365.
[4]
CHEN Y G, WU X D, WANG J L, et al. Detection of selection signatures in Anqing Six-End-White pigs based on resequencing data[J]. Genes, 2022, 13(12): 2310. DOI:10.3390/genes13122310
[5]
ZHAO Y X, GAO G X, ZHOU Y, et al. Genome-wide association studies uncover genes associated with litter traits in the pig[J]. Animal, 2022, 16(12): 100672. DOI:10.1016/j.animal.2022.100672
[6]
SUN Y X, SANG Q Q, YIN Z T, et al. Genome-wide association study identified the candidate genes associated with angel wing trait in Pekin duck[J]. Anim Genet, 2023, 54(2): 211-215. DOI:10.1111/age.13289
[7]
FERNANDES J G A, PERIPOLLI E, SCHMIDT P I, et al. Current applications and perspectives of genomic selection in Bos indicus (Nellore) cattle[J]. Livest Sci, 2022, 263(1): 105001.
[8]
ZHENG X, ZHANG T L, WANG T Z, et al. Long-term impact of genomic selection on genetic gain using different SNP density[J]. Agriculture, 2022, 12(9): 1463. DOI:10.3390/agriculture12091463
[9]
董磊. 基于全基因组重测序技术发掘晋汾白猪特异SNP位点[D]. 晋中: 山西农业大学, 2020.
DONG L. Discovery of specific SNP sites in Jinfen White pig based on whole genome resequencing[D]. Jinzhong: Shanxi Agricultural University, 2020. (in Chinese)
[10]
刘继强, 郝晓东, 武丽娜, 等. 全基因组SNP分型技术在畜禽遗传育种研究中的应用[J]. 畜牧兽医学报, 2022, 53(12): 1-16.
LIU J Q, HAO X D, WU L N, et al. Application of whole genome SNP genotyping technology in livestock and poultry genetics and breeding[J]. Acta Veterinaria et Zootechnica Sinica, 2022, 53(12): 1-16. (in Chinese)
[11]
李富. 奶山羊泌乳量GWAS分析及候选基因的筛选[D]. 杨凌: 西北农林科技大学, 2022.
LI F. GWAS analysis of milk production traits and screening of candidate genes in dairy goats[D]. Yangling: Northwest A&F University, 2022. (in Chinese)
[12]
陈美佳. 不同密度SNP和低密度填充面板对凡纳滨对虾收获体重基因组预测准确性的影响[D]. 上海: 上海海洋大学, 2021.
CHEN M J. Effects of SNPs with different densities and low-density imputation panels on genomic prediction accuracy of harvest weight trait in Litopenaeus vannamei[D]. Shanghai: Shanghai Ocean University, 2021. (in Chinese)
[13]
曾浩南, 钟展明, 徐志婷, 等. 3款猪50K SNP芯片基因型填充至序列数据的效果评估[J]. 华南农业大学学报, 2022, 43(4): 5-10.
ZENG H N, ZHONG Z M, XU Z T, et al. Evaluation on genotype imputation performance of three porcine 50K SNP chips from chip data to sequencing data[J]. Journal of South China Agricultural University, 2022, 43(4): 5-10. (in Chinese)
[14]
陈宇, 邱奥, 张梓鹏, 等. 猪SNP液相芯片10K~50K基因型填充效果研究[J]. 畜牧兽医学报, 2022, 53(10): 3368-3376.
CHEN Y, QIU A, ZHANG Z P, et al. Study on the genotype imputation effect of 10 K~50 K genotype of pig SNP liquid chip[J]. Acta Veterinaria et Zootechnica Sinica, 2022, 53(10): 3368-3376. (in Chinese)
[15]
LI H, DURBIN R. Fast and accurate long-read alignment with Burrows-Wheeler transform[J]. Bioinformatics, 2010, 26(5): 589-595. DOI:10.1093/bioinformatics/btp698
[16]
YANG J, LEE S, GODDARD M, et al. GCTA: a tool for genome-wide complex trait analysis[J]. Am J Hum Genet, 2011, 88(1): 76-82. DOI:10.1016/j.ajhg.2010.11.011
[17]
LI H, HANDSAKER B, WYSOKER A, et al. The sequence alignment/map format and SAMtools[J]. Bioinformatics, 2009, 25(16): 2078-2079. DOI:10.1093/bioinformatics/btp352
[18]
NARASIMHAN V, DANECEK P, SCALLY A, et al. BCFtools/RoH: a hidden Markov model approach for detecting autozygosity from next-generation sequencing data[J]. Bioinformatics, 2016, 32(11): 1749-1751. DOI:10.1093/bioinformatics/btw044
[19]
PURCELL S, NEALE B, TODD-BROWN K, et al. PLINK: A tool set for whole-genome association and population-based linkage analyses[J]. Am J Hum Genet, 2007, 81(3): 559-575. DOI:10.1086/519795
[20]
TSAIRIDOU S, HAMILTON A, ROBLEDO D, et al. Optimizing Low-Cost Genotyping and Imputation Strategies for Genomic Selection in Atlantic Salmon[J]. G3 (Bethesda), 2020, 10(2): 581-590. DOI:10.1534/g3.119.400800
[21]
FELSENSTEIN J. PHYLIP (Phylogeny Inference Package) version3.6[M]. Seattle: Department of Genome Science, University of Washington, 2004.
[22]
KUHNER M K, FELSENSTEIN J. A simulation comparison of phylogeny algorithms under equal and unequal evolutionary rates[J]. Mol Biol Evol, 1994, 11(3): 459-468.
[23]
BISCARINI F, COZZI P, GASPA G, et al. detectRUNS: Detect Runs of Homozygosity and Runs of Heterozygosity in Diploid Genomes[DB/OL]. https://cran.case.edu/web/packages/detectRUNS/index.html, 2019-10-24.
[24]
MCQUILLAN R, LEUTENEGGER A L, ABDEL-RAHMAN R, et al. Runs of homozygosity in European populations[J]. Am J Hum Genet, 2008, 83(3): 359-372. DOI:10.1016/j.ajhg.2008.08.007
[25]
PERIPOLLI E, MUNARI D P, SILVA M V G B, et al. Runs of homozygosity: current knowledge and applications in livestock[J]. Anim Genet, 2017, 48(3): 255-271. DOI:10.1111/age.12526
[26]
詹慧雯. 基于重测序数据的不同猪品种群体遗传学参数估计与ROH分析[D]. 武汉: 华中农业大学, 2021.
ZHAN H W. The assessment of population genetic paramenters and genome-wide patterns of homozygosity in various swine breeds[D]. Wuhan: Huazhong Agricultural University, 2021. (in Chinese)
[27]
ABECASIS G, AUTON A, BROOKS L, et al. An integrated map of genetic variation from 1, 092 human genomes[J]. Nature, 2012, 491(7422): 56-65. DOI:10.1038/nature11632
[28]
AI H S, FANG X D, YANG B, et al. Adaptation and possible ancient interspecies introgression in pigs identified by whole-genome sequencing[J]. Nat Genet, 2015, 47(3): 217-225. DOI:10.1038/ng.3199
[29]
EYNARD S, WINDIG J, LEROY G, et al. The effect of rare alleles on estimated genomic relationships from whole genome sequence data[J]. BMC Genet, 2015, 16: 24.
[30]
PEREZ-ENCISO M. Genomic relationships computed from either next-generation sequence or array SNP data[J]. J Anim Breed Genet, 2014, 131(2): 85-96. DOI:10.1111/jbg.12074
[31]
WANG X Q, WANG L G, SHI L Y, et al. GWAS of reproductive traits in Large White pigs on chip and imputed whole-genome sequencing data[J]. Int J Mol Sci, 2022, 23(21): 13338. DOI:10.3390/ijms232113338
[32]
ALBRECHTSEN A, NIELSEN F C, NIELSEN R. Ascertainment biases in SNP chips affect measures of population divergence[J]. Mol Biol Evol, 2010, 27(11): 2534-2547. DOI:10.1093/molbev/msq148
[33]
NIELSEN R, SIGNOROVITCH J. Correcting for ascertainment biases when analyzing SNP data: applications to the estimation of linkage disequilibrium[J]. Theor Popul Biol, 2003, 63(3): 245-255. DOI:10.1016/S0040-5809(03)00005-4
[34]
GEIBEL J, REIMER C, WEIGEND S, et al. How array design creates SNP ascertainment bias[J]. PloS One, 2021, 16(3): e0245178. DOI:10.1371/journal.pone.0245178
[35]
DOKAN K, KAWAMURA S, TESHIMA K M. Effects of single nucleotide polymorphism ascertainment on population structure inferences[J]. G3 (Bethesda), 2021, 11(9): 128. DOI:10.1093/g3journal/jkab128
[36]
POLAK G, GURGUL A, JASIELCZUK, et al. Suitability of pedigree information and genomic methods for analyzing inbreeding of Polish Cold-Blooded horses covered by conservation programs[J]. Genes, 2021, 12(3): 429. DOI:10.3390/genes12030429
[37]
ALEMU S, KADRI N, HARLAND C, et al. An evaluation of inbreeding measures using a whole-genome sequenced cattle pedigree[J]. Heredity, 2021, 126(3): 410-423. DOI:10.1038/s41437-020-00383-9
[38]
PURFIELD D, BERRY D, MCPARLAND S, et al. Runs of homozygosity and population history in cattle[J]. BMC Genetics, 2012, 13: 70.
[39]
FERENČAKOVIĆ M, SOLKNER J, CURIK I. Estimating autozygosity from high-throughput information: effects of SNP density and genotyping errors[J]. Genet Sel Evol, 2013, 45(1): 42. DOI:10.1186/1297-9686-45-42
[40]
ZHANG Q Q, CALUS M, GULDBRANDTSEN B, et al. Estimation of inbreeding using pedigree, 50k SNP chip genotypes and full sequence data in three cattle breeds[J]. BMC Genetics, 2015, 16: 88.

(编辑   郭云雁)