畜牧兽医学报  2021, Vol. 52 Issue (12): 3323-3334. DOI: 10.11843/j.issn.0366-6964.2021.012.001    PDF    
整合生物学先验信息的全基因组选择方法及其在家畜育种中的应用进展
袁泽湖1,2, 葛玲3, 李发弟2, 乐祥鹏2, 孙伟1,3     
1. 扬州大学 教育部农业与农产品安全国际合作联合实验室, 扬州 225000;
2. 兰州大学草地农业科技学院 草地农业生态系统国家重点实验室/农业农村部草牧业创新重点实验室/教育部草地农业工程研究中心, 兰州 730020;
3. 扬州大学动物科学与技术学院, 扬州 225000
摘要:相较于传统的育种方法,全基因组选择(genomic selection,GS)通过对拟留种的个体进行早期选择和增加选择的准确性进而加快育种的遗传进展。通过改进GS方法无法再缩短育种的世代间隔,因而如何提高GS的准确性以获得额外的遗传进展一直是GS研究的核心问题。当前,各种组学技术不断成熟,从公开的资料或前期的研究积累获取生物学先验信息已比较容易。因而,如何在GS模型中整合已知的先验信息进而提高GS的准确性以获得额外的遗传进展成为当前育种研究的热点问题。本文对生物学先验信息的类型以及整合先验信息的GS方法进行综述,探讨了这些方法在家畜育种中的应用和前景,以期为家畜育种中开展整合生物学先验信息的GS研究提供借鉴与参考。
关键词生物学先验信息    全基因组选择    家畜育种    多组学    
The Method of Genomic Selection by Integrating Biological Prior Information and Its Application in Livestock Breeding
YUAN Zehu1,2, GE Ling3, LI Fadi2, YUE Xiangpeng2, SUN Wei1,3     
1. Joint International Research Laboratory of Agriculture and Agri-Product Safety of Ministry of Education, Yangzhou University, Yangzhou 225000, China;
2. Grassland Agriculture Engineering Center of Ministry of Education, Key Laboratory of Grassland Livestock Industry Innovation of Ministry of Agriculture and Rural Affairs, State Key Laboratory of Grassland Agro-ecosystems, College of Pastoral Agriculture Science and Technology, Lanzhou University, Lanzhou 730020, China;
3. College of Animal Science and Technology, Yangzhou University, Yangzhou 225000, China
Abstract: Compared to the traditional breeding methods, genomic selection (GS) accelerates the genetic progress of breeding by early selection and increasing the accuracy of selection for the individuals to be retained. It is unlikely shortened the generation interval by improving the GS methods. Therefore, how to improve the accuracy of GS to obtain additional genetic progress is the core issue of GS research. With the development of omics technology, it becomes possible to obtain multi-omics biological prior information from the public available databases or the in-house research. Therefore, how to integrate this useful biological prior information into GS models to improve the accuracy of GS has become an important topic in current animal breeding research. In this paper, the types of biological prior information and the GS methods that can integrate prior information is reviewed. Then, the application and prospects of these methods applied to livestock breeding is discussed. It is expected to provide useful information for the GS research that integrates biological prior information on livestock breeding.
Key words: biological prior information    genomic selection    livestock breeding    multi-omics    

全基因组选择(genomic selection,GS)[1]利用覆盖全基因组的标记信息计算全基因组育种值(genomic estimated breeding value,GEBV)。相较于传统的育种方法,GS通过对拟留种的个体进行早期选择和增加选择的准确性进而加快育种的遗传进展[2]。通过改进GS方法无法再缩短育种的世代间隔,因而如何提高GS的准确性以获得额外的遗传进展一直是GS研究的核心问题。

全基因组测序(whole genome sequencing,WGS)技术逐渐成熟,测序成本不断降低,对家畜进行大规模测序已成为可能。GS从基于标记与因果突变连锁的GS0.0时代(如利用50K芯片进行GS)发展到基于全基因组变异的GS2.0时代[3]。WGS检测的变异已包含了所有因果突变位点,因此GS2.0不再受标记与因果突变连锁不平衡(linkage disequilibrium,LD)的限制。理论上,基于全基因组变异的GS准确性应高于芯片(如50K)GS的准确性。然而,有研究结果显示当不考虑生物学先验信息时,基于全基因组变异的GS准确性并不比基于芯片的GS准确性高[4-6]。当前,各种组学技术不断成熟,从公开的资料或前期的研究积累获取生物学先验信息已比较容易。因而,如何在GS模型中整合已知的先验信息,进而通过提高GS的准确性获得额外的遗传进展成为当前动物育种研究的一个重要的课题。本文首先对生物学先验信息的类型以及整合先验信息的GS方法进行综述,并探讨了这些方法在家畜育种中的应用和前景,以期为家畜开展整合生物学先验信息的GS研究提供借鉴与参考。

1 生物学先验信息与先验信息获取群体 1.1 生物学先验信息

生物学先验信息,即预先知道的遗传学知识,由于单核苷酸多态性(single nucleotide polymorphisms,SNP)是育种中广泛使用的分子标记,因而对于GS来说,寻找生物学先验信息的核心任务是根据已知的遗传学知识对SNP的遗传贡献(即对重要经济性状的影响程度)进行排序或者分类。理论上,任何能够影响表型的各组学数据或已知的遗传学知识都能作为GS的生物学先验信息,因而先验信息可包括基因组、表观组、转录组、蛋白组、代谢组(图 1A)以及已知的基因功能注释或SNP注释等信息(图 1B)。

A.多组学数据;B.注释信息 A.Multi-omics data; B.Annotation information 图 1 潜在的生物学先验信息 Fig. 1 Potential biological prior information

在基因组层面,全基因组关联分析(genome-wide association study,GWAS)的结果是GS最常用的一种生物学先验信息[7-21](表 1),根据GWAS的P值和(或)标记效应很容易获得SNP对某一性状遗传贡献大小的信息(P值越显著的遗传贡献越大,标记效应大的遗传贡献大)。除GWAS外,选择信号的分析结果的也能作为GS的先验信息,如根据群体分化指数(FST)获得SNP遗传贡献的大小[22-23]。转录组数据也是一种重要的生物学先验信息(表 1),位于差异表达基因(differentially expressed genes, DEGs)内的SNP位点通常比其它SNP遗传贡献大[14]。同样,表观组的数据,如组蛋白修饰信息可作为GS的先验信息,因为位于组蛋白修饰区域的SNP比其它SNP具有更大的遗传贡献[24]。当前,蛋白组和代谢组数据还少有用作GS先验信息的报道[25]。此外,数据库的注释信息也是一类重要的先验信息,如基因本体(gene ontology,GO)注释信息[7, 26-27]、京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路注释[26]、动物数量性状基因座数据库(AnimalQTLdb)[28-30]等。整合不同类型的生物学先验信息,GS准确性的增幅并不相同[8],可见,不同的组学数据能够提供不同先验信息。目前的研究主要利用单一维度的先验信息,随着多组学数据的积累,如何系统地整合多组学数据并给予SNP恰当的遗传贡献仍面临挑战。最近有学者做了一些尝试,Xiang等[25]在奶牛的研究中提出了功能与进化性状遗传力打分方法(functional-and-evolutionary trait heritability,FAETH),FAETH根据SNP的遗传力对标记的遗传贡献进行排序,并在奶牛的GS中取得了较好的应用效果[31]。然而,计算FAETH需要多次计算SNP的遗传力,计算量大;在将来,应开发更多的算法整合多组学数据对SNP的遗传贡献进行排序或者分类。

表 1 生物学先验信息类别 Table 1 Type of biological prior information
1.2 先验信息获取群体

在早期整合生物学先验信息的GS研究中,由于可获得的先验信息相对匮乏,因而先验信息通常来自参考群体,比如,先在参考群体进行GWAS后[18, 36],再将GWAS的结果作为GS的生物学先验信息。此外,有学者为了提高计算效率和降低分型成本,仅使用先验信息(如GWAS显著的SNP位点)进行GS[9, 13-14]。这些尝试为生物学先验信息的利用奠定了重要基础。然而,先验信息获取群体与参考群体使用相同的数据和(或)仅使用先验信息进行GS时导致GS偏差(bias)变大[9, 18, 36]。偏差较大的原因可能是只利用部分标记无法准确地捕获群体的遗传结构信息或人为有选择地使用了随机的遗传信息[13]。因而,Macleod等[14]提出整合生物学先验信息的GS研究需要专门的先验信息获取群体,且要求先验群体与参考群体和验证群体相对独立;此外,不能仅使用先验信息而需要在基准芯片(如50K)的基础上添加先验信息,进而减少GS的偏差。随后,在绵羊部分肉用性状中按照这个方式划分各类群体进行GS,结果发现在50K芯片的基础上整合GWAS和eQTL先验信息并没有明显改变GS的偏差[11]。在实际应用中,应根据先验信息的类型决定是否需要先验信息发现群体,当利用数据库注释信息时,不需要先验信息获取群体。

2 整合生物学先验信息的全基因组选择方法

除了获得生物学先验信息以外,另一个核心的问题是如何应用这些先验信息,即开发合适的GS方法。当前整合生物学先验的GS方法大多是在GBLUP或者Bayes方法的基础上改进而来。整合生物学先验信息的GS方法按照整合先验的方式,可以大致分为3大类:第一类是根据生物学先验信息给予不同的SNP以不同的遗传权重,简称为位点特异的方法;第二类是根据生物学先验信息将SNP划分为几个不同的类别,给予不同类别的SNP以不同的遗传权重,简称类别特异的方法;第三类是将效应较大的SNP位点当作协变量, 简称为协变量方法。

2.1 位点特异的方法

2.1.1 基于BLUP的位点特异方法   最初用于GS的BLUP模型为SNP-BLUP[1],即GEBV为所有标记效应之和(Wb)。VanRaden[37]提出了与SNP-BLUP等价的GBLUP方法,即用GEBV向量g替换Wb;当群体中存在未分型的个体时,可采用一步法GBLUP(single step GBLUP, ssGBLUP)[38](图 2)。SNP-BLUP、GBLUP以及ssGBLUP都假设每个位点对性状的影响是相同的,因而不能整合生物学先验信息。不同的位点对同一性状的遗传贡献可能不同,基于BLUP的位点特异方法通过一个对角矩阵D=diag(di)对G矩阵进行加权以整合位点特异的先验信息,即${\rm{G = }}\frac{{{\rm{ZD}}{{\rm{Z}}^{\rm{'}}}}}{{{\rm{2}}\sum\nolimits_{{\rm{m = 1}}}^{\rm{m}} {{{\rm{p}}_{\rm{i}}}} \left( {{\rm{1 - }}{{\rm{p}}_{\rm{i}}}} \right)}}$,其中,Z为基因型矩阵,pi为i位点等位基因的频率,m为SNP的数目,主要的加权系数(di)见表 2

虚线框之内的方法不能整合生物学先验信息;虚线框之外的方法能够整合生物学先验信息;箭头表示方法的演变过程;公式中y为表型向量;μ为群体均值向量,b为标记效应,其效应服从正态分布N(0, Imσb2),Im为单位矩阵,σb2为标记效应方差。W为基因型矩阵;e为随机残差;g为基因组估计育种值向量,其值服从正态分布N(0, g2),G为基因组亲缘关系矩阵,σg2为加性遗传方差;A为基于系谱的亲缘关系矩阵;H为一步法GBLUP的亲缘关系矩阵;Z为校正后的基因型矩阵;D为亲缘关系的加权对角矩阵,对角线元素为di The methods within dashed box cannot integrate biological prior information; the methods outside the dashed box can integrate biological prior information; arrows indicate the evolution of the methods; y is a vector of phenotype; μ is a vector of population mean value; b is marker effects following a normal distribution N(0, Imσb2), where Im is an identity matrix, σb2 is the variance of marker effect; W is a matrix of genotype; e is a vector of random effect; g is a vector of genomic estimated breeding value following a normal distribution N(0, g2), where G is a genomic relationship matrix, σg2 is the additive genetic variance; A is a pedigree-based relationship matrix; H is a relationship matrix for ssGBLUP; Z is a matrix of scaled genotype; D is a diagonal matrix of weighted index for G matrix, where di is the ith element in main diagonal 图 2 基于最佳线性无偏估计(BLUP)的全基因组选择方法 Fig. 2 Genomic selection methods based on best linear unbiases prediction (BLUP)
表 2 G矩阵加权系数汇总信息 Table 2 Summariy information of weighted index (di) for G matrix

加权系数di主要来源于GWAS的P值,标记效应或标记方差。Gianola等[41]指出,加权系数di要能反应标记所能解释的遗传方差。Su等[18]在奶牛奶用性状中的研究结果显示,利用后验标记方差对G矩阵进行加权优于基于P值和标记效应的平方。Ren等[40]通过比较几种不同的加权策略发现不同的加权策略适合不同性状。因而,不同的性状需根据其遗传结构选择适合的加权系数。

获得加权系数di需要预先计算出每个标记的效应大小及加性遗传方差,因而计算量非常大。Zhang等提出了BLUP|GA方法[42-43],该方法通过构建T矩阵来替代G矩阵:

$ \mathit{\boldsymbol{T}} = \omega S + (1 - \omega )\mathit{\boldsymbol{G}} $

式中,ω为一个加权系数(未知),$S = \frac{{{Z_1}{D_1}Z_1^\prime }}{{2\sum\nolimits_{i = 1}^{{m_1}} {{p_i}} \left( {1 - {p_i}} \right)}}$Z1为标准化的基因型矩阵,D1为对角矩阵(对角元素di未知),m1为有先验信息的SNP数目(未知),pii位点等位基因的频率;未知的3个参数ω、di和m1通过交叉验证来获得最佳的数值。BLUP|GA回答了如何将GWAS结果直接整合GBLUP中,且其准确性高于GBLUP和BayesB。相较于之前的方法,BLUP|GA不需要为每一个位点分配一个不同的遗传权重,因而其计算量相对较低。Mouresan等[44]在SNP-BLUP的基础上,利用连接函数(link function)σb2=eα+βxj对特定的SNP位点指定特定的方差以整合生物学先验信息。这些方法都需要预先知道SNP对某一性状遗传贡献的大小,即性状特异的先验信息,如GWAS结果和QTL信息; 然而,它们难以利用非性状特异的先验信息,如基因和SNP的注释信息。为充分利用可获得的先验信息,有学者提出了根据基因注释信息和基因通路信息构建单倍型,基于单倍型再构建G矩阵以整合先验信息,即GHBLUP|GA[34, 45],相较于不整合先验信息,GHBLUP|GA方法能够提高GS的准确性。

2.1.2 基于Bayes的位点特异方法   传统的Bayes方法[46-48]不能整合生物学先验信息,因为这些方法都假定每个SNP以相同的概率影响某一性状(图 3)。BayesBπ[49]是在BayesB[1]的基础上改进而来,它根据SNP关联分析的P值大小来控制非零效应SNP的比率(π)以整合生物学先验信息,${\pi _i} = \frac{{\max (p) - {p_i}}}{{\max (p) - \min (p)}}$, 其中,i为第i个位点,p为关联分析P值向量,pi为第i位点的P值。

虚线框之内的方法不能整合生物学先验信息;虚线框之外的方法能够整合生物学先验信息;箭头表示方法的演变过程;公式中ui为标记效应,在不同的方法中服从不同的分布;π为效应值为零的标记的比率,在不同的方法中值不同。P表示关联分析P The methods within dashed box cannot integrate biological prior information; the methods outside the dashed box can integrate biological prior information; arrows indicate the evolution of the methods; ui is the marker effect which follows different distribution in different methods; π is the ratio of marker with effect equal to zero; P is the P value of association analysis 图 3 全基因组选择的Bayes方法 Fig. 3 Genomic selection methods based on Bayes
2.2 类别特异的方法

2.2.1 基于BLUP的类别特异方法   有学者提出了另一类整合先验的GFBLUP方法(图 2),与之前的对每一个SNP赋予不同的遗传权重不同,GFBLUP方法根据SNP位点的“遗传贡献”将其分为不同的类别,并通过拟合两个及以上的G矩阵赋予不同类别的SNP以不同的遗传权重[27, 50],即:

$ y = 1\mu + {g_1} + {g_2} + e $

式中,参数的含义与GBLUP相同,g1表示第一组标记的GEBV,g2表示第二组标记的GEBV。与此同时,有学者提出了与GFBLUP类似的MultiBLUP方法[51],即:

$ y = \mu + \sum\nolimits_{i = 1}^m {{g_i}} + e $

式中,参数的含义与GFBLUP类似。GFBLUP和MultiBLUP都能拟合两个及以上的随机变量。当样本数较大或者标记的密度过高时(如全基因组测序鉴定到的SNP),由于计算资源或者软件本身的限制,拟合两个或多个G矩阵的GFBLUP和MultiBLUP方法大大增加了计算负担。为了减少计算资源,两个或多个G矩阵还可以通过加权的方法进一步简化:

$ y = 1\mu + {g_{{\rm{Total }}}} + e $

式中,Var(gTotal)=[λG1+(1-λ)G2]σ2gTotalG1G2分别两个SNP数据集构建的亲缘关系矩阵,$。但这一种等价合并的方法需要在参考群体预先估计出每个随机效应的方差组分,尤其是样本数大、随机变量多、性状数量较多时,计算每个随机变量的方差组分也是一个挑战。

2.2.2 基于Bayes的类别特异方法   在大多数情况下,BayesR的准确性优于其它的Bayes方法,近年来有学者开发了简化版的BayesR方法SBayesR。SBayesR将BayesR模型拓展到了概述统计数据并通过考虑SNP之间的连锁不平衡(linkage disequilibrium,LD)信息将稠密亲缘关系矩阵变为稀疏矩阵以提高计算效率[52]。目前,类别特异的Bayes方法大多是从BayesR的基础上改进而来的。Brøndum等[53]提出了BayesRS方法,这一方法的思想与mutiBLUP类似,都是根据SNP集的方差组分,赋予不同类别的SNP以权重的先验信息。Macleod等[14]在BayesR的基础上提出了BayesRC方法,BayesRC与BayesR之间的主要区别在于BayesRC允许不同类别的SNP独立的计算标记效应来整合生物学先验信息[14],BayesRC和BayesRS主要的区别在于BayesRS允许不同的SNP集有不同的先验信息而BayesRC则允许不同的SNP集有不同的后验效应(图 4)。

2.3 协变量方法

与之前的方法不同,有学者直接提出了将效应大的位点作为协变量(covariate)放入混合线性模型中以提高GS的准确性[16, 54]。在奶牛繁殖性状(sire conception rate,SCR),通过这种方式将GS的准确性从0.340增加到0.403[16]。协变量方法适用于已鉴定到因果突变的性状;然而,家畜大多重要经济性状受多个QTL影响,且大多性状的因果突变位点仍未解析,当因果突变未知时,采用这种方法可能会因为加入了错误的协变量而降低GS的准确性,因而这种策略无法大面积提高GS的准确性。

2.4 基于机器学习策略的协变量及位点特异整合方法

最近,我国学者提出了KAML(Kinship Adjusted Multiple Loci Best Linear Unbiased Prediction)方法[55]。该方法主要通过两个途径提高GS的准确性,一是通过将效应大的位点当做协变量加入线性模型中;二是对G矩阵进行加权,加权系数为:

$ {d_i}\mid (\alpha , \beta ) \sim \left\{ {\begin{array}{*{20}{c}} {1;1 - \beta }\\ {1 + {{\log }_\alpha }{P_{m\beta }} - {{\log }_\alpha }{P_k};\beta } \end{array}} \right. $

其中,α为对数函数的基数(待估),β是加权的比率(待估),P为GWAS的P值,m为标记数目。与之前整合先验信息的方法不同,KAML通过机器学习方法(交叉验证、多元回归、网格搜索以及二分求极值等)智能化地选择将哪些位点当作协变量以及计算加权系数的值(即估计αβ)而非人为预先指定固定的值。一方面,KAML通过机器学习算法整合各种方法的优点,因此其准确性较高,目前已接近Bayes方法[55];另一方面,KAML也难以完全消除已有方法的缺陷,例如,利用单一的组学数据筛选效应较大的位点难免会出现假阳性。

3 整合生物学先验信息的GS在动物育种中的应用 3.1 整合生物学先验信息的GS在牛育种中的应用

产奶性状是奶牛最重要的一类性状,在奶牛中,品种内整合生物学先验信息的GS方法准确性增幅较低,如,Su等[18]利用位点特异的GBLUP方法,在奶产量、乳脂产量、乳蛋白产量等性状的GS中提高了2%的准确性。Macleod等[14]利用BayesRC方法在奶产量、乳脂产量、乳蛋白产量的GS提高了准确性,但平均增幅度较小(< 1%)。Mouresan等[56]整合QTL先验信息,在奶产量、乳脂率的GS中分别提高了0.014和0.051的准确性。Liu等[17]在产奶性状中,利用SNP注释先验信息,并没有提高GS的准确性。然而,品种间整合生物学先验信息的GS方法的准确性增幅远高于品种内的GS。Fang等[26, 57]整合GO、KEGG、差异表达基因等信息,发现跨品种的GS准确性幅度远大于品种内的增幅。在牛奶脂肪酸相关性状的GS中也有类似发现,整合GWAS结果在荷兰奶牛群体中平均提高38%的准确性,在丹麦群体中平均提高23%,在中国群体中平均提高13%[10]。可见,整合生物学先验信息进行GS时,亲缘关系的远近是影响准确性的一个重要因素。当亲缘关系比较近时(如品种内),不同分子标记之间处于高度连锁不平衡状态,很难将先验信息准确地赋予给相应的分子标记[58]。因而对于奶牛的育种,合理利用生物学知识,将有可能提高品种间(或亲缘关系较远的群体)的基因组预测准确性[59]。然而,不同品种之间QTL的效应的大小和方向、最小等位基因频率可能不同,使得品种间的预测变得更加复杂[58]

在Hanwoo肉牛的研究中,通过整合基于文本挖掘的先验信息利用GFBLUP方法,提高了背膘厚、眼肌面积、半膜肌剪切力、背最长肌剪切力、半膜肌肌内脂肪含量和背最长肌肌内脂肪含量GS的准确性[35]。在另一个研究中,整合GWAS和eQTL的先验信息利用加权GBLUP和BayesR对Hanwoon牛胴体重、大理石花纹打分、眼肌面积、背膘厚进行GS,准确性提高了0.01~0.05[9]。随后,Mehrban等[60]通过加权ssBLUP, 发现Hanwoon牛胴体性状GS和周岁重GS的准确性分别提高了71%和99%。国内肉牛整合生物学先验信息进行GS也取得了重要进展,Xu等[33]通过整合SNP的注释信息,采用方法多种策略对胴体重、宰前活重以及上脑重进行GS,结果发现准确性提高5.4%~9.8%。肉牛育种可以通过整合生物学先验信息的GS进行早期选育以及通过整合生物学先验信息提高GS的准确性以提高遗传进展。

3.2 整合生物学先验信息的GS在猪育种中的应用

与奶牛育种不同,猪的GS很难通过早期选育缩短其世代间隔[61]。因此,在猪的育种中,通过整合生物学先验信息提高GS的准确性,尤其是低遗传力的性状[62]以获得额外的遗传进展十分有意义。传统的GS方法对猪的生长或胴体性状已具有很好的预测准确性[61],当整合适当的先验信息和选择合适的GS方法,还能再提高眼肌深度[63]和日增重[63]、瘦肉率[28]等性状的准确性。然而,传统的GS对母猪的繁殖性状进行选择,准确性非常有限,因为母猪的参考群体较小且遗传力较低[61]。有研究发现,整合生物学先验信息的GS方法具有进一步提高提高母猪繁殖性状准确性的潜力[29]。若通过整合人、小鼠以及其它物种繁殖研究的信息以及猪繁殖性状相关基因的功能注释信息,整合生物学先验的GS方法在母猪的繁殖性状中具有较大的应用潜力。

3.3 整合生物学先验信息的GS在羊育种中的应用

相较于牛和猪,羊的产值低、遗传多样性高、经济性状种类多,包含肉用、毛用、奶用、繁殖等性状。因而,开发高精度、低成本、多性状的GS方法才能支撑羊的高效育种。在50K芯片的基础上,通过整和基于重测序的GWAS先验信息、eQTL的先验信息均能提高绵羊重要经济性状GS的准确性[13]。可见,在50K基准芯片的基础上优化GS的方法和使用先验信息可提高GS的准确性,且不至于额外增加过多的经济和计算负担。在低密度芯片的基础上通过整合生物学先验信息以提高GS的准确性,可能是以后羊GS育种的可行之策。

4 存在问题与展望

GS的准确性与遗传进展成正相关,与传统的GS方法相比,整合生物学先验信息的方法通过提高GS的准确性以获得额外的遗传进展。当前的生物学先验信息大多来自单一组学的数据,所能提供的信息有限,随着家畜基因组功能注释信息的持续积累和完善[64],如何系统地整合多组学的数据并准确地给予分子标记以准确的遗传权重仍需要开发新的方法。此外,当前整合生物学先验信息的GS方法都有各自的缺陷,位点特异的方法需要获得每个标记的遗传贡献,因而能整合的先验信息类型有限;类别特异的方法只是粗略地将分子标记划分为多个类别,划分的方式往往具有很大的主观性,并没有严格的科学依据,且每个类别内标记的遗传贡献仍然是相同的,不符合科学假设;协变量方法需要准确获得效应较大的位点,但大多经济性状是由微效多位点所控制的,因而其适用性有限。因此,将来应该开发出计算速度快、准确性高、能整合所有类型生物学先验信息且适用所有性状的GS方法。当前国内外的研究主要是将多组学数据作为GS的先验信息以提高GS的准确性,而不是将其直接整合到GS中。随着测序技术的发展和测序成本的降低,将来也可能获得大规模的多组学数据。在将来,可能在主流的GS方法BLUP、Bayes、机器学习、深度学习等的基础上开发出可以直接整合多组学数据的GS方法。可以预见,随着生物学先验信息越来越精准,适用范围广、准确性高、速度快的GS方法被开发,整合生物学先验信息的GS将会在家畜育种中发挥重要作用。

参考文献
[1]
MEUWISSEN T H E, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps[J]. Genetics, 2001, 157(4): 1819-1829. DOI:10.1093/genetics/157.4.1819
[2]
GEORGES M, CHARLIER C, HAYES B. Harnessing genomic information for livestock improvement[J]. Nat Rev Genet, 2019, 20(3): 135-156.
[3]
HICKEY J M. Sequencing millions of animals for genomic selection 2.0[J]. J Anim Breed Genet, 2013, 130(5): 331-332. DOI:10.1111/jbg.12054
[4]
PÉREZ-ENCISO M, RINCON J C, LEGARRA A. Sequence-vs. chip-assisted genomic selection: accurate biological information is advised[J]. Genet Sel Evol, 2015, 47(1): 43. DOI:10.1186/s12711-015-0117-5
[5]
HEIDARITABAR M, CALUS M P L, MEGENS H J, et al. Accuracy of genomic prediction using imputed whole-genome sequence data in white layers[J]. J Anim Breed Genet, 2016, 133(3): 167-179. DOI:10.1111/jbg.12199
[6]
VAN BINSBERGEN R, CALUS M P L, BINK M C A M, et al. Genomic prediction using imputed whole-genome sequence data in Holstein Friesian cattle[J]. Genet Sel Evol, 2015, 47(1): 71. DOI:10.1186/s12711-015-0149-x
[7]
ABDOLLAHI-ARPANAHI R, MOROTA G, PENAGARICANO F. Predicting bull fertility using genomic data and biological information[J]. J Dairy Sci, 2017, 100(12): 9656-9666. DOI:10.3168/jds.2017-13288
[8]
YE S P, LI J Q, ZHANG Z. Multi-omics-data-assisted genomic feature markers preselection improves the accuracy of genomic prediction[J]. J Anim Sci Biotechno, 2020, 11(1): 109. DOI:10.1186/s40104-020-00515-5
[9]
DE LAS HERAS-SALDANA S, LOPEZ B I, MOGHADDAR N, et al. Use of gene expression and whole-genome sequence information to improve the accuracy of genomic prediction for carcass traits in Hanwoo cattle[J]. Genet Sel Evol, 2020, 52(1): 54. DOI:10.1186/s12711-020-00574-2
[10]
GEBREYESUS G, BOVENHUIS H, LUND M S, et al. Reliability of genomic prediction for milk fatty acid composition by using a multi-population reference and incorporating GWAS results[J]. Genet Sel Evol, 2019, 51(1): 16. DOI:10.1186/s12711-019-0460-z
[11]
袁泽湖. 整合GWAS和eQTL先验的绵羊部分肉用性状全基因组选择研究[D]. 兰州: 兰州大学, 2020.
YUAN Z H. The prior information from GWAS and eQTL increase the accuracy of genomic selection in several sheep meat traits[D]. Lanzhou: Lanzhou University, 2020. (in Chinese)
[12]
BOTELHO M E, LOPES M S, MATHUR P K, et al. Applying an association weight matrix in weighted genomic prediction of boar taint compounds[J]. J Anim Breed Genet, 2021, 138(4): 442-453. DOI:10.1111/jbg.12528
[13]
MOGHADDAR N, KHANSEFID M, VAN DER WERF J H J, et al. Genomic prediction based on selected variants from imputed whole-genome sequence data in Australian sheep populations[J]. Genet Sel Evol, 2019, 51(1): 72. DOI:10.1186/s12711-019-0514-2
[14]
MACLEOD I M, BOWMAN P J, JAGT C J V, et al. Exploiting biological priors and sequence variants enhances QTL discovery and genomic prediction of complex traits[J]. BMC Genomics, 2016, 17(1): 144. DOI:10.1186/s12864-016-2443-6
[15]
HOFF J L, DECKER J E, SCHNABEL R D, et al. QTL-mapping and genomic prediction for bovine respiratory disease in U.S. Holsteins using sequence imputation and feature selection[J]. BMC Genomics, 2019, 20(1): 555. DOI:10.1186/s12864-019-5941-5
[16]
NANI J P, REZENDE F M, PEÑAGARICANO F. Predicting male fertility in dairy cattle using markers with large effect and functional annotation data[J]. BMC Genomics, 2019, 20(1): 258. DOI:10.1186/s12864-019-5644-y
[17]
LIU A X, LUND M S, BOICHARD D, et al. Improvement of genomic prediction by integrating additional single nucleotide polymorphisms selected from imputed whole genome sequencing data[J]. Heredity, 2020, 124(1): 37-49. DOI:10.1038/s41437-019-0246-7
[18]
SU G, CHRISTENSEN O F, JANSS L, et al. Comparison of genomic predictions using genomic relationship matrices built with different weighting factors to account for locus-specific variances[J]. J Dairy Sci, 2014, 97(10): 6547-6559. DOI:10.3168/jds.2014-8210
[19]
ZHANG Z, LIU J F, DING X D, et al. Best linear unbiased prediction of genomic breeding values using a trait-specific marker-derived relationship matrix[J]. PLoS One, 2010, 5(9): e12648. DOI:10.1371/journal.pone.0012648
[20]
FRAGOMENI B O, LOURENCO D A L, MASUDA Y, et al. Incorporation of causative quantitative trait nucleotides in single-step GBLUP[J]. Genet Sel Evol, 2017, 49(1): 59. DOI:10.1186/s12711-017-0335-0
[21]
MA P P, LUND M S, AAMAND G P, et al. Use of a Bayesian model including QTL markers increases prediction reliability when test animals are distant from the reference population[J]. J Dairy Sci, 2019, 102(8): 7237-7247. DOI:10.3168/jds.2018-15815
[22]
CHANG L Y, TOGHIANI S, LING A, et al. High density marker panels, SNPs prioritizing and accuracy of genomic selection[J]. BMC Genet, 2018, 19(1): 4. DOI:10.1186/s12863-017-0595-2
[23]
TOGHIANI S, CHANG L Y, LING A, et al. Genomic differentiation as a tool for single nucleotide polymorphism prioritization for genome wide association and phenotype prediction in livestock[J]. Livest Sci, 2017, 205: 24-30. DOI:10.1016/j.livsci.2017.09.007
[24]
BOUWMAN A C, DAETWYLER H D, CHAMBERLAIN A J, et al. Meta-analysis of genome-wide association studies for cattle stature identifies common genes that regulate body size in mammals[J]. Nat Genet, 2018, 50(3): 362-367. DOI:10.1038/s41588-018-0056-5
[25]
XIANG R D, VAN DEN BERG I, MACLEOD I M, et al. Quantifying the contribution of sequence variants with regulatory and evolutionary significance to 34 bovine complex traits[J]. Proc Natl Acad Sci U S A, 2019, 116(39): 19398-19408. DOI:10.1073/pnas.1904159116
[26]
FANG L Z, SAHANA G, MA P P, et al. Use of biological priors enhances understanding of genetic architecture and genomic prediction of complex traits within and between dairy cattle breeds[J]. BMC Genomics, 2017, 18(1): 604. DOI:10.1186/s12864-017-4004-z
[27]
EDWARDS S M, SØRENSEN I F, SARUP P, et al. Genomic prediction for quantitative traits is improved by mapping variants to gene ontology categories in Drosophila melanogaster[J]. Genetics, 2016, 203(4): 1871-1883. DOI:10.1534/genetics.116.187161
[28]
SARUP P, JENSEN J, OSTERSEN T, et al. Increased prediction accuracy using a genomic feature model including prior information on quantitative trait locus regions in purebred Danish Duroc pigs[J]. BMC Genet, 2016, 17: 11.
[29]
SONG H L, YE S P, JIANG Y F, et al. Using imputation-based whole-genome sequencing data to improve the accuracy of genomic prediction for combined populations in pigs[J]. Genet Sel Evol, 2019, 51(1): 58. DOI:10.1186/s12711-019-0500-8
[30]
郝兴杰. 整合功能注释的全基因组选择和关联分析方法研究[D]. 武汉: 华中农业大学, 2018.
HAO X J. Incorporating functional annotation to develop genomic selection and genome-wide association study method[D]. Wuhan: Huazhong Agricultural University, 2018. (in Chinese)
[31]
XIANG R D, MACLEOD I M, DAETWYLER H D, et al. Genome-wide fine-mapping identifies pleiotropic and functional variants that predict many traits across global cattle populations[J]. Nat Commun, 2021, 12(1): 860. DOI:10.1038/s41467-021-21001-0
[32]
ZHANG Q Q, SAHANA G, SU G S, et al. Impact of rare and low-frequency sequence variants on reliability of genomic prediction in dairy cattle[J]. Genet Sel Evol, 2018, 50(1): 62. DOI:10.1186/s12711-018-0432-8
[33]
XU L, GAO N, WANG Z Z, et al. Incorporating genome annotation into genomic prediction for carcass traits in Chinese Simmental beef cattle[J]. Front Genet, 2020, 11: 481. DOI:10.3389/fgene.2020.00481
[34]
GAO N, MARTINI J W R, ZHANG Z, et al. Incorporating gene annotation into genomic prediction of complex phenotypes[J]. Genetics, 2017, 207(2): 489-501. DOI:10.1534/genetics.117.300198
[35]
LEE H J, CHUNG Y J, JANG S, et al. Genome-wide identification of major genes and genomic prediction using high-density and text-mined gene-based SNP panels in Hanwoo (Korean cattle)[J]. PLoS One, 2020, 15(12): e0241848. DOI:10.1371/journal.pone.0241848
[36]
VEERKAMP R F, BOUWMAN A C, SCHROOTEN C, et al. Genomic prediction using preselected DNA variants from a GWAS with whole-genome sequence data in Holstein-Friesian cattle[J]. Genet Sel Evol, 2016, 48(1): 95. DOI:10.1186/s12711-016-0274-1
[37]
VANRADEN P M. Efficient methods to compute genomic predictions[J]. J Dairy Sci, 2008, 91(11): 4414-4423. DOI:10.3168/jds.2007-0980
[38]
LEGARRA A, AGUILAR I, MISZTAL I. A relationship matrix including full pedigree and genomic information[J]. J Dairy Sci, 2009, 92(9): 4656-4663. DOI:10.3168/jds.2009-2061
[39]
ZHANG X Y, LOURENCO D, AGUILAR I, et al. Weighting strategies for single-step genomic BLUP: An iterative approach for accurate calculation of GEBV and GWAS[J]. Front Genet, 2016, 7: 151.
[40]
REN D Y, AN L X, LI B J, et al. Efficient weighting methods for genomic best linear-unbiased prediction (BLUP) adapted to the genetic architectures of quantitative traits[J]. Heredity, 2021, 126(2): 320-334. DOI:10.1038/s41437-020-00372-y
[41]
GIANOLA D, FERNANDO R L, SCHÖN C C. Inferring trait-specific similarity among individuals from molecular markers and phenotypes with Bayesian regression[J]. Theor Popul Biol, 2020, 132: 47-59. DOI:10.1016/j.tpb.2019.11.008
[42]
ZHANG Z, OBER U, ERBE M, et al. Improving the accuracy of whole genome prediction for complex traits using the results of genome wide association studies[J]. PLoS One, 2014, 9(3): e93017. DOI:10.1371/journal.pone.0093017
[43]
ZHANG Z, ERBE M, HE J L, et al. Accuracy of whole-genome prediction using a genetic architecture-enhanced variance-covariance matrix[J]. G3 Genes Genom Genet, 2015, 5(4): 615-627.
[44]
MOURESAN E F, SELLE M, RÖNNEGÅRD L. Genomic prediction including SNP-specific variance predictors[J]. G3 Genes Genom Genet, 2019, 9(10): 3333-3343.
[45]
GAO N, TENG J Y, YE S P, et al. Genomic prediction of complex phenotypes using genic similarity based relatedness matrix[J]. Front Genet, 2018, 9: 364. DOI:10.3389/fgene.2018.00364
[46]
朱波, 王延晖, 牛红, 等. 畜禽基因组选择中贝叶斯方法及其参数优化策略[J]. 中国农业科学, 2014, 47(22): 4495-4505.
ZHU B, WANG Y H, NIU H, et al. The strategy of parameter optimization of Bayesian methods for genomic selection in livestock[J]. Scientia Agricultura Sinica, 2014, 47(22): 4495-4505. DOI:10.3864/j.issn.0578-1752.2014.22.015 (in Chinese)
[47]
尹立林, 马云龙, 项韬, 等. 全基因组选择模型研究进展及展望[J]. 畜牧兽医学报, 2019, 50(2): 233-242.
YIN L L, MA Y L, XIANG T, et al. The progress and prospect of genomic selection models[J]. Acta Veterinaria et Zootechnica Sinica, 2019, 50(2): 233-242. (in Chinese)
[48]
GIANOLA D. Priors in whole-genome regression: the Bayesian alphabet returns[J]. Genetics, 2013, 194(3): 573-596. DOI:10.1534/genetics.113.151753
[49]
GAO N, LI J Q, HE J L, et al. Improving accuracy of genomic prediction by genetic architecture based priors in a Bayesian model[J]. BMC Genet, 2015, 16: 120.
[50]
KADARMIDEEN H N. Genomics to systems biology in animal and veterinary sciences: progress, lessons and opportunities[J]. Livest Sci, 2014, 166: 232-248. DOI:10.1016/j.livsci.2014.04.028
[51]
SPEED D, BALDING D J. MultiBLUP: improved SNP-based prediction for complex traits[J]. Genome Res, 2014, 24(9): 1550-1557. DOI:10.1101/gr.169375.113
[52]
LLOYD-JONES L R, ZENG J, SIDORENKO J, et al. Improved polygenic prediction by Bayesian multiple regression on summary statistics[J]. Nat Commun, 2019, 10(1): 5086. DOI:10.1038/s41467-019-12653-0
[53]
BRØNDUM R F, SU G S, LUND M S, et al. Genome position specific priors for genomic prediction[J]. BMC Genomics, 2012, 13: 543. DOI:10.1186/1471-2164-13-543
[54]
MOORE J K, MANMATHAN H K, ANDERSON V A, et al. Improving genomic prediction for pre-harvest sprouting tolerance in wheat by weighting large-effect quantitative trait loci[J]. Crop Sci, 2017, 57(3): 1315-1324. DOI:10.2135/cropsci2016.06.0453
[55]
YIN L L, ZHANG H H, ZHOU X, et al. KAML: improving genomic prediction accuracy of complex traits using machine learning determined parameters[J]. Genome Biol, 2020, 21(1): 146. DOI:10.1186/s13059-020-02052-w
[56]
MOURESAN E F, SELLE M, RÖNNEGÅRD L. Genomic prediction including SNP-specific variance predictors[J]. G3 Genes Genom Genet, 2019, 9(10): 3333-3343.
[57]
FANG L Z, SAHANA G, MA P P, et al. Exploring the genetic architecture and improving genomic prediction accuracy for mastitis and milk production traits in dairy cattle by mapping variants to hepatic transcriptomic regions responsive to intra-mammary infection[J]. Genet Sel Evol, 2017, 49(1): 44. DOI:10.1186/s12711-017-0319-0
[58]
房灵昭. 奶牛复杂性状基因组特征模型分析及基因组选择研究[D]. 北京: 中国农业大学, 2017.
FANG L Z. Genomic feature model analysis of complex traits in dairy cattle[D]. Beijing: China Agricultural University, 2017. (in Chinese)
[59]
MA P P, LUND M S, AAMAND G P, et al. Use of a Bayesian model including QTL markers increases prediction reliability when test animals are distant from the reference population[J]. J Dairy Sci, 2019, 102(8): 7237-7247. DOI:10.3168/jds.2018-15815
[60]
MEHRBAN H, NASERKHEIL M, LEE D H, et al. Genomic prediction using alternative strategies of weighted single-step genomic BLUP for yearling weight and carcass traits in Hanwoo beef cattle[J]. Genes, 2021, 12(2): 266. DOI:10.3390/genes12020266
[61]
谈成, 边成, 杨达, 等. 基因组选择技术在农业动物育种中的应用[J]. 遗传, 2017, 39(11): 1033-1045.
TAN C, BIAN C, YANG D, et al. Application of genomic selection in farm animal breeding[J]. Hereditas (Beijing), 2017, 39(11): 1033-1045. (in Chinese)
[62]
周磊, 杨华威, 赵祖凯, 等. 基因组选择在我国种猪育种中应用的探讨[J]. 中国畜牧杂志, 2018, 54(3): 4-8.
ZHOU L, YANG H W, ZHAO Z K, et al. The application of genomic selection in Chinese pig breeding industry[J]. Chinese Journal of Animal Science, 2018, 54(3): 4-8. (in Chinese)
[63]
ZHANG C, KEMP R A, STOTHARD P, et al. Genomic evaluation of feed efficiency component traits in duroc pigs using 80k, 650k and whole-genome sequence variants[J]. Genet Sel Evol, 2018, 50(1): 14. DOI:10.1186/s12711-018-0387-9
[64]
CLARK E L, ARCHIBALD A L, DAETWYLER H D, et al. From FAANG to fork: application of highly annotated genomes to improve farmed animal production[J]. Genome Biol, 2020, 21(1): 285. DOI:10.1186/s13059-020-02197-8

(编辑 郭云雁)