畜牧兽医学报  2023, Vol. 54 Issue (7): 2824-2835. DOI: 10.11843/j.issn.0366-6964.2023.07.015    PDF    
基于多层感知机的绵羊限性性状基因组选择模拟研究
王万年, 陈思佳, 郜金荣, 温中豪, 袁梦娇, 张洪志, 庞志旭, 乔利英, 刘文忠     
山西农业大学动物科学学院,太谷 030801
摘要:旨在将多层感知机(multilayer perceptron, MLP)应用于绵羊限性性状基因组选择中,并在多种情况下与其他经典基因组选择方法进行比较分析。本研究利用Qmsim软件模拟2个绵羊群体Pop1和Pop2的表型数据和基因型数据。在MLP中使用人工神经网络(artificial neural network, ANN),线性模型中使用约束性最大似然法(residual maximum likelihood, REML)估计不同群体的遗传参数。利用Python语言自编MLP模型,利用DMU软件实现最佳线性无偏预测(best linear unbiased prediction, BLUP)、基因组最佳线性无偏预测(genomic BLUP)和一步法(single-step GBLUP, SSGBLUP)模型,评估不同情况下各方法遗传力(heritability, h2)和育种值估计方面的差异。各情况下,MLP和SSGBLUP均显著(P < 0.05)优于GBLUP和BLUP。在3种情况下MLP的h2估值与SSGBLUP差异不显著:h2为0.05, 标记数为10K且QTL数为100时的Pop2群体;h2为0.2,QTL数为500的两个标记数下Pop1群体和QTL数为100且标记数为50K时Pop2群体;h2为0.5且QTL数为100时,标记数10K下Pop1群体和标记数50K下Pop2群体;除上述情况之外,MLP的h2估计结果均显著(P < 0.05)优于SSGBLUP、GBLUP和BLUP。在不同h2初值下,QTL数和标记数变化时,Pop1和Pop2群体中MLP的h2估值与当代群体h2的差值小于SSGBLUP、GBLUP和BLUP;SSGBLUP和GBLUP法在不同标记数下遗传参数估计结果差别较大,MLP差别较小。在各情况下,MLP基因组估计育种值(genomic estimated breeding value, GEBV)的准确性均为最高。h2初值为0.05时,MLP在标记数为10K时GEBV准确性略高于SSGBLUP在标记数为50K时的预测准确性。在h2、QTL数和标记数相同的情况下,Pop2群体中各方法的EBV预测准确性较Pop1群体均有提升。根据上述模拟结果表明,在绵羊限性性状基因组选择中,MLP优于其他经典基因组选择方法。
关键词多层感知机    基因组选择    模拟    预测    限性性状    
Simulation Study on Genomic Selection of Sex-limited Traits Using Multilayer Perceptron in Sheep
WANG Wannian, CHEN Sijia, GAO Jinrong, WEN Zhonghao, YUAN Mengjiao, ZHANG Hongzhi, PANG Zhixu, QIAO Liying, LIU Wenzhong     
College of Animal Science, Shanxi Agricultural University, Taigu 030801, China
Abstract: This study aimed to apply multilayer perceptron(MLP) to genome selection of sex-limited traits in sheep, and compare it with other classical genome selection methods in various situations. In this study, Qmsim software was used to simulate the phenotype data and genotype data of 2 sheep population(Popl and Pop2). Artificial neural network (ANN) was used in MLP, and residual maximum likelihood (REML) method was used in linear model to estimate genetic parameters of different populations. Using Python to write MLP model, using DMU software to achieve best linear unbiased prediction (BLUP), genomic BLUP (GBLUP) and single-step GBLUP (SSGBLUP). The differences in the estimation of heritability (h2) and breeding values under different conditions were evaluated. In all cases, MLP and SSGBLUP were significantly (P < 0.05) better than GBLUP and BLUP. There is no significant difference between h2 estimation of MLP and SSGBLUP in the 3 conditions: When h2 was 0.05, the QTL number was 100 and the marker number was 10K in the Pop2 population; when h2 was 0.2, the QTL number was 500 under the two marker number in Pop1, and the QTL number was 100 under the marker number of 50K in Pop2; when h2 was 0.5 and QTL number was 100, the marker number of 10K in Pop1 and the marker number of 50K in Pop2. Except for the above, the h2 estimates of MLP were significantly better (P < 0.05) than SSGBLUP, GBLUP, and BLUP. Under different prior values of h2, when QTL number, marker number changed, the difference between the estimated h2 of MLP and that of contemporary population was smaller than that of SSGBLUP, GBLUP, and BLUP. The h2 estimation results of SSGBLUP and GBLUP methods were very different under different marker number, and the MLP difference was small. In all cases, the prediction accuracy of GEBV by MLP was the highest. When the prior value of h2 was 0.05, the GEBV accuracy of MLP at 10K was slightly higher than that of SSGBLUP at 50K. Under the same h2, number of QTL and marker number, the EBV prediction accuracy of each method in the Pop2 population was improved compared with that in the Pop1 population. According to the above simulation results, MLP is superior to other classical genome selection methods in the genome selection of sex-limited traits in sheep.
Key words: multilayer perceptron    genomic selection    simulation    prediction    sex-limited trait    

基因组选择(genomic selection, GS)是利用覆盖于全基因组范围内的遗传标记, 结合表型信息对个体育种值进行预测的方法[1]。随着近年来基因分型成本的降低,基因组选择在畜禽育种中得到了广泛应用[2-3]。相对于最佳线性无偏预测(best linear unbiased prediction, BLUP)[4],基因组最佳线性无偏预测(genomic BLUP, GBLUP)模型[5]和一步法基因组最佳线性无偏预测(single-step GBLUP, SSGBLUP)[6]利用了基因型信息,提高了基因组估计育种值的准确性。除BLUP系列方法之外,由于深度学习(deep learning, DL)在许多其他科学领域的应用力量,人工神经网络(artificial neural network, ANN)模型也开始用于GS[7],多层感知机(multilayer perceptron, MLP)是一种前馈神经网络模型,利用了多层神经网络拟合基因组信息和表型信息间的关系计算GEBV。在前人研究中[8],MLP在奶牛生长性状中有更小的基因组预测误差和更高的表型值预测精度[8]

与生长性状不同,限性性状指在一个物种的一种性别中表达的性状。这些性状由性染色体或仅在一种性别中表达的常染色体基因控制,如单睾、产仔数、产蛋量等。相对于非限性性状,限性性状目前只能在单性别中测定表型,在育种中缺少一个性别的选种,选择效率不高,利用基因组选择可以实现双性别都参与选种。GBLUP、SSGBLUP、MLP在非限性性状基因组选择中,由于可以使用全部的表型数据和与之对应的基因组数据,GS准确性可以达到较高水准,并且SSGBLUP和MLP优于GBLUP;而在限性性状中,表型数据只来自于单性别,GBLUP通过伪表型,SSGBLUP结合了系谱信息,MLP通过神经元学习基因组和表型关系均同时使用了来自公畜和母畜基因组数据,这些不同导致估计方法的GEBV准确性可能会存在差异。许多研究表明,对于易于测量性状和中高遗传力性状,BLUP取得了较好的应用效果[9-10], 对于限性性状,BLUP方法应用效果较差[11]。相比于传统BLUP和GBLUP,使用SSGBLUP可以有效提高GS的准确性[12-14],而MLP法在限性性状中的GS效果仍需进一步评估。由于在方法原理和使用条件中差异的存在,检验MLP在限性性状中GS的效果是否优秀,对促进限性性状的选择具有重要意义。

为了估计育种值,需要对遗传参数进行估计,3大遗传参数指遗传力(heritability, h2)、重复力和遗传相关,通常使用估计遗传力(遗传参数)与当代群体真实遗传力(遗传参数)的接近程度衡量遗传评估效果。近年来,遗传参数估计的方法被不断改进,从传统的方差分析法[15]到适用于混合模型的Henderson方法[16]、最大似然法[17]和约束最大似然法(restricted maximum likelihood, REML)[18]。REML法避免了最大似然估计造成的偏低估计,是使用线性混合模型进行遗传参数估计的常用方法。相对于REML法,ANN是非线性模型,没有对SNP标记和表型之间的关系做出先验假设,而是通过神经元的连接分析两者之间的潜在关系,为适应输入和输出之间的复杂关联提供了灵活性[19]。前人研究报道中[14],在计算得出EBV/GEBV后,必须还要对其准确性进行评估,通过EBV/GEBV准确性的高低评判各模型的选择效果。

为了研究MLP在限性性状GS中的有效性,检验MLP在限性性状GS中的应用效果是否优秀,本研究基于多个绵羊模拟群体进行以下研究:1)比较不同情况下MLP与BLUP、GBLUP、SSGBLUP遗传参数估计结果;2)预测不同情况下MLP的GEBV准确性,并对MLP在GS中的使用效果进行评估。

1 材料与方法 1.1 数据模拟

使用QMsim软件[20]模拟3个水平(50、100、500)数量性状基因座(quantitative trait loci, QTL)数目及3个水平(0.05、0.2、0.5)h2的限性性状,性状表型方差标准化为1,对整个模拟过程重复10次,以减少抽样误差。由于模拟群体经过几代之后,当代群体h2与设置值有出入,所以需要计算真实的当代群体h2。为了得到与实际绵羊群体相似的连锁不平衡(linkage disequilibrium, LD)和突变-漂变平衡[21],构建了2 000个世代的绵羊群体,起始规模3 000头,群体规模大小不变,群体构建阶段,公、母数目保持一致,采用随机交配。从构建的群体最后一代随机抽取50头公羊,1 000头母羊作为当代的初始群体,分别构建4个世代的当代群体Pop1和5个世代的当代群体Pop2。模拟中,公、母羊淘汰率均为20%,公、母羊增长率均为40%。公、母羊随机交配,每头母畜后裔数为1,公母后裔各半。选择估计育种值高的个体留种,并按年龄进行淘汰。

本试验模拟绵羊的基因组信息,设置26对常染色体,总长2 584 cM。为了模拟接近真实情况的LD,依据真实染色体长度及数目模拟基因组信息。分别模拟10 000(10K)和50 000(50K)个SNPs标记,假定SNP标记均匀分布在全基因组范围内,且标记无效应。分别设置QTL数目为50、100和500个,QTL的最小等位基因频率(minor allele frequency, MAF)为0.1。假定QTL在全基因组范围内随机分布,QTL效应值服从伽马分布(形状参数为0.4)。为了创建突变-漂变平衡,设置构建群体中QTL和SNP标记的回复突变率为10-5

在Pop1中选择第2~3世代作为参考群,第4世代作为候选群;在Pop2中选择1~4世代作为参考群,第5世代作为候选群。保留Pop1和Pop2的完整系谱,和参考群中所有母畜的表型信息。选取参考群有后裔的公畜和所有母畜进行基因分型,随机选取候选群的100个个体进行基因分型。本研究只对部分候选群体进行基因分型,更有实践意义。

1.2 基因组预测模型

1.2.1 BLUP系列方法   使用模型:y=Xb+Zu+e,其中,y为表型值向量;b为固定效应向量;u为随机效应向量;其中,var(u)=a2k在BLUP、GBLUP和SSGBLUP中分别为AGH矩阵,σa2为加性遗传方差;e为残差向量,其中,var(e)=Iσe2σe2为残差方差;XZ分别为固定效应和随机效应的关联矩阵。SSGBLUP法的混合模型方程组(mixed model equations, MME)为:

$\left[\begin{array}{cc} \boldsymbol{X}^{\prime} \boldsymbol{X} & \boldsymbol{X}^{\prime} \boldsymbol{Z} \\ \boldsymbol{Z}^{\prime} \boldsymbol{X} & \boldsymbol{Z}^{\prime} \boldsymbol{Z}+k^{-1} \lambda \end{array}\right]\left[\begin{array}{l} \hat{b} \\ \hat{u} \end{array}\right]=\left[\begin{array}{c} \boldsymbol{X}^{\prime} y \\ \boldsymbol{Z}^{\prime} y \end{array}\right]$ (1)

其中,

$ \lambda=\frac{\sigma_\boldsymbol{e}^2}{\sigma_\boldsymbol{a}^2} $

MME的求解通过DMU[22]软件完成。

1.2.2 MLP   MLP由输入层(input layer, IL)、隐藏层(hidden layer, HL)和输出层(output layer, OL)组成。IL接收标记信息,HL分别由n1, n2, …, nj神经元组成,OL由代表神经网络输出值的nol神经元组成,输入经过IL被传递给HL1的神经元,然后每个隐藏的神经元产生一个输出,用作HL2的每个神经元的输入,以此类推最终得到输出值yi。在这种结构中,每一层均产生权重w[i]矩阵,其中输出由最后一个HL的线性组合产生。最终得到的预测值为:

$\begin{aligned} y_i= & f_4\left(\sum\nolimits_ { {\mathit{\boldsymbol{t}}} = 1 } ^ { {\mathit{\boldsymbol{n}}} _ { 3 } } w _ { 1 t } ^ { [ 4 ] } f _ { 3 } \left(\sum\nolimits_ { {\mathit{\boldsymbol{t}}} = 1 } ^ { {\mathit{\boldsymbol{n}}} _ { 2 } } w _ { 1 t } ^ { [ 3 ] } f _ { 2 } \left(\sum\nolimits_{{\mathit{\boldsymbol{t}}}=1}^{{\mathit{\boldsymbol{n}}}_1} w_{1 t}^{[2]} f_1\right.\right.\right. \\ & \left.\left.\left.\left(\sum\nolimits_{{\mathit{\boldsymbol{t}}}=1}^{\mathit{\boldsymbol{p}}} w_{1 t}^{[1]} x_t+b_1\right)+b_2\right)+b_3\right)+b_4\right) \end{aligned}$ (2)

其中,bi代表第i层的偏置, 初始偏置设置为1,w[i]代表第i层权重,fi为激活函数,p代表IL神经元个数, t表示第t个神经元。在本试验中,采用含3个HL的MLP架构,IL、HL1、HL2、HL3、OL神经元个数依次为64、32、32、16、1。为了防止模型过拟合,在第一隐藏层到第二隐藏层间增加了随机失活层,训练时设置为0.2,即保留80%的节点,其余的20%置为0。

本研究中使用修正线性单元(rectifier linear unit, ReLU)激活函数[23],增加了神经网络各层之间的非线性关系。

${ReLU}(x)=\left\{\begin{array}{ll} x & x>0 \\ 0 & x \leqslant 0 \end{array}\right\}$ (3)

采用均方误差(mean square error, MSE)作为损失函数,平均绝对误差(mean absolute error, MAE)作为评估函数,在反向传播过程中,损失函数En对输出层输出yi的求偏导,得到输出yi与真实值yt的差值δi=yi-yt,若设定zi=ReLU(x), 则损失函数对隐藏层输出ai的偏导为:

$\frac{\partial E_n}{\partial a_i}=\frac{\partial E_n}{\partial z_i} \frac{\partial z_i}{\partial a_i} \text {, 即 } \delta_j={ReLU}\left(a_i\right)^{\prime} * \sum\nolimits_k w^{[i]} \delta_k$ (4)

损失函数对网络权重w[i]的梯度为:

$\frac{\partial E_n}{\partial \boldsymbol{w}^{[\boldsymbol{i}]}}=\delta_j \otimes x_i$ (5)

为了使模型输出逼近最优值,采用了均方根传递(root mean square prop, RMSProp)算法[24]来更新模型的网络参数。RMSProp除了自适应调节学习率之外,对权重w和偏置b的梯度计算了微分平方加权平均数,用以修正摆动幅度,加快函数的收敛。

$E\left[g^2\right]_{\mathit{\boldsymbol{t}}}=\alpha E\left[g^2\right]_{{\mathit{\boldsymbol{t}}}-1}+(1-\alpha) g^2$ (6)
$w_{t+1}=w_t-\frac{\eta_0}{\sqrt{E\left[g^2\right]_{\mathit{\boldsymbol{t}}}+\in }} \odot g_t$ (7)
$b_{t+1}=b_t-\frac{\eta_0}{\sqrt{E\left[g^2\right]_{\mathit{\boldsymbol{t}}}+\in }} \odot g_t$ (8)

其中,wt表示第t次迭代模型的权重,gtJ(wt)表示t次迭代损失函数关于w的梯度大小,E[g2]t表示前t次的梯度平方的均值。α表示动量(通常设置为0.9),η0表示全局初始学习率。为了避免分母为0,RMSProp借鉴了自适应梯度算法(adaptive gradient algorithm, Adagard)[25]的思想,在分母$ \sqrt{E\left[g^2\right]_{\mathit{\boldsymbol{t}}}+\in }$中使用了一个很小的数值∈进行平滑,一般取值为10-8

1.3 遗传参数估计方法

1.3.1 REML   对于y=Xb+Zu+e,假定E(y)= Xbu~N(0, G)=N(0, a2),e~N(0, R)=N(0, Iσe2)。表型方差协方差矩阵V=ZGZ′+R,混合模型中y服从正态分布,即y~N(Xb, ZGZ′+R)。A和a的基因频率分别是p和q。则该位点可解释的方差为var(u)=E(u2)-E(u)2。多个SNPs位点时,假设所有位点的效应都相同且相互之间独立,即u=Za=0,Z为基因型矩阵,E(Za)=0。

利用REML法如下公式估计加性效应方差σa2和残差方差σe2

$\begin{gathered} -2 \boldsymbol{L}\left(\sigma_a^2, \sigma_e^2 ; y\right)=\log |\boldsymbol{C}|+\log |\boldsymbol{R}|+ \\ \log |\boldsymbol{G}|+y^{\prime} \boldsymbol{P} y \end{gathered}$ (9)

其中,

$\boldsymbol{P}=\boldsymbol{V}^{-1}-\boldsymbol{V}^{-1} \boldsymbol{X}\left(\boldsymbol{X}^{-1} \boldsymbol{V}^{-1} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\boldsymbol{T}} \boldsymbol{V}^{-1}$ (10)
$\boldsymbol{C}=\left[\begin{array}{cc} \boldsymbol{X}^{\prime} \boldsymbol{R}^{-1} \boldsymbol{X} & \boldsymbol{X}^{\prime} \boldsymbol{R}^{-1} \boldsymbol{Z} \\ \boldsymbol{Z}^{\prime} \boldsymbol{R}^{-1} \boldsymbol{X} & \boldsymbol{Z}^{\prime} \boldsymbol{R}^{-1} \boldsymbol{Z}+\boldsymbol{G}^{-1} \end{array}\right]$ (11)

为了计算σa2σe2,需要求解约束似然函数的极值点,由于约束似然函数的一阶偏导没有解析解,所以需要通过迭代的方式求极值点。采用结合期望最大法(expectation maximization, EM)[26]和平均信息法(average information, AI)[27]优势的EM-AI算法,计算过程基于DMU[22]中的DMUAI模块实现。加权信息阵[28]如下:

$\boldsymbol{I}_{A E}=\lambda \boldsymbol{I}_{E M}+(1-\lambda) \boldsymbol{I}_{\boldsymbol{A} \boldsymbol{I}}$ (12)

其中,IEM是EM算法的期望最大阵,IAI是AI算法的平均信息阵。λ∈[0, 1],设置λ以一定步长增长。直到迭代后的方差组分估计值在参数空间内。

1.3.2 ANN   在ANN中,估计h2和SNP效应,需要获得标记的相对重要性(relative importance, RI)。Olden等[29]提出了一种方法,即使神经网络有多个HL,可以使用所有的连接权重来获得RI。连接权值矩阵的优劣决定了SNP效应估计的准确性,为了计算所有标记的RI向量,将连接权重矩阵相乘。即

$\boldsymbol{R} \boldsymbol{I}=\boldsymbol{w}^{[1]} * \boldsymbol{w}^{[2] *} \cdots * \boldsymbol{w}^{[j-1]}$ (13)

其中,将w[i=1]作为连接第j-1层到第j层的的估计权值矩阵, j是人工神经网络的层数。使用如下线性近似[29],通过RI值估计加性SNP效应向量βα, 即:

$\hat{\beta}=\boldsymbol{Z} \boldsymbol{M}^{\prime}\left(\boldsymbol{M} \boldsymbol{Z} \boldsymbol{M}^{\prime}\right)^{-1} \hat{y}$ (14)

其中,Z是由RI值组成的对角线矩阵,M是标记物矩阵,$ \hat{y}$是来自MLP的GEBV。使用$ \hat{\beta} 2_\alpha$估计σα2

$\hat{\sigma}_\alpha^2=\sum\nolimits_{j=1}^p 2 p_j\left(1-p_j\right) \hat{\beta}_\alpha^2$ (15)

其中pj为等位基因频率。通过真实表型与GEBV的差异来估计σe2$ \hat{\sigma}_e^2={var}(\hat{e})$其中$ \hat{e}=y-\hat{y}$

1.3.3 h2计算   其中,各方法对Pop1和Pop2群体估计h2通过加性方差σa2和残差方差σe2得到,Pop1和Pop2群体真实h2通过QMSim软件模拟出所有个体的真实育种值(true breeding value)和残差计算得出, 对其求方差,并按下式计算两个群体的真实h2

$ h^2=\frac{\sigma_a^2}{\sigma_a^2+\sigma_e^2} \text { 。} $
1.4 模型评价

1.4.1 h2比较   10次重复下,各方法计算当代群体估计h2的均值和标准误在相同条件下与真实h2进行比较并做显著性检验,h2估值越接近真实h2越准确,h2估值越准确说明遗传评估效果越好。各方法估计h2与真实h2差异越显著,说明遗传评估效果越差。

1.4.2 候选群体EBV/GEBV准确性比较   用EBV/GEBV准确性来比较不同模型的性能。准确性通过EBV/GEBV与QMsim软件中模拟的TBV之间的相关系数衡量。即

$ r=\frac{{cov}(E B V, T B V)}{\sqrt{{var}(E B V) {var}(T B V)}} $

从不同QTL数目、不同标记数与不同遗传力3个角度,对Pop1和Pop2进行育种值估计,计算其候选群EBV/GEBV准确性。相同条件下,准确性越高说明模型性能越好。

2 结果 2.1 参考群体和候选群体

2个独立的当代群体Pop1和Pop2群体结构模拟结果见表 1。其中Pop1的参考群个体为3 360个,基因分型个体为1 866个,候选群个体为2 744个,基因分型个体为100个;Pop2的参考群个体为7 154个,基因分型个体为3 351个,候选群个体为3 842,基因分型个体为100个。

表 1 模拟数据的当代群体结构 Table 1 Structure of recent population obtained from QMsim
2.2 MLP模型评估

图 1所示,MSE最终达到了0.002 7,MAE最终达到了0.037 2,损失函数和评估函数在训练600次之后基本均趋于平缓,模型拟合效果良好。

图 1 MLP模型损失函数与评估函数结果 Fig. 1 MLP model loss function and evaluation function results
2.3 不同情况下各模型的h2估计结果

设定初始群体特定限性性状h2为0.05时,MLP、SSGBLUP、GBLUP和传统BLUP的h2估计结果见表 2。4种方法的估计值介于0.028~0.075,与当代群体遗传力0.047~0.051相符。MLP的估计值介于0.044~0.057,相比SSGBLUP介于0.041~0.068范围更小。在QTL数目和标记数相同的情况下,Pop1(Pop2)中当代群体遗传力为0.049~0.051(0.047~0.050),与MLP的h2估值0.044~0.057(0.046~0.055)差异不显著。在Pop2群体中标记数为10K且QTL数为100时,SSGBLUP与MLP差异不显著,但两种方法均显著(P<0.05)优于GBLUP和BLUP;除此之外,MLP的h2估计结果均显著(P<0.05)优于SSGBLUP、GBLUP和BLUP。

表 2 设定初始群体特定限性性状h2为0.05时各模型h2估计结果 Table 2 Estimation results of h2 of each model when the prior population-specific limit trait h2 is set to 0.05

设定初始群体特定限性性状h2为0.2时,各方法h2估计结果与当代群体h2的对比见表 3。在QTL数和参考群大小相同的情况下,SSGBLUP和GBLUP法遗传力估计结果在不同标记数下差别较大,MLP差别较小。在Pop1群体中标记数为10K且QTL数为50时,MLP的h2估值与当代群体h2差异显著(P<0.05);除此之外,在QTL数目和标记数相同的情况下,Pop1(Pop2)中当代群体遗传力为0.196~0.207(0.194~0.207),与MLP的h2估值0.196~0.216(0.185~0.203)差异不显著。在Pop1中QTL数为500的两个标记数下和Pop2中QTL数为10且标记数为50K两种情况下,MLP的h2估值与SSGBLUP差异不显著,但两种方法均显著(P<0.05)优于GBLUP和BLUP;除此之外,MLP的h2估计结果均显著(P<0.05)优于SSGBLUP、GBLUP和BLUP。

表 3 设定初始群体特定限性性状h2为0.2时各模型h2估计结果 Table 3 Estimation results of h2 of each model when the prior population-specific limit trait h2 is set to 0.2

设定初始群体特定限性性状h2为0.5时,各方法h2估计结果见表 4。在QTL数及标记数相同的情况下,4种方法在Pop2群体中的遗传参数估计结果较Pop1更接近于真值。QTL数为100,Pop1中标记数10K下和Pop2中标记数50K下,MLP的h2估值与SSGBLUP差异不显著,但两种方法均显著(P<0.05)优于GBLUP和BLUP。除此情况之外,MLP的h2估计结果均显著(P<0.05)优于SSGBLUP、GBLUP和BLUP。

表 4 设定初始群体特定限性性状h2为0.5时各模型h2估计结果 Table 4 Estimation results of h2 of each model when the prior population-specific limit trait h2 is set to 0.5
2.4 不同模型预测效果

表 5为不同h2初值时,各方法的预测准确性范围。在QTL数目和标记数相同的情况下,h2初值为0.05时,MLP的GEBV准确性较SSGBLUP和GBLUP明显提高;h2初值为0.2时,MLP的GEBV预测准确性较SSGBLUP有略微提高,较GBLUP有明显提高;h2初值为0.5时,MLP的GEBV准确性较SSGBLUP没有明显提高,较GBLUP和BLUP优势明显。

表 5 不同h2初值时各方法预测准确性范围 Table 5 When different prior h2 values, the prediction accuracy range of each method

图 2为不同情况下MLP、SSGBLUP、GBLUP的GEBV准确性及BLUP的EBV准确性,在h2、QTL数和标记数相同的情况下,Pop1和Pop2群体中,MLP的预测准确性均为最高,BLUP均为最低;Pop2群体中各方法的预测准确性较Pop1群体均有提升。在QTL数、标记数和群体相同的情况下,随着h2降低,MLP较GBLUP和SSGBLUP的GEBV准确性差值变大,优势逐渐增加。在h2、QTL数和群体相同的情况下,MLP、SSGBLUP及GBLUP模型在标记数为50K时的准确性较标记数为10K时有提高。其中,在QTL数目相同及h2初值为0.05时,Pop1(Pop2)群体中MLP在标记数为10K时预测准确性介于0.269~0.278(0.287~0.300)略高于SSGBLUP在标记数为50K的预测准确性0.224~0.241(0.262~0.279)。在h2、标记数和群体相同的情况下,预测准确性随QTL数改变并没有明显变化。

图 2 MLP、SSGBLUP、GBLUP的GEBV准确性及BLUP的EBV准确性 Fig. 2 GEBV accuracy of MLP, SSGBLUP, GBLUP and EBV accuracy of BLUP
3 讨论

在绵羊育种中,限性性状是影响经济效益的重要性状,这种复杂性状的遗传增益可以有效的提高绵羊的生产效率[30]。除产奶量外,乳房构型、产羔困难和乳腺炎等限性性状对生产成本和动物福利影响同样很大,也需要在育种目标中加以考虑[31]。在绵羊中实施基因组选择最严峻的挑战是品种问题,许多品种个体数少,导致参考群小,连锁不平衡低,有时甚至缺乏表型记录[32]。用MLP进行GS[8]已有报道,但是在绵羊限性性状中还未应用,所以本研究在不同h2、QTL数目、标记数的两个群体(Pop1和Pop2)中对MLP模型进行了全面的测试。研究发现,在QTL数、标记数和群体相同的情况下,在3个h2水平下,MLP较GBLUP和SSGBLUP优势更大;随着h2降低,MLP较GBLUP和SSGBLUP的优势逐渐增加,表明DL方法的实施为改善绵羊限性性状的遗传增益提供了巨大潜力。

遗传参数估计是家畜育种中的重要组成部分,群体遗传参数估值的优劣对正确评定种畜育种值和育种规划有非常重要的作用。MLP是通过神经元权值矩阵计算SNP效应向量从而进行遗传参数估计;而REML法是对线性模型求解约束似然函数,通过迭代的方式求解其极值点计算方差组分。本研究中,4种方法在Pop2群体中的遗传参数估计结果较Pop1更接近于真值,表明在估计遗传参数时MLP与SSGBLUP、GBLUP和BLUP同样受参考群体大小的影响,参考群体越大,遗传参数估计结果与当代群体遗传参数的差值越小[33]。除个别情况之外,MLP的遗传力估计结果与其他3种方法差异显著,且在相同h2、QTL和标记数下,对于Pop1和Pop2两个群体MLP的遗传参数估值与群体遗传参数的差值较SSGBLUP、GBLUP和BLUP均更小,表明MLP在遗传参数估计上优于其他3种方法,这可能是因为多层人工神经网络采用非先验假设很好的解释了非加性效应,弥补了线性模型的局限性[34]。Gholizadeh等[35]在奶牛中应用神经网络,得到了准确的产奶量遗传力估计结果。Coelho de Sousa等[36]在咖啡中应用MLP进行遗传力估计,得到的结果优于GBLUP,这是因为标记物之间的相互作用隐含在神经元多次加权的输出中。

Pérez-Rodríguez等[37]通过小麦数据集对神经网络和几种线性模型进行了评估,发现在植物中非线性神经网络比线性模型有更好的预测精度。McDowell[38]使用拟南芥、玉米和小麦数据对常规基因组预测模型与MLP进行了比较,在3个性状中,MLP的预测准确性均高于传统的基因组预测模型。预测准确性结果显示,相同h2、QTL和标记数下,相比于Pop1群体,具有更大参考群规模的Pop2群体中4种方法的GEBV准确性均有提高,由此推测低遗传力性状需要更多的表型数据来提高准确性。Luan等[39]使用挪威红牛数据应用GBLUP及Bayes模型时也显示出与本研究相似的结果,对于h2更高的性状和更大参考群体,育种值估计更准确。本研究在不同QTL数下各模型获得的准确性无明显变化,可能是因为试验中假设所有标记解释相同的效应方差且无主效基因。在Daetwyler等[40]的模拟研究中,GBLUP在不同QTL数目时,准确性基本无变化,与本研究结果相符。随着标记数从10K增加至50K,4种方法整体上基因组估计育种值准确性均呈上升趋势,在张猛[41]的研究中也得到了相同的结论。在h2为0.05时,MLP在标记数为10K时的准确性略高于其他方法在50K时的准确性,这可能是由于标记数过少造成SSGBLUP法性能的下降。

相对于非限性性状,在限性性状中想要使遗传评估和育种值估计结果达到更高水平难度更大,虽然使用GS利用双性别的基因型数据弥补了一部分表型缺失的劣势,但是育种值准确性的提高仍然有限[13]。在方法上,各模型对非限性性状进行正常流程的遗传评估和基因组选择,而对于限性性状,GBLUP必须使用EBV[42]或逆回归育种值[43-44]作为伪表型值,通过伪表型值和基因组信息得到基因组估计育种值。SSGBLUP将系谱信息与基因组信息整合到模型[6]中,构建基因组关系矩阵(H阵),结合表型信息预测未进行基因分型个体的EBV及基因分型个体的GEBV。MLP是使用输入数据为该网络寻找最佳权重,它将输入的多个数据集映射到单一的输出数据集上,每个神经元的输出表示为神经元全部输入的加权和,通过线性和非线性激活函数[45-46]调节预测变量的特定权值从而学习基因型和表型之间的关系。在结果上,结合前人研究[47],非限性性状的GEBV准确性较限性性状更高,这是由于使用伪表型值或非线性学习模式均不能完全弥补表型的缺失。

在模拟研究中,非线性模型优于线性模型[48],而在真实数据中,非线性模型较线性模型只有轻微优势或没有优势[49]。无论哪种模型都是简化模型,与真实模型会有较大差异,可能更接近复杂生物现象的其他模型尚未找到,还需要继续大量研究。本研究中MLP法的优势和有效性仍然需要在真实绵羊群体中进行验证。

4 结论

对于绵羊限性性状,MLP模型在遗传参数估计方面较线性模型有更好的表现。MLP可以有效提高GEBV准确性,在绵羊限性性状GS中有良好应用潜力。

参考文献
[1]
MEUWISSEN T H E, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps[J]. Genetics, 2001, 157(4): 1819-1829. DOI:10.1093/genetics/157.4.1819
[2]
MEUWISSEN T, HAYES B, GODDARD M. Genomic selection: a paradigm shift in animal breeding[J]. Anim Front, 2016, 6(1): 6-14. DOI:10.2527/af.2016-0002
[3]
XU Y B, LIU X G, FU J J, et al. Enhancing genetic gain through genomic selection: from livestock to plants[J]. Plant Commun, 2020, 1(1): 100005. DOI:10.1016/j.xplc.2019.100005
[4]
HENDERSON C R. Best linear unbiased estimation and prediction under a selection model[J]. Biometrics, 1975, 31(2): 423-447. DOI:10.2307/2529430
[5]
VANRADEN P M. Efficient methods to compute genomic predictions[J]. J Dairy Sci, 2008, 91(11): 4414-4423. DOI:10.3168/jds.2007-0980
[6]
LEGARRA A, CHRISTENSEN O F, AGUILAR I, et al. Single Step, a general approach for genomic selection[J]. Livest Sci, 2014, 166: 54-65. DOI:10.1016/j.livsci.2014.04.029
[7]
MONTESINOS-LÓPEZ O A, MONTESINOS-LÓPEZ A, PÉREZ-RODRÍGUEZ P, et al. A review of deep learning applications for genomic selection[J]. BMC Genomics, 2021, 22(1): 19. DOI:10.1186/s12864-020-07319-x
[8]
LI B, ZHANG N X, WANG Y G, et al. Genomic prediction of breeding values using a subset of SNPs identified by three machine learning methods[J]. Front Genet, 2018, 9: 237. DOI:10.3389/fgene.2018.00237
[9]
COWLING W A, STEFANOVA K T, BEECK C P, et al. Using the animal model to accelerate response to selection in a self-pollinating crop[J]. G3 (Bethesda), 2015, 5(7): 1419-1428. DOI:10.1534/g3.115.018838
[10]
MEHER P K, RUSTGI S, KUMAR A. Performance of Bayesian and BLUP alphabets for genomic prediction: analysis, comparison and results[J]. Heredity (Edinb), 2022, 128(6): 519-530. DOI:10.1038/s41437-022-00539-9
[11]
CALUS M P L, DE HAAS Y, PSZCZOLA M, et al. Predicted accuracy of and response to genomic selection for new traits in dairy cattle[J]. Animal, 2013, 7(2): 183-191. DOI:10.1017/S1751731112001450
[12]
GAO N, TENG J Y, PAN R Y, et al. Accuracy of whole genome prediction with single-step GBLUP in a Chinese yellow-feathered chicken population[J]. Livest Sci, 2019, 230: 103817. DOI:10.1016/j.livsci.2019.103817
[13]
LOPEZ B I, VITERBO V, SONG C W, et al. Estimation of genetic parameters and accuracy of genomic prediction for production traits in Duroc pigs[J]. Czech J Anim Sci, 2019, 64(4): 160-165. DOI:10.17221/150/2018-CJAS
[14]
SONG H L, ZHANG J X, ZHANG Q, et al. Using different single-step strategies to improve the efficiency of genomic prediction on body measurement traits in pig[J]. Front Genet, 2019, 9: 730. DOI:10.3389/fgene.2018.00730
[15]
FISHER R A. The correlation between relatives on the supposition of Mendelian inheritance[J]. Trans Roy Soc Edinb, 1918, 52(2): 399-433.
[16]
HENDERSON C R. Estimation of variance and covariance components[J]. Biometrics, 1953, 9(2): 226-252. DOI:10.2307/3001853
[17]
HARTLEY H O, RAO J N K. Maximum-likelihood estimation for the mixed analysis of variance model[J]. Biometrika, 1967, 54(1-2): 93-108. DOI:10.1093/biomet/54.1-2.93
[18]
PATTERSON H D, THOMPSON R. Recovery of inter-block information when block sizes are unequal[J]. Biometrika, 1971, 58(3): 545-554. DOI:10.1093/biomet/58.3.545
[19]
BRITO LOPES F, MAGNABOSCO C U, PASSAFARO T L, et al. Improving genomic prediction accuracy for meat tenderness in Nellore cattle using artificial neural networks[J]. J Anim Breed Genet, 2020, 137(5): 438-448. DOI:10.1111/jbg.12468
[20]
HOWARD R, CARRIQUIRY A L, BEAVIS W D. Parametric and nonparametric statistical methods for genomic selection of traits with additive and epistatic genetic architectures[J]. G3 (Bethesda), 2014, 4(6): 1027-1046. DOI:10.1534/g3.114.010298
[21]
SARGOLZAEI M, SCHENKEL F S. QMSim: a large-scale genome simulator for livestock[J]. Bioinformatics, 2009, 25(5): 680-681. DOI:10.1093/bioinformatics/btp045
[22]
ANDONOV S, LOURENCO D A L, FRAGOMENI B O, et al. Accuracy of breeding values in small genotyped populations using different sources of external information—a simulation study[J]. J Dairy Sci, 2017, 100(1): 395-401. DOI:10.3168/jds.2016-11335
[23]
MADSEN P, SORENSEN P, SU G, et al. DMU-a package for analyzing multivariate mixed models[C]//8th World Congress on Genetics Applied to Livestock Production. Belo Horizonte: WCGALP, 2006: 247.
[24]
NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa: ACM, 2010: 807-814.
[25]
VIJAYAKUMAR K, KADAM V J, SHARMA S K. Breast cancer diagnosis using multiple activation deep neural network[J]. Concurrent Eng, 2021, 29(3): 275-284. DOI:10.1177/1063293X211025105
[26]
DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. J Mach Learn Res, 2011, 12: 2121-2159.
[27]
DEMPSTER A P, LAIRD N M, RUBIN D B. Maximum likelihood from incomplete data via the EM algorithm[J]. J Roy Stat Soc Ser B Methodol, 1977, 39(1): 1-22.
[28]
JENSEN J, MANTYSAARI E A, MADSEN P, et al. Residual maximum likelihood estimation of (co) variance components in multivariate mixed linear models using average information[J]. J Indian Soc Agric Stat, 1997, 49: 215-236.
[29]
OLDEN J D, JOY M K, DEATH R G. An accurate comparison of methods for quantifying variable importance in artificial neural networks using simulated data[J]. Ecol Modell, 2004, 178(3-4): 389-397. DOI:10.1016/j.ecolmodel.2004.03.013
[30]
RATHER M A, BASHIR I, HAMDANI A, et al. Prediction of body weight from linear body measurements in Kashmir Merino sheep[J]. Adv Anim Vet Sci, 2021, 9(2): 189-193.
[31]
KUMAR A, MISRA S S, SHARMA R C, et al. Genetic parameters for sex ratio in an organised sheep farm[J]. Ind J Small Rum, 2021, 27(1): 31-36. DOI:10.5958/0973-9718.2021.00014.3
[32]
POCRNIC I, DZIDIC A. Inheritance of the birth weights in crosses between Istrian, Awassi, East-Friesian and Travnik Pramenka sheep in Croatia: a case study[J]. J Cent Eur Agric, 2021, 22(2): 250-259. DOI:10.5513/JCEA01/22.2.3117
[33]
TAKEDA M, INOUE K, OYAMA H, et al. Exploring the size of reference population for expected accuracy of genomic prediction using simulated and real data in Japanese Black cattle[J]. BMC Genomics, 2021, 22(1): 799. DOI:10.1186/s12864-021-08121-z
[34]
ALKIMIM E R, CAIXETA E T, SOUSA T V, et al. High-throughput targeted genotyping using next-generation sequencing applied in Coffea canephora breeding[J]. Euphytica, 2018, 214(3): 50. DOI:10.1007/s10681-018-2126-2
[35]
GHOLIZADEH M, HAFEZIAN S H, NOSRATI M. Estimating heritabilities and breeding values for real and predicted milk production in Holstein dairy cows with artificial neural network and multiple linear regression models[J]. Iran J Appl Anim Sci, 2021, 11(1): 67-78.
[36]
COELHO DE SOUSA I, NASCIMENTO M, DE CASTRO SANT 'ANNA I, et al. Marker effects and heritability estimates using additive-dominance genomic architectures via artificial neural networks in Coffea canephora[J]. PLoS One, 2022, 17(1): e0262055. DOI:10.1371/journal.pone.0262055
[37]
PÉREZ-RODRÍGUEZ P, GIANOLA D, GONZÁLEZ-CAMACHO J M, et al. Comparison between linear and non-parametric regression models for genome-enabled prediction in wheat[J]. G3 (Bethesda), 2012, 2(12): 1595-1605. DOI:10.1534/g3.112.003665
[38]
MCDOWELL R. Genomic selection with deep neural networks[D]. Ames: Iowa State University, 2016.
[39]
LUAN T, WOOLLIAMS J A, LIEN S, et al. The accuracy of genomic selection in Norwegian red cattle assessed by cross-validation[J]. Genetics, 2009, 183(3): 1119-1126. DOI:10.1534/genetics.109.107391
[40]
DAETWYLER H D, PONG-WONG R, VILLANUEVA B, et al. The impact of genetic architecture on genome-wide evaluation methods[J]. Genetics, 2010, 185(3): 1021-1031. DOI:10.1534/genetics.110.116855
[41]
张猛. 西门塔尔牛部分经济性状全基因组选择的初步研究[D]. 北京: 中国农业科学院, 2011.
ZHANG M. Genomic selection on some economical traits in Simmental[D]. Beijing: Chinese Academy of Agricultural Sciences, 2011. (in Chinese)
[42]
WOLC A, DEKKERS J C M. Application of Bayesian genomic prediction methods to genome-wide association analyses[J]. Genet Sel Evol, 2022, 54(1): 31. DOI:10.1186/s12711-022-00724-8
[43]
MELNIKOVA E, KABANOV A, NIKITIN S, et al. Application of genomic data for reliability improvement of pig breeding value estimates[J]. Animals (Basel), 2021, 11(6): 1557.
[44]
TERAKADO A P N, COSTA R B, IRANO N, et al. Comparison of methods for predicting genomic breeding values for growth traits in Nellore cattle[J]. Trop Anim Health Prod, 2021, 53(3): 349. DOI:10.1007/s11250-021-02785-1
[45]
COSTA W G D, CELERI M D O, BARBOSA I D P, et al. Genomic prediction through machine learning and neural networks for traits with epistasis[J]. Comput Struct Biotechnol J, 2022, 20: 5490-5499. DOI:10.1016/j.csbj.2022.09.029
[46]
CROSSA J, PÉREZ-RODRÍGUEZ P, CUEVAS J, et al. Genomic selection in plant breeding: methods, models, and perspectives[J]. Trends Plant Sci, 2017, 22(11): 961-975. DOI:10.1016/j.tplants.2017.08.011
[47]
BELLOT P, DE LOS CAMPOS G, PÉREZ-ENCISO M. Can deep learning improve genomic prediction of complex human traits?[J]. Genetics, 2018, 210(3): 809-819. DOI:10.1534/genetics.118.301298
[48]
MEUWISSEN T, GODDARD M. Accurate prediction of genetic values for complex traits by whole-genome resequencing[J]. Genetics, 2010, 185(2): 623-631. DOI:10.1534/genetics.110.116590
[49]
ERBE M, HAYES B J, MATUKUMALLI L K, et al. Improving accuracy of genomic predictions within and between dairy cattle breeds with imputed high-density single nucleotide polymorphism panels[J]. J Dairy Sci, 2012, 95(7): 4114-4129. DOI:10.3168/jds.2011-5019

(编辑   郭云雁)