畜牧兽医学报  2023, Vol. 54 Issue (8): 3299-3312. DOI: 10.11843/j.issn.0366-6964.2023.08.016    PDF    
基于中红外光谱的牛奶中三种氨基酸含量预测模型的建立及应用
褚楚1, 张静静1, 丁磊1, 樊懿楷1, 包向男2, 向世馨1, 刘锐1, 罗雪路1, 任小丽1, 李春芳1, 刘文举1, 王亮1, 刘莉1, 李永青1, 江汉1, 李委奇3, 孙伟2, 李喜和2, 温万3, 周佳敏3, 张淑君1     
1. 华中农业大学动物科学技术学院、动物医学院, 动物遗传育种与繁殖教育部实验室, 武汉 430070;
2. 内蒙古国家乳业技术创新中心有限责任公司, 呼和浩特 011517;
3. 宁夏回族自治区畜牧工作站, 银川 750000
摘要:旨在建立牛奶中游离精氨酸、组氨酸和异亮氨酸含量的中红外光谱快速批量检测的方法,并进行大量外部验证。本研究以来自华北、华中和西北3个地区4个省份的217份健康中国荷斯坦牛牛奶样本为研究对象,利用4种光谱预处理算法(SG平滑、差分、多元散射校正、标准正态变换)、4种特征选择算法(已知信息区域、适应重加权算法、遗传算法及最小角回归算法)及两种建模算法(偏最小二乘回归和岭回归),分别建立了牛奶中游离的精氨酸、组氨酸和异亮氨酸含量的MIR光谱定量预测模型,将建立的最优模型应用于另外9个不同奶牛场的4 690头牛采集的32 559个牛奶样本的MIR光谱进行预测分析,以探讨泌乳阶段、牧场、胎次及季节对MIR预测的精氨酸、组氨酸及异亮氨酸含量的影响。结果表明:1)基于CARS特征选择算法、无光谱预处理和PLSR建模算法开发的精氨酸含量预测模型效果最好,该模型RP2=0.58,RMSEp=6.89 nmol·mL-1;基于CARS特征选择算法、SG平滑(窗口长度为11,2阶多项式)预处理及PLSR建模算法开发的组氨酸含量预测模型效果最好,该模型RP2=0.56,RMSEp=0.88 nmol·mL-1;基于274个特征信息波点、SG平滑(窗口长度为29,3阶多项式)预处理及PLSR建模算法开发的异亮氨酸含量预测模型效果最好,该模型RP2=0.49,RMSEp=1.75 nmol·mL-1;2)将最优模型进行跨地区外部验证时,预测准确性有所降低;3)将建立的模型应用于E省(未参与模型建立)大规模光谱数据库,以预测牛奶中游离精氨酸、组氨酸和异亮氨酸含量,发现泌乳阶段、牧场、季节对牛奶中游离精氨酸、组氨酸及异亮氨酸含量均有极显著影响(P<0.001),而胎次对精氨酸含量无显著影响,对组氨酸和异亮氨酸有极显著影响(P<0.001)。结果表明,利用MIR预测牛奶中游离氨基酸含量是可行的,特别是在牛奶氨基酸含量高低趋势分析方面具有一定预测能力,而该预测模型还需要更多的有代表性样本进行优化,提高模型的准确性和通用性。
关键词中红外光谱(MIR)    牛乳氨基酸    预测模型    牛奶    机器学习    
Establishment and Application of Prediction Model of Three Amino Acids in Milk Based on Mid-infrared Spectroscopy
CHU Chu1, ZHANG Jingjing1, DING Lei1, FAN Yikai1, BAO Xiangnan2, XIANG Shixin1, LIU Rui1, LUO Xuelu1, REN Xiaoli1, LI Chunfang1, LIU Wenju1, WANG Liang1, LIU Li1, LI Yongqing1, JIANG Han1, LI Weiqi3, SUN Wei2, LI Xihe2, WEN Wan3, ZHOU Jiamin3, ZHANG Shujun1     
1. Laboratory of Animal Genetics, Breeding and Reproduction of Ministry of Education, College of Animal Science and Technology/College of Animal Medicine, Huazhong Agricultural University, Wuhan 430070, China;
2. Inner Mongolia National Center of Technology Innovation for Dairy Industry, Hohhot 011517, China;
3. Ningxia Hui Autonomous Region Animal Husbandry Workstation, Yinchuan 750000, China
Abstract: The purpose of this study was to establish a rapid batch determination method for free arginine, histidine and isoleucine in milk by mid-infrared spectroscopy, and to carry out a large number of external verifications. A total of 217 Chinese Holstein milk samples from 4 provinces in North China, Central China and Northwest China were taken as the research objects, using 4 spectral preprocessing algorithms (SG smoothing, difference, multivariate scattering correction, standard normal transformation), 4 feature selection algorithms (known information region, adaptive heavy weighting algorithm, genetic algorithm and minimum angle regression algorithm) and 2 modeling algorithms (partial least squares regression and ridge regression), the MIR spectral quantitative prediction models of free arginine, histidine and isoleucine contents in milk were established. The optimal model was applied to the MIR spectra of 32 559 milk samples collected from 4 690 cows in 9 different dairy farms to explore the effects of lactation stage, pasture, parity and season on the predicted arginine, histidine and isoleucine contents by MIR. The results show that: 1) The prediction model of arginine content based on CARS feature selection algorithm, non-spectral pretreatment algorithm and PLSR modeling algorithm was the best, RP2=0.58, RMSEp=6.89 nmol·mL-1; The prediction model of histidine content based on CARS feature selection algorithm, SG smoothing (window length is 11, 2-order polynomial) pretreatment and PLSR modeling algorithm was the best, RP2=0.56, RMSEp=0.88 nmol·mL-1; Based on 274 characteristic information wave points, SG smoothing (window length is 29, 3-order polynomial) pretreatment and PLSR modeling algorithm, the prediction model of isoleucine content was the best, RP2=0.49, RMSEp=1.75 nmol·mL-1; 2) When the optimal model was verified externally across regions, the prediction accuracy was reduced; 3) Applying the established model to the large-scale spectral database of E province (not participating in the establishment of the model), the contents of free arginine, histidine and isoleucine in milk was predicted, it was found that lactation stage, pasture and season had significant effects on the contents of free arginine, histidine and isoleucine in milk (P < 0.001), while parity had no significant effect on arginine content, but had significant effect on histidine and isoleucine (P < 0.001). The results show that it is feasible to predict the content of free amino acids in milk by MIR, especially, it has certain predictive ability in the trend analysis of milk amino acid content, and the prediction model needs more representative samples to optimize, so as to improve the accuracy and universality of the model.
Key words: mid-infrared spectroscopy(MIR)    milk amino acid    prediction model    milk    machine learning    

动物摄取蛋白质是为了获得其中的氨基酸,尤其是对动物生长发育至关重要的必需氨基酸[1]。牛奶中的氨基酸组成与人奶相似,富含人体内不能合成的必需氨基酸及3种支链氨基酸,是较为优质的乳蛋白资源[2]。其中,牛奶中富含的异亮氨酸(isoleucine, Ile)、精氨酸(arginine, Arg)、组氨酸(histidine, His)是成年人、儿童、早产儿重要的必需氨基酸,在人类生命代谢中占有特别重要的地位。牛奶中的异亮氨酸占牛奶中总氨基酸含量的5.8%左右,具有提高机体免疫力[3]、促进蛋白质合成、激活抗氧化防御系统[4]、改善生长性能、提高肠道免疫和物理屏障功能等重要生物功能[5]。牛奶中的组氨酸占奶中总氨基酸含量的2.6%左右,是处于生长发育阶段动物非常重要的一类营养物质[6],它在酶的活性部位发挥着特别重要的作用[7-8]。牛奶中的精氨酸占奶中总氨基酸含量的3.5%左右[9],研究发现摄入精氨酸可以改善机体免疫力[10]、促进氨转化成尿素进而降低人体血氨,是维持婴幼儿生长和氮平衡必不可少的氨基酸[11]。因此,牛奶中游离氨基酸含量的准确检测有助于奶牛的健康养殖,同时,也是稳定乳制品质量,实现标准化加工的前提。关于奶制品中游离氨基酸的测定方法目前暂无国家标准,当前用于游离氨酸含量检测的分析技术主要有氨基酸自动分析仪分析法、高效液相色谱法[12]、液相色谱-质谱仪[13]、气相色谱-质谱仪、毛细管电泳、核磁共振等,该技术测定准确率较高,但此类方法也存在成本高、耗时长、难操作和仪器设备要求高等不足,难以在奶牛生产性能测定DHI的实践中快速批量化使用[14-17]。中红外光谱(mid-infrared spectroscopy, MIR)技术是一种非常经济高效的检测工具,具有方便快捷、无污染、无破坏性、无前处理等优势[18],弥补了传统检测方法的不足,近年来已经成为一种检测趋势。在定量分析过程中,中红外光谱的灵敏度比其他光谱要高[19]。我国现已通过中红外光谱技术对牛奶中蛋白总量和脂肪总量等常规乳成份指标进行检测,已广泛应用于奶牛生产性能DHI测定中[20-21]。目前对牛奶中游离氨基酸含量的快速批量检测方法研究较少,仅有一篇国外研究将MIR应用于牛奶中游离氨基酸含量的定量检测,McDermott等[22]利用来自7个研究牛群和69个商业牛群的715个奶样建立了基于MIR的牛奶中游离氨基酸含量的定量模型,并探讨了泌乳阶段、胎次、月份、遗传等对牛奶中游离氨基酸含量的影响。然而,目前尚无基于牛奶MIR的中国荷斯坦牛游离氨基酸含量的预测模型,也没有我国奶牛群体氨基酸含量及其影响因素相关研究信息。

本研究利用中红光谱MIR不同预处理方法、特征波段选择算法及建模方法,建立中国荷斯坦牛牛奶中3种重要游离氨基酸(精氨酸、组氨酸、异亮氨酸)含量的MIR预测潜力模型,并将所建立的MIR预测模型应用于大规模奶牛奶数据的预测,从群体水平上探讨牛奶中游离精氨酸、组氨酸和异亮氨酸含量,以及在不同胎次、泌乳阶段、季节及牧场之间的变异特征。若MIR预测准确性良好,则将提供一种方法来估计大量牛奶中游离氨基酸含量,有望应用于我国奶牛生产性能测定DHI中,增加奶牛奶品质性状的表型指标。

1 材料与方法 1.1 试验材料

从我国华北、华中和西北4个省份(A、B、C、D)的9个中国荷斯坦奶牛养殖场中,采集健康状况良好的奶牛奶样共217份,采样时间为2018年10月至2019年1月。牛奶采集利用自动挤奶装置完成,奶样一式两份,一份用于MIR测定,一份用于氨基酸参考值测定,每份牛奶采集约40 mL,分装到DHI检测瓶中,依次编号,并向每个采样瓶里立即加入溴硝丙二醇防腐剂,缓慢摇晃使其充分溶解。运回途中在奶样周围放置冰袋(2~4 ℃)防止变质,样本到达实验室后立即进行光谱采集。

1.2 仪器、设备和试剂

MilkoScanTMFT+[傅里叶变换中红外光谱仪(FTIR), 丹麦FOSS公司]; 全自动氨基酸分析仪(德国SykamS433D);游离氨基酸分析柱(LCAK07/Li,4.6 mm ×150 mm);游离氨基酸分析除氨柱;针管过滤器;0.45 μm尼龙滤膜;涡漩振荡器;离心机;进样瓶。

氨基酸标准溶液(34AA,PH游离,货号AA-S000031);茚三酮(N105629-500 g,阿拉丁);缓冲液A、缓冲液B、缓冲液C、再生液D均购于德国Sykam公司;LiOH×H2O;柠檬酸×H2O;HCl(浓度为37%);辛酸;磺基水杨酸;其他试剂均为国产分析纯。

1.3 方法

1.3.1 中红外光谱的采集   将采样瓶放在42 ℃水浴锅内预热15~20 min,将预热后奶样放在检测铁架上反转摇晃数次使牛奶中成分分布均匀,在保持环境温度为室温的前提下,将样品放上检测履带,打开瓶盖,依次通过FT-MIR仪进行检测,检测结果输出牛奶MIR、牛奶常规乳成分(乳脂、乳蛋白、乳糖、尿素氮、总固形物)及牛奶体细胞数数据。

1.3.2 牛奶中游离精氨酸、组氨酸和异亮氨酸的含量测定   1) 100 nmol·mL-1标准液配制:取100 μL标准液加900 μL样品稀释液,涡旋混匀。上机前用0.45 μm尼龙滤膜过滤。2)奶样的处理:吸取约8 mL奶样于离心管中,3 000 r·min-1离心5 min(达到分离固态物的目的即可),若奶样中悬浮物不至于干扰取样均匀性,则此步骤可跳过;离心后准确吸取上清液1 mL于另外的离心试管中,加入2%磺基水杨酸9 mL,混匀静置15 min;设置离心机转速为3 000 r·min-1离心20 min或10 000 r·min-1离心10 min,离心后取上清液;上机前用0.45 μm尼龙滤膜过滤。色谱条件:色谱柱:LCAK07/Li;流速:洗脱泵0.45 mL·min-1+衍生泵0.25 mL·min-1;检测波长:570 nm+440 nm;反应器温度:38~74 ℃梯度升温;平均每批次检测20个样品,一批次只需进样一次标准液,若中途更换试剂(流动相、茚三酮等)则标准液需重新进样。

1.4 异常值的筛选

首先去除光谱为空值的记录,其次对真实值进行筛选,即真实值在平均值±标准差范围内则归为正常值,否则为异常值。217条数据经异常值筛选后,保留精氨酸数据185条,组氨酸数据197条,赖氨酸数据197条,具体信息见表 1

表 1 牛奶样本在不同地区的分布情况 Table 1 Distribution of milk samples in different regions
1.5 光谱预处理、特征提取

牛奶胶束的散射以及仪器运行过程中产生的随机噪声会对光谱造成干扰,因此光谱中不仅包含许多有用的化学信息,还存在大量的背景噪声和无用信息。为去除光谱采集过程中环境、仪器及操作引起的系统误差,正式建模前需先对光谱进行预处理。本研究采用的光谱预处理方法包括标准正态变量变换(standard normal variate transformation, SNV)、多元散射校正(multivariate scatter correction, MSC)、差分及Savitsky-Golay(SG)平滑(SG平滑包含w和k两个参数,w指窗口长度,该值需为正奇整数;k指对窗口内的数据点进行k阶多项式拟合)。结果仅展示最优光谱预处理。

牛奶MIR由925~5 008 cm-1范围内的1 060个单独的波点组成,中红外光谱特征维数较多,不同波段之间信息有一定的重叠性,通过特征提取算法,能够大大降低光谱维数,提高建模速度,并且可去除光谱中的噪音。本研究利用竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)、遗传算法(genetic algorithm,GA)及最小角回归算法(least angle regression,LAR)提取特征变量,并与目前国际上牛奶MIR建模常用的274个信息波点(925~1 584 cm-1、1 719~1 784 cm-1及2 652~2 976 cm-1,以下称为“信息波点”)相比较。

1.6 建模

1.6.1 数据集划分   根据4个地区,将总数据集划分为3部分,即训练集、测试集和外部验证集,三者数据比例约为4 ∶1 ∶1,训练集用于训练模型,测试集用于测试模型性能,外部验证集用于验证模型的泛化能力。在第一轮,A、B、C地区数据用于训练集及测试集,D地区数据用于外部验证集;在第二轮,A、B、D地区数据用于训练集及测试集,C地区数据用于外部验证集;以此类推,直至每个地区的数据都用于一次外部验证。此过程不仅可了解模型对于建模地区数据的预测力(测试集结果),还可了解其对其他地区数据的预测能力(外部验证集结果)。

1.6.2 建模方法   本研究比较了两种建模算法,即偏最小二乘回归(partial least squares regression)及岭回归。

1.7 模型的评价指标

本研究利用训练集决定系数(Rc2)、训练集均方根误差(root mean square error of calibration, RMSEC)、测试集决定系数(Rp2)、测试集均方根误差(root mean squared error of prediction, RMSEP)、平均绝对误差(Mean absolute error, MAE)及性能偏差比(ratio of performance to deviation,RPD)综合评价模型性能以筛选出最佳模型。对于建模预测而言,R2越接近1,RPD越大,MAE及RMSE越小,表明模型预测性能越好[23]

1.8 模型的应用

为探讨模型的应用性能,将预测模型应用于从E省(未参与建模的省份)9个不同奶牛场4 690头牛采集的32 559个牛奶样本的MIR光谱,去除光谱及常规乳成分空值、真实值范围之外的异常值后获得样本23 707个。然后,通过比较氨基酸预测值与真实值的差异、氨基酸与乳成分及体细胞数相关性的差异,进一步确定模型在大规模数据集上外部验证的性能。最后,使用混合线性模型分析胎次、泌乳阶段、季节(春季:3~5月;夏季:6~8月;秋季:9~11月;冬季:12月~次年2月)及牧场对牛奶中游离精氨酸、组氨酸及异亮氨酸含量的影响,以探讨模型的预测应用效果:

$ \begin{aligned} & \quad \mathrm{y}_{\mathrm{ijklmn}}=\text { DIM }_{\mathrm{i}}+\text { Parity }_{\mathrm{j}}+\text { Season }_{\mathrm{k}}+\text { Herd }_{\mathrm{l}}+ \\ & \text { Cow }_{\mathrm{m}}+\mathrm{e}_{\mathrm{ijklmn}} \end{aligned} $

其中,yijklmn为分析的3种氨基酸性状表型,包括精氨酸、组氨酸和异亮氨酸;DIMi为第i水平DIM的固定效应(i=1, 2, …, 12,以30 d为间隔分为12个水平,其中第12类包括DIM>330 d的样本);Parityj是奶牛的第j胎的固定效应(j=1:第一胎次;j=2:第2胎次;j=3:第3胎次;j=4:第4胎次;j=5:第5胎次;j=6:第6及后胎次);Seasonk是季节固定效应(k=1:春季;k=2:夏季;k=3:秋季;k=4:冬季);Herdl是第l个牧场的随机效应(l=1~9);Cowm是奶牛个体的随机效应;eijklmn为随机残差,假设服从eijklmn~N(0,σe2)正态分布,其中σe2是残差方差。

2 结果 2.1 牛奶的中红外光谱MIR特征

牛奶的原始光谱如图 1所示。牛奶MIR由925~5 008 cm-1范围内的1 060个单独的波点组成,共包含5个区域,大致分为短波红外区(SWIR)、中波红外区(MWIR)和长波红外区(LWIR)。5 010~3 673 cm-1被称为SWIR区域,此区域通常被认为与牛奶成分的化学键无关[24-25];3 669~3 052 cm-1被称为SWIR-MWIR区域;3 048~1 701 cm-1被称为MWIR-1区域,此区域与C-H,C=O,C-N和N-H键有关,所有这些键均与乳脂含量有关[26];1 698~1 585 cm-1被称为MWIR-2区域;1 582~925 cm-1被称为MWIR-LWIR区域,此区域被称为“指纹区”,该区域通常被认为是预测牛奶成分最重要的区域,因为它与化学键C-H,芳香族C=C,C-O和N-O有关[27]。不同样本在MWIR-2(1 698~1 585 cm-1)及SWIR-MWIR(3 669~3 052 cm-1)区域吸光度的变异很大,这是由水吸收导致,一般认为,水吸收区域不含信息特征,因此来自吸水区域的波数通常被认为不能用于预测牛奶成分或任何其他特性[28]。在MWIR-1区域及MWIR-LWIR区域均观察到特征吸收峰,在SWIR区域未观察到特征吸收峰。

SWIR.短波红外或近红外区域;MWIR.中波红外区域(3.0~8.0 μm);LWIR.长波红外区域(8.0~15.0 μm) SWIR. Short-wavelength infrared or near-infrared; MWIR. Mid-wavelength infrared (3.0-8.0 μm); LWIR. Long-wavelength infrared (8.0-15.0 μm) 图 1 牛奶样本原始光谱 Fig. 1 Original spectrum of milk samples
2.2 基于牛奶MIR的3种氨基酸预测模型的建立

利用两种建模算法、3种波段选择算法及4种光谱预处理算法对牛奶中游离精氨酸、组氨酸及异亮氨酸分别建立基于MIR的预测模型,模型结果见表 2

表 2 不同建模算法及特征选择方法对氨基酸预测模型性能的影响 Table 2 Effects of different modeling algorithms and feature selection methods on the performance of amino acid prediction models

2.2.1 光谱预处理、特征选择算法及建模算法的选择   建模前,使用CARS、GA和LAR算法分别对光谱数据进行特征提取,分别找出能够代表精氨酸、组氨酸、异亮氨酸含量的特征变量,然后利用SG平滑、差分、MSC、SNV方法对光谱进行预处理。

对于精氨酸,利用CARS算法提取到的光谱特征建模效果好(RP2=0.58),其次是274个信息波点(RP2=0.50),GA和LAR算法表现出相似的结果(RP2=0.45)。对于组氨酸,表现出和精氨酸类似的规律,即CARS算法(RP2=0.56)优于274个信息波点(RP2=0.50)建模,GA(RP2=0.34)和LAR(RP2=0.47)算法差于274个信息波点建模。对于异亮氨酸,利用274个特征信息波点(RP2=0.49)建模效果最好,优于CARS(RP2=0.38)、GA(RP2=0.32)及LAR(RP2=0.28)。3种氨基酸建模最优波段在MIR上的分布范围如下:精氨酸经过CARS算法共选择出71个波点:9个分布在MWIR-1区域、5个分布在MWIR-2区域;13个分布在MWIR-LWIR区域、26个分布在SWIR区域、18个分布在SWIR-MWIR区域。组氨酸经过CARS算法共选择出93个波点:27个分布在MWIR-1区域、2个分布在MWIR-2区域;26分分布在MWIR-LWIR区域;16个分布在SWIR区域、22个分布在SWIR-MWIR区域。目前,国际上牛奶MIR建模常用的274个信息波点分布在925~1 584 cm-1、1 719~1 784 cm-1及2 652~2 976 cm-1范围内,包含了MWIR-1中的乳脂吸收区及MWIR-LWIR(牛奶指纹)区域。

表 2可以看出,与岭回归相比,利用PLSR算法建立精氨酸、组氨酸和异亮氨酸模型效果较好,此类模型的R2及RPD较高、RMSE及MAE较低。综上所述,采用CARS特征选择算法+无光谱预处理+PLSR建模算法开发的精氨酸含量预测模型效果最好,该模型RP2=0.58,RMSEp=6.89 nmol·mL-1,MAE=5.64 nmol·mL-1,RPD=1.41;采用CARS特征选择算法+SG平滑(窗口长度为11,2阶多项式)预处理+PLSR建模算法开发的组氨酸含量预测模型效果最好,该模型RP2=0.56,RMSEp=0.88 nmol·mL-1,MAE=0.70 nmol·mL-1,RPD=1.63;采用274个特征信息波点+SG平滑(窗口长度为29,3阶多项式)预处理+PLSR建模算法开发的异亮氨酸含量预测模型效果最好,该模型RP2=0.49,RMSEp=1.75 nmol·mL-1,MAE=1.34 nmol·mL-1,RPD=1.55。

2.2.2 预测最优模型的跨地区外部验证   利用所建立的最优预测模型对来自不同地区的未参加建模的奶牛奶进行外部验证,以探讨建立的氨基酸预测模型对其他地区数据的预测能力,即跨地区预测能力。由表 3可看出,数据集的划分不同,模型的外部验证结果略有差异,对于精氨酸、组氨酸和异亮氨酸,跨地区外部验证的预测误差分别为7.70~10.11 nmol·mL-1, 1.22~1.49 nmol·mL-1, 2.01~2.76 nmol·mL-1。由图 2可看出,真实值和预测值的散点图围绕在y=x(真实值等于预测值),表明在小规模数据集上,跨不同地区外部验证数据的预测值与真实值呈现出一定的相关趋势。

表 3 最优模型的跨地区验证 Table 3 Cross-regional validation of the optimal model
a.A、B、C地区数据建模,D地区数据做外部验证(最优模型外部验证结果);b.A、B、D地区数据建模,C地区数据做外部验证(最优模型外部验证结果);c.A、C、D地区数据建模,B地区数据做外部验证(最优模型外部验证结果);d.C、D、B地区数据建模,A地区数据做外部验证(最优模型外部验证结果) a.A, B, C area data modeling, D area data for external validation (optimal model external validation results); b. A, B, D area data modeling, C area data for external validation (optimal model external validation results); c. A, C, D area data modeling, B area data for external validation (optimal model external validation results); d. C, D, B area data modeling, A area data for external validation (optimal model external validation results) 图 2 最优模型跨不同地区外部验证结果 Fig. 2 External validation results of the optimal model across different regions

综合模型在跨不同地区外部验证数据集上的预测误差及相关关系结果,表明目前建立的氨基酸最优预测模型可用于区分高氨基酸含量牛奶及低氨基酸含量牛奶,即分析氨基酸含量高低趋势,可用于奶牛性能高低评估,若模型用于较准确地预测真实含量还需要进一步优化和提高。

2.3 模型在9大规模牧场中预测应用

为了进一步探讨模型对牛场大规模奶牛群牛奶的预测应用效果,利用建立的最优精氨酸、组氨酸、异亮氨酸含量预测模型对来自没有参加建模的另外9个不同奶牛场(位于E省)的4 690头牛采集的32 559个牛奶样本的MIR光谱进行预测分析。

2.3.1 模型预测的氨基酸含量及其高低趋势   “2.2.2”说明了基于MIR的氨基酸含量预测模型对氨基酸含量高低趋势具有一定的预测潜力。由表 4可知,在进行跨不同地区或牧场的外部验证时,3种氨基酸含量的预测值略低于真实值,但在含量值的高低趋势是相似的,精氨酸含量最高,其次是异亮氨酸,组氨酸的含量最低。

表 4 牛奶中游离氨基酸真实值及预测值的含量及分布情况 Table 4 Content and distribution of true and predicted free amino acids in milk 

2.3.2 模型预测的氨基酸含量与牛奶常规乳成分相关   3种氨基酸预测值与牛奶常规乳成分和体细胞数及产奶量的相关性同3种氨基酸测定真实值与牛奶常规乳成分和体细胞数及产奶量的相关性相比,均呈现相同的正相关或负相关,预测值与牛奶常规乳成分(牛奶常规乳成分、体细胞数、产奶量)的相关强度略低于真实值与三者的相关强度(图 3)。综合以上结果,建立的预测模型具有预测奶牛氨基酸含量及其变化趋势的潜力。

左侧图代表3种氨基酸预测值与牛奶常规乳成分、体细胞数、产奶量的相关性;右侧图代表 3种氨基酸真实值与牛奶常规乳成分、体细胞数、产奶量的相关性;不显著相关性系数图块上有X符号 The left graph represents the correlation between the predicted values of 3 amino acids and conventional milk composition, somatic cell number and milk yield; The right graph represents the correlation between the true values of 3 amino acids and conventional milk composition, somatic cell number and milk yield; There is an X symbol on the block of insignificant correlation coefficient 图 3 牛奶中氨基酸含量与牛奶中常规乳成分、体细胞数、产奶量的相关性 Fig. 3 Correlation between amino acid content in milk and conventional milk composition, somatic cell number and milk yield

2.3.3 模型预测氨基酸含量的影响因素   经过混合线性模型分析可知,泌乳阶段、牧场、季节对牛奶中游离精氨酸、组氨酸及异亮氨酸含量均有极显著影响(P<0.001),而胎次对精氨酸含量无显著影响,对组氨酸和异亮氨酸有极显著影响(P<0.001)(表 5)。

表 5 混合线性模型分析结果 Table 5 Analysis results of mixed linear model

图 4A展示了泌乳阶段对牛奶中精氨酸、异亮氨酸及组氨酸含量的影响。共观察到两种变化规律,第一个对应异亮氨酸和组氨酸,在泌乳前2个月含量降低,随后小幅度增加,至泌乳6个月后又有降低趋势,在后期趋于稳定;第二种变化规律对应精氨酸,在泌乳前期和中期(1~9月)牛奶中精氨酸含量不断升高,泌乳9~11月略微降低,随后又转为上升趋势。图 4B可看出,不同牧场之间氨基酸含量有差异,令人感兴趣的是,精氨酸和异亮氨酸在不同牧场之间的变化规律几乎相同,而组氨酸表现出与二者完全相反的变化规律。由图 4C可知,随着从低胎次到高胎次的过渡,牛奶中精氨酸、异亮氨酸和组氨酸含量有降低趋势,但变化不明显,差异不显著。图 4D展现了牛奶中精氨酸、异亮氨酸和组氨酸含量在不同季节中的变化。精氨酸、组氨酸和异亮氨酸对于季节的变化响应了相似的变化规律,即春季到秋季含量升高,在秋季含量到达顶峰,随后降低。3种氨基酸的最高值均出现在秋季,精氨酸的最低值出现在春季,异亮氨酸和组氨酸的最低值出现在冬季。

Arg.精氨酸;Ile.异亮氨酸;His.组氨酸 Arg.Arginine; Ile.Isoleucine; His.Histidine 图 4 当模型应用于DHI牛奶光谱数据库时3种氨基酸预测值在不同泌乳阶段(A)、牧场(B)、胎次(C)及季节(D)中的变化规律 Fig. 4 The variation law of 3 amino acid predicted values in different lactation stages(A), pastures(B), parities(C) and seasons(D) when the model is applied to DHI milk spectral database
3 讨论 3.1 基于牛奶MIR的3种氨基酸预测模型的准确性

本研究利用不同的特征选择方法、光谱预处理方法及建模算法建立了基于MIR的牛奶(原料牛奶)中游离精氨酸、组氨酸和异亮氨酸含量的预测模型,三者最优预测模型的预测性能相似,RP2均在0.5左右(0.58、0.56、0.49),RPD在1.5左右(1.41、1.63、1.55),预测误差RMSEp也在预期范围内(6.89、0.88、1.75 nmol·mL-1),这些结果表明,虽然建立的氨基酸预测模型目前不能进行精准定量检测,但可用于预测牛奶中的氨基酸含量,鉴别高游离氨基酸牛奶和低游离氨基酸牛奶,即用于牛奶氨基酸含量高低趋势分析,也可用于奶牛的品质性状指标氨基酸含量预测及其高低的比较。

目前,国内外仅有一篇文献研究MIR对牛奶中游离氨基酸含量的定量预测,McDermott等[22]使用PLSR方法,利用712个奶样的MIR及参考值建立了牛奶中游离总氨基酸、谷氨酸、甘氨酸、赖氨酸、精氨酸、天冬氨酸、丝氨酸及缬氨酸含量的定量预测模型,验证集中相关系数为0.26(精氨酸)~0.75(甘氨酸)(对应R2为0.07~0.56),RPD为1.07(丝氨酸)~1.38(甘氨酸),此研究与本研究只有一种相同氨基酸,即精氨酸。与McDermott等[22]的研究(r=0.26,R2=0.07,RPD=1.25)相比,本研究建立的游离精氨酸定量预测模型(验证集R2=0.58,RPD=1.41)结果较好。对于精氨酸含量预测模型的建立过程,本研究与McDermott等[22]均使用了PLSR建模算法,且并未对光谱进行预处理,造成预测效果有差异的可能原因有光谱预处理方法、特征波选择方法、建模数据量、样本采集广泛度(多样性和代表性)、建模集中测试集与训练集的分布情况、真实值的测定过程、牧场的饲养管理等[29]。McDermott等[22]使用的波段范围为926~1 580 cm-1、1 717~2 986 cm-1、3 696~3 808 cm-1(仅去除了水吸收区域),而本研究结合3种波段选择算法(GA、LAR、CARS)选出了最优预测模型,Gottardo等[30]表明,在PLS分析之前采用变量选择方法可以提高牛奶中脂肪酸组成的预测精度。

当将建立的预测模型应用到跨不同地区外部验证集中时,由于不同地区气候、牧场管理条件、奶牛饮食等均有差异,导致外部验证集的变异性未包含在建模集中,因此模型对外部验证数据产生了有偏预测,这是预期内的结果,有文献表明,对于准确的预测方程,验证数据集中存在的变化必须包含在校准数据集中[31-32],因此,为建立稳健准确的氨基酸预测模型,需要在模型中加入来源于不同饲养条件、饮食、品种、气候等的氨基酸数据,以在建模集中包含足够多的变异,这可以通过跨地区及国际合作实现。

3.2 泌乳阶段、牧场、胎次及季节对模型预测的精氨酸、组氨酸及异亮氨酸含量的影响

奶牛的泌乳阶段可分为泌乳初期、泌乳前期、泌乳中期、泌乳后期、干奶期5个阶段,泌乳阶段不同,奶产量及牛奶中氨基酸含量也会有所差异。相关文献表明,牛奶中游离氨基酸含量在泌乳初期和泌乳后期较高。McDermott等[22]利用基于MIR的牛奶中游离氨基酸含量模型预测了大量比利时DHI数据,结果表明牛奶中总游离氨基酸含量与大多数游离氨基酸含量(谷氨酸、甘氨酸、赖氨酸、精氨酸和天冬氨酸)在泌乳早期降低,直到产犊后第65天,随后逐渐升高,这与本研究结果(精氨酸从泌乳前期到后期均有上升趋势)有所差异,产生差异的原因可能是本研究建模数据中泌乳早期数据较少,因此对于泌乳早期会产生较大误差的预测,更重要原因可能与奶牛饲料、饲养管理和季节等因素有关。

季节对牛奶氨基酸含量的影响有多方面,主要是不同季节导致饲草营养成份[33]、空气温度等发生变化,因此,在生产中为了得到质量更优的奶产品,对奶牛养殖要注意营养水平及温度的调控,在夏季防暑降温至关重要。本研究结果表明,牛奶中精氨酸含量在秋季最高,春夏季含量较低,这与其他文献报道一致[34]。奶牛属于耐冷不耐热的动物,在较高温的环境中具有较低的生产性能,因此夏季牛奶中氨基酸含量降低。有学者以荷斯坦奶牛为研究对象,探讨荷斯坦牛奶中氨基酸含量的季节变化特点,结果表明随着返青期、盛草期、枯草前期和枯草期等季节的更替,牛奶中总氨基酸和必需氨基酸的含量呈递增趋势。在返青期,牧草水分含量较高,干物质较少,以此为饲料生产的牛奶表现出较低氨基酸含量的特点;盛草期牧草快速生长,干物质含量迅速升高,奶牛粗纤维、粗脂肪、粗蛋白摄入量增多,为乳腺细胞合成蛋白质提供较为充足的原料,因此盛草期间牛奶中氨基酸含量较返青期高;随着枯草期的到来,牧草中粗纤维含量升高,导致奶牛产奶量降低而乳脂率升高,进而提高牛奶中氨基酸含量[35]

胎次是影响牛奶营养成份、奶牛生产性能和血液指标的重要因素,同时对牛奶氨基酸含量也有较大影响。牛奶中各游离氨基酸含量和游离氨基酸总量在奶牛第1胎时最高[22],且随胎次的增长有明显下降的趋势,这与本研究结果一致。随奶牛胎次的增长其奶中氨基酸含量降低的原因可能是头胎泌乳牛较为健康,患乳腺炎的较少,往后的胎次由于饲养管理、环境等原因会发生乳腺疾病,从而导致牛奶中氨基酸和蛋白质含量的下降[36]。以上分析的不同影响因素对模型预测结果影响效应与变化规律与文献报道类似,从另一个角度也说明该模型具有一定的预测能力。

4 结论

本研究在国内率先利用MIR建立牛奶中3种氨基酸含量的预测模型,结果表明MIR有预测牛奶中游离精氨酸、组氨酸和异亮氨酸的潜力,特别是在牛奶氨基酸含量高低趋势分析以及奶牛的品质性状指标氨基酸含量预测及其高低比较方面具有一定预测能力。然而,所建立的模型还需要更多有代表性样本进行优化和提高,以进行较精准定量检测牛奶中3种氨基酸含量。大规模牛奶样本预测结果表明了牛奶中游离精氨酸、组氨酸和异亮氨酸预测值在不同泌乳阶段、胎次、季节和牧场中的变化趋势:牛奶中游离氨基酸含量预测值在秋季最高,精氨基酸含量在整个泌乳期呈上升趋势,精氨酸和组氨酸及异亮氨酸含量均随胎次有降低的趋势。

参考文献
[1]
WEI M, DENG Z Y, LIU B, et al. Investigation of amino acids and minerals in Chinese breast milk[J]. J Sci Food Agric, 2020, 100(10): 3920-3931. DOI:10.1002/jsfa.10434
[2]
KHAN I T, NADEEM M, IMRAN M, et al. Antioxidant properties of Milk and dairy products: a comprehensive review of the current knowledge[J]. Lipids Health Dis, 2019, 18(1): 41. DOI:10.1186/s12944-019-0969-8
[3]
MAO X B, GU C S, REN M, et al. L-isoleucine administration alleviates rotavirus infection and immune response in the weaned piglet model[J]. Front Immunol, 2018, 9: 1654. DOI:10.3389/fimmu.2018.01654
[4]
RICHERT B T, GOODBAND R D, TOKACH M D, et al. Increasing valine, isoleucine, and total branched-chain amino acids for lactating sows[J]. J Anim Sci, 1997, 75(8): 2117-2128. DOI:10.2527/1997.7582117x
[5]
ZHAO Y, YAN M Y, JIANG Q, et al. Isoleucine improved growth performance, and intestinal immunological and physical barrier function of hybrid catfish Pelteobagrus vachelli×Leiocassis longirostris[J]. Fish Shellfish Immunol, 2021, 109: 20-33. DOI:10.1016/j.fsi.2020.09.035
[6]
ACKROYD H, HOPKINS F G. Feeding experiments with deficiencies in the amino-acid supply: arginine and histidine as possible precursors of purines[J]. Biochem J, 1916, 10(4): 551-576. DOI:10.1042/bj0100551
[7]
HOLEČEK M. Histidine in health and disease: metabolism, physiological importance, and use as a supplement[J]. Nutrients, 2020, 12(3): 848. DOI:10.3390/nu12030848
[8]
BROSNAN M E, BROSNAN J T. Histidine metabolism and function[J]. J Nutr, 2020, 150(S1): 2570S-2575S.
[9]
张爱琳, 段筱筠, 任斐, 等. 牛乳中主要过敏原的分离及其氨基酸成分分析[J]. 中国乳品工业, 2016, 44(12): 4-6, 10.
ZHANG A L, DUAN X J, REN F, et al. Study the separation on the main allergens in milk and its amino acid composition analysis[J]. China Dairy Industry, 2016, 44(12): 4-6, 10. DOI:10.3969/j.issn.1001-2230.2016.12.001 (in Chinese)
[10]
MARTÍ I LÍNDEZ A A, REITH W. Arginine-dependent immune responses[J]. Cell Mol Life Sci, 2021, 78(13): 5303-5324. DOI:10.1007/s00018-021-03828-4
[11]
RASHID J, KUMAR S S, JOB K M, et al. Therapeutic potential of citrulline as an arginine supplement: a clinical pharmacology review[J]. Paediatr Drugs, 2020, 22(3): 279-293. DOI:10.1007/s40272-020-00384-5
[12]
关博元, 张正翰, 石佳鑫, 等. 人常乳与牛常乳中全谱游离氨基酸和水解氨基酸的对比[J]. 食品科学, 2019, 40(10): 193-198.
GUAN B Y, ZHANG Z H, SHI J X, et al. Comparison of full-spectrum free and hydrolyzed amino acids in human and bovine milks[J]. Food Science, 2019, 40(10): 193-198. DOI:10.7506/spkx1002-6630-20180515-213 (in Chinese)
[13]
PIRI-MOGHADAM H, MILLER A, PRONGER D, et al. Quantification of branched-chain amino acids in plasma by high-performance liquid chromatography-tandem mass spectrometry (LC-MS/MS)[M]//GARG U. Clinical Applications of Mass Spectrometry in Biomolecular Analysis. New York: Springer, 2022: 65-81.
[14]
XU W H, ZHONG C C, ZOU C P, et al. Analytical methods for amino acid determination in organisms[J]. Amino Acids, 2020, 52(8): 1071-1088. DOI:10.1007/s00726-020-02884-7
[15]
FERRÉ S, GONZÁLEZ-RUIZ V, GUILLARME D, et al. Analytical strategies for the determination of amino acids: past, present and future trends[J]. J Chromatogr B Analyt Technol Biomed Life Sci, 2019, 1132: 121819. DOI:10.1016/j.jchromb.2019.121819
[16]
LI G, WU D, XIE W Y, et al. Analysis of amino acids in tobacco by derivatization and dispersive liquid-liquid microextraction based on solidification of floating organic droplet method[J]. J Chromatogr A, 2013, 1296: 243-247. DOI:10.1016/j.chroma.2013.03.076
[17]
WEBER P. Determination of amino acids in food and feed by microwave hydrolysis and UHPLC-MS/MS[J]. J Chromatogr B Analyt Technol Biomed Life Sci, 2022, 1209: 123429. DOI:10.1016/j.jchromb.2022.123429
[18]
ZHAO X X, SONG Y T, ZHANG Y P, et al. Predictions of milk fatty acid contents by mid-infrared spectroscopy in Chinese Holstein cows[J]. Molecules, 2023, 28(2): 666. DOI:10.3390/molecules28020666
[19]
YAO Z Q, NIE P, ZHANG X X, et al. Establishment and validation of Fourier transform infrared spectroscopy (FT-MIR) methodology for the detection of linoleic acid in buffalo milk[J]. Foods, 2023, 12(6): 1199. DOI:10.3390/foods12061199
[20]
SALLEH S M, DANIELSSON R, KRONQVIST C. Using machine learning methods to predict dry matter intake from milk mid-infrared spectroscopy data on Swedish dairy cattle[J]. J Dairy Res, 2023, 90(1): 5-8. DOI:10.1017/S0022029923000171
[21]
GRUBER S, RIENESL L, KÖCK A, et al. Importance of mid-infrared spectra regions for the prediction of mastitis and ketosis in dairy cows[J]. Animals (Basel), 2023, 13(7): 1193.
[22]
MCDERMOTT A, DE MARCHI M, BERRY D P, et al. Cow and environmental factors associated with protein fractions and free amino acids predicted using mid-infrared spectroscopy in bovine milk[J]. J Dairy Sci, 2017, 100(8): 6272-6284. DOI:10.3168/jds.2016-12410
[23]
SHADPOUR S, CHUD T C S, HAILEMARIAM D, et al. Predicting dry matter intake in Canadian Holstein dairy cattle using milk mid-infrared reflectance spectroscopy and other commonly available predictors via artificial neural networks[J]. J Dairy Sci, 2022, 105(10): 8257-8271. DOI:10.3168/jds.2021-21297
[24]
SOYEURT H, DEHARENG F, GENGLER N, et al. Mid-infrared prediction of bovine milk fatty acids across multiple breeds, production systems, and countries[J]. J Dairy Sci, 2011, 94(4): 1657-1667. DOI:10.3168/jds.2010-3408
[25]
BITTANTE G, CECCHINATO A. Genetic analysis of the Fourier-transform infrared spectra of bovine milk with emphasis on individual wavelengths related to specific chemical bonds[J]. J Dairy Sci, 2013, 96(9): 5991-6006. DOI:10.3168/jds.2013-6583
[26]
KAYLEGIAN K E, HOUGHTON G E, LYNCH J M, et al. Calibration of infrared milk analyzers: modified milk versus producer milk[J]. J Dairy Sci, 2006, 89(8): 2817-2832. DOI:10.3168/jds.S0022-0302(06)72555-3
[27]
TOLEDO-ALVARADO H, PÉREZ-CABAL M A, TEMPELMAN R J, et al. Association between days open and milk spectral data in dairy cows[J]. J Dairy Sci, 2021, 104(3): 3665-3675. DOI:10.3168/jds.2020-19031
[28]
WANG Q Y, BOVENHUIS H. Validation strategy can result in an overoptimistic view of the ability of milk infrared spectra to predict methane emission of dairy cattle[J]. J Dairy Sci, 2019, 102(7): 6288-6295. DOI:10.3168/jds.2018-15684
[29]
SHETTY N, DIFFORD G, LASSEN J, et al. Predicting methane emissions of lactating Danish Holstein cows using Fourier transform mid-infrared spectroscopy of milk[J]. J Dairy Sci, 2017, 100(11): 9052-9060. DOI:10.3168/jds.2017-13014
[30]
GOTTARDO P, PENASA M, LOPEZ-VILLALOBOS N, et al. Variable selection procedures before partial least squares regression enhance the accuracy of milk fatty acid composition predicted by mid-infrared spectroscopy[J]. J Dairy Sci, 2016, 99(10): 7782-7790. DOI:10.3168/jds.2016-10849
[31]
MCPARLAND S, BANOS G, WALL E, et al. The use of mid-infrared spectrometry to predict body energy status of Holstein cows[J]. J Dairy Sci, 2011, 94(7): 3651-3661. DOI:10.3168/jds.2010-3965
[32]
MCPARLAND S, BANOS G, MCCARTHY B, et al. Validation of mid-infrared spectrometry in milk for predicting body energy status in Holstein-Friesian cows[J]. J Dairy Sci, 2012, 95(12): 7225-7235. DOI:10.3168/jds.2012-5406
[33]
WEINERT-NELSON J R, MEYER W A, WILLIAMS C A. Diurnal variation in forage nutrient composition of mixed cool-season grass, crabgrass, and bermudagrass pastures[J]. J Equine Vet Sci, 2022, 110: 103836. DOI:10.1016/j.jevs.2021.103836
[34]
李爽, 孙悦, 李铁柱, 等. 西门塔尔牛乳成分及氨基酸组成分析[J]. 中国乳品工业, 2013, 41(1): 15-18.
LI S, SUN Y, LI T Z, et al. Analysis of Simmental milk and amino acid composition[J]. China Dairy Industry, 2013, 41(1): 15-18. DOI:10.3969/j.issn.1001-2230.2013.01.004 (in Chinese)
[35]
双金, 敖力格日玛, 侯先志, 等. 研究通辽地区荷斯坦牛乳中氨基酸含量的季节变化特点[J]. 中国奶牛, 2011(13): 52-54.
SHUANG J, AO L R M, HOU X Z, et al. To study the seasonal variation characteristics of amino acid content in Holstein milk in Tongliao area[J]. China Dairy Cattle, 2011(13): 52-54. DOI:10.3969/j.issn.1004-4264.2011.13.029 (in Chinese)
[36]
张幸开, 袁耀明. 影响奶牛乳蛋白生产的因素及应对措施[J]. 中国奶牛, 2006(12): 17-21.
ZHANG X K, YUAN Y M. Factors affecting milk protein and countermeasures in dairy cows[J]. China Dairy Cattle, 2006(12): 17-21. DOI:10.3969/j.issn.1004-4264.2006.12.007 (in Chinese)

(编辑   郭云雁)