林业科学  2013, Vol. 49 Issue (4): 1-6   PDF    
DOI: 10.11707/j.1001-7488.20130401
0

文章信息

奚如春, 钟燕梅, 邓小梅, 陈晓阳, 莫宝盈, 易立飒
Xi Ruchun, Zhong Yanmei, Deng Xiaomei, Chen Xiaoyang, Mao Baoyin, Yi Lisha
基于近红外光谱的油茶种子含油量定标模型构建
Models for Determining Oil Contents in Camellia oleifera Seeds by Using Near Infrared Spectroscopy
林业科学, 2013, 49(4): 1-6
Scientia Silvae Sinicae, 2013, 49(4): 1-6.
DOI: 10.11707/j.1001-7488.20130401

文章历史

收稿日期:2012-07-02
修回日期:2012-09-05

作者相关文章

奚如春
钟燕梅
邓小梅
陈晓阳
莫宝盈
易立飒

基于近红外光谱的油茶种子含油量定标模型构建
奚如春, 钟燕梅, 邓小梅, 陈晓阳, 莫宝盈, 易立飒    
华南农业大学林学院 广州 510642
摘要:利用瑞典波通DA7200型固定光栅连续光谱近红外分析仪, 对来自不同产地的150份油茶种子样品进行含油量测定。依据其吸收光谱与化学特征分析数据, 建立2个种仁含油率模型, 并对模型的准确性进行预测评价。结果表明:用整颗油茶种仁建立的模型与常规方法测量结果之间的相关系数为0.88, 预测标准偏差为0.91, 该模型可用于测定准度要求相对不高而比较珍贵和量少的样品。而用粉碎油茶种仁建立的模型测定效果最好, 与常规方法测量结果之间的相关系数为0.98, 预测标准偏差为0.33, 因此该模型可代替常规测试方法使用。检验结果表明定标模型预测精度高、稳定性较好。近红外光谱技术可用于快速测定油茶种仁含油量, 具有很好的应用前景。
关键词近红外光谱    油茶    含油量    定标模型    
Models for Determining Oil Contents in Camellia oleifera Seeds by Using Near Infrared Spectroscopy
Xi Ruchun, Zhong Yanmei, Deng Xiaomei, Chen Xiaoyang, Mao Baoyin, Yi Lisha     
College of Forestry, South China Agricultural University Guangzhou 510642
Abstract: In this paper we aim to provide a rapid, simple and accurate method for determining camellia seed oil content, by the DA7200 near infrared apparatus (made in Sweden). One hundred and fifty seeds that were collected from different origins in Guangdong province were tested. Based on the analysis data of the absorption spectra and the chemical characteristics, two models for kernel oil content determination were established, and then the accuracy of the models was evaluated. The result shows that the model with the whole seed kernel can reached to 0.88 of the correlation coefficient between the prediction and the chemically measured values, and the standard deviation of prediction is in the range of 0.91. Thus this model with the whole seed kernel can be used to measure low quantity and precious samples with the relative low accuracy. The model with the crushed seed kernel can reached to 0.98 of the correlation coefficient between the prediction and the chemically measured values, and the standard deviation of prediction is in the range of 0.33. This model is very well and can directly replace conventional method. The test results show that prediction models have high precision and good stability. The forecast results indicated that near-infrared spectroscopy for rapidly testing the oil content of dry kernel was useful and would have a very good application prospects.
Key words: near infrared spectrum    Camellia oleifera    oil content    spectral calibration model    

近红外光谱技术(NIRS,near infrared spectroscopy)是20世纪80年代后期迅速发展起来的一项物理测试技术,它能利用有机化学物质在近红外光谱区的光学特性,快速估测样品中一种或者多种化学成分的含量(张子仪等,1992)。因此具有使用简单方便、成本低、检测速度快(一个样品的检测只要10 s)、重复性好、不破坏样品的显著特点。由于其信息丰富,同时借助于计算机技术和化学计量学方法,可以直接分析不经任何预处理的生物样品(王海莲,2005; 陆婉珍,2010)。

早在20世纪70年代,Norris等(1976)率先将NIRS应用于农产品测试。Hartwig等(1990)Greenwood等(1999)Misra等(2000)应用NIRS技术成功地分析了油菜(Brassica campestris)籽和花生(Arachis hypogaea)仁的含油量。NIRS 在我国许多领域得到了广泛应用,包括粮食、食品、石油、烟草、医药和化学工业,目前有油菜、棉花(Gossypium hirsutum)、黄豆(Glvcine max)、玉米(Zea mays)等油料作物方面的研究。顾伟珠等(1995)提出了与近红外光谱分析法相适应的数学模型,并将模型用于整粒带壳油菜籽含油量的测定; 汪旭升等(2001)选用不同品种的棉籽进行常规成分的定标和校验,定标决定系数0.934,预测精度为0.978; 甘莉等(2003)建立了油菜籽含油量和蛋白质含量模型,其NIRS 含油量预测值与实测值相关系数为0.95,相对误差小于3.5%; NIRS蛋白质含量预测值与凯氏定氮法的实测值相关系数为0.95,相对误差小于6.0%。李宁等(2004)用完整籽粒黄豆样品建立蛋白质和脂肪含量近红外定量分析模型,其中蛋白质、脂肪含量分析模型的相关系数分别为0.99,0.98。Wei等(2005)建立了NIRS玉米蛋白质、淀粉和含油量模型,预测值和实测值的相关系数分别为0.98,0.93和0.97,相对误差分别为2.7%,2.5%和7.0%。李钧等(2006)建立了NIRS油菜种子含油量模型,预测值与实测值的拟合性非常好,平均误差仅为0.1%。高建芹等(2007)测定了油菜籽的油酸、芥酸和含油量,并建立定标模型。结果表明: 油酸、芥酸和含油量的近红外测定值与化学测定值之间相关系数分别为0.99,0.99和0.97,相对误差分别为4.2%,3.4%,1.9%。方彦等(2007)建立了玉米籽粒含油量模型,并对模型预测结果的准确性进行了评价,预测值与测定值间的相关系数为0.96,定标标准差和预测标准差分别为0.757和0.745。

油茶(Camellia oleifera)是我国主要木本油料树种之一,而有关油茶籽含油率的NIRS模型研究甚少。原姣姣等(2011)利用近红外漫反射光谱,通过应用多种预处理方法和回归方法,建立了30份油茶籽含油量的分析模型。但至今未建立近红外光谱油茶籽含油量的定标模型,限制了该项技术的应用推广。本文利用瑞典波通DA7200型固定光栅连续光谱近红外分析仪对广东省不同产地的油茶籽样品进行油脂分析,旨在构建油茶籽含油量的近红外光谱定标模型,以期为我国油茶油脂测定提供一种快速、简单、准确的测试方法。

1 材料与方法 1.1 供试材料

DA7200对基础建模最小的样品量要求为30份,但一个较好本地化模型应以100~200个样品为宜。因此,本研究于2011年10月下旬,收集广东省云浮、肇庆、梅州和广州等不同产地油茶种子共150份,经自然风干后将样品处理分成3个测试组:第Ⅰ组为风干种子(带种壳); 第Ⅱ组为风干种仁(去种壳); 第Ⅲ组为粉碎种仁。

1.2 测试仪器及软件

采用瑞典波通DA7200连续光谱固定光栅近红外分析仪(DA7200 Diode Array Analyzer)。数据光谱收集速率: 100次·sec-1; 波长范围: 950~1 650nm。分析软件采用随机附带扫描和建模软件。

1.3 测定方法

1) 样品化学特征值常规测定: 种仁含油率分别采用索氏法提取,每个样品测定3次,取其平均值,平行样品间的相对误差不得高于5.0%。将该测定的化学特征值与光谱特征值进行联合分析。

2) 光谱特征数据采集: 开机预热至少30 min,使用仪器内置参比,将上述3组处理好的样品依次分别放置在光谱仪样品盘上,对样品进行扫描。为降低装样不均匀产生的误差,每个样品扫描9次(每扫描3次后重新装样1次)。收集记录3组样品的光谱特征数据。

3) 光谱数据预处理: 分别采用标准化处理法(Normalization)、标准正态变量转换法(SNV)、乘积分散校正法(MSC)等与一阶导数和二阶导数相结合的方法对所采集的光谱数据进行预处理。最后根据定标模型的预测效果选出最佳数据预处理方法。

4) 含油量定标模型构建: 分别采用偏最小二乘法(PLS)、主成分分析法(PCR)对经过不同预处理的光谱数据进行回归分析,并利用Unscrambler classifier软件建模。以RC(模型校正相关系数)、RMSEC(模型校正相关系数标准偏差)、RCV(交互验证相关系数)、RMSECV(交互验证预测标准偏差)为衡量模型预测效果的主要参数。其中RC起主导作用,要求RCRCV越高越好,RMSECRMSECV越低越好。当2个处理间RC数值相近时,RCVRC越接近越好。根据马氏距离、主因素分析图及光谱残差图等分析结果剔除特异样品,当两定标模型预测效果接近时,则需根据其对验证集样品的分析结果进行最终取舍。

5) 建模效果验证与评价: 随机选取10份未知油茶含油量的待测样品,分别用常规方法(索氏法)测定和已建立模型进行验证比较,以R(相关系数)和SEP(预测标准偏差)比较2者之间的差异,对模型进行外部验证和预测精度估算。

2 结果与分析 2.1 油茶籽测试样品的近红外光谱图

茶油中有常见的C—H,O—H等含氢基团,在近红外光谱区域会有很强烈的吸收。由图 1可见,茶籽的近红外光谱图有明显的吸收峰,且不同样品的吸收峰强度不同,即含油量不同。不同的样品测试组,其光谱的吸收峰强度不同,这说明茶籽的近红外光谱图可以作为定量分析和选择适合样品类型的依据。

图 1 测试样品近红外光谱 Fig. 1 Near infrared spectrogram of samples
2.2 不同光谱数据预处理方法的结果比较

表 1是3组油茶供试样品经不同的光谱预处理方法后得到的种仁含油率模型参数。由表 1可知,在第Ⅰ组样品模型参数结果中,RC值都不高,经Normalization+一阶导数和Normalization+二阶导数处理方法,就种仁含油率来说,RC大部分在0.6~0.8之间,但因其RCV值太低,模型稳定性差。因此采用整个风干油茶种子建立的模型稳定性较差,效果也不好。这可能是油茶籽体积较大,相邻种子间存在较大空隙,影响到光谱有效吸收。建议在实际应用上不采用该样品类型进行测定。

表 1 不同光谱预处理方法获得的种仁含油率模型参数 Tab.1 The model parameters of oil content in kernel in different spectral pretreatment method

在第Ⅱ组样品模型参数结果中,RC值和RCV值的比较高,均在0.85以上。其中MSC+二阶导数、SNV+一阶导数这2种处理方法RC值最高,分别为0.94和0.93,且RCV 值也较高,分别为0.90和0.91,考虑RC值和RCV值越接近,模型越好。因此,可选择SNV+一阶导数为第Ⅱ组光谱数据最佳处理方法。

在第Ⅲ组样品模型参数结果中,RC值和RCV值也比较高,均在0.90以上。其中Normalization+二阶导数、SNV+一阶导数这2种与处理方法RC值最高,达到0.95,同时RCV值也较高,分别为0.95和0.94,同样考虑RC值和RCV值越接近,模型越好。所以也可选择SNV+一阶导数为第Ⅲ组光谱数据最佳处理方法。

2.3 最佳回归方法处理结果的比较

上述分析结果已确定SNV+一阶导数为光谱数据最佳预预处理方法。因此采用该方法对光谱数据进行预处理,软件自动优化的最优波段为960~1 640 nm,然后分别利用偏最小二乘法(PLS)和主成份分析法(PCR)中的回归方法来建立光谱模型,并采用RCRMSECRCVRMSECV等4个指标值进行模型评价,筛选出最佳回归方法。处理分析结果见表 2

表 2 不同回归方法的比较 Tab.2 The comparison of different regression methods

表 2可看出,采用偏最小二乘法(PLS)回归分析中的RCRMSECRCVRMSECV等4个指标都优于采用主成分分析法(PCR)的回归分析结果。各定标模型具有较高的相关系数,RC都在0.93以上,定标集交互验证标准误差RMSECV值都较小,分别为0.84和0.68。可见各模型的预测效果都较好,模型比较稳定。因此,偏最小二乘法(PLS)中的回归分析方法是油茶种子含油率近红外分析的最佳回归方法。

2.4 油茶籽含油量近红外定标模型的建立

根据光谱数据最佳处理方法和回归模型建立,采用马氏距离、主因素分析图、光谱残差图及浓度残差图等分析结果剔除特异样品,以获得相关系数最大和预测误差最小的定标模型。由图 2可看到,150份茶籽样品种仁含油率的化学测定值范围为45.6%~66.5%,各定标预测模型基本涵盖了茶籽种仁含油量的范围,含油量分布十分均匀。因此,本定标模型适用的线性范围为45.0%~70.0%。

图 2 含油量检验集散点 Fig. 2 The plot of scatter point for oil content of maize in validation set
2.5 油茶籽含油量近红外定标模型验证

随机选取10份未知样品进行平行比较试验,分别用常规方法和建立的模型测定其化学值和检验模型的精度,分析结果见表 34

表 3 常规法测定值和近红外预测值比较 Tab.3 Comparison of value between conventional and the near infrared predicted
表 4 常规法测定值与近红外预测值的相关系数 Tab.4 Correlation coefficient of value between conventional and the near infrared predicted

表 34得出,利用近红外光谱技术测定茶籽含油率是可行的,其中用粉碎种仁测定效果最好,与常规化学分析测量结果之间的相关系数为R=0.98,预测标准偏差为0.33。因此基本可代替常规测试方法; 而用整颗种仁建立的定标模型与常规化学分析测量结果之间的相关系数为R=0.88,预测标准偏差为0.91,因此也代替常规测试方法,但误差稍偏大,可用于测定准度要求相对不高而比较珍贵、量少的样品。

3 结论与讨论

1) 本研究采用瑞典波通公司生产的新型固定光栅连续光谱分析仪(DA7200)具有较强的穿透力,涵盖了最具有穿透力的短波近红外区和信号较丰富的长波近红外区域的主要部分。仪器采用固定全息波长扫描和二极管阵列检测技术,确保无移动光栅的波长漂移,采集光谱数据的同时检测和并行处理所有波长信息。DA7200优化及精确的设计使其适用于快速无损分析样品物理和化学特性,进行定性和定量的检测。

2) 光谱数据利用标准正态变量转换法(SNV)可消除散射影响,并经过一阶导数处理能提高光谱数据处理精度。因此,光谱数据预处理的最佳处理方法是标准正态变量转换(SNV)+一阶导数法。通过采用偏最小二乘法(PLS)、主成分分析法(PCR)回归方法来建立模型,PLS的RCRMSECRCVRMSECV等4个评价指标都优于PCR。所以PLS应为茶籽含油率近红外分析的最佳回归方法。

3) 研究表明采用风干带壳种子(第Ⅰ组)进行测定,建立的模型与常规法测量值之间相关系数和标准偏差都不理想,与张晓芳等(2007)中利用整粒毛棉籽建立出含水率、含油率和出仁率的模型等研究结果存在一定的差异,可能是茶籽大小和种仁厚度不均以及种壳致密而坚硬、种壳和种仁间的空隙差异影响近红外光的穿透。因此建议不采用该样品类型进行测定; 第Ⅱ组是采用风干种子去壳后的整颗种仁进行测定,建立的模型与常规法测量值之间的相关系数为0.88,预测标准偏差为0.91,虽然预测精度稍低,但可用于测定准度要求相对不高而比较珍贵和量少的测试样品; 第Ⅲ组是采用粉碎种仁进行测定,建立的模型与常规法测量值之间的相关系数为0.98,预测标准偏差为0.33。因此可代替常规测试方法。

4) 第Ⅱ组和第Ⅲ组的近红外测定效果比较好,由此建立的定标模型也比较稳定,由于150个标样的茶籽种仁含油量范围为45.6%~66.5%,平均值为60.2%,因此本定标模型适用的线性范围为45.0%~70.0%,基本覆盖了油茶种仁含油量的范围,可用于生产检测。

5) 近红外光谱油茶含油率定标模型的建立,克服了以往常规测定含油率的方法(索氏提取法)测定时间长的缺点(2个测定样品各3次重复需耗时5 h),可为我国油茶含油量的测定提供一种新型测试方法。

6) 近红外光谱定标模型建立要求样品量越大越好,这样建立的模型比较稳定,其得出的预测值与常规法测得值的误差越小。为了进一步提高模型的稳定性,降低误差,还需继续加大样品量的收集,特别是补充含油率低和高的样品以修正定标模型。

参考文献(References)
[1] 方彦, 王汉宁. 2007. 利用近红外光谱法测定玉米籽粒含油量的研究. 西北农业学报, 16(1) : 111-113.(1)
[2] 甘莉, 孙秀丽, 金良, 等. 2003. NIRS 定量分析油菜种子含油量、蛋白质含量数学模型的创建. 中国农业科学, 36 (12 ) : 1609-1613.(1)
[3] 高建芹, 张洁夫, 浦惠明, 等. 2007. 近红外光谱法在测定油菜籽含油量及脂肪酸组成中的应用. 江苏农业学报, 23 ( 3 ) : 189-195.(1)
[4] 顾伟珠, 汪延祥. 1995. 多元线性回归法分析油菜籽含油量的近红外光谱数据. 中国粮油学报, 10(2) : 57-64.(1)
[5] 李钧, 王宁惠, 余青兰, 等. 2006. 傅立叶变换近红外光谱技术分析完整油菜籽含油量数学模型的建立. 青海大学学报: 自然科学版, 24(6) : 28-30.(1)
[6] 李宁, 闵顺耕, 覃方丽, 等. 2004. 近红外光谱法非破坏性测定黄豆籽粒中蛋白质、脂肪含量. 光谱学与光谱分析, 24 ( 11 ) : 45-49.(1)
[7] 陆婉珍. 2007. 现代近红外光谱分析技术. 2版. 北京: 中国石化出版社, 174-184.
[8] 王海莲, 万向元, 胡培松, 等. 2005. 稻米脂肪含量近红外光谱分析技术研究. 中国农业科学, 38 (8) : 1540-1546.(1)
[9] 汪旭升, 陆燕, 吴建国. 2001. 近红外光谱分析法(NIRS)测定棉籽粉中油分含量的研究. 浙江农业学报, 13(4) : 218-222.(1)
[10] 原姣姣, 王成章, 陈虹霞, 等. 2011. 近红外漫反射光谱法测定油茶籽含油量的研究. 林产化学与工业, 31(3) : 28-32.(1)
[11] 张晓芳, 俞信, 闫吉祥, 等. 2007. 近红外反射技术开放式检测棉籽中水分和油含量的研究. 光谱学与光谱分析, 27 ( 3 ) : 473-476.(1)
[12] Greenwood C F, Allen J A, Leong A S, et al. 1999. An investigation of the stability of NIRS calibrations for the analysis of oil content in whole seed canola. Canberra, Australia: 10 th International Rapeseed Congress.(1)
[13] Hartwig R A, Charles R. 1990. Near-infrared reflectance measurement of moisture, protein and oil content of crambe seed. JAOCS, 67 (7 ) : 667-672.(1)
[14] Misra J B, Mathur R S, Bhatt D M. 2000. Near-infrared spectroscopy: A potential tool for non-destructive determination of oil content in groundnuts. Journal of the Science of Food and Agriculture, 80(2) : 237-240.(1)
[15] Norrise K H, Barness R F, Moore J E, et al. 1976. Prediction forage quality by NIRS. Journal of Animal Science, 43(3) : 899-897.
[16] Wei L M, Jiang H Y, Li J H, et al. 2005. Predicting the chemical composition of intact kernels in maize hybrids by near-infrared reflectance spectroscopy. Spectroscopy and Spectral Analysis, 25 (9) : 1404-1407.(1)