文章信息
- 杨忠, 黄安民, 江泽慧
- Yang Zhong, Huang Anmin, Jiang Zehui
- 近红外光谱结合回归分析预测法判别木材的生物腐朽
- Discrimination of Wood Biological Decay by NIR Coupled with Regression
- 林业科学, 2012, 48(10): 120-124.
- Scientia Silvae Sinicae, 2012, 48(10): 120-124.
-
文章历史
- 收稿日期:2011-11-27
- 修回日期:2012-03-29
-
作者相关文章
2. 国际竹藤中心 北京 100102
2. International Center for Bamboo and Rattan Beijing 100102
近红外光谱(NIR)结合化学计量学中的定性分析方法在食品、医药和农林产品等的检测或识别方面得到了许多应用(李庆波等,2004;王丽等,2004;杨忠等,2005;2007;2008),在近红外光谱的判别分析中SIMCA和PLS-DA判别分析方法是2种比较常用的方法。利用近红外光谱结合SIMCA和PLS-DA判别分析方法对木材生物腐朽进行判别与检测的研究已有报道(杨忠等,2007;2008),并取得了较理想的试验结果。然而,在近几年的学术交流中,许多学者提出如果没有相应的专用软件,就很难将SIMCA和PLS-DA判别方法进行推广应用,因为上述2种方法需要具备相应的化学计量学软件或者编制较为复杂的多变量数据分析程序,因此,探索一种科学、简易的近红外光谱判别分析方法,对于不具备相关专业软件和不擅长于编制计算机程序的研究人员来说将具有重要意义。
回归分析预测法(regression analysis prediction method)是首先分析应变量对自变量的依赖关系,然后通过自变量的已知或设定值来预测应变量均值的一种数学方法。回归分析预测法的基本原理是在分析自变量和应变量间相关关系的基础上建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量的信息来预测应变量。回归分析预测法有多种类型,依据相关关系中自变量的个数可分为一元回归分析预测法和多元回归分析预测法,依据自变量和因变量之间的相关关系可分为线性回归预测和非线性回归预测。本研究利用近红外光谱结合回归分析预测法来判别分析木材生物腐朽判别木材的生物腐朽,并与前期研究中采用的SIMCA和PLS-DA 2种判别分析方法进行对比分析。
1 材料与方法 1.1 生物腐朽试样的制备试材采用人工林湿地松(Pinus elliottii)木材,采自江西省吉安市,先加工成40 mm (R)×40 mm (T)×580 mm (L)毛坯木板,气干后,再加工成尺寸为10 mm (R)×10 mm (T)×160 mm (L)木条,分别在木材上接种一种褐腐菌(Gloeophyllum trabeum)和一种白腐菌(Trametes versicolor)后,放入微生物培养室内进行生物腐朽,经过不同的腐朽时间后,取出试样干燥至恒重,按照生物腐朽前后试样的质量变化计算质量损失率。从腐朽试样中随机选取140个木材腐朽试样,其中未腐朽试样20个、白腐60个、褐腐60个。
1.2 近红外光谱的采集试验用设备是美国ASD公司生产的Field Spec®近红外光谱仪。光谱仪的波长范围350~2 500 nm,采用光纤探头采集试样表面的近红外光谱,光纤探头在试样表面的垂直上方。光谱的空白校准采用商用聚四氟乙烯制成的白色材料。照射光源用DC直流灯,在样品的上方与样品成30°角,并与样品的纵轴保持平行。将腐朽木材试样磨成木粉后装入直径约2 cm的样品杯中,样品杯置于可旋转的转盘上。样品经过光纤探头采集每扫描30次并自动平均为一条光谱后保存起来,得到的近红外光谱经ASD提供的专业软件转换成光谱数据文件。
1.3 回归分析预测法在统计分析中,定性变量分为有序变量和分类变量。其中,有序变量的各类别之间有程度的差别,其赋值方法应根据各水平间合理的距离分别赋以一定的数值,这些数值也可是不等距离的。如临床体检常用“-、±、+和++”等表示分类,属于有序变量。如果有理由认为各水平间是等距离或近似等距离时,各测量结果可依次赋值以1,2,3,4。而对于受教育程度,如文盲、小学、中学、高中、大学及以上则不能赋值为等距离的变量,因为他们之间的差异不是等距离的。分类变量是指所分的类别或属性之间没有程度和顺序的差别,又分为二项分类和多项分类。其中,二项分类,如性别(男、女)、药物反应(阴性和阳性)等,该类变量赋值可以任意取。多项分类,如季节变换(春、夏、秋、冬)、血型(O,A,B,AB)等,其赋值方法应是对该分类变量的各种可能以“哑变量”的方式来赋值,哑变量是指虚拟的变量,一个多项分类变量可用多个哑变量来代替,比如季节变换可采用3个哑变量来代替,如(0,0,0)表示春季,(1,0,0)表示夏季,(0,1,0)表示秋季,(0,0,1)表示冬季(张晋昕等,2005)。
多变量数据分析技术中的判别分析法,其基本思想是根据已知样品集特征,选定适合的判别准则,建立定性分析模型,最后用于判定未知样品。本研究中的回归分析预测法,是利用多变量数据分析方法中常用的主成分回归(PCR)和偏最小二乘法回归(PLSR)来建立木材生物腐朽类别的判别模型,并利用该模型实现对未知样本的判别,其基本原理与PLS-DA法相似,主要差别在于PLS-DA法建立的培训集样本分类变量均以二进制代码形式“0或1”提供类成员信息,并依据PLS-DA判别方法进行建模与检测,而本研究先后试验了定性的数值变量“0,1,2”,“-1,0,1”和“1,2,3”等分别代表未腐朽、白腐和褐腐样本,并使用多变量数据分析中常用的主成分回归(PCR)和偏最小二乘法回归(PLSR)分析预测法进行建模与测试。
本文首先以“0,1,2”分别代表未腐朽、白腐和褐腐样本的变量赋值展开分析与讨论,在此设定条件下的回归分析预测法判别依据为:1)当预测值YP接近于0(-0.5<YP<0.5)且偏差小于0.5时,样本被判为未腐朽样本;2)当预测值YP接近于1(0.5<YP<1.5)且偏差小于0.5时,样本被判为白腐样本;3)当预测值YP接近于2(1.5<YP<2.5)且偏差小于0.5时,样本被判为白腐样本;4)当预测值Yp=±0.5,Yp=±1.5或Yp=±2.5,且偏差大于等于0.5时,表示模型预测不稳定。
2 结果与分析 2.1 回归分析预测法判别模型的建立与验证木材的生物腐朽类型一般分为白腐、褐腐、软腐3类,其中最常见的是白腐和褐腐(urling et al., 2002)。木材的生物腐朽类别属于定性变量,需要对其进行合理赋值后才可用于回归分析,本研究采用的木材样本有白腐、褐腐和未腐朽3个类别。按有序变量赋值方法先后对“未腐朽、白腐和褐腐”木材试样赋值为“0,1,2”,“-1,0,1”和“1,2,3”,进行PCR和PLSR回归预测分析,并将所建立模型的预测效果及其判别结果进行比较。结果发现对于上述不同的赋值方法,采用PCR和PLSR 2种回归预测法的结果完全一致,说明对于本研究采用有序变量赋值方法是可行的。当然,如果试验条件改变以至于不能合理地表达或支持采用有序变量赋值的方法时,回归预测法定性变量的赋值就应该采用哑变量来赋值。以下将重点以定性变量赋值为“0,1,2”来分别代表“未腐朽、白腐和褐腐”为例进行讨论。
本试验使用的木材生物腐朽试样和近红外光谱数据与文献(杨忠等,2007;2008)相同,且校正集与检测集样本的选择方法也相同,样本数的比例为2:1。本研究首先采用变量“0,1,2”分别代表未腐朽、白腐和褐腐3个类别,并使用PCR和PLSR分析预测法对不同生物腐朽类型的近红外光谱进行分析,建立生物腐朽类型的判别模型,模型的校正及验证结果见图 1,2和表 1。
通过PCR和PLSR回归分析法分别建立的腐朽试样NIR光谱特征与腐朽类别变量间的相关性模型,模型预测值Yp与设定值Ym的相关系数均超过0.95,SEC和SEP都在0.07~0.20之间,说明PCR和PLSR 2个模型的拟合性较好,具有很高的可靠性,可用于检测和判别新的样本。图 1,2中,横坐标为设定值Ym,Ym=0代表未腐朽样本,Ym=1代表白腐样本,Ym=2代表褐腐样本;纵坐标为模型预测值Yp。根据本次设定条件下的回归分析预测法判别依据,采用PCR回归分析法的模型校正中有2个褐腐样本错误,模型验证结果有3个褐腐样本错误,其他90多个样本的判别结果都正确;而采用PLSR回归分析法的模型校正和验证结果都正确。
经过统计,从表 1中可以看出,采用PCR模型除了预测的褐腐样本的正确率为92.5%~95%(有2~3个错误)外,PCR模型对未腐朽和白腐样本预测的正确率都达到了100%,而采用PLSR方法预测的正确率都达到了100%。本研究中PCR法的判别结果比采用SIMCA方法(杨忠等,2007)好,PLSR方法的判别结果完全可以达到PLS-DA法(杨忠等,2008)的判别结果。
2.2 回归分析预测法判别未知样本的研究利用PCR和PLSR回归分析预测法建立的木材生物腐朽判别模型,对未参与建模的47个检测集样本(褐腐20个、未腐朽7个和白腐20个)进行判别分析,结果如图 3,4所示,图中横坐标为样本编号,1~20号、21~27号和28~47号样本分别是未腐朽、褐腐和白腐样本,纵坐标是模型对未知样本变量的预测值。
图 3为采用PCR回归分析预测法判别未知样本腐朽特征的结果,其中检测集中所有未腐朽样本变量的预测值YP都接近于0(Yp=-0.03~0.19,平均值=0.07),偏差都小于0.22;白腐样本变量的预测值YP都接近于1(Yp=0.73~1.43,平均值=1.00),偏差都小于0.25;褐腐样本变量的预测值YP都接近于2(Yp=1.64~2.35,平均值=1.99),偏差都小于0.27。根据本次设定条件下的判别依据可知,检测集中所有样本的判别结果均正确。
图 4为采用PLSR预测法判别未知样本腐朽特征的结果,其中检测集中所有未腐朽样本变量的预测值YP都接近于0(Yp=-0.09~0.14,平均值=0.001),偏差都小于0.17;白腐样本变量的预测值YP都接近于1(Yp=0.66~1.30,平均值=0.99),偏差都小于0.19;褐腐样本变量的预测值YP都接近于2(Yp=1.77~2.15,平均值=2.01),偏差都小于0.22。根据设定的判别依据可知,检测集中所有样本的判别结果均正确。
在相同条件下,采用PCR和PLSR方法判别未知样本的正确率都达到了100%,尽管通过其模型验证和实际预测偏差值的对比来看,PLSR法比PCR法的判别效果更好,但这2种判别方法都比采用SIMCA法(杨忠等,2007)的正确率高,与PLS-DA法(杨忠等,2008)的结果相近,说明利用近红外光谱结合PCR和PLSR回归分析预测法能有效检测木材的生物腐朽,并对生物腐朽的类型进行准确判别。
3 结论应用近红外光谱结合主成分回归(PCR)和偏最小二乘法回归(PLSR)分析预测法对培训集样本建立的判别模型,其校正及验证结果与标准值的相关性很高,模型预测值与设定值的相关系数均超过0.95,SEC和SEP都在0.07~0.20之间,说明PCR和PLSR 2个模型的拟合性较好,具有很高的可靠性。利用模型对未参与建模的样本进行检测,发现该模型对未腐朽、白腐和褐腐3种类型样本的判别正确率均为100%(偏差均小于0.27),对于相同样本集的判别效果,通过其模型验证和实际预测偏差值的对比来看,PLSR法比PCR法的判别效果更好。
在相同条件下,采用PCR和PLSR回归分析预测法判别未知样本的正确率都达到了100%,而且,这2种判别方法都比采用SIMCA法的结果好,与PLS-DA法的判别结果相近,说明利用近红外光谱结合PCR和PLSR回归分析预测法能有效检测木材的生物腐朽,并对生物腐朽的类型进行准确判别,而且,该判别方法不必需要具有SIMCA或PLS-DA判别分析功能的专业软件,分析步骤简易并可同时直接输出不同类别样本的判别结果,具有重要的应用价值。
[] | 李庆波, 杨丽敏, 凌晓锋, 等. 2004. SIMCA法在中红外癌症检测技术中的应用. 光谱学与光谱分析, 24(4): 414–417. |
[] | 王丽, 卓林, 何鹰, 等. 2004. 近红外光谱技术鉴别海面溢油. 光谱学与光谱分析, 24(12): 1537–1539. DOI:10.3321/j.issn:1000-0593.2004.12.013 |
[] | 杨忠, 江泽慧, 费本华, 等. 2005. 近红外光谱技术及其在木材科学中的应用. 林业科学, 41(4): 177–183. DOI:10.11707/j.1001-7488.20050430 |
[] | 杨忠, 江泽慧, 费本华, 等. 2007. SIMCA法判别分析木材生物腐朽的研究. 光谱学与光谱分析, 27(4): 686–690. |
[] | 杨忠, 任海青, 江泽慧. 2008. PLS-DA法判别分析木材生物腐朽的研究. 光谱学与光谱分析, 28(4): 793–796. |
[] | 张晋昕, 李河. 2005. 回归分析中定性变量的赋值. 循证医学, 5(3): 169–171. |
[] | Curling S F, Clausen C A, Winandy J E. 2002. Relationships between mechanical properties, weight loss, and chemical compositions of wood during incipient brown-rot decay. Forest Products Journal, 52(7/8): 34–39. |