浙江大学学报(农业与生命科学版)  2018, Vol. 44 Issue (5): 643-648
文章快速检索     高级检索
基于高光谱图像的西兰花表面多种农药残留检测[PDF全文]
桂江生, 顾敏, 吴子娴, 包晓安    
浙江理工大学信息学院,杭州 310018
摘要: 针对西兰花农药残留问题,提出一种基于高光谱图像技术的西兰花农药残留定性检测新方法。首先,采集4组(共180颗)分别喷洒了清水和吡虫啉、阿维菌素、丙森锌3种农药的西兰花的高光谱(383.70~1 032.70 nm)图像,根据其图像信息提取感兴趣区域的平均反射光谱值,并采用分段多元散射校正对原始光谱数据进行预处理。为了提高模型效率,减少高光谱数据冗余,分别使用主成分分析和连续投影算法选择特征光谱。最后,使用马氏距离、最小二乘支持向量机、人工神经网络和极限学习机4种分类算法建立基于全波段和特征波段信息的农药残留检测模型。结果表明:基于连续投影算法的极限学习机模型的识别效果最好,训练集和测试集的正确率分别为98.33%和96.67%。说明利用高光谱图像技术鉴别西兰花表面农药残留种类是可行的,为西兰花表面的农药残留无损检测提供了一种新的方法。
关键词: 高光谱图像    西兰花    农药残留    人工神经网络    极限学习机    
Detection of multiple pesticide residues on the surface of broccoli based on hyperspectral imaging
GUI Jiangsheng, GU Min, WU Zixian, BAO Xiao'an    
School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China
Abstract: A method for the detection of pesticide residues on broccoli was proposed based on hyperspectral image technology. Four groups of broccoli samples were used as experimental samples, which contained imidacloprid, abamectin and propineb as the first third groups respectively, and the last group was sprayed with water. A total of 180 broccoli samples were scanned by hyperspectral image system in the range of 383.70- 1 032.70 nm. The average spectral information of region of interest (ROI) was extracted. Then, piecewise multiplicative scatter correction (PMSC) was adopted to eliminate light scattering of the average spectral information. To increase efficiency of the model and reduce the redundancy of the hyperspectral image, using the principal component analysis (PCA) algorithm and successive projection algorithm (SPA) for feature extraction. Mahalanobis distance (MD), least square support vector machine (LSSVM), artificial neural networks (ANN) and extreme learning machine (ELM) models were created to predict the pesticide residues from full spectra and characteristic wavelengths. The results showed that the optimal model is the SPA-ELM model, and the accuracy of training set is 98.33%, and the correct rate of test set is 96.67%, suggesting that it is feasible to use the principal component analysis algorithm and the artificial neural network algorithm to identify the pesticide residues on the surface of broccoli. In sum, this study develops a new method for rapid and nondestructive detection of pesticide residues on the surface of broccoli.
Key words: hyperspectral image    broccoli    pesticide residues    artificial neural networks    extreme learning machine    

西兰花(Brassica oleracea L. var. italic Planch.)又名青花菜,不仅所含营养成分十分全面,还具有显著的防癌抗癌功效,是人们日常主要食用的蔬菜之一[1]。西兰花是浙江省的特色蔬菜,不仅满足国内的消费需求,还出口日本、韩国及远销其他国际市场,所以西兰花的质量安全问题不但影响国内消费者的身体健康与安全,还关系着我国的国际市场形象。由于西兰花在生长过程中,容易发生猝倒病、立枯病等,而且会受菜青虫、小菜蛾的危害,因此农药的使用不可避免。资料表明,我国农药残留超标是西兰花出口受阻的主要原因[2],因此对西兰花的农残检测具有十分重要的意义。

目前,西兰花农药残留检测方法均为传统有损检测,如气相色谱法、高效液相色谱法、免疫分析法,等等[3-4]。这些传统方法虽然检测精度高,但是检测耗时长,且依赖大量的化学试剂,浪费大,有污染,不利于推广。高光谱技术是近年来应用到农畜产品检测的新技术,具有无污染、无损坏、自动化、快速高效等优点[5],被广泛应用于农产品的农药残留检测。如:JAMSHIDI等[6]利用高光谱技术实现了黄瓜中农药残留的快速检测;SHAO等[7]利用高光谱成像技术和拉曼光谱技术实现了对小球藻中农药残留种类的检测;孙俊等[8]利用高光谱图像技术结合自适应-支持向量机(Ada-SVM)算法检测了桑叶中农药残留的有无,检测精度高达97.78%;胡荣明等[9]利用高光谱中特征参数反演了韭菜中毒死蜱的残留量。上述研究都证明高光谱技术应用于农药残留检测是可行的,但这些研究对象均为表面光滑的植物叶片,而尚未涉及像西兰花这类表面呈球状且凹凸不平的蔬菜。

农药残留精准检测的前提是有无农药残留及农药残留的种类。本文以不含农药的西兰花和含有3种农药(阿维菌素、丙森锌、吡虫啉)的西兰花作为研究对象,利用高光谱图像技术结合模式识别方法建立西兰花中不同农药残留种类检测模型来检测西兰花中不同农药种类,旨在探索高光谱图像技术在西兰花表面农药残留检测中的应用,为西兰花农药残留检测提供一种新的快速、高效的无损检测方法。

1 材料与方法 1.1 样本的制备与采集

在西兰花生长过程中,常用的防治病虫害的农药有阿维菌素、丙森锌、虫螨腈、吡虫啉等[10]。本实验使用阿维菌素(含有效成分2%,由济南金地农药有限公司生产)、吡虫啉(含有效成分10%,由杭州泰丰化工有限公司生产)、丙森锌(含有效成分70%,由拜耳作物科学有限公司生产)3种农药作为农药残留检测对象。实验所用的西兰花样本来自浙江省杭州市余杭区乔司农场西兰花种植地,品种为日本炎秀;选取180颗长势和形态近似的成熟、无病害西兰花,平均分成4组进行农药喷洒。由于傍晚气温低,农药不会挥发且容易被植物吸收,实验于17:00进行,对第一组西兰花按推荐剂量(4 000倍稀释液)均匀喷洒吡虫啉农药;第二组西兰花按推荐剂量(2 500倍稀释液)均匀喷洒阿维菌素农药;第三组西兰花按推荐剂量(500倍稀释液)均匀喷洒丙森锌农药;第四组西兰花均匀喷洒清水。每颗西兰花喷洒100 mL,每组喷洒4.5 L,24 h后(每组样本的农药均被吸收但还未被分解,且肉眼观测不出差别),每组采摘西兰花各45颗,装入保鲜袋密封保存并编号,随后立即送往实验室进行高光谱图像采集。

1.2 高光谱图像的采集

高光谱图像采集实验使用的是四川双利合谱科技有限公司的Image-λ-V10E-PS高光谱成像仪系统。成像光谱仪型号为Imperx IPX-2M30,光谱范围为383.70~1 032.70 nm,光谱分辨率为2.73 nm,光源为标准汞灯。使用SpecView软件采集高光谱图像数据。为避免环境中杂散光带来的影响,整个采集过程在暗箱中进行。高光谱图像采集参数设定如下:曝光时间15 ms,平移台移动速度1.15 cm/s,4个汞灯与平移台的夹角为45°。按组依次对所有的西兰花样本进行高光谱采集,同时将白板放置在与西兰花相同距离的位置上进行白板数据采集,然后关闭光源,盖上镜头盖进行暗背景数据采集。黑白校正公式为:

$ R = \frac{{S - D}}{{W - D}}. $ (1)

式中:R是校正后的数据,S是原始样本数据,W是白板数据,D是暗背景数据。

1.3 原理与方法 1.3.1 分段多元散射校正

由于西兰花表面呈半球形且表面花苞呈颗粒状,因此在采集高光谱图像时会产生光的散射现象,而分段多元散射校正(piecewise multiplicative scatter correction, PMSC)的主要作用正是消除颗粒造成的非线性光散射影响[11]。该算法假设在宽度为j = (w1 + w2 + 1)的移动窗口波长范围内,光谱xi与平均光谱x存在线性关系,对每一移动窗口分别按式(2)进行一元线性回归,用最小二乘法依次求出每段移动窗口的截距aik和斜率bik

$ {x_{ij}} = {a_{ik}} + {x_j}{b_{ik}}. $ (2)

式中,xij =[xi, k-w1, xi, k-w1 + 1, …, xi, k + w2-1, xi, k + w2],xj为在窗口波段内的平均光谱。

由式(3)得到校正后的光谱xPMSC

$ {x_{{\rm{PMSC}}}} = \frac{{({x_{i,k}} - {a_{ik}})}}{{{b_{ik}}}}. $ (3)
1.3.2 降维算法

高光谱的数据量大,是高光谱图像处理最主要的问题。虽然取样品感兴趣区域的平均光谱可以显著减少数据量,但是全波段光谱数据之间线性相关性大,信息冗余会影响分类模型的性能。主成分分析算法(principal component analysis algorithm, PCA)[12]是一种非监督的特征提取算法,主要思想是将多个变量进行线性变换后转换成另一组不相关的变量,将多波段图像信息压缩到少数更有效的几个转换波段。连续投影算法(successive projection algorithm, SPA)[13]是一种特征变量前向循环选择算法,在所有光谱中循环投影寻找含有最低限度的冗余信息的变量组,提高模型的速度和效率,被广泛应用于光谱特征波长的选择上。

1.3.3 分类算法

马氏距离(Mahalanobis distance, MD)是线性判别法中常用方法之一[14]。计算输入样本和测试样本之间的马氏距离,得到的距离越小则匹配效果越好。

最小二乘支持向量机(least square support vector machine, LSSVM)是支持向量机的一种类型[15]。该算法使用最小二乘线性系统代替二次规划方法,对所采集的样本通过非线性映射函数在高维特征空间建立最优分类面,从而实现样本的线性可分。与SVM相比,LSSVM把原方法的不等式约束变为等式约束,从而大大方便了Lagrange乘子的求解,使得求解速度得到极大提高。

人工神经网络(artificial neural networks, ANN)是用许多处理单元模拟人类的神经网络来进行预测,由输入层、一个或多个隐含层及输出层组成复杂的处理单元(人工“神经元”)构成。该算法具有智能化、高容错性、并行分布的处理和自学习能力等优点,被广泛应用于处理人脑和现代计算机较难处理的复杂数据中[16]

极限学习机(extreme learning machine, ELM)是由HUANG等[17]提出的一种特殊的单隐层前馈神经网络算法,相比于传统人工神经网络和SVM算法,具有运算速度快、泛化能力强、不过拟合的优点。

2 结果与分析 2.1 西兰花光谱信息的提取与预处理

实验统一选取样本中心60像素×60像素的正方形区域作为感兴趣区域(region of interest, ROI)。计算该正方形感兴趣区域内所有像素点的光谱平均值得到的原始光谱数据如图 1所示。从中可以看出,在数据开头和结尾部分噪声较大,因此剔除数据前后各20个波段的光谱数据,以提高整体数据信噪比。实验得到180颗西兰花样本从431.84~981.71 nm之间共216个波段的光谱数据,然后用PMSC算法消除西兰花表面颗粒感造成的光散射和基线漂移数据。4种样本(各45条光谱)的平均光谱曲线如图 2所示。从中可以看出,有、无农药残留的西兰花光谱曲线差异明显,因此可利用西兰花的高光谱信息识别其表面有无农药残留。同时,含农药残留种类不同的西兰花的光谱曲线也不同,由此可以识别出西兰花表面所含农药残留的种类。

图1 西兰花样本图和感兴趣区域(ROI)光谱提取示意图 Fig. 1 Schematic diagram of broccoli sample's region of interest (ROI) selection and spectral extraction

图2 不含农药残留及含不同种类农药残留的西兰花平均光谱图 Fig. 2 Average reflectance spectra of broccoli samples with different types of pesticide residues or without pesticide residues
2.2 特征光谱的选取

通过主成分分析算法对预处理后的原始光谱数据进行特征提取,得到主成分图像(图 3)和各个主成分的累积贡献率(表 1)。从前5个主成分图像中可以看出,第一主成分图像最清晰,而图像清晰度随着成分数的增加而降低。

图3 前5个主成分图像 Fig. 3 The first five principal component images of broccoli samples

表1 不同主成分的累计贡献率 Table 1 Cumulative contribution rates using different numbers of principal components
点击放大

表 1中可以看出,当主成分数达到9时,累计贡献率已经达到99.05%。为了达到降低数据冗余性的同时最大程度保留数据信息的目的,选取主成分数为10,此时累计贡献率达到99.10%。

使用连续投影算法(SPA)对预处理后的光谱数据特征波长进行选择,设定特征波长最大个数为20。根据均方根误差尽可能小且波长个数尽可能少的原则,得到的特征波长个数为8(图 4),此时均方根误差为0.85 275,光谱特征波长分别为458.51、500.02、522.13、551.77、614.04、720.32、769.08、818.26 nm。

图4 连续投影算法(SPA)提取的特征波长 Fig. 4 Characteristic wavelengths extracted by SPA
2.3 基于全波段数据的分类建模

从预处理后的每类样品中随机抽取30个(共计120个)数据作为训练集,余下的每类15个(共计60个)数据作为测试集。对431.84~981.71 nm之间进行PMSC处理后的原始光谱作为输入变量,分别验证MD、ANN、LSSVM和ELM这4种分类方法的鉴别效果,结果如表 2所示。其中最小二乘支持向量机算法(LSSVM)分别采用线性核函数和径向基核函数,该模型中的惩罚因子c和核函数参数gamma均为默认参数。在人工神经网络算法(ANN)中,活化函数为Logistic,训练贡献阈值设为0.94,隐含层数为1,权重调节速度为0.2,训练迭代次数1 000,允许误差为0.06。极限学习机(ELM)模型隐含层节点数为31。

表2 基于全波段数据不同分类器建模结果 Table 2 Results of different classification models using full spectra
点击放大

表 2中可以看出,4种基于全光谱的分类方法都能有效分类识别,其中识别效果最好的模型是人工神经网络算法建模,训练集和测试集正确率分别为99.17%和98.33%。使用ELM算法建模效果仅次于人工神经网络算法建模,训练集和测试集正确率分别为97.50%和95.83%。而使用径向基核函数的LSSVM算法建模的正确率均高于使用线性核函数模型的正确率。

2.4 基于特征提取算法的分类建模

同样地,将选取的前10个主成分特征光谱和8个特征波长分别作为输入变量,构建分类模型。分类结果如表 3所示。其中最小二乘支持向量机算法、人工神经网络和极限学习机算法的参数设置同2.3。从中可以看出,基于SPA特征波长的分类模型的正确率整体都高于基于主成分特征光谱的分类模型,说明试验中采用连续投影算法进行数据降维的效果优于主成分分析算法。与2.3中的分类结果相比,基于SPA特征波长的建模中,马氏距离、最小二乘支持向量机和人工神经网络模型正确率略有下降但是精度仍然较好,训练集的正确率均超过80%;而基于SPA特征波长下的极限学习机模型的判别正确率有所提高,且高于其他3类分类器的正确率,训练集和测试集的正确率均高达96%以上。

表3 基于主成分特征光谱和SPA特征波长的不同分类器建模结果 Table 3 Results of different classification models using principal component characteristic spectra and characteristic wavelengths selected by SPA
点击放大
3 结论

利用高光谱图像技术采集4组西兰花样本图像,利用图像信息选取感兴趣区域的平均光谱后,针对西兰花表面凹凸不平的特点采用分段多元散射校正算法进行预处理,有效地消除了颗粒造成的非线性光散射影响,然后基于全光谱信息分别采用马氏距离算法、最小二乘支持向量机算法、人工神经网络和极限学习机算法进行分类建模。其中人工神经网络分类算法效果最优,训练集和测试集正确率分别为99.17%和98.33%。为剔除大量高光谱冗余数据,提高模型的识别速度,采用主成分分析算法选取前10个主成分和连续投影算法选择8个特征值波长进行特征提取,分别建立了基于特征信息的判别模型。在实验分类器中,SPA-ELM模型的识别效果均优于其他3类分类器,训练集和测试集的正确率分别为98.33%、96.67%。综上表明,利用高光谱图像技术结合人工神经网络算法实现西兰花表面有、无农药残留及残留农药种类检测是完全可行的,为西兰花表面农药残留快速无损检测提供了一种新的方法。

参考文献
[1]
XU L, CAO J, CHEN W. Structural characterization of a broccoli polysaccharide and evaluation of anti-cancer cell proliferation effects. Carbohydrate Polymers, 2015, 126: 179-184. DOI:10.1016/j.carbpol.2015.03.011
[2]
孙彩霞, 戚亚梅, 杨桂玲, 等. 西兰花出口的技术性贸易措施分析. 农产品质量与安全, 2013(1): 55-57.
SUN C X, QI Y M, YANG G L, et al. Analysis on technical trade measures of broccoli export. Quality and Safety of Agro-products, 2013(1): 55-57. (in Chinese with English abstract) DOI:10.3969/j.issn.1674-8255.2013.01.014
[3]
FARINA Y, ABDULLAH M P, BIBI N, et al. Determination of pesticide residues in leafy vegetables at parts per billion levels by a chemometric study using GC-ECD in Cameron Highlands. Food Chemistry, 2017, 224: 55-61. DOI:10.1016/j.foodchem.2016.11.113
[4]
ZHANG F, HUANG Z, ZHANG Y, et al. Determination of 20 carbamate pesticide residues in food by high performance liquid chromatography-tandem mass spectrometry. Chinese Journal of Chromatography, 2010, 28(4): 348-355. DOI:10.3724/SP.J.1123.2010.00348
[5]
CHO B K, KIM M S, BAEK I S, et al. Detection of cuticle defects on cherry tomatoes using hyperspectral fluorescence imagery. Postharvest Biology & Technology, 2013, 76: 40-49.
[6]
JAMSHIDI B, MOHAJERANI E, JAMSHIDI J. Developing a Vis/NIR spectroscopic system for fast and non-destructive pesticide residue monitoring in agricultural product. Measurement, 2016, 89: 1-6.
[7]
SHAO Y N, LI Y, JIANG L J, et al. Identification of pesticide varieties by detecting characteristics of Chlorella pyrenoidosa using visible/near infrared hyperspectral imaging and Raman microspectroscopy technology. Water Research, 2016, 104: 432-440. DOI:10.1016/j.watres.2016.08.042
[8]
孙俊, 张梅霞, 毛罕平, 等. 基于高光谱图像的桑叶农药残留种类鉴别研究. 农业机械学报, 2015, 46(6): 251-256.
SUN J, ZHANG M X, MAO H P, et al. Identification of pesticide residues in mulberry leaves based on hyperspectral imaging. Transactions of the Chinese Society of Agricultural Machinery, 2015, 46(6): 251-256. (in Chinese with English abstract)
[9]
胡荣明, 郭江波, 黄远程, 等. 韭菜中毒死蜱残留量与高光谱特征参数的相关性建模. 农药学学报, 2015, 17(5): 563-570.
HU R M, GUO J B, HUANG Y C, et al. Sensitivity model for chlorpyrifos residues in Chinese chive and hyper-spectral absorption parameters. Chinese Journal of Pesticide Science, 2015, 17(5): 563-570. (in Chinese with English abstract) DOI:10.3969/j.issn.1008-7303.2015.05.09
[10]
EDELSON J V, MAGARO J J, BROWNING H. Control of insect pests on broccoli in southern Texas: A comparison between synthetic organic insecticides and biorational treatments. Journal of Entomological Science, 1993, 28(2): 191-196. DOI:10.18474/0749-8004-28.2.191
[11]
BURGER J, GELADI P. Spectral pre-treatments of hyperspectral near infrared images: Analysis of diffuse reflectance scattering. Journal of Near Infrared Spectroscopy, 2007, 15(1): 29-37. DOI:10.1255/jnirs.717
[12]
HUANG L, ZHAO J, CHEN Q, et al. Rapid detection of total viable count (TVC) in pork meat by hyperspectral imaging. Food Research International, 2013, 54(1): 821-828. DOI:10.1016/j.foodres.2013.08.011
[13]
GAO J F, LI X L, ZHU F L, et al. Application of hyperspectral imaging technology to discriminate different geographical origins of Jatropha curcas L. seeds. Computers & Electronics in Agriculture, 2013, 99(6): 186-193.
[14]
MAESSCHALCK R D, JOUAN-RIMBAUD D, MASSART D L. The Mahalanobis distance. Chemometrics & Intelligent Laboratory Systems, 2000, 50(1): 1-18.
[15]
SUYKENS J A K, GESTEL T V, BRABANTER J D, et al. Least square support vector machine. Euphytica, 2002, 2(2): 1599-1604.
[16]
SUN M J, ZHANG D, LIU L, et al. How to predict the sugariness and hardness of melons: A near-infrared hyperspectral imaging method. Food Chemistry, 2016, 218: 413.
[17]
HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: Theory and applications. Neurocomputing, 2006, 70(1/2/3): 489-501.