林业科学  2013, Vol. 49 Issue (6): 184-188   PDF    
DOI: 10.11707/j.1001-7488.20130627
0

文章信息

张善文, 张传雷, 王旭启, 周争光, 张雅丽
Zhang Shanwen, Zhang Chuanlei, Wang Xuqi, Zhou Zhengguang, Zhang Yali
基于叶片图像和监督正交最大差异伸展的植物识别方法
Plant Recognition Based on Leaf Image and Supervised Orthogonal Maximum Variance Unfolding
林业科学, 2013, 49(6): 184-188
Scientia Silvae Sinicae, 2013, 49(6): 184-188.
DOI: 10.11707/j.1001-7488.20130627

文章历史

收稿日期:2012-07-30
修回日期:2012-11-18

作者相关文章

张善文
张传雷
王旭启
周争光
张雅丽

基于叶片图像和监督正交最大差异伸展的植物识别方法
张善文1, 2, 张传雷2, 王旭启1, 周争光1, 张雅丽3    
1. 西京学院工程技术系 西安 710123;
2. Ryerson大学电子与计算机工程系 M5B 2K;
3. 西北农林科技大学 杨凌 712100
关键词流形学习    植物叶片识别    最大差异伸展    监督正交最大差异伸展    
Plant Recognition Based on Leaf Image and Supervised Orthogonal Maximum Variance Unfolding
Zhang Shanwen1, 2, Zhang Chuanlei2, Wang Xuqi1, Zhou Zhengguang1, Zhang Yali3     
1. Department of Engineering and Technology,Xijing University Xi'an 710123;
2. Department of Electrical and Computer Engineering, Ryerson University M5B 2K3. , Canada;
3. Northwest A & F University Yangling 712100
Abstract: Due to the large difference between the same-class leaf images, many classical recognition methods do not satisfy the actual requirements of the plant leaf image recognition system. Based on maximum variance unfolding(MVU)and maximum variance projection(MVP), a supervised orthogonal MVU algorithm was presented and was applied to plant leaf image recognition. By the algorithm, the high-dimensionality data were mapped to an optimal low-dimensionality subspace where the different-class samples were located further away, while the same-class samples were located closer. The local geometry structure of the low dimension manifold of the original high dimensionality data was preserved. The experimental results on real plant leaf databases showed that the proposed method was effective and feasible for plant leaf recognition.
Key words: manifold learning    plant leaf recognition    maximum variance unfolding(MVU)    supervised orthogonal MVU    

无论对于农业信息化还是对于生态保护,研究植物识别都是非常必要的。基于植物叶片的植物识别方法一直是植物学中的一个重要研究方向。植物叶片的颜色、形状、纹理等特征都可以用来作为识别依据(杜吉祥,2005 ; 纪寿文等,2002 ; 王晓峰等,2006 ; 张宁等,2011 ; 徐贵力等,2002 ; Wang et al.,2008)。叶片的形状特征主要表现在它的大小和外形上,不同植物的叶片各有特点,叶片在形态上的多变性是植物识别的重要依据。叶片的纹理特征指其叶脉中所蕴涵的特征信息,对于同一种植物,其叶片的脉络结构是比较稳定的; 而对于不同种植物,叶片的脉络结构差异较大。目前已有许多基于叶片图像的植物识别方法和技术。 Wang等(2000 ; 2003)首次引入叶片图像检索技术,提出了一种基于归一化的中心轮廓距离曲线的两步检索方法,随后增加了角度编码直方图作为排序条件,并通过不同特征的模糊集成实现了植物图像的检索,利用140种植物1 400片叶片图像验证了该方法的可行性。Mokhtarian等(2004)研究了叶片有部分遮掩时的检索方法,对12种不同菊花120片叶片的测试结果表明,当返回结果是最接近的3类和5张菊花图像时,正确率达到了97.6 % 。Du等(2010)使用改进动态规划算法实现了植物叶片形状匹配。这些方法和技术基本上都是利用图像处理技术对叶片图像进行维数约简和特征提取。

目前植物叶片识别研究中植物叶片一般来源于人工野外采集、农业自动监测系统采集或活体植物标本采集等。通常情况下,室外采集到的植物叶片图像不可避免地具有较复杂的背景,比如植物叶片交叠、花叶交叠等,且植物叶片自身在形态结构上较为复杂,边缘的拓扑结构变化较大,室内外环境下的光照条件也不尽相同,这些因素都限制了传统的分割与识别方法对复杂背景下植物叶片图像的处理效果。因此,传统的线性维数约简和特征提取方法不能有效地研究存在于非线性叶片图像数据中的内在规律。流形学习是近年来发展起来的一类较新的非线性维数约简方法,在机器学习和模式识别领域得到了广泛应用(Roweis et al.,2000 ; Tenenbaum et al.,2000 ; He et al.,2005 ; 张善文等,2010 ; 李波,2008 ; Weinberger et al.,2006)。流形学习比传统的线性维数约简和特征提取方法更能得到数据的本质结构,更有利于对实际观察数据的理解和进一步处理,能更好地解决一些非线性结构数据的识别问题。最大差异伸展(maximum variance unfolding,MVU)是一种有效的高维数据可视化流形学习算法(李波,2008 ; Zhang et al.,2007)。MVU 将分布在高维空间的样本点通过一种非线性变换映射到低维子空间,并严格保持数据流形中近邻样本点之间的距离不变。在 MVU 算法中,最邻接点之间保持固定的距离和角度,并且在映射前后样本点之间的欧氏距离保持不变; 但该方法没有利用数据的类别信息。研究表明,数据的类别信息有助于提高算法的识别效果。Zhang等(2007)提出了一种监督的最大差异映射(maximum variance projection,MVP)方法,该方法利用数据点的类别信息来构造不同类样本点之间的差异,并引进原始 LLE(Roweis et al.,2000)。算法中的线性近似目标函数作为约束条件来保存数据点之间的局部结构信息,以最大化差异为目标函数,求得一个最优线性投影子空间。由于该方法引进了LLE 算法对目标函数进行线性近似,而 LLE 对噪声又非常敏感,所以 MVP 算法的鲁棒性比较差。本文在 MVU和MVP 的基础上,提出一种监督正交最大差异投影(supervised orthogonal maximum variance mapping,SOMVM)流形学习算法。该算法不仅能够将高维空间的复杂数据投影到一个低维空间,而且能够在保留数据点之间局部结构不变的前提下将不同子流形上的数据点投影得更远。因此,该算法适合于数据分类识别。本文将该方法应用于基于叶片图像的植物识别。

1 监督正交最大差异投影算法

监督正交最大差异投影(SOMVM)算法的准则是: 在保证子流形局域不变的前提下,将不同类数据投影得更分散,即在不破坏投影后子流形的拓扑结构的前提下,能够从中提取最适合数据识别的识别特征。为此,构造2个目标函数: 局部散度和类间散度。

n个有标签样本向量(若观察样本不是向量表示,要转换成向量)X=[X1X2,…,Xn],CiXi的类别标签值,X的投影为YYi=ATXiA为映射矩阵。在实际应用中,欧氏距离或高斯函数能够反映数据的局部关系,即输入数据点之间的局部结构可用处于最近邻关系的数据点对之间的欧氏距离或高斯函数来表示。由此定义局部散度为:

$ {J_{\rm{L}}} = \sum\limits_{i,j}^n {{W_{ij}}} {\left\| {{Y_i} -{Y_j}} \right\|^2}。 $ (1)
式中:Wij为权值,定义为:

$ {{W_{ij}} = \left\{ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\exp \left( { - \frac{{{{\left\| {{X_i} - {X_j}} \right\|}^2}}}{{{\beta ^2}}}} \right){\rm{若}}{X_i} \in N\left( {{X_j}} \right)}\\ {或{X_j} \in N\left( {{X_i}} \right);}\\ {0,其他} \end{array}} \end{array}} \right.} $ (2)

式中: N(Xi)为Xik-最近邻集;β为调节参数,可由交叉验证法取得。

当2个样本点之间的欧氏距离较大时,就认为这2个样本可能是不同类别的; 相反,当2个样本点之间的欧氏距离较小时,就认为这2个样本可能属于同一类别。因此,可利用投影后不同类样本点之间距离平方和作为衡量投影后数据类别间差异的指标。为此定义类间散度为:

$ {J_{\rm{D}}} = \sum\limits_{i,j}^n {{H_{ij}}{{\left\| {{Y_i} - {Y_j}} \right\|}^2}} $ (3)
式中:Hij为权值,定义为:

$ {H_{ij}} = \left\{ {\begin{array}{*{20}{c}} {1,若{C_i} \ne {C_j};}\\ {0,其他。} \end{array}} \right. $ (4)

式(1)和(3)可以分别化简为:

$ \begin{array}{*{20}{c}} {\frac{1}{2}{J_{\rm{L}}}\left( A \right) = \frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{H_{ij}}{{\left( {{Y_i} - {Y_j}} \right)}^2}} } }\\ {\frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{H_{ij}}{{\left( {{A^T}{X_i} - {A^T}{X_j}} \right)}^2} = } } }\\ {tr\left[ {{A^T}X\left( {L - H} \right){X^T}A} \right];} \end{array} $ (5)
$ \begin{array}{*{20}{c}} {\frac{1}{2}{J_D}\left( A \right) = \frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{W_{ij}}{{\left( {{Y_i} - {Y_j}} \right)}^2}} } }\\ {\frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{W_{ij}}{{\left( {{A^T}{X_i} - {A^T}{X_j}} \right)}^2} = } } }\\ {tr\left[ {{A^T}X\left( {D - W} \right){X^T}A} \right]。} \end{array} $ (6)
式中: H={Hij},W={Wij},LD为2个对角化矩阵,且LiiHij,Dii = ΣWij

最大化式(3),即 max{JD(A)} 可以使得投影后的不同类数据点之间更分散。为了保证投影前后数据的局域不变,即使得 tr[X(L-H)XT]= tr[ATX(L-H)XTA]。

为了同时实现上述2个目标,构造如下目标函数:

$ \left\{ {\begin{array}{*{20}{c}} {\max \left( {{J_D}} \right) = tr[{A^T}X\left( {D - H} \right){X^T}A];}\\ {s.t.tr[{A^T}X\left( {L - W} \right){X^T}A] = tr[X\left( {L - W} \right){X^T}]。} \end{array}} \right. $ (7)

通过拉普拉斯数乘法来求解式(7),得

$ \max \left.{\left.{\left\{ {{J_D}} \right.-\lambda tr[{A^T}X\left({L -W} \right){X^T}A -X\left({L -W} \right){X^T}} \right]} \right\}。 $ (8)

对式(8)求导,并令其等于零,得

$ X\left({D -H} \right){X^T}A = \lambda X\left({L -W} \right){X^T}A。 $ (9)

假设数据的约简维数为d,则映射矩阵A由式(9)的d个最大特征值对应的特征向量组成,即由广义特征对{X(D-H)XTX(L-W)XT} 的d个最大广义特征向量所组成a1a2,…,ad

正交化A可以减少投影后数据的自由度,降低噪声。利用Gram-Schmidt正交化过程对a1a2,…,ad进行正交化。。令p1=a1,假设前k-1 个正交基向量p1p2,…,pk-1 已得到,则由下式得第kpk:

$ {p_k} = {a_k} -\sum\limits_{i = 1}^{k -1} {\frac{{{p_i}^T{a_k}}}{{{p_i}^T{p_i}}}{p_i}。} $ (10)

从而可以得到正交线性投影矩阵P=[p1p2,…,pd]。

这样,任一数据点Xnew对应的低维投影可以通过线性变换得到

$ {Y_{new}} = {P^T}{X_{new}}。 $ (11)
式中: PRn×dXnewRDYnewRd,d$ \ll $D,D为原始数据的维数,d为约简维数。

根据上面的分析,下面给出基于监督正交 MVU算法的叶片图像识别的步骤:

1)按照最近邻准则,构建最近邻图。连接任意点Xi 与其所有的k-最近邻点,得到一个包含所有样本点的最近邻图G

2)建立优化问题。由式(5)和式(6)计算局部散度和类间散度矩阵,构造式(7)的目标函数。

3)求解式(7)的目标函数,得d个最大广义特征向量所组成a1a2,…,ad

4)利用 Gram-Schmidt 方法对a1a2,…,ad进行正交化,得正交线性映射矩阵。

5)通过线性变换式(11)求得数据的低维映射。

6)利用合适的分类器进行叶片图像识别。

2 植物叶片图像预处理

在进行植物叶片图像识别之前,需要对叶片图像进行一系列预处理(杜吉祥,2005 ; 纪寿文等,2002 ; 王晓峰等,2006 ; Wang et al.,2008)。一般而言,叶片图像的预处理包括去除叶柄,图像矫正以及灰度化。由于叶柄对叶片识别率的贡献不大且很难放在同一位置,所以去除。叶片图像经过膨胀和腐蚀的开运算和闭运算后,得到无叶柄且比较完整的叶片图像。

一般植物叶片图像具有很好的对称性,利用其对称性特点,计算叶片图像模板的惯性主轴,获取叶柄根部和叶片的交点,并以交点为中心对图像进行旋转变化,就可摆正叶片图像的位置,实现叶片图像的准确定位。假设叶片图像上共有m个像素点,则惯性矩定义为:

$ {m_\vartheta } = {\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^m {\left({{x_i}\sin \vartheta -{y_i}\cos \vartheta } \right)} } ^2}。 $ (12)

使惯性矩最小,就可得旋转轴角度(图 1):

$ {v_\vartheta } = -\frac{\pi }{2} -\frac{1}{2}{\rm{arctg}}\frac{{2\sum\limits_{i = 1}^m {\sum\limits_{j = 1}^m {{x_i}{y_i}} } }}{{\sum\limits_{i = 1}^m {{x_i}^2 -\sum\limits_{j = 1}^m {{y_i}^2} } }}。 $ (13)
图 1 叶片的惯性主轴 Fig. 1 Principal axis of inertia of leaf image

得到叶片图像的惯性主轴与x轴正向的夹角后,对叶片图像进行旋转就可获得摆正后的叶片图像。 图 2为夹竹桃科络石(Trachelospermum jasminoides)植物的10幅叶片图像的分割、矫正及灰度化后的结果。

图 2 10幅络石叶片图像的预处理结果 Fig. 2 Ten preprocessed leaves of deytree plant
3 试验结果

利用2个植物叶片图像数据库进行试验,来验证基于叶片图像和监督正交 MVU(SOMVU)算法的植物识别方法的有效性。试验所用计算机的配置为: Intel Core 2 Duo 2.2 GHz 中央处理器,2 G 内存,Windows XP 操作系统; 程序运行环境 Matlab 7.0 ;所采用的k-最近邻分类器为 Matlab 7.0中的函数 knnclassify。

1)利用瑞典植物叶片数据库(Swedish LeafDatabase)(Söderkvist,2001)的15类叶片图像(每类75幅)进行识别试验。将预处理后的每幅图像归一化为64 × 64像素大小的灰度图,背景白色,然后将每幅二维图像转换成4 096维向量表示。

在试验中,从预处理后每类植物叶片中任意选择30张叶片图像组成训练集,剩余的组成测试集。同时与较新的植物叶片识别方法邻域粗糙集(neighborhood rough set,NRS)(Liu,2012)和支持向量机(support vector machine,SVM)(Arun Priya et al.,2012)以及流形学习算法 LPP(He et al.,2005)、MVP(Zhang et al.,2007)、MVU(Weinberger et al.,2006)进行比较。在应用 LPP,MVP,MVU和本文提出的算法 SOMVU 时,第一步都需要建立最近邻图,采用最近邻标准来确定最近邻点,并建立k-最近邻关系,这里假设最近邻数k被设置为(l-1),其中l是训练样本的类别数。参数β由试验结果的最大值决定。当样本数较少时,算法 LPP,MVP,MVU和改进 MVU 在进行广义特征值分解时可能出现小样本问题。为了避免这个问题,采用主分量分析(PCA)对数据进行预降维,保留98 % 的能量; 然后分别采用 LPP,MVP,MVU和SOMVU 进行维数约简和提取相应的低维识别特征,最后采用1-最近邻分类器进行50次识别试验,记录每次试验的正确识别率的最大值,得到50次重复试验的最大平均识别率(表 1)。

表 1 采用 NRS,SVM ,LPP,MVP,MVU和 SOMVU 的识别结果 Tab.1 The classification results of plant leaf images by NRS,SVM,LPP,MVP,MVU and SOMVU

2)从作者实验室采集的植物叶片数据库(http:∥www.intelengine.cn/source.htm)中选择20类叶片图像(每类15幅)进行识别试验(图 3)。图像大小为128 × 128像素。叶片的预处理过程和识别过程与上面的试验过程相同。

图 3 20类植物叶片 Fig. 3 20 kinds of plants

采用5折交叉验证法进行识别试验,结果见表 2

表 2 采用 NRS,SVM ,LPP,MVP,MVU和 SOMVU 的识别结果 Tab.2 The classification results of plant leaf images by NRS,SVM,LPP,MVP,MVU and SOMVU

表 1表 2可看出,本文所提出的 SOMVU算法的识别率最大,其原因是该算法利用了叶片图像的先验知识,即类别信息和流形假设,同时保持了样本集的局部结构。由此说明保持样本的局部结构和数据的类别信息对识别算法性能的提升有着重要的作用。

对64 × 64和128 × 128像素大小的灰度叶片图像的识别时间分别为16 s和19 s,像素越大,所用识别时间越长,不过在实际应用中是可以接受的。

4 结论与建议

研究植物识别是非常必要的。但由于叶片图像的复杂性,使得很多已有的植物识别方法和技术不能满足当前植物物种自动识别系统的需要。本文基于 MVU和MVP 提出了一种监督正交的 MVU 算法,并应用于植物叶片识别中。利用该方法能够将异类样本映射得更分散,同时保持同类样本的原始低维流形结构不变。在瑞典植物叶片图像数据库和作者实验室采集到的数据库上分别进行了识别试验,结果表明该方法是有效可行的。

有2个问题值得以后继续研究:

1)在本文基于流形学习的叶片图像识别试验中,对 SOMVU 以及 LPP,MVP和MVU 算法都采用PCA 对原始叶片图像进行预降维处理,虽然消除了降维过程中的小样本问题,但预降维可能失去一些有用信息。所以,研究有效的直接维数约简算法是下一步的工作。

2)由于实际得到的图像大小是多样的,所以还需要利用像素大小不等的图像进行识别试验。而本文提出的方法要求图像大小相同,采用最简单的补零法将每幅图像转化为大小一致的图像,但得到的识别效果很差。如何对原始图像大小进行更有效预处理是进一步研究的工作。

参考文献(References)
[1] 杜吉祥. 2005.植物物种机器识别技术的研究.合肥:中国科学技术大学博士学位论文.(2)
[2] 纪寿文,王荣本,陈佳娟,等. 2002.应用计算机图像处理技术识别玉米苗期田间杂草的研究.农业工程学报, 18(4): 150-154.(2)
[3] 李波. 2008.基于流形学习的特征提取方法及其应用研究.合肥:中国科学技术大学博士学位论文.(2)
[4] 王晓峰,黄德双,杜吉祥,等. 2006.叶片图像特征提取与识别技术的研究.计算机工程与应用, 42(3): 190-193. (2)
[5] 徐贵力,毛罕平,李萍萍. 2002.缺素叶片彩色图像颜色特征提取的研究.农业工程学报,4(3): 150-153.(1)
[6] 张宁,刘文萍. 2011.基于图像分析的植物叶片识别技术综述.计算机应用研究,28(11): 68-71.(1)
[7] 张善文,巨春芬. 2010.正交全局-局部判别映射应用于植物叶片分类.农业工程学报, 26(10): 162-165.(1)
[8] Arun Priya C, Balasaravanan T. 2012. An efficient leaf recognition algorithm for plant classification using support vector machine. Proceedings of the International Conference on Pattern Recognition, Informatics and Medical Engineering, 428-432.(1)
[9] Du J X, Zhai C M.2010. Plant species recognition based on radial basis probabilistic neural networks ensemble classifier. Lecture Notes in Artificial Intelligence, 6216: 677-681.(1)
[10] He X, Yan S, Hu Y,et al. 2005. Face recognition using laplacianfaces. IEEE Transations on Pattern Analysis and Machine Intellegence, 27(3): 328-340.(2)
[11] Liu J M.2012. A new plant leaf classification method based on neighborhood rough set. Advances in information Sciences and Service Sciences(AISS), 4(1): 116-124.(1)
[12] Mokhtarian F, Abbasi S.2004. Matching shapes with self-intersection: application to leaf classification. IEEE Transactions on Image Processing, 13(5): 653-661. (1)
[13] Roweis S T, Saul L K.2000. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500): 2323-2326.(2)
[14] Söderkvist O.2001. Computer vision classification of leaves from Swedish trees. Master's Thesis, Linkoping University.(1)
[15] Tenenbaum J B, De Silva V, Langford J C.2000. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500): 2319-2323.(1)
[16] Wang X F, Huang D S, Du J X,et al. 2008. Classification of plant leaf images with complicated background. Applied Mathematics and Computation, 205(2): 916-926.(2)
[17] Wang Z, Chi Z, Feng D, et al. 2000. Leaf image retrieval with shape features. Lecture Notes in Computer Science, 1929: 477-487.(1)
[18] Wang Z, Chi Z, Feng D.2003. Shape based Leaf Image Retrieval. IEEE Transactions on Image Signal Process, 150(1): 34-43.(1)
[19] Weinberger K Q, Saul L K.2006. An introduction to nonlinear dimensionality reduction by maximum variance unfolding. American Association for Artificial Intelligence, 1683-1686.(2)
[20] Zhang T, Yang J, Wang H,et al. 2007. Maximum variance projections for face recognition. Optical Engineering, 46(6): 1-4.(3)