林业科学  2011, Vol. 47 Issue (10): 141-145   PDF    
0

文章信息

汪杭军, 汪碧辉
Wang Hangjun, Wang Bihui
一种新的针叶材自动识别方法
A Novel Method of Softwood Recognition
林业科学, 2011, 47(10): 141-145.
Scientia Silvae Sinicae, 2011, 47(10): 141-145.

文章历史

收稿日期:2009-12-28
修回日期:2010-01-29

作者相关文章

汪杭军
汪碧辉

一种新的针叶材自动识别方法
汪杭军, 汪碧辉    
浙江农林大学信息工程学院 临安 311300
摘要: 提出通过横切面显微图像对针叶材树种进行计算机识别的方法。该方法通过提取图像的PCA特征,生成“特征树”,然后采用SVM对样本进行分类。使用8种针叶材,每种12个样本,并采用留一交叉验证,对图像的分割方法、最近邻与SVM分类算法和不同范数距离下的识别效果进行试验。结果表明通过部分木材微观的纹理结构进行木材识别的可能性。
关键词:主成分分析    支持向量机    计算机视觉    针叶材识别    特征树    
A Novel Method of Softwood Recognition
Wang Hangjun, Wang Bihui    
School of Information Engineering, Zhejiang A & F University Lin'an 311300
Abstract: A novel method of softwood species computer automatic recognition through cross-sectional microscopic images is proposed in this paper. The method extracts PCA(principle component analysis)feature of wood images, generate "EigenTrees", and then use SVM(support vector machine)to classify samples in feature space. Eight kinds of softwoods species, twelve samples in each species are used in our experiment. Using leave-one-out cross-validation(LOOCV), wood recognition experiments are carried out under different conditions on image split methods, classification algorithms of nearest neighbor and SVM, and various norm distances. The results of these experiments show that wood recognition by parts of wood micro-texture is possible under certain conditions.
Key words: principle component analysis    support vector machine    computer vision    softwood recognition    EigenTrees    

正确进行木材识别对于充分合理使用木材资源、木材流通中的按质论价、木材进出口管理中防止非法木材交易和交易欺诈行为、考古和历史研究等具有重要的意义(汪杭军等, 2009)。随着数字图像处理、人工智能、模式识别等技术的发展,以及它们在文字识别(Trier et al., 1996)、人脸识别(Ariizumi et al., 2008)、指纹识别(Besbes et al., 2008)等众多领域的成功应用,为木材的智能识别技术提供了良好借鉴。很多学者结合木材学领域的特点,将这些方法和技术应用于木材识别上。于海鹏等(20042005)分别运用空间灰度共生矩阵和小波分析了木材纹理,获得了纹理的特征参数和分频分尺度特性。但木材宏观纹理图像对木材树种的识别提供的信息相对较少,目前大多研究集中在对木材切片的微观研究中,而且主要是在语义特征的测量、提取和分析上,包括导管(管孔)、木射线等不同组织细胞。例如,Fujita等(1995)分析阔叶材横切面的导管分布;Kino等(2004)测定了木材细胞壁厚度;任洪娥等(2007)利用链码技术提取针叶材细胞的边界轮廓信息;刘镇波(2004)对针叶材和阔叶材细胞几何量参数、细胞形态量参数、树脂道、木材组织比量参数、胞壁率、构造分子分布密度进行研究;黄慧(2006)采用数学形态学研究了阔叶材中的管孔、弦切面上木射线特征;Wang等(2009)采用遗传算法研究了阔叶材导管的自动分割问题。

以上可以看到对木材微观的研究主要集中在阔叶材上,并通过图像处理方法提取各种语义特征。图像分割是这些基于图像分析应用的第一步工作,也是最基本的工作(He et al., 2008)。虽然现在研究者提出了众多有效的图像分割算法,但是这些算法往往都是针对特定一类问题,而且即使这样也往往有会导致语义连续区域的过渡和欠缺分割的情况(Lesage et al., 2009);加上针叶材本身结构比较单一,在横切面上以管胞为主,因此对针叶材的研究更少。这些使得用机器进行自动木材识别变得非常困难。

根据针叶树材显微图像显示的主要是管胞、管胞径向排列整齐、其长宽比在树成熟期后是比较稳定的特点,本文首次提出分割针叶材横切面显微图像的一部分,提取PCA(principal component analysis)特征,生成“特征树”(EigenTrees),并采用SVM(support vector machine)对样本进行分类,可获得较好的识别效果。这表明通过部分木材微观的纹理结构进行木材识别具有可行性,也为今后更多的机器学习和模式识别中的一些在其他应用领域中有效方法(如子空间类方法)运用到木材自动识别中提供了途径。

1 材料与方法 1.1 数据准备

在某木材标本馆选取黄山松(Pinus taiwanensis)、棘柏(Juniperus formosana)、江南油杉(Keteleeria cyclolepis)、马尾松(Pinus massoniana)、日本扁柏(Chamaecyparis obtusa)、日本香柏(Thuja standishii)、水杉(Metasequoia glyptostroboides)和雪松(Cedrus deodara)等8种针叶材样本,按照常规方法制作横切面木材切片,并统一采用奥林巴斯OLYMPUS BX51显微镜和DP70数码显微成像系统采集显微图像。

对显微图像按照早晚材过渡(截取区域落在早晚材过渡部分)、早材(截取区域落在早材部分)和随机(截取区域相比前面没有特殊要求)3种分割方式截取100×100的子区域。要求截取区域尽量不要靠近轮界线,可含少量木射线,但不含断裂、树脂道等其他组织或较大的杂质。按照这3种分割方式,分别对每一树种在不同位置截取12个样本。由于切片颜色是由切片制作时染色所致,并非木材本身的特征,将上一步获得的100×100像素子区域图像转换为256级。图 1显示了黄山松按照3种分割方式最终得到的灰度图效果。

图 1 黄山松3种分割方式截取效果 Figure 1 Residts of of Pinus taiwanensis under three divided ways

由于样本大小的问题,采用留一交叉验证来检验不同算法的识别效果。留一交叉验证只使用原样本中的一个作为测试样本,具余的都作为训练样本,这样重复进行,直至每个样本恰好被作为一次测试样本为止。将试验按照木材图像截取方式分成3组,每组96个样本。按照留一交叉验证,每组测试进行96次,每次训练样本数为95个,测试样本1个。

1.2 PCA特征提取

主成分分析(principle component analysis, PCA)是一种经典的线性数据降维方法,它是在最小均方误差意义下用较少的维数表示原数据,具有简单、高效的特点。Turk等(1991)提出了EigenFaces,首次将PCA运用到图像的人脸识别上,并成为整个图像和模式识别领域的经典之著,被广泛运用在计算机视觉中的降维中。

1.2.1 构建协方差矩阵

设训练集共有m幅图像,每个训练样本xi表示为1×10 000的行向量(将图像像素按扫描顺序排成列向量),记X=[x1, x2, …, xm]∈R10 000×m,是由样本向量组成的矩阵,其中xi=[xi, 1, xi, 2, xi, 3xi, 10 000]Ti=1, 2, …30,T为矩阵的转置。由X构造样本的协方差矩阵:, 其中X是由X减去平均图像得到的。

1.2.2 计算特征树

作如下PCA操作:C=PΛPT,其中P=[p1, p2, …, pm],P是特征向量阵,Λ是特征值对角阵。取前r个最大特征值,相应的特征向量为:Pr=[p1, p2, …, pr]∈Rm×r,称Pr中的每一个列向量为样本的PCA特征,亦可称之为“特征树”(EigenTrees)。

1.2.3 投影

Y=PrTX=[y1, y2, …, ym],称Y是训练样本集X在特征树Pr上的投影,它是由原图像在特征子空间中的变换所组成的矩阵。这些新的样本的维数是r维的,而且远远小于10 000,从而达到了降维目的。接下来的分类操作都是在这个新的特征子空间上进行的。

1.3 最近邻和SVM分类算法 1.3.1 最近邻分类算法

最近邻分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。本文选择该算法是为了与SVM进行对比和分析,其思路是寻找一个样本在特征空间中的最相似(即特征子空间中最邻近)的样本属于某一个类别,则该样本也属于这个类别。因此,对测试样本,也需要在特征树上进行投影以获得在特征子空间上的一个表示。

1.3.2 SVM分类算法

支持向量机(SVM)是在统计学习理论基础上发展起来的一种机器学习方法(Vapnik,1999),它基于结构风险最小化原则,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,在解决小样本、非线性及高维模式识别问题中表现出特有的优势。

木材识别属于多类识别问题,并不能直接运用二类SVM算法。对于多类分类的模型选择,一般有一对多和一对一2种策略,这里采用Keerthi等(2008)提出的算法。

设给定训练样本(xi, yi), i=1, …, l,其中xiRnyi∈{1, 2, …, k},则多类SVM分类就是求解式(1)的优化问题得到最优分类超平面(Keerthi et al., 2008):

(1)

其中C >0是惩罚因子,wm是类m的权向量,,决策函数为

2 结果与分析

首先按照1.2中描述的方法计算特征树,特征树的个数r跟前r个特征值和占总特征值和的比例η有关,这里取0.999。图 2给出了一些特征树的示例。接下来将所有95个训练样本投影到特征树上,组成了在特征子空间中的样本。

图 2 特征树示意 Figure 2 Examples of EigenTrees

采用最近邻和SVM对测试样本进行分类,其中SVM采用线性核函数,惩罚因子分别为100。对所有的测试样本同样也将它投影到相应的特征子空间中。表 1给出了3种分割方式下最近邻和SVM分类的识别效果。

表 1 最近邻和SVM分类效果比较 Tab.1 Comparison of recognition results between NN and SVM classifiers

表 1可以看到:3种分割方式中,早晚材过渡分割比其他2种分割方式的识别率要高出很多。在木材学中,早材至晚材的转变和过渡的急缓是识别针叶材树种的一个重要特征,因此早晚材过渡分割方式包含了比较多的树种信息,因此在同等条件下能获得较高的识别率。早材部分细胞分裂速度快、细胞壁薄、形体较大,而晚材部分形成的细胞腔小而壁厚、组织较致密,因此相同条件下早材分割比晚材也包含较多的信息。从而在2种分类算法下,分割识别效果均有:早晚材过渡>早材>随机,也表明了不同分割方式下,分割样本所包含的树种信息是不一样的。

除了随机分割方式,SVM分类算法比最近邻分类的识别率要高,尤其是在包含较多树种信息的早晚材过渡分割方式下,达到了72.92%,为正确识别木材树种提供了可能。在高维空间中(这里原始样本空间为10 000维,通过PCA投影到特征子空间后,大致为70~92维左右,由上面讲到的比例η决定),同类样本的分布与不同类样本之间可能不存在线性可分的解(表中最近邻分类的识别率均在50%以下就充分说明了这点),通过引入核技术,可将问题通过非线性变换转换到更高维的空间,在这个空间中构造线性判别函数来实现原空间中的非线性判别。SVM就是这样做的,并且找到的核函数同时巧妙地解决了维数问题,其算法复杂度与维数无关。

在分类算法中,对象的相似性度量方法是非常重要的,一般可通过不同的范数距离来定义2个对象之间的相似度。下面式(2)是l1范数,也称城区距离或Manhattan距离;式(3)是lp范数,又称Minkowski距离,当p=2时即欧氏距离;式(4)是l∞范数,又称Chebyshev距离。由于SVM分类算法采用决策函数进行分类,因此采用不同的范数作为对象相似度衡量时,试验了l1, l2, l5和l∞范数对最近邻分类算法的识别效果影响,最后结果见图 3。以l∞范数作为距离度量可以得到最好的结果,达到52.08%,而l1范数最差。从这2个范数的定义可以发现,衡量对象间的相似性,用l∞范数仅与一个维相关(相距最大的那个维);用l1范数则与每一个维数均相关,且每个维度的权重都是一样的。从试验的结果可看出,高维图像空间中的每个维对木材树种识别的贡献度是不一样的。但是对lp范数来说,并不是p越大越好:首先,p的大小并没有解决不同维度权重的问题;第二,对于计算机数值计算来说,由于受到数据表示精度的影响,当p大于一定阈值后,不断计算的效率会受到一定的影响,而且识别率也会受到影响。

图 3 最近邻分类中不同范数的识别率比较 Figure 3 Comparison of recognition results with different norms of NN classifier
(2)
(3)
(4)
3 结论与讨论

对基于横切面显微图像的针叶材识别问题,本文首次提出将图像裁剪成局部的小样本进行识别,避免了对图像边缘进行分割这个难题,同时提出了对图像的3种分割方式:早晚材过渡、早材和随机分割。通过提取PCA特征,生成特征树,在新的子空间中,采用留一交叉验证,对最近邻和SVM 2种分类算法进行了一些试验,得到如下结论:

1) 不同的分割方式对识别性能影响较大。

2) SVM通过空间维数提升,解决线性不可分问题,并且核函数的计算仍在原空间中进行,避免维数问题,这些优点决定了它在解决本文中木材识别问题的优势。

3) 采用不同的范数作为对象相似性度量对木材的识别影响较大,从试验所采用的4种距离范数中,l∞的结果最好。但是如何设计更合理的高维空间中的距离函数,使得基于此距离函数进行分类能够获得理想的效果,这是今后可以继续做的工作(Hsu et al., 2009)。

从目前的识别效果来看,采用早晚材过渡分割方式,并以SVM分类可以进行一定程度的计算机辅助自动识别。而本工作的意义更在于为今后更多的此类机器学习和模式识别中的方法引入到木材自动识别中提供了途径。

对于人工进行针叶材树种识别来说,横切面显微图像上的很多特征,通过鉴别和分析后可以完成识别,但还有一些并不能仅通过这些特征加以区别。在横切面上占了绝大部分的管胞及其排列方式里,是否像指纹一样已经包含了足够的树种信息了呢?这些信息以统计的方式表达出来,是否绕开了人眼,又是否能够以某种方式被机器发现呢?这些都需要经过不断的努力去寻找的答案。

参考文献(References)
黄慧. 2006. 基于木材组织构造的数字图像处理系统研究. 南京林业大学硕士学位论文.
刘镇波. 2004. 木材显微图像特征参数提取与树种判别方法研究. 东北林业大学硕士学位论文.
任洪娥, 徐海涛. 2007. 细胞特征参数计算机的提取理论[J]. 林业科学, 43(9): 68-73.
汪杭军, 张广群, 祁亨年, 等. 2009. 木材识别方法研究综述[J]. 浙江林学院学报, 26(6): 896-902.
于海鹏, 刘一星, 张斌, 等. 2004. 应用空间灰度共生矩阵定量分析木材表面纹理特征[J]. 林业科学, 40(6): 121-129. DOI:10.11707/j.1001-7488.20040621
于海鹏, 刘一星, 孙建平. 2005. 基于小波的木材纹理分频信息提取与分析[J]. 林业科学, 41(2): 100-105. DOI:10.11707/j.1001-7488.20050217
Ariizumi R, Kaneda S, Haga H. 2008. Energy saving of TV by face detection. In Proceedings of the 1st international Conference on Pervasive Technologies Related To Assistive Environments (Athens, Greece, July 16 -18, 2008). F. Makedon, L. Baillie, G. Pantziou, and I. Maglogiannis, Eds. PETRA '08, ACM, NY, 1-8.
Besbes F, Trichili H, Solaiman B. 2008.Multimodal biometric system based on fingerprint identification and iris recognition. In Proceedings of the 3rd International Conference on Information and Communication Technologies: From Theory to Applications (Damascus, Syria, April 7-11, 2008). ICTTA'08, IEEE, Damascus, 1-5.
Fujita M, Ohyama M, Saiki H. 1995. Characterization of vessel distribution by fourier transform image analysis, recent fast fourier transforms[J]. Wood Anatomy, 34(2): 36-44.
He L, Peng Z G, Everding B, et al. 2008. A comparative study of deformable contour methods on medical image segmentation[J]. Image and Vision Computing, 26(2): 141-163. DOI:10.1016/j.imavis.2007.07.010
Hsu C M, Chen M S. 2009. On the design and applicability of distance functions in high-dimensional data space[J]. IEEE Transactions on Knowledge and Data Engineering, 21(4): 523-536. DOI:10.1109/TKDE.2008.178
Keerthi S S, Sundararajan S, Chang K, et al. 2008. A sequential dual method for large scale multi-class linear svms. In Proceeding of the 14th ACM SIGKDD international Conference on Knowledge Discovery and Data Mining(Las Vegas, Nevada, USA, August 24-27, 2008). KDD' 08. ACM, NY, 408-416.
Kino M, Ishida Y J, Doi M, et al. 2004. Experimental conditions for quantitative image analysis of wood cell structure III, precise measurements of wall thickness[J]. Journal of the Japan Wood Research Society, 50(1): 1-9.
Lesage D, Angelini E D, Bloch I, et al. 2009. A review of 3D vessel lumen segmentation techniques: models, features and extraction schemes[J]. Medical Image Analysis, 13(6): 819-845. DOI:10.1016/j.media.2009.07.011
Trier Ø D, Jain A K, Taxt T. 1996. Feature extraction methods for character recognition-a survey[J]. Pattern Recognition, 29(4): 641-662. DOI:10.1016/0031-3203(95)00118-2
Turk M, Pentland A. 1991. Eigenfaces for recognition[J]. J Cognitive Neuroscience, 3(1): 71-86. DOI:10.1162/jocn.1991.3.1.71
Vapnik V N. 1999. An overview of statistical learning theory[J]. IEEE Transactions on Neural Networks, 10(5): 988-999. DOI:10.1109/72.788640
Wang H, Qi H, Li W, et al. 2009. A GA-based automatic pore segmentation algorithm. In Proceedings of the First ACM/SIGEVO Summit on Genetic and Evolutionary Computation(Shanghai, China, June 12-14, 2009). GEC' 09, ACM, NY, 985-988.