最小二乘大间隔孪生支持向量机
吴青, 齐韶维, 孙凯悦, 臧博研, 赵祥    
西安邮电大学 自动化学院, 西安 710121
摘要

针对最小二乘孪生支持向量机(LSTWSVM)精度较低和可能存在的"奇异性"问题,提出了一种最小二乘大间隔孪生支持向量机(LSLMTSVM).该算法在最小二乘孪生支持向量机的优化目标函数中引入了间隔分布,提高了算法的泛化性能.在目标函数中加入正则项,实现了结构风险最小化,进一步提高了分类能力.实验结果表明,最小二乘大间隔孪生支持向量机比已有的相关算法性能更优.

关键词: 最小二乘     孪生支持向量机     间隔分布     分类    
中图分类号:TN181 文献标志码:A 文章编号:1007-5321(2018)06-0034-05 DOI:10.13190/j.jbupt.2017-180
Least Squares Large Margin Twin Support Vector Machine
WU Qing, QI Shao-wei, SUN Kai-yue, ZANG Bo-yan, ZHAO Xiang    
School of Automation, Xi'an University of Posts and Telecommunications, Xi'an 710121, China
Abstract

In order to overcome low accuracy and possible singularity of least squares twin support vector machine (LSTWSVM), a least squares large margin twin support vector machine (LSLMTSVM) is presented. The proposed algorithm improves generalization performance by introducing margin distribution to the optimization objective function of the LSTWSVM. Additionally, the structural risk minimization principle is implemented by adding the regularization term to the objective function which improves classification ability. Experimental results show that LSLMTSVM has better classification performance than the existing algorithm.

Key words: least squares     twin support vector machine     margin distribution     classification    

20世纪90年代Vapnik等[1-2]提出支持向量机(SVM,support vector machine)以来,由于其在解决小样本、非线性及高维模式识别等问题中表现出结构简单、全局最优和泛化能力强等特点,受到了广泛重视.目前,SVM已成为机器学习领域的研究热点[3-10].其基本思想是“间隔”最大化,以此来尽可能地避免错误分类.

Mangasarian和Wild[11]于2006年提出了一种两类非平行平面分类器,即广义特征值近似支持向量机(GEPSVM,generalized eigenvalue proximal support vector machine). 2007年,Jayadeva等[12]在SVM和GEPSVM的基础上提出了孪生支持向量机(TWSVM,twin support vector machine).对于一个分类问题,SVM仅仅是求解一个二次规划问题,而TWSVM则是求解2个规模较小的二次规划问题,其训练效率大约是SVM的4倍.实验结果表明,与SVM和GEPSVM相比较,TWSVM的分类性能更好. Kumar和Gopal[13]在2009年提出的最小二乘孪生支持向量机(LSTWSVM,least squares twin support vector machine)和邵元海等[14]在2011年提出的限定双子支持向量机(TBSVM,twin bounded support vector machine)均对TWSVM进行了拓展,实验结果表明,这2种算法分别使TWSVM在训练速度和分类精确度上有所提高. 2016年,程昊翔和王坚[15]提出了一种孪生大间隔分布机(TLDM,twin large margin distribution machine),该算法在TWSVM模型中引入了间隔均值和间隔方差,实验结果验证了间隔分布的优化对算法的泛化性能有较大影响.

笔者提出了一种最小二乘大间隔孪生支持向量机(LSLMTSVM,least squares large margin twin support vector machine),该方法在TWSVM的目标函数中引入间隔均值和间隔方差,通过优化间隔分布来获得具有更强泛化能力的模型.基于结构风险最小化原则,在目标函数中引入正则项,同时将不等式约束转化为等式约束,将松弛变量改为其二范数变量的平方,以此去掉非负约束,进一步改进模型.实验结果表明,与LSTWSVM和TLDM相比,LSLMTSVM具有更好的分类性能.

1 最小二乘孪生支持向量机

给定mn维的训练点,分别用ARm1×nBRm2×n表示+1类和-1类的数据集合,m1m2分别代表两类数据的数目. LSTWSVM的目标是在n维空间中寻找2个非平行超平面,求解一对二次规划问题:

$ \begin{array}{c}{\min \frac{1}{2}\left\|\boldsymbol{A} w_{1}+\boldsymbol{e}_{1} b_{1}\right\|^{2}+c_{1} \xi_{1}^{\mathrm{T}} \xi_{1}} \\ {\text { s.t. }-\left(\boldsymbol{B} w_{1}+\boldsymbol{e}_{2} b_{1}\right)+\xi_{1}=\boldsymbol{e}_{2}}\end{array} $ (1)
$ \begin{array}{c}{\min \frac{1}{2}\left\|\boldsymbol{B} w_{2}+\boldsymbol{e}_{2} b_{2}\right\|^{2}+c_{2} \xi_{2}^{\mathrm{T}} \xi_{2}} \\ {\text { s.t. }\left(\boldsymbol{A} w_{2}+\boldsymbol{e}_{1} b_{2}\right)+\xi_{2}=\boldsymbol{e}_{1}}\end{array} $ (2)

其中:w1, w2Rnb1, b2Rc1c2为惩罚参数;e1e2为元素全为1的列向量;ξ1ξ2为松弛变量.

式(1)关于w1b1的导数分别为

$ \boldsymbol{A}^{\mathrm{T}}\left(\boldsymbol{A} \boldsymbol{w}_{1}+\boldsymbol{e}_{1} b_{1}\right)+c_{1} \boldsymbol{B}^{\mathrm{T}}\left(\boldsymbol{B} \boldsymbol{w}_{1}+\boldsymbol{e}_{2} b_{1}+\boldsymbol{e}_{2}\right)=0 $ (3)
$ \boldsymbol{e}_{1}^{\mathrm{T}}\left(\boldsymbol{A} \boldsymbol{w}_{1}+\boldsymbol{e}_{1} b_{1}\right)+c_{1} \boldsymbol{e}_{2}^{\mathrm{T}}\left(\boldsymbol{B} \boldsymbol{w}_{1}+\boldsymbol{e}_{2} b_{1}+\boldsymbol{e}_{2}\right)=0 $ (4)

定义u1=[w1 b1]Τu2=[w2 b2]Τ,则由式(3)和式(4)可得

$ \boldsymbol{u}_{1}=-c_{1}\left(\boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}+c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}\right)^{-1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{e}_{2} $ (5)

其中:H=[A e1];G=[B e2].

对于式(2)同样可以得

$ \boldsymbol{u}_{2}=c_{2}\left(\boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}+c_{2} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}\right)^{-1} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{e}_{1} $ (6)

若矩阵HΤH+c1GΤGGΤG+c2HΤH存在奇异性,则原问题的解不存在.因此,一般分别采用(HΤH+c1GΤG+εI)-1和(GΤG+c2HΤH+εI)-1代替原逆矩阵,由此可以克服“奇异性”问题.其中,ε>0,I表示单位矩阵.

非线性情形通过类似方法可以得到相应的解.

2 孪生大间隔分布机

文献[16]中指出,对于每一个训练数据(xi, yi)所对应的几何间隔为μi=yi(wTxi+b),那么对于聚集在超平面wiΤx+bi=0, i=1, 2周围的数据点而言,对应的间隔均值μi和间隔方差$ \hat{\mu}_{i}$分别为

$ \overline{\mu}_{i}=\frac{1}{l} \boldsymbol{Y}^{\mathrm{T}}\left(\boldsymbol{X} \boldsymbol{w}_{i}+b_{i} \boldsymbol{e}\right) $ (7)
$ \begin{aligned} \hat{\mu}_{i}=& \frac{1}{l^{2}}\left[l\left(\boldsymbol{X} \boldsymbol{w}_{i}+b_{i} \boldsymbol{e}\right)^{\mathrm{T}}\left(\boldsymbol{X} \boldsymbol{w}_{i}+b_{i} \boldsymbol{e}\right)-\right.\\ &\left(\boldsymbol{X} \boldsymbol{w}_{i}+b_{i} \boldsymbol{e}\right)^{\mathrm{T}} \boldsymbol{Y} \boldsymbol{Y}^{\mathrm{T}}\left(\boldsymbol{X} \boldsymbol{w}_{i}+b_{i} \boldsymbol{e}\right) ] \end{aligned} $ (8)

其中:X为所有训练数据,l为训练数据点的个数;Y为一个l×1的类别标签矩阵;e为所有元素全为1的l×1矩阵.

在TWSVM的目标函数中增加间隔分布,通过同时最大化间隔均值以及最小化间隔方差来获得新的优化目标,可得TLDM的目标函数如下:

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{w}}_1}, {b_1}, {\xi _1}} \frac{{{\lambda _1}}}{2}{{\hat \mu }_1} - {\lambda _2}{{\bar \mu }_1} + \frac{1}{2}{{\left\| {\mathit{\boldsymbol{A}}{\mathit{\boldsymbol{w}}_1} + {\mathit{\boldsymbol{e}}_1}{b_1}} \right\|}^2} + {c_1}\mathit{\boldsymbol{e}}_2^{\rm{T}}{\xi _1}}\\ {{\rm{ s}}{\rm{.t}}{\rm{. }} - \left( {\mathit{\boldsymbol{B}}{\mathit{\boldsymbol{w}}_1} + {\mathit{\boldsymbol{e}}_2}{b_1}} \right) + {\xi _1} \ge {\mathit{\boldsymbol{e}}_2}, {\xi _1} \ge 0} \end{array} $ (9)
$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{w_2}, {b_2}, {\xi _2}} \frac{{{\lambda _3}}}{2}{{\hat \mu }_2} - {\lambda _4}{{\bar \mu }_2} + \frac{1}{2}{{\left\| {\mathit{\boldsymbol{B}}{\mathit{\boldsymbol{w}}_2} + {\mathit{\boldsymbol{e}}_2}{b_2}} \right\|}^2} + {c_2}\mathit{\boldsymbol{e}}_1^{\rm{T}}{\xi _2}}\\ {{\rm{ s}}{\rm{.t}}{\rm{. }}\left( {\mathit{\boldsymbol{A}}{\mathit{\boldsymbol{w}}_2} + {\mathit{\boldsymbol{e}}_1}{b_2}} \right) + {\xi _2} \ge {\mathit{\boldsymbol{e}}_1}, {\xi _2} \ge 0} \end{array} $ (10)

引入拉格朗日乘子,得到对偶问题如下:

$ \begin{array}{c}{\min\limits_{\alpha}-\frac{1}{2} \boldsymbol{\alpha}^{\mathrm{T}} \boldsymbol{G} \boldsymbol{P}^{-1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{\alpha}+\left(\boldsymbol{e}_{2}^{\mathrm{T}}-\boldsymbol{Q}^{\mathrm{T}} \boldsymbol{P}^{-1} \boldsymbol{G}^{\mathrm{T}}\right) \boldsymbol{\alpha}} \\ {\text { s.t. } 0 \leqslant \boldsymbol{\alpha} \leqslant c_{1} \boldsymbol{e}_{2}}\end{array} $ (11)
$ \begin{array}{c}{\min\limits_{\boldsymbol{\beta}}-\frac{1}{2} \boldsymbol{\beta}^{\mathrm{T}} \boldsymbol{H S}^{-1} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{\beta}+\left(\boldsymbol{e}_{1}^{\mathrm{T}}-\boldsymbol{Q}^{\mathrm{T}} \boldsymbol{S}^{-1} \boldsymbol{H}^{\mathrm{T}}\right) \boldsymbol{\beta}} \\ {\text { s.t. } 0 \leqslant \boldsymbol{\beta} \leqslant c_{2} \boldsymbol{e}_{1}}\end{array} $ (12)

其中:$\boldsymbol{Q}=\frac{\lambda_{2}}{l} \boldsymbol{M}^{\mathrm{T}} \boldsymbol{Y}, \boldsymbol{P}=\frac{\lambda_{1}}{l^{2}} \boldsymbol{D} \boldsymbol{M}+\boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}, \boldsymbol{S}=\frac{\lambda_{1}}{l^{2}} \boldsymbol{D} \boldsymbol{M}+ $$\boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}, \boldsymbol{M}=[\boldsymbol{X}, \boldsymbol{e}], \boldsymbol{D}=\boldsymbol{M}^{\mathrm{T}}\left(l \boldsymbol{I}-\boldsymbol{Y} \boldsymbol{Y}^{\mathrm{T}}\right) $.这里设定λ1=λ3λ2=λ4.通过求解可得

$ \boldsymbol{u}_{1}=\boldsymbol{P}^{-1}\left(\boldsymbol{Q}-\boldsymbol{G}^{\mathrm{T}} \boldsymbol{\alpha}\right) $ (13)
$ \boldsymbol{u}_{2}=\boldsymbol{S}^{-1}\left(\boldsymbol{Q}-\boldsymbol{H}^{\mathrm{T}} \boldsymbol{\beta}\right) $ (14)

利用核函数可将该方法推广到非线性情况.文献[15]中所述的实验结果表明,TLDM具有更好的分类性能,间隔分布对TWSVM的泛化能力有重要影响.

3 最小二乘大间隔孪生支持向量机

为了克服可能出现的“奇异性”问题,首先将正则项$ \frac{c_{3}}{2}\left(\left\|\boldsymbol{w}_{1}\right\|^{2}+b_{1}^{2}\right)$$ \frac{c_{4}}{2}\left(\left\|\boldsymbol{w}_{2}\right\|^{2}+b_{2}^{2}\right)$分别引入式(1)和式(2)中,构建基于正则项的LSTWSVM模型:

$ \begin{array}{c}{\min \frac{c_{3}}{2}\left(\left\|\boldsymbol{w}_{1}\right\|^{2}+b_{1}^{2}\right)+\frac{1}{2}\left\|\boldsymbol{A} \boldsymbol{w}_{1}+\boldsymbol{e}_{1} b_{1}\right\|^{2}+\frac{c_{1}}{2} \xi_{1}^{\mathrm{T}} \xi_{1}} \\ {\text { s.t. }-\left(\boldsymbol{B} \boldsymbol{w}_{1}+\boldsymbol{e}_{2} b_{1}\right)+\xi_{1}=\boldsymbol{e}_{2}}\end{array} $ (15)
$ \begin{array}{c}{\min \frac{c_{4}}{2}\left(\left\|\boldsymbol{w}_{2}\right\|^{2}+b_{2}^{2}\right)+\frac{1}{2}\left\|\boldsymbol{B} \boldsymbol{w}_{2}+\boldsymbol{e}_{2} b_{2}\right\|^{2}+\frac{c_{2}}{2} \xi_{2}^{\mathrm{T}} \xi_{2}} \\ {\text { s.t. }\left(\boldsymbol{A w}_{2}+\boldsymbol{e}_{1} b_{2}\right)+\xi_{2}=\boldsymbol{e}_{1}}\end{array} $ (16)

通过式(15)、式(16)可以看出,由于新的模型引入变量的平方项,既保证了目标函数间隔最大,又使优化问题为严格凸规划.

由拉格朗日乘子法可得模型式(15)、式(16)的解:

$ \boldsymbol{u}_{1}=-c_{1}\left(\boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}+c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}+c_{3} \boldsymbol{I}\right)^{-1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{e}_{2} $ (17)
$ \boldsymbol{u}_{2}=c_{2}\left(\boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}+c_{2} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}+c_{4} \boldsymbol{I}\right)^{-1} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{e}_{1} $ (18)

由式(17)、式(18)可知,改进后的LSTWSVM模型不再具有“奇异性”问题.引入正则项对LSTWSVM模型进行改进,分别使用c3c4取代ε. c3c4为结构风险的权重系数,文献[14]表明,通过调节这2个参数可以提高分类精度,比仅调节固定参数ε更为合理.

结合TLDM的思想,将间隔均值和间隔方差引入改进的LSTWSVM中,构建LSLMTSVM模型:

$ \begin{array}{c}{\min \frac{\lambda_{1}}{2} \hat{\mu}_{1}-\lambda_{2} \overline{\mu}_{1}+\frac{c_{3}}{2}\left(\left\|\boldsymbol{w}_{1}\right\|^{2}+b_{1}^{2}\right)+} \\ {\frac{1}{2}\left\|\boldsymbol{A} \boldsymbol{w}_{1}+\boldsymbol{e}_{1} b_{1}\right\|^{2}+\frac{c_{1}}{2} \xi_{1}^{2}} \\ {\text { s.t. }-\left(\boldsymbol{B} \boldsymbol{w}_{1}+\boldsymbol{e}_{2} b_{1}\right)+\xi_{1}=\boldsymbol{e}_{2}}\end{array} $ (19)
$ \begin{array}{c}{\min \frac{\lambda_{3}}{2} \hat{\mu}_{2}-\lambda_{4} \overline{\mu}_{2}+\frac{c_{4}}{2}\left(\left\|\boldsymbol{w}_{2}\right\|^{2}+b_{2}^{2}\right)+} \\ {\frac{1}{2}\left\|\boldsymbol{B} \boldsymbol{w}_{2}+\boldsymbol{e}_{2} b_{2}\right\|^{2}+\frac{c_{2}}{2} \xi_{2}^{2}} \\ {\text { s.t. }\left(\boldsymbol{A} \boldsymbol{w}_{2}+\boldsymbol{e}_{1} b_{2}\right)+\xi_{2}=\boldsymbol{e}_{1}}\end{array} $ (20)

令式(19)关于w1b1的偏导数分别为0,可得

$ \begin{array}{c}{\left(\frac{\lambda_{1}}{l^{2}} \boldsymbol{D} \boldsymbol{M}+c_{3} \boldsymbol{I}+\boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}+c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}\right) \boldsymbol{u}_{1}-} \\ {\frac{\lambda_{2}}{l} \boldsymbol{M}^{\mathrm{T}} \boldsymbol{Y}+c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{e}_{2}=0}\end{array} $ (21)

$ \begin{array}{c}{\boldsymbol{u}_{1}=\left(\frac{\lambda_{1}}{l} \boldsymbol{D} \boldsymbol{M}+c_{3} \boldsymbol{I}+\boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}+c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}\right)^{-1} \times} \\ {\qquad\left(\frac{\lambda_{2}}{l} \boldsymbol{M}^{\mathrm{T}} \boldsymbol{Y}-c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{e}_{2}\right)}\end{array} $ (22)

类似地,可以得到式(20)的解:

$ \begin{array}{c}{\boldsymbol{u}_{2}=\left(\frac{\lambda_{3}}{l} \boldsymbol{D} \boldsymbol{M}+c_{4} \boldsymbol{I}+\boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}+c_{2} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}\right)^{-1} \times} \\ {\left(\frac{\lambda_{4}}{l} \boldsymbol{M}^{\mathrm{T}} \boldsymbol{Y}-c_{2} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{e}_{1}\right)}\end{array} $ (23)

通过计算,可以得到一对非平行超平面(w1, b1)和(w2, b2).对于任意的xRn,可以通过

$ i = \arg \mathop {\min }\limits_{k = 1, 2} \frac{{\left| {\mathit{\boldsymbol{w}}_k^{\rm{T}}\mathit{\boldsymbol{x}} + {b_k}} \right|}}{{\left\| {{\mathit{\boldsymbol{w}}_k}} \right\|}} $ (24)

判别该点属于哪一类,其中,|·|表示绝对值符号.

引入核函数K(·),可将LSLMTSVM推广到非线性情形,模型如下:

$ \begin{array}{c}{\min \frac{\lambda_{1}}{2} \hat{\mu}_{1}-\lambda_{2} \overline{\mu}_{1}+\frac{c_{3}}{2}\left(\left\|\boldsymbol{u}_{1}\right\|^{2}+b_{1}^{2}\right)+} \\ {\quad \frac{1}{2}\left\|K\left(\boldsymbol{A}, \boldsymbol{C}^{\mathrm{T}}\right) \boldsymbol{u}_{1}+\boldsymbol{e}_{1} b_{1}\right\|^{2}+\frac{c_{1}}{2} \xi_{1}^{2}} \\ {\text { s.t. }-\left(K\left(\boldsymbol{B}, \boldsymbol{C}^{\mathrm{T}}\right) \boldsymbol{u}_{1}+\boldsymbol{e}_{2} b_{1}\right)+\xi_{1}=\boldsymbol{e}_{2}}\end{array} $ (25)
$ \begin{array}{c}{\min \frac{\lambda_{3}}{2} \hat{\mu}_{2}-\lambda_{4} \overline{\mu}_{2}+\frac{c_{4}}{2}\left(\left\|\boldsymbol{u}_{2}\right\|^{2}+b_{2}^{2}\right)+} \\ {\quad \frac{1}{2}\left\|K\left(\boldsymbol{B}, \boldsymbol{C}^{\mathrm{T}}\right) \boldsymbol{u}_{2}+\boldsymbol{e}_{2} b_{2}\right\|^{2}+\frac{c_{2}}{2} \xi_{2}^{2}} \\ {\text { s.t. } K\left(\boldsymbol{A}, \boldsymbol{C}^{\mathrm{T}}\right) \boldsymbol{u}_{2}+\boldsymbol{e}_{1} b_{2}+\xi_{2}=\boldsymbol{e}_{1}}\end{array} $ (26)

其中CΤ=(AΤ, BΤ).

v1=[u1 b1]Τv2=[u2 b2]Τ,对式(25)、式(26)的拉格朗日函数分别求偏导,并令其为0,可得

$ \begin{array}{c}{\boldsymbol{v}_{1}=\left(\frac{\lambda_{1}}{l} \boldsymbol{D} \boldsymbol{M}+c_{3} \boldsymbol{I}+\boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}+c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}\right)^{-1} \times} \\ {\qquad\left(\frac{\lambda_{2}}{l} \boldsymbol{M}^{\mathrm{T}} \boldsymbol{Y}-c_{1} \boldsymbol{G}^{\mathrm{T}} \boldsymbol{e}_{2}\right)}\end{array} $ (27)
$ \begin{array}{c}{\boldsymbol{v}_{2}=\left(\frac{\lambda_{3}}{l} \boldsymbol{D} \boldsymbol{M}+c_{4} \boldsymbol{I}+\boldsymbol{G}^{\mathrm{T}} \boldsymbol{G}+c_{2} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{H}\right)^{-1} \times} \\ {\left(\frac{\lambda_{4}}{l} \boldsymbol{M}^{\mathrm{T}} \boldsymbol{Y}-c_{2} \boldsymbol{H}^{\mathrm{T}} \boldsymbol{e}_{1}\right)}\end{array} $ (28)

其中:H=[K(A, CΤ) e1];G=[K(B, CΤ) e2].

通过计算,可以得到一对非平行超平面(u1, b1)和(u2, b2).对于任意给出的数据点xRn,可以根据

$ i=\arg \min\limits_{k=1, 2} \frac{\left|K\left(\boldsymbol{x}^{\mathrm{T}}, \boldsymbol{C}^{\mathrm{T}}\right) \boldsymbol{u}_{k}+b_{k}\right|}{\sqrt{\boldsymbol{u}_{k}^{\mathrm{T}} K\left(\boldsymbol{C}, \boldsymbol{C}^{\mathrm{T}}\right) \boldsymbol{u}_{k}}} $ (29)

来判断其类别.

4 实验分析

为了验证所提算法的性能,将LSLMTSVM与TLDM和LSTWSVM算法进行分类精度和训练效率的测试实验,并对结果进行比较.实验采用2.20 GHz CPU,4.0 GB RAM的PC机,所用软件为matlab 8.0.实验中所采用的8个数据集均来自UCI数据库[17].实验中所用的核函数均为高斯核函数.

为了避免由于数据随机选取产生的不确定性,精确度可以通过多次计算取平均值得到. 表 1表 2分别列出了线性和非线性情况下LSLMTSVM与另外2种算法的结果,其中包含分类的精确度和训练时间.从表 1可以看出,LSLMTSVM的分类精确度明显优于LSTWSVM和TLDM,而且在速度上也比TLDM快. 表 2所示的实验结果表明,在除了German、Checkboard以外的数据集上,LSLMTSVM相比于LSTWSVM和TLDM的分类精度更高,而在所有数据集上的训练速度都比TLDM要快.由表 1表 2可知,LSLMTSVM和LSTWSVM的训练时间差别很小,这是因为这2种算法均采用了最小二乘方法.但由于LSLMTSVM模型较复杂,所以所需的时间也长一些.实验结果表明,LSLMTSVM的分类性能要优于另外2种算法.

表 1 线性情况下算法的性能比较

表 2 非线性情况下算法的性能比较
5 结束语

针对LSTWSVM存在分类精度较低和可能存在的“奇异性”等问题,提出了一种LSLMTSVM.该算法通过引入间隔分布和新的正则项,对LSTWSVM模型进行了改进.通过引入间隔分布,提高了模型的泛化能力;引入正则项实现了结构风险最小化,进一步提高了分类精度.由于算法采用了等式约束,其训练速度也比一般的二次规划问题求解要快.如何选取算法中提到的多个参数,以进一步提高本文算法的分类性能将是下一步的研究工作.

参考文献
[1]
Cortes C, Vapnik V N. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[2]
Vapnik V N. The nature of statistical learning theory[J]. Technometrics, 1997, 38(4): 409.
[3]
丁晓剑, 赵银亮. 双边界支持向量机的理论研究与分析[J]. 北京邮电大学学报, 2010, 33(2): 20-23.
Ding Xiaojian, Zhao Yinliang. Theory and analysis of double margin SVM[J]. Journal of Beijing University of Posts and Telecommunications, 2010, 33(2): 20-23. DOI:10.3969/j.issn.1007-5321.2010.02.005
[4]
马跃峰, 梁循, 周小平. 一种基于全局代表点的快速最小二乘支持向量机稀疏化算法[J]. 自动化学报, 2017, 43(1): 132-141.
Ma Yuefeng, Liang Xun, Zhou Xiaoping. A fast sparse algorithm for least squares support vector machine based on global representative points[J]. Acta Automatica Sinica, 2017, 43(1): 132-141.
[5]
陈素根, 吴小俊. 改进的投影孪生支持向量机[J]. 电子学报, 2017, 45(2): 408-416.
Chen Sugen, Wu Xiaojun. Improved projection twin support vector machine[J]. Acta Electronica Sinica, 2017, 45(2): 408-416. DOI:10.3969/j.issn.0372-2112.2017.02.020
[6]
刘春红, 韩晶晶, 商彦磊, 等. 基于SVM分类的云集群失败作业主动预测方法[J]. 北京邮电大学学报, 2016, 39(5): 104-109.
Liu Chunhong, Han Jingjing, Shang Yanlei, et al. Predicting job failure in cloud cluster:based on SVM classification[J]. Journal of Beijing University of Posts and Telecommunications, 2016, 39(5): 104-109.
[7]
Qi Zhiquan, Tian Yingjie, Shi Yong. Robust twin support vector machine for pattern classification[J]. Pattern Recognition, 2013, 46(1): 305-316.
[8]
Shao Yuanhai, Deng Naiyang, Yang Zhimin. Least squares recursive projection twin support vector machine for classification[J]. Pattern Recognition, 2012, 45(6): 2299-2307. DOI:10.1016/j.patcog.2011.11.028
[9]
Chen Sugen, Wu Xiaojun. A new fuzzy twin support vector machine for pattern classification[J]. International Journal of Machine Learning and Cybernetics, 2018, 9(9): 1553-1564. DOI:10.1007/s13042-017-0664-x
[10]
Tanveer M, Khan M A, Ho S S. Robust energy-based least squares twin support vector machines[J]. Applied Intelligence, 2016, 45(1): 174-186. DOI:10.1007/s10489-015-0751-1
[11]
Mangasarian O L, Wild E W. Multisurface proximal support vector machine classification via generalized eigenvalues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(1): 69-74. DOI:10.1109/TPAMI.2006.17
[12]
Jayadeva, Khemchandani R, Chandra S. Twin support vector machines for pattern classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(5): 905-910. DOI:10.1109/TPAMI.2007.1068
[13]
Kumar M A, Gopal M. Least squares twin support vector machines for pattern classification[J]. Expert Systems with Applications, 2009, 36(4): 7535-7543. DOI:10.1016/j.eswa.2008.09.066
[14]
Shao Yuanhai, Zhang Chunhua, Wang Xiaobo, et al. Improvements on twin support vector machines[J]. IEEE Transactions on Neural Networks, 2011, 22(6): 962-968. DOI:10.1109/TNN.2011.2130540
[15]
程昊翔, 王坚. 一种新的孪生大间隔分布机算法[J]. 控制与决策, 2016, 31(5): 949-952.
Cheng Haoxiang, Wang Jian. A novel twin large margin distribution machine[J]. Control and Decision, 2016, 31(5): 949-952.
[16]
Vapnik V N. Statistical learning theory[J]. Encyclopedia of the sciences of learning, 1998, 41(4): 3185.
[17]
Blake C. UCI repository of machine learning databases[EB/OL].[2017-06-25]. http://www.ics.uci.edu/~mlearn/MLRepository.html