2. 济南大学 信息科学与工程学院, 济南 250022
为提高语音情感识别精度, 采用二叉树结构设计多分类器, 其中使用半定规划法求解并构造多核支持向量机(SVM)分类模型, 并采用均方根误差与最大误差对分类器性能进行衡量.对特征选择之后的参数集合进行了测试, 结果表明, 采用半定规划多核SVM分类模型的情感识别精度达到88.614%, 比单核分类模型的识别精度提高了12.376%, 且能有效减少误差积累和降低情感状态之间混淆程度.
2. School of Information Science and Engineering, University of Jinan, Jinan 250022, China
To improve the accuracy of speech emotion recognition, a multi-class classifier with binary-tree structure is adopted, which includes building the multi-kernel support vector machine (SVM) classifier model solved by semi-definite programming method, and using the root mean square error and maximum error to evaluate the performance of the classifier. Through the test on the parameter set obtained by feature selection algorithm, the results of experiments show that the total recognition accuracy of the proposed multiple-kernel SVM classifier model using semi-definite programming is 88.614%, which is 12.376% higher than that of single-kernel SVM model. Moreover the multiple-kernel SVM model can reduce the total error accumulation and confusion between emotion states.
语音情感识别是当前信号处理、模式识别、人工智能等领域的热点研究课题,其研究的最终目的是赋予计算机情感识别能力,构建和谐自然的人机交互环境[1-2].目前语音情感识别的方法中,支持向量机(SVM, support vector machine)被证明是一个比较有效的分类工具,但在情感混淆程度较大的情况下,使用SVM依然难以进行精确识别.为了提高识别精度,笔者使用核融合策略,主要研究了一种采用半定规划多核SVM的语音情感识别方法,设计并构建二叉树结构的SVM多分类器,并将多核学习转化为可由内点算法进行有效计算的半定规划问题来求解[3-4];然后对Berlin情感语音库中特定情感状态下的语音样本使用所提出的模型进行情感识别,并通过实验数据的分析对比,验证该方法的有效性.
1 情感语音库及特征参数1.1 Berlin情感语音库Berlin情感语音库也称为Emo-DB,是情感识别研究中经常用到的情感语音库.样本库是由10名德语的专业演员(5男5女,年龄在21岁到35岁之间)对10个德语文本进行发音所构成的.笔者选择该语音库中的高兴(71)、生气(127)、恐惧(69)、悲伤(63)、平静(79)5种情感下共409个样本来进行分析,所有样本均以16 kHz采样,16 bit量化.
1.2 特征参数的提取与选择采用情感语音识别中最常用的参数,即韵律特征参数、音质特征参数和谱特征参数.对以上参数进行统计学的分析,得到共计45维特征向量.所用的具体特征参数如表 1所示.
![]() |
表 1 特征参数集合 |
这些参数在计算过程中使用了Matlab语音工具箱Voicebox的相关函数.为了去除可能降低识别率的干扰性参数,采用双输入对称相关算法[5]进行特征选取,并画出选择特征数目为1~45时的识别精度变化曲线,从而确定最佳的特征选择维数.
2 半定规划多核SVM2.1 单核SVM模型SVM的目标是在特征空间中寻找具有最大边界的超平面,以便对2类输入数据进行分类.为了使该方法具有更好的灵活性和鲁棒性,误分的模式会被惩罚,并引入松弛变量ξi,因而,目标函数和约束条件可以公式化为
![]() |
(1) |
其中:l为训练数据的个数;yi为模式xi的类别标签,取值为1和-1;φ为从输入空间到向量空间的映射;wTφ(xi)+b=0为推导出来的超平面,w和b分别为权重向量和补偿;C为惩罚因子.引入拉格朗日算子求解式(1),将其转化为对偶形式,并表示为矩阵形式:
![]() |
(2) |
其中:α为拉格朗日乘子;e=[1, 1, …, 1]T;K∈Rl×l为核矩阵,Kij=k(xi, xj)=〈φ(xi), φ(xj)〉(i, j=1, 2, …, l),G(K)=diag(y)Kdiag(y).
2.2 多核SVM模型单核函数过于依赖核函数的选择.若待识别的数据局部变化较大,单核SVM的泛化性能将受到较大的影响,会导致分类准确率的下降.解决这一问题的方法是核融合方法,即将多个核函数组合到一起,然后将多核学习转化为半定规划问题来求解.若核函数k(xi, xj)=〈Φ(xi), Φ(xj)〉,其中Φ(x)=
[φ1(x), φ2(x), …, φM(x)]T,对应的核矩阵K=K1+K2+…+KM,Ki是由φi(1≤i≤M)所构成的核矩阵.最简单的核融合方法就是加权组合,即K=
![]() |
(3) |
其中:
在进行情感识别时,为了评价各种样本、不同的分类方法以及不同的特征选择数目下情感识别的性能,使用均方根误差R、最大误差E 2个指标作为衡量标准,其表达式为
![]() |
(4) |
其中εi为测试样本的分类误差.很显然R与E越小,情感识别方法的性能越优越.
3 Berlin情感语音库实验与结果分析Berlin情感语音库的409个实验样本中,选择训练集样本207个,分别为高兴(36)、生气(64)、恐惧(35)、悲伤(32)、平静(40);剩下的202个样本构成测试集,分别为高兴(35)、生气(63)、恐惧(34)、悲伤(31)、平静(39).在执行SVM基本算法时,选择径向基核函数为基础核函数,采用LibSVM工具包进行最基本的二分类SVM设计.
在相关文献[6-7]中,Berlin数据库中高兴状态的识别率普遍较低,是影响整体识别精度的主要因素之一.为此,笔者提出图 1所示的二叉树结构设计策略,对识别率最差的情感类型最先使用采用半定规划的多核SVM模型识别,从而减少整体的误差积累及降低情感之间的混淆.这种有选择性地对SVM分类模型的改进,在提高分类器整体性能的同时也可以避免多次计算核矩阵所导致的时间复杂度过大的问题.
![]() |
图 1 多分类器的二叉树结构 |
在图 1分类器结构中,Model1、Model2、Model3、Model4若均选择单核SVM,各个状态的识别精度与总体识别精度如图 2所示. 图 2中各分图的横轴表示特征选择的数目,纵轴表示分类精度.由图 2可以看出,高兴状态的识别精度较低,是导致整体识别精度不高的主要原因.因而,可对Model1进行改进,使用半定规划多核SVM来取代原有的单核SVM.在多核SVM中,选择参数分别为γ1=0.01、γ2=0.1、γ3=1的3个径向基核函数进行线性组合.通过半定规划方法求解,核函数组合系数为0.006 4、0.017 0、0.976 6.在对分类模型进行上述改进之后,采用多核SVM分类器时的各情感状态及总体的识别率曲线如图 3所示.由图 3可以看出,在对Model1使用多核策略进行改进之后,高兴状态的识别率有了较大的提升,在很大程度上消除了分类器层与层之间的误差积累,从而改善了SVM多分类器的总体性能.在适当的特征数目下,生气、高兴、悲伤可得到非常高的识别精度.当选择特征数目为39时,最高的分类总精度达到了88.614%,该实验结果高于许多现有方法及其改进算法所得到的准确率[6-9].
![]() |
图 2 单核SVM分类器识别精度 |
![]() |
图 3 多核SVM分类器识别精度 |
表 2给出了在选择最佳的特征数目时,多核与单核SVM分类模型的各状态的识别精度对比以及分类器性能的衡量参数值;表 3和表 4分别给出了在选择最佳的特征数目时,单核与多核SVM分类模型的混淆矩阵.由表 2的数据可以看出,使用多核技术改进之后,最佳特征选择数目下的总精度提高了12.376%;5种状态的平均识别精度提高了27.283%;分类器的R与E分别降低了0.311 786和0.384 616,分类器对于各状态的泛化性能得到改善.其中,生气状态的识别精度提高了12.699%,高兴状态识别精度的提升幅度更是达到了48.572%. 表 3和表 4所列出的混淆矩阵中的数据对比也表明,在使用多核SVM模型之后,高兴与生气状态之间的混淆程度大幅降低,恐惧状态的混淆也集中在生气状态上,平静对恐惧的混淆略有改善.虽然悲伤与平静之间的混淆度略有增加,但是并不影响各情感状态在整体上的混淆的减少.
![]() |
表 2 最佳特征选择数量下多核SVM与单核SVM多分类器的性能对比 |
![]() |
表 3 单核SVM混淆矩阵(特征数目44) |
![]() |
表 4 多核SVM混淆矩阵(特征数目39) |
在计算复杂度方面,多核SVM在训练样本为207个、特征数目选择39个时,分类模型的训练时间为5.075 137 s,该模型识别202个测试样本的情感状态并获得总体识别准确率所需时间为2.206 461 s;而单核SVM在相同的训练样本下,特征数目选择44个时,分类模型的训练时间为3.997 159 s,获得总体识别准确率所需时间为1.021 626 s.由上述数据可以看出,相比单核SVM,采用半定规划的多核SVM虽然在情感识别性能上有明显的提高,但同时也具有更高的时间复杂度.
4 结束语通过为Berlin情感语音库构建特征参数集合,使用多核策略对二叉树结构的SVM多分类器进行有选择的改进,即对分类精度较差的情感类别使用基于半定规划求解的多核SVM模型来提高情感识别精度.通过实验数据的分析,验证了该方法在情感识别研究中的有效性及识别性能上的优越性.在下一步的研究工作中,可研究如何进一步降低多核学习时间复杂度,以及提高情感识别方法鲁棒性等相关问题.
[1] |
张石清, 李乐民, 赵知劲. 人机交互中的语音情感识别研究进展[J]. 电路与系统学报, 2013, 18(2): 440–451.
Zhang Shiqing, Li Lemin, Zhao Zhijin. A survey of speech emotion recognition in human computer interaction[J].Journal of Circuits and System, 2013, 18(2): 440–451. |
[2] | Moataz ELAyadi, Mohamed S Kamel, Fakhri Karray. Survey on speech emotion recognition: features, classification schemes, and databases[J].Pattern Recognition, 2011, 44(3): 572–587. doi: 10.1016/j.patcog.2010.09.020 |
[3] | Lanckriet Gert R G, Cristianini Nello, Bartlett Peter, et al. Learning the kernel matrix with semi-definite programming[J].Machine Learning Research, 2004, 5(1): 27–72. |
[4] | Yeh ChiYuan, Su WenPin, Lee ShieJue. An efficient multiple-kernel learning for pattern classification[J].Expert Systems with Applications, 2013, 40(9): 3491–3499. doi: 10.1016/j.eswa.2012.12.057 |
[5] | Meyer Patrick E, Bontempi Gianluca. On the use of variable complementarity for feature selection in cancer classification[C]//Applications of Evolutionary Computing-EvoWorkshops 2006 Proceedings. Budapest: Springer Verlag, 2006: 91-102. |
[6] | Wu Siqing, Falk H Tiago, Chan WaiYip. Automatic speech recognition using modulation spectral features[J].Speech Communication, 2011, 53(5): 768–785. doi: 10.1016/j.specom.2010.08.013 |
[7] | Milton A, Tamil Selvi S. Class-specific multiple classifiers scheme to recognize emotions from speech signals[J].Computer Speech and Language, 2014, 28(3): 717–742. |
[8] | Hassan A, Damper R I. Classification of emotional speech using 3DEC hierarchical classifier[J].Speech Communication, 2012, 54(7): 903–916. doi: 10.1016/j.specom.2012.03.003 |
[9] | Jin Yun, Song Peng, Zheng Wenming, et al. Novel feature fusion method for speech emotion recognition based on multiple kernel learning[J].Journal of Southeast University, 2013, 29(2): 129–133. |