针对中文环境下感知语音质量评价(PESQ)算法评价语音编码器的性能进行了研究; 通过实验测试得到了在中文环境下感知语音质量评价算法评价语音编解码器的准确度, 并对实验结果进行了详细分析; 对感知语音质量评价算法进行了改进, 提高了感知语音质量评价算法评价语音编解码器的准确度.
The accuracy of perceptual evaluation of speech quality (PESQ) in assessing speech codec in Chinese environment was investigated, an improved algorithm was proposed. Due to the lack of research about PESQ evaluate speech codecs under Chinese environment, an experiment was done based on Chinese speech database to get accuracy of PESQ for evaluate two codecs under Chinese database. And the reason of the experiment result was analyzed. In order to improve the accuracy of PESQ for speech codec, an improved PESQ algorithm was proposed.
随着通信技术的飞速发展,语音通信已经成为生活中不可或缺的通信方式.语音质量是衡量语音传输系统性能的一个重要指标.研究灵活、可靠的语音体验质量(QoE, quality of experience)评价系统成为国内外研究者共同努力的目标[1].感知语音质量评价算法(PESQ, perceptual evaluation of speech quality)是ITU提出的一种基于QoE的语音质量评价算法,并形成了ITU-T的P.862标准[2]. PESQ算法是目前比较主流的语音质量评价算法,是在英语环境下提出的,针对英语环境下PESQ评价性能的研究有不少[3-4].然而,其理论研究是基于有限的几种语言,在不同的语言环境下,PESQ算法的评价效果是有差异的.世界上使用人数最多的语言是中文,有10亿多人.目前,没有专门针对中文环境下PESQ评价语音编解码器的性能研究.考虑到中文与英文在语义语音结构上的差异[5-6],PESQ算法能否准确评价中文环境下的语音业务,是非常值得研究的课题.
笔者为了在中文环境下研究PESQ算法对语音编解码器的评价性能,所选择的语音编解码器是3G通信系统中最主要应用的两类变速率编解码器,包括增强型可变速率编解码器-B(EVRC-B, enhanced variable rate codec-B)和自适应多速率语音编解码器(AMR, adaptive multi-rate)[7].首先给出了PESQ的系统模型,然后基于中文语音库进行了大量的实验测试,得出PESQ算法在中文环境下评价语音编解码器的性能,并在该测试的基础上对P.862标准的结果进行了改进,以提高PESQ算法对EVRC-B声码器评价的准确度.
1 PESQ的系统模型PESQ的模型框图如图 1所示. PESQ算法采用改善的听觉模型和认知模型相结合的技术,它不仅应用于语音编解码器,而且应用于端到端的场合,对通信中的语音延时、环境噪声等有较好的抑制性,可以用于评测不同类型的网络.
PESQ的总体思路为:首先,将参考语音信号和失真语音信号的电平调整到标准听觉电平,再用输入滤波器模拟标准电话听筒进行滤波,然后将两个信号进行时间对齐,将对齐好的信号进行听觉变换,变换之后的输入和输出信号差值称为干扰度,通过认知模型处理,最后得到PESQ分值.为了使客观得分可以直接和主观得分进行比较,根据ITU-P.862.1标准,把分数映射为PESQ客观听觉质量(PESQ-LQO,PESQ-listening quality objective).
2 实验的设计图 2示出了研究过程.首先,根据ITU-P.862的标准要求,构建中文标准语音库和失真语音库.需要注意的是,这里的中文是指中国普通话.把语音经过编解码器处理后,对语音进行主观平均意见分(MOS,mean opinion score)测试和客观PESQ算法打分.然后,根据测试的结果进行理论分析,最后,提出改进的算法.
中文语音库的建立,给PESQ在中文环境中的性能评估及准确度校正提供了研究基础和分析对象.标准语音库需在严格符合ITU P.862标准要求的录音环境中录制.标准语音样本的长度应为8~30 s,开头和结尾的静默期长度应大于0.5 s,两个句子之间的时间间隔应大于1 s.语音都采用8 kHz采样,16位线性PCM编码.实验所用的语音库是基于文献[8]构建的语音库,此语音库包含标准语音和失真语音.在失真语音制作时,加入实际通信环境中存在的损伤因素,如表 1所示,包括不同时间长度的可变时延、通信系统引入的背景噪声、白噪声、通信数据传输过程中存在的包丢失以及混合损伤因素.
语音编码器选为EVRC-B和AMR,其中EVRC-B主要应用在CDMA2000通信系统中. EVRC-B是对EVRC的改进,不同于EVRC的单一工作模式,EVRC-B编码支持8种工作模式.不同的工作模式有不同的编码速率,其工作模式的平均数据速率为5.8、6.2、6.6、7.0、7.4、7.8、8.4和9.3 kbit/s. AMR主要用于WCDMA的通信中. AMR的编解码速率和方式可随着通信环境的变化而作相应的调整,可以支持8种语音编码速率:4.75、5.15、5.90、6.70、7.40、7.95、10.2和12.2 kbit/s.
2.3 主观语音质量测试主观语音质量测量就是平均意见分(MOS,mean opinion score)方法,定义在ITU-T P.800中,利用人的主观感觉给语音的满意度打分,依此分数来评价语音质量.主观评价试验结果是一个统计结果,是对众多评价数据收集、统计,得到MOS分.将语音的整个质量分成5个等级,如表 2所示.
主观MOS评价测试应严格按规范进行,测试条件的控制包括如下4个方面.
1) 测试队伍:按ITU-P系列的建议,测试小组由64名左右男、女不限的听音人组成.
2) 测试失真条件的控制:研究用到的失真条件很多,但一次主观评测,总的条件数控制在20~25种之内,以免测试人员疲劳而影响投票的有效性.
3) 测试时间控制:计算机放音,快慢控制在每个测试单元之间停顿3~4 s,供测听人员思考和投票.通常连续25~30次投票后,短暂休息1~2 min.
4) 测试结果的统计:参加测试的人员在听受测试语音后,便按照表 2给出测试语音所属的质量分数.对评测的结果,按照如下加权公式统计得分:
(1) |
其中:Ni为某种得分的票数,N为总票数,i为每种票的得分;p代表得分等级,值为5.
2.4 客观语音质量测试使用ITU P.862标准的PESQ算法对标准语音和失真语音进行客观质量评价.其计算客观得分过程如图 2所示.把所建中文语音库的全部语音经过EVRC-B和AMR两类声码器进行编码和解码处理,然后用PESQ算法对语音的质量进行评价,最后得到PESQ-LQO分数.
3 实验仿真结果与性能分析根据PESQ得分结果用高斯统计的方法来分析对比PESQ算法对语音编码器的评价性能.仿真结果如图 3所示,给出了不同语音编码器的PESQ分数分布. AMR有8种编码速率,此处取最高速率12.2 kbit/s和最低速率4.75 kbit/s. EVRC-B也是有8种编码速率,选取其中间的一个速率6.6 kbit/s.把经过AMR和EVRC-B编码后语音质量的PESQ结果进行对比.
高斯分布的形状由均值和方差决定,峰值所对应的值代表均值.从图 3中可以发现,AMR 12.2 kbit/s具有最高的平均值,EVRC-B 6.6 kbit/s的均值低于AMR12.2 kbit/s,而高于AMR4.75 kbit/s.方差的大小决定了钟形的陡峭或扁平程度,方差越小,曲线越扁平越瘦高.在图 3中,AMR的分数曲线图比EVRC-B的分数曲线图更窄,表明AMR的方差比EVRC-B的方差小.这说明PESQ模型评价AMR声码器时偏差最小.也就是说,PESQ对EVRC-B语音编码器评价的准确度要低于AMR.
PESQ的过程是利用算法对MOS得分进行预测,得到PESQ分数.主观测试MOS分数和PESQ分数越接近,代表评价结果越准确. 图 4示出了AMR在不同的编码速率下的MOS分数和PESQ分数,可以看出,对于AMR语音编码器,其MOS分数和PESQ-LQO分数相差不多,平均相差0.1分以下,所以,PESQ算法可以较准确地评价AMR声码器. 图 5示出了EVRC-B的8种编码速率的语音质量分数,可以看出,无论哪种编码速率,其PESQ-LQO分数都低于MOS值0.3分以上,所以,PESQ不能准确地对EVRC-B语音编解码器进行评价.
为了提高PESQ算法对EVRC-B评价的准确度,对PESQ的结果进行改进.采用sigmoid函数来改进结果,以达到提高评价的准确度的目的.把经sigmoid函数映射的结果称为I-PESQ(improved PESQ)分数. sigmoid函数的一般表达式为
(2) |
此函数表达式的取值范围为(0, 1).语音质量分数的范围是(1, 5).因此对sigmoid进行一下修正
(3) |
根据此修正sigmoid函数来对PESQ的分数进行映射.其中,y是映射后的值,x是PESQ的预测结果值,即PESQ分数. α和β为修正sigmoid函数的参数,采用均方误差最小准则求解.具体过程如下:假设PESQ分数为xi,i=l, 2, …, n,其对应的主观MOS分数为yi,i=l, 2, …, n.
(4) |
则映射函数的参数可以通过
(5) |
其中:x为PESQ-LQO得分,fI-PESQ的值代表映射后的I-PESQ得分.如图 6所示,给出了改进后的I-PESQ得分,从图 6中可以看出,I-PESQ得分更接近于MOS得分,所以其准确度得到了提高.
为了进一步验证改进后的分数具有更高的准确度,计算两者的均方误差RMSE值为
(6) |
其中:σMOS(i)代表第i个主观评分,σMOSp(i)代表对应的第i个客观得分. PESQ-LQO和I-PESQ的RMSE值如表 3所示.可以看出,改进后的均方根误差明显减少了,即评价的准确度提高了.
由于ITU P.862标准制定时主要针对英文环境,笔者专注于分析其PESQ算法在中文环境中对语音编解码器的评价性能.首先,选定了合乎标准要求的中文语音库,提供了研究基础和分析对象;其次,经过实验仿真发现,PESQ算法对AMR进行评价时准确度比较高,但其对EVRC-B进行评价时,PESQ低估了EVRC-B的客观得分,其评价准确度较低.为了提高PESQ算法对EVRC-B评价的准确度,用修正sigmoid函数对PESQ的结果进行了改进.仿真结果表明,经过改进后,其评价准确度得到了提高,可以更好地评价语音业务.
[1] | ITU-T. Definition of quality of experience (QoE) [S]. International Telecommunication Union Ref: TD 109rev2 (PLEN/12), 2007. |
[2] | ITU-T P.862. Perceptual evaluation of speech quality (PESQ): an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs [S]. 2001. |
[3] | Engineering Services Group. PESQ limitations for EVRC family of narrowband and wideband speech codecs [Z].80-W1253-1 Qualcomm, 2008. |
[4] | Zhang Weiwei, Chang Yongyu, Liu Yitong, et al. A new method of objective speech quality assessment in communication system[J].Journal of Multimedia, 2013, 8(3): 291–298. |
[5] | San Duanmu. The phonology of standard chinese[M]. 2nd ed. New York: Oxford Press, 2007. |
[6] | Lee C H, Li Haizhou, Lee L S, et al. Advances in chinese spoken language processing [M]. [S.l.]: Would Scientific World Scientific Publishing Company, 2007. |
[7] | 3GPP. Mandatory speech codec speech processing functions; adaptive multi-rate (AMR) speech codec; transcoding functions[S]. 2011. |
[8] | Liu Yitong, Shen Yun, Liu Qianhong, et al. Performance evaluation and accuracy upgrading of PESQ in chinese environment[C]//VTC2013-Spring. Dresden: IEEE Press, 2013. |