广东工业大学学报  2018, Vol. 35Issue (3): 43-46.  DOI: 10.12052/gdutxb.170173.
0

引用本文 

吴楠, 冯祖勇, 韦高梧. 智能语音识别系统中噪声估计算法的研究和改进[J]. 广东工业大学学报, 2018, 35(3): 43-46. DOI: 10.12052/gdutxb.170173.
Wu Nan, Feng Zu-yong, Wei Gao-wu. Research and Improvement of Noise Estimation Algorithm in Intelligent Speech Recognition System[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2018, 35(3): 43-46. DOI: 10.12052/gdutxb.170173.

基金项目:

广东省科技计划项目(2016A010104019);广州市科技计划项目(201510010285)

作者简介:

吴楠(1992–),男,硕士研究生,主要研究方向为智能通信。

通信作者

冯祖勇(1975–),男,教授,主要研究方向为能源材料和智能控制. E-mail:fengzuyong@foxmail.com

文章历史

收稿日期:2017-12-11
智能语音识别系统中噪声估计算法的研究和改进
吴楠, 冯祖勇, 韦高梧     
广东工业大学 物理与光电工程学院,广东 广州  510006
摘要: 智能语音识别技术的研究已有较长的时间, 但由于语音信号本身所具有的多变性、瞬时性、连续性和动态性的特征, 使得机器在不同的环境尤其是噪声环境中进行语音信号的识别仍具有一定的困难. 为了提高带噪语音信号识别的准确率, 本文研究了一种常用的噪声估计算法, 即基于后验信噪比的时间递归平均算法. 并在此算法的基础上提出了一种对平滑因子的改进算法, 将语音活性检测算法与这两种算法在不同输入信噪比下进行模拟验证. 通过运算结果的对比分析可以看出, 改进后的算法相比于语音活性检测算法最高可以使输出分段SNR提高2.1 dB, 相比于原时间递归平均算法最高可以使输出分段SNR提高0.5 dB, 表明低输入SNR下改进后的算法可以有效提高语音信号的质量和可懂度.
关键词: 语音识别    噪声估计    时间递归平均算法    平滑因子    
Research and Improvement of Noise Estimation Algorithm in Intelligent Speech Recognition System
Wu Nan, Feng Zu-yong, Wei Gao-wu     
School of Physics and Optoelectronics Engineering, Guangdong University of Technology, Guangzhou 510006, China
Abstract: The research of intelligent speech recognition technology has been going on for a long time. However, due to the characteristics of variability, instantness, continuity and dynamic of the speech signal itself, the identification of the speech still has some difficulties when the machine is put in different environments, especially in the noisy environment. In order to improve the recognition accuracy of the noisy speech signal, a commonly used noise estimation algorithm was studied, which was based on the time-averaged algorithm of posterior signal noise ratio. And an improved algorithm of the smoothing factor was brought up on the basis of the previous algorithm. The voice activity detection algorithm and the above two algorithms were simulated under different input signal-noise ratios. The comparative analysis of the operation results shows that the improved algorithm can improve the output segment SNR by 2.1 dB compared with the voice activity detection algorithm, and it can also improve the output segment SNR by 0.5 dB compared with the original time recursive average algorithm. It is indicated that the improved algorithm can effectively improve the quality and intelligibility of the speech signal at low input SNR.
Key words: speech recognition    noise estimation    time averaged algorithm    smoothing factor    

语音识别技术就是通过机器对声音信号的采集,并对其加以理解和识别从而转变为相应的文本或命令的技术[1]. 随着智能手机和个人电脑的普及,人工智能的研究和应用获得了飞速地发展,而作为智能计算机研究的主导方向和人机语音通信的关键技术,语音一直受到各国科学界的广泛关注[2]. 在安静环境下,语音识别系统的识别率可高达95%~99%,但在实际应用中,环境噪声会导致语音识别系统的识别率大大降低[3]. 并且,目前在语音识别的研究中仍然存在着噪声干扰、自适应性和语音模糊性等问题[4]. 本文基于语音增强中的噪声估计算法,提出一种对平滑因子的改进算法, 旨在提高带噪语音的通信质量和可懂度.

1 智能语音识别技术

一个完整的语音识别系统通常可以归纳为识别和匹配[5]. 语音识别的过程可以通过两个阶段来进行概括,第一阶段是系统“训练”,第二阶段是“识别”. 训练的过程如图1所示. 将语音信号通过端点检测和求解特征参数从而形成一个语音参考的样本,即语音库,为第二阶段的识别打下基础.

图 1 语音识别训练 Figure 1 Speech recognition training

语音识别的实现过程如图2所示. 首先对输入的语音信号进行预处理,再进行端点检测及特征提取,然后与第一阶段通过训练后生成的语音库进行比对,即进行模式匹配,从而找到最佳的参量样本作为结果输出.

图 2 语音识别过程 Figure 2 Speech recognition process
2 语音增强中噪声估计算法的研究与改进

在复杂环境中,噪声干扰严重影响语音通信的质量,导致无法正确传达语义. 语音增强技术能从噪声背景中提取有用的语音信号,抑制与降低噪声干扰[6]. 基于统计模型的语音增强算法[7],由于算法复杂度适中且效果较好被广泛研究应用. 强噪声环境下,噪声复杂多变,并且信噪比较低,现有算法往往出现信号过度失真、残余音乐噪声等现象. 例如,目前广泛应用于语音信号去噪的小波分析法,设定阈值过滤噪声时同样会过滤掉部分语音信号,造成信号失真[8]. 如何改进现有的算法,一直是各国学者广泛研究的重要课题[9-10]. 大多数语音增强方法都要对噪声进行估计[11-12],这意味着噪声估计的准确程度决定着语音增强系统的性能. 在进行语音识别前,通常需要先对语音信号进行检测,这种技术被称为语音活性检测. 在全球移动通信系统GSM的语音间断传输(即语音信号不连续发送)中,语音活性检测技术可以称得上是较为关键的部分[13]. 并且语音活性检测算法作为一种常用的噪声估计算法,可以有效地去除带噪语音信号中的非语音片段,降低噪声并提高语音识别的准确率. 这种算法在平稳噪声和高信噪比环境下表现出的噪声估计效果较好,但是只能在语音间隙来估计噪声. 为了在含有背景噪音的环境中有效估计含有语音活动片段内的噪声频谱,本文主要介绍另外一种同样较为常用的噪声估计算法,即基于后验信噪比的时间递归平均算法,以及在此算法的基础上提出的一种对平滑因子的改进算法,通过模拟运算证明改进后的算法具有更优越的性能.

2.1 基于后验信噪比的时间递归平均算法

通常在语音信号频谱中,噪声产生的影响并不均匀,使得不同频谱的分量往往具有不同的实际信噪比. 时间递归平均(time-recursive averaging)算法[14-15]可以按照不同频谱分量中的实际信噪比对噪声谱进行实时估计和更新. 时间递归平均算法具有如下的表述形式[16]

$\hat \sigma _d^2(\lambda ,k) = \alpha (\lambda ,k)\hat \sigma _d^2(\lambda - 1,k) + (1 - \alpha (\lambda ,k)){\left| {Y(\lambda ,k)} \right|^2}.$ (1)

式中, ${\left| {Y(\lambda ,k)} \right|^2}$ 是带噪语音幅度谱的平方, $\hat \sigma _d^2(\lambda ,k)$ 表示第 $\lambda $ 帧的频点k处的噪声功率谱密度估计, $\alpha \left( {\lambda ,k} \right)$ 为与时间和频率相关的平滑因子.

通过时间递归平均算法对噪声谱的估计需要在之前噪声估计与当前带噪语音谱加权平均的基础上进行,权重根据不同频谱分量中的实际信噪比自适应地发生改变. 这种基于每一频点实际信噪比来确定平滑因子的算法称为信噪比相关的(SNR-dependent)递归平均算法[17]. 在该算法中,平滑因子 $\alpha \left( {\lambda ,k} \right)$ 使用了后验信噪比的sigmoid函数:

$\alpha \left( {\lambda ,k} \right) = \displaystyle\frac{1}{{1 + {{\rm{e}}^{ - \beta \left( {{\gamma _k}\left( \lambda \right) - 1.5} \right)}}}}.$ (2)
${\gamma _k}(\lambda ) = \displaystyle\frac{{{{\left| {Y(\lambda ,k)} \right|}^2}}}{{\displaystyle\frac{1}{{10}}\sum\limits_{m = 1}^{10} {\hat \sigma _d^2(\lambda - m,k)} }}.$ (3)

式中, $\beta $ 为调节因子, ${\gamma _k}(\lambda )$ 是后验信噪比的近似,式(3)中的分母为过去10帧噪声功率谱密度估计的平均值.

当调节因子 $\beta $ 分别取值2、5、10时,通过式(2)和式(3)的运算可以得到平滑因子随着后验信噪比发生变化的情况,具体结果如图3所示.

图 3 采用不同的β计算得到的平滑因子 ${\alpha \left( {\lambda ,k} \right)}$ 曲线 Figure 3 The smoothing factor curve obtained by different β calculations

图3中可以看出,随着后验信噪比取值的增大,平滑因子α(λ, k)→1,而当后验信噪比取值逐渐减小时,α(λ, k)→0. 式(2)中的调节因子β同样对噪声谱的估计有一定的影响,从图中可以看出,随着β取值的增大,平滑因子的变化曲线趋于陡峭,使得α(λ, k)接近一个阶跃函数,导致噪声谱的估计值相比于实际值偏低.

2.2 平滑因子 $\alpha \left( {\lambda ,k} \right)$ 的改进

本文提出的对平滑因子的改进方法主要针对上文提出的当β取值较大时平滑因子 $\alpha \left( {\lambda ,k} \right)$ 只有二元取值0和1的情况. 根据上文的函数关系及分析,提出新的平滑因子的表示形式

$\alpha \left( {\lambda ,k} \right) = 1 - \mu \min \left\{ {1,\displaystyle\frac{1}{{{{\left( {{\gamma _k}\left( \lambda \right)} \right)}^p}}}} \right\}.$ (4)

式(4)中,μp是两个可以设定的参数,μ的取值主要对后验SNR范围为0~1 dB时平滑因子的变化产生影响,而p的取值主要对后验SNR为1 dB以上时平滑因子的变化产生影响. 在后验SNR为0~1 dB范围内,随着μ的增大平滑因子逐渐减小,当后验SNR大于1 dB时,p值越大平滑因子增大越快. 式(4)中的 ${\gamma _k}(\lambda )$ 由上述式(3)给出. 通过对式(4)的运算,即可以确保 $\alpha \left( {\lambda ,k} \right)$ 的值始终处于范围 $0 < \alpha \left( {\lambda ,k} \right) < 1$ .

3 算法仿真性能及结果分析

为了评估平滑因子改进后的算法的性能,本文分别将语音活性检测算法、时间递归平均算法及改进后的算法与基本谱减算法相结合,按照图4所示的流程进行语音信号的噪声估计及增强处理.

在多说话人babble噪声下将输入信噪比分别设定为0、2.5、5、7.5、10、12.5、15 dB进行仿真实验,仿真结果如图5图6所示.

图 4 结合不同噪声估计算法的功率谱减法原理图 Figure 4 The schematic diagram of power spectral subtraction of different noise estimation algorithms
图 5 babble噪声环境下3种算法的输出分段SNR比较 Figure 5 Comparison of output segment SNR of three algorithms in babble noise environment
图 6 babble噪声环境下3种算法的PESQ分值比较 Figure 6 Comparison of PESQ scores of three algorithms in the babble noise environment

图5中可以看出,当输入SNR在0~10 dB范围内时,本文提出的平滑因子改进算法相比于语音活性检测算法最高可以使输出分段SNR提高2.1 dB,而相比于原时间递归平均算法最高可以使输出分段SNR提高0.5 dB. 因此,在低输入信噪比下,本文提出的改进算法对带噪语音信号的质量有所改善.

图6中可以看出,当输入SNR在0~7.5 dB范围内时,本文提出的平滑因子改进算法相比于语音活性检测算法最高可以使PESQ分值提高0.2,而相比于原时间递归平均算法最高仅可以使PESQ分值提高0.1. 此结果也表明,在低输入信噪比下,本文提出的改进算法对带噪语音的可懂度有所改善.

4 结论

本文主要对语音增强中噪声估计算法进行了研究及改进. 在时间递归平均算法中提出了一种对平滑因子的有效改进措施. 通过仿真实验结果表明,在低信噪比的环境下,本文提出的改进算法相比于语音活性检测算法最高可以使输出分段SNR提高2.1 dB,改善PESQ分值0.2,相比于原时间递归平均算法最高可以使输出分段SNR提高0.5 dB,改善PESQ分值0.1. 因此本文提出的改进算法可以同时提高语音的质量和可懂度,对带噪语音取得了比较好的改善效果.

参考文献
[1] 张永刚, 余玉平. 基于ARM的孤立语音识别系统的研究[J]. 广东工业大学学报, 2013, 30(2): 95-98.
ZHANG Y G, YU Y P. The design of the isolated speech recognition system based on ARM[J]. Journal of Guangdong University of Technology, 2013, 30(2): 95-98.
[2] 刘雨燃. 语音识别技术的探究[J]. 中国科技纵横, 2016, 24: 26-27.
LIU Y R. Research on speech recognition technology[J]. China Science & Technology Panorama Magazine, 2016, 24: 26-27.
[3] 刘金刚, 周翊, 马永保, 等. 用于自动语音识别系统的切换语音功率谱估计算法[J]. 计算机应用, 2016, 36(12): 3369-3373.
LIU J G, ZHOU Yi, MA Y B, et al. Estimation algorithm of switching speech power spectrum for automatic speech recognition system[J]. Journal of Computer Applications, 2016, 36(12): 3369-3373. DOI: 10.11772/j.issn.1001-9081.2016.12.3369.
[4] 王华彬, 张建伟, 陶亮. 噪声谱估计算法对语音可懂度的影响[J]. 声学技术, 2015, 34(5): 424-430.
WANG H B, ZHANG J W, TAO L. Effects of noise spectrum estimation algorithms on speech intelligibility[J]. Technical Acoustics, 2015, 34(5): 424-430.
[5] 徐子豪, 张腾飞. 基于语音识别和无线传感网络的智能家居系统设计[J]. 计算机测量与控制, 2012, 20(1): 180-182.
XU Z H, ZHANG T F. Design of smart home system based on speech recognition and wireless sensor network[J]. Computer Measurement & Control, 2012, 20(1): 180-182.
[6] 祁琳娜. 语音增强改进算法研究及其DSP的实现[D]. 西安: 长安大学信息学院, 2016.
[7] YANG L, LOIZOU P C. Speech enhancement by combining statistical estimators of speech and noise[C]//IEEE International Conference on Acoustics Speech and Signal Processing. Dallas: IEEE, 2010: 4754-4757.
[8] 郑永敏, 鲍鸿, 张晶. 基于维纳–小波分析的语音去噪新方法[J]. 广东工业大学学报, 2017, 34(5): 52-55.
ZHENG Y M, BAO H, ZHANG J. A new speech denoising method based on Wiener Filtering and Wavelet analysis[J]. Journal of Guangdong University of Technology, 2017, 34(5): 52-55.
[9] LU Y, LOIZOU P C. A geometric approach to spectral subtraction[J]. Speech Communication, 2008, 50: 453-466. DOI: 10.1016/j.specom.2008.01.003.
[10] 程宁, 刘文举. 基于高斯-拉普拉斯-伽玛模型和人耳听觉掩蔽效应的信号子空间语音增强算法[J]. 声学学报, 2009, 34(6): 554-565.
CHENG N, LIU W J. A subspace speech enhancement algorithm based on Gaussian-Laplacian-Gamma statistical models and masking properties of human ears[J]. Acta Acustica, 2009, 34(6): 554-565.
[11] LU Y, LOIZOU P C. Estimators of the magnitude squared spectrum and methods for incorporating SNR uncertainty[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(5): 1123-1137. DOI: 10.1109/TASL.2010.2082531.
[12] 欧世峰, 赵晓晖. 改进型先验信噪比估计语音增强算法[J]. 吉林大学学报(工学版), 2009, 39(3): 787-791.
OU S F, ZHAO X H. Modified priori-SNR estimation for noisy speech enhancement[J]. Journal of Jilin University (Engineering and Technology Edition), 2009, 39(3): 787-791.
[13] 恩德, 陈亚柯, 毛哲龙. 基于FastICA的低信噪比下L-PLC语音的间断传输[J]. 计算机工程与应用, 2016, 52(9): 108-111.
EN D, CHEN Y K, MAO Z L. Discontinuous transmission of voice in L-PLC under low SNR based on FastICA[J]. Computer Engineering and Applications, 2016, 52(9): 108-111.
[14] LIN L, HOLMES W H, AMBIKAIRAJAH E. Subband noise estimation for speech enhancement using a perceptual Wiener filter[J]. 2003 IEEE International Conference on Acoustics, 2003, 1(1): 80-83.
[15] COHEN I. Noise spectrum estimation in adverse environments: improved minimal controlled recursive averaging[J]. IEEE Transactions on Speech and Audio Processing, 2003, 11(5): 466-475. DOI: 10.1109/TSA.2003.811544.
[16] 王鹏, 曾毓敏. 基于双向搜索方法的最小值控制递归平均语音增强算法[J]. 声学学报(中文版), 2010, 35(1): 81-87.
WANG P, ZENG Y M. Speech enhancement approach based on minimal controlled recursive averaging algorithm using bidirectional searching method[J]. Acta Acustica, 2010, 35(1): 81-87.
[17] LIN L, HOLMES W H, AMBIKAIRAJAH E. Adaptive noise estimation algorithm for speech enhancement[J]. Electronics Letters, 2003, 39(9): 754-755. DOI: 10.1049/el:20030480.