自动化学报  2018, Vol. 44 Issue (10): 1876-1887   PDF    
基于优化浮值掩蔽的监督性语音分离
夏莎莎1, 张学良1, 梁山2     
1. 内蒙古大学计算机学院 呼和浩特 010021;
2. 中国科学院自动化研究所模式识别国家重点实验室 北京 100190
摘要: 监督性语音分离利用有监督学习算法,建立输入带噪语音信号和输出目标信号之间的映射关系.近年来,随着深度学习理论的发展,监督性分离算法已经成为语音分离最重要的研究方向,计算目标对分离算法的性能有着重要影响.理想浮值掩蔽作为常用的分离目标,能够提升分离的语音可懂度和语音质量,但没有考虑噪声和语音之间的相关性.本文采用优化浮值掩蔽作为分离目标,利用深度神经网络(Deep neural network,DNN)作为分离模型,并在多种噪声环境和信噪比条件下进行对比实验.结果表明,优化浮值掩蔽对语音感知质量有显著提升,总体上分离性能优于其他计算目标.
关键词: 深度神经网络     语音分离     监督性学习     计算目标    
Supervised Speech Separation Using Optimal Ratio Mask
XIA Sha-Sha1, ZHANG Xue-Liang1, LIANG Shan2     
1. College of Computer Science, Inner Mongolia University, Hohhot 010021;
2. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190
Manuscript received : November 1, 2016, accepted: March 21, 2017.
Foundation Item: Supported by National Natural Science Foundation of China(61365006)
Author brief: XIA Sha-Sha  Master student at Inner Mongolia University. She received her bachelor degree from Tianjin University in 2013. Her research interest covers audio signal processing and machine learning;
LIANG Shan  Ph. D., assistant professor at the National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences. He received his bachelor degree from Xi0dian University in 2008, and Ph. D. degree in pattern recognition and intelligent systems from the Institute of Automation, Chinese Academy of Sciences in 2013. His research interest covers speech separation, speech enhancement, and blind source separation.
Corresponding author. ZHANG Xue-Liang  Associate professor at the College of Computer Science, Inner Mongolia University. He received his bachelor degree from Inner Mongolia University in 2003, master degree from Harbin Institute of Technology in 2005, and Ph. D. degree from the Institute of Automation, Chinese Academy of Sciences in 2010. His research interest covers speech separation, computational auditory scene analysis, and speech signal processing. Corresponding author of this paper.
Recommended by Associate Editor JIA Lei
Abstract: Supervised speech separation uses a supervised learning algorithm to learn a mapping from an input noisy signal to an output target signal. In recent years, due to the development of deep learning, supervised separation algorithm has become the most important research direction in speech separation area and the training target has a significant impact on the performance of the speech separation algorithm. Ideal ratio mask is a commonly used training target, which can improve speech intelligibility and quality of the separated speech. However, it does not take into account the correlation between noise and clean speech. In this paper, we use an optimal ratio mask as the training target, and use the deep neural network (DNN) as the separation model. Experiments are carried out under various noise environments and signal to noise ratio conditions, and the results show that the optimal ratio mask outperforms other training targets in general.
Key words: Deep neural network (DNN)     speech separation     supervised learning     training targets    

在语音信号处理领域, 语音分离是一个重要并且充满挑战性的问题.语音分离是指从带噪的混合语音中分离出感兴趣的目标语音, 主要应用于鲁棒性语音识别(Automatic speech recognition, ASR)、助听器设计和移动语音通信等方面.按照信号输入的通道数划分, 语音分离分为单通道语音分离和多通道语音分离, 单通道语音分离只利用了时域和频域的信息, 而多通道语音分离利用了时域、频域和空域的信息, 因此单通道语音分离的任务解决起来更为困难[1].本文针对单通道条件下的语音分离技术进行研究.

单通道语音分离技术一直是语音信号处理领域研究的难点, 至今已出现许多有价值的分离方法.计算听觉场景分析(Computational auditory scene analysis, CASA) [2]作为一项重要的语音分离技术, 通过模拟人耳对声音的处理机制来解决语音分离问题.计算听觉场景分析提出了完成语音分离任务的计算目标, 即理想二值掩蔽[3].在计算听觉场景分析思想的基础上, 语音分离任务可以看作一个分类问题[2], 通过将带噪的混合信号分类为目标语音信号和噪声信号来解决.具体来讲, 对每一个语音分离单位(时间频率单元)作出分类决策, 判断是噪声主导或目标语音主导.基于这种思想, 语音分离问题可以通过监督性学习方法来解决[4], 通过学习得到一个从混合信号到目标的映射.监督性语音分离算法的学习模型分为浅层学习模型(例如高斯混合模型、支持向量机等)和深层学习模型(例如深度神经网络(Deep neural network, DNN)).相对于浅层学习模型, 深层学习模型擅长处理高维数据, 可以较好地挖掘语音信号上下文信息的时空结构.其中, 最典型的深度神经网络借助其深层非线性结构, 可以设计出精细的非线性滤波器.同时作为数据驱动的方法, 可以充分学习混合语音和纯净语音之间的复杂的非线性关系.此外, 深度神经网络能学习噪声的模式, 可以很好地抑制一些非平稳噪声.目前许多针对基于深度神经网络语音分离技术的研究成果[5-8]已经展示了这项技术的优良性能与研究价值.

对于监督性学习算法, 计算目标是一个关键问题, 对监督性学习算法的性能有着重要影响.一方面, 计算目标体现了对真实目标语音的逼近程度; 另一方面, 不同计算目标估计的难易程度也不同.因此, 设计计算目标时, 要同时考虑对目标语音的近似程度和计算目标的估计难度.时频掩蔽作为计算目标, 其估计难度较低, 而且能有效抑制噪音, 提高目标语音的可懂度和感知质量[8-9], 作为语音分离系统的前端处理模块可以明显提高语音分离性能[10].常用的时频掩蔽有理想二值掩蔽(Ideal binary mask, IBM)和理想浮值掩蔽(Ideal ratio mask, IRM). IBM简易并能有效提高目标语音的可懂度, 但通常会产生残留的音乐噪声. IRM是理想二值掩蔽的平滑形式, 在纯净语音与噪声相互独立的假设条件下对目标语音可懂估计语音质量都有显著提升.近年来, 新的研究表明相位信息有助于提升语音感知质量, 复数域上的理想浮值掩蔽(Complex ideal ratio mask, cIRM) [11]同时估计实部和虚部的掩蔽, 获得了分离性能的进一步提升, 但同时也增加了目标估计的难度.相敏掩蔽(Phase sensitive mask, PSM) [12]是在目标掩蔽中引入了语音的相位信息, 并将计算目标限制在实数域上.我们之前提出的优化浮值掩蔽(Optimal ratio mask, ORM) [13]是对IRM的改进, 它考虑到了真实环境中纯净语音与噪声之间存在着一定相关性, 在理论上能够取得最小均方误差意义下的最大信噪比增益[14].本文在之前的研究基础之上[13], 首次将ORM作为基于深度神经网络语音分离系统的计算目标, 在算法在多种噪声环境及信噪比条件下进行了实验, 从语音可懂度和语音质量两方面进行评估, 并与其他几种时频掩蔽的分离效果进行了对比分析.结果表明, ORM对目标语音可懂度的提升效果理想, 并且对目标语音感知质量的提升要优于其他计算目标.

本文组织结构如下:第1节介绍了基于深度神经网络的单声道语音分离系统框架与流程; 第2节介绍了ORM的原理; 第3节介绍四种用于实验对比的常用时频掩蔽; 第4节是实验与结果分析; 第5节是总结.

1 基于深度神经网络的语音分离

本文采用基于深度神经网络的语音分离的系统框架[4, 15].从混合语音信号中提取声学特征作为神经网络的输入, 为便于对比, 实验中采用固定特征组[16].混合信号首先通过64通道的伽马通滤波器组, 对每个通道的输出进行分帧处理后得到时频单元矩阵(耳蜗谱图).对得到的时频单元进行特征提取, 得到的特征组包括振幅调制谱(Amplitude modulation spectrogram, AMS), 感知线性预测(Relative spectral transform PLP, RASTA-PLP), 梅尔频率倒谱系数(Mel-frequency cepstral coefficient, MFCC)和伽马通频率(Gammatone feature, GF).使用自回归与移动平均(Auto-regressive and moving average model, ARMA)模型[17]来平滑特征的时间轨迹.

$ \hat{C}(t)=\frac{\hat{C}(t-m)+\cdots+C(t)+\cdots+C(t+m)}{2m+1} $ (1)

其中, $C(t)$是第$t$帧的特征向量, ${\hat{C}(t)}$是滤波后的特征向量, $m$是滤波器的阶数.我们使用一个二阶滤波器$(m=2)$以获得低信噪比条件下分离性能的稳定提升.

深度神经网络的结构包括三个隐层, 每层1 024个节点, 激活函数为线性纠正函数(Rectified linear units, ReLU) [18].网络训练采用标准反向传播算法与Dropout技术[19] (丢失率0.2).神经网络采用随机初始化权值.自适应梯度下降[20]与一个动量项作为优化手段, 前五次迭代动量变化率为0.5, 剩余迭代动量变化率为0.9.神经网络的训练采用均方误差作为代价函数, 输出层为线性输出.训练目标为带有上下文信息(前后各两帧)的计算目标, 最终的预测是各帧的平均值, 如图 1所示.与预测单帧目标相比, 这样做能够产生小幅但稳定的性能提升[9].

图 1 基于ARMA模型的深度神经网络 Figure 1 ARMA based DNN architecture
2 优化浮值掩蔽

传统的IBM与IRM均是在假设纯净语音与噪声相互独立的前提条件下, 而ORM考虑了纯净语音与噪声之间相关性.

对于混合语音信号$y(t)$, $x(t)$$n(t)$分别为纯净语音信号和噪声信号.

$ y(t)=x(t)+n(t) $ (2)

语音分离的目标是从混合信号$y(t)$中估计得到纯净语音信号$x(t)$.而纯净语音信号的估计可以由离散短时傅里叶变换(Discrete short-time Fourier transform, DSTFT)系数重构得到[21], 即

$ \hat{x}(t)=\frac{1}{T}\sum\limits_{\tau=0}^{T-1}g(t-\tau)\sum\limits_{f=0}^{T-1}\hat{S}_{x}(\tau, f)\exp\left(\frac{i2\pi ft}{T}\right) $ (3)

其中, ${\hat{S}_{x}(\tau, f)}$为纯净语音DSTFT系数的估计, 估计出的目标语音与纯净语音的最小均方误差为

$ L(\hat{x}, x)=\frac{1}{T}\sum\limits_{\tau=0}^{T-1}\sum\limits_{f=0}^{T-1}\left|\hat{S}_{x}(\tau, f)-S_{x}(\tau, f)\right|^{2} $ (4)

根据线性掩蔽模型, 即${\hat{S}_{x}(k)=\gamma(k)S_{y}(k)}$, 以及能量谱密度${P(\tau, f)=|S(\tau, f)|^{2}}$, 推导得到

$ \begin{align} L(\hat{x}, x)=&\ \frac{1}{T}\left(\sum\limits_{k}[(\gamma(k)-1)^{2}P_{x}(k) +\right.\\ &\ \gamma^{2}(k)P_{n}(k)] +\\ &\ \left.\sum\limits_{k}2\gamma(k)(\gamma(k)-1)\Re(S_{x}(k)S_{n}^{\ast}(k))\right) \end{align} $ (5)

求导得到ORM表达式

$ \gamma(k)=\frac{P_{x}(k)+\Re(S_{x}(k)S_{n}^{\ast}(k))}{P_{x}(k)+P_{n}(k)+2\Re(S_{x}(k)S_{n}^{\ast}(k))} $ (6)

其中, ${\Re(\cdot)}$表示取复数的实部, ${\ast}$表示共轭操作.观察ORM表达式, 注意到其形式与IRM存在一定联系, 即当${\Re(S_{x}(k)S_{n}^{\ast}(k))}=0$时, ORM = IRM.

${\Re(S_{x}(k)S_{n}^{\ast}(k)})$的取值与纯净语音和噪声之间的相关性有关, 传统的IRM假设纯净语音与噪声相互独立, 即${\Re(S_{x}(k)S_{n}^{\ast}(k)})$, 而在真实环境中纯净语音与噪声具有一定相关性.图 2为纯净语音与噪声的相关性估计, 横轴为频率, 纵轴为相关性系数.相关性系数越接近0表示纯净语音与噪声相关性越小, 越接近1表示二者相关性越大.从图 2可以看出, 纯净语音与噪声相关程度较高, ${\Re(S_{x}(k)S_{n}^{\ast}(k)})$的取值对掩蔽影响较大.

图 2 纯净语音与噪声的相关系数 Figure 2 Spectral correlation of clean speech and noise

ORM是取值范围在${(-\infty, +\infty)}$上的实数, 取值范围较大, 本文利用双曲正切函数对其进行范围限制.

$ ORM(t, f)=K\frac{1-{\rm e}^{-C\times\gamma(t, f)}}{1+{\rm e}^{-C\times\gamma(t, f)}} $ (7)

压缩后ORM的取值范围被限制在$[-K, K]$内, $C$控制陡度.实验发现当$K=10$, $C =0.1$时神经网络学习的效果最佳.相应地, 对目标信号进行波形合成前需通过下式将信号还原:

$ \hat{\gamma}(t, f)=-\frac{1}{C}{\rm log}\left(\frac{K-O}{K+O}\right) $ (8)

其中, $O$为神经网络的输出.图 3为在混合语音信噪比为0 dB工厂噪声环境下计算得到的ORM.

图 3 工厂噪声信噪比0 dB条件下的ORM Figure 3 ORM with factory noise at 0 dB SNR
3 其他时频掩蔽目标

本文选用以下四种时频掩蔽作为对比对象.假定输入信号采样率为16 kHz, 分析窗长20 ms, 帧移为10 ms.图 4是在混合信号信噪比为0 dB工厂噪声环境下分别计算得到的四种时频掩蔽.

图 4 工厂噪声信噪比0 dB条件下各计算目标 Figure 4 Various training targets for an IEEE utterance mixed with a factory noise at 0 dB SNR
3.1 傅里叶变换域的理想二值掩蔽(FFT Ideal Binary Mask, IBM_FFT)

计算听觉场景分析将语音分离的计算目标定义为IBM. IBM_FFT是频域的IBM.在一个声音信号的时频表示上, IBM_FFT是一个二值矩阵, 矩阵的两个维度分别是时间和频率, 其中每个值对应一个时频单元, 取值为1表示目标语音的能量高于背景噪声的能量, 取值为0表示相反的情况.

$ \begin{align} &IBM_{\rm FFT}(t, f) = \begin{cases} 1, & \mbox{若}~ S(t, f)-N(t, f)>\theta \\ 0, & \mbox{其他} \\ \end{cases} \end{align} $ (9)

其中, $S(t, f)$$N(t, f)$分别是目标语音和噪声在时频单元$(t, f)$上的能量, ${\Theta}$为局部信噪比指标, 一般设为0 dB.训练时采用二值目标, 测试时使用神经网络的后验概率代表纯净语音优势的概率作为合成的软掩蔽, 这样可以提高语音分离质量.

3.2 傅里叶变换域的理想浮值掩蔽(FFT Ideal Ratio Mask, IRM_FFT)

IRM_FFT是傅里叶域的IRM. IRM_FFT的定义为

$ \begin{align} &IRM_{\rm FFT}(t, f)=\\[2mm] &\qquad\left(\frac{S^{2}(t, f)}{S^{2} (t, f)+N^{2}(t, f)}\right)=\\[2mm] &\qquad \left(\frac{P_{s}(t, f)}{P_{s}(t, f)+P_{n}(t, f)}\right) \end{align} $ (10)

其中, $S(t, f)$$N(t, f)$分别代表纯净语音信号和噪声信号的短时傅里叶变换(Short-time Fourier transform, STFT)系数, ${P_{s}(t, f)}$${P_{n}(t, f)}$分别是对应的能量密度, ${\beta}$是可调因子, 一般设为0.5.与IBM一样, IRM假定纯净语音与噪声相互独立. IRM_FFT是取值范围在$[0, 1]$上的实数.

3.3 复数域的理想浮值掩蔽(Complex Ideal Ratio Mask, cIRM)

传统的语音分离系统通常是作用于带噪语音的STFT系数上, 增强幅值谱, 保持相位谱不变.然而近年来有研究表明, 相位信息对于语音感知质量同样具有重要影响[22], 基于此结论Williamson等[11]提出了cIRM. cIRM是定义在复数域上的IRM, 深度神经网络经过训练得到cIRM的实数部分与虚数部分的估计, 通过这种方式同时增强幅值和相位谱.

cIRM的定义:混合信号的STFT系数在经cIRM作用后可得到纯净语音信号的STFT系数, 即给出混合信号的复数频谱$Y$, 可得到纯净语音信号的复数频谱$S$, 于是有

$ S_{t, f}=M_{t, f}\ast Y_{t, f} $ (11)

其中, ${\ast}$定义复数乘法操作, ${M_{t, f}}$代表时间帧为$t$频率为$f$的时频单元的cIRM.注意到$S$, $M$, $Y$取值均为复数, 将其表示为矩阵形式后推导得到cIRM的表达式为

$ M=\frac{Y_{r}S_{r}+Y_{i}S_{i}}{Y_{r}^{2}+Y_{i}^{2}}+{\rm i}\frac{Y_{r}S_{i}-Y_{i}S_{r}}{Y_{r}^{2}+Y_{i}^{2}} $ (12)

其中, ${Y_{r}}$${S_{r}}$分别代表$Y$$S$的实部, ${Y_{i}}$${S_{i}}$分别代表$Y$$S$的虚部.注意到cIRM在形式上与维纳滤波相似, 即都是纯净语音与带噪语音的交叉能量与带噪语音的能量谱的复数比值[23].

由于${Y_{r}}$, ${S_{r}}$, ${Y_{i}}$, ${S_{i}}$的数值都是实数, cIRM的实部与虚部可能会在${(-\infty, +\infty)}$上取到很大的值.而IRM取值在$[0, 1]$范围内, 便于神经网络的收敛, cIRM取值较大会使估计变得困难, 因此需采用双曲正切函数对cIRM进行范围限制.

3.4 相敏掩蔽(Phase Sensitive Mask, PSM)

使用浮值掩蔽作为计算目标时, 重构出的目标信号中带有混合信号中的相位信息, 相位误差与振幅会相互影响, 重构出的信噪最大增益目标信号的振幅与纯净语音的振幅信息是不同的. PSM采用了一个基于包含振幅误差与相位误差的复数谱上的相位敏感目标函数.这使得估计出的振幅信息补偿了混合信号的相位信息.按照这种思想, PSM表达式为

$ PSM(t, f)=\frac{|S(t, f)|}{|Y(t, f)|}\cos(\theta) $ (13)

其中, ${\theta=\theta^{s}-\theta^{y}}$, $S$$Y$分别是纯净语音与带噪信号的DSTFT系数. PSM取值范围较大不容易被学习, 需采用双曲正切函数限制取值范围.

4 实验设计与分析 4.1 语音与噪声的分离 4.1.1 实验设置

实验采用IEEE语音库[24]男性说话者720句语音中的600句语音作为训练集的纯净语音, 另外120句语音作为测试集的纯净语音.使用SSN (Speech-shaped noise)噪声以及来自NOISEX噪音库[25]的三种噪声: Factory, Babble, Engine噪音作为训练集与测试集的噪声, 噪声时长均为4分钟, 除SSN噪声外, 其他三种噪声均是非平稳噪声.实验中使用的噪声类型均为加性噪声, 我们通过以下方式得到混合语音信号:从噪声的前半段中随机切分出噪声段与训练集中的纯净语音叠加, 得到信噪比分别为-3 dB, 0 dB, 3 dB的混合信号, 这样训练集中共有72 000 (600个信号$\times$ 4种噪声$\times$ 10次切分$\times$ 3个信噪比)条混合语音信号.从噪声的后半段随机切分出噪声段与测试集中的纯净语音混合, 得到信噪比分别为-3 dB, 0 dB, 3 dB的混合信号, 这样测试集中共有1 440 (120个信号$\times$ 4种噪声$\times$ 3个信噪比)条混合语音信号.将噪声分为前后两部分分别进行切分保证了训练阶段与测试阶段使用的噪声不同.

神经网络的输入采用了四种特征的补充特征集.从混合信号中提取出互补特征后, 对其减均值除方差进行归一化处理.经验证明将自回归滑动平均滤波(Auto-regressive and moving average model, ARMA)作用于特征组能够提升语音识别性能[17], 这是因为ARMA滤波平滑每个特征维度来减少背景噪音的干扰.此外, ARMA滤波能够提升语音的分离效果[26].综上, 我们在均值和方差归一化后将ARMA滤波作用于特征集. ARMA滤波后当前帧的特征向量是当前帧的前两个滤波后帧和后两个未滤波帧的平均.一个窗长5帧(前2帧与后2帧)的上下文窗口将ARMA滤波后特征拼接为特征向量.

4.1.2 实验结果与分析

语音分离系统以提高分离语音的可懂度和感知质量为目标, 本文采用短时客观可懂度评分(Short-time objective intelligibility, STOI) [27]和语音质量评估(Perceptual evaluation of speech quality, PESQ) [28]作为评价指标. STOI用来衡量客观可懂度, 短时客观可懂度代表了短时时间包络内干净分离语音的相关度, 经证明与人类语音的可懂度评分高度相关. PESQ用来评估客观语音质量.短时客观可懂度与语音质量评估都是通过比较纯净语音与目标语音, 短时客观可懂度取值在0 $\sim$ 1之间, 而语音质量评估取值在$-0.5$ $\sim$ $4.5$之间.

表 1 ~ 3是在混合语音信号信噪比分别为-3 dB, 0 dB, 3 dB条件下, 上述各计算目标在四种噪声环境下得到的语音分离结果, Mixture代表未经处理的混合语音信号, 粗体标示的是每一种噪声环境下得分最高的计算目标.

表 1 信噪比-3 dB噪声条件下各计算目标性能 Table 1 Performance comparisons between various targets on -3 dB mixtures
表 2 信噪比0 dB噪声条件下各计算目标性能 Table 2 Performance comparisons between various targets on 0 dB mixtures
表 3 信噪比3 dB噪声条件下各计算目标性能 Table 3 Performance comparisons between various targets on 3 dB mixtures

IBM和IRM是目前最常用的时频掩蔽.从表 1 $\sim$ 3可以看出, IBM对语音可懂度有一定提升效果, 但语音感知质量提升效果不明显, 很多情况下甚至低于混合语音.这是由于IBM具有二值性, 会在分离的同时产生音乐噪声.相对于IBM, IRM对语音可懂度和感知质量均有明显提升, 特别是在语音感知质量方面, IRM相对于IBM提升效果明显, 如在信噪比0 dB工厂噪声环境下, IRM的感知质量相对于IBM和混合信号分别提升了0.86和0.55.

cIRM, PSM, ORM是近年来提出的取值范围较大的时频掩蔽, 其中cIRM理论上分离效果最好, 从实验结果看, cIRM对语音可懂度提升效果与IRM相近, 语音感知质量相对于IRM提升了0.1左右. cIRM和PSM都考虑了相位信息, cIRM属于复数域而PSM限制在实数域, 从表 1 $\sim$ 3可以看出, PSM在语音可懂度方面相对于cIRM和混合语音分别提升了$1 \%$ $\sim$ $2 \%$$12 \%$ $\sim$ $22 \%$, 提升效果优于其他计算目标, 语音感知质量相对于cIRM提升了0.07 $\sim$ 0.19. PSM的分离性能优于cIRM是因为cIRM虚部结构不明显, 不容易被估计, 实际分离效果很难达到理论水平.

实验结果表明, ORM对语音可懂度的提升效果总体上与PSM相近, 对语音感知质量提升效果优于PSM.从表 1观察到, ORM对语音可懂度提升幅度比PSM低$1 \%$, 但优于其他计算目标; 在语音感知质量方面, 在SSN, Engine, Factory噪声条件下ORM效果最好, 比混合语音提升了0.81 $\sim$ 1.07, 比PSM提升了0.05 $\sim$ 0.07, 在Babble噪声条件下, PSM比ORM高0.05.当混合语音信噪比为0 dB, 对于语音可懂度, 在SSN噪声条件下ORM比PSM低$1 \%$, 其他噪声条件下ORM与PSM性能相近; 对于语音感知质量, 在四种噪声条件下ORM提升效果其他计算目标, 比混合语音提高了0.6 $\sim$ 1.1.表 3中, 在Engine噪声条件下ORM语音可懂度比PSM低$1 \%$, 其他噪声条件下ORM与PSM得分相同; 语音感知质量方面, 四种噪声条件下ORM效果最优.总体上讲, ORM分离效果优于其他四种计算目标. ORM在浮值掩蔽基础上考虑了纯净语音与噪声相关性, 而PSM考虑了相位信息. ORM总体表现优于PSM, 可能是因为纯净语音与噪声间的相关性比语音信号的相位信息对语音分离效果影响更大, 还原出的目标信号更加逼近真实目标语音.

图 5展示了来自IEEE语音库的一条纯净语音与其在Babble噪声条件下3 dB的混合语音的STFT频谱图, 以及将~IBM_FFT, IRM_FFT, cIRM, ORM, PSM~分别作为计算目标分离得到目标语音的STFT频谱图.从图 5可看出, IBM_FFT保留了纯净语音的频谱时间调制模式, 这对于语音可懂度是必不可少的, 但丢失了很多信息. cIRM和ORM具有更为清晰的端点和更分明的频谱过渡. ORM和PSM对于语音能量聚集的低频区域预测效果较好. cIRM对中高频信号能量保留效果较好, 但有一定残留噪声.在视觉上, ORM与PSM预测结果相似, 都保留了重要的调制模式及结构.

图 5 Babble噪声信噪比3 dB条件下由各个计算目标分离出目标语音的频谱图 Figure 5 STFT magnitudes of a separated speech using different training targets. The mixture here is an IEEE male utterance mixed with the Babble noise at 3 dB
4.2 不同人声的分离 4.2.1 实验设置

实验采用两个不同说话人语音数据, 一种作为目标语音, 另一种作为干扰语音.采用IEEE语音库男性说话者720句语音中的600句语音作为训练集的目标语音, 另外120句语音作为测试集的目标语音.采用IEEE语音库女性说话者720句语音中的160句作为干扰语音.通过以下方式得到混合语音信号:将160句干扰语音分为各80句的两个部分, 从第一部分中随机切分出语音段与训练集中目标语音叠加, 得到信噪比分别为-3 dB, 0 dB, 3 dB的混合信号, 这样训练集中共有18 000 (600个信号$\times$ 10次切分$\times$ 3个信噪比)条混合语音信号; 从第二部分中随机切分出语音段与测试集中目标语音叠加, 得到信噪比分别为-3 dB, 0 dB, 3 dB的混合信号, 这样测试集中共有360 (120个信号$\times$ 3个信噪比)条混合语音信号.

实验使用的特征组和神经网络的网络结构及参数设置均与之前的实验相同.

4.2.2 实验结果与分析

表 4是在混合语音信号信噪比分别为$-3$ dB, 0 dB, 3 dB条件下, 利用上述各计算目标得到的不同人声分离结果.从表 4可以看出, 在三种信噪比条件下, 各计算目标性能高低情况一致.对于语音可懂度, 各计算目标均有理想的提升效果并且性能相近, 其中PSM与ORM性能最佳, 相对于混合信号提升了$20 \%$ $\sim$ $25 \%$.在语音质量方面, ORM的性能优于其他计算目标, 相对于混合信号提升了0.96 $\sim$ 1.07.总体上, 对不同人声的分离, ORM的分离效果优于其他几种计算目标.这个实验结果与语音和噪声分离的实验结果基本一致.

表 4 各计算目标对不同人声的分离结果 Table 4 Performance comparisons between various targets on separation of different speakers

图 6展示了不同人声语音分离结果的STFT频谱图, 混合语音是将来自IEEE语音库的女性说话人语音作为干扰语音, 同时男性说话人语音作为目标语音, 在信噪比0 dB下混合语音信号的频谱图, 纯净语音为该混合语音中男性说话人的纯净语音频谱图, IBM_FFT, IRM_FFT, cIRM, ORM, PSM分别表示采用各训练目标分离得到目标语音的频谱图.从图 6可以看出, 相比于IRM_FFT和cIRM, ORM与PSM有更为清晰的端点和更分明的频谱过渡, 没有过多的噪声残留. ORM和PSM都保留了重要的频谱结构, 而ORM的预测结果更接近纯净语音.

图 6 0 dB条件下男女声分离频谱图 Figure 6 STFT magnitudes of a separated speech using different training targets. The mixture here is an IEEE male utterance mixed with an IEEE female utterance at 0 dB
5 结束语

对于监督性语音分离算法, 计算目标对分离算法的性能有着重要影响. IBM和IRM是目前最常用的时频掩蔽目标, 其中IBM对语音可懂度有一定提升, 但不能提升语音感知质量. IRM在假设纯净语音与噪声相互独立的条件下, 对语音可懂度和感知质量都有一定程度的提升.近年来新的研究表明, 相位信息对语音分离性能有重要影响, 基于此提出了cIRM和PSM. cIRM理论上分离效果最好, 但其虚部结构不明显, 不容易被学习. PSM对语音可懂度和感知质量都有显著提升, 分离性能优于其他计算目标.本文采用我们之前提出的ORM, 考虑了纯净语音与噪声间的相关性, 实验结果表明ORM对语音感知质量的提升效果最优, 对语音可懂度提升能力与PSM相近.总体上, ORM语音分离效果优于其他四种计算目标.说明真实环境中噪声与纯净语音间确实存在一定的相关性, 并且相对于语音信号的相位信息, 噪声与纯净语音间的相关性信息更有利于提升语音分离的性能.据此, 我们认为对纯净语音与噪声间的相关性分析, 以及如何更好地估计这种相关性, 可能会成为今后监督性语音分离中计算目标研究的一个新方向.

参考文献
1
Woodruff J. Integrating Monaural and Binaural Cues for Sound Localization and Segregation in Reverberant Environments[Ph. D. dissertation], The Ohio State University, USA, 2012.
2
Wang D L, Brown G J. Computational Auditory Scene Analysis:Principles, Algorithms, and Applications. Hoboken, NJ: Wiley-IEEE Press, 2006.
3
Wang D L. On ideal binary mask as the computational goal of auditory scene analysis. Speech Separation by Humans and Machines. US: Springer, 2005. 181-197
4
Wang Y X, Wang D L. Towards scaling up classification-based speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(7): 1381-1390. DOI:10.1109/TASL.2013.2250961
5
Huang P S, Kim M, Hasegawa-Johnson M, Smaragdis P. Joint optimization of masks and deep recurrent neural networks for monaural source separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(12): 2136-2147. DOI:10.1109/TASLP.2015.2468583
6
Wang Y X. Supervised Speech Separation Using Deep Neural Networks[Ph. D. dissertation], The Ohio State University, USA, 2015.
7
Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. Latent Variable Analysis and Signal Separation. Cham: Springer International Publishing, 2015. 91-99
8
Xu Y, Du J, Dai L R, Lee C H. An experimental study on speech enhancement based on deep neural networks. IEEE Signal Processing Letters, 2014, 21(1): 65-68. DOI:10.1109/LSP.2013.2291240
9
Wang Y X, Narayanan A, Wang D L. On training targets for supervised speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12): 1849-1858. DOI:10.1109/TASLP.2014.2352935
10
Narayanan A, Wang D L. Investigation of speech separation as a front-end for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(4): 826-835. DOI:10.1109/TASLP.2014.2305833
11
Williamson D S, Wang Y X, Wang D L. Complex ratio masking for monaural speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(3): 483-492. DOI:10.1109/TASLP.2015.2512042
12
Erdogan H, Hershey J R, Watanabe S, Le Roux J. Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks. In: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech, and Signal Processing. South Brisbane, QLD, Australia: IEEE, 2015. 708-712
13
Liang S, Liu W J, Jiang W, Xue W. The optimal ratio time-frequency mask for speech separation in terms of the signal-to-noise ratio. Journal of the Acoustical Society of America, 2013, 134(5): 452-458. DOI:10.1121/1.4824632
14
Liang S, Liu W J, Jiang W, Xue W. The analysis of the simplification from the ideal ratio to binary mask in signal-to-noise ratio sense. Speech Communication, 2014, 59: 22-30. DOI:10.1016/j.specom.2013.12.002
15
Wang Y X, Wang D L. Cocktail party processing via structured prediction. In: Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: Curran Associates Inc., 2012. 224-232
16
Wang Y X, Han K, Wang D L. Exploring monaural features for classification-based speech segregation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(2): 270-279. DOI:10.1109/TASL.2012.2221459
17
Chen C P, Bilmes J A. MVA processing of speech features. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(1): 257-270. DOI:10.1109/TASL.2006.876717
18
Glorot X, Bordes A, Bengio Y. Deep sparse rectifier networks. In: Proceedings of the 2010 NIPS Workshop on Deep Learning and Unsupervised Feature Learning. Vancouver, BC, Canada: NIPS, 2010.
19
Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R R. Improving neural networks by preventing co-adaptation of feature detectors. Computer Science, 2012, 3(4): 212-223.
20
Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. The Journal of Machine Learning Research, 2011, 12: 2121-2159.
21
Mallat S. A Wavelet Tour of Signal Processing. San Diego, USA: Academic Press, 1998.
22
Paliwal K, Wójcicki K, Shannon B. The importance of phase in speech enhancement. Speech Communication, 2011, 53(4): 465-494. DOI:10.1016/j.specom.2010.12.003
23
Loizou P C. Speech Enhancement: Theory and Practice (2nd edition). Boca Raton, FL, USA: CRC Press, 2013.
24
Rothauser E H, Chapman W D, Guttman N, Silbiger H R, Hecker M H L, Urbanek G E, et al. IEEE Recommended Practice for Speech Quality Measurements, IEEE Standard 297, 1969.
25
Varga A, Steeneken H J M. Assessment for automatic speech recognition:Ⅱ. NOISEX-92:a database and an experiment to study the effect of additive noise on speech recognition systems. Speech Communication, 1993, 12(3): 247-251. DOI:10.1016/0167-6393(93)90095-3
26
Chen J T, Wang Y X, Wang D L. A feature study for classification-based speech separation at very low signal-to-noise ratio. In: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech, and Signal Processing. Florence, Italy: IEEE, 2014. 7039-7043
27
Taal C H, Hendriks R C, Heusdens R, Jensen J. An algorithm for intelligibility prediction of time-frequency weighted noisy speech. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(7): 2125-2136. DOI:10.1109/TASL.2011.2114881
28
Rix A W, Beerends J G, Hollier M P, Hekstra A P. Perceptual evaluation of speech quality (PESQ)——a new method for speech quality assessment of telephone networks and codecs. In: Proceedings of the 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Salt Lake City, UT, USA: IEEE, 2001. 749-752