自动化学报  2017, Vol. 43 Issue (7): 1208-1219   PDF    
基于DNN的低资源语音识别特征提取技术
秦楚雄1, 张连海1     
1. 信息工程大学信息系统工程学院 郑州 450001
摘要: 针对低资源训练数据条件下深层神经网络(Deep neural network,DNN)特征声学建模性能急剧下降的问题,提出两种适合于低资源语音识别的深层神经网络特征提取方法.首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对深层瓶颈神经网络的辅助训练,针对BN层位于共享层的特点,引入Dropout,Maxout,Rectified linear units等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次为了改善深层神经网络特征提取方法,提出一种基于凸非负矩阵分解(Convex-non-negative matrix factorization,CNMF)算法的低维高层特征提取技术,通过对网络的权值矩阵分解得到基矩阵作为特征层的权值矩阵,然后从该层提取一种新的低维特征.基于Vystadial 2013的1小时低资源捷克语训练语料的实验表明,在26.7小时的英语语料辅助训练下,当使用Dropout和Rectified linear units时,识别率相对基线系统提升7.0%;当使用Dropout和Maxout时,识别率相对基线系统提升了12.6%,且网络参数数量相对其他系统降低了62.7%,训练时间降低了25%.而基于矩阵分解的低维特征在单语言训练和辅助训练的两种情况下都取得了优于瓶颈特征(Bottleneck features,BNF)的识别率,且在辅助训练的情况下优于深层神经网络隐马尔科夫识别系统,提升幅度从0.8%~3.4%不等.
关键词: 低资源语音识别     深层神经网络     瓶颈特征     凸非负矩阵分解    
Deep Neural Network Based Feature Extraction for Low-resource Speech Recognition
QIN Chu-Xiong1, ZHANG Lian-Hai1     
1. Department of Information and System Engineering, Information Engineering University, Zhengzhou 450001
Manuscript received : October 16, 2015, accepted: October 20, 2016.
Foundation Item: Supported by National Natural Science Foundation of China (61673395, 61302107, 61403415)
Author brief: ZHANG Lian-Hai Associate professor in the Department of Information and System Engineering, Information Engineering University. His research interest covers speech signal processing and intelligent information processing
Corresponding author. QIN Chu-Xiong Ph. D. candidate in the Department of Information and System Engineering, Information Engineering University. His main research interest is intelligent information processing. Corresponding author of this paper.E-mail:chuxiongq313@gmail.com
Recommended by Associate Editor JIA Jia
Abstract: To alleviate the performance degradation that deep neural network (DNN) based features suffer from transcribed training data is insufficient, two deep neural network based feature extraction approaches to low-resource speech recognition are proposed. Firstly, some high-resource corpuses are used to help train a bottleneck deep neural network using a shared-hidden-layer network structure and dropout, maxout, and rectified linear units methods are exploited in order to enhance the training effect and reduce the number of network parameters, so that the overfitting problem by irregular distributions of multi-stream training samples can be solved and multilingual training time can be reduced. Secondly, a convex-non-negative matrix factorization (CNMF) based low-dimensional high-level feature extraction approach is proposed. The weight matrix of hidden layer is factorized to obtain the basis matrix as the weight matrix of the newly formed feature-layer, from which a new type of feature is extracted. Experiments on 1 hour's Vystadial 2013 Czech low-resource training data show that with the help of 26.7 hours' English training data, the recognition system obtains a 7.0% relative word error rate reduction from the baseline system when dropout and rectified linear units are applied, and obtains a 12.6% relative word error rate reduction while reduces 62.7% relative network parameters and 25% training time as compared to other proposed systems when dropout and maxout are applied. Matrix factorization based features perform better than bottleneck features (BNF) in both low-resource monolingual and multilingual training situations. They also gain better word accuracies than the state-of-art deep neural network hidden Markov models hybrid systems, by from 0.8% to 3.4%.
Key words: ow-resource speech recognition     deep neural network (DNN)     bottleneck features (BNF)     convexnonnegative matrix factorization (CNMF)    

在训练样本充足的大词汇量连续语音识别(Large vocabulary continuous speech recognition, LVCSR)中, 使用传统的声学特征训练高斯混合模型-隐马尔科夫模型(Gaussian mixture models hidden Markov models, GMM-HMM)搭建识别系统可以取得良好的识别率.然而由于GMM-HMM是基于最大似然准则(Maximum likelihood estimation, MLE)进行训练的, 因此当特征的分布不平稳或者较为复杂时, 所需建模参数会增多, 在理论上需要使用大量的样本进行训练才能取得良好的效果, 所以在训练数据有限的低资源语音识别任务中, 使用传统声学特征训练GMM-HMM的方法并不可行[1].

基于深层神经网络(Deep neural network, DNN)模型提取的特征往往具有分布平稳、易于建模等特点, 典型的是瓶颈特征(Bottleneck features, BNF), 这种使用DNN作为特征提取模块并使用GMM-HMM进行声学建模所构成的系统称为级联(Tandem)系统, Tandem系统明显优于使用传统特征训练的GMM-HMM识别系统[2-3], 在LVCSR任务中它可以取得足以媲美深层声学模型DNN-HMM的性能, 甚至在一些情况下更加优异[4], 使用DNN提取特征具有一定优势, 它可以联合特征的上下文(Context)信息形成长时特征矢量, 并且具有深层次的非线性变换能力, 因此DNN能够从有限的数据中挖掘出更多的信息[4-5].

然而在低资源条件下, DNN无法通过有限的训练样本得到有效的训练, 因此所提取特征的性能自然会受到影响.针对该问题, 研究者们陆续提出了一些强化DNN特征提取模块的方法.Lal等[6]提出一种通过提取辅助语料Tandem特征进行低资源跨语言的声学建模方法, 实验表明新的系统相比于MFCC特征的基线系统在识别率方面有了显著提升; Veselý等[7]和Tüske等[8]均提出了使用多层感知器(Multi-layer perceptron, MLP)对具有相同音素集的多语言提取BNF的方法, 并通过实验证明该方法取得了优于单语言训练的效果; Gehring等[9]提出使用基于多语言共享隐含层(Shared-hidden-layer, SHL)结合自编码(Autoencoder)技术提取特征, 该特征在Tandem系统和DNN-HMM混合系统中均表现出优异的性能; Miao等[10]提出使用共享隐含层多语言DNN (Shared-hidden-layer multilingual deep neural network, SHL-MDNN)结合卷积神经网络(Convolutional neural network, CNN)提取上千维的高维卷积网络神经元输出作为特征, 实验证明该特征优于同维数的DNN特征.改善DNN特征提取模块的研究有很多, 但上述研究中仅有少数是针对低资源的情况.

鉴于此, 本文提出两种方法对低资源环境下的DNN特征提取过程进行改进.

第一种方法从提高训练效果的角度出发, 提出一种基于SHL结构的改进的BN-DNN特征提取模型.不同于一般的SHL多语言训练过程, 由于此时辅助语料的数量远多于低资源目标语料, 且BN层位于共享层, 因此容易出现训练不平衡的现象.本文提出借助Dropout技术的子模型平均原理, 降低对某类特征的过拟合程度, 改善多语言训练效果, 并使用Maxout, ReLU (Rectified linear units)替代传统的Sigmoid激活函数, 在最大化Dropout训练效果的同时, 降低训练时间.实验表明, 当加入一定辅助语料时, 该特征的性能明显优于单语言训练得到的特征; 当引入Dropout, Maxout和ReLU改进技术后, 特征性能得到较明显的提升, 训练效果得到进一步改善, 训练时间得到一定降低.

第二种方法从改善DNN特征性能的角度出发, 提出一种基于矩阵分解算法的低维高层特征提取方法.传统的通过设立BN层提取DNN特征(BNF)的方法存在一个缺陷, 即BN层的存在降低了DNN的分类准确率, 因此BNF并不能充分体现DNN的性能.对此, 本文提出一种"先训练、后降维"的思想对该问题进行改善.具体来说, 通过使用一种凸非负矩阵分解(Convex-nonnegative matrix factorization, CNMF)的算法对DNN某一层的权值矩阵进行分解, 得到基矩阵作为特征层的权值矩阵, 在不设立偏移量的情况下从该层提取线性输出作为一种新的低维特征.在两种不同语言的低资源实验中, 该特征均取得了优于传统BNF的识别率, 且具有稳定的规律.当结合SHL-MDNN提取特征时, 该特征所训练的Tandem系统的识别率在某些实验中优于BNF-tandem系统和DNN-HMM系统.

本文组织结构如下:第1节介绍基于SHL的BN-DNN训练与提取特征的原理; 第2节介绍基于CNMF算法的特征提取方法; 第3节介绍实验设置以及结果分析; 第4节为本文的结论部分.

1 一种改进的基于SHL结构的BN-DNN

SHL-MDNN是Huang等[11]提出的一种较为新颖的多语言训练网络结构, 如图 1(a)所示.它可以实现N种语料的并行式训练, 在该训练过程中它们相互补充.本文将共享隐含层改造为BN结构的隐含层, 提出基于SHL结构的低资源BN-DNN训练方式.

图 1 基于SHL的网络结构示意图 Figure 1 SHL based network structures

在SHL结构的网络中, 每一个Softmax层对应各自训练语料的三音子绑定状态(Senones), 仅有隐含层的参数在训练中是共享的, 各输出层的参数的更新计算与其他输出层的参数不相关.然而当普通的隐含层结构换成BN层结构后, 不容易取得良好的训练效果, 原因在于DNN用作声学建模和特征提取时, 最终使用的层是不同的.当构建时, Softmax层不参与共享训练, 与其他辅助语料没有直接关联, 因而不容易产生偏向性的问题; 而构建BN-DNN提取特征时, BN层位于共享层, 其训练效果与所有参与训练的语料相关联, 虽然各语言特征具有一定声学相似性, 但是特征流的具体分布是不同的, 网络参数会受到来自其他语言数据的直接干扰.此外, SHL-MDNN的网络参数规模较大, 多语言训练耗时较多也是一个亟待解决的问题.

针对这些问题, 本文对基于SHL的BN-DNN的训练做出改进.在多流特征的训练中, 某一流特征数据量较大造成的语言偏向性问题本质是训练过拟合问题.Dropout训练技术可以有效防止DNN在训练时出现过拟合现象, 进而提升识别的准确性[12].Dropout通过概率控制DNN隐含层节点在训练中是否被"激活", 在每次训练中, 每个节点在每轮训练时都以一个隐含层遗弃因子(Hidden drop factor, HDF)作为概率, 决定是否参与当次的参数更新.由于每次随机忽略的节点都有所不同, 故最终模型相当于由不同的子模型叠加而成, 且每种子模型的参数都是相关的.这种对子模型做平均的方法使得DNN不过分依赖于某一种特征分布, 保证BN层最大化获取多语言特征流的声学相似性信息.因此在多流数据交杂的SHL训练中, 该技术可以有效提升BN层的训练效果.此外, 为了配合Dropout技术, 往往舍弃传统的Sigmoid函数, 采用其他激活函数.Maxout是一种可以最大化Dropout训练效果的激活函数[13], 该函数通过降低实际的激活的隐含层节点数量来降低网络参数规模; ReLU (Rectified linear units)则是一种可以提升DNN的泛化性能的激活函数, 并且根据文献[14], 使用该函数可以加速DNN的训练过程.

基于Dropout训练, 第l个隐含层的真实样本输出可以写为

$\begin{align}\label{eq1} {{\pmb{x}}_l}\left( t \right) = {{\pmb{u}}_l}\left( t \right) \otimes {{D}}\left( t \right), \ 1 \leq l \leq L\end{align}$ (1)

其中, ${{\pmb{u}}_{l}}\left( t\right)$为该层在Dropout处理之前的激活元输出, ${D}\left( t\right)$$ {{\pmb{u}}_{l}}\left( t \right)$维度相同, ${D}\left( t\right)$中元素是以HDF为概率分布的二值采样, 通过该二值矩阵的变换, 得到每一层的真实的激活元输出.设第$l-1$层有1个节点, 对于不同的激活函数, ${{\pmb{u}}_{l}}\left( t \right)$计算方式不同.

$\left\{ \begin{array}{l} {\mathit{\boldsymbol{u}}_l}\left( t \right) = [\mathop {\max }\limits_i \left( {\mathit{\boldsymbol{x}}_{l - 1}^1\left( t \right), \cdots ,\mathit{\boldsymbol{x}}_{l - 1}^i\left( t \right)} \right), \cdots ,\\ \quad \mathop {\max }\limits_i \left( {\mathit{\boldsymbol{x}}_{l - 1}^{\left( {j - 1} \right) \times i + 1}\left( t \right), \cdots ,\mathit{\boldsymbol{x}}_{l - 1}^{j \times i}\left( t \right)} \right)],\\ \qquad \qquad \qquad \qquad \qquad \qquad \qquad {\rm{Maxout}}\\ {\mathit{\boldsymbol{u}}_l}\left( t \right) = \\ \quad [\max \left( {0,\mathit{\boldsymbol{x}}_{l - 1}^1\left( t \right)} \right), \cdots ,\max \left( {0,\mathit{\boldsymbol{x}}_{l - 1}^{j \times i}\left( t \right)} \right)],\\ \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad {\rm{ReLU}} \end{array} \right.$ (2)

通过误差反向传播(Back propagation, BP)算法对参数进行全局微调.根据文献[15], 训练DNN时目标函数为

$\begin{align}\label{eq3} D = \sum\limits_{t = 1}^{ T} {\log P\left( {s\left( t \right)|{\pmb{o}}\left( t \right)} \right)}\end{align}$ (3)

其中, $\pmb{o}\left( t \right)$是一帧的训练特征向量, $s\left( t\right)$$\pmb{o}\left( t \right)$对应的状态标签, T是训练特征总量, 根据式(4), 利用Softmax计算

$\begin{align}\label{eq4} P\left( {s\left( t \right)|{\pmb{o}}\left( t \right)} \right) = \frac{{{{\exp }_s}\left( {{{{W}}_L}{{\pmb{u}}_{L - 1}} + {{\pmb{b}}_L}} \right)}}{{\sum\limits_{{s'}} {{{\exp }_{{s'}}}\left( {{{{W}}_L}{{\pmb{u}}_{L - 1}} + {{\pmb{b}}_L}} \right)} }}\end{align}$ (4)

基于目标函数D, 利用随机梯度下降(Stochastic gradient descent, SGD)法更新权值${{{W}}_{l}}$与偏移量$ {{\pmb{b}}_{l}}$.

$\begin{align}\label{eq5} \left( {{{{W}}_l}, {{\pmb{b}}_l}} \right) + \varepsilon \frac{{\partial D}}{{\partial \left( {{{{W}}_l}, {{\pmb{b}}_l}} \right)}} \to \left( {{{{W}}_l}, {{\pmb{b}}_l}} \right), \ 1 \le l \le L\end{align}$ (5)

$\varepsilon $为学习速率(Learning rate).训练时引入冲量项(Momentum)$\alpha $和衰减因子$\eta $来控制参数更新值的波动, 记${\theta}=\{{W}, {\pmb b}\}$统一表示参数, $\Delta {{{\theta }}^{\left( i\right)}}$为第i轮训练参数更新值, 更新过程按式(6) 进行修正:

$\begin{array}{l} \Delta {\theta ^{\left( {i + 1} \right)}} = \;\alpha \times \Delta {\theta ^{\left( i \right)}} + \left( {1 - \alpha } \right) \times \\ \quad \quad \quad \quad \left( {\varepsilon \times \frac{{\partial D}}{{\partial \theta }} + \varepsilon \times \eta \times {\theta ^{\left( i \right)}}} \right) \end{array}$ (6)

对于BN-DNN, 训练完成之后, 将输入特征在DNN中前向传播, 从BN层提取线性特征, 如式(7) 所示:

$\begin{align}\label{eq7} {F}={W}_{BN}^{\rm T}{{\pmb{u}}_{BN-1}}+{{\pmb{b}}_{BN}}\end{align}$ (7)

基于Dropout-maxout和Dropout-ReLU的BN-DNN隐含层结构分布如图 1(b)图 1(c)所示.依据上述原理, 结合低资源训练优先的要求, 在GPU的硬件条件下, SHL-BN-MDNN的训练流程如图 2所示.首先按比例将多流训练样本组成数据分组, 然后再进行SGD的计算, 这样可以保证数据训练的并行性和平衡性, 该训练方式可以保证多个DNN几乎同时收敛、结束训练.

图 2 SHL-BN-MDNN的训练流程图 Figure 2 Diagram of SHL-BN-MDNN training scheme
2 基于CNMF的低维高层特征提取

使用DNN提取特征, 本质在于对隐含层的输出进行降维、去相关.对于典型的高层特征BNF的提取, 是通过在隐含层中设立BN层进行数据的强制降维来实现的, 然而该方法在训练过程中降低了DNN的分类准确率, 对于训练不够充分的低资源DNN, 会进一步降低所提取特征的性能.本小节提出一种新的DNN特征提取方法, 具体来说, 首先保留完整的DNN训练结构(舍弃BN层的设置), 然后对数据采取有效的降维算法实现特征提取, 这样就能避免前面提到的BN层偏向性问题.

在诸多降维方法中, 非负矩阵分解(Nonnegative matrix factorization, NMF)是一种性能较为出色的方法, 最初用于人脸识别中对局部特征的学习[16].该算法可以从矩阵中挖掘更为本质的信息, 简单来说, 它将一个待分解的具有非负元素的矩阵${X}$分解为非负的基矩阵${F}$和系数矩阵${G}$, 如式(8) 所示:

$X = F{G^{\rm{T}}}$ (8)

NMF在语音处理领域中主要应用于语音的去噪[17-18].然而在语音特征提取过程中, 所面对的实际数据是有正有负的, 因此一般的NMF算法是不适用的.CNMF是NMF衍生出的一个基于聚类原理的重要算法[19], 在CNMF中, 将基矩阵${F}$定义为待分解矩阵的列的凸组合.即${f}_l= w_{1l}{x}_1+\cdots$ $+$ $w_{nl}$ $+$ ${x}_n$.或写为${F}={XW}$, 其中${W}$为因子矩阵, 允许${X}$${F}$矩阵为半非负性质.根据文献[19], 因子矩阵${W}$和系数矩阵${G}$具有稀疏的性质, 且使用CNMF方法对含有正负元素的矩阵进行分解时往往可以得到更好的数据解释性.

2.1 凸非负矩阵分解算法

CNMF的初始化大致分为两种方法.第一种是基于K-means聚类的方法, 第二种是基于已有的NMF的解, 本文选用K-means方法.首先对待分解矩阵${X}$做一次K-means聚类, 得到隶属度矩阵${H}=({{{h}}_{1}}, \cdots, {{h}_{k}})$, ${{{H}}_{ik}}=0, 1$, 然后按式(9), 基于${H}$${G}$矩阵初始化:

$\begin{align}\label{eq9}{{{G}}^{(0) }} = {{H}} + 0.2{{E}}\end{align}$ (9)

${E}$为全1矩阵.使用聚类的类心矩阵作为${F}$矩阵, 如式(10) 所示:

$\begin{align}{F}={XHD}^{-1}_n\end{align}$ (10)

其中, ${D}_n={\rm diag}\{n_1, \cdots, n_k\}$.根据${F}={XW}$与式(10), ${W}={HD}^{-1}_n$, 但此处为了平滑处理, 设${W^{(0) }}$ =${HD}^{-1}_n$.

$\begin{array}{l} {G_{ik}} \leftarrow {G_{ik}} \times \\ \sqrt {\frac{{{{\left[ {{{({X^{\rm{T}}}X)}^ + }W} \right]}_{ik}} + {{\left[ {G{W^{\rm{T}}}{{({X^{\rm{T}}}X)}^ - }W} \right]}_{ik}}}}{{{{\left[ {{{({X^{\rm{T}}}X)}^ - }W} \right]}_{ik}} + {{\left[ {G{W^{\rm{T}}}{{({X^{\rm{T}}}X)}^ + }W} \right]}_{ik}}}}} \end{array}$ (11)

再根据式(12) 更新${W}$的值:

$\begin{array}{l} {W_{ik}} \leftarrow {W_{ik}} \times \\ \sqrt {\frac{{{{\left[ {{{({X^{\rm{T}}}X)}^ + }W} \right]}_{ik}} + {{\left[ {G{W^{\rm{T}}}{{({X^{\rm{T}}}X)}^ - }W} \right]}_{ik}}}}{{{{\left[ {{{({X^{\rm{T}}}X)}^ - }W} \right]}_{ik}} + {{\left[ {G{W^{\rm{T}}}{{({X^{\rm{T}}}X)}^ + }W} \right]}_{ik}}}}} \end{array}$ (12)
1.2 基于凸非负矩阵分解的特征提取

对于不包含BN层的DNN而言, 它的第l个隐含层的线性输出具有维数大、相关性大的特点, 将其直接作为特征进行高斯混元建模会得到很差的结果, 因此需要进行降维和去相关等处理.若直接利用矩阵分解算法对DNN特征做降维, 理论上行不通, 因为语音不同于图像, 一幅图像具有整体的平稳性且不具有时变性, 因此易于对其提取整体特征, 而语音仅具有短时平稳性.首先无法针对一帧特征向量做矩阵分解变换; 其次, 当通过组合多帧特征形成特征矩阵时, 矩阵变换会破坏语音特征的时序信息, 导致无法训练出良好的声学模型.

本文采用一种间接的方法.由于在计算DNN隐含层的线性输出时, 层与层之间的权值矩阵作用于每一帧原始声学特征, 因此权值矩阵可以看作是一种广义的映射函数, 具有一定的整体分布性.而由于同一层的偏移向量和权值矩阵并没有整体性, 因此很难对偏移向量与权值矩阵实施相同的操作, 本方法在提取特征时舍弃偏移向量的使用.该特征提取方法如图 3所示.

图 3 基于CNMF的低维特征提取方法 Figure 3 CNMF based low-dimensional feature extraction approach

首先将某一层的$n\times m$权值矩阵进行分解, 得到$n\times r$的基矩阵和$r\times m$的系数矩阵, 然后取包含正负元素的基矩阵作为新的权值矩阵, 形成新的特征提取层, 并提取维数为r的低维特征.

待分解权值矩阵记为${W}$, 经过分解, 得到${W}$ = ${W'}{G}^{\rm T}$, 由于不设置特征层偏移量, 因此新的低维特征计算如式(13) :

$\begin{align}{F}={W'}^{\rm T}{X}\end{align}$ (13)

其中, ${X}$为上一隐含层的激活元输出.而由于${{{W'}}}$ =${WH}$, 其中${H}$为因子矩阵, 因此式(13) 可以写为

$\begin{align}{F}={{{H}}^{\rm T}}{{{W}}^{\rm T}}{X}\end{align}$ (14)

将式(14) 和式(7) 作对比可以发现, 利用CNMF提取特征时, 实质上是对DNN的线性输出做了一次基于聚类原理的降维.由于权值矩阵以最后的分类输出为目标进行训练, 而训练目标又是音素建模单元, 因此该矩阵通过基于聚类原理的矩阵分解之后, 最优特征维数应当与训练语料的音素数量相关, 而不像BNF一样仅仅与输入的特征维数相关(BN层起到对输入特征非线性压缩的作用).

3 实验 3.1 实验语料与评价指标

实验采用RM、TIMIT、Vystadial 2013 English data和Vystadial 2013 Czech data四种语料.RM语料库[20]是由美国国防部高级研究项目局(Defense Advanced Research Projects Agency, DARPA)牵头收集定制的较为早期的英语语料库, 语料经过数字采样和文本标注, 专门用于设计和评估连续语音识别系统; TIMIT语料库[21]由630个说话人的语料组成, 每个说话人包含10个语句, 共涵盖了美式英语的8种主要方言, 语料库包含了音素级标注; Vystadial 2013English data(Vystadial_en)是一类开源的英语语料库[22], 全部时长41小时, 来源于人工信息服务系统的对话语音数据; Vystadial 2013 Czech data(Vystadial_cz)是开源的捷克语语料库[23], 全部时长15小时, 来源于三类数据: Call Friend电话服务的语音数据、Repeat After Me的语音数据和Public Transport Info的口语对话系统的语音数据.

实验评价指标为连续语音识别中的词错误率(Word error rate, WER), 设N为语料库人工标注文本中词(全部正确词)的数量, W为解码连续语音与人工标注作对比统计出的插入词、删除词、替代词的个数, r表示WER, 将WER定义为两者的比值, 并化为百分率.如式(15) 所示:

$r = \frac{W}{N} \times 100\% $ (15)
3.2 实验工具与硬件条件

实验使用Kaldi工具包[24]进行数据准备、底层声学特征和高层声学特征的提取、语言模型的声学模型的训练与解码; 使用PDNN工具包[25]进行相关的DNN的搭建与训练; 使用PYMF工具包[26]实现CNMF算法.

声学模型训练、解码矩阵分解的过程基于12核3.07 GHz Xeon CPU实现, DNN的训练则是基于单核Quadro 600 GPU进行.

3.3 基于SHL结构的BNF特征的低资源捷克语识别实验

该部分实验中, 基于Vystadial_cz语料构建低资源语音数据环境.选取Vystadial_cz中的1小时训练语料作为训练集, 总共1 504句话; 再选取Vystadial_cz语料库测试语音部分的30分钟左右的数据作为测试集, 包含666句话, 共3 910个待识别词.基于Vystadial_cz语料库中全部训练语料的标注文本构建发音字典并训练二元语言模型(Bigram language model).辅助训练语料为全部RM的训练语料(3.82小时)、全部TIMIT训练语料(3.15小时)和一半的Vystadial_en训练语料(19.7小时).

3.3.1 基于单语言训练的低资源语音识别基线系统

首先对1小时的Vystadial_cz提取39维MFCC特征$(13+\bigtriangleup+\bigtriangleup\bigtriangleup)$训练一个三音子GMM模型, 进行强制对齐后, 训练基于线性判别分析(Linear discriminant analysis, LDA)和最大似然线性变换(Maximum likelihood linear transform, MLLT)的三音子GMM声学模型(13维MFCC特征进行9帧拼接, LDA降到40维), 该模型高斯混元数为19 200个.然后再利用特征空间最大似然线性回归(Feature-space maximum likelihood linear regression, fMLLR)技术进行说话人自适应训练(Speaker adaptive training, SAT), 从而构成LDA + MLLT + SAT的GMM声学模型.

通过对该模型强制对齐的方式, 得到BN-DNN中softmax层的训练目标. DNN的训练特征使用效果较好的fbanks特征[5], 首先提取40维的fbanks特征, 进行11帧的拼接(5-1-5), 将所得到的超矢量作为DNN的输入特征.对于单语言的BN-DNN, 仅使用1小时的低资源训练语料进行训练.隐含层有5层, 每层节点有1 024个, BN层有40个节点, softmax层节点数同LDA + MLLT + SAT的GMM的senones数量一致, 为915个.借鉴文献[3-4, 9, 27]的经验, 本实验将BN层置于隐含层的中后层位置.因此, 该BN-DNN的结构为"440-1 024-1 024-1 024-40-1 024-915".训练集和交叉验证(Cross-validation)集各占训练数据的95 %和5 %.

对每个隐含层(包含BN层)进行10轮的RBM预训练, 然后利用BP算法进行全局参数的微调, 在训练过程中, 学习速率设置初始值为0.08, 每当相邻两轮训练的验证误差小于0.1 %时就将学习速率衰减一半, 当衰减之后相邻两轮的验证误差再次小于0.1 %时训练停止(如果一直大于0.1 %, 则最多衰减8次.此外冲量值设为0.5, Minibatch尺寸设为256.训练完成之后, 从BN层提取BNF, 使用BNF训练基于LDA、MLLT的三音子GMM声学模型(9帧拼接, LDA降至40维), 该模型的高斯混元数量设定为22 000, 识别结果如表 1第1行所示.

表 1 不同训练方法下BNF的WER (%) Table 1 WER of BNF based on different training methods (%)
3.3.2 基于多语言训练的低资源语音识别系统

本小节中, 使用SHL结构对低资源的BN-DNN进行辅助训练, 引入RM、TIMIT、Vystadial_en等一共26.7小时的英语语料进行辅助训练.对三种辅助语料分别训练三个基于LDA + MLLT + SAT的GMM模型, 通过强制对齐得到各自DNN的softmax层的训练目标, 各自DNN输出层节点数分别为1 487、2 009和1 031, DNN的输入均为440维拼接的fbanks特征($40\times 11$), 隐含层结构为"1 024-1 024-1 024-40-1 024".本实验对SHL结构的DNN不进行预训练而是随机进行参数的初始化, 然后直接通过SGD的计算调整网络参数.冲量值和学习速率的设置与基线系统保持一致.

训练完之后, 得到4个BN-DNN, 使用低资源Vystadial_cz的DNN对低资源语料提取BNF, 然后训练LDA + MLLT的GMM声学模型, 参数设置与基线系统保持一致.识别结果如表 1第2行所示, 可以看出, 该系统比基线系统的WER相对降低了6.2 %(67.42 % $\rightarrow$ 63.25 %).

然后利用Dropout、Maxout和ReLU技术对BN-DNN进行改进.已知对于一般的BN-DNN, 激活函数不作用于BN层的特征提取过程; 而对于Maxout-DNN, 激活函数需要作用于BN层, 因为Maxout函数并未对函数幅值作归一化, 并且Maxout保证了BN层的维数为40, 因此具有可比性.此外, 在参数设置方面, Dropout的HDF与Maxout的Pooling尺寸都需要进行设置.根据文献[28-29]的经验, Dropout为0.2、Pooling尺寸为3时效果最佳, 为此进行实验验证, 其中HDF分为0.1, 0.2, 0.3三种情况进行讨论, Pooling尺寸分为$512\times 2$, $342$ $\times$$3$$256 \times 4$三种情况进行讨论, 这样使得隐含层原始尺寸与基线系统基本一致(节点数在1 024左右), 实验结果如表 2所示.

表 2 不同dropout和maxout参数下的WER (%) Table 2 WER under difierent dropout and maxout parameters (%)

实验可得到的第一个结论是最佳的HDF为0.2、最合适的Pooling尺寸为3;第二个结论是隐含层使用Dropout技术可以有效增强训练效果, 而BN层不宜使用Dropout训练技术.对于第二个结论, 可以作如下解释, 由于数据经隐含层映射和经BN层映射得到的是两种不同分布的数据, 普通隐含层由于节点数较多, 因此映射时对输入数据的分布细节要求更多, 训练中的过拟合现象会在一定程度上影响映射效果; 而BN层对输入数据的压缩可以看作是一种广义的聚类, 因此对数据分布的细节要求较少, 过拟合现象影响不大.理论而言, Dropout对BN层的训练效果不会有增益.

另外, 对比表 1的第2 ~ 4行可以看出, 当引入Maxout、ReLU等激活函数后, BNF的性能在多语言训练的基础上得到进一步的明显提升, 其识别系统比基线系统的WER分别相对降低了12.6 % $(67.42 % \rightarrow58.95 %)$和7.0 % $(67.42 % \rightarrow 62.74 %)$, 说明多语言的辅助训练效果更好了, BN-DNN的语言偏向性降低了.从结果不难看出, Max-out配合Dropout的训练效果是最优的, 而且基于SHL结构的BN-DNN参数规模相对其他SHL网络参数的数量降低了62.7 % (8.34 MB $\rightarrow$3.11 MB), 从训练时间的角度来说, 降低了约25 %(在第3.2节所描述硬件条件下记录DNN训练耗时, 大约从12小时降至9小时).

3.4 基于CNMF低维特征的低资源语音识别实验

本节主要对CNMF提取的低维特征进行低资源条件下的识别性能测试.由于CNMF的效果与DNN隐含层的训练水平相关, 因此实验分为两部分, 一部分是基于低资源单语言训练的DNN进行的实验, 另一部分是与SHL-MDNN相结合的实验.

3.4.1 基于低资源单语言训练的英语和捷克语实验

该部分实验针对Vystadial_en和Vystadial_cz两种语料搭建两个低资源识别系统.分别选取1小时训练集和30分钟测试集, 并且使用标注文本构建发音字典和训练二元语言模型.该实验的BNF基线系统与第3.3节中基线系统的设置基本相同, 唯一不同之处在于本实验中采用40维fMLLR特征(13维MFCC特征进行9帧拼接, LDA降至40维, 并经过MLLT和SAT训练)对DNN进行训练.

对于CNMF的实现, 首先通过50轮的K-means训练对矩阵分解初始化, 然后对分解过程进行500轮训练, 得到特征层权值矩阵并提取低维特征, 详细方法如第2.2节所描述.使用该特征训练LDA + MLLT的GMM声学模型搭建识别系统.该实验中, 待分解权值矩阵的层位置与分解维数是两个很重要的参数指标, 它们与系统识别率的关系如图 4所示.其中, 为了便于与BNF作对比, 只对40左右的维数进行研究, 并且由于高层特征的性能优于底层特征性能, 因此对DNN的后三层进行探讨, 图中"第5层"表示最后一层(输出层)的权值矩阵, 以此类推"第3层"和"第4层"所代表的分解位置.

图 4 不同分解参数下基于CNMF的低维特征词错误率 Figure 4 WER of CNMF based low-dimensional features under difierent factorization parameters

可以看出, 在两个识别任务中, 待分解权值矩阵层位置均为倒数第二层时效果最好, 且英语语料的最优分解维数为50维, 捷克语的最优分解维数为40维.由于英语有48个音素, 而捷克语有38个音素, 因此实验验证了第2.2节中的结论.

为了进一步验证CNMF提取特征的有效性, 将CNMF算法与传统的奇异值分解(Singular value decomposition, SVD)算法进行比较.使用两种算法, 均针对DNN的倒数第二层, 且分解维数为40.对于CNMF, 按照本文方法使用基矩阵作为特征层矩阵; 对于SVD, 利用与本文所提方法相同的思路, 使用左奇异分量作为特征层分解矩阵, 从而对该层线性输出实现降维, 提取特征.两种算法所提取特征的识别性能对比如表 3所示.

表 3 基于单语言训练时各特征的识别性能WER (%) Table 3 Recognition performance WER each type of feature based on monolingual training (%)

由实验结果可知, 基于矩阵分解的特征优于传统的BN特征, 且CNMF算法优于SVD算法.从原理上解释, CNMF基于聚类原理, 基矩阵作为权值矩阵的列的线性组合, 包含了原矩阵的主要信息, 冗余信息主要存在于舍弃的系数矩阵中, 因此基于CNMF的方法对训练不足的DNN的权值矩阵起到聚类、去冗余等作用; 而SVD将矩阵分解为左奇异分量和右奇异分量, 无论舍弃哪一个都会浪费有效的矩阵分量, 因此基于SVD的特征在识别性能上劣于基于CNMF的特征, 实验结果进一步验证了CNMF算法在提取高层特征时的有效性.

3.4.2 基于SHL结构的多语言训练的捷克语实验

在低资源单语言DNN的条件下测试之后, 再对CNMF低维特征在辅助训练条件下进行测试, 本节中的DNN基于SHL结构进行多语言辅助训练, 除了不设置BN层之外, 声学参数、网络参数与第3.3.2节中基于SHL的BN-DNN完全一致.使用CNMF技术结合辅助训练的DNN提取低维特征, 首先通过50轮的K-means训练对矩阵分解初始化, 然后进行500轮训练得到分解矩阵.由于参与DNN权值矩阵训练的不仅有捷克语还有英语, 因此最优分解维数需要在40和50之间进行讨论, 结果如表 4所示.其中"第5层"表示对最后一层(输出层)做分解, 以此类推.

表 4 基于SHL多语言训练的CNMF低维特征的WER (%) Table 4 WER of SHL multilingual training CNMF based low-dimensional features (%)

从结果可知, 由于隐含层是由英语和捷克语共同训练的, 且英语训练语料的数量更多, 训练相对充分, 所以对共享隐含层分解时的最优维数为50;而输出层仅有捷克语参与训练, 训练相对不充分, 因此对输出层分解时的最优维数为40.这些结果进一步验证了基于CNMF的低维特征与语言音素的相关性.此外, 对倒数第二层的权值矩阵进行分解依然可以得到最优的特征, 这一点与第3.4.1节中的结论一致.

3.4.3 CNMF低维特征与BNF在GMM识别系统中的对比

分别对单语言和辅助训练两种情况选取最好的识别结果, 将BNF与CNMF低维特征的识别系统进行对比, 如表 5所示.对于英语和捷克语的低资源DNN的实验, CNMF低维特征分别相对BNF特征的识别性能相对提高了4.6 % (21.6 %$\rightarrow$ 20.6 %)和1.6 % (64.80 % $\rightarrow$63.76 %).此实验说明, 当DNN训练相对不充分时, 在使用GMM搭建识别系统的情况下, CNMF低维特征优于传统的高层特征BNF.而在辅助训练语料充足的条件下, 对于ReLU-DNN, CNMF低维特征优于BNF; 对于Sigmoid-DNN、Maxout-DNN, BNF则显示出了优于CNMF低维特征的识别性能, 且训练耗时更少.该实验说明, 使用GMM建模时, 在训练相对充分的DNN结构中, BNF优于CNMF低维特征.

表 5 BNF与CNMF低维特征的GMM tandem系统WER (%) Table 5 WER of BNF and CNMF based low-dimensional features on GMM tandem system (%)

总体来说, BN-DNN中, 由于BN层权值矩阵的训练过程与训练样本完全相关, 因此BNF的最优维数与输入DNN的声学特征维数是密切相关的, 所以BN层的功能在于实现了对输入特征的非线性压缩.而对于CNMF的特征提取方法, 声学特征训练只是与特征层权值矩阵的原始矩阵直接相关, 最终的特征层权值矩阵还与CNMF的迭代训练有关, 由于DNN的权值矩阵以音素状态为训练目标, 因此基于聚类原理的CNMF算法可以从原始权值矩阵中分解得到更为本质的包含分类信息的矩阵, 使得特征包含了更多DNN对该语言的分类信息, 所以该特征的最优维数与DNN训练语料的音素个数息息相关.

3.5 两种方法与DNN-HMM在低资源捷克语识别实验中的对比

由于DNN-HMM识别系统往往能在训练语料相对充足的情况下取得所有识别系统中最优的性能[5, 15], 因此将本文的两种方法与DNN-HMM识别系统作对比.根据文献[30-31], 采用子空间高斯混合模型(Subspace Gaussian mixture models, SGMM)搭建识别系统可以得到优于GMM-HMM系统的识别率, 尤其适用于低资源环境, 因此分别使用BNF和CNMF低维特征训练各自的SGMM进行识别系统的搭建.首先对LDA +MLLT的声学模型做强制对齐, 然后训练高斯混元数为400的通用背景模型(Universal background model, UBM), 基于此模型, 训练子状态数量为5 000的SGMM.

此外, 由于基线系统的参数规模达到了3.57 MB, 而低资源训练数据的数据量约为20 000帧, 所以存在一定过拟合的风险.为了进一步验证本文方法的有效性, 在两种较小参数规模的DNN结构下进行实验.由于隐含层节点数至少达到与输出层节点数同一个量级(本实验中约为1 000) 时才能保证DNN有较好的分类性能, 否则无法估计出性能良好的后验概率, 且在低资源条件下, 以极大的牺牲分类性能来避免过拟合现象是得不偿失的.因此, 通过降低网络节点数降低参数规模是不现实的, 实验主要通过降低隐含层数量来降低网络参数规模.在此增加了两种网络结构的对比实验:隐含层层数降为3层(BN层设置在三层中的第2个隐含层), 节点数设为1 024和512(基线系统的参数规模降为1.47 MB和0.74 MB), 使用Maxout时, 隐含层分别设置为$171\times3$$342\times 3$.实验结果如表 6所示.

表 6 基于SHL多语言训练时SGMM tandem系统和DNN-HMM系统的WER (%) Table 6 WER of SGMM tandem systems and DNN-HMM hybrid systems based on SHL multilingual training (%)

表 6中可知, 当引入SGMM时, CNMF低维特征在各Tandem系统中几乎均优于BNF, 且基于该特征的Tandem识别系统在各实验中取得了最优的结果.

将基线系统的网络尺寸的缩小理论上可以相对降低低资源单语言训练时的过拟合风险.但是在多语言训练时, 比较不同网络尺寸的实验结果可以发现, 较小的网络尺寸并不能取得更好的识别结果, 这是因为训练数据量与DNN的参数量之间的规模差距得到减小, 层数较多、节点数较多的网络可以估计出更准确的后验概率分布, 即具有更强的非线性变换能力.同时, 实验结果表明, 本文提出的两种方法适用于不同的网络结构, 都取得了相对基线系统识别率的提升, 且Dropout和Maxout在不同网络结构下均改善了多语言训练的效果, 使得所提取特征性能得到提高.

根据表 6结果, 网络结构设置为5个隐含层时, 系统可以取得最优识别率, CNMF-SGMM取得了最优识别率, 且分别相对DNN-HMM提高了3.4 % ($63.94 %$ $\rightarrow$$61.79 %$), 0.8 % (58.24 % $\rightarrow$ 57.80 %), 1.3 % (59.57 % $\rightarrow$ 58.82 %).

综合第3.4.3节和第3.5节中的结论, 在GMM建模的情况下, 基于SHL结构的BNF提取方法更省时, 且识别率更高; 而在SGMM建模的情况下, 基于CNMF的低维特征提取方法更优, 且取得了优于DNN-HMM系统的识别性能.总的来说, 本文提出的第一种方法的主要优势在于训练时间较短, 第二种方法的优势在于提取的特征识别性能更为出色.

4 结论

本文针对低资源训练数据下DNN特征建模识别性能不佳的问题, 首先从训练的角度, 提出利用SHL结构对BN-DNN进行辅助训练, 为缓解BN层的语言偏向问题和多语言训练耗时问题, 引入Dropout、Maxout、ReLU等技术对DNN的训练进行改进; 然后从特征提取方法的角度, 提出利用CNMF算法对权值矩阵进行聚类降维, 进而提取一种新的基于DNN的特征.实验证明, 在DNN训练不充分的低资源条件下, CNMF特征优于BNF的识别性能; 而在SHL辅助训练的情况下, 基于改进训练技术的BNF相比低资源训练的BNF有了明显提升, 且网络参数得到了大幅降低, 使用GMM建模时, BNF更优, 使用SGMM建模时, CNMF特征更优, 且取得了优于DNN-HMM系统的识别性能.

参考文献
1
Thomas S. Data-driven Neural Network Based Feature Front-ends for Automatic Speech Recognition[Ph.D. dissertation], Johns Hopkins University, Baltimore, USA, 2012.
2
Grézl F, Karaát M, Kontár S, Černocký J. Probabilistic and bottle-neck features for LVCSR of meetings. In:Proceedings of the 2007 International Conference on Acoustics, Speech and Signal Processing (ICASSP). Hawaii, USA:IEEE, 2007. 757-760
3
Yu D, Seltzer M L. Improved bottleneck features using pretrained deep neural networks. In:Proceedings of the 12th Annual Conference of the International Speech Communication Association (INTERSPEECH). Florence, Italy:Curran Associates, Inc., 2011. 237-240
4
Bao Y B, Jiang H, Dai L R, Liu R. Incoherent training of deep neural networks to de-correlate bottleneck features for speech recognition. In:Proceedings of the 2013 International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, BC, Canada:IEEE, 2013. 6980-6984
5
Hinton G E, Deng L, Yu D, Dahl D E, Mohamed A R, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath T N, Kingsbury B. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups. IEEE Signal Processing Magazine, 2012, 29(6): 82-97. DOI:10.1109/MSP.2012.2205597
6
Lal P, King S. Cross-lingual automatic speech recognition using tandem features. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(12): 2506-2515. DOI:10.1109/TASL.2013.2277932
7
Veselý K, Karafiát M, Grézl F, Janda M, Egorova E. The language-independent bottleneck features. In:Proceedings of the 2012 IEEE Spoken Language Technology Workshop (SLT). Miami, Florida, USA:IEEE, 2012. 336-341
8
Tüske Z, Pinto J, Willett D, Schlüter R. Investigation on cross-and multilingual MLP features under matched and mismatched acoustical conditions. In:Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, BC, Canada:IEEE, 2013. 7349-7353
9
Gehring J, Miao Y J, Metze F, Waibel A. Extracting deep bottleneck features using stacked auto-encoders. In:Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, BC, Canada:IEEE, 2013. 3377-3381
10
Miao Y J, Metze F. Improving language-universal feature extraction with deep maxout and convolutional neural networks. In:Proceedings of the 15th Annual Conference of the International Speech Communication Association (INTERSPEECH). Singapore:International Speech Communication Association, 2014. 800-804
11
Huang J T, Li J Y, Dong Y, Deng L, Gong Y F. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers. In:Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, BC, Canada:IEEE, 2013. 7304-7308
12
Hinton G E, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov R R. Improving neural networks by preventing co-adaptation of feature detectors. Computer Science, 2012, 3(4): 212-223.
13
Goodfellow I J, Warde-Farley D, Mirza M, Courville A, Bengio Y. Maxout networks. In:Proceedings of the 30th International Conference on Machine Learning (ICML). Atlanta, GA, USA:ICML, 2013:1319-1327
14
Zeiler M D, Ranzato M, Monga R, Mao M, Yang K, Le Q V, Nguyen P, Senior A, Vanhoucke V, Dean J, Hinton G H. On rectified linear units for speech processing. In:Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, BC, Canada:IEEE, 2013. 3517-3521
15
Dahl G E, Yu D, Deng L, Acero A. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42. DOI:10.1109/TASL.2011.2134090
16
Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization. Nature, 1999, 401(6755): 788-791. DOI:10.1038/44565
17
Wilson K W, Raj B, Smaragdis P, Divakaran A. Speech denoising using nonnegative matrix factorization with priors. In:Proceedings of the 2008 International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Las Vegas, NV, USA:IEEE, 2008. 4029-4032
18
Mohammadiha N. Speech Enhancement Using Nonnegative Matrix Factorization and Hidden Markov Models[Ph.D. dissertation], KTH Royal Institute of Technology, Stockholm, Sweden, 2013.
19
Ding C H Q, Li T, Jordan M I. Convex and semi-nonnegative matrix factorizations. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 45-55. DOI:10.1109/TPAMI.2008.277
20
Price P, Fisher W, Bernstein J, Pallett D. Resource management RM12.0[Online], available:https://catalog.ldc.upenn.edu/LDC93S3B, May 16, 2015
21
Garofolo J, Lamel L, Fisher W, Fiscus J, Pallett D, Dahlgren N, Zue V. TIMIT acoustic-phonetic continuous speech corpus[Online], available:https://catalog.ldc.upenn.edu/LDC93S1, May 16, 2015
22
Korvas M, Plátek O, Dušek O, Žćilka L, Jurčíček F. Vystadial 2013 English data[Online], available:https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0023-4671-4, May 17, 2015
23
Korvas M, Plátek O, Dušek O, Žćilka L, Jurčíček F. Vystadial 2013 Czech data[Online], available:https://lindat.mff.cuni.cz/repository/xmlui/handle/11858/00-097C-0000-0023-4670-6?show=full, May 17, 2015
24
Povey D, Ghoshal A, Boulianne G, Burget L, Glembek O, Goel N, Hannemann M, Motlicek P, Qian Y M, Schwarz P, Silovsky J, Stemmer G, Vesely K. The Kaldi speech recognition toolkit. In:Proceedings of the 2011 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Hawaii, USA:IEEE Signal Processing Society, 2011. 1-4
25
Miao Y J. Kaldi + PDNN:Building DNN-based ASR Systems with Kaldi and PDNN. arXiv preprint arXiv:1401. 6984, 2014.
26
Thurau C. Python matrix factorization module[Online], available:https://pypi.python.org/pypi/PyMF/0.1.9, September 25, 2015
27
Sainath T N, Kingsbury B, Ramabhadran B. Auto-encoder bottleneck features using deep belief networks. In:Proceedings of the 2012 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Kyoto, Japan:IEEE, 2012. 4153-4156
28
Miao Y J, Metze F. Improving low-resource CD-DNN-HMM using dropout and multilingual DNN training. In:Proceedings of the 12th Annual Conference of the International Speech Communication Association (INTERSPEECH). Lyon, France:Interspeech, 2013. 2237-2241
29
Miao Y J, Metze F, Rawat S. Deep maxout networks for low-resource speech recognition. In:Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Olomouc, Czech:IEEE, 2013. 398-403
30
Povey D, Burget L, Agarwal M, Akyazi P, Feng K, Ghoshal A, Glembek O, Goel N K, Karafiát M, Rastrow A, Rastrow R C, Schwarz P, Thomas S. Subspace Gaussian mixture models for speech recognition. In:Proceedings of the 2010 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). Texas, USA:IEEE, 2010. 4330-4333
31
Wu Wei-Lan, Cai Meng, Tian Yao, Yang Xiao-Hao, Chen Zhen-Feng, Liu Jia, Xia Shan-Hong. Bottleneck features and subspace Gaussian mixture models for low-resource speech recognition. Journal of University of Chinese Academy of Sciences, 2015, 32(1): 97-102.
( 吴蔚澜, 蔡猛, 田垚, 杨晓昊, 陈振锋, 刘加, 夏善红. 低数据资源条件下基于Bottleneck特征与SGMM模型的语音识别系统. 中国科学院大学学报, 2015, 32(1): 97-102.)