基于融合特征MGCC和CNN-SE-BiGRU的声纹识别

引用本文

范涛, 詹旭. 基于融合特征MGCC和CNN-SE-BiGRU的声纹识别[J]. 中国科学院大学学报, 2025, 42(6): 832-842.

Fan T, Zhan X. Voiceprint recognition based on fused MGCC and CNN-SE-BiGRU features[J]. Journal of University of Chinese Academy of Sciences, 2025, 42(6): 832-842.

基于融合特征MGCC和CNN-SE-BiGRU的声纹识别

范涛, 詹旭

四川轻化工大学自动化与信息工程学院, 四川宜宾 644000

2023年11月23日收稿; 2024年1月26日收修改稿

通信作者: 詹旭, E-mail: zhanxuu@163.com

摘要: 针对声纹识别领域单一特征的表征能力、抗噪能力不强，以及传统卷积神经网络(CNN)模型特征表达能力不强、时序特征获取不全面的问题，提出一种梅尔频率倒谱系数(MFCC)和伽马频率倒谱系数(GFCC) 融合的声学特征，与一种新的识别网络模型(CNN-SE-BiGRU)，进行声纹识别。首先，对提取的语音MFCC特征和GFCC特征分别进行归一化，根据特征类间区分度，设计合适的权值对MFCC和GFCC特征进行线性加权，得到说话人区分性更强的梅尔伽马倒谱系数(MGCC)；其次，为提升CNN对声纹特征的表达，引入改进的通道特征响应SE-Block模型；最后，在改进的压缩激励卷积网络(CNN-SE-Net) 提取空间特征的基础上进一步通过双向门控循环单元网络(BiGRU)提取时序特征，提升整个网络的性能。实验结果表明，在不同噪声背景下，MGCC声学特征表现出更强的表征能力和更好的鲁棒性，而在MGCC声学特征下CNN-SE-BiGRU模型的平均识别率最高为96.05%，充分证明了所提方法的有效性和鲁棒性。

关键词: 声纹识别融合特征双向门控循环单元 SE-Block 卷积神经网络(CNN)

Voiceprint recognition based on fused MGCC and CNN-SE-BiGRU features

FAN Tao, ZHAN Xu

School of Automation and Information Engineering, Sichuan University of Science and Engineering, Yibin 644000, Sichuan, China

Abstract: In order to solve the problems of single feature, weak representation ability and anti-noise ability in the field of voiceprint recognition, weak feature expression ability of traditional convolutional neural network (CNN) model and incomplete acquisition of temporal features, an acoustic feature fused with Mel frequency cepstral coefficient (MFCC) and Gamma frequency cepstral coefficient (GFCC) was proposed to carry out voiceprint recognition with a novel voiceprint recognition model based on enhanced CNN and bidirectional GRU networks (CNN-SE-BiGRU). Firstly, the extracted MFCC features and GFCC features are normalized, and according to the inter-class discrimination power, appropriate weights are designed to linearly combine the MFCC and GFCC features, and the Mel-gammatone cepstral coefficients (MGCC) with stronger speaker discrimination were obtained. Secondly, in order to improve the expression of CNN to features, an improved channel feature response SE-Block (squeeze and excitation block) model was introduced. Finally, building upon the spatial features extracted by the enhanced squeeze-and-excitation CNN (CNN-SE), the time series features are further extracted through the bidirectional gated recurrent unit network (BiGRU) to improve the performance of the whole network. Experimental results show that the acoustic features of MGCC show stronger characterization ability and better robustness under different noise backgrounds, while the average recognition rate of the CNN-SE-BiGRU model can be 96.05% under MGCC acoustic features, which fully proves the effectiveness and robustness of the proposed method.

Keywords: voiceprint recognition fusion features bidirectional gated recurrent unit squeeze and excitation block convolutional neural network (CNN)

随着信息化时代的到来，市场对智能产品的需求愈加强烈, 而声纹识别技术则是人类与机器进行人机交互的桥梁，具有远程实现、信息安全性高的优点，应用背景广阔。在声纹识别中声纹特征的提取是基础，且声纹特征的表征能力将直接影响声纹识别效果。目前常用的单一的声纹特征有伽马频率倒谱系数(gammatone frequency cepstral coefficient, GFCC)^[1]、线性预测倒谱系数(linear predictive cepstral coefficient, LPCC)^[2]、梅尔频率倒谱系数(Mel-frequency cepstral coefficient, MFCC)^[3-5]和语谱图^[6]等。在语音信号的研究中，所处理的语音信号通常背景噪声较小，而生活中更多的是在噪声环境中进行识别，不仅要考虑到特征对语音信号的表征能力，还要考虑其抗噪性能的强弱。因此选择分辨性更高、鲁棒性更强的特征是非常重要的。Lin等^[7]采用自适应阈值选取方法，对MFCC特征进行融合, 实现了对低信噪比语音特征的还原和动态提取；Zhang等^[8]根据MFCC特征的特性，提出深度散射光谱特征, 克服了MFCC特征在高频下声纹区分性小的问题；周萍等^[9]在噪声环境下，使用MFCC、GFCC和融合特征MFCC-GFCC进行说话人识别性能实验，结果表明，GFCC在大多数噪声环境下识别性能强于MFCC，而MFCC-GFCC融合特征的识别性能最优。

近年来，随着深度学习技术被广泛研究，学者们将其引入声纹识别技术中，提出了多种基于深度学习的声纹识别方法^[10-11]。为提升声纹识别的识别率，罗春梅和张风雷^[12]提出利用高斯增值矩阵特征并改进深度神经网络，对特征进行噪声适应性补偿，增强信号的帧间关联和说话人特征信息；南兆营^[13]提出一种新的TR函数作为网络的激活函数，该激活函数是以AlexNet网络弥补ReLU函数作为激活函数时易出现神经元坏死和偏移的现象，以此提高说话人识别的准确度；林舒都和邵曦^[14]通过将深度神经网络与i-vector模型结合，得到更高维度的特征，从而有效地避免了语音表征特征的不必要损失；Li等^[15]结合SE模块、CBAM模块和残差网络中的残差块结构, 得到了能提取到更丰富更具有差异化的特征的SE-Cov2d和CSA-Cov2d模型；Zhang等^[16]提出一种增强型深度残差收缩网络(enhanced deep residual shrinkage network，EDRSN)，使用双路径卷积循环网络, 并加入卷积块注意力机制模块和混合空洞卷积模块，以增强声学特征和消除噪声特征；Velayuthapandian和Subramoniam^[17]提出聚焦模块与1-DCNN结合得到新的说话人识别的CNN模型，同时利用softmax损失和平滑L1范数联合提升模型效率。

综上所述，诸多学者对声纹识别开展了较为深入的研究，研究的方向主要包括：1) 改进、融合声学特征，增强特征的区分性和抗噪性；2) 增强模型的特征表达能力、泛化性以及鲁棒性。文献[9]提出的MFCC-GFCC融合特征，虽然包含2种单一声纹特征的特性，表征能力更强，但融合MFCC和GFCC特征的方式是将单一声纹特征直接进行维度拼接，这种方式融合得到的特征中的2种单一特征间无法互相关联，在噪声环境下特征易遭到破坏，且会增加特征的数据量。文献[15]通过在CNN中引入注意力机制，丰富了特征表示，但语音信号的特征谱图不仅包含空间信息也包含时序信息，而CNN对时序信息的学习不足。

因此，本文提出一种利用特征类间区分度，设计合适的权值对MFCC与GFCC特征进行线性加权的特征融合方式来达到增强单一特征间的关联程度、控制数据量不变的目的。同时，提出一种新的识别网络模型CNN-SE-BiGRU模型。首先，通过引入改进的通道特征响应SE-Block(squeeze and excitation block) 模型到CNN，丰富空间特征表示；其次，在改进后的CNN-SE-Net模型上提取空间特征；最后，再通过双向门控循环单元网络(bidirectional gated recurrent unit，BiGRU)提取时序特征，对特征进行更全面地学习。

1 特征提取 1.1 MFCC与GFCC特征

MFCC^[18]是模拟人耳的听觉机理得到的一种声纹特征，由于符合人耳听觉特性，具有较强的鲁棒性。在有背景噪声的情况下仍具有良好的识别性能。MFCC特征提取步骤操作如下：

1) 对语音信号进行预处理操作，主要由预加重、分帧、加窗3步组成；2)对加窗后得到的信号进行快速傅里叶变换得到不同频率下的能量分布，即功率谱，然后对功率谱的幅值取平方得到离散功率谱；3)通过M个梅尔带通滤波器对离散功率谱进行滤波；4)对滤波后得到的M个离散功率谱取自然对数，获得对数功率谱；5)对对数功率谱进行离散余弦变换, 可得到系数M_n，即MFCC特征

$ \begin{gathered} M_n=\sum\limits_{k=0}^M \lg \left[P_{\mathrm{MF}}(M)\right] \cos \left[\frac{n \pi}{M}(k+0.5)\right], \\ 0 \leqslant n \leqslant M . \end{gathered} $

(1)

其中：P_MF(M)是采用M个梅尔带通滤波器滤波后的离散功率谱，M为梅尔带通滤波器的个数；n为离散余弦变换阶数，即最终输出的MFCC特征维数。

GFCC^[19]特征和MFCC特征一样，都是模拟人耳听觉机理对语音信号处理得到的一种声纹特征。且GFCC特征的提取过程和MFCC特征的提取过程相似，它仅是在提取MFCC特征的流程中，将梅尔带通滤波器替换成gammatone滤波器。gammatone滤波器的时域表达式为

$ b=25.169\left(\frac{4.37 f_{\mathrm{C}}}{1000}+1\right) . $

(2)

$ g\left(f_{\mathrm{C}}, t\right)=a t^{n-1} \mathrm{e}^{-2 \pi b t} \cos \left(2 \pi f_{\mathrm{C}} t+\varphi\right) . $

(3)

其中：f_C是滤波器的中心频率；a为控制增益；n是滤波器阶数；φ为相位，通常被设置为0；b是与f_C相关的衰减因子。

对照MFCC特征提取步骤，对获取的离散功率谱采用D个gammatone滤波器滤波，并对输出取自然对数，得到对数功率谱，最后采取离散余弦变换，得到GFCC特征系数G_n。

$ \begin{gathered} G_n=\sum\limits_{k=0}^D \lg \left[P_{\mathrm{GF}}(D)\right] \cos \left[\frac{n \pi}{D}(k+0.5)\right], \\ 0 \leqslant n \leqslant D . \end{gathered} $

(4)

其中：D为gammatone滤波器的个数；P_GF(D)是采用D个gammatone滤波器滤波后的离散功率谱；n为离散余弦变换阶数，即最终输出的GFCC特征维数。

1.2 基于归一化线性加权的融合特征MGCC

文献[20]提取不同声纹特征进行声纹识别，分析发现融合特征中某一声纹特性好的特征能够弥补该效果差的特征，从而使融合特征同时具有2种特征的优点，具有更好的识别效果。这是因为人的发音是复杂多样的，比如口音、语速以及在不同情绪下发音习惯会有所改变，而单一特征不能很好地涵盖全部的信息和抓住发音的变化，从而降低了识别率。目前特征融合的方法有直接对特征进行维度拼接^[21]，即

$ \boldsymbol{X}=\left[\left(\boldsymbol{N}_1, \boldsymbol{N}_2, \cdots \boldsymbol{N}_n\right), \left(\boldsymbol{M}_1, \boldsymbol{M}_2, \cdots \boldsymbol{M}_n\right), \cdots\right] . $

(5)

其中：N和M代表 2种不同的特征矩阵，n是特征维数。

这种方式得到的融合特征拥有不同单一特征的特性，但每种单一特征之间的关联性不强。在噪声环境下，这种方式得到的融合特征易遭到破坏，且由于直接拼接导致特征维度增加，训练难度增大。基于贡献度的特征融合方法^[22]，虽然相较于维度拼接的方式，克服了数据量大的问题，并进一步增强了特征的表征能力，但其本质和维度拼接一样，融合的单一特征间仍不相关联。而单纯的线性相加，虽然加强了特征之间的联系，但对于特征特性的利用不充分。

同时，梅尔带通滤波器和gammatone滤波器是模拟人耳对音频信号的感知特性和频率分辨能力的滤波器，而这2种滤波器提取的MFCC和GFCC特征则在梅尔域和伽马域有一定的抗噪性能。由于MFCC和GFCC特征所采用的滤波器不同，其具有的量纲也不同^[23]，如果直接对2种特征进行融合，反而会使融合后特征的表征能力和抗噪性能下降，因此提出使用归一化线性加权的方法融合MFCC和GFCC特征。若2种特征维度维数不同，可通过计算每种特征的各个维度特征贡献度，在最终保证2种特征维度相同的情况下，去除2种特征不重要的特征维度。再使用归一化线性加权的方法融合两种特征。

归一化线性加权的特征融合方法首先对音频提取的MFCC和GFCC特征进行归一化处理，以消除尺度不同而产生的量纲影响

$ \boldsymbol{X}^{\prime}=\frac{\boldsymbol{X}-\min (\boldsymbol{X})}{\max (\boldsymbol{X})-\min (\boldsymbol{X})} . $

(6)

再利用线性加权的方法融合MFCC和GFCC特征，这样既不会在原有的特征数据量上增大数据，还使得单一特征间关联性加强，同时可通过分配权重让MFCC和GFCC特征得到有效应用

$ \boldsymbol{T}_{\mathrm{MGCC}}=\alpha \boldsymbol{T}_{\mathrm{MFCC}}+(1-\alpha) \boldsymbol{T}_{\mathrm{GFCC}} . $

(7)

其中：α为分配给MFCC特征的权重；T_GFCC和T_MFCC为GFCC和MFCC归一化的特征矩阵。

2 网络模型搭建 2.1 BiGRU模型

循环神经网络(recurrent neural network, RNN)能学习时间序列问题中的长期依赖性，但其计算是按顺序进行的，对长期依赖关系很难捕捉且会出现梯度消失和梯度爆炸。为解决RNN的缺陷提出了长短时记忆网络(long short-term memory network, LSTM)，而门控循环单元(gated recurrent unit, GRU)则是LSTM在结构上做出一定简化后的结果，不仅减少了训练时间，也保证了模型的性能^[24]。GRU内部结构如图 1所示。

	Download: JPG larger image
图 1 GRU的结构 Fig. 1 Structure of GRU

计算公式如下

$ \boldsymbol{u}_t=\sigma\left(\boldsymbol{W}^{(u)} \boldsymbol{x}_t+\boldsymbol{V}^{(u)} \boldsymbol{h}_{t-1}+\boldsymbol{b}_u\right), $

(8)

$ \boldsymbol{r}_t=\sigma\left(\boldsymbol{W}^{(r)} \boldsymbol{x}_t+\boldsymbol{V}^{(r)} \boldsymbol{h}_{t-1}+\boldsymbol{b}_r\right), $

(9)

$ \boldsymbol{c}_t=\tanh \left(\boldsymbol{W}^{(h)} \boldsymbol{x}_t+\boldsymbol{V}^{(h)}\left(\boldsymbol{r}_t \boldsymbol{h}_{t-1}\right)+\boldsymbol{b}_h\right), $

(10)

$ \boldsymbol{h}_t=\left(\boldsymbol{1}-\boldsymbol{u}_t\right) \boldsymbol{h}_{t-1}+\boldsymbol{u}_t \boldsymbol{c}_t . $

(11)

其中：W(u)、W(r)、W(h)、V(u)、V(r)、V(h)均为权重矩阵；b_u、b_r、b_h为偏置项，x_t为给定的t时刻输入，u_t为一个权重矩阵，表示更新门；r_t为一个权重矩阵，表示重置门；h_t-1为t-1时刻的输出；c_t为t时刻候选集状态；h_t为t时刻的输出，σ为sigmoid函数。

而BiGRU则是通过在序列数据的前向和后向2个方向上分别运行2个独立的GRU网络来实现的，BiGRU的结构如图 2所示。

	Download: JPG larger image
图 2 BiGRU的结构 Fig. 2 Structure of BiGRU

前向GRU负责捕捉序列数据的前向信息，后向GRU负责捕捉序列数据的后向信息，2个方向上的输出共同决定最终的输出^[25-26]。

2.2 CNN-SE-Net

CNN-SE-Net^[27]是由CNN的卷积层结合SE-Block得到的网络结构。SE-Block是一种可嵌入信道注意力机制，其设计由压缩和激励两部分构成。它的本质是通过将特征通道的空间维度降为1，将特征通道信息转化为全局特征向量，方便衡量每个通道的重要性，使用一个小型的多层感知机来学习如何重新校准每个通道的重要性，其示意图如图 3所示。

	Download: JPG larger image
图 3 CNN-SE-Net结构 Fig. 3 CNN-SE-Net structure

1) 压缩操作：顺着输入特征的通道将每个通道的特征维度压缩为一个实数，一般由全局平均池化实现。压缩公式如下

$ z_c=F_{\mathrm{sq}}\left(u_c\right)=\frac{1}{H \times W} \sum\limits_{i=1}^H \sum\limits_{j=1}^W u_c(i, j) . $

(12)

其中：z_c为输入特征第c个通道数据压缩的实数，F_sq为压缩函数，H为输入的特征矩阵的列数，W为输入的特征数的行数，u_c为输入特征第c个通道的特征数据。

2) 激励操作：一般由2个全连接层和1个sigmoid激活函数实现，第1个全连接层的目的是缩小通道数减小计算复杂程度，第2个全连接层的目的是还原，最终通过激活函数计算出每个通道特征的权重

$ \boldsymbol{S}=F_{\mathrm{ex}}(z, W)=\sigma\left(W_2 \delta\left(W_1 z\right)\right) . $

(13)

其中：S为特征的权重矩阵；z为压缩步骤的输出；W₁为第1个全连接层参数；W₂为第2个全连接层的参数；σ为ReLU函数；δ为sigmoid函数。

最后将输入特征和得到的特征权重矩阵相乘，实现对特征的权重分配，增强了特征的表示能力。

2.3 CNN-SE-Net的改进和CNN-SE-BiGRU网络搭建

SE-Block一般是嵌入到CNN中的卷积层或者池化层后，自适应地调整每个特征通道的权重，从而增强特征表现能力。本文模型使用2个卷积层后，再嵌入SE-Block。卷积层的作用是捕捉更细节的特征，且不会改变空间。使用2个卷积层，能提取到更高级的特征，且这种层级结构表示可以提供更加丰富和多样化的信息，从而使特征的表现能力更强。同时，通过添加1个卷积层改变原本进行权重分配的特征图。该方式引入了更多的非线性变换和特征组合，提取出更丰富的特征表示，可以增强SE-Block对特征的关注和选择能力，进一步提高模型的性能。并且，这里采用2维卷积层替代全连接层扩大感知范围，提高模型对输入数据的全局理解能力。因此改进后的CNN-SE-Net具有更大感知范围和能捕捉更细节的特征，使网络更好地理解输入数据的上下文信息。改进后的CNN-SE-Net模块如图 4所示。

	Download: JPG larger image
图 4 改进的CNN-SE-Net结构 Fig. 4 Improved CNN-SE-Net structure

但该网络模型对于时序特征的学习能力没有得到提升。BiGRU是一种基于RNN的成熟结构，对于时序特征具有更强的提取效果。语音信号的特征都是基于频域特征和时序特征分析的，因此在改进的CNN-SE-Net后引入BiGRU，充分利用2种模型对2种特征的提取优势，从而提取出语音信号更深度的特征，增强模型对特征的表达能力，提升声纹识别的效果。

CNN-SE-BiGRU模型结构如图 5所示。

	Download: JPG larger image
图 5 CNN-SE-BiGRU模型结构 Fig. 5 CNN-SE-BiGRU model structure

2.4 基于融合特征MGCC和CNN-SE-BiGRU的声纹识别模型流程

本文所提声纹识别方法的识别流程如图 6所示。将特征增强方法和神经网络模型相结合，提出基于融合特征MGCC和CNN-SE-BiGRU的声纹识别方法。首先，获取语音数据的MFCC特征和GFCC特征；其次，对2类特征进行归一化处理，再采用线性加权的方法得到融合特征MGCC；最后，将划分好的训练数据输入到搭建好的CNN-SE-BiGRU网络模型中进行训练，然后对测试数据进行识别。

	Download: JPG larger image
图 6 识别流程 Fig. 6 Identification process

3 实验结果及分析 3.1 数据集说明

声纹识别实验选择TIMIT语音数据库的400个人作为总数据集，每个人有10段音频，总共4 000条语音。选择每个人的8段音频作为训练集，即需要对3 200条音频进行合理规范训练；将余下800条语音作为测试集。本次选择其中20个不同说话人的训练语音和测试语音数据进行实验。为验证在噪声环境下的识别效果，实验中选择NoiseX92噪声库中的白色噪声、汽车噪声、粉红噪声这3种普遍的生活噪声来模拟日常生活中的噪声环境。并按照信噪比为5、10、15 dB对语音信号进行加噪，以更好地模拟噪声环境。最后为得到较好的结果，对不同条件下的识别实验分别进行15次，最终取15次实验的平均识别率。

3.2 模型设置

CNN-SE-BiGRU网络的输入数据大小为58×24×1，CNN-SE-Net的卷积层采用64、32、128通道，最大池化层为2×2的窗口，步长均设为1。选择ReLU函数作为激活函数，提升训练速度，SE-Block中的缩放参数r设为4，BiGRU为1层，其中，正向GRU和反向GRU的隐藏层均设置为50，最后采用softmax函数实现预测分类。模型采用adam优化器训练网络，学习率为0.001，batchSize为256。

3.3 不同特征的表征能力分析

为更直观体现声纹特征对不同说话人语音信号的区分能力，可根据类间离散度与类内离散度之比得到的平均类间区分度J=average[J₁, J₂, …, J_i]，来表示不同特征的表征能力。

$ J_i=\frac{\sum\limits_{h=1}^M\left(\mu_h-\mu\right)^2}{\frac{1}{N} \sum\limits_{h=1}^M \sum\limits_{n=1}^N\left(x_{h, n}-\mu_h\right)^2}. $

(14)

其中：M为说话人数目；N为说话人特征矩阵的元素总数；μ_h为第h个说话人特征矩阵中第i维特征矢量的平均值；μ为所有说话人特征矩阵中第i维特征矢量的平均值；x_h，n为第h个说话人特征矩阵中第n个元素值。

图 7和图 8所示为2个不同说话人的24维的MFCC帧级特征和GFCC帧级特征的各维特征类间区分度。如图 7所示，不同说话人的MFCC特征的三维视图形状相似，但各维矢量的幅值大小有所差异。如图所示，类间区分度大于5的有8个维度，且第1、3、10维的值相较突出，分别为20.3、13.1和10.5。有16维的特征类间区分度均小于5。对于上述2个说话人的MFCC特征的平均类间区分度为4.6。

	Download: JPG larger image
图 7 不同说话人的MFCC特征参数与类间区分度 Fig. 7 MFCC characteristic parameters and class differentiation of different speakers

	Download: JPG larger image
图 8 不同说话人的GFCC特征参数与类间区分度 Fig. 8 GFCC characteristic parameters and class differentiation of different speakers

从图 8可以看出，GFCC特征与MFCC特征的三维视图在形状上存在一定的相似性，都随特征维数的增加，曲线不断起伏呈现波浪状，仅2种特征在各维特征矢量幅值起伏程度存在明显差别。MFCC特征各维特征矢量的幅值起伏程度不一，而GFCC特征各维特征矢量的起伏相较平稳。GFCC的24个维度的特征中，共有6个维度特征的类间区分度大于5，其中第1维特征的类间区分度达到最高，达到了23.6，而剩余18维特征的类间区分度均小于5。此外，在忽略第1维特征后，观察可以发现GFCC相较于MFCC特征的各维类间区分度整体水平略低。

图 9为MFCC和GFCC特征经归一化线性相加融合后的MGCC声纹特征，由图 8所示的MGCC特征的三维视图可知，MGCC特征继承了MFCC和GFCC特征三维视图的特点，特征系数都随特征维数的增加呈现波浪状。从整体上看，24维的MGCC特征的类间区分度较高于MFCC特征和GFCC特征，且在MGCC特征的类间区分度中，第1维和第2维特征的类间区分度明显高于其余维度特征。由图 7~图 9可得，MFCC特征和GFCC特征对于不同说话人的语音信号的平均类间区分度分别为4.6、4.2，但是经归一化线性相加的融合特征MGCC对于不同说话人的语音信号的平均类间区分度为6.7，高于单一的MFCC特征和GFCC特征的平均类间区分度。显然，归一化线性相加不仅保留了MFCC和GFCC特征的区分特性，且进一步增强了2种特征的关联性，使得MGCC特征的区分能力高于单一的MFCC和GFCC特征。

	Download: JPG larger image
图 9 不同说话人的MGCC特征参数与类间区分度 Fig. 9 MGCC characteristic parameters and class differentiation of different speakers

为进一步研究MGCC的区分能力，分别对MFCC和GFCC特征赋予不同的权重进行线性加权而不是单纯的线性相加。MFCC和GFCC特征不同权重下MGCC特征的平均类间区分度如图 10所示。MG(α，β)表示赋予MFCC特征的权重为α，赋予GFCC特征的权重为β时线性加权得到的MGCC特征。

	Download: JPG larger image
图 10 不同权重下的MGCC特征的平均类间区分度 Fig. 10 Average between-class discrimination of MGCC features under different weights

从图 10可见，将0.7 MFCC与0.3GFCC线性加权得到的MGCC特征的类间区分度为6.2；将0.6 MFCC与0.4GFCC线性加权得到的MGCC特征的类间区分度为7.6；在同时将0.5 MFCC与0.5GFCC、0.4 MFCC与0.6GFCC、0.3 MFCC与0.7GFCC分别线性加权时得到的MGCC的类间区分度分别为7.0、6.5、5.8，呈逐渐降低趋势。由这些数据可知，相比于直接线性相加，通过线性加权运算能够得到区分度更好的MGCC特征，其中将MFCC与GFCC特征以6 ∶4线性加权时得到的MGCC特征的类间区分度达到最高。

3.4 融合特征MGCC的抗噪性能分析

通过在TIMIT语音数据的训练集和测试集加入不同噪声，并在不同信噪比下利用CNN-SE-BiGRU模型进行说话人识别实验，以此来验证本文方法得到的融合特征MGCC的抗噪性能，同时实验使用了其他常用的声学特征进行对比，包括24维MFCC特征、24维GFCC特征、48维的基于贡献度的融合特征的MFCC-GFCC和24维的复合准周期倒谱系数(composite quasi-periodic cepstral coefficients, CQCC)。结果如表 1所示。

表 1 噪声状态下说话人识别的准确率 Table 1 Accuracy of speaker recognition in noisy environments

由表 1可知，信噪比越大，即语音信号的背景噪声的干扰越小，从而对说话人识别的准确率越高。在信噪比为5 dB时，白色噪声下的MFCC特征的识别率是最低的，仅为67.57 %，而GFCC特征的识别率为74.48 %，这是因为相比于梅尔滤波器，gammatone滤波器在设计中包含了自适应增益控制，它可以根据频率响应和信号的能量来自动调整滤波器的增益，而这种增益控制可以有效地抑制噪声。还可以看出，MFCC-GFCC和MGCC特征的识别率分别为77.75 % 和93.15 %, 都比其余单一特征的识别率高，这是由于MFCC-GFCC和MGCC特征都同时包含了MFCC和GFCC特征的特性。同时相较于MFCC-GFCC特征，MGCC特征的识别率提升15.4 %。进一步说明，基于维度拼接融合的MFCC-GFCC特征中其单一特征间的关联不强，在噪声环境下特征易遭到破坏，而通过归一化线性加权融合获得的MGCC特征，其单一特征间的关联得到有效增强，能更好地发挥梅尔域和伽马域各自的抗噪性能。此外，可以明显看出MGCC特征在不同噪声和不同信噪比下的识别性能略高于其余特征，识别率均高于92 %。

在对比3种噪声环境下5种特征的识别率后，发现汽车噪声环境下的特征识别率整体高于其余两种噪声，这时由于汽车噪声是车内噪声，其噪声频率低于说话人的语音信号频率。因此当将汽车噪声作为语音信号的背景噪声时，其对语音信号的干扰程度相比于其他噪声较低。且在信噪比为15 dB时，MGCC特征的识别率达到96.05 %，充分证明了基于归一化线性加权的融合特征MGCC的有效性和鲁棒性。

3.5 不同网络模型的识别性能比较

实验均采用MFCC特征与GFCC特征, 以6 ∶4的权重线性加权后得到的MGCC特征作为训练、识别时的声学特征。

3.5.1 不同时序模块的性能比较

为评估模型的有效性，在相同数据集下，对不同模型的性能进行比较。实验采用不同时序模块下的网络模型，通过使用带噪声的数据集1，即在TIMIT语音数据的训练集和测试集中加入汽车噪声，信噪比为10 dB，和数据集2，即干净的训练集与测试集，验证哪种时序模块更优。结果如表 2所示。

表 2 不同时序模块下网络模型的识别准确率 Table 2 Recognition accuracy of network model with different temporal modules

由表 2可知：1) CNN-BiLSTM网络模型相比较于CNN-GRU模型，在数据集1和2上的识别准确率分别提升了4.44和1.18个百分点。2)CNN-BiGRU模型相较于CNN-BiLSTM模型，在数据集1和2上的识别准确率分别提升1.32和1.56个百分点。结果表明，应用CNN-BiGRU模型，系统性能均有所提升，同时在数据集1和数据集2上的识别准确率之差和其余模型相比较低，因此采用BiGRU时序模块能获得更好的鲁棒性。

3.5.2 SE-Block改进前后的性能比较

为体现改进后的SE-Block对模型的优化作用，实验在不同模型上加入改进前和改进后的SE-Block进行性能测试。本次实验在数据集1上进行实验，结果如表 3所示。结果表明：1)对比表 2各个模型在数据集1上的识别准确率，本次实验在网络模型中加入改进前后的SE-Block均能有效提高模型的性能；2)SE-Block改进后的CNN-SE-BiLSTM模型相较于SE-Block改进前，在数据集1上的识别准确率提升1.85个百分点；3)SE-Block改进后的CNN-SE-BiGRU模型相较于SE-Block改进前，在数据集1上的识别准确率提升2.48个百分点。结果表明，使用改进后的SE-Block，模型性能均有所提升。

表 3 SE-Block改进前后网络模型的识别准确率 Table 3 Recognition accuracy of network model before and after the improvement of SE-Block

3.5.3 不同模型的抗噪性能分析

为进一步验证SE-Block改进后不同模型的抗噪性，选择使用白色和粉红噪声，加入到TIMIT语音数据的训练集和测试集，在不同信噪比下进行实验分析。结果如图 11所示。

	Download: JPG larger image
图 11 不同噪声环境和不同信噪比下的识别率 Fig. 11 Recognition rate under different noise environments and different signal-to-noise ratios

由图 11可见，在白色噪声环境中，本文提出的识别网络模型与其他SE-Block改进后的CNN-SE-BiLSTM、CNN-SE-GRU、CNN-SE-LSTM模型相比平均识别率在20 dB信噪比下分别提高2.72、4.59、6.18个百分点。在5 dB信噪比下提高3.17、5.65、8.40个百分点。在粉红噪声环境中，本文提出的识别模型与其他SE-Block改进后的CNN-SE-BiLSTM、CNN-SE-GRU、CNN-SE-LSTM模型相比平均识别率在20 dB信噪比下分别提高2.36、4.4、4.98个百分点。在5 dB信噪比下提高2.95、8.82、8.61个百分点。同时当信噪比为0时，在2种噪声环境下各个模型的识别率均急速下降，这是由于噪声能量过大，破坏原始语音数据，无法提取有效表征说话人的特征导致的。但仍可以看出CNN-SE-BiGRU模型的平均识别率仍较高于其余模型。实验结果充分表明利用本文提出的识别模型进行声纹识别的有效性和鲁棒性。

4 结论

本文提出基于融合特征MGCC和CNN-SE-BiGRU的声纹识别方法，通过归一化线性加权融合MFCC特征与GFCC特征，得到说话人身份信息更丰富、更具区别性的MGCC特征，并计算特征类间区分度和利用不同噪声，进一步验证了融合特征MGCC具有更好的表征能力与更强的抗噪性能。同时，为充分利用语音信号的时序特征，通过在改进的CNN-SE-Net模型后引入BiGRU，以更有效地提取说话人的空间特征和时序特征。数据集加入10 dB的汽车噪声，在采取相同的识别模型时，所提出的MGCC特征下的平均识别率为95.13 %，相比于MFCC-GFCC特征提升6.83个百分点，且在5 dB的信噪比下其平均识别率仅下降1.08个百分点，反观其余特征均下降超过4个百分点。在都使用MGCC声学特征且模型训练参数设置均相同时，使用不同的时序模块进行实验，分析得出BiGRU时序模块能更有效地提升模型的鲁棒性和识别率。而在SE-Block改进前后的对比实验中，SE-Block改进后的CNN-SE-BiGRU网络在数据集1下的平均识别率为95.13 %，相比SE-Block未改进前提升2.48个百分点。最后通过在不同的噪声环境和信噪比下使用本文所提模型与其他模型进行实验分析，进一步表明本文所提的识别模型不仅有较强的说话人表达能力，还具有一定的抗噪性。

参考文献

[1]	张卫强, 刘加. 基于听感知特征的语种识别[J]. 清华大学学报(自然科学版), 2009, 49(1): 78-81. Doi:10.16511/j.cnki.qhdxxb.2009.01.020
[2]	李泽, 崔宣, 马雨廷, 等. MFCC和LPCC特征参数在说话人识别中的研究[J]. 河南工程学院学报(自然科学版), 2010, 22(2): 51-55. Doi:10.3969/j.issn.1674-330X.2010.02.013
[3]	Alam M J, Kinnunen T, Kenny P, et al. Multitaper MFCC and PLP features for speaker verification using i-vectors[J]. Speech Communication, 2013, 55(2): 237-251. Doi:10.1016/j.specom.2012.08.007
[4]	Paul S B S, Glittas A X, Gopalakrishnan L. A low latency modular-level deeply integrated MFCC feature extraction architecture for speech recognition[J]. Integration, 2021, 76: 69-75. Doi:10.1016/j.vlsi.2020.09.002
[5]	唐步天, 郭立, 刘振华. 利用MFCC的语音信息隐藏方法[J]. 中国科学院研究生院学报, 2008, 25(3): 386-394. Doi:10.7523/j.issn.2095-6134.2008.3.014
[6]	贾艳洁, 陈曦, 于洁琼, 等. 基于特征语谱图和自适应聚类SOM的快速说话人识别[J]. 科学技术与工程, 2019, 19(15): 211-218. Doi:10.3969/j.issn.1671-1815.2019.15.034
[7]	Lin Z D, Di C G, Chen X. Bionic optimization of MFCC features based on speaker fast recognition[J]. Applied Acoustics, 2021, 173: 107682. Doi:10.1016/j.apacoust.2020.107682
[8]	Zhang P Y, Chen H T, Bai H C, et al. Deep scattering spectra with deep neural networks for acoustic scene classification tasks[J]. Chinese Journal of Electronics, 2019, 28(6): 1177-1183. Doi:10.1049/cje.2019.07.006
[9]	周萍, 沈昊, 郑凯鹏. 基于MFCC与GFCC混合特征参数的说话人识别[J]. 应用科学学报, 2019, 37(1): 24-32. Doi:10.3969/j.issn.0255-8297.2019.01.003
[10]	Mohd Hanifa R, Isa K, Mohamad S. A review on speaker recognition: technology and challenges[J]. Computers & Electrical Engineering, 2021, 90: 107005. Doi:10.1016/j.compeleceng.2021.107005
[11]	杨建斌, 张卫强, 刘加. 深度神经网络自适应中基于身份认证向量的归一化方法[J]. 中国科学院大学学报, 2017, 34(5): 633-639. Doi:10.7523/j.issn.2095-6134.2017.05.014
[12]	罗春梅, 张风雷. 基于均值特征和改进深度神经网络的说话人识别算法[J]. 声学技术, 2021, 40(4): 503-507. Doi:10.16300/j.cnki.1000-3630.2021.04.010
[13]	南兆营. 基于卷积神经网络的法庭说话人识别研究[J]. 电声技术, 2021, 45(2): 23-27, 31. Doi:10.16311/j.audioe.2021.02.006
[14]	林舒都, 邵曦. 基于i-vector和深度学习的说话人识别[J]. 计算机技术与发展, 2017, 27(6): 66-71. Doi:10.3969/j.issn.1673-629X.2017.06.014
[15]	Li Y Q, Zhang X L, Zhang X Y, et al. Unconstrained vocal pattern recognition algorithm based on attention mechanism[J]. Digital Signal Processing, 2023, 136: 103973. Doi:10.1016/j.dsp.2023.103973
[16]	Zhang Q R, Zhai H T, Ma Y Y, et al. Enhanced-deep-residual-shrinkage-network-based voiceprint recognition in the electric industry[J]. Electronics, 2023, 12(14): 3017. Doi:10.3390/electronics12143017
[17]	Velayuthapandian K, Subramoniam S P. A focus module-based lightweight end-to-end CNN framework for voiceprint recognition[J]. Signal, Image and Video Processing, 2023, 17(6): 2817-2825. Doi:10.1007/s11760-023-02500-7
[18]	Ghosh U, Mondal U K. Improved wireless acoustic sensor network for analysing audio properties[J]. International Journal of Information Technology, 2023, 15(7): 3679-3687. Doi:10.1007/s41870-023-01411-7
[19]	黄张衡, 龙华, 邵玉斌, 等. 噪声环境下听觉特征融合的语种识别[J]. 现代电子技术, 2023, 46(5): 47-54. Doi:10.16652/j.issn.1004-373x.2023.05.010
[20]	王华朋, 牛瑾琳, 刘元周, 等. 不同语音特征对声音分类的有效性研究[J]. 中国刑警学院学报, 2020(6): 122-128. Doi:10.14060/j.issn.2095-7939.2020.06.017
[21]	朱晓丽, 李吉祥, 陈明, 等. 基于MFCC和GFCC特征融合的汽车鸣笛声识别方法[J]. 电脑与信息技术, 2023, 31(2): 24-26, 30. Doi:10.19414/j.cnki.1005-1228.2023.02.003
[22]	龙翔, 夏秀渝. 基于融合频域和时域特征的说话人识别[J]. 现代计算机, 2022, 28(11): 25-30. Doi:10.3969/j.issn.1007-1423.2022.11.004
[23]	Agrawal D M, Sailor H B, Soni M H, et al. Novel TEO-based Gammatone features for environmental sound classification[C]//2017 25th European Signal Processing Conference (EUSIPCO). Kos, Greece. IEEE, 2017: 1809-1813. DOI: 10.23919/EUSIPCO.2017.8081521.
[24]	Efat M I A, Hossain M S, Aditya S, et al. Identifying optimised speaker identification model using hybrid GRU-CNN feature extraction technique[J]. International Journal of Computational Vision and Robotics, 2022, 12(6): 662. Doi:10.1504/ijcvr.2022.126508
[25]	薛丽, 郑含笑, 吴昊辰. 基于CNN-BiGRU的学术文本分类研究[J]. 郑州航空工业管理学院学报, 2023, 41(3): 61-68. Doi:10.19327/j.cnki.zuaxb.1007-9734.2023.03.008
[26]	Eknath K G, Diwakar G. Prediction of Remaining useful life of Rolling Bearing using Hybrid DCNN-BiGRU Model[J]. Journal of Vibration Engineering & Technologies, 2023, 11(3): 997-1010. Doi:10.1007/s42417-022-00620-x
[27]	Hu J, Shen L, Albanie S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. Doi:10.1109/TPAMI.2019.2913372


中国科学院大学学报 2025, Vol. 42 Issue (6): 832-842	PDF