基于深度抑郁特征编码网络的语音抑郁检测

引用本文

李奇, 姬生文, 赵迪, 等. 基于深度抑郁特征编码网络的语音抑郁检测[J]. 郑州大学学报(理学版), 2026, 58(3): 10-16.

LI Qi, JI Shengwen, ZHAO Di, et al. Speech Depression Detection Based on Deep Depression Feature Encoding Network[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(3): 10-16.

基金项目

吉林省自然科学基金面上项目(20240101344JC)；吉林省科技发展计划国际科技合作项目(20200801035GH)

作者简介

李奇(1977—), 男，教授，主要从事脑信息学与智能信息处理研究，E-mail：liqi@cust.edu.cn

文章历史

收稿日期：2024-11-04

Contents Abstract Full text Figures/Tables PDF

基于深度抑郁特征编码网络的语音抑郁检测

李奇^1,2,3, 姬生文¹, 赵迪¹, 武岩^1,2,3, 奚洋⁴, 孟天宇¹

1. 长春理工大学计算机科学技术学院吉林长春 130022;
2. 吉林省脑信息与智能科学国际联合研究中心吉林长春 130022;
3. 长春理工大学中山研究院广东中山 528437;
4. 东北电力大学计算机学院吉林吉林 132011

收稿日期：2024-11-04

基金项目：吉林省自然科学基金面上项目(20240101344JC)；吉林省科技发展计划国际科技合作项目(20200801035GH)

作者简介：李奇(1977—), 男，教授，主要从事脑信息学与智能信息处理研究，E-mail：liqi@cust.edu.cn.

摘要：针对语音抑郁数据集存在的特征冗余问题，提出基于深度抑郁特征编码网络(deep depression feature encoding network，D-DFENet)的语音抑郁检测方法。首先，利用Wav2vec2.0预训练模型提取语音潜在表征。其次，设计一种卷积变分自编码器模块，通过引入变分自编码器机制以实现特征空间降维，并在编码器的多层结构中逐层嵌入卷积神经网络，旨在有效滤除语音潜在表征中与抑郁状态无关的冗余或干扰信息。最后，在DAIC-WOZ数据集上进行模型性能评估。实验结果表明，当D-DFENet的特征维度降至128时，检测精度可达到90%，在分类准确率上优于现有方法。

关键词：抑郁症检测语音特征预训练模型降维自编码器

Speech Depression Detection Based on Deep Depression Feature Encoding Network

LI Qi^1,2,3, JI Shengwen¹, ZHAO Di¹, WU Yan^1,2,3, XI Yang⁴, MENG Tianyu¹

1. School of Computer Science and Technology, Changchun University of Science and Technology, Changchun 130022, China;
2. Jilin Provincial International Joint Research Center of Brain Informatics and Intelligence Science, Changchun 130022, China;
3. Zhongshan Institute of Changchun University of Science and Technology, Zhongshan 528437, China;
4. School of Computer Science, Northeast Electric Power University, Jilin 132011, China

Abstract: Aiming at the problem of feature redundancy in the speech depression dataset, a speech depression detection method based on the deep depression feature encoding network (D-DFENet) was proposed. Firstly, the Wav2vec2.0 pre-training model was utilized to extract the latent representations of speech. Secondly, a convolutional variational autoencoder module was designed. By introducing the variational autoencoder mechanism, the dimensionality reduction of the feature space was achieved, and convolutional neural networks were embedded layer by layer in the multi-layer structure of its encoder, to effectively filter out the redundant or interference information unrelated to the depressive state in the latent representations of speech. Finally, the performance of the model was evaluated on the DAIC-WOZ dataset. The experimental results showed that when the feature dimension of D-DFENet was reduced to 128, the detection accuracy reached 90%, which was superior to the existing methods in classification accuracy.

Key words: depression detection speech feature pre-trained model dimensionality reduction autoencoder

0 引言

抑郁症是一种严重的精神疾病，其特征为持续情绪低落、对社交活动失去兴趣，严重时甚至产生自杀念头。世界卫生组织的调查数据显示，全球范围内有超过3.5亿人正遭受着不同程度的抑郁症困扰^[1]。然而，由于当前医患比例严重失衡，许多患者未能及时获得诊断，亟须一种可靠且高效的抑郁症自动检测方法辅助医生进行有效诊断。近年来，基于语音的抑郁症自动检测方法因其非侵入性、受限较少和成本低廉等优势，逐渐成为该领域研究的重点^[2]。

在语音抑郁检测领域，传统机器学习方法通过手工提取的声学特征对抑郁状态进行检测^[3]。但是，传统方法依赖于特征的质量，难以充分捕捉与抑郁症相关的深层语音特征，容易导致特征丢失和分类准确率下降。随着深度学习的发展，包括长短期记忆(long short-term memory，LSTM)网络和Transformer在内的深度学习架构在语音抑郁特征提取方面已取得显著成果。Almars^[4]提出一种结合注意力机制和Bi-LSTM的卷积神经网络(convolutional neural network, CNN)用于提取深度学习特征，有效提升了基于语音的抑郁状态辨识效果。Yin等^[5]提出一种基于并行CNN和Transformer的深度学习模型，通过分析语音来检测抑郁症，并在两个数据集上取得了优于现有方法的性能。然而，此类方法依赖大量标注数据训练模型，在实际环境中由于数据的隐私性和敏感性，难以获取足够的标注样本数据。

为了解决上述问题，研究者开始关注元学习^[6]、迁移学习^[7]等先进技术。语音领域的无监督预训练模型Wav2vec2.0在分类任务中显示出卓越的性能，其能够从未标记的语音数据中自动提取潜在特征表示，并减少对标注数据的依赖^[8]。例如，Cai等^[9]使用Wav2vec2.0作为无监督特征提取器，利用其优秀的特征提取能力提取语音帧级的潜在表征。曹荣贺等^[10]利用Wav2vec2.0提取嵌入表征，并将其与语境表征相结合用于情感识别任务。然而，在语音抑郁检测任务中，Wu等^[11]的研究表明，Wav2vec2.0提取的语义特征和上下文信息与抑郁检测任务高度相关，而音色、口音等特征相关性较低。这意味着Wav2vec2.0提取的特征中包含与抑郁检测任务不相关或冗余的信息，从而限制了其在该领域的应用潜力。为解决此问题，一些研究通过微调全连接层权重强化抑郁检测相关特征，同时削弱无关特征。例如，Bao等^[12]调整Wav2vec2.0网络参数，在末端添加全连接层微调，提升模型适应性。然而，该方法依赖微调权重来消除冗余特征的效果有限，因此其提升抑郁检测性能的空间较小。

与上述微调策略相比，自编码器通过无监督学习的方式挖掘数据的潜在特征表示，并实现数据降维，在筛选复杂特征和去除特征冗余方面展现出显著优势^[13]。例如，Sardari等^[14]利用卷积自编码器自动从原始音频信号中提取紧凑且低维的特征，实现了端到端的抑郁症检测。Wu等^[15]提出了最佳层数的BiGRU自编码器模型，去除语音信号中存在的冗余特征并提取深度抑郁特征，最终分类准确率达到79.95%。受上述研究启发，本文综合了预训练模型Wav2vec2.0和自编码器的优势，提出一种基于深度抑郁特征编码网络(deep depression feature encoding network，D-DFENet)的语音抑郁检测方法。该方法在Wav2vec2.0预训练模型的基础上引入自编码器机制，并进一步对传统自编码器进行改进，创新性地设计出卷积变分自编码器网络(convolutional variational autoencoder network, CVAENet)模块。该模块通过变分自编码器机制实现特征空间压缩，能够有效去除Wav2vec2.0特征中与抑郁状态无关的冗余信息，并筛选出与抑郁状态高度相关的特征。为了验证所提方法的有效性，在DAIC-WOZ数据集上进行实验验证。

1 研究方法 1.1 系统框架

模型主要包括D-DFENet和分类器两大模块，整体框架如图 1所示。首先，在D-DFENet模块中将语音信号输入W2V2Net子模块的Wav2vec2.0预训练模型中，以提取潜在的语音特征表示，Wav2vec2.0模型能够通过自监督学习从未标记的语音数据中提取丰富的上下文特征。其次，将提取后的特征应用合成少数类过采样技术(synthetic minority oversampling technique，SMOTE)^[16]对不平衡特征进行数据增强，以避免分类偏差。SMOTE能够通过生成少数类样本平衡正负样本的比例，提高模型对少数类(语音抑郁)的识别能力。再次，将数据增强后的特征输入CVAENet模块中，进一步压缩特征空间并去除与抑郁检测无关的冗余信息。通过逐层卷积操作，CVAENet能够有效增强抑郁特征的表达能力。最后，隐变量特征被输入分类器模块的随机森林(random forest, RF)、多层感知机(multi-layer perceptron，MLP)和梯度提升(gradient boosting，GB)分类器进行抑郁检测。

图 1 整体框架 Fig. 1 General framework

1.2 基于D-DFENet的特征提取模型 1.2.1 W2V2Net模块

Wav2vec2.0是一个从原始语音信号中提取稳定特征的自监督学习框架，它通过向量量化、输入掩蔽和对比学习损失函数来实现自监督训练。本文利用Facebook人工智能研究院预训练的Wav2vec2.0模型作为特征提取器的重要组件来捕获语音的潜在表征。Wav2vec2.0自监督模型框架如图 2所示。

图 2 Wav2vec2.0自监督模型框架 Fig. 2 Wav2vec2.0 self-supervised model framework

首先，模型中的CNN特征编码器将原始语音输入转换为潜在语音表示Z。随后，量化模块将这些表示量化为离散化嵌入Q。通过对来自CNN编码器的潜在语音表征中的部分帧进行随机掩码，模型将处理后的数据送入基于Transformer的上下文编码器，以获取包含丰富上下文信息的表征C。具体公式为

$ \boldsymbol{Z} =\mathrm{LE}(\boldsymbol{S}), $

(1)

$ \boldsymbol{C} =\mathrm{CE}(\boldsymbol{Z}), $

(2)

$ \boldsymbol{Q} =\mathrm{QM}(\boldsymbol{Z}), $

(3)

其中：LE表示特征编码器；CE表示上下文编码器；QM表示乘积量化操作。将抑郁检测类别分为两类，其中“非抑郁”类别的数量大约是“抑郁”类别的3倍。不平衡数据集会使网络模型更偏向学习样本数更多的类别，在这种情况下分类器的识别准确率将失去参考意义。为了避免不平衡数据集所带来的分类问题，在预训练模型Wav2vec2.0特征提取后，引入SMOTE对少数类进行过采样。SMOTE通过在少数类样本之间生成新的合成样本来平衡数据分布，从而减少分类模型对多数类的偏好，提高少数类的检测精度，有效缓解了数据不平衡导致的分类偏差问题。具体计算公式为

$ y_{\text {new }}=y_i+\boldsymbol{\eta}\left(y_j-y_i\right), $

(4)

其中：y_new为合成少数类样本; y_i为第i个少数类样本; y_j为第i个少数类样本的第j个近邻样本; η为[0, 1]之间的随机数。

1.2.2 CVAENet模块

针对Wav2vec2.0特征中存在的特征冗余问题，设计CVAENet模块用于消除与抑郁检测无关的冗余特征，并提取与抑郁状态高度相关的特征。CVAENet总体结构如图 3所示。

图 3 CVAENet总体结构 Fig. 3 General structure of CVAENet

CVAENet由编码器和解码器两大子模块构成。首先，在编码器模块中将数据增强后的Wav2vec2.0特征X作为模型的输入，X ={x₁, x₂, …，x_n}，x_n∈ R^T×D，T和D分别表示特征序列长度和特征维度。为了更有效地去除冗余信息并提取抑郁相关特征，编码器通过多个卷积块对特征进行处理，每个卷积块包含一维卷积层和最大池化层。CNN能够捕捉输入数据的局部模式，从而提取具有时空依赖性的潜在特征，同时减少不相关的噪声干扰。最终编码器将特征压缩为低维表征，并通过引入变分推断来估计隐变量F。其中，F中包含了原始输入数据的所有关键信息，即与抑郁状态高度相关的特征。其次，在解码器模块中，为了实现从隐变量F到输入数据的逆映射，根据F的特点采用与编码器对称的网络结构进行反卷积和反池化，逐步恢复数据。将编码后的F转换为重构向量X ′={x′₁, x′₂, …，x′_n}。最后，为了精准提取与抑郁状态相关的语音特征，设计了损失函数来最小化CVAENet模型的重建误差，以确保模型能够有效地提取与抑郁相关的特征。上述描述中具体的数学公式为

$ \boldsymbol{F}=\boldsymbol{\mu}+\varepsilon \odot \boldsymbol{\sigma}^2, $

(5)

$ \boldsymbol{X}^{\prime}=g_3\left(g_2\left(g_1\left(h_3\right)\right)\right), $

(6)

$ \mathcal{L}(\theta, \phi ; x, f)=E_{f \sim \varepsilon_\phi(x / f}\left[\log p_\theta(x \mid f)\right]- \\ D_{\kappa L}\left(q_\phi(f \mid x) \| p(f)\right), $

(7)

其中：F表示编码后的隐变量；μ和σ²分别表示均值向量和方差向量；⊙表示逐元素乘法；ε~N(0, 1)表示根据标准正态分布进行随机采样，保证了模型在参数传递过程中连续可导；g₁, g₂, g₃分别表示不同层所使用的反卷积块；X′是解码后得到的重构数据；θ，ϕ分别表示编码器和解码器网络的参数；x和f分别表示输入特征(Wav2vec2.0特征)和输出潜在表示；E_{f~q_ϕ(x|f)}[log p_θ(x|f)] 表示在给定输入数据x的情况下，计算生成样本的概率对数的期望，最小化这一项可以使模型在重建时尽可能保留与抑郁症相关的细节特征，确保生成的样本能够反映原始数据中的抑郁状态信息；D_KL(q_ϕ(f x)‖p(f))表示正则化项，用于度量模型生成的潜在表示q_ϕ(f x)与先验分布p(f)之间的差异，通过引入正则化项，模型可以在生成潜在表示时遵循与抑郁症相关的特征分布，有助于在潜在空间中更清晰地分离抑郁和非抑郁特征，提高不同状态间的区分度，从而提升抑郁症检测的精度和泛化能力。

1.3 分类器模块

选用RF、MLP和GB三种机器学习分类器来评估模型的性能。其中，MLP作为一种人工神经网络模型，能够学习输入数据与目标之间的非线性关系，特别适用于处理复杂的抑郁特征。而RF和GB作为集成学习算法，能够结合多个基础模型的优势，提高分类的准确性和稳定性，对于处理抑郁分类这种复杂问题尤为有效^[17]。

2 实验结果及分析 2.1 数据集和数据预处理

使用DAIC-WOZ^[18]数据集来评估所提出方法的有效性。DAIC-WOZ是抑郁症检测的基准数据集，包含了189次的临床访谈音频，音频文件时长为7~33 min(平均16 min)，其中非抑郁与抑郁音频的比例约为3 ∶1。每个音频都标有PHQ-8分数和PHQ-8二进制标签，PHQ-8分数定义了参与者抑郁的严重程度，PHQ-8二进制标签定义了参与者是否抑郁。

在DAIC-WOZ数据集中，每个音频文件包含访谈者和受访者语音，且伴有长时间静默片段。文献[18]研究表明，访谈者语音和音频中的静默片段对抑郁检测贡献有限。因此，本研究聚焦于解码受访者语音。借鉴语音抑郁检测研究中的常用预处理方法去除静默片段和访谈者语音，并将同一ID的受访者语音整合为新音频。为保证结果的可靠性，将处理后的5 min语音片段作为输入，并按8 ∶1 ∶1的比例划分数据集。

2.2 实验环境和参数设置

模型运行在Intel i7-11700@2.50 GHz CPU、GTX 1660 Ti GPU(6 GB显存)和32 GB内存的台式机上，基于Python3.8与TensorFlow2.6(GPU) 实现。Wav2vec2.0框架特征编码器为7层CNN，通道数为512，卷积核大小为(10, 3, 3, 3, 3, 2, 2)，步长为(5, 2, 2, 2, 2, 2, 2)；上下文编码为12层Transformer Encoder，多头注意力机制头数为8，最终特征维度为768。CVAENet模块用TensorFlow实现，训练300轮，批大小为32，优化器为Adadelta，损失函数为MSE。

2.3 评估指标

在评估分类器性能时，仅依赖准确率作为衡量标准是不够的，假阳性和假阴性样本的存在可能对结果产生一定影响。因此，采用准确率(Accuracy)、查准率(Precision)、查全率(Recall)及F1分数(F1-score)对分类结果进行全面评估。计算公式为

$ Accuracy =\frac{T P+T N}{T P+F N+F P+T N} \times 100 \%, $

(8)

$ Precision =\frac{T P}{T P+F P} \times 100 \%, $

(9)

$ Recall =\frac{T P}{T P+F N} \times 100 \%, $

(10)

$ F 1 -score =\frac{2 \times Recall \text { × } Precision }{ Recall + Precision } \times 100 \%, $

(11)

其中：TP是正确识别的抑郁样本；FP是错误标记为抑郁的健康样本；TN是正确识别的健康样本；FN是错误标记为健康的抑郁样本。

2.4 D-DFENet模型性能实验

为了验证D-DFENet的有效性，选取RF、MLP和GB三种分类器进行模型评估。D-DFENet在不同分类器上的实验结果如表 1所示。可以看出，D-DFENet提取的特征在三种分类器上均表现出色。其中，RF分类器表现最佳，F1分数和准确率均为90%，查准率为94%，查全率为87%，说明D-DFENet特征在RF中判别力和稳定性极高。MLP分类器中查准率和查全率分别为73%和80%，F1分数低于RF分类器，但其依然有效利用了D-DFENet的特征，展现出其在处理复杂特征关系时的良好性能。在GB分类器中各项评估指标均表现稳定，这也进一步表明了D-DFENet特征具有较强的稳健性，以及其对D-DFENet特征的高适应性。

表 1 D-DFENet在不同分类器上的实验结果 Tab. 1 Experimental results of D-DFENet with different classifiers

为了直观地表示D-DFENet特征在不同分类器上的表现，绘制了三种分类器在测试集上归一化后的混淆矩阵，结果如图 4所示。可以看出，D-DFENet特征在RF分类器上表现最好，这表明D-DFENet提取的特征在分类任务中具有极高的判别力。相比之下，MLP和GB分类器的整体表现略低于RF，这种差异可能是由于MLP对网络结构和参数优化敏感，而GB依赖数据分布以及对特征差异敏感。

图 4 使用不同分类器时生成的混淆矩阵 Fig. 4 Confusion matrices generated with different classifiers

2.5 语音数据预处理对比实验

为验证5 min语音(静音移除后)数据的合理性，分别对比了原始语音、原始语音(静音移除后)、5 min语音(静音移除前)和5 min语音(静音移除后)的表现。实验采用五折交叉验证并使用RF、MLP和GB分类器进行测试，语音数据预处理对比实验结果如图 5所示。

图 5 语音数据预处理对比实验结果 Fig. 5 Comparison of speech data preprocessing results

从图 5可以看出，5 min语音(静音移除后)数据在三种分类器上的表现均优于原始语音、原始语音(静音移除后)和5 min语音(静音移除前)。这一结果验证了选用5 min静音移除数据的合理性，并表明静音移除操作有效增强了模型对抑郁相关特征的捕捉能力。因此，采用此预处理策略对于后续抑郁检测任务具有积极作用。

2.6 不同自编码器对比实验

为验证CVAENet模块的优越性，在D-DFENet模型中分别用密集自编码器(dense autoencoder，dense AE)和变分自编码器(variational autoencode，VAE)替换了原有的CVAENet模块，并记录分类结果。不同自编码器对比实验结果如表 2所示。可以看出，RF分类器在不同自编码器中的表现优于其他分类器，这说明RF在特征学习和分类上具有优势。全面比较后发现，CVAENet结合三种分类器的评估指标均优于其他自编码器。这种优势得益于CVAENet引入的卷积变分模块，其复杂的结构能够更准确地学习语音特征，尤其是在区分抑郁与非抑郁特征方面表现突出。

表 2 不同自编码器对比实验结果 Tab. 2 Comparison of different autoencoders results

2.7 CVAENet降维实验

为了评估CVAENet在不同维度下的去冗余能力，将输入数据降至不同维度(512、256、128、64维)，使用RF、MLP和GB三种分类器进行测试，降维实验结果对比如图 6所示。可以看出，随着维度的降低，准确率在128维时达到峰值，使用RF、MLP和GB分类器的分类准确率分别为90%、75%和82%。但进一步降低至64维时，准确率反而下降, 这一结果可能是降维过程中过度压缩特征空间导致了关键信息的损失。实验结果表明，CVAENet具有良好的去冗余能力，适度降维有助于去除冗余信息，但过度降维会对分类结果产生负面影响。

图 6 降维实验结果对比 Fig. 6 Comparison of dimensionality reduction results

2.8 与现有方法的比较

为了验证所提方法的优越性，将分类结果与2021—2024年最具竞争力的语音抑郁检测方法进行对比，所有方法均在DAIC-WOZ数据集上进行实验，不同算法的性能对比结果如表 3所示。可以看出，D-DFENet在三种分类器上均表现出具有竞争力的评估指标。相比之下，W2V2方法仅用Wav2vec2.0和简单全连接层进行分类，忽略了冗余特征筛选，准确率低于本文方法；相比CNN AE+SVM和Optimized signal+BiGRU AE方法，本研究设计了适配性更强的自编码器结构，其在查全率方面表现最优；STFN方法虽在F1分数和准确率上略高于本文的MLP分类结果，但其为有监督学习，而本研究基于无监督特征提取更适合实际应用；W2V2+Fine-tuning方法虽为最新微调版本，但因未有效消除与抑郁无关的冗余特征，影响了其准确性与泛化能力，在综合评估上不及本文方法。

表 3 不同算法在DAIC-WOZ数据集上性能对比 Tab. 3 Performance comparison of different algorithms on the DAIC-WOZ dataset

3 结语

本文提出了一种基于D-DFENet的语音抑郁检测方法，该方法能够从原始语音信号中自动提取与抑郁状态高度相关的特征。其核心在于利用预训练模型Wav2vec2.0学习语音的潜在表示，并通过CVAENet将其映射到低维潜在向量空间。经过编码和解码的过程，模型有效去除冗余信息并保留与抑郁状态高度相关的特征。实验结果表明，D-DFENet在提取抑郁特征及去冗余方面表现出色，在DAIC-WOZ数据集上的检测性能优于现有方法，该方法的局限性在于缺乏对多语言数据集的评估。未来将通过对多语言数据集的评估来优化模型的跨语言处理能力，以扩大其实际应用范围。

参考文献

[1]	GROSSBERG A, RICE T. Depression and suicidal behavior in adolescents[J]. Medical clinics of North America, 2023, 107(1): 169-182. DOI:10.1016/j.mcna.2022.04.005 (0)
[2]	刘振焘, 向春妮, 刘陈陵, 等. 基于语音的抑郁检测研究综述[J]. 信号处理, 2023, 39(4): 616-631. LIU Z T, XIANG C N, LIU C L, et al. Survey on depression detection research based on speech signals[J]. Journal of signal processing, 2023, 39(4): 616-631. (0)
[3]	ALEEM S, HUDA N U, AMIN R, et al. Machine learning algorithms for depression: diagnosis, insights, and research directions[J]. Electronics, 2022, 11(7): 1111. DOI:10.3390/electronics11071111 (0)
[4]	ALMARS A M. Attention-based Bi-LSTM model for Arabic depression classification[J]. Computers, materials & continua, 2022, 71(2): 3091-3106. (0)
[5]	YIN F M, DU J, XU X Z, et al. Depression detection in speech using transformer and parallel convolutional neural networks[J]. Electronics, 2023, 12(2): 328. DOI:10.3390/electronics12020328 (0)
[6]	DUAN Y F, BAO H T, BAI G T, et al. Learning to diagnose: meta-learning for efficient adaptation in few-shot AIOps scenarios[J]. Electronics, 2024, 13(11): 2102. DOI:10.3390/electronics13112102 (0)
[7]	PRABHU S, MITTAL H, VARAGANI R, et al. Harnessing emotions for depression detection[J]. Pattern analysis and applications, 2022, 25(3): 537-547. DOI:10.1007/s10044-021-01020-9 (0)
[8]	BAEVSKI A, ZHOU Y, MOHAMED A, et al. Wav2vec 2.0:a framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460. (0)
[9]	CAI J, SONG Y, WU J, et al. Voice disorder classification using Wav2vec2.0 feature extraction[J]. Journal of voice, 2024, 293-298. (0)
[10]	曹荣贺, 吴晓龙, 冯畅, 等. 基于Wav2vec2.0与语境情感信息补偿的对话语音情感识别[J]. 信号处理, 2023, 39(4): 698-707. CAO R H, WU X L, FENG C, et al. Wav2vec2.0 and context emotional information compensation based dialogue speech emotion recognition[J]. Journal of signal processing, 2023, 39(4): 698-707. (0)
[11]	WU W, ZHANG C, WOODLAND P C. Self-supervised representations in speech-based depression detection[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2023: 1-5. (0)
[12]	BAO Z H, QIAN K, ZHAO Z H, et al. Somatisation disorder detection via speech: introducing a self-supervised learning model[C]//Proceedings of the 45th Annual International Conference of the IEEE Engineering in Medicine & Biology Society. Piscataway: IEEE Press, 2023: 1-4. (0)
[13]	崔文源, 滕飞, 贺百胜, 等. 基于变分自编码器的交通流预测算法[J]. 郑州大学学报(理学版), 2025, 57(4): 40-46. CUI W Y, TENG F, HE B S, et al. A traffic flow prediction algorithm based on variational autoencoders[J]. Journal of Zhengzhou university (natural science edition), 2025, 57(4): 40-46. DOI:10.13705/j.issn.1671-6841.2023166 (0)
[14]	SARDARI S, NAKISA B, RASTGOO M N, et al. Audio based depression detection using convolutional autoencoder[J]. Expert systems with applications, 2022, 189: 116076. DOI:10.1016/j.eswa.2021.116076 (0)
[15]	WU H N, HU W P, FU D L, et al. Autoencoder based on VMD and mutual information to detect depression from speech[EB/OL]. (2023-04-19)[2024-10-12]. https://doi.org/10.1145/3584376.3584453. (0)
[16]	ELREEDY D, ATIYA A F, KAMALOV F. A theoretical distribution analysis of synthetic minority oversampling technique (SMOTE) for imbalanced learning[J]. Machine learning, 2024, 113(7): 4903-4923. DOI:10.1007/s10994-022-06296-4 (0)
[17]	王杰, 程学新, 彭金柱. 一种基于粒子群算法优化的加权随机森林模型[J]. 郑州大学学报(理学版), 2018, 50(1): 72-76. WANG J, CHENG X X, PENG J Z. A weighted random forest model based on particle swarm optimization[J]. Journal of Zhengzhou university (natural science edition), 2018, 50(1): 72-76. DOI:10.13705/j.issn.1671-6841.2017006 (0)
[18]	VALSTAR M, SCHULLER B, SMITH K, et al. AVEC 2013: the continuous audio/visual emotion and depression recognition challenge[C]//Proceedings of the 3rd ACM International Workshop on Audio/Visual Emotion Challenge. New York: ACM Press, 2013: 3-10. (0)
[19]	HAN Z J, SHANG Y Y, SHAO Z H, et al. Spatial-temporal feature network for speech-based depression recognition[J]. IEEE transactions on cognitive and developmental systems, 2024, 16(1): 308-318. DOI:10.1109/TCDS.2023.3273614 (0)
[20]	ZHANG X, ZHANG X C, CHEN W S, et al. Improving speech depression detection using transfer learning with Wav2vec2.0 in low-resource environments[J]. Scientific reports, 2024, 14(1): 9543. DOI:10.1038/s41598-024-60278-1 (0)