不确定性感知的标签噪声矫正算法

引用本文

李英双, 贾文玉, 杨莉, 等. 不确定性感知的标签噪声矫正算法[J]. 郑州大学学报(理学版), 2026, 58(1): 10-18.

LI Yingshuang, JIA Wenyu, YANG Li, et al. Uncertainty-aware Label Noise Correction Algorithm[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(1): 10-18.

基金项目

国家自然科学基金项目(62306103，62376194)；河北省高等学校自然科学研究项目(QN2023262)；河北省高等教育教学改革研究与实践项目(2022GJJG039)

通信作者

杨莉(1992—)，女，讲师，主要从事人工智能研究，E-mail：2322272628@qq.com

作者简介

李英双(1986—)，女，工程师，主要从事人工智能研究，E-mail：liyingshuang@hebut.edu.cn

文章历史

收稿日期：2024-07-06

Contents Abstract Full text Figures/Tables PDF

不确定性感知的标签噪声矫正算法

李英双^1,2,3, 贾文玉¹, 杨莉⁴, 曾旺官⁵, 董永峰^1,2,3

1. 河北工业大学人工智能与数据科学学院天津 300401;
2. 天津市虚拟现实与可视计算国际联合中心天津 300401;
3. 河北省数据驱动工业智能工程研究中心(河北工业大学) 天津 300401;
4. 天津仁爱学院天津 301636;
5. 天津五洋智通智能科技有限公司天津 300392

收稿日期：2024-07-06

基金项目：国家自然科学基金项目(62306103，62376194)；河北省高等学校自然科学研究项目(QN2023262)；河北省高等教育教学改革研究与实践项目(2022GJJG039)

作者简介：李英双(1986—)，女，工程师，主要从事人工智能研究，E-mail：liyingshuang@hebut.edu.cn.

通信作者：杨莉(1992—)，女，讲师，主要从事人工智能研究，E-mail：2322272628@qq.com.

摘要：标签噪声通过在训练过程中降低对真实类别预测的置信度引入了不确定性问题，为了降低标签噪声的影响，提出了一种不确定性感知的标签噪声矫正算法(ULC)。首先，基于证据理论和主观逻辑理论，从样本的多个视图和标签信息中估计不确定性。其次，采用双准则样本选择策略将数据集划分为三个子集，并使用联合预测矫正噪声标签。最后，采用不同的正则化策略处理各个子集以优化训练目标。在四个模拟标签噪声数据集和两个真实标签噪声数据集上进行对比实验。与DivideMix算法相比，在包含40% Pairflip类型噪声的CIFAR-10和CIFAR-100数据集上，ULC的分类准确率分别提升了10.58个百分点和15.84个百分点，矫正标签准确率分别达到了95.48%和81.32%。实验结果表明，ULC能够准确估计不确定性，提升矫正标签准确率和模型泛化性能。

关键词：深度学习标签噪声不确定性估计样本选择标签矫正

Uncertainty-aware Label Noise Correction Algorithm

LI Yingshuang^1,2,3, JIA Wenyu¹, YANG Li⁴, ZENG Wangguan⁵, DONG Yongfeng^1,2,3

1. School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401, China;
2. Tianjin International Joint Center for Virtual Reality and Visual Computing, Tianjin 300401, China;
3. Hebei Engineering Research Center of Data-Driven Industrial Intelligence (Hebei University of Technology), Tianjin 300401, China;
4. Tianjin Ren'ai College, Tianjin 301636, China;
5. Tianjin Wuyang Zhitong Intelligence Technology Co. Ltd, Tianjin 300392, China

Abstract: Label noise introduced issues of uncertainty into the training process of learning algorithms by reducing confidence in the prediction of true classes. To mitigate the impact of label noise, an uncertainty-aware label noise correction (ULC) algorithm for robust classification was proposed. Firstly, based on evidence theory and subjective logic theory, uncertainty was estimated from multiple perspectives and the label information of the sample. Secondly, the dataset was finely divided into three subsets. The noise labels within these subsets were then corrected using joint prediction. Finally, to optimize the training objectives, each subset was processed using different regularization strategies. Comparative experiments were conducted on four simulated label noise datasets and two containing real label noise. On CIFAR-10 and CIFAR-100 with 40% pairflip-type label noise, the classification accuracy of ULC was increased by 10.58 percentage points and 15.84 percentage points compared to DivideMix, and the corrected label accuracy reached 95.48% and 81.32%, respectively.The simulation results showed that the proposed algorithm accurately estimated uncertainty, finely improved the accuracy of corrected labels, and enhanced model generalization performance.

Key words: deep learning label noise uncertainty estimation sample selection label correction

0 引言

深度学习中的监督分类算法被应用于众多领域，大规模高质量数据集是其取得成功的关键。然而，一些低成本方法标注的数据集存在严重的标签噪声问题，比如在线查询、众包、机器生成等^[1]。据统计，现实数据集中错误标签的比例在8.0%到38.5%之间^[2]。深度学习模型具有强大的记忆能力，会学习到训练数据中的噪声模式，导致过拟合问题, 标签噪声大大影响了模型的训练。

标签矫正方法尝试学习或生成新的标签，替换原有的噪声标签来处理标签噪声问题，通常借助深度学习网络的记忆效应识别潜在的噪声样本，然后根据模型输出概率矫正标签。已有的标签矫正算法取得了显著的效果，但仍面临以下问题。一方面，标签噪声增加了深度学习的不确定性，在训练中通过降低真实类预测的置信度，指导模型学习到错误的特征和规律，导致难以识别出真实的噪声结构；另一方面，标签噪声增加了深度学习模型的不确定性，随着模型对噪声标签的适应，对于相似输入可能产生不一致的预测结果，使模型的预测概率不一定能准确反映真实标签分布，使用模型预测进行标签矫正，可能会引入新的标签噪声。

为了应对标签噪声学习中的不确定性问题，提出了一种不确定性感知的标签噪声矫正(uncertainty-aware label noise correction, ULC)算法。受文献[3]的启发，ULC采用弱数据增强和强数据增强为图像生成两个不同的视图，共享权重模型。首先，基于证据神经理论和主观逻辑理论估计不确定性，将整体不确定性解偶为数据不确定性和模型不确定性，以更好地理解标签和模型预测的可靠性。其次，使用双准则样本选择策略，将数据集精细地划分为三个子集，并使用联合预测矫正噪声标签。最后，采用不同的正则化策略处理各个子集，以优化训练目标，实现鲁棒性。

1 相关工作

标签矫正方法属于一种调整损失的方法，通常包含样本选择过程。样本选择方法往往基于深度神经网络的记忆效应^[4]，在训练前期将损失值较小的样本视为可能干净的样本，称为小损失样本选择准则。Han等^[5]提出的Co-teaching利用两个独立的网络为对等网络选择小损失样本，滤除不同的噪声相关误差。Wei等^[6]提出的JoCoR使用包含一致性正则项的联合损失选择样本。Dong等^[2]提出的CoDC在特征层面利用分歧策略，在预测层面利用一致性最大化策略。在高噪声情况下，信息丢失是样本选择方法的致命缺点。样本重加权方法^[7-8]通过调整样本权重，利用了整个数据集的信息，但最优加权函数是给所有错误标注的样本赋予0权重，因此没有解决信息丢失的问题。

标签矫正方法尝试利用所有可用的样本信息矫正噪声样本的标签。Li等^[9]提出的DivideMix使用损失值动态拟合一个二分量的高斯混合模型，使用模型预测矫正标签。与DivideMix类似，Albert等^[10]提出的DSOS计算模型预测和原始标签的中间值，使用该值的熵拟合一个贝塔分布。Sun等^[11]提出的Co-LDL利用模型学习标签的分布对噪声样本维护一个标签矩阵，在反向传播中自动矫正标签。最优的标签矫正方法是矫正所有噪声样本的标签，因此避免了信息过度丢失的问题。

2 预备知识

单一确定性的深度学习模型无法建模不确定性，对于确定性的输入会得到确定性的输出，无法输出方差(一种不确定性的度量)。证据深度学习模型^[12]使用主观逻辑理论进行贝叶斯推理，建模类概率分布并提供一个计算不确定性的函数。

模型学习到一组证据$\boldsymbol{e}=\left[e_1, e_2, \cdots, e_K\right]$，使用参数为$\boldsymbol{\alpha}=\left[\alpha_1, \alpha_2, \cdots, \alpha_K\right]$的Dirichlet分布建模类概率分布，并令第k项参数$\alpha_k=e_k+1$。Dirichlet分布P(·)是特定概率p的一个K维的概率函数，即概率的概率，其概率密度函数为

$ P(\boldsymbol{p} \mid \boldsymbol{\alpha})= \begin{cases}\frac{1}{B(\boldsymbol{\alpha})} \prod\limits_{i=1}^K p_i^{\alpha_i-1}, & \boldsymbol{p} \in \boldsymbol{\Delta}^K, \\ 0, & \boldsymbol{p} \notin \boldsymbol{\Delta}^K, \end{cases} $

(1)

其中：Δ^K是K维单位单纯形；B(·)是K维多项式Beta函数。在K类分类任务中，定义辨识框架Ω={ω₁, ω₂, …, ω_K}，其中ω_k代表第k类。在Ω上，令命题集合Θ={{ω₁}, {ω₂}, …, {ω_K}}，对于Ω的幂集2^Ω中的每个子集A定义信念函数，即

$ m(A)= \begin{cases}0, & A=\varnothing \vee A \notin \boldsymbol{\Theta} \cup\{\boldsymbol{\Omega}\}, \\ b_k, & A \in \boldsymbol{\Theta}, i=1, 2, \cdots, K, \\ u, & A=\boldsymbol{\Omega}, \end{cases} $

(2)

其中：b_k为各类别信度, i=1, 2, …, K；不确定信度为u，

$ b_k=\frac{e_k}{S}=\frac{\alpha_k-1}{S}, u=\frac{K}{S}, $

(3)

其中：$S=\sum\limits_{k=1}^K \alpha_k$为Dirichlet强度，代表置信水平。观察到某一类的证据越多，信度分配越大，整体观察到的证据越少，不确定的信度越大，因此信度分配被视为一种主观意见。

传统神经网络分类器通常使用交叉熵损失L_ce最小化标签与预测之间的距离，所用公式为

$ L_{\mathrm{ce}}=\sum\limits_{k=1}^K y_k \log \left(p_k\right), $

(4)

其中：p_k代表概率的第k项；y_k代表标签的第k项证据深度学习模型学习的不是预测概率点，而是概率分布P(p|α)。将p代入式(4)并修改后，得到证据深度学习模型的分类损失为

$ \begin{aligned} & L_c=\int\left[\sum\limits_{k=1}^K-y_k \log \left(p_k\right)\right] \frac{1}{B(\boldsymbol{\alpha})} \prod\limits_{k=1}^K p_k^{\alpha_k-1} \mathrm{~d} \boldsymbol{p}= \\ & \sum\limits_{k=1}^K y_k\left(\psi(S)-\psi\left(\alpha_k\right)\right), \end{aligned} $

(5)

其中：ψ(·)是Digamma函数。

3 ULC架构与算法设计

ULC采用共享权重的双视图学习网络，算法架构如图 1所示。首先，将图像x的弱数据增强x^w和强数据增强x^s输入网络f中，获得两组证据e^w=f(x^w)和e^s=f(x^s)。其次，基于证据理论和主观逻辑理论，融合由两个视图提供的证据获得联合主观意见，根据标签信息导出估计的数据不确定性和模型不确定性，将噪声数据集划分成三个子集，并根据联合主观意见矫正噪声标签。最后，采用不同的正则化技术克服各个子集的问题。

图 1 ULC架构图 Fig. 1 The structure of ULC

3.1 不确定性估计

ULC使用了弱增强和强增强为样本生成两个视图证据e^w和e^s，为不确定性估计提供多样化的证据，也为模型提供更多的线索学习数据特征。由式(3)导出信念M^w={{b_k^w}_k=1^K, u^w}和M^s={{b_k^s}_k=1^K, u^s}。基于Dempster合成规则，可以融合两个视图的信念获得联合信念M={{b_k}_k=1^K, u}，

$ \left\{\begin{array}{l} M=M^{\mathrm{w}} \oplus M^{\mathrm{s}}, \\ b_k=\frac{1}{1-C}\left(b_k^{\mathrm{w}} b_k^{\mathrm{s}}+b_k^{\mathrm{w}} u^{\mathrm{s}}+b_k^{\mathrm{s}} u^{\mathrm{w}}\right), \\ u=\frac{1}{1-C} u^{\mathrm{w}} u^{\mathrm{s}}, \end{array}\right. $

(6)

其中：b_k表示第k类的信度；u表示不确定的信度，即不知道将样本分为第几类；$C=\sum\limits_{i \neq j} b_i^{\mathrm{w}} b_j^{\mathrm{s}}$是冲突信念的度量；1/(1-C)是归一化参数。设x的给定标签为第j类，模型预测样本为第j类的信度为b_j。当不确定性较大时，可能是模型不确定性较大或者数据不确定较大导致的。

模型不确定性来源于模型缺陷，当式(6)中的u较大时，意味着模型对x的两个视图的预测信度不高或者是冲突的，表示模型的预测越随机，因此将u建模为模型不确定性，记为u^m=u，反映模型预测的可信程度。假设数据不确定性全部来源于标签噪声，b_j较小也可能是标签错误导致的，使模型预测与标签信息的冲突性较大，即模型预测样本不是第j类的信念质量$\sum\limits_{i \neq j} b_i$较大。因此将$u^{\mathrm{d}}=\sum\limits_{i \neq j} b_i$建模为数据不确定性，反映标签错误的程度。

本文为了简化，用u^m(·)表示计算模型不确定性的函数，用u^d(·)表示计算数据不确定性的函数。估计数据不确定性和模型不确定性在评估模型预测和样本标签的可靠性方面起着关键作用。

3.2 样本选择

标签矫正方法通常包含样本选择过程，其是标签噪声处理的重要步骤。ULC使用双准则样本选择策略将数据划分为三个子集，分别为数据可信集、模型可信集和不确定集。

1) 数据可信集。认为同时满足小损失和低数据不确定性的样本是更加可信的干净样本。给定比例τ，从数据集D中选择的数据可信集$\tilde{\boldsymbol{D}}^{\mathrm{d}}$为

$ \left\{ {\begin{array}{*{20}{l}} {{{\widetilde {\boldsymbol{D}}}^l} = \mathop {{\mathop{\rm argmin}\nolimits} }\limits_{\left| {{{\boldsymbol{D}}^\prime }} \right| = \left\lfloor {[\tau |{\boldsymbol{D}}\mid } \right\rfloor } l\left( {f,{{\boldsymbol{D}}^\prime }} \right),}\\ {{{\widetilde {\boldsymbol{D}}}^{{\rm{ud}}}} = \mathop {{\mathop{\rm argmin}\nolimits} }\limits_{\left| {{{\boldsymbol{D}}^\prime }} \right| = \left\lfloor {[\tau |{\boldsymbol{D}}\mid } \right\rfloor } {u^{\rm{d}}}\left( {f,{{\boldsymbol{D}}^\prime }} \right),}\\ {{{\widetilde {\boldsymbol{D}}}^{\rm{d}}} = {{\widetilde {\boldsymbol{D}}}^l} \cap {{\widetilde {\boldsymbol{D}}}^{{\rm{ud}}}},} \end{array}} \right. $

(7)

其中：l(·)为联合损失；$\tilde{\boldsymbol{D}}^l$是小损失子集；$\tilde{\boldsymbol{D}}^{\mathrm{ud}}$是低数据不确定性子集。在每个训练轮次中，每个小批量的数据$的噪声比例总在整体噪声比例附近波动，因此，根据每个小批量模型预测的标签置信度动态确定第t个小批量的样本选择阈值τ_t为

$ \tau_t=\tau+\left(\bar{b}^t-\frac{1}{t} \sum\limits_{i=1}^t \bar{b} i\right), $

(8)

其中：$\bar{b}^t$是第t个小批量的样本预测为给定标签的平均信度；τ是估计的整体噪声比例。

2) 模型可信集。将同时满足高置信度和低模型不确定性的样本作为预测可信的样本。基于测试集与训练集的数据分布一致的假设，模型可信集$\tilde{\boldsymbol{D}}^{\mathrm{m}}$为

$ \left\{ {\begin{array}{*{20}{l}} {{{\widetilde {\boldsymbol{D}}}^p} = \mathop {{\mathop{\rm argmax}\nolimits} }\limits_{\left| {{\boldsymbol{D}^\prime }} \right| = \left\lfloor {A|\boldsymbol{D}|} \right\rfloor } {p_{\max }}\left( {f,{{\boldsymbol{D}}^\prime }} \right),}\\ {{{\widetilde {\boldsymbol{D}}}^{{\rm{um}}}} = \mathop {{\mathop{\rm argmin}\nolimits} }\limits_{\left| {{{\boldsymbol{D}}^\prime }} \right| \lfloor T\mid {\boldsymbol{D}} \rfloor } {u^{\rm{m}}}\left( {f,{{\boldsymbol{D}}^\prime }} \right),}\\ {{{\widetilde {\boldsymbol{D}}}^{\rm{m}}} = {{\widetilde {\boldsymbol{D}}}^p} \cap {{\widetilde {\boldsymbol{D}}}^{{\rm{um}}}} - {{\widetilde {\boldsymbol{D}}}^{\rm{d}}},} \end{array}} \right. $

(9)

其中：p_max(·)用于计算模型预测的最大类概率；T是上一个迭代的测试准确率；$\tilde{\boldsymbol{D}}^p$是高置信度子集; $\tilde{\boldsymbol{D}}^{\mathrm{um}}$是低模型不确定性子集。设网络f学习到给定样本x的预测概率分布为P(p|α)，则p_max(f, x)=(max_{k∈[1, K]}α_k)/S，$S=\sum\limits_{k=1}^K \alpha_k$。

3) 不确定集。不确定集包含那些模型预测概率较低，并且数据标签本身可能不正确的数据点，不确定子集$\tilde{\boldsymbol{D}}^{\mathrm{u}}$定义为

$ \tilde{\boldsymbol{D}}^{\mathrm{u}}=\boldsymbol{D}-\tilde{\boldsymbol{D}}^{\mathrm{d}}-\tilde{\boldsymbol{D}}^{\mathrm{m}}{ }_{\circ} $

(10)

将数据划分为数据可信集、模型可信集和不确定集，可以更好地理解和探索模型对不同数据点的预测置信度和不确定性，从而可以针对性地采用不同的方式，提高模型鲁棒性。

3.3 标签矫正

数据可信集使用原始标签，模型可信集和不确定集使用联合预测进行标签矫正。在处理时，将数据集分为数据可信集、可信集和不确定性集，其中可信集是数据可信集和模型可信集的组合。图 2展示了在包含40% Symmetric标签噪声的数据集CIFAR-10和CIFAR-100上不同子集的占比、矫正标签准确率和噪声率，不同子集反映不同的噪声程度。

图 2 CIFAR-10(上)和CIFAR-100(下)中不同子集的占比、矫正标签准确率和噪声率 Fig. 2 The ratio, label correction accuracy, and noise ratio of different subsets in CIFAR-10 (top) and CIFAR-100 (bottom)

1) 数据可信集$\tilde{\boldsymbol{D}}^{\mathrm{d}}$被认为是可信的，可以高度依赖这些标签进行学习，使用联合损失l(·)处理，

$ L_{\mathrm{d}}=\frac{1}{2\left|\tilde{\boldsymbol{D}}^{\mathrm{d}}\right|} \sum\limits_{\boldsymbol{x} \in \tilde{\boldsymbol{D}}^{\mathrm{d}}} l\left(f, \boldsymbol{x}^{\mathrm{w}}\right)+l\left(f, \boldsymbol{x}^{\mathrm{s}}\right), $

(11)

$ l=L_{\mathrm{c}}+\lambda L_{\mathrm{kl}}, $

(12)

其中：x^w是弱增强视图；x^s是强增强视图；L_c为分类损失项；L_kl为KL散度损失项。在证据深度学习中，学习到x的预测概率分布为Dirichlet分布P(p|α)。RL散度损失项为

$ L_{\mathrm{kl}}=K L[P(\boldsymbol{p} \mid \tilde{\boldsymbol{\alpha}}) \mid P(\boldsymbol{p} \mid \mathbf{1})], $

(13)

其中：$\tilde{\boldsymbol{\alpha}}=y+(1-y) \odot \boldsymbol{\alpha}$是调整参数；1表示K个1的参数向量。通过最小化KL散度损失，将错误标签的证据减少到零来调节预测概率分布。

2) 可信集$\tilde{\boldsymbol{D}}^{\mathrm{t}}=\tilde{\boldsymbol{D}}^{\mathrm{d}}+\tilde{\boldsymbol{D}}^{\mathrm{m}}$由数据可信集和模型可信集组成。模型可信集$\tilde{\boldsymbol{D}}^{\mathrm{m}}$由模型对其预测非常自信的数据点组成，使用样本的联合预测进行标签矫正，矫正标签y′=onehot(p)，其中p是联合预测概率。

获得样本的联合信念M={{b_k}_k=1^K, u}之后，根据式(3)可以导出联合证据e=[e₁, e₂, …, e_K]和相应的Dirichlet分布参数α=[α₁, α₂, …, α_K]，

$ S=\frac{K}{u}, e_k=b_k \times S, \alpha_k=e_k+1_{\circ} $

(14)

联合预测的类概率p=α/S。可信集中可能包含被网络记忆的错误标签或过度自信的错误预测，直接使用矫正标签来监督训练，很容易过拟合。受Mixup^[13]技术的启发，对样本执行插值混合操作进行正则，并采用了一种简单的解耦原则^[14]。随机采样两个样本$\boldsymbol{x}_{\mathrm{a}}, \boldsymbol{x}_{\mathrm{b}} \in \tilde{\boldsymbol{D}}^{\mathrm{t}}$，取λ₁≠λ₂∈(0, 1)，两个插值混合样本为

$ \left\{\begin{array}{l} \tilde{\boldsymbol{x}}_1=\lambda_1 \boldsymbol{x}_{\mathrm{a}}^{\mathrm{w}}+\left(1-\lambda_1\right) \boldsymbol{x}_{\mathrm{b}}^{\mathrm{s}}, \\ \tilde{\boldsymbol{x}}_2=\lambda_2 \boldsymbol{x}_{\mathrm{a}}^{\mathrm{w}}+\left(1-\lambda_2\right) \boldsymbol{x}_\mathrm{b}^{\mathrm{s}} 。\end{array}\right. $

(15)

将两个插值混合样本输入网络，解耦输出分别为$\log \tilde{g} i t_{\mathrm{a}}$和$\log \tilde{g} i t_{\mathrm{b}}$，

$ \left\{\begin{array}{l} \tilde{g}_{\mathrm{a}}=\frac{f^{-1}\left(\tilde{\boldsymbol{x}}_1\right)-f^{-1}\left(\tilde{\boldsymbol{x}}_2\right)\left(1-\lambda_1\right) /\left(1-\lambda_2\right)}{\lambda_1-\lambda_2\left(1-\lambda_1\right) /\left(1-\lambda_2\right)}, \\ \tilde{g}_{\mathrm{b}}=\frac{f^{-1}\left(\tilde{\boldsymbol{x}}_1\right)-f^{-1}\left(\tilde{\boldsymbol{x}}_2\right) \lambda_2 / \lambda_1}{1-\lambda_2-\left(1-\lambda_1\right) \lambda_2 / \lambda_1}, \end{array}\right. $

(16)

其中：f^-1(·)为激活层前一层的输出。两个插值混合样本对应的Dirichlet分布为$和$\tilde{\boldsymbol{\alpha}}_{\mathrm{a}}=\operatorname{softplus}\left(\tilde{g}_{\mathrm{a}}\right)+1$。对于可信集$\tilde{\boldsymbol{\alpha}}_{\mathrm{b}}=\operatorname{softplus}\left(\tilde{g}_{\mathrm{b}}\right)+1$使用分类损失L_t，

$ L_{\mathrm{t}}=\frac{1}{2\left|\tilde{\boldsymbol{D}}^{\mathrm{t}}\right|} \sum\limits_{\boldsymbol{x} \in \tilde{\boldsymbol{D}}^{\mathrm{t}}} L_{\mathrm{c}}\left(\tilde{\boldsymbol{x}}_{\mathrm{a}}\right)+L_{\mathrm{c}}\left(\tilde{\boldsymbol{x}}_{\mathrm{b}}\right), $

(17)

其中: 数据可信集由原始标签y指导; 模型可信集由矫正标签y′指导。

3) 不确定集$\tilde{\boldsymbol{D}}^{\mathrm{u}}$包含那些模型预测不自信且数据标签本身也存在较大不确定性的数据点。对于这部分样本，将联合预测作为不确定子集的平滑矫正标签$\widehat {\boldsymbol{y}} = {\boldsymbol{p}}$。采用对标签噪声鲁棒的均方差损失L_u，即

$ L_u=\frac{1}{|\boldsymbol{D}|} \sum\limits_{\boldsymbol{x} \in \tilde{\boldsymbol{D}}^u}\left|p\left(\boldsymbol{x}^{\mathsf{w}}\right)-\hat{\boldsymbol{y}}\right|^2+\left|p\left(\boldsymbol{x}^{\mathsf{s}}\right)-\hat{\boldsymbol{y}}\right|^2, $

(18)

其中：p(·)计算网络输出的类概率分数。

3.4 总体损失

ULC的整体训练目标采用三个不同的损失项，总体损失为

$ L_{\text {overall }}=L_{\mathrm{d}}+L_{\mathrm{t}}+L_{\mathrm{u}}, $

(19)

其中：对于数据可信集$\tilde{\boldsymbol{D}}^{\mathrm{d}}$，使用原始标签y指导训练，采用联合损失L_d处理两个视图；在模型可信集$\tilde{\boldsymbol{D}}^{\mathrm{m}}$上使用矫正标签y′指导训练，与$\tilde{\boldsymbol{D}}^{\mathrm{d}}$组成可信集$\tilde{\boldsymbol{D}}^{\mathrm{t}}$，并执行插值混合操作进行正则化，采用分类损失L_t处理；在不确定集$\tilde{\boldsymbol{D}}^{\mathrm{u}}$上使用平滑矫正标签$\hat{\boldsymbol{y}}$指导训练，采用均方差损失L_u处理。

4 实验结果与分析 4.1 实验数据集

实验遵循之前的工作^[15]，在数据集CIFAR-10和CIFAR-100上使用Symmetric、Asymmetric、Pairflip和Tridiagonal四种类型的噪声对数据集进行人为损坏，其噪声转移矩阵如图 3所示。在数据集F-MNIST和SVHN上进行了长尾处理，并引入Asymmetric类型的标签噪声，采用两种模拟方法手动减少不同类别的训练样本比例。以SVHN为例，用线性处理方式构建长尾数据集如图 4(a)所示，称为SVHN-LINE-ASYM。类似的，用指数处理方式构建长尾数据集如图 4(b)所示，称为SVHN-EXP-ASYM。在真实标签噪声数据集Clothing1M上，遵循之前的工作^[9]，每个迭代从训练数据中抽取1 000个小批量的样本，同时确保标签(带有噪声)是平衡的。所有数据集使用随机裁剪和水平翻转作为弱数据增强，采用RandAugment^[16]作为强数据增强。

图 3 噪声转移矩阵 Fig. 3 Noise transfer matrix

图 4 各类别样本比例 Fig. 4 The sample proportions of each class

4.2 实验设置

在F-MNIST和SVHN上，使用9层卷积神经网络和自适应矩阵估计优化器，权重衰减为5e-4，初始学习率为0.001，从第80到200个迭代线性衰减为0，λ为0.05，τ设置为估计的标签准确率，从第10个迭代开始标签矫正。在CIFAR-10和CIFAR-100上，使用PreActResnet-18网络和动量为0.9的随机梯度下降优化器，权重衰减为1e-3，初始学习率为0.02，分别在第80和100个迭代时，将学习率减小至1/10，λ为0.05，τ设置为数据集原始标签准确率，CIFAR-10从第10个迭代开始标签矫正，CIFAR-100从第30个迭代开始标签矫正。在Clothing1M上使用ImageNet上的Resnet-18网络，使用动量为0.9的随机梯度下降优化器，权重衰减为1e-3，初始学习率设为0.002，在第50和80个迭代时将学习率减小至1/10，λ为0.5，τ为0.7，从第2个迭代开始标签矫正。

另外，在F-MNIST、SVHN、CIFAR-10和CIFAR-100上批量大小为128，训练200个迭代，RandAugment的参数n为2, m为5。在Clothing1M上批量大小为64，训练100个迭代，RandAugment的参数n为2, m为10。

4.3 对比实验分析

为了证明ULC的有效性，与10种现有算法进行比较，所有算法都使用相同的网络架构。CE基线直接在噪声数据集上使用交叉熵损失进行训练；EDL^[12]基线直接在噪声数据上使用证据深度学习模型训练；Mixup^[13]基线仅在CE的基础上使用Mixup数据增强；Co-learning^[17]属于正则化方法；Co-teching^[5]、JoCoR^[6]和BARE^[18]属于样本选择方法。DivideMix^[9]、Co-LDL^[11]和DSOS^[10]属于标签矫正方法。

首先在CIFAR-10和CIFAR-100上进行了模拟标签噪声场景下的性能测试。如表 1和表 2所示，所有的样本选择方法和标签矫正方法都优于Mixup基线。在复杂特征的数据集CIFAR-100上，强增强正则化方法Mixup与标准CE基线相比，泛化性能下降。在20%噪声比例上，ULC相比现有算法，获得了很好的效果。在40%的噪声比例上，DivideMix在非对称噪声类型上的性能开始退化，其他算法在所有噪声类型上的性能都明显下降，而ULC依然保持相对稳定的性能。在更具挑战性的40%的Pairflip类型的标签噪声上，相比现有算法，ULC的平均测试准确率提升了至少8个百分点。优越的性能表现验证了ULC在各种平衡噪声下可以实现更好的鲁棒性。

表 1 CIFAR-10数据集上3次重复实验的后10个迭代的平均测试准确率及标准差 Tab. 1 Average test accuracy and standard deviation of the last 10 epochs on CIFAR-10, 3 repeats

单位: %
算法	Symmetric		Asymmetric		Pairflip		Tridiagonal
算法	20%噪声	40%噪声	20%噪声	40%噪声	20%噪声	40%噪声	20%噪声	40%噪声
CE	72.52±0.10	52.51±0.11	79.93±0.13	70.20±0.39	74.28±0.13	53.60±0.54	73.35±0.12	54.15±0.51
EDL	72.70±0.17	53.33±1.30	80.71±0.12	70.24±0.34	75.27±0.14	54.30±0.63	75.11±0.19	55.44±0.58
Mixup	72.76±0.43	54.90±0.43	80.37±0.42	69.43±0.86	75.69±0.65	54.90±0.94	75.02±0.47	57.11±0.73
Co-teaching	79.27±0.08	72.58±0.20	82.31±0.08	75.11±0.50	81.61±0.11	73.90±0.38	81.05±0.07	74.59±0.15
JoCoR	86.61±0.12	83.41±0.15	85.89±0.11	82.99±0.31	86.53±0.16	81.42±0.51	86.76±0.17	83.00±0.21
DivideMix	95.62±0.09	94.09±0.21	94.25±0.18	92.52±0.26	95.63±0.14	83.15±3.78	95.57±0.11	94.28±0.18
Co-learning	91.91±0.16	88.60±0.17	92.20±0.19	83.97±0.72	91.93±0.18	75.11±0.64	92.42±0.18	86.15±0.36
Co-LDL	85.35±0.11	83.71±0.21	85.26±0.20	78.57±1.17	84.75±0.12	82.50±0.47	86.00±0.10	83.34±0.15
DSOS	92.49±0.20	87.51±0.38	93.01±0.28	79.69±1.05	93.26±0.16	80.06±7.73	92.62±0.18	88.34±3.21
BARE	84.82±0.12	79.46±0.69	85.41±0.12	80.53±0.31	84.46±0.08	73.39±1.09	84.34±0.10	76.29±1.60
ULC	95.75±0.15	94.37±0.49	94.56±0.23	92.89±0.26	94.20±0.16	93.73±0.13	95.25±0.21	94.52±0.37
注：黑体表示最优值。

表 1 CIFAR-10数据集上3次重复实验的后10个迭代的平均测试准确率及标准差 Tab. 1 Average test accuracy and standard deviation of the last 10 epochs on CIFAR-10, 3 repeats

表 2 CIFAR-100数据集上3次重复实验的后10个迭代的平均测试准确率及标准差 Tab. 2 Average test accuracy and standard deviation of the last 10 epochs on CIFAR-100, 3 repeats

单位: %
算法	Symmetric		Asymmetric		Pairflip		Tridiagonal
算法	20%噪声	40%噪声	20%噪声	40%噪声	20%噪声	40%噪声	20%噪声	40%噪声
CE	45.62±0.10	29.15±0.41	50.18±0.12	34.74±0.33	50.35±0.12	34.59±0.10	49.54±0.12	35.62±0.83
EDL	50.05±0.12	34.98±0.66	46.23±0.12	30.66±0.60	46.99±0.14	30.21±0.34	46.43±0.15	30.22±0.80
Mixup	42.00±0.39	29.43±0.52	46.73±0.47	32.71±0.55	46.55±0.16	32.23±0.36	45.84±0.20	34.63±0.59
Co-teaching	51.46±0.16	44.72±0.34	53.51±0.12	39.83±0.71	53.08±0.08	41.33±0.14	53.06±0.09	44.50±0.36
JoCoR	60.37±0.10	56.38±0.23	60.26±0.15	48.07±0.20	60.45±0.08	47.27±0.42	60.86±0.14	55.76±0.35
DivideMix	75.98±0.19	73.84±0.27	75.91±0.17	54.31±0.75	75.75±0.19	54.06±0.63	75.62±0.28	73.80±0.19
Co-learning	67.08±0.24	57.45±0.66	65.61±0.56	49.06±0.76	65.85±0.29	49.87±0.70	67.37±0.33	55.93±2.04
Co-LDL	58.70±0.15	55.74±0.22	57.40±0.20	50.04±0.29	57.53±0.26	48.77±0.37	58.87±0.17	54.04±0.24
DSOS	74.48±0.12	69.58±0.20	75.57±0.11	61.37±1.99	75.82±0.17	61.31±1.74	75.31±0.11	72.55±0.25
BARE	63.07±0.10	57.45±0.35	60.21±0.14	40.78±1.84	60.76±0.10	41.24±0.30	62.05±0.08	49.12±0.21
ULC	76.29±0.15	74.09±0.22	75.99±0.29	69.68±0.20	75.92±0.12	69.90±0.38	75.95±0.30	73.99±0.18
注：黑体表示最优值。

表 2 CIFAR-100数据集上3次重复实验的后10个迭代的平均测试准确率及标准差 Tab. 2 Average test accuracy and standard deviation of the last 10 epochs on CIFAR-100, 3 repeats

表 3展示了在不平衡噪声数据集F-MNIST和SVHN上的结果。除了标签噪声问题，真实数据集中往往还存在类别不平衡问题，可能导致模型在训练和预测过程中偏向于数量更多的类别。模拟实际应用中两种问题同时存在的情况，进一步评估现有算法在面对现实挑战时的性能表现。ULC在所有设置上取得了有竞争性的性能，验证了ULC在处理更复杂的噪声场景方面的优越性。所有对比算法的结果是使用公开代码在相同实验环境下获得的。

表 3 不平衡数据集上3次重复实验的后10个迭代的平均测试准确率及标准差 Tab. 3 Average test accuracy and standard deviation of the last 10 epochs on imbalanced datasets, 3 repeats

单位: %
算法	F-MNIST-LINE-ASYM		F-MNIST-EXP-ASYM		SVHN-LINE-ASYM		SVHN-EXP-ASYM
算法	20%噪声	40%噪声	20%噪声	40%噪声	20%噪声	40%噪声	20%噪声	40%噪声
CE	86.94±0.22	75.26±0.39	85.77±0.17	74.90±0.25	88.90±0.15	76.92±0.29	89.02±0.21	76.37±0.40
EDL	86.86±0.15	75.07±0.35	86.01±0.32	75.82±0.29	90.11±0.11	78.15±0.29	90.37±0.16	77.77±0.26
Mixup	88.83±0.26	77.54±0.39	88.18±0.10	77.92±0.37	90.70±0.22	78.04±0.33	90.96±0.16	77.44±0.37
Co-teaching	89.83±0.27	85.24±0.30	89.43±0.21	84.23±0.21	92.99±0.18	88.50±0.27	92.98±0.15	88.17±0.21
JoCoR	91.03±0.12	86.92±1.17	91.02±0.09	84.15±0.25	95.12±0.16	93.48±0.11	95.26±0.19	92.48±0.17
DivideMix	91.36±0.24	90.09±0.42	90.34±0.12	83.47±0.38	93.54±0.18	93.97±0.14	93.70±0.17	91.27±0.23
Co-learning	87.84±0.23	85.66±0.43	86.70±0.25	86.78±0.41	91.90±0.09	88.08±0.25	91.67±0.18	86.52±0.40
Co-LDL	92.73±0.21	89.98±0.38	92.16±0.11	91.28±0.21	95.28±0.12	88.79±0.25	95.33±0.27	89.58±0.61
DSOS	91.96±0.16	85.51±0.46	90.99±0.44	83.16±0.74	90.86±1.02	86.10±1.46	85.46±1.76	78.69±0.98
BARE	92.03±0.14	90.58±0.27	91.36±0.19	88.32±1.28	95.38±0.12	89.64±0.34	95.35±0.11	89.09±0.71
ULC	93.02±0.13	92.79±0.18	92.34±0.14	92.17±0.23	96.70±0.06	95.28±0.12	96.97±0.09	95.76±0.14
注：黑体表示最优值。

在真实噪声数据集Clothing1M上，与强基线DivideMix的测试准确率74.45%相比，ULC取得了较好的测试准确率73.51%。需要注意的是，ULC只需要一个网络，而DivideMix需要两个网络，每个网络为对等网络选择样本并矫正标签。Clothing1M上的实验反映了ULC在真实应用场景的鲁棒性和泛化性能。

4.4 标签矫正策略分析

为了解释ULC的良好性能，绘制了在CIFAR上矫正标签准确率与迭代次数的关系，如图 5所示。这里只考虑DivideMix、Co-LDL、DSOS和ULC算法，因为它们在训练过程中包括标签矫正。

图 5 四种算法在训练过程中的矫正标签准确率比较 Fig. 5 Comparison of correction label accuracy during training of four algorithms

所有算法在CIFAR-10上从第10个迭代开始矫正，在CIFAR-100上从第30个迭代开始矫正。从图 5可以看到，除DivideMix外，所有算法都成功矫正了噪声标签，比原始数据集的标签准确率更高。DivideMix在CIFAR-100上40%的非对称标签噪声Asymmtric和Pairflip设置下，矫正标签准确率比原始标签准确率更低，没有成功的矫正标签。DSOS的矫正标签准确率表现出明显的不稳定。Co-LDL利用模型的反向传播自动修正标签的方法，导致正确标签信息的信号不足，在训练过程中矫正标签的准确率增长缓慢。ULC取得了最高的矫正标签准确率，展示了其在处理标签噪声方面的有效性和鲁棒性。

5 结语

本文基于证据理论和主观逻辑理论，提出了一种不确定性感知的标签矫正算法ULC。ULC分别估计了模型不确定性和数据不确定性，将噪声数据分为三个噪声水平不同的子集，利用联合预测矫正标签，并采用不同的正则化策略，提高了矫正标签的准确率和分类性能。在模拟和真实噪声数据集上的实验验证了ULC的有效性。模型不确定性和数据不确定性不是完全独立的关系，某些情况下存在交叉，并相互影响。深度学习中的不确定性是一个复杂而重要的问题，在实际中难以用这两种不确定性简单刻画。因此，如何更准确地理解深度学习中的不确定性，是一个值得持续研究的问题。

参考文献

[1]	徐巧枝, 张俊星. 基于最大匹配的移动众包任务分配研究[J]. 郑州大学学报(理学版), 2022, 54(3): 66-72. XU Q Z, ZHANG J X. Mobile crowdsourcing task allocation based on maximum matching[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(3): 66-72. DOI:10.13705/j.issn.1671-6841.2021285 (0)
[2]	DONG Y F, LI J W, WANG Z, et al. CoDC: accurate learning with noisy labels via disagreement and consistency[J]. Biomimetics, 2024, 9(2): 92-99. DOI:10.3390/biomimetics9020092 (0)
[3]	SOHN K, BERTHELOT D, LI C L, et al. FixMatch: simplifying semi-supervised learning with consistency and confidence[EB/OL]. (2020-11-25)[2024-02-01]. https://arxiv.org/pdf/2001.07685v2. (0)
[4]	ARPIT D, JASTRZBSKI S, BALLAS N, et al. A closer look at memorization in deep networks[C]//Proceedings of the International Conference on Machine Learning. Cambridge: PMLR Press, 2017: 233-242. (0)
[5]	HAN B, YAO Q M, YU X R, et al. Co-teaching: robust training of deep neural networks with extremely noisy labels[C]//Proceedings of the International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Press, 2018: 8536-8546. (0)
[6]	WEI H X, FENG L, CHEN X Y, et al. Combating noisy labels by agreement: a joint training method with co-regularization[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 13723-13732. (0)
[7]	REN M Y, ZENG W Y, YANG B, et al. Learning to reweight examples for robust deep learning[C]//Proceedings of the International Conference on Machine Learning. Cambridge: PMLR Press, 2018: 4334-4343. (0)
[8]	PARK J, SHIN S, HWANG S, et al. Elucidating robust learning with uncertainty-aware corruption pattern estimation[J]. Pattern recognition, 2023, 138: 109387. DOI:10.1016/j.patcog.2023.109387 (0)
[9]	LI J N, SOCHER R, HOI S C H. DivideMix: Learning with noisy labels as semi-supervised learning[C]//Proce-edings of the International Conference on Learning Repr-esentations. Washington: ICLR Press, 2020: 26-30. (0)
[10]	ALBERT P, ORTEGO D, ARAZO E, et al. Addressing out-of-distribution label noise in webly-labelled data[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE Press, 2022: 2393-2402. (0)
[11]	SUN Z R, LIU H F, WANG Q, et al. Co-LDL: a co-training-based label distribution learning method for tackling label noise[J]. IEEE transactions on multimedia, 2021, 24: 1093-1104. (0)
[12]	SENSOY M, KAPLAN L, KANDEMIR M. Evidential deep learning to quantify classification uncertainty[C]//Proceedings of the Neural Information Processing Systems. Red Hook: Curran Associates Press, 2018: 3179-3189. (0)
[13]	ZHANG H Y, CISSE M, DAUPHIN Y, et al. Mixup: Beyond empirical risk management[C]//Proceedings of the International Conference on Machine Learning. Cambridge: PMLR Press, 2018: 1-13. (0)
[14]	WANG D B, LI L Q, ZHAO P L, et al. On the pitfall of mixup for uncertainty calibration[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2023: 7609-7618. (0)
[15]	XIA X B, HAN B, ZHAN Y B, et al. Combating noisy labels with sample selection by mining high-discrepancy examples[C]//2023 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2023: 1833-1843. (0)
[16]	CUBUK E D, ZOPH B, SHLENS J, et al. Randaugment: practical automated data augmentation with a reduced search space[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2020: 3008-3017. (0)
[17]	TAN C, XIA J, WU L R, et al. Co-learning: learning from noisy labels with self-supervision[C]//Proceedings of the 29th ACM International Conference on Multimedia. New York: ACM, 2021: 1405-1413. (0)
[18]	PATEL D, SASTRY P S. Adaptive sample selection for robust learning under label noise[C]//2023 IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE Press, 2023: 3921-3931. (0)