多级决策优化关系网络的小样本学习方法

缪宛谕; 苟光磊; 钟声; 白瑞峰; 文浪

doi:10.11992/tis.202406016

多级决策优化关系网络的小样本学习方法

doi: 10.11992/tis.202406016

重庆理工大学计算机科学与工程学院, 重庆 400054

基金项目: 国家自然科学基金项目(62141201)；重庆市教委科学技术研究项目(KJZD-M202201102).

详细信息

作者简介:
缪宛谕，硕士研究生，主要研究方向为小样本学习、三支决策。E-mail：mwyy1007@163.com;

苟光磊，讲师，博士，主要研究方向为粗糙集理论和人工智能。主持重庆市科委基础科学与前沿技术研究项目、重庆市教委科学技术研究项目等科研项目 5 项，获发明专利授权3 项，发表学术论文 20 余篇，出版专著 1 部、教材 2 部。 E-mail：ggl@cqut.edu.cn;

钟声，硕士研究生，主要研究方向为三支决策、目标检测。E-mail：ferry@stu.cqut.edu.cn.

通讯作者:
苟光磊. E-mail：ggl@cqut.edu.cn.

中图分类号: TP391
出版历程
- 收稿日期: 2024-06-11
- 网络出版日期: 2025-02-21

Multi-level decision optimization in relational networks for few-shot learning method

College of Computer Science and Engineering, Chongqing University of Technology, Chongqing 400054, China

摘要

摘要: 针对小样本学习中数据稀缺性的问题以及传统二支决策方法仅提供接受或拒绝两种选择的局限性，本研究提出一种多级决策优化的小样本学习方法。提出多粒度特征提取模块对样本进行处理，构建具有不同粒度的特征层来获取不同感受野的语义信息，从而实现精确决策；提出多分支自适应特征细化模块来提升局部与全局的关键区域特征表示；通过关系网络计算获取各个尺度参数，构建恰当的相似度度量矩阵，并将其输入到提出的多级决策优化模块中，使得模型能够根据不同粒度层的特征自适应地调整决策中的不确定区域。通过在MiniImageNet和TieredImageNet两个公开数据集上进行实验验证，分类准确率均有一定提升，实验结果验证了本方法的有效性。
- 小样本学习 /
- 深度学习 /
- 决策理论 /
- 图像分类 /
- 关系网络 /
- 不确定性分析 /
- 特征提取 /
- 粗糙集理论
Abstract: Addressing the issues of data scarcity in few-shot learning and the limitations of traditional binary decision methods that only offer accept or reject options, this study proposes a multi-level decision optimization approach for few-shot learning. Initially, a multi-granularity feature extraction module processes samples and constructs feature layers of different granularities to capture semantic information from various receptive fields, so as to make decisions precisely. Subsequently, a multi-branch adaptive feature refinement module is introduced to enhance the representation of key features in both local and global regions. By computing the parameters at various scales through relational networks, we construct an appropriate similarity matrix and input it into the proposed multi-level decision optimization module. This enables the model to adaptively adjust the uncertain regions in decision making based on features at different granularity levels. Finally, experimental validation on the MiniImageNet and TieredImageNet public datasets shows a significant improvement in classification accuracy, confirming effectiveness of this method.
- few-shot learning /
- deep learning /
- decision theory /
- image classification /
- relation network /
- uncertainty analysis /
- feature extraction /
- rough set theory

HTML全文

近年来，人工智能技术迎来了飞速的发展。在大数据时代，深度学习^[1]已广泛渗透到多个领域，例如计算机视觉^[2]、语音识别^[3]、自动驾驶等。深度学习模型通常依赖大量标注数据，而在实际应用中，获取大量有效的数据仍面临诸多的困难^[4]。例如在医学领域方面，由于隐私问题或案例稀少，获取充足有效数据面临巨大挑战。这种局限促进了小样本图像分类^[5]任务的发展，该方法旨在训练模型使用极少量的标注样本适应新的分类任务。然而，由于监督信息的样本数量有限，模型在训练时易过拟合，这成为小样本学习领域面临的主要挑战^[6]。在近年来的研究和发展中，小样本学习已经衍生出众多出色的方法，例如基于度量学习的ProtoNet^[7]模型，通过在适当的特征空间中学习全局图像表示，度量来自查询集和支持集的嵌入，并用他们之间的距离来预测其标签。除此之外，Huang等^[8]提出的泊松学习算法（Poisson Transfer network，PTN）旨在通过改善标签传播机制来增强半监督小样本分类模型的性能。PTN采用了一种基于图的策略来优化推理过程，通过构建样本之间的关系图进行推理，以达到更精确的分类效果。DenseNet^[9]等经典网络展示了高效特征提取对于模型性能的关键作用。然而仅使用度量函数来衡量图像表征的相似性并非最优方法。因此提出了关系网络（relation network）^[10]的概念，旨在采用一种可学习的度量方式，而非依赖于预设的固定度量标准，以此来学习可以转换的嵌入表示。该方法允许网络根据任务的具体需求动态调整度量标准，从而更有效地捕捉和比较图像之间的细微差异。关系网络通过引入可学习的度量方法，提供了一种更灵活、更适应性强的方式来理解和评价图像之间的相似度^[11]。

目前在神经网络层数有限且数据样本较少的训练条件下，模型难以对某些样本进行精准分类^[12]。而姚一豫等^[13]提出的三支决策（three-way decisions，3WD），能很好地解决决策过程中的模糊性和不确定性，它在传统的二分决策上(正类和负类)增加了第3种选择即不确定类。三支决策允许模型显式地表达这种不确定性，而不是被迫选择一个可能不准确的类别。通过将不确定的决策单独处理，可以减少错误分类的风险。相对于其他小样本学习方法，引入三支决策的优势在于其考虑到了不确定性的因素以及处理的能力。传统小样本方法通常只能通过二元决策进行分类，而三支决策引入了第3个选项即不确定域，允许在信息不足时推迟决策。这种机制可以避免过早的错误判断，特别是在样本稀少、数据不充分的情况下，从而提高模型的灵活性和鲁棒性，有效应对复杂和模糊的分类场景。

粒计算^[13]是一种用于信息处理的新计算范式，包括粒的操作与粒结构的构建。Qian等^[14]提出了一种结合决策粗糙集模型和多粒度粗糙集理论的模型，通过在不同的粒度层面上进行数据分析，以便提取更丰富的信息。在小样本学习中，网络在每次训练过程中仅接收少量数据，可能导致模型不能充分挖掘和利用这些特征。因此，设计一个能有效提取特征信息并利用三支决策进行分类的模型尤为重要。

基于上述讨论，本研究提出一种多级决策优化关系网络的小样本学习方法。它是一种端到端的可训练的方法，在特征提取阶段使用多分支自适应特征细化模块(multi-branch adaptive feature refinement module，MAFRM)从不同粒度上获取图像的内部特征，并对划分的粗细粒度进行调整。在特征融合阶段，为不同的特征提取分支分配适应性权重，实现了对各分支特征信号的自适应抑制或增强，有效优化各层粒度特征信息。针对测试集预测不够精准的问题，本研究根据三支决策的方法，将查询集进行划分，对不确定域进行由粗到细的延迟决策。提出决策优化算法确定查询集模糊分类区域，设计多级决策优化模块（multi-level decision optimization module，MDOM）降低了小样本学习中处理图像分类问题时的不确定性问题，进而克服传统两支决策的局限性，提高模型的准确性和鲁棒性。

1. 相关工作

1.1 小样本学习

小样本学习是指在仅有少量目标的训练样本的环境中，利用先验知识，通过有限的监督经验，快速得出结论^[15]。在本节中，主要从数据增强和度量学习两方面来回顾小样本学习的相关工作。

1.1.1 基于数据增强的方法

在深度学习中，数据增强^[16]是一种有效的模型性能提升手段，通过对数据集应用多种图像预处理技术，扩展现有数据，从而丰富监督信息并优化特征空间。在小样本学习场景下，恰当的处理数据集，可以提升模型的数据利用率和泛化性。实例可信度推断^[17]是数据增强策略中的一种常见方法。该方法通过实施一个判断机制，运用含有置信度预测的未标记数据来拓展训练集，从而提升分类准确度。Mehrotra等^[18]采用生成对抗网络（generative adversarial network, GAN）合成新样本，通过扩展训练数据集的大小并增加样本的多样性，提升了样本的复杂度。然而，数据增强方法通常仅能生成与原始样本具有相同分布的增广数据^[19]。本研究方法通过一个更简洁的模型架构实现数据扩充，它通过不同尺度的特征层构建多粒度层次结构来提取新的特征，而不是依赖额外的生成网络。

1.1.2 基于度量学习的方法

度量学习方法^[20]将图片集合映射到共享的特征空间，并应用相似性度量函数来执行分类任务。Snell等^[7]提出的原型网络，通过计算每个类别的特征向量的平均值来定义类别的原型，并依据最近邻规则来预测样本的类别归属。Vinyals等^[21]采用相对更简单的架构来学习深度嵌入空间的转移表示，将长短期记忆网络与度量学习相结合的匹配网络在小样本任务上实现了单阶段的类别预测；Li等^[22]提出了局部度量网络，该网络通过局部描述子对样本进行表征，以实现小样本图像的细粒度识别。上述提及的度量学习的方法主要通过利用由一组类中心产生的共享决策边界来对每个查询样本进行分类。但这些原始方法未能考虑到因支持样本数量有限导致的决策边界不精确和不相关特征对模型性能的负面影响。本研究引入可学习的度量方法，对延迟决策深入研究，在不确定域查询样本中加入由粗到细的特征信息，对每个粒度层计算关系分数，逐步精确其度量结果，降低不确定域对决策结果的影响，优化模型性能，提高分类的准确率。

1.2 三支决策

三支决策^[13]是以“三”为思考的粒计算模型。在实际决策中，人们根据对信息的掌握程度，往往会采取3种不同的决策类型：接受决策、拒绝决策和延迟决策^[23]。在对某件事有充分理解和掌握全面信息的情况下，人们能够明确地做出接受或拒绝的选择。反之，人们往往会选择延迟决策，寻求更多的信息或进行深入调查^[24]。这种选择延迟决策的做法是一种谨慎策略，以$ \alpha = {\mu _{\max }} - \beta $确保在做出决策时有更充足的信息支持。三支决策通常依赖于一系列决策规则和阈值的设定。基本思想是根据某种标准将决策区间分为3部分：肯定区域、否定区域和边界区域。在模糊集中，由Atanassov^[25]提出的直觉模糊集（intuitionistic fuzzy sets, IFS）通过一对数值来描述一个元素属于某个集合的程度，即隶属度和非隶属度，这两个数值分别表示元素属于和不属于集合的相对程度，但确定合适的隶属度和非隶属度可能比较困难，而阴影集理论正是对模糊集理论的扩展，采用三值逻辑映射的方法来缓解这种局限性^[26]，通过一对决策阈值(α,β)将模糊集中的不确定性对象划分为接受域、拒绝域和阴影域，有效地保持对象的基本模糊信息，从而在量化过程中减少信息损失。通过引入上下近似参数α和β，对模糊集进行阴影化处理。将X映射到0、1和[0，1]的结构^[27]，对阴影集的划分示意如图1所示。

图 1 阴影集划分示意

Fig. 1 Shadow set partition diagram

下载: 全尺寸图片

划分的具体公式为

$$ X \to \{ 0,1,[0,1]\} $$

(1)

$$\left\{ \begin{array}{*{20}{l}} {{\varOmega _1} = \{ x \in X|F(x) \leqslant \beta \} } \\ {{\varOmega _2} = \{ x \in X|F(x) \geqslant \alpha \} } \\ {{\varOmega _3} = \{ x \in X|\beta < F(x) < \alpha \} } \end{array} \right.$$

(2)

目前为止三支决策不仅限于粗糙集^[28]，还应用于区间集^[29]、区间2型模糊集^[30]等。在图像方面，Savchenko^[31]将序贯三支决策理论和自适应神经网络框架相结合，提出新的图像识别算法，根据分析中间层的输出来获得更可靠的图像识别，从而终止推理。Li等^[32]提出基于代价敏感深度神经网络三支决策模型的图像识别，该模型在深度神经网络的各个训练周期中提取特征，以表现图像的多层次粒度。在应用领域，Li等^[33]提出了基于三支决策构建的图像混合信息系统（HISWI）用于医学诊断，针对存在的缺失值，通过使用区间数计算损失函数，以适应决策者对误差程度和风险偏好的不同需求。

三支决策方法存在两个问题：首先因为卷积神经网络的层数较深且需逐层查找，导致获取最佳特征的时间较长；其次决策阶段在信息不充分的情况下，缺乏明确的边界决策选项，这可能产生更高的错误成本。因此，本研究根据多层粒度特征构建多级决策优化关系网络（multi-level decision optimization relational network，MDORN），该网络不仅只使用了少数层的卷积神经网络进行图像的多粒度的特征处理，还考虑自上而下的三支决策方式对查询样本进行更精确的度量，使模型能更全面地利用有效信息。此外，由于多粒度处理查询集图像在不同层次上可能出现模糊性的问题^[34]，所以引入阴影集理论^[24]，相比传统模糊集仅使用隶属度函数分类样本，阴影集采用的三值逻辑映射的方法提供了更灵活、精确的处理机制，适用于小样本学习中的数据稀缺和边界模糊问题，使得决策更加稳健和有效，可以更精确地减少信息不确定性。此外，阴影集对数据要求不高，通常可以在更少的数据样本上进行学习和推理。

2. 改进算法

在小样本训练任务中，所有数据集划分为3类。基类集$ {D}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e}}={\left\{\left({x}_{i},{y}_{i}\right)\right\}}_{i=1}^{{N}^{\mathrm{b}}} $、验证集$ {D}_{\mathrm{v}\mathrm{a}\mathrm{l}}={\left\{\left({x}_{i},{y}_{i}\right)\right\}}_{i=1}^{{N}^{\mathrm{v}}} $和测试集$ {D}_{\mathrm{n}\mathrm{o}\mathrm{v}\mathrm{e}\mathrm{l}}={\left\{\left({x}_{i},{y}_{i}\right)\right\}}_{i=1}^{{N}^{\mathrm{n}}} $。使用base基类集作为先验知识对模型进行训练，使用val验证集进行验证，最后测试阶段，使用含有少数标记图片的测试集novel。这3个数据集之间保持互不重叠的状态，表示为$ {D}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e}}\cap {D}_{\mathrm{v}\mathrm{a}\mathrm{l}}\cap {D}_{\mathrm{n}\mathrm{o}\mathrm{v}\mathrm{e}\mathrm{l}}=\mathrm{\varnothing } $。训练中通常使用 N-way K-shot范式。在训练阶段，N-way K-shot方法随机选择训练集中的N个类别，并从每个类别中抽取k个样本作为支持集，形成共有N×k个带有标签的样本，记为支持集 (Support Set)：$ S={\left\{\left({x}_{i},{y}_{i}\right)\right\}}_{i=1}^{N\times k} $。然后，从剩余的类别中分别选择q个样本作为查询集，形成共有N×q个样本的集合，记为查询集Query Set：$ Q={\left\{\left({x}_{i},{y}_{i}\right)\right\}}_{i=1}^{N\times q} $。每个元任务由一个支持集S和一个查询集Q组成。验证集和测试集的划分方式相同，利用N×k个支持集样本对所有查询集样本进行分类。

本文的多级决策优化关系网络结构如图2所示，该网络由多粒度特征提取模块、多分支自适应特征细化模块、多级决策优化模块3部分组成。特征提取器将支持样本和查询样本图像嵌入特征空间中，经多分支自适应特征细化模块提取不同粗细粒度的内在特征，这有助于捕捉不同粒度下的潜在信息，提高决策质量。随后，特征输入到多级决策优化关系网络模块中，逐步对每个粒度的信息进行决策，以更准确地量化和管理不确定性集合。然后将划分到不确定域的粗粒度信息与较细粒度信息进行融合并继续决策，自上而下的对每层粒度进行决策，降低不确定域对决策结果的影响，最后对每个粒度的相似性得分合并进行分类。

图 2 本文方法网络结构

Fig. 2 Architecture of the method

下载: 全尺寸图片

2.1 决策优化算法

在小样本学习中，训练数据的数量和多样性受限，这常常导致分类模型的泛化能力不足。通过引入三支决策，模型可以更准确地处理那些难以明确类别的样本，将其归入边界区域，避免直接作出可能错误的判决。小样本图像分类往往采用传统的二支决策方法，当面对决策信息不精确或不完备的情况下，仅依靠接受或拒绝的二元决策方式是缺乏合理性的。而三支决策对于置信度较低的样本，选择采用延迟决策的策略，推迟对其进行分类的决策，进行更深入的学习或获取更多信息再次评估。这种动态的学习过程使得模型能够不断优化和调整。本研究将传统的隶属度矩阵转换为具有三值逻辑的阴影集，提出一种新的基于阴影集的决策优化算法。根据最大隶属度值$ {\mu }_{\max} $，可以确定上近似参数$ \alpha $。对不确定域选取的关键在于下近似参数$ \beta $的确定，设计最优化目标函数来确定下近似参数$ \beta $，具体计算公式为

$$ \alpha = {\mu _{\max}} - \beta $$

(3)

$$ \beta_{\text {opt }}=\arg \min _\beta\left|\sum_{\mu_i \geq \alpha}\left(\mu_{\max }-\mu_i\right)+\sum_{\mu_i \leq \beta} \mu_i-\sum_{\beta < \mu_i < \alpha} \mu_i\right| $$

(4)

具体算法的伪代码描述如算法1所示。

算法1　确定下近似值$ \beta $算法

输入　类别分数value class；类别分数最大数u_max；$ \beta $初始值beta

输出　$ \beta $

1) def get_beta(value_class,u_max,beta)：

2) final_set = 1

3) #$ {\varOmega }_{1}+{\varOmega }_{2} > {\varOmega }_{3} $

4) while Final_set > 0:

5) beta- = 0.01

6) #设置3个域的初始值

7) set₁ = set₂ = set₃ = 0

8) #遍历确定各域的值

9) for value in value_class:

10) set₁,set₂,set₃=Readjust(set₁,set₂,set₃,value,u_max,beta)

11) final_set=set₁+set₂－set₃

12) return beta

算法1基本思想是根据支持集和查询集之间的相似性关系构建出相似度矩阵，得到的相似度矩阵分数用来找到合适的$ \beta $值，使得3个阈值满足set₁+set₂>set₃的条件。得到的set₁、set₂、set₃分别为拒绝域、接受域和不确定域。在处理分类问题时，由于不确定域对应的样本可能符合其他两个域的条件，因此需要设计不确定域来专门处理这一情况。为此，本研究提出了算法2（不确定域查询样本划分算法）。该算法的基本思想是：对于每个支持类别，根据查询样本对该类的隶属度值，将其划分为3个域。在进行3个域的划分时，本研究采用对每个样本的每个类别进行一次独立的判别，以确定该样本是否属于该类别的确定域。完成对所有样本的类别判别后，统计每个样本被判定为确定域的次数。只有当某个样本唯一被判定为确定域时，该样本才被最终归类为确定域。其余样本则被归入不确定域，需加入下一粒度层的信息进一步决策。具体算法2的伪代码描述如算法2所示。

算法2　不确定域查询样本划分算法

输入　相似度矩阵matrix

输出　不确定集合unsure

1) def get_unsure(matrix):

2) #遍历各类别分数

3) for value_class in matrix:

4) #获取该类别中分数最大值

5) u_max = max(value_class)

6) #查找合适$ \beta $值

7) beta = get_beta(value_class,u_max_beta = 0.5)

8) #$ {\varOmega }_{3}={\varOmega }_{\mathrm{a}\mathrm{l}\mathrm{l}}-\left[\left({\varOmega }_{\mathrm{d}\mathrm{i}\mathrm{f}\mathrm{f}}\cup {\varOmega }_{2}\right)-\left({\varOmega }_{\mathrm{d}\mathrm{i}\mathrm{f}\mathrm{f}}\cap {\varOmega }_{2}\right)\right] $

9) unsure_set = find(value_class,beta,u_max)

10) return unsure_set

2.2 多级决策优化模块

通过算法1完成对下近似值的选取，随后根据算法2划分不确定域的查询样本，以此构成单次决策优化过程。但仅通过一轮决策并不能很好地处理复杂的小样本图像分类问题。它只能对查询集进行一次筛选，仅在单一的决策层面上应用接受、拒绝和不确定分类。本研究提出了多级决策优化模块，根据每一层不同粒度的查询集图像特征进行融合，自上而下的进行多层级的决策优化。每一层的查询集图像特征集合为X^(l)，其中l=1,2, ···, L，L代表总的层级数。对于每一层的特征集合，计算相似度矩阵S^(l)，以量化特征之间的相似性，具体计算公式为

$$ \boldsymbol{S}_{ij}^{(l)}=\text{similarity}(X_i^{(l)},X_j^{(l)}) $$

在多级决策优化过程中，有两个终止条件，首先是下近似值β，当β满足拒绝域+接受域>不确定域的分数时，循环终止得到确定的β。其次是决策层的数量，通过多次实验得出，当选择5层决策时达到最优效果。在每个特征层次上，应用决策优化算法D^(l)，以分类图像为接受域（C_Accept）、拒绝域（C_Reject）或不确定域（C_Unsure），具体描述为

$$ {D^{(l)}}({S^{(l)}}) = \left\{ {\begin{array}{*{20}{l}} {{C_{{\text{Accept}}}},\quad S_{ij}^{(l)} \geqslant {\alpha ^{(l)}}} \\ {{C_{{\text{Unsure}}}},\quad {\beta ^{(l)}} < S_{ij}^{(l)} < {\alpha ^{(l)}}} \\ {{{\text{C}}_{{\text{Reject}}}},\quad S_{ij}^{(l)} \leqslant {\beta ^{(l)}}} \end{array}} \right. $$

式中$ {\alpha }^{\left(l\right)} $和$ {\beta }^{\left(l\right)} $分别是代表每一层的接受和拒绝的决策阈值。对于归类为不确定的图像，其对应查询集特征$ {X}_{\mathrm{U}\mathrm{n}\mathrm{s}\mathrm{u}\mathrm{r}\mathrm{e}}^{\left(l\right)} $与下一层粒度的查询集特征$ {X}^{(l+1)} $进行融合。具体实现公式为

$$ {X^{(l + 1)}} = {\text{fusion}}(X_{{\text{Unsure}}}^{(l)},{X^{(l + 1)}}) $$

每一层根据来自前一层的输出特征进行调整，通过融合不同粒度的查询集特征，丰富每一层提供的特征信息，使得决策过程更加适应实际数据的分布。每层重复执行，直至达到最后一层L。本研究通过构建多级决策优化模块，实现了使模型进行持续优化和适应的动态学习过程。该模型在每一层通过重新评估边界区域中的样本来优化决策，具体来说，模型在每一层都会接收上一层传递下来的相似度矩阵作为输入，然后经过决策优化算法D^(l)算法进行接受域、拒绝域和不确定域的划分，每一次划分之后，不确定域都会缩小，从而提升后续层的决策能力和精确性。这种动态反馈机制增强了模型在应对复杂情境时的鲁棒性和适应性。

2.3 多分支自适应特征细化模块

目前小样本学习中的卷积神经网络模型大多使用浅层网络进行特征提取工作，使得网络的深度存在一定程度的限制^[34]。并且浅层网络对特征提取不充分，因此需要对特征进一步的处理和优化，以获得更加精确和丰富的特征表示，从而提升模型的性能。卷积神经网络Inception^[35]引入了多尺度特征学习的创新概念，通过并行使用不同尺寸的卷积核处理输入并合并输出，能够同时获取图像的全局与局部特征，使网络能在多个尺度上高效学习特征。受其启发，本研究在Conv-4的基础上，提出多分支自适应特征细化模块。通过对特征进行不同尺度的处理得到不同感受野、局部与全局的信息，最大限度提取了特征信息。采取动态权重的方式为各分支进行加权，从而在每一次迭代中获取最有利的权重分配，结构如图3所示。

图 3 多分支自适应特征细化模块结构

Fig. 3 Architecture of the multi-branch adaptive feature refinement module

下载: 全尺寸图片

多分支自适应特征细化模块结构共由3个分支组成，第1支路为不同尺度的残差特征Identity。第2支路使用两组Conv1×1将特征的通道缩减，降低模型的参数量和计算开销，同时保留特征的关键信息方便后续融合。再分别用两组不同感受野的卷积（一组为单个Conv3×3，另一组为两个Conv3×3），对输入图像并行处理，最后在通道维度上进行拼接。由于卷积操作提取了丰富的特征，所以引入SE(squeeze and excitation)注意力模块^[36]可以使模型有选择地关注特征的不同部分。这个分支称为双边协同卷积分支D_bconv，记为F_bconv：

$$ \begin{gathered} F_{\text{bconv}}=\text{Integrate}(C_{_{(3\times3)}}(C_{_{(1\times1)}}(f_{\text{input}})) \\ C_{_{(3\times3)}}(C_{_{(3\times3)}})(C_{_{(1\times1)}}(f_{\text{input}}))) \end{gathered} $$

式中：f_input为输入图像特征，Integrate为通道拼接函数。

第3支路由两层池化组成，最大池化层$ {f}_{\mathrm{m}\mathrm{a}\mathrm{x}} $负责提取局部特征，平均池化层$ {f}_{\mathrm{a}\mathrm{v}\mathrm{g}} $负责提取全局背景特征，最后输出两层拼接的特征，充分利用了池化层不需要额外学习参数的优势。这个分支称为双边协同池化分支D_bcpool，记为F_bcpool：

$$ {f_{{\text{bcpool}}}} = \sigma \left( {{C_{\left( {3 \times 3} \right)}}([{f_{{\text{max}}}};{f_{{\text{avg}}}}])} \right) $$

由于大的感受野能够在相同位置提供更加丰富的语义信息，而较小的感受野能保留更多的细节信息。所以不同卷积核对特征的提取具有差异性。将不同尺度的卷积核提取的多层特征相融合使特征更加全面。Identity分支保留了原始的多粒度信息，双边协同卷积分支D_bconv增强了在粗细粒度下的特征的敏感性，双边协同池化分支D_bcpool同时重点关注特征的全局与局部信息。综合考虑输入图像特征的原始性、敏感性，全局与局部信息，将这3个支路提取的特征进行有效融合，从而提高模型在小样本图像分类中的性能。为了更有效地利用特征信息提高模型泛化能力，引入自适应特征权重，使模型能够依据数据特征分布，自主动态地选择合适的权重进行特征融合。具体计算公式为

$$ {f_{{\text{mbafr}}}} = {\delta _1}{f_{{\text{id}}}} + {\delta _2}{f_{{\text{bconv}}}} + {\delta _3}{f_{{\text{bcpool}}}} $$

$$ {\delta }_{i}=\frac{{e}^{{\varOmega }_{i}}}{{\displaystyle \sum _{j}{e}^{{\varOmega }_{j}}}}(i=1,2,3;j=1,2,3) $$

式中：${\omega _{\text{i}}}$为指数权重，$ {\omega _{\text{j}}} $为特征权重。

2.4 相似性度量

由多分支自适应特征细化模块生成的多粒度特征向量$ {{\boldsymbol{g}}_\varPhi }({f_\varPhi }({x_i})) \in {{\bf{R}}^{{C_L} \times {H_L} \times {W_L}}},L \in \{ 1,2,3,4,5\} $，从粗到细的粒度依次进行决策优化，每次延迟决策后需要对每层粒度进行相似性度量。本研究采用标签传播网络(transductive propagation network, TPN)关系度量方法^[37]学习支持样本和查询样本之间的关系得分，该算法能够更准确地模拟决策过程中的复杂关系，从而提高决策的准确性。通过关系网络计算获取各个尺度参数，构建恰当的相似度邻居图，计算不同尺度下查询集样本的预测标签分数，优化计算资源的使用，提高算法的运行效率。同时，还可以在多级决策中适应不同层次的复杂性。对于不同层次的决策问题，能够灵活调整，以适应不同层次的需求以及能够联合学习特征嵌入参数和图构建参数，这种端到端的学习方式可以优化整个网络结构，提高学习效率。

相似性度量函数定义为

$$ {\left| {{W_{ij}}} \right|_L} = {\text{exp}}\left( { - \frac{1}{2}\left\| \frac{{{{\boldsymbol{g}}_{{\varPhi _L}}}({f_{{\text{mbafr}}}}({x_i}))}}{{|{\sigma _i}{|_L}}} - \frac{{{{\boldsymbol{g}}_{{\varPhi _L}}}\left( {{f_{{\text{mbafr}}}}({x_j})} \right)}}{{|{\sigma _j}{|_L}}}\right\| _2^2} \right) $$

$|{W_{ij}}{\mid _L} \in {{\text{R}}^{(N \times K + N \times q) \times (N \times K + N \times q)}},K \in \{ 1,2,3,4,5\} $表示在各层粒度L下样本x_i和x_j的相似度，σ参数通过对应粒度L的关系网络计算获得，|σ|_L为粒度L下的粒度参数。在获得各层粒度的相似度量矩阵后，保留相似度矩阵中每一行的前n个最大值，来构建k-最近邻图。再进行拉普拉斯正则化获取最终的相似性度量矩阵Z_L。为融合各层粒度下延迟决策后的预测分数和平衡各层粒度之间的预测结果，使用分数加权方式，使得正确预测具有较高的得分，降低错误预测的得分。而后进行标签传播，得到预测分数Y，加权获得最终预测分数Y^∗，加权方式具体表述为

$$ {{\boldsymbol{Y}}}^{\ast }=\sum _{k\text{=1}}^{K}{[{({\boldsymbol{I}}-\varepsilon {\boldsymbol{Z}})}^{-1}{{\boldsymbol{Y}}}^{0}]}^{k} $$

式中：${{\boldsymbol{Y}}^0}$为初始化标签矩阵，$\varepsilon \in (0,1)$为控制传播的信息量，Z为单位矩阵。

通过Softmax函数获得最终的分类结果：

$$ P({\bar y_i} = j|{x_i}) = \frac{{{\text{exp}}(R_{ij}^ * )}}{{\displaystyle\sum\limits_{j = 1}^N {{\text{exp}}\left( {R_{ij}^ * } \right)} }} $$

式中：$ {\bar{y}}_{i} $代表第i个样本的预测结果，$ {R}_{ij}^{*} $表示样本x_i的预测结果分数的第j个分量。

多级决策优化下的不确定域会对分类结果造成影响，在交叉熵损失函数中引入参数θ对不同尺度下的不确定域进行放大或缩小，使模型对新类有更好的鲁棒性。具体操作公式为

$$ L = - \mathop \sum \limits_{t = 1}^N (1 + \theta ){\text{log}}{P_t} $$

3. 实验与及分析

实验分别在MiniImageNet和TieredImageNet数据集上评估了MDORN模型在小样本图像分类的性能。

3.1 实验环境及模型训练

本研究的实验均在Ubuntu18.04系统，NVIDIA TeslaV100GPUs (32 GB)深度学习框架环境下运行。所有实验过程不使用额外的数据，按照N-way K-shot的范式进行训练，为与其他小样本方法进行公平公正的比较，对超参数的设置，遵循标签传播网络TPN关系度量方法^[37]的原始设置。模型设置2 100个Epochs，以期达到更好的泛化能力，每100个元任务为1个Epoch，共计210 000个元任务。为了确保模型在每个Epoch中都能接触到不同的任务，从而促进模型的元学习能力，允许模型在多样化的任务上进行训练，分别采用Conv-4作为特征提取器，使用Adam优化器，学习率为0.001。在测试阶段，将1 000个随机生成的元任务划分为10个Epochs，根据随机生成的元任务，模拟模型在实际应用中可能遇到的多样化场景。取平均准确率为测试的准确率，置信区间为95%。

本研究用分类准确率A作为实验评估方法，具体计算公式为

$$ A = \frac{{{M_X}}}{M} $$

式中：$M$是测试集的图片数量，${M_X}$表示其中分类正确的图片数量。

3.2 数据集介绍

为了验证本研究方法在小样本图像分类任务中的有效性，分别在2个广泛应用的小样本领域的公开数据集上进行相关实验，如表1所示，分别为MiniImageNet、TieredImageNe公开数据集。

表 1 数据集信息表

Table 1 Datasets information

数据集名称	MiniImageNet	TieredImageNet
图片尺寸/像素×像素	84×84	84×84
数据集总数	60 000	779 165
类数	100	608
类样本数	600	1 281
训练集类数	64	351
验证集类数	16	97
测试集类数	20	160

MiniImageNet数据集^[38]是ImageNet数据集的子集，总共包含60 000张图片，涵盖100个不同的类别。在模型的训练阶段，从100个类别中挑选了64个作为训练集，使用16个类别作为验证集，而剩余的20个类别被用于测试集。

TieredImageNet数据集^[39]是从ImageNet数据集中衍生出来的，但它拥有更广泛的规模，约有780 000张图片，包含608个类别。数据集基于语义信息，将这608个类别归纳为34个父类。在训练模型的过程中，选择20个父类为训练集，6个为验证集，剩下的8个为测试集，表1给出了两个数据集的具体信息。

3.3 对比实验及分析

本研究实验将MDORN与许多先进的小样本图像分类模型分别在MiniImageNet和TieredImageNet数据集上进行对比。对比结果如表2、3所示。对比的模型有Prototypical Nets^[7]、Relation Nets^[10]、Matching Nets^[15]、TPN^[37]、MAML^[40]、Looking-back^[41]、MSLPN^[42]等的方法。

表 2 MiniImageNet 数据集实验结果对比

Table 2 Comparison of MiniImageNet experiental results

%
模型	Backbone	5-way 1-shot	5-way 5-shot
Matching Nets^[15]	Conv-4	43.56±0.84	55.31±0.73
MAML^[40]	Conv-4	48.70±1.84	63.11±0.92
Prototypical Nets^[7]	Conv-4	49.42±0.78	68.20±0.66
Relation Nets^[10]	Conv-4	50.44±0.82	65.32±0.70
TPN^[37]	Conv-4	53.75±0.68	69.43±0.67
Looking-Back^[41]	Conv-4	55.91±0.86	70..99±0.68
MSLPN^[42]	Conv-4	56.52±0.92	73.45±0.86
LSTAL-ProtoNet^[43]	Conv-4	52.26±0.52	70.33±0.69
CGRN^[44]	Conv-4	50.85±0.86	64.13±0.70
PRFDC^[45]	Conv-4	55.36±0.25	73.38±0.20
本文方法	Conv-4	60.02±0.94	73.68±0.93
注：加粗表示效果最好。

表 3 TieredImageNet 数据集实验结果对比

Table 3 Comparison of TieredImageNet experiental results %

模型	Backbone	5-way 1-shot	5-way 5-shot
MAML^[40]	Conv-4	51.67±1.81	70.30±1.75
Prototypical Nets^[7]	Conv-4	53.31±0.89	72.69±0.74
Relation Nets^[10]	Conv-4	54.48±0.93	71.32±0.78
TPN^[37]	Conv-4	57.53±0.96	72.85±0.74
Looking-Back^[41]	Conv-4	58.97±0.97	73.59±0.74
MSLPN^[42]	Conv-4	58.69±0.96	74.12±0.73
LSTAL-ProtoNet^[43]	Conv-4	53.45±0.46	72.28±0.39
CGRN^[44]	Conv-4	55.07±0.20	71.34±0.30
PRFDC^[45]	Conv-4	56.09±0.65	75.70±0.59
本文方法	Conv-4	61.48±0.98	75.65±0.86
注：加粗表示效果最好。

MiniImageNet数据集实验的收敛曲线与损失曲线如图4、5所示，由于元任务有210 000个，则将其Epochs归一化方便作图。

图 4 MinilmageNet数据集上模型训练收敛趋势

Fig. 4 Model convergence on the MinilmageNet dataset

下载: 全尺寸图片

图 5 MiniImageNet数据集上模型损失变化

Fig. 5 Model convergence on the MiniImageNet dataset

下载: 全尺寸图片

结果表明MDORN比基于度量学习的Matching Nets^[15]、Prototypical Nets^[7]、Relation Nets^[10]在5-way场景上的 1-shot准确率提升16.46、10.6和9.58百分点，在5-shot上准确率提升18.37、5.48和8.36百分点。比基于元学习的MAML模型在1-shot实验上准确率提升11.32百分点，在5-shot实验上准确率提升10.57百分点。TieredImageNet数据集实验在5way场景上的1-shot和5-shot分别提升了9.81和5.35百分点分类准确率。Matching Nets通过使用长短期记忆网络来捕获特征之间的上下文关系，但由于特征向量的维度过高，会影响模型的全局特征提取能力。MAFRM模块根据各粒度的原始特征特点，结合全局信息和局部信息进行自适应融合，提高模型的各粒度层的表征能力，有效捕捉特征间的上下文关系，强化小样本图像分类之间的相关类别特征。Relation Nets^[10]比较支持集样本与查询样本之间的关系来进行分类，但在面对与训练过程中差异较大的新任务时，模型的泛化能力可能受限。

MDORN根据构造多层粒度结构进行三支决策，且允许不确定性的存在，减少因过度自信而做出错误决策的风险。由粗到细的增加有用样本信息，更好地进行决策，提高模型的鲁棒性。MDORN 在两个数据集中 5-way场景上的1-shot和5-shot 均实现了最高的分类准确率，但5-shot的性能提升并不如1-shot学习显著。主要是在1-shot学习中，受样本量少的影响，模型倾向于通过不确定性做出谨慎预测，降低误分类风险。而在5-shot学习中，随着样本量增加，模型寻求更精确的决策边界，但当类别间差异小时可能反而使边界模糊。三支决策的方法更适合于处理极端的小样本情况，即训练图片越少，本文方法提升分类性能效果越好。

3.4 消融实验

为了验证构建多级决策优化关系网络的合理性，分别对各粒度层、MAFRM模块在MiniImage-Net数据集上进行消融实验。

为了找到最合适的决策层数量，进行不同层级数量的消融实验。如表4、5所示，用5组实验进行多级粒度决策优化有效性验证。

表 4 各粒度层决策优化分类的影响

Table 4 Impact of decision optimization across different granularity levels on classification %

粒度层						MiniImageNet
L₁	L₂	L₃	L₄	L₅	L₆	1-shot	5-shot
√	√					56.53±0.69	70.88±0.76
√	√	√				57.48±0.75	71.02±0.82
√	√	√	√			57.77±0.83	71.68±0.67
√	√	√	√	√		58.61±0.84	72.69±0.93
√	√	√	√	√	√	57.21±0.73	71.22±0.61

表 5 各粒度层决策后不确定域占比

Table 5 Proportion of uncertain domains after decision-making at each granularity level %

粒度层	L₁	L₂	L₃	L₄	L₅	L₆
占比	62.3	52.4	45.9	32.4	25.6	17.8

实验结果表明：在MiniImageNet数据集的5-way 1-shot场景上进行第2层的决策优化算法D⁽²⁾之后，约有52.4%的查询样本被划分为不确定域，此时进行分类的准确度为56.53%，而进行第5层的决策优化算法D⁽⁵⁾之后，仅有25.6%的查询样本被划分进不确定域，此时分类的准确度达到了58.61%，经过多级的决策优化算法后的分类准确率得到了较大的提升。但当决策层级数为6时精度开始下降。同时，在5-way 5-shot场景上也有同样的情况。在决策终止优化时模型产生过拟合情况，导致分类准确度降低，而在5层的多级优化过程中暂未出现过拟合现象。随着决策粒度的逐层细化，决策过程能够更加精准地补充对查询集有效的语义信息，从而显著提升决策效果。因此，当决策优化达到第5层时，能够实现最佳效果。根据每层决策筛选出的不确定域占比和准确率可以看出多级决策优化对实验的影响。在小样本学习中，由于样本数量少，所以样本间相似度的准确匹配尤为重要，如果查询集无法匹配到正确的支持集样本，则准确率会大幅下降。而本文提出的多级决策优化正是以提高匹配准确率为目的，来优化小样本学习。在每一轮决策优化过程中，算法精准地识别出当前粒度层中的不确定性样本，即那些在相似度矩阵中具有较低匹配分数或对所有别展现出较高匹配分数的样本。随后，这些样本的特征被传递至更深层次进行进一步的决策分析。通过这种递归迭代的方法，查询集最终能够实现与支持集样本的最优匹配，从而显著提升小样本学习的性能。

MAFRM模块将原始信息、全局信息和局部信息进行自适应融合。为了进一步探究MAFRM模块的效果，本研究对模型收敛时各个特征权重的自适应实验分析，实验结果如图6所示。

图 6 各分支自适应权重变换

Fig. 6 Adaptive weight chart for each branch

下载: 全尺寸图片

$ {\omega }_{1} $代表原始特征图像Identity的权重，$ {\omega }_{2} $代表双边协同卷积分支D_bconv的权重，$ {\omega }_{3} $代表双边协同池化分支D_bcpool的权重。训练时保持3个权重相加和为1，进行自适应权重更新。纵坐标为更新权重的范围，横坐标为归一化后的轮次数。最终经过训练得到的自适应权重如图6所示。${\omega _{\text{1}}}$收敛为0.33，占比较为平均，说明在保留了原始图像特征的基础上进行融合；${\omega _{\text{2}}}$收敛为0.14，占比较少，通过双边协同卷积分支D_bconv提取到了更多更深层次的语义信息，在保持感受野不变的前提下，使用两个3×3的卷积核增加了网络的深度，并且降低了模型的参数量；${\omega _{\text{3}}}$收敛为0.53，比重最大，最大池化层对于特征进行图像的边缘纹理着重提取，平均池化层对高层语义中的边缘纹理信息进行重点关注。MAFRM模块根据特征属性为每个分支分配权重并进行整合，使模型更全面地理解图像的整体结构和微小细节，且模型不只依赖某一类信息，拥有更好的泛化能力。说明MAFRM模块可以显著增强模型捕获图像关键特征的能力。

为了评估多级决策优化算法对模型复杂度的具体影响，本研究在MiniImageNet数据集上对不添加任何模块的模型、仅添加MAFRM的模型、仅添加MDORN的模型以及添加所有模块的模型进行了5-way 1-shot的参数量对比消融实验，实验结果如表6所示。

表 6 各模块计算复杂度对比

Table 6 Comparison of computational complexity among various modules

模块	参数量/10³	浮点运算次数/10⁹
baseline	520	17.9
+MAFRM	556	20.5
+MDORN	618	18
+MAFRM+MDORN	654.1	21.4

在baseline的基础上，添加MAFRM模块后，由于该模块采用不同尺寸的卷积核对输入图像进行处理，从而增加了卷积运算的复杂性。这一改进导致模型的浮点运算次数（FLOPs）从17.9×10⁹增加至20.5×10⁹，参数量增加了35×10³。但该策略有效地增强了模型对输入图像的语义信息提取能力。添加MDORN模块后，虽然模型的参数量和计算量有少量增长，但是带来了精度的显著提升。

为了评估各个模块对模型性能的具体影响，本研究对不添加任何模块的模型、仅添加MAFRM的模型、仅添加MDORN的模型以及添加所有模块的模型进行了消融实验，实验结果如表7所示。

表 7 MiniImageNet 数据集上的各模块精度

Table 7 Accuary of each module on the MiniImageNet %

MAFRM	MDORN	MiniImageNet
MAFRM	MDORN	5-way 1-shot	5-way 5-shot
×	×	53.23±0.86	70.06±0.92
√	×	54.64±0.93	70.58±0.89
×	√	56.83±0.79	71.94±0.95
√	√	60.02± 0.94	73.68 ± 0.93

基于baseline在添加MAFRM后，在5-way 1-shot和5-way 5-shot上分别提升了1.41和0.52百分点。说明MAFRM模块可以对特征进行多粒度细化处理。在添加MDORN后，相比添加MAFRM的基础上提升了2.19和1.36百分点，说明通过多粒度构建的延迟决策对于精准分类有很大的作用，两个模块相较于baseline的都有不同程度的精度提升。最后同时添加两个模块在1-shot和5-shot上取得了最佳的分类精度，表明网络同时使用这些模块能更显著地提升模型性能。

4. 结束语

本研究通过特征提取、相似性度量、粒计算以及三支决策设计了一种面向小样本图像分类的方法。该方法通过构建多粒度特征提取模块来丰富样本信息。同时，为不同分支特征引入额外的可训练权重，加强了对关键特征的关注，实现了高效的多粒度特征融合，解决了样本量少的问题且使决策模型更加完备。引入阴影集对查询样本的划分算法更加精准的捕捉了不确定域的模糊边界。由粗粒度到细粒度逐步动态地进行多级决策优化，解决了分类不准确的问题，使小样本图像分类模型泛化能力更好，鲁棒性更强。大量的实验表明，所提出的方法在小样本2个公开数据集上比传统的度量学习方法有较大的提升，但引入延迟决策的同时也增加了决策复杂性。在未来的工作计划中，可以采用更加效率的决策方式进行分类，考虑在延迟决策中代价对于分类效果的影响；在构建多粒度特征提取模块时，更深入的考虑图像类内之间的关系，可以以粒球方式，通过不断聚类来进行不同层次的粒度划分，使粒度的层次更加细致；可以考虑将其应用于自动驾驶和医疗图像分析等实际场景中。

图 1 阴影集划分示意

Fig. 1 Shadow set partition diagram

下载: 全尺寸图片

图 2 本文方法网络结构

Fig. 2 Architecture of the method

下载: 全尺寸图片

图 3 多分支自适应特征细化模块结构

Fig. 3 Architecture of the multi-branch adaptive feature refinement module

下载: 全尺寸图片

图 4 MinilmageNet数据集上模型训练收敛趋势

Fig. 4 Model convergence on the MinilmageNet dataset

下载: 全尺寸图片

图 5 MiniImageNet数据集上模型损失变化

Fig. 5 Model convergence on the MiniImageNet dataset

下载: 全尺寸图片

图 6 各分支自适应权重变换

Fig. 6 Adaptive weight chart for each branch

下载: 全尺寸图片

表 1 数据集信息表

Table 1 Datasets information

数据集名称	MiniImageNet	TieredImageNet
图片尺寸/像素×像素	84×84	84×84
数据集总数	60 000	779 165
类数	100	608
类样本数	600	1 281
训练集类数	64	351
验证集类数	16	97
测试集类数	20	160

表 2 MiniImageNet 数据集实验结果对比

Table 2 Comparison of MiniImageNet experiental results

%
模型	Backbone	5-way 1-shot	5-way 5-shot
Matching Nets^[15]	Conv-4	43.56±0.84	55.31±0.73
MAML^[40]	Conv-4	48.70±1.84	63.11±0.92
Prototypical Nets^[7]	Conv-4	49.42±0.78	68.20±0.66
Relation Nets^[10]	Conv-4	50.44±0.82	65.32±0.70
TPN^[37]	Conv-4	53.75±0.68	69.43±0.67
Looking-Back^[41]	Conv-4	55.91±0.86	70..99±0.68
MSLPN^[42]	Conv-4	56.52±0.92	73.45±0.86
LSTAL-ProtoNet^[43]	Conv-4	52.26±0.52	70.33±0.69
CGRN^[44]	Conv-4	50.85±0.86	64.13±0.70
PRFDC^[45]	Conv-4	55.36±0.25	73.38±0.20
本文方法	Conv-4	60.02±0.94	73.68±0.93
注：加粗表示效果最好。

表 3 TieredImageNet 数据集实验结果对比

Table 3 Comparison of TieredImageNet experiental results %

模型	Backbone	5-way 1-shot	5-way 5-shot
MAML^[40]	Conv-4	51.67±1.81	70.30±1.75
Prototypical Nets^[7]	Conv-4	53.31±0.89	72.69±0.74
Relation Nets^[10]	Conv-4	54.48±0.93	71.32±0.78
TPN^[37]	Conv-4	57.53±0.96	72.85±0.74
Looking-Back^[41]	Conv-4	58.97±0.97	73.59±0.74
MSLPN^[42]	Conv-4	58.69±0.96	74.12±0.73
LSTAL-ProtoNet^[43]	Conv-4	53.45±0.46	72.28±0.39
CGRN^[44]	Conv-4	55.07±0.20	71.34±0.30
PRFDC^[45]	Conv-4	56.09±0.65	75.70±0.59
本文方法	Conv-4	61.48±0.98	75.65±0.86
注：加粗表示效果最好。

表 4 各粒度层决策优化分类的影响

Table 4 Impact of decision optimization across different granularity levels on classification %

粒度层						MiniImageNet
L₁	L₂	L₃	L₄	L₅	L₆	1-shot	5-shot
√	√					56.53±0.69	70.88±0.76
√	√	√				57.48±0.75	71.02±0.82
√	√	√	√			57.77±0.83	71.68±0.67
√	√	√	√	√		58.61±0.84	72.69±0.93
√	√	√	√	√	√	57.21±0.73	71.22±0.61

表 5 各粒度层决策后不确定域占比

Table 5 Proportion of uncertain domains after decision-making at each granularity level %

粒度层	L₁	L₂	L₃	L₄	L₅	L₆
占比	62.3	52.4	45.9	32.4	25.6	17.8

表 6 各模块计算复杂度对比

Table 6 Comparison of computational complexity among various modules

模块	参数量/10³	浮点运算次数/10⁹
baseline	520	17.9
+MAFRM	556	20.5
+MDORN	618	18
+MAFRM+MDORN	654.1	21.4

表 7 MiniImageNet 数据集上的各模块精度

Table 7 Accuary of each module on the MiniImageNet %

MAFRM	MDORN	MiniImageNet
MAFRM	MDORN	5-way 1-shot	5-way 5-shot
×	×	53.23±0.86	70.06±0.92
√	×	54.64±0.93	70.58±0.89
×	√	56.83±0.79	71.94±0.95
√	√	60.02± 0.94	73.68 ± 0.93

参考文献(45)

[1]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436−444. doi: 10.1038/nature14539
[2]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770−778.
[3]	HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82−97. doi: 10.1109/MSP.2012.2205597
[4]	TAYE M M. Understanding of machine learning with deep learning: architectures, workflow, applications and future directions[J]. Computers, 2023, 12(5): 91. doi: 10.3390/computers12050091
[5]	LI Feifei, FERGUS R, PERONA P. One-shot learning of object categories[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(4): 594−611. doi: 10.1109/TPAMI.2006.79
[6]	QI Guojun, LUO Jiebo. Small data challenges in big data era: a survey of recent progress on unsupervised and semi-supervised methods[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(4): 2168−2187. doi: 10.1109/TPAMI.2020.3031898
[7]	SNELL J, SWERSKY K, ZEMEL R S. Prototypical networks for few-shot learning[EB/OL]. (2017−03−15)[2024−06−11]. https://arxiv.org/abs/1703.05175v2.
[8]	HUANG Huaxing, ZHANG Junjie, ZHANG Jian, et al. PTN: A poisson transfer network for semi-supervised few-shot learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021: 1602−1609.
[9]	HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2261−2269.
[10]	SUNG F, YANG Yongxin, ZHANG Li, et al. Learning to compare: relation network for few-shot learning[EB/OL]. (2017−11−16)[20224−06−11]. https://arxiv.org/abs/1711.06025v2.
[11]	ZHENG Wenfeng, TIAN Xia, YANG Bo, et al. A few shot classification methods based on multiscale relational networks[J]. Applied sciences, 2022, 12(8): 4059. doi: 10.3390/app12084059
[12]	毕晓君, 毛亚菲. 基于监督对比学习的小样本甲骨文字识别[J]. 智能系统学报, 2024, 19(1): 106−113. doi: 10.11992/tis.202309008 BI Xiaojun, MAO Yafei. Few-shot oracle bone character recognition based on supervised contrastive learning[J]. CAAI transactions on intelligent systems, 2024, 19(1): 106−113. doi: 10.11992/tis.202309008
[13]	姚一豫, 祁建军, 魏玲. 基于三支决策的形式概念分析、粗糙集与粒计算[J]. 西北大学学报(自然科学版), 2018, 48(4): 477−487. YAO Yiyu, QI Jianjun, WEI Ling. Formal concept analysis, rough set analysis and granular computing based on three-way decisions[J]. Journal of Northwest University (natural science edition), 2018, 48(4): 477−487.
[14]	QIAN Yuhua, ZHANG Hu, SANG Yanli, et al. Multigranulation decision-theoretic rough sets[J]. International journal of approximate reasoning, 2014, 55(1): 225−237. doi: 10.1016/j.ijar.2013.03.004
[15]	SONG Yisheng, WANG Ting, CAI Puyu, et al. A comprehensive survey of few-shot learning: evolution, applications, challenges, and opportunities[J]. ACM computing surveys, 2023, 55(13s): 1−40.
[16]	许栋, 杨关, 刘小明, 等. 基于自适应特征融合与转换的小样本图像分类[J]. 计算机工程与应用, 2022, 58(24): 223−232. doi: 10.3778/j.issn.1002-8331.2105-0290 XU Dong, YANG Guan, LIU Xiaoming, et al. Few-shot learning image classification based on adaptive feature fusion and transformation[J]. Computer engineering and applications, 2022, 58(24): 223−232. doi: 10.3778/j.issn.1002-8331.2105-0290
[17]	WANG Yikai, XU Chengming, LIU Chen, et al. Instance credibility inference for few-shot learning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 01285.
[18]	MEHROTRA A, DUKKIPATI A. Generative adversarial residual pairwise networks for one shot learning[J]. (2017−03−23)[2024−06−11]. https://arxiv.org/abs/1703.08033.
[19]	NAVEED H, ANWAR S, HAYAT M, et al. Survey: Image mixing and deleting for data augmentation[J]. Engineering applications of artificial intelligence, 2024, 131: 107791. doi: 10.1016/j.engappai.2023.107791
[20]	马岽奡, 唐娉, 赵理君, 等. 深度学习图像数据增广方法研究综述[J]. 中国图象图形学报, 2021, 26(3): 487−502. doi: 10.11834/jig.200089 MA Dongao, TANG Ping, ZHAO Lijun, et al. Review of data augmentation for image in deep learning[J]. Journal of image and graphics, 2021, 26(3): 487−502. doi: 10.11834/jig.200089
[21]	VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[EB/OL]. (2016−13)[2024−06−11]. https://arxiv.org/abs/1606.04080v2. VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[EB/OL]. (2016−13)[2024−06−11]. https://arxiv.org/abs/1606.04080v2.
[22]	LI Wenbin, WANG Lei, XU Jinglin, et al. Revisiting local descriptor based image-to-class measure for few-shot learning[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 00743.
[23]	周阳阳, 钱文彬, 王映龙, 等. 面向混合数据的代价敏感三支决策边界域分类方法[J]. 智能系统学报, 2022, 17(2): 411−419. ZHOU Yangyang, QIAN Wenbin, WANG Yinglong, et al. Classification method of cost-sensitive three-way decision boundary region for hybrid data[J]. CAAI transactions on intelligent systems, 2022, 17(2): 411−419.
[24]	刘盾, 李天瑞, 杨新, 等. 三支决策−基于粗糙集与粒计算研究视角[J]. 智能系统学报, 2019, 14(6): 1111−1120. doi: 10.11992/tis.201905039 LIU Dun, LI Tianrui, YANG Xin, et al. Three-way decisions: research perspectives for rough sets and granular computing[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1111−1120. doi: 10.11992/tis.201905039
[25]	ATANASSOV K T. Intuitionistic fuzzy sets: theory and applications[M]. Heidelberg: Springer Nature, 1999.
[26]	PEDRYCZ W. Shadowed sets: representing and processing fuzzy sets[J]. IEEE transactions on systems, man, and cybernetics Part B, Cybernetics, 1998, 28(1): 103−109. doi: 10.1109/3477.658584
[27]	苗夺谦, 张清华, 钱宇华, 等. 从人类智能到机器实现模型: 粒计算理论与方法[J]. 智能系统学报, 2016, 11(6): 743−757. MIAO Duoqian, ZHANG Qinghua, QIAN Yuhua, et al. From human intelligence to machine implementation model: theories and applications based on granular computing[J]. CAAI transactions on intelligent systems, 2016, 11(6): 743−757.
[28]	GUO Doudou, JIANG Chunmao, WU Peng. Three-way decision based on confidence level change in rough set[J]. International journal of approximate reasoning, 2022, 143: 57−77. doi: 10.1016/j.ijar.2022.01.007
[29]	YANG Dandan, DENG Tingquan, FUJITA H. Partial-overall dominance three-way decision models in interval-valued decision systems[J]. International journal of approximate reasoning, 2020, 126: 308−325. doi: 10.1016/j.ijar.2020.08.014
[30]	WANG Tianxing, LI Huaxiong, QIAN Yuhua, et al. A regret-based three-way decision model under interval type-2 fuzzy environment[J]. IEEE transactions on fuzzy systems, 2022, 30(1): 175−189. doi: 10.1109/TFUZZ.2020.3033448
[31]	SAVCHENKO A V. Fast inference in convolutional neural networks based on sequential three-way decisions[J]. Information sciences, 2021, 560: 370−385. doi: 10.1016/j.ins.2021.01.068
[32]	LI Huaxiong, ZHANG Libo, HUANG Bing, et al. Sequential three-way decision and granulation for cost-sensitive face recognition[J]. Knowledge-based systems, 2016, 91: 241−251. doi: 10.1016/j.knosys.2015.07.040
[33]	LI Zhaowen, ZHANG Pengfei, XIE Ningxin, et al. A novel three-way decision method in a hybrid information system with images and its application in medical diagnosis[J]. Engineering applications of artificial intelligence, 2020, 92: 103651. doi: 10.1016/j.engappai.2020.103651
[34]	张楠, 姜丽丽, 岳晓冬, 等. 效用三支决策模型[J]. 智能系统学报, 2016, 11(4): 459−468. ZHANG Nan, JIANG Lili, YUE Xiaodong, et al. Utility-based three-way decisions model[J]. CAAI transactions on intelligent systems, 2016, 11(4): 459−468.
[35]	SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 7298594.
[36]	HU Jie, SHEN Li, ALBANIE S, et al. Squeeze-and-excitation networks[EB/OL]. (2017−09−05)[2024−04−10]. https://arxiv. org/abs/1709.01507v4.
[37]	LIU Yanbin, LEE J, PARK M, et al. Learning to propagate labels: transductive propagation network for few-shot learning[EB/OL]. (2018−05−25)[2024−06−11]. https://arxiv.org/abs/1805.10002v5.
[38]	CHEN Da, CHEN Yuefeng, LI Yuhong, et al. Self-supervised learning for few-shot image classification[C]//2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 1745−1749.
[39]	陈龙, 张建林, 彭昊, 等. 多尺度注意力与领域自适应的小样本图像识别[J]. 光电工程, 2023, 50(4): 66−80. CHEN Long, ZHANG Jianlin, PENG Hao, et al. Few-shot image classification via multi-scale attention and domain adaptation[J]. Opto-electronic engineering, 2023, 50(4): 66−80.
[40]	FINN C, ABBEEL P, LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[EB/OL]. (2017−03−09)[2024−06−11]. https://arxiv.org/abs/1703.03400v3.
[41]	YU Zhongjie, RASCHKA S. Looking back to lower-level information in few-shot learning[J]. Information, 2020, 11(7): 345. doi: 10.3390/info11070345
[42]	汪航, 田晟兆, 唐青, 等. 基于多尺度标签传播的小样本图像分类[J]. 计算机研究与发展, 2022, 59(7): 1486−1495. doi: 10.7544/issn1000-1239.20210376 WANG Hang, TIAN Shengzhao, TANG Qing, et al. Few-shot image classification based on multi-scale label propagation[J]. Journal of computer research and development, 2022, 59(7): 1486−1495. doi: 10.7544/issn1000-1239.20210376
[43]	GAO Farong, LUO Xingsheng, YANG Zhangyi, et al. Label smoothing and task-adaptive loss function based on prototype network for few-shot learning[J]. Neural networks, 2022, 156: 39−48. doi: 10.1016/j.neunet.2022.09.018
[44]	JIA Xiao, SU Yuling, ZHAO Hong. Few-shot learning via relation network based on coarse-grained granulation[J]. Applied intelligence, 2023, 53(1): 996−1008. doi: 10.1007/s10489-022-03332-7
[45]	吕佳, 曾梦瑶, 董保森. 双路径合作的原型矫正小样本分类模型[J]. 计算机科学与探索, 2024, 18(3): 693−706. LYU Jia, ZENG Mengyao, DONG Baosen. Prototype rectification few-shot classification model with dual-path cooperation[J]. Journal of frontiers of computer science and technology, 2024, 18(3): 693−706.

点击查看大图

图(6) / 表(7)

摘要

多级决策优化关系网络的小样本学习方法

doi: 10.11992/tis.202406016

通讯作者: 苟光磊. E-mail：ggl@cqut.edu.cn.

出版历程

Multi-level decision optimization in relational networks for few-shot learning method

1. 相关工作

1.1 小样本学习

1.1.1 基于数据增强的方法

1.1.2 基于度量学习的方法

1.2 三支决策

2. 改进算法

2.1 决策优化算法

2.2 多级决策优化模块

2.3 多分支自适应特征细化模块

2.4 相似性度量

3. 实验与及分析

3.1 实验环境及模型训练

3.2 数据集介绍

3.3 对比实验及分析

3.4 消融实验

4. 结束语

出版历程

目录

通讯作者:
苟光磊. E-mail：ggl@cqut.edu.cn.