郑州大学学报(理学版)  2026, Vol. 58 Issue (2): 25-32  DOI: 10.13705/j.issn.1671-6841.2024147

引用本文  

丁美荣, 卓金鑫, 刘庆龙, 等. 融合提示学习与分类确定性最大化的领域自适应[J]. 郑州大学学报(理学版), 2026, 58(2): 25-32.
DING Meirong, ZHUO Jinxin, LIU Qinglong, et al. Domain Adaptation Based on Prompt Learning and Classification Certainty Maximization[J]. Journal of Zhengzhou University(Natural Science Edition), 2026, 58(2): 25-32.

基金项目

国家自然科学基金面上项目(62176162);广东省自然科学基金项目(2022A1515140099,2023A1515012875)

通信作者

卓金鑫(1999—),男,硕士研究生,主要从事领域自适应和迁移学习研究,E-mail: zhuojxin@qq.com

作者简介

丁美荣(1972—),女,副教授,主要从事人工智能和自然语言处理研究,E-mail: 362034935@qq.com

文章历史

收稿日期:2024-08-20
融合提示学习与分类确定性最大化的领域自适应
丁美荣, 卓金鑫, 刘庆龙, 郎济聪    
华南师范大学 人工智能学院 广东 佛山 528225
摘要:领域自适应面临现实场景复杂多变的问题,且现有的方法大多注重优化分类的一致性,而忽略了分类的确定性。针对上述问题,提出一种结合对比语言-图像预训练(constrastive language-image pre-training, CLIP)与分类确定性最大化的网络模型。CLIP作为一个多模态预训练模型,通过对大规模的图像-文本对进行预训练,具有强大的跨域泛化能力。通过提示学习和对比学习获取CLIP模型的知识,使模型适应更多的复杂现实场景。通过分类确定性最大化的方法,采用双分类器评估分类的一致性,减少模型在推理过程中的混淆。在Office-31、Office-Home和MiniDomainNet三个领域自适应基准数据集上进行实验, 结果表明,与现有的先进方法相比,所提模型在三个数据集上的图像分类精确度均有提升。
关键词迁移学习    图像分类    CLIP模型    提示学习    领域自适应    分类确定性    
Domain Adaptation Based on Prompt Learning and Classification Certainty Maximization
DING Meirong, ZHUO Jinxin, LIU Qinglong, LANG Jicong    
School of Artificial Intelligence, South China Normal University, Foshan 528225, China
Abstract: Domain adaptation faced the issue of complex and variable real-world scenarios, and existing methods mostly focused on optimizing classification consistency while neglecting classification certainty. To address these issues, a network model combining constrastive language-image pre-training (CLIP) with classification certainty maximization was proposed. CLIP, as a multimodal pre-trained model, was pre-trained on a large scale of image-text pairs and possessed strong cross-domain generalization capabilities. By leveraging prompt learning and contrastive learning, the knowledge of the CLIP model was acquired, enabling the model to adapt more complex real-world scenarios. Through the method of classification certainty maximization, a dual-classifier was employed to assess classification consistency and reduce confusion during the model′s inference process. Experiments were conducted on three domain adaptation benchmark datasets: Office-31, Office-Home, and MiniDomainNet. The experimental results indicated that compared with existing advanced methods, the proposed model showed improvements in image classification accuracy across all three datasets.
Key words: transfer learning    image classification    CLIP model    prompt learning    domain adaptation    classification certainty    
0 引言

由于现实世界中场景复杂多变,深度学习模型训练数据集难以覆盖所有的情况,领域自适应研究应运而生,旨在解决不同领域特征偏移对齐的问题,提升深度学习模型的泛化性。现有的领域自适应方法主要通过对抗学习或者最小化源领域和目标领域的特征表示差异来实现模型优化,这些方法在泛化效果上具有局限性,泛化后的模型只能在较小范围的目标领域产生正向效果,在泛化范围方面仍有较大的研究空间。

近年来,大模型的兴起促使深度学习模型在各个下游任务中获得快速发展,那么领域自适应模型也可借助大模型丰富的知识来实现优化。如OpenAI的对比语言-图像预训练(constrastive language-image pre-training, CLIP)模型[1],通过对大规模的图像-文本对进行预训练,使得模型具有强大的视觉理解和自然语言理解能力。

分类确定性最大化(classification certainty maximization, CCM)是一种强化模型在目标领域泛化性能的方法。通过最大化模型在目标领域的分类确定性,可以有效提升模型的性能。这种方法可以解决现有的领域自适应方法在泛化过程中产生的分类混淆问题,使得模型能够在更广泛的目标领域产生积极的作用。

为此,本文提出了一种融合提示学习与分类确定性最大化的领域自适应方法。利用CLIP模型进行提示学习,在训练过程中引入与目标任务相关的提示,从而提升模型的泛化能力。提示学习的设计,使得模型能够利用大模型预训练阶段学习到的丰富知识,进一步提升领域自适应的性能。在Office-31、Office-Home和MiniDomainNet公开数据集上的实验结果表明,所提方法在领域自适应任务中取得了一定的改进,CLIP提示学习与分类确定性最大化的融合可以有效提升领域自适应的性能。本文主要贡献如下。

1) 使用CLIP模型进行提示学习,使源领域模型蕴含的知识得到丰富,提升其泛化性。

2) 采用分类确定性最大化的方法,提升模型分类的确定性。

3) 通过适当的权重比例调整,使得两种方法发挥其最大的潜能,所提模型在三个领域自适应基准数据集上均取得了分类性能的优化。

1 相关工作

目前,领域自适应的主流方法分为两大类。第一类是通过最小化领域间分布差异来学习域不变特征[2]。Tzeng等[3]提出深度网络自适应(deep domain confusion, DDC)方法,通过最小化最大平均差来对齐跨域特征分布。第二类是通过对抗方法来泛化模型。对抗方法是引入鉴别器来区分领域特定特征,然后训练特征提取器来混淆领域鉴别器,从而在对抗过程中提取领域不变特征。Gao等[4]提出梯度分布对齐(gradient distribution alignment, GDA)方法,使用鉴别器来区分特征的分布情况,这种方法可以有效减少领域间差异,提高模型泛化性。

提示学习最早由Petroni等[5]提出,随着预训练模型和大模型的兴起,其在视觉领域和自然语言处理领域均得到了广泛的应用与研究[6]。提示学习是指在输入前添加指令,并对模型进行预训练,促使大模型适应具体任务。Poerner等[7]手动输入提示以提高模型的性能,但是手动创建的提示可能无法提供准确的指令[8]。为了解决这个问题,Shin等[9]提出了相应的方法来自动探索最优提示;Zhou等[10]基于CLIP模型提出视觉语言模型的调优方法(context optimization, CoOp),使用连续表示对提示进行建模,从而自动探索与任务相关的提示。

CLIP模型[1]在各种任务中的性能大幅度超越过去的非大模型的方法。Ge等[11]基于CoOp方法提出了提示学习领域自适应(domain adaptation via prompt learning, DAPrompt),通过对比学习文本提示来动态识别来自不同领域的图像。由于不同领域的图像遵循不同的分布,使用域匹配提示进行分类提示,不同的领域有不同的提示匹配参数,这种动态机制使分类器能更好地适应源域或目标域。

分类确定性的研究主要面向对抗方法的领域自适应。Luo等[12]提出类别级对抗网络(category-level adversarial network,CLAN)模型,利用余弦相似度在像素级层面进行语义分割以提升分类确定性。然而其忽略了一个事实:一致性并不等于可判别性,即两个分类器可以一致地对样本做出错误判别,这无助于提升目标域的准确性。Li等[13]提出了分类器确定性差异来关注分类器间输出的可判别性,但忽略了每个分类器的可判别性,当两个分类器差异显著时,将损害两个分类器的可判别性。

2 PLCCM模型

本文提出的融合提示学习与分类确定性最大化(prompt learning and classification certainty maximization, PLCCM)模型,旨在通过结合CLIP提示学习技术与分类确定性最大化策略,提升跨领域图像分类的准确性与鲁棒性。

在面对领域自适应任务时,传统方法往往因源域与目标域之间数据分布的显著差异而遭遇性能下降。PLCCM模型通过引入CLIP模型的提示学习机制,有效地提升大规模预训练模型在理解图像和自然语言提示方面的能力,以此指导模型捕捉从源域到目标域的泛化特征。此外,PLCCM模型还融合了分类确定性最大化策略。该策略通过双分类器最大化目标域样本的分类确定性,减少模型在分类决策时的不确定性,从而提高分类性能。结合分类确定性最大化策略,PLCCM模型能在不牺牲泛化能力的前提下,进一步增强模型对目标领域数据分类的准确性和鲁棒性。

2.1 问题定义

在领域自适应任务中有M个领域,选取其中的两个领域作为源领域和目标领域,构成实验的数据样本。假设有一组带标签的源领域数据和一组无标签的目标领域数据,将在这两个领域间探索最有效的泛化方法,使得图像分类的精确度得到进一步提升。

2.2 模型结构

PLCCM模型结构如图 1所示,其包括CLIP提示学习和分类确定性最大化两大模块。通过获取CLIP大模型的知识,提高模型在跨领域图像分类任务中的泛化性;通过分类确定性最大化,进一步提高图像分类的精确度。

图 1 PLCCM模型结构 Fig. 1 PLCCM model structure
2.2.1 提示学习模块

提示学习模块是通过对图像-文本对进行对比学习来实现领域自适应优化的。例如,一张漫画风格的钢笔图像和文本“一张漫画风格的钢笔图像”,就构成了图像-文本对,这是一个正对,因为图片和文本在领域描述和分类描述上相一致。如果文本是“一张漫画风格的钢笔图像”,而图片是一张真实世界拍摄的钢笔照片,这就是一个负对,因为它们的领域描述不对应。这个过程可以定义为:正对是图像$\boldsymbol{x}_{i}$与文本$\boldsymbol{t}_{i}$,负对是图像$\boldsymbol{x}_{j}$与文本$\boldsymbol{t}_{i}, i \neq j$。提示学习的训练目标是在特征空间中最小化正对的余弦相似度,最大化负对的余弦相似度。对比学习将正对的图像和文本表示在相同的特征空间中对齐。

在特征对齐后,该模型能够进行one-shot推理。通过推理,图像$\boldsymbol{x}$将被划分到相似度最大的类别$\hat{\boldsymbol{y}}_{i}$, 具体公式为

$P(\hat{\boldsymbol{y}}=i \mid \boldsymbol{x}, t)=\frac{\exp \left(\left\langle g\left(\boldsymbol{t}_{i}\right), f(\boldsymbol{x})\right\rangle / T\right)}{\sum\limits_{k=1}^{K} \exp \left(\left\langle g\left(\boldsymbol{t}_{k}\right), f(\boldsymbol{x})\right\rangle / T\right)}, $ (1)
$ \hat{\boldsymbol{y}}_{i}=\arg \max _{k} P\left(\hat{\boldsymbol{y}}_{i}=k\right), $ (2)

其中:$\left\langle g\left(\boldsymbol{t}_{i}\right), f(\boldsymbol{x})\right\rangle$表示文本$\boldsymbol{t}_{i}$和图像$\boldsymbol{x}$的特征表示之间的内积;T为温度超参数。

大多数领域自适应的提示学习方法在提示时不会考虑领域方面的信息,每个文本提示在所有领域和所有类别之间共享,使用同一个大的领域描述,没有根据不同的领域匹配不同的提示编码方式,具体的提示文本编码形式为

$ \begin{equation*} \boldsymbol{t}_{k}=[\boldsymbol{v}]_{1}[\boldsymbol{v}]_{2} \cdots[\boldsymbol{v}]_{M_{1}}[C L A S S]_{k}, \end{equation*} $ (3)

其中:$[\boldsymbol{v}]_{1}[\boldsymbol{v}]_{2} \cdots[\boldsymbol{v}]_{M_{1}}$为词的嵌入表示;$[ { CLASS }]_{k}$为第k个类别的标签。

不同于大多数的提示学习方法,采用的提示学习加入了领域信息的嵌入表示$[\boldsymbol{d}]_{1}^{d}[\boldsymbol{d}]_{2}^{d} \cdots[\boldsymbol{d}]_{M_{2}}^{d}$,使得提示包含更细节的知识,具体公式为

$\boldsymbol{t}_{k}^{d}=[\boldsymbol{v}]_{1}[\boldsymbol{v}]_{2} \cdots[\boldsymbol{v}]_{M_{1}}[\boldsymbol{d}]_{1}^{d}[\boldsymbol{d}]_{2}^{d} \cdots[\boldsymbol{d}]_{M_{2}}^{d}[C L A S S]_{k}。$ (4)

同时,为了进一步实现细粒度的特征表述,获取样本中更多的细节信息,每个类都用不同的令牌初始化方式,不同的类别有不同的$[\boldsymbol{v}]_{1}^{k}[\boldsymbol{v}]_{2}^{k} \cdots[\boldsymbol{v}]_{M_{1}}^{k}$k个类别则有k个初始化方式,具体公式为

$ \boldsymbol{t}_{k}^{d}=[\boldsymbol{v}]_{1}^{k}[\boldsymbol{v}]_{2}^{k} \cdots[\boldsymbol{v}]_{M_{1}}^{k}[\boldsymbol{d}]_{1}^{d}[\boldsymbol{d}]_{2}^{d} \cdots[\boldsymbol{d}]_{M_{2}}^{d}[C L A S S]_{k}。$ (5)

在采用的对比学习方法中,只有当类别和域分别匹配时,图像和文本提示才会形成正对。使用来自相应域的正对更新特定域的令牌,综合上述的方法设定,源领域数据样本$\boldsymbol{x}_{i}^{s}$属于第k个类别的概率可定义为$P\left(\hat{\boldsymbol{y}}_{i}^{s}=k \mid \boldsymbol{x}_{i}^{s}, \boldsymbol{t}_{k}^{s}\right)$。同理,目标领域数据样本$\boldsymbol{x}_{i}^{u}$属于第k个类别的概率可定义为$P\left(\hat{\boldsymbol{y}}_{i}^{u}=k \mid \boldsymbol{x}_{i}^{u}\right.$$\boldsymbol{t}_{k}^{u}$,具体公式分别为

$ P\left(\hat{\boldsymbol{y}}_{i}^{s}=k \mid \boldsymbol{x}_{i}^{s}, \boldsymbol{t}_{k}^{s}\right)=\frac{\exp \left(\left\langle g\left(\boldsymbol{t}_{k}^{s}\right), f\left(\boldsymbol{x}_{i}^{s}\right)\right\rangle / T\right)}{\sum\limits_{d \in\{s, u\}} \sum\limits_{j=1}^{K} \exp \left(\left\langle g\left(\boldsymbol{t}_{j}^{d}\right), f\left(\boldsymbol{x}_{i}^{s}\right)\right\rangle / T\right)}, $ (6)
$P\left(\hat{\boldsymbol{y}}_{i}^{u}=k \mid \boldsymbol{x}_{i}^{u}, \boldsymbol{t}_{k}^{u}\right)=\frac{\exp \left(\left\langle g\left(\boldsymbol{t}_{k}^{u}\right), f\left(\boldsymbol{x}_{i}^{u}\right)\right\rangle / T\right)}{\sum\limits_{d \in\{s, u\}} \sum\limits_{j=1}^{K} \exp \left(\left\langle g\left(\boldsymbol{t}_{j}^{d}\right), f\left(\boldsymbol{x}_{i}^{u}\right)\right\rangle / T\right)} 。$ (7)

对比学习中源领域的交叉熵损失函数可表示为

$ \begin{equation*} \mathcal{L}_{s}=-\frac{1}{N_{s}} \sum\limits_{i=1}^{N_{s}} \log P\left(\hat{\boldsymbol{y}}_{i}^{s}=\boldsymbol{y}_{i}^{s}\right) 。\end{equation*} $ (8)

为了进一步挖掘目标领域中未标注的数据包含的信息,使用CLIP模型为这些数据生成相应的伪标签$\boldsymbol{y}^{u}$,具体公式为

$ \begin{equation*} \boldsymbol{y}^{u}=\arg \max _{k} P\left(\hat{\boldsymbol{y}}^{u}=k \mid \boldsymbol{x}^{u}\right), k=\{1, 2, \cdots, K\} 。\end{equation*} $ (9)

然后使用这些图片$\boldsymbol{x}_{i}^{u}$和图片对应的伪标签$\boldsymbol{y}_{i}^{u}$对模型进行训练,训练时只选取部分未标注数据生成伪标签,训练的损失函数可表示为

$\begin{equation*} \mathcal{L}_{u}=-\frac{1}{N_{u}} \sum\limits_{i=1}^{N_{u}} \mathbb{I}\left\{P\left(\hat{\boldsymbol{y}}_{i}^{u}=\boldsymbol{y}_{i}^{u} \mid \boldsymbol{x}_{i}^{u}\right) \geqslant \boldsymbol{\tau}\right\} \log P\left(\hat{\boldsymbol{y}}_{i}^{u}=\boldsymbol{y}_{i}^{u} \mid \boldsymbol{x}_{i}^{u}\right), \end{equation*} $ (10)

其中:$\sum\limits_{i=1}^{N_{u}} \mathbb{I}\left\{P\left(\hat{\boldsymbol{y}}_{i}^{u}=\boldsymbol{y}_{i}^{u} \mid \boldsymbol{x}_{i}^{u}\right) \geqslant \tau\right\}$为指示函数;τ是判断未标注数据是否被选取的阈值。

最终,提示学习模块的总体损失函数可表示为

$\begin{equation*} \mathcal{L}_{\mathrm{PL}}=\mathcal{L}_{s}\left(\mathcal{D}^{s}\right)+\mathcal{L}_{u}\left(\mathcal{D}^{u}\right), \end{equation*} $ (11)

其中:$\mathcal{L}_{\mathrm{PL}}$为提示学习的损失函数。

2.2.2 分类确定性最大化模块

分类确定性最大化模块中采用双分类器范式,使用特征提取器G提取原始输入的判别特征,两个特定任务的分类器C1C2用于区分提取的特征,并指导特征提取器G的优化。模型在源域上进行训练,优化GC1C2。这一步通常通过源域标签和分类器输出之间的交叉熵损失函数$\mathcal{L}_{\mathrm{cls}}\left(\boldsymbol{X}^{s}, \boldsymbol{Y}^{s}\right)$来实现,具体公式为

$ \min _{\theta_{g}, \theta_{c 1}, \theta_{c 2}} \mathcal{L}_{\mathrm{cls}}\left(\boldsymbol{X}^{s}, \boldsymbol{Y}^{s}\right)=\frac{1}{2 n} \sum\limits_{i=1}^{n_{s}} \sum\limits_{k=1}^{K} I_{k=\boldsymbol y_{i}^{s}} \log p\left(\boldsymbol{y} \mid \boldsymbol{x}_{i}^{s}\right) 。$ (12)

然后,在保持模型分类准确性的条件下,通过最大化分类器C1C2在目标域的发散程度来进一步泛化模型。在这一步中,特征提取器的参数被冻结,只更新分类器C1C2的参数,具体公式为

$ \begin{equation*} \min _{\theta_{c_{1}}, \theta_{c_{2}}} \mathcal{L}_{\mathrm{cls}}\left(\boldsymbol{X}^{s}, \boldsymbol{Y}^{s}\right)-\mathcal{L}_{\mathrm{div}}\left(\boldsymbol{Y}_{1}^{t}\left|\boldsymbol{X}^{t}, \boldsymbol{Y}_{2}^{t}\right| \boldsymbol{X}^{t}\right) \end{equation*} $ (13)

其中:$\mathcal{L}_{\text {div }}$为分散度损失函数,目的是使C1C2在目标域上更泛化。

如果两个分类器的输出是一致的,则认为该模型能够正确分类样本。然而,这种假设忽略了输出的确定性。因此,在确定性方面假设C1C2的输出对于同一样本是一致和确定的,则模型能够正确地对该样本进行分类。我们认为,一定的输出可以在一定程度上指导模型提取样本中具有可判别性的特征,并提出了一个联合分类确定性度量,即

$ \begin{equation*} \mathcal{L}_{\mathrm{jcc}}=\sqrt{\sum\limits_{k=1}^{K} \delta_{k}\left(C_{1}\left(G\left(\boldsymbol{X}^{t}\right)\right)\right) \cdot \delta_{k}\left(C_{2}\left(G\left(\boldsymbol{X}^{t}\right)\right)\right)}, \end{equation*} $ (14)

其中:$\mathcal{L}_{\mathrm{jcc}}$是联合分类确定性度量;δk是指示函数,判断输入是否属于第k类,若属于则等于1,否则等于0。

此外,如果注意力只集中在分类器间的输出上,当两个分类器急剧偏离时,仍然可能产生模糊的输出。因此,每个分类器输出的独立确定性也应保留,可在分类器间确定性度量的基础上,加入每个分类器自身的确定性度量,

$\begin{equation*} \mathcal{L}_{\mathrm{lec}}=\sqrt{\sum\limits_{k=1}^{K} \delta_{k}\left(C_{1}\left(G\left(\boldsymbol{X}^{t}\right)\right)\right)^{2}+\sum\limits_{k=1}^{K} \delta_{k}\left(C_{2}\left(G\left(\boldsymbol{X}^{t}\right)\right)\right)^{2}} \text {, } \end{equation*} $ (15)

其中:$\mathcal{L}_{\text {lcc }}$是自身分类确定性度量。

从全局和局部两个方面提升模型的分类确定性,将上述相关的损失函数进行累加,PLCCM模型的总体损失函数可表示为

$ \begin{equation*} \mathcal{L}=\mathcal{L}_{\mathrm{PL}}+\mathcal{L}_{\mathrm{jcc}}+\mathcal{L}_{\mathrm{lcc} 。} \end{equation*} $ (16)
3 实验结果与分析 3.1 实验数据集

选择三个公开的领域自适应基准数据集Office-31、Office-Home和MiniDomainNet进行多种任务的实验。

Office-31是一个广泛应用于领域自适应研究的标准数据集,包含4 110张跨31个类别的图片。这些图片源自三个不同的领域:亚马逊网站(Amazon, 简记为A)、网络摄像头(WebCam, 简记为W)和单反相机(Dslr, 简记为D)。依据这些图片的来源,在Office-31数据集上构建了六个领域适应场景:A-W、A-D、W-A、W-D、D-A和D-W。

Office-Home数据集包含15 500张图片,覆盖65个类别。这些图片分别来自四个领域:艺术作品(Art, 简记为A)、剪贴画(Clipart, 简记为C)、产品(Product, 简记为P)和真实世界(Real World, 简记为R)。艺术作品主要是素描和绘画,剪贴画包括剪贴艺术形式的图片,产品主要是无背景的物体图片,真实世界则是用普通相机拍摄的物体图片。基于这些领域,在Office-Home数据集上定义了12个领域适应任务:A-C、A-P、A-R、C-A、C-P、C-R、P-A、P-C、P-R、R-A、R-C和R-P。

MiniDomainNet数据集是DomainNet数据集的一个子集,包含140 006张图片,分布在126个类别中。这些图片来自四个不同的领域:剪贴画(Clipart, 简记为Clp)、绘画(Painting, 简记为Pnt)、真实世界(Real World, 简记为Rel)和素描(Sketch, 简记为Skt)。实验中设计了四个领域适应任务,每个任务选定一个领域作为目标域,其余三个领域作为源域。

3.2 实验实现细节

PLCCM模型使用PyTorch框架进行编程,实验在NIVIDIA GeForce RTX 4090 GPU显卡上进行,图像编码器选用ResNet-50[14],CLIP的文本编码器采用Transformer[15]

3.3 实验结果

在三个不同领域自适应基准数据集上,使用PLCCM模型与一些现有的先进方法进行精确度对比实验。

3.3.1 Office-31数据集上结果

无监督领域自适应在Office-31数据集上的实验结果见表 1

表 1 无监督领域自适应在Office-31数据集上的精确度 Tab. 1 Accuracy on Office-31 dataset for unsupervised domain adaptation  

表 1可以看出,通过对比不同方法的精确度,PLCCM模型展现了良好的领域适应能力。该模型的平均精确度比SDAT+ELS方法高出0.5个百分点,这虽然是一个较小的差距,但表明了PLCCM模型在细节上的优化和改进。PLCCM模型在多个场景下表现均衡,无明显短板,表明其具有较好的泛化能力和适应性。

3.3.2 Office-Home数据集上结果

无监督领域自适应在Office-Home数据集上的实验结果见表 2。可以看出,PLCCM模型在多个任务中取得了相对较高的精确度,平均精确度达到74.7%。该模型在一些特定任务中的表现超过了大多数基准模型,尤其是与最接近的DAPrompt模型相比,PLCCM模型在多数任务中显示出更优的性能。PLCCM模型在P-C任务中提升较多,显示出其在这些特定的源领域到目标领域适应场景中的出色适应能力。

表 2 无监督领域自适应在Office-Home数据集上的精确度 Tab. 2 Accuracy on Office-Home dataset for unsupervised domain adaptation  
3.3.3 MiniDomainNet数据集上结果

无监督领域自适应在MiniDomainNet数据集上的实验结果见表 3。可以看出,PLCCM模型的平均精确度达到75.85%,比最接近的方法(DomainAdaptor-Aug)高出2.03个百分点,这一提升表明PLCCM模型在处理无监督领域自适应任务时具有优势。该模型泛化性好,在各个领域都表现良好。在剪贴画(Clp)场景下,PLCCM模型达到了77.20%的精确度,是所有方法中最高的,展现了其在此场景下的强大性能。在绘画(Pnt)场景下,PLCCM模型以74.50%的精确度表现优异;在真实世界(Rel)场景下,PLCCM模型以81.10%的精确度领先其他方法;在素描(Skt)场景下,PLCCM模型以70.60%的精确度再次领先,虽然与其他三个场景相比精确度略低,但仍然展示了其良好的适应能力。

表 3 无监督领域自适应在MiniDomainNet数据集上的精确度 Tab. 3 Accuracy on MiniDomainNet dataset for unsupervised domain adaptation  
3.4 实验分析

在实验过程中,对PLCCM模型进行了消融实验,以分析CLIP模型、提示学习和分类确定性最大化三个主要模块对于提升图像分类任务精确度的影响。Office-Home数据集上消融实验结果见表 4

表 4 Office-Home数据集上消融实验结果 Tab. 4 Experimental results of ablation on Office-Home dataset

表 4可以看出,当仅使用CLIP模型时,平均精确度为72.0%,表明CLIP作为一个多模态预训练模型,已经具备了一定的跨域泛化能力。CLIP模型通过大规模的图像-文本对预训练,能够捕获图像内容与自然语言描述之间的关联,从而在领域自适应任务中取得了不错的基线性能。

在CLIP模型基础上加入提示学习模块后,模型的平均精确度提升至74.5%。这表明通过引入与目标任务相关的提示,能够进一步指导模型捕捉从源域到目标域的泛化特征,从而提升模型的适应性和分类性能。提示学习模块使模型能够利用大模型预训练阶段学习到的丰富知识,有效提升领域自适应的性能。

在CLIP模型和提示学习模块的基础上进一步加入分类确定性最大化模块后,模型的平均精确度略微提升至74.7%。虽然这一步的提升效果相对较小,但它表明通过最大化模型在目标域的分类确定性,可以进一步减少模型在分类决策时的混淆性,从而在细节上提高分类性能。这一结果也说明,分类确定性最大化策略对于模型整体性能的提升作用是有限的,但仍然有其价值,特别是在提升模型决策的确定性方面。

综上,提示学习模块在提升模型性能方面起到了关键作用,而分类确定性最大化模块虽然提升幅度较小,但也是提高模型在目标领域分类准确性和鲁棒性的重要因素。整体而言,这些模块的结合使得PLCCM模型能够有效地应对领域自适应任务,提升跨领域图像分类的准确性与鲁棒性。

4 结语

本文提出的PLCCM模型通过结合CLIP提示学习与分类确定性最大化策略,在领域自适应任务中取得了显著的成效。此模型不仅充分利用了大规模预训练模型的跨域泛化能力,而且通过精细化的提示学习和分类确定性最大化策略,进一步提升了模型在目标领域分类的准确性和鲁棒性。实验结果表明,PLCCM模型在Office-31、Office-Home和MiniDomainNet三个领域自适应基准数据集上均取得了优于现有先进方法的性能。

PLCCM模型通过CLIP提示学习,能够使模型更好地理解和适应复杂的现实世界场景,提升了模型的泛化能力。分类确定性最大化策略的引入,有效减少了模型在分类决策时的不确定性,进一步提升了模型的分类性能。此外,消融实验结果也证明了提示学习和分类确定性最大化策略在提升模型性能中的有效作用。

总之,PLCCM模型为领域自适应任务提供了一种新的有效方法,通过结合提示学习和分类确定性最大化策略,提升了模型的泛化能力和图像分类精确度。未来,将探索图像的检索增强生成,使模型在新领域的推理过程中可以快速学习新的知识,进一步扩大模型适应场景的范围。

参考文献
[1]
RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//Proceedings of the 38th International Conference on Machine Learning. New York: ACM Press, 2021: 8748-8763. (0)
[2]
黄露, 曾庆山. 基于平衡概率分布和实例的迁移学习算法[J]. 郑州大学学报(理学版), 2020, 52(3): 55-61.
HUANG L, ZENG Q S. Balanced distribution adaptation and instance based transfer learning algorithm[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(3): 55-61. DOI:10.13705/j.issn.1671-6841.2019439 (0)
[3]
TZENG E, HOFFMAN J, ZHANG N, et al. Deep domain confusion: maximizing for domain invariance[EB/OL]. (2014-12-10)[2024-06-01]. https://doi.org/10.48550/arXiv.1412.3474. (0)
[4]
GAO Z Q, ZHANG S F, HUANG K Z, et al. Gradient distribution alignment certificates better adversarial domain adaptation[C]//IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2021: 8917-8926. (0)
[5]
PETRONI F, ROCKTÄSCHEL T, RIEDEL S, et al. Language models as knowledge bases?[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2019: 2463-2473. (0)
[6]
LIU P F, YUAN W Z, FU J L, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing[J]. ACM computing surveys, 2023, 55(9): 1-35. (0)
[7]
POERNER N, WALTINGER U, SCHVTZE H. E-BERT: efficient-yet-effective entity embeddings for BERT[EB/OL]. (2019-11-09)[2024-06-01]. https://doi.org/10.48550/arXiv.1911.03681. (0)
[8]
JIANG Z B, XU F F, ARAKI J, et al. How can we know what language models know?[J]. Transactions of the association for computational linguistics, 2020, 8: 423-438. (0)
[9]
SHIN T, RAZEGHI Y, LOGAN R L, et al. AutoPrompt: eliciting knowledge from language models with automatically generated prompts[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2020: 4222-4235. (0)
[10]
ZHOU K Y, YANG J K, LOY C C, et al. Learning to prompt for vision-language models[J]. International journal of computer vision, 2022, 130(9): 2337-2348. (0)
[11]
GE C J, HUANG R, XIE M X, et al. Domain adaptation via prompt learning[J]. IEEE transactions on neural networks and learning systems, 2023, 1-11. (0)
[12]
LUO Y W, ZHENG L, GUAN T, et al. Taking a closer look at domain shift: category-level adversaries for semantics consistent domain adaptation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 2502-2511. (0)
[13]
LI S, LV F R, XIE B H, et al. Bi-classifier determinacy maximization for unsupervised domain adaptation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021: 8455-8464. (0)
[14]
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778. (0)
[15]
VASWANI A, SHAZEER N, PAEMAR N, et al. Attention is all you need[C]//Proceedings of IEEE Conference on Neural Information Processing Systems. Piscataway: IEEE Press, 2017: 5998-6008. (0)
[16]
VAPNIK V N. The nature of statistical learning theory[M]. Berlin: Springer Press, 1999. (0)
[17]
TZENG E, HOFFMAN J, SAENKO K, et al. Adversarial discriminative domain adaptation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 2962-2971. (0)
[18]
LONG M, CAO Z, WANG J, et al. Conditional adversarial domain adaptation[EB/OL]. (2018-12-29)[2024-06-01]. https://doi.org/10.48550/arXiv.1705.10667. (0)
[19]
JIN Y, WANG X M, LONG M S, et al. Minimum class confusion for versatile domain adaptation[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2020: 464-480. (0)
[20]
GANIN Y, USTINOVA E, AJAKAN H, et al. Domain-adversarial training of neural networks[M]. Cham: Springer International Publishing, 2017: 189-209. (0)
[21]
ZHANG Y F, WANG X, LIANG J, et al. Free lunch for domain adversarial training: environment label smoothing[EB/OL]. (2023-02-01)[2024-06-18]. https://arxiv.org/pdf/2302.00194. (0)
[22]
RANGWANI H, AITHAL S K, MISHRA M, et al. A closer look at smoothness in domain adversarial training[C]//Proceedings of the International Conference on Machine Learning. New York: ACM Press, 2022: 18378-18399. (0)
[23]
ZHANG Y, LIU T, LONG M, et al. Bridging theory and algorithm for domain adaptation[C]//Proceedings of the International Conference on Machine Learning. New York: ACM Press, 2019: 7404-7413. (0)
[24]
ACUNA D, ZHANG G, LAW M T, et al. f-Domain adversarial learning: theory and algorithms[C]//Proceedings of the International Conference on Machine Learning. New York: ACM Press, 2021: 66-75. (0)
[25]
WESTFECHTEL T, YEH H W, MENG Q E, et al. Backprop induced feature weighting for adversarial domain adaptation with iterative label distribution alignment[C]//IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE Press, 2023: 392-401. (0)
[26]
XU R J, CHEN Z L, ZUO W M, et al. Deep cocktail network: multi-source unsupervised domain adaptation with category shift[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 3964-3973. (0)
[27]
SAITO K, WATANABE K, USHIKU Y, et al. Maximum classifier discrepancy for unsupervised domain adaptation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 3723-3732. (0)
[28]
SAITO K, KIM D, SCLAROFF S, et al. Semi-supervised domain adaptation via minimax entropy[C]//IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 8049-8057. (0)
[29]
ZHOU K Y, YANG Y X, QIAO Y, et al. Domain adaptive ensemble learning[J]. IEEE transactions on image processing, 2021, 30: 8008-8018. (0)
[30]
ZHANG J, QI L, SHI Y H, et al. DomainAdaptor: a novel approach to test-time adaptation[C]//IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2023: 18925-18935. (0)