2. 河南开放大学 创新创业学院 河南 郑州 450046
2. School of Innovation and Entrepreneurship, Henan Open University, Zhengzhou 450046, China
随着卷积神经网络的发展,行人重识别[1]领域取得了令人鼓舞的成果,已广泛应用于智能安防领域之中[2]。然而,在基于全监督的行人重识别算法中卷积神经网络通常存在对训练数据集过拟合的问题,导致对测试数据集的识别性能较差,尤其是在源域数据与目标域数据存在明显域间差异时[3]。为了将重识别模型应用到真实的视频监控场景中,学者提出了无监督域自适应[4]行人重识别方法。无监督跨域行人重识别算法通过在源域上训练一个模型,并使用自监督或半监督学习等方法,对目标域进行迁移学习来提升模型在目标域上的性能。然而这些方法只能消除给定源域内的样本差异,难以充分表征目标域中的新样本,使得在聚类过程中容易引入伪标签噪声,存在对相似人群区分能力差等问题。
针对以上问题,基于样本特征存在的类内收敛性、类间外散性的特点,本文提出了基于双分支注意力特征融合的跨域行人重识别算法,该方法通过两个分支模块来提取影响模型适应性的域内特定特征和影响模型泛化的域间不变特征,再通过注意力机制对两者进行特征融合强化。结合域不变特征和域特定特征可以兼顾行人特征的共性和个性,提高了跨域行人重识别的准确度。同时,在网络训练过程中使用对称的网络结构进行同步学习来加速模型收敛。本文的创新点如下。
1) 在分别提取域特定特征和域不变特征时,引入全维动态卷积全面学习特征图空域与不同通道上的特征,更细致地区分二者的不同,并在此基础上设计了一种基于注意力机制的特征融合模块。该模块通过引入类似CBAM注意力机制的结构,自适应地融合域特定特征和域不变特征加强聚类特征的表示,增强聚类算法对同类样本的聚集效果,降低误分类率。
2) 在1)的基础上搭建对称网络结构进行辅助训练,采用协同训练的方式显著降低网络根据特征进行聚类生成的伪标签的噪声,增强伪标签的可靠性,达到良好的模型泛化能力,提升模型在不同数据域下的检测精度。
1 相关工作无监督域自适应行人重识别方法利用来自源域的标注数据和目标域少量的非标注数据,将源域数据的特征向量映射到目标域中,实现源域和目标域之间的特征的对齐。
目前的无监督域自适应行人重识别方法可以分为以下两种。
1) 利用生成对抗网络将图像风格从源域样本转移到目标域样本减少域差异。IPESGAN[5]对特征进行解耦生成具有保留同一性的跨域图像。PTGAN[6]解决了域间偏移问题,但生成图像容易受到源域影响。SPGAN[7]则利用相似度来减弱源域影响。CR-GAN[8]通过强化实例的渲染效果来提升其识别能力。但是GAN的引入会导致产生额外的噪声,使模型泛化能力变差。
2) 利用软标签或伪标签机制探索两个域之间的相似性。其中伪标签对未标注数据进行预测,基于预测结果进行二次训练;软标签将One-Hot标签转换为与其他图像相似度的向量值,基于向量值进行二次训练。文献[9]通过计算目标域样本和源域样本指导模型在目标域上的泛化,为无监督学习开拓了新的方向。
受制于源域与目标域数据模态的差异,软标签噪声非常严重。CDS[10]提出了结合聚类与动态采样机制,将有标签源领域的知识迁移至无标签目标领域通过迭代进行样本聚类,形成多个中心,并从中心中选取代表性强的样本,对源领域执行微调操作。大多数无监督行人重识别方法忽略了相机之间的分布差异,ICAM[11]在跨域学习中,需要根据相机参数进行优化,但这种方法需要对相机进行详细的训练和测试,因此算法的通用性较差。
以上方法只从给定的源域中消除样式差异,并没有充分挖掘目标域中的新样式,因此对新域泛化性较差,导致模型的识别准确率较低。
2 算法描述本文提出了一种基于双分支注意力特征融合的网络结构,如图 1所示。该网络由两部分组成,分别是对域特定特征和域不变特征进行提取的特征提取模块[12]、对两者使用注意力机制进行加权融合的双分支特征融合模块。同时为了增强网络对伪标签的抗噪能力,使用与MMT(mutual mean teaching)[13]相同的对称网络结构通过协同训练机制实现互补监督效能,旨在规避主干网络输出误差所导致的过拟合问题。
![]() |
图 1 双分支特征融合网络 Fig. 1 Dual branch feature fusion network |
主干网络采用在性能和架构方面都表现出色的ResNet50[14]。为了进一步提高主干网络的性能,以文献[15]的方法为启发,提取ResNet50的第3和第4卷积层的特征映射,分别进行域不变特征的提取和域特定特征的提取。域不变特征是指不受域差异影响的通用特征,这种特征在源域和目标域中具有一致性,可以用于跨域数据的表示和处理。域特定特征指的是在源域和目标域中具有差异性的特征,这些特征可以被认为是域间目标任务的关键区别[16]。将两者进行基于注意力机制的特征融合使它们能够相互补充,提高模型对跨域数据的泛化能力。
2.1.1 域不变特征提取模块设计域不变特征(domain invariant features, DIF)提取模块来学习域的不变特征。该模块结构如图 2所示。模块由两个特征校准层(feature calibration layer, FCL)[17]、两个全维动态卷积层(omni-dimensional dynamic convolution,ODConv)、ReLU激活函数层和风格归一化层(instance normalization, IN)组成。根据文献[18]的实验结果,卷积过程中很容易出现数据偏差的问题,使用FCL层来提取通道信息和空间信息,定位具有区分特征的局部特征,并降低噪声。FCL描述为
$ \operatorname{\mathit{FCL}}\left(X_{(n, c, h, w)}\right)=x_{(n, c, h, w)}+\boldsymbol{\omega} \cdot \boldsymbol{\mu}, $ | (1) |
![]() |
图 2 域不变特征提取模块 Fig. 2 Domain invariant feature extraction module |
其中:x(n, c, h, w)和X(n, c, h, w)分别表示输入特征和校准之后的特征;n表示批次数;c表示通道数;h和w分别是输入图像的高度和宽度;ω∈ R1 ×C×1×1表示可以学习的权重向量;μ为小批量样本的平均值,μ∈ R1 ×C×1×1;·表示内积运算。由于特征校准层倾向于学习源域的区别性特征,因此当目标域样本和源域样本之间的特征分布存在较大差异时,经训练的网络模型可能无法准确识别目标域样本。IN层利用统计特征分布信息完成特征规范化,过滤掉域特定信息,计算过程为
$ X_{\mathrm{IN}}=\gamma \cdot \frac{x_{\mathrm{in}}-\mu}{\sqrt{\delta^2+\varepsilon}}+\beta, $ | (2) |
其中:xin表示ReLU激活函数的输出;μ∈ Rc和δ∈ Rc分别表示小批量样本的均值和方差;γ∈ Rc和β∈ Rc表示仿射参数;引入ε(ε>0)避免分式中分母为零。从域不变特征提取模块获得的特征XDIF描述为
$ X_{\mathrm{DIF}}=O D \operatorname{Conv}\left(I N\left(\operatorname{ReLU}\left(X_{\mathrm{FCL}}\right)\right)\right) \text {, } $ | (3) |
IN表示风格归一化层。XFCL的形式描述为
$ X_{\mathrm{FCL}}=F C L\left(O D \operatorname{Conv}\left(F C L\left(X_s\right)\right)\right), $ | (4) |
其中:Xs表示原始输入特征。
2.1.2 域特定特征提取模块为了获得更好的域适应能力,设计了域特定特征(domain specific feature, DSF)提取模块学习域特定特征表示。
如图 3所示,该模块由两个特征校准层、一个Bottleneck层和一个全维动态卷积层组成。这里引入特征校准,缓解神经网络特征表示的偏差,防止源域样本和目标域样本之间的特征分布差异较大,从而影响系统性能。引入Bottleneck层降低网络模型的复杂度,在去除高频噪声的同时加快网络模型的训练速度。最后利用卷积层来提取全局特征。从域特定特征提取模块获得的特征XDSF描述为
$ X_{\mathrm{DSF}}=O D \operatorname{\mathit{Conv}}\left(F C L\left(\operatorname{ReLU}\left(X_{\mathrm{FCL}}^{\prime}\right)\right)\right), $ | (5) |
![]() |
图 3 域特定特征提取模块 Fig. 3 Domain specific feature extraction module |
其中:X′ FCL表示为
$ X_{\mathrm{FCL}}^{\prime}=F C L\left(\operatorname{\mathit{Bottleneck}}\left(X_i\right)\right), $ | (6) |
Xi表示原始特征的输入。
2.1.3 特征融合模块为了自适应地融合域特定特征和域不变特征,本文参考CBAM注意力机制,在特征融合模块中引入了类似通道注意力的结构。XDSF代表域特定特征,XDIF代表域不变特征,域不变特征首先经过具有一个隐藏层的多层感知机(MLP),然后利用sigmoid函数进行归一化,获得当前域不变特征的注意力权重。为了能够在域不变特征中突出学习有利于特征融合的信息,本文在特征融合模块中增加了一个残差连接,如图 4中的虚线所示,将XDIF和MLP输出的注意力权重进行逐元素相乘,获得最终的注意力特征图Z,然后通过空间维度的广播机制将域特定特征图XDSF和注意力特征图Z在通道维度上进行逐元素相乘,经过GAP和BN层之后得到用于聚类的融合特征图,融合特征F为
$ F=\sigma\left(M L P\left(X_{\mathrm{DIF}}\right) \otimes X_{\mathrm{DIF}}\right) \otimes X_{\mathrm{DSF}}, $ | (7) |
![]() |
图 4 特征融合模块 Fig. 4 Feature fusion module |
其中:σ代表sigmoid函数。
2.2 对称网络结构 2.2.1 网络参数更新为了提升网络对聚类生成伪标签的鲁棒性,本研究参考MMT构建了一个如图 5所示的对称协同表征学习模型。该模型的核心部分采用了两个相同的双分支注意力融合子网作为主干结构,并将其应用于目标领域的训练任务中。值得注意的是,这两个子网分别采用不同的预训练初始化参数以增加模型学习的多样性。
![]() |
图 5 对称网络结构 Fig. 5 Symmetric network structure |
此外,为了促使两个网络能够捕捉更全面、丰富的特征信息,对接收每个网络中的目标域图像执行了不同的数据增强策略,具体涵盖了随机翻转、非确定性缩放及随机裁剪等多种操作手段。这样的设计可以提供多个视角和变化下的特征表达,增强跨域行人重识别模型对于不同域数据的泛化能力,提高聚类伪标签的准确性和稳定性。
为了保留两个网络每次迭代的知识学习经验,采用时间平均模型进行融合,将对称网络在每个训练迭代中的参数进行累加,并在最后除以总迭代次数进行平均。通过式(8)对两个网络进行更新
$ \left\{\begin{array}{l} \boldsymbol{E}^T\left[\theta_1\right]=\alpha \boldsymbol{E}^{T-1}\left[\theta_1\right]+(1-\alpha) \theta_1, \\ \boldsymbol{E}^T\left[\theta_2\right]=\alpha \boldsymbol{E}^{T-1}\left[\theta_2\right]+(1-\alpha) \theta_2, \end{array}\right. $ | (8) |
其中:E T[θ1]、ET-1[θ1]表示前一次迭代中两个网络的时间平均参数;T表示时刻;α是在[0,1)范围内的集合动量。初始时间平均参数 E 0[θ1]=θ1,E 0[θ2]=θ2。借助平均模型生成的监督信号,两个网络能够利用对方对伪标签的预测结果进行互补性学习,在一定程度上有效地抑制误差的累积与放大效应。
2.2.2 损失函数设计在行人重识别任务中,常规做法是结合运用分类损失(classification loss)与三元组损失(triplet loss)进行联合优化以追求更优的识别性能。分类损失针对分类器输出的预测类别进行约束,而三元组损失则直接对图像特征表达的空间布局进行调整和规范化。
将两个对称网络表示为F(· |θ1)和F(· |θ2),C1t和C2t表示为伪标签分类器,
$ L_{sid}^t\left( {{\theta _1}\mid {\theta _2}} \right) = - \frac{1}{{{N_t}}}\sum\limits_{i = 1}^{{N_t}} {\left( {C_2^t\left( {F\left( {x_i^\prime \mid {\boldsymbol{E}^T}\left[ {{\theta _2}} \right]} \right)} \right)} \right.} \cdot\left. \\ {\log C_1^t\left( {F\left( {x_i^t\mid {\theta _1}} \right)} \right)} \right), $ | (9) |
$ L_{sid}^t\left( {{\theta _2}\mid {\theta _1}} \right) = - \frac{1}{{{N_t}}}\sum\limits_{i = 1}^{{N_t}} {\left( {C_1^t\left( {F\left( {x_i^t\mid {\boldsymbol{E}^T}\left[ {{\theta _1}} \right]} \right)} \right)} \right.} \cdot\left. \\{\log C_2^t\left( {F\left( {x_i^t\mid {\theta _2}} \right)} \right)} \right), $ | (10) |
三元损失使用softmax-triplet来表示三元组内特征间的关系,网络1和2的三元组损失表示为
$ L_{stri}^t\left( {{\theta _1}\mid {\theta _2}} \right) = \frac{1}{{{N_t}}}\sum\limits_{i = 1}^{{N_t}} {{L_{BCE}}} \left( {{T_i}\left( {{\theta _1}} \right), {T_i}\left( {{\boldsymbol{E}^T}\left[ {{\theta _2}} \right]} \right)} \right), $ | (11) |
$ L_{s t r i}^t\left(\theta_2 \mid \theta_1\right)=\frac{1}{N_t} \sum\limits_{i=1}^{N_t} L_{B C E}\left(T_i\left(\theta_2\right), T_i\left(\boldsymbol{E}^T\left[\theta_1\right]\right)\right), $ | (12) |
其中:Ti(E T[θ1])和Ti(E T[θ2]) 是两个网络过去的时间平均模型生成的软三元组标签;LBCE表示二元交叉熵损失。综合分类损失与三元组损失,最终总的损失函数表示为
$ \begin{aligned} & L\left(\theta_1, \theta_2\right)=\lambda_{i d}^t\left(L_{s i d}^t\left(\theta_1 \mid \theta_2\right)+L_{s i d}^t\left(\theta_2 \mid \theta_1\right)\right)+ \\ & \lambda_{t r i}^t\left(L_{s t r i}^t\left(\theta_1 \mid \theta_2\right)+L_{s t r i}^t\left(\theta_2 \mid \theta_1\right)\right), \end{aligned} $ | (13) |
其中:
在公开数据集Market-1501[19]、DukeMTMC-ReID[20]上对本文方法进行验证。Market-1501数据集是在清华大学校园环境中构建的行人重识别基准集合,包含由6个不同摄像设备所捕获的、代表 1 501个不同身份行人的图像样本。DukeMTMC -ReID数据集是来自杜克大学监控摄像头的行人重识别数据集。该数据集包含来自8个摄像头的1 812个身份的行人图像,共计超过16 000张训练图像和19 000张测试图像。与Market-1501数据集中的数据一样,行人都呈现出姿态、角度、服装、光照等多样性的特点。
采用平均精度均值mAP和累计匹配特性CMC作为模型性能的评价指标。CMC曲线通过展示Rank准确率的变化趋势,为算法性能提供了一个全面的、可视化的评估方式。Rank准确率衡量的是在检索结果的前n个位置中找到正确匹配目标的概率。例如,Rank1准确率代表了首位检索结果即为正确匹配目标的概率。
3.2 实验参数实验使用的GPU为显存24 GB的GTX100-24,CPU为Intel Xeon E52640-v4,系统为Debian 11,使用PyTorch 1.11.0框架,选择ResNet50作为基准网络。每个输入图像的像素统一设置为384×128,并且每个输入图像通过随机裁剪、翻转、遮挡等不同策略进行增强;两个对称网络进行不同的随机参数初始化。初始学习率设置为3.5×10-3,总共进行80次迭代,并在每迭代20轮之后缩小10%。
3.3 消融实验为了验证双分支注意力特征融合模块的有效性。分别使用DukeMTMC-ReID数据集为源数据集,Market-1501数据集为目标数据集(Duke-to-Market),以及使用Market-1501数据集为源数据集,DukeMTMC-ReID数据集为目标数据集(Market-to-Duke)进行两组消融实验。实验中,Base表示在ResNet50基础上仅使用聚类方法的伪标签进行训练。D为在Base的基础上引入对称网络结构,T为在Base的基础上加入双分支结构但仅对域不变特征和域特定特征进行平均加权操作,B为本文所提出的双分支注意力特征融合策略。实验结果如图 6所示。
![]() |
图 6 消融实验各模块有效性对比 Fig. 6 Each module in the ablation experiment |
图 6(a)和(b)分别表示在Duke-to-Market和Market-to-Duke上进行对比实验的CMC曲线结果。从D的折线可以看出当引入对称网络结构进行强化训练时会提升模型的精度。由表 1可知,相较于Base,D在两个数据集的Rank1准确率分别提升了14.1个百分点和39.4个百分点,mAP分别提升了15.0个百分点和27.2个百分点。由实验结果可以得出,T同时考虑域不变特征和域特定特征可以起到良好的泛化效果,与实验D相比Rank1准确率分别提升了8.1个百分点和1.9个百分点,mAP分别提升了18.2个百分点和13.8个百分点。实验B在引入双分支注意力特征融合模块与没有进行基于注意力特征融合的平均加权策略T相比,在两组实验中Rank1准确率分别提升了10.9个百分点和9.4个百分点,mAP分别提升了10.7个百分点和4.1个百分点,验证了对域不变特征和域特定特征进行基于注意力的特征融合,可以增加模型对不同域之间的特征变化的鲁棒性,提高跨域匹配准确度。
![]() |
表 1 消融实验结果 Tab. 1 Results of ablation experiment |
将本文算法与已有SOTA(state-of-the-art)算法分别在以上两个数据集上进行对比实验。比较的方法包括:基于风格迁移的算法SPGAN、CR-GAN和PTGAN;基于伪标签优化和聚类的算法、SSG[21]、MMT和PPLR[22]。
表 2展示了在Duke-to-Market实验中,本文方法的Rank1、Rank5、Rank10准确率和mAP明显优于已有SOTA方法,取得了92.0%的Rank1准确率与79.9%的mAP。在Market-to-Duke实验中,本文方法取得了83.2%的Rank1准确率与70.1%的mAP,相比SOTA方法有着较为明显的性能提升。由此可以得出,将域不变特征与域特定特征基于注意力机制进行融合并使用双分支结构进行聚类,能够有效改善跨域行人重识别场景下的识别性能。
![]() |
表 2 对比实验 Tab. 2 Comparative experiment results |
本文提出了以ResNet50作为主干网络的双分支注意力特征融合的跨域行人重识别算法。其中双分支注意力特征融合模块引入域不变特征和域特定特征提取模块,分别对域特定特征和域不变特征进行充分学习,并对这两个分支中的特征进行融合,以便将有标签的源域学习的知识迁移到无标签的目标域上,同时采用对称网络架构协同训练主干网络,提高网络对特征的敏感程度并提升泛化能力。实验结果表明,本文提出的基于双分支注意力特征融合的行人重识别算法能够提升跨域情况下行人重识别的精度,且在不同数据集上具有泛化性和鲁棒性。但该算法依然存在特征细化不足的情况,后续的研究会考虑对图像进行多尺度的特征提取,从而进一步提高模型识别能力,并将所提出的方法应用在智能安防的场景中。
[1] |
ZHANG M, YU Z, HAN Y, et al. A review of pedestrian re-identification for complex scenes[J]. Computer science, 2022, 49(10): 138-150. ( ![]() |
[2] |
任向阳, 王杰, 马天磊, 等. 红外弱小目标检测技术综述[J]. 郑州大学学报(理学版), 2020, 52(2): 1-21. REN X Y, WANG J, MA T L, et al. Review on infrared dim and small target detection technology[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(2): 1-21. DOI:10.13705/j.issn.1671-6841.2019557 ( ![]() |
[3] |
ZHANG H, WANG X Y, LIU J X, et al. Chinese named entity recognition method for the finance domain based on enhanced features and pretrained language models[J]. Information sciences, 2023, 625: 385-400. ( ![]() |
[4] |
LIN X T, REN P Z, YEH C, et al. Unsupervised person re-identification: a systematic survey of challenges and solutions[EB/OL]. (2021-10-02)[2023-11-06]. https://arxiv.org/abs/2109.06057.
( ![]() |
[5] |
VERMA A, SUBRAMANYAM A V, WANG Z, et al. Unsupervised domain adaptation for person re-identification via individual-preserving and environmental-switching cyclic generation[J]. IEEE transactions on multimedia, 2023, 25: 364-377. ( ![]() |
[6] |
QIN H N, XIE W Y, LI Y S, et al. PTGAN: a proposal-weighted two-stage GAN with attention for hyperspectral target detection[C]//IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE Press, 2021: 4428-4431.
( ![]() |
[7] |
DENG W J, ZHENG L, YE Q X, et al. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 994-1003.
( ![]() |
[8] |
CHEN Y B, ZHU X T, GONG S G. Instance-guided context rendering for cross-domain person re-identification[C]//IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 232-242.
( ![]() |
[9] |
YU H X, ZHENG W S, WU A C, et al. Unsupervised person re-identification by soft multilabel learning[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 2143-2152.
( ![]() |
[10] |
WU J L, LIAO S C, LEI Z, et al. Clustering and dynamic sampling based unsupervised domain adaptation for person re-identification[C]//IEEE International Conference on Multimedia and Expo. Piscataway: IEEE Press, 2019: 886-891.
( ![]() |
[11] |
XUAN S Y, ZHANG S L. Intra-inter camera similarity for unsupervised person re-identification[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2021: 11921-11930.
( ![]() |
[12] |
JI K K, HUANG P, ZHU S H. Attention-calibration based double-branch cross-domain person re-identification[J]. Knowledge-based systems, 2022, 258: 110019. ( ![]() |
[13] |
GE Y X, CHEN D P, LI H S. Mutual mean-teaching: pseudo label refinery for unsupervised domain adaptation on person re-identification[EB/OL]. (2020-01-06)[2023-11-06]. http://arxiv.org/abs/2001.01526.
( ![]() |
[14] |
HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.
( ![]() |
[15] |
MA J, ZHANG T, YANG C, et al. Review of wafer surface defect detection methods[J]. Electronics, 2023, 12: 1787-1804. ( ![]() |
[16] |
MA J, MA X, YANG C, et al. An air pollutant forecast correction model based on ensemble learning algorithm[J]. Electronics, 2023, 12: 1463-1473. ( ![]() |
[17] |
GAO S H, HAN Q, LI D, et al. Representative batch normalization with feature calibration[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2021: 8665-8675.
( ![]() |
[18] |
LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 1096-1104.
( ![]() |
[19] |
ZHENG Z D, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]//IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 3774-3782.
( ![]() |
[20] |
ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2015: 1116-1124.
( ![]() |
[21] |
FU Y, WEI Y C, WANG G S, et al. Self-similarity grouping: a simple unsupervised cross domain adaptation approach for person re-identification[C]//IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 6111-6120.
( ![]() |
[22] |
CHO Y, KIM W J, HONG S, et al. Part-based pseudo label refinement for unsupervised person re-identification[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2022: 7298-7308.
( ![]() |