Clothes-changing person re-identification by sample relationship optimization and re-ranking
-
摘要: 针对换衣行人重识别模型存在局部特征提取能力有限、样本关系优化不足的问题,提出一种融合样本关系优化和重排序的换衣行人重识别模型。首先,设计具有短路连接结构的Transformer模型,将网络的初始特征与深层特征进行融合,来优化每一个样本的特征表示;其次,引入圆损失对优化难度不同的样本赋予不同的权重,更好地优化不同样本之间的关系;最后,设计k′-互近邻重排序策略,对样本间相似性排名进行重新排序,来进一步提高重识别的准确率。在公开的换衣数据集上进行对比实验,结果表明本文提出的模型相比其他先进模型取得了更好的重识别效果。Abstract: Current clothes-changing person re-identification models often have limited local feature extraction capabilities and insufficient sample relationship optimization. To this end, this paper proposes a novel clothes-changing person re-identification model by sample relationship optimization and re-ranking. Firstly, we design a Transformer model with shortcut connections to fuse initial and deep features, thereby optimizing the feature representation of each sample. Meanwhile, we use circle loss to assign different weights to sample pairs with varying optimization difficulties, which can better optimize the relationships among different samples. Finally, we designed a k′-reciprocal re-ranking strategy, which can re-rank the similarity rankings and further enhance the re-identification accuracy. Extensive experiments conducted on publicly available datasets LTCC and PRCC demonstrate that comparing with other advanced models, the proposed model achieves better re-identification effect.
-
换衣行人重识别(clothes-changing person re- identification, CC-ReID)是行人重识别领域最新的研究方向之一,在犯罪侦查、智慧城市建设等领域有重要的应用价值[1-3]。常规的行人重识别假设行人衣服始终不变,因此衣服特征成为行人重识别的主要特征[4-7]。而在换衣行人重识别中,同一个行人在一定时间段内更换了衣服,导致不同摄像头下的衣服特征发生了变化,因此换衣行人重识别任务面临着更大的挑战。一方面,模型需要挖掘出有限且较难提取的与衣服无关的生物特征。另一方面,模型还需屏蔽衣服相关特征,避免其带来负面影响和干扰。现有方法的一种思路是利用辅助信息引导模型关注与衣服无关的信息,如体型信息、头部信息、步态信息等[8-12]。代表性的研究成果有Qian等[8]通过一个体型嵌入模块编码人体关节点中的体型信息,提出一个衣服消除体型蒸馏模块,可自适应地提取体型特征;Jin等[10]设计了一个步态序列预测模块,由一张行人图像生成一系列步态图,辅助模型学习与衣服无关的生物特征。该思路仅仅依赖某一种或几种辅助信息,可能使模型忽略其他有用特征,导致模型性能受限。
另一种思路是对衣服信息进行解耦以减轻其产生的干扰[13-16]。Gu等[13]使用基于衣服的对抗性损失,从原始RGB图像中挖掘与衣服无关的特征。Yang等[14]提出了一种基于因果关系的自动干预模型,分别提取身份相关特征和衣服相关特征,并进行因果干预来逐步自动消除服装偏差。该思路虽有效缓解了衣服信息对模型的影响,但通常需要为衣服特征单独设计一个特征提取模型,增加了模型的训练难度。
文献[17]将上述2种思路相结合,提出了一种TCiP(Transformer based cloth-irrelevant patches)模型,该模型使用所有的局部生物特征,有效避免了对单一辅助信息的过度依赖,同时设计了一个特征选择模块,直接从Transformer提取的特征中分离出生物特征和衣服特征,该方法达到了目前最优的效果。但是,通过深入分析发现,TCiP模型的局部特征提取能力仍然有限,且对类内和类间特征的相似性进行同步优化,忽略了二者达到最优的速度可能不同的问题,因此该方法的重识别准确率仍有上升空间。
为此,本文在TCiP模型的基础上,对换衣行人重识别的特征提取、特征匹配和重识别3个主要阶段分别进行了改进,有效提高了模型对单个样本的特征提取能力以及在不同样本之间的特征匹配能力,最终提升了模型的识别性能。
1. 换衣行人重识别网络模型
TCiP模型是目前换衣行人重识别领域性能最优的模型,该模型首先采用Transformer作为骨干网络进行全局特征和局部特征提取;然后设计特征选择模块,使用人体解析方法分离出局部特征中的衣服特征和生物特征;最后在损失函数中设计反服装(inverse cloth-id, ICI)损失,从衣服特征中挖掘与衣服无关但与身体相关的特征。TCiP较全面地利用了各种生物信息引导模型学习与衣服无关的特征,且可以直接解耦衣服特征,无需额外的衣服特征提取模型。但是,该模型还存在一定的缺陷,首先在特征提取阶段,使用深层Transformer提取局部特征容易导致网络模型退化;其次在特征匹配阶段,TCiP并未关注换衣行人重识别样本关系优化不足的问题;最后在重识别阶段,TCiP直接采用初始相似性排序导致准确率偏低。
本文在TCiP模型的基础上,分别针对上述3个阶段存在的问题进行了改进,模型的整体框架如图1所示,其中红色标注部分为本文的改进部分。
在特征提取阶段,首先将行人图像输入具有短路连接结构的Transformer编码器中提取全局特征和局部特征,然后将局部特征输入特征选择模块,使生物特征和衣服特征分离,最后将全局特征、生物特征、衣服特征输入改进的Transformer解码器进行解码得到最终特征。由于本文引入了短路连接结构,充分融合一个样本内的浅层特征和深层特征,因此可提高模型对于每一个样本的特征表达能力,缓解了网络退化问题。在特征匹配阶段,首先使用全局特征和生物特征计算身份损失,接着分别计算样本之间全局特征相似性和生物特征相似性,并根据相似性计算三元组损失和圆损失,最后利用衣服特征计算反服装损失,并通过反向传播对模型进行优化。本文引入的圆损失可对不同难度的样本对赋予不同的优化权重,由此充分利用类内和类间样本之间的信息交互,更好地提升模型在不同样本之间的特征匹配能力。在重识别阶段,对计算出的相似性进行排序,并使用k′-互近邻重排序方法进行重新排序,即可得到最终的重识别结果。本文改进了重排序策略,可进一步提升重识别的准确率。
1.1 短路连接结构
TCiP模型首先采用Transformer作为骨干网络进行全局特征提取,Transformer模型作为一种基于自注意力机制的深度学习模型,结构简单灵活,擅长处理长序列数据,近年来在计算机视觉领域取得了最好的效果[18-20]。然而,直接将Transformer用于换衣行人重识别任务容易产生网络退化的问题。这是由于换衣行人重识别任务在关注全局特征的同时,还需关注衣服、体型、头部等尺寸较小的局部特征,如果将不同的局部特征输入Transformer网络,随着网络深度增加,得到的输出特征将会越来越相似且难以准确分类。为了解决这一问题,本文在Transformer模型的基础上设计了一个短路连接结构,通过在通道维度对初始特征与深层特征拼接并执行层归一化操作,加强网络深层和浅层信息的共享融合,提高了输出特征之间的差异性,缓解了网络退化的问题。短路连接结构如图2所示。
短路连接结构首先将网络的输入特征
$ {\boldsymbol{X}} $ 复制一份得到$ {{\boldsymbol{X}}_{\rm{pre} }} $ ,然后将$ {{\boldsymbol{X}}_{\rm{pre} }} $ 与输出特征$ {\boldsymbol{Y}} $ 在通道维度拼接,得到$ {\boldsymbol{Y}}' $ ,公式表示为$$ {\boldsymbol{Y}}' = {{\mathrm{Concat}}} [{{\boldsymbol{X}}_{\rm{pre} }},{\boldsymbol{Y}}] $$ 式中
$ {{\mathrm{Concat}}} [ \cdot , \cdot ] $ 表示拼接操作,假设$ {\boldsymbol{X}} $ 的大小为$ B \times C \times N $ ,$ B $ 为训练批次大小,$ C $ 为通道大小,$ N $ 为序列长度,则$ {\boldsymbol{Y}} $ 的维度为$ B \times 2C \times N $ 。最后对输出特征$ {\boldsymbol{Y}}' $ 进行层归一化,使一个样本中的初始特征与深层特征相互融合,在反向传播过程中,深层和浅层的信息就会同时对网络进行优化。1.2 引入圆损失
TCiP模型的样本关系优化采用的损失函数为三元组损失[21],它可以通过最大化锚点样本与正样本之间的相似性(即类内相似性
$ {s_{{\mathrm{p}}} } $ ),将同一行人的图像特征拉近;通过最小化锚点样本与负样本之间的相似性(即类间相似性$ {s_{{\mathrm{n}}} } $ ),将不同行人的图像特征推远,从而使模型学习如何在特征空间中有效地比较不同样本之间的相似性。三元组损失在优化换衣行人重识别模型时,直接减小$ ({s_{{\mathrm{n}}} } - {s_{{\mathrm{p}}} }) $ 以达到最小化$ {s_{{\mathrm{n}}} } $ 和最大化$ {s_{{\mathrm{p}}} } $ 的目的,这样的优化方式对每一个单一相似性分数的惩罚强度是相等的,无法针对性地优化换衣行人重识别任务中不同难度的样本对。图3给出了换衣行人重识别样本关系。对于一个行人锚点样本,存在衣服相同的正样本,同时也存在衣服不同的正样本,其中衣服不同的正样本与锚点样本之间的相似性更小,更难优化,理应赋予更多的关注。同理,对于一个行人锚点样本,存在衣服不相同的负样本,同时也会存在衣服相似甚至相同的负样本,其中衣服不同的负样本更容易被区分,但衣服相似甚至相同的负样本与锚点样本之间的相似性很高,优化起来更加困难,所以也应当被赋予更多的关注。而圆损失[22]可以对
$ {s_{{\mathrm{p}}} } $ 和$ {s_{{\mathrm{n}}} } $ 进行独立加权,使得优化难度不同的正样本对和负样本对被赋予不同的权重,进而解决三元组损失对复杂样本关系优化不足的问题,由此提高模型的特征匹配能力。为此,本文在三元组损失的基础上,引入了圆损失来达到灵活优化不同难度样本关系的目的,其中三元组损失用于优化相对简单的样本关系,如图3中“同一行人相同衣服”和“不同行人不同衣服”的情况,而圆损失则用来优化复杂的样本关系,如图3中“同一行人不同衣服”和“不同行人相似衣服”的情况。圆损失将模型的优化目标由
$ ({s_{\rm n} } - {s_{\rm p} }) $ 变为$ ({\alpha _{\rm n} }{s_{\rm n} } - {\alpha _{\rm p} }{s_{\rm p} }) $ ,其中$ {\alpha _{\rm n} } $ 是$ {s_{\rm n} } $ 的线性权重,$ {\alpha _{\rm p} } $ 是$ {s_{\rm p} } $ 的线性权重,且和$ {\alpha _{\rm p} } $ 互相独立。假设$ {s_{\rm n} } $ 和$ {s_{\rm p} } $ 的最优值分别为$ {O_{\rm n} } $ 和$ {O_{\rm p} } $ ,那么对应的$ \alpha _{\rm n} ^j $ 和$ \alpha _{\rm p} ^i $ 定义为$$ \left\{ \begin{gathered} \alpha _{\rm p} ^i = {[{O_{\rm p} } - s_{\rm p} ^i]_ + } \\ \alpha _{\rm n} ^j = {[s_{\rm n} ^j - {O_{\rm n} }]_ + } \\ \end{gathered} \right. $$ (1) 式中
$ {[ \cdot ]_ + } = \max ( \cdot ,0) $ ,其目的是确保$ {\alpha _{\rm n} } $ 和$ {\alpha _{\rm p} } $ 始终为非负值。式(1)的权重调整方式可以为越小的类内相似性$ {s_{\rm p} } $ 赋予越大的优化权重,当$ s_{\rm p} ^i \geqslant {O_{\rm p} } $ 时,说明$ {s_{\rm p} } $ 已经足够大,不需要再进行优化。$ {s_{\rm n} } $ 的权重调整也是同理情况。假设对于一个锚点样本,存在$ K $ 个正样本和$ M $ 个负样本,这些样本的相似性分数分别为$ \left\{ {s_{\rm p} ^i} \right\}(i = 1,2, \cdots ,K) $ 和$ \left\{ {s_{\rm n} ^j} \right\}(j = 1,2, \cdots ,M) $ ,则圆损失的计算公式为$$ {L_{\rm{circle} }} = \log \left[1 + \sum\limits_{i = 1}^K {\sum\limits_{j = 1}^M {\exp \left(\gamma \left(\alpha _{\rm n} ^js_{\rm n} ^j - \alpha _{\rm p} ^is_{\rm p} ^i\right)\right)} } \right] $$ (2) 式中
$ \gamma $ 为缩放因数。式(2)对优化难度更大的样本的相似性分数进行了更严格的惩罚,有效利用了复杂样本关系促进模型优化,进而提高模型的特征匹配能力。1.3 k′-互近邻重排序策略
在换衣行人重识别模型中,相似性排序结果会受到多种因素的干扰,比如同一行人穿着不同的衣服时,二者特征相似性较低,而不同行人可能穿着相似的衣服,它们之间相似性较高,这将导致正确样本相似性排名靠后,模型的识别准确率降低。因此,在得到初始排名后,有必要进行重排序以提高识别的准确性,重排序可以通过对候选集进行合适的扩展,或采用其他有效的相似性计算方法,更新相似性排名,使正确样本的排名提前,进而提升模型的准确率[23-25]。然而,现有换衣行人重识别方法大都未采用重排序方法对相似性排名进行更新。为此,本文引入了效果最好的k-互近邻重排序方法[25],并对其扩展集合选取方式进行了改进,提出了k′-互近邻重排序策略。k-互近邻重排序的结果包含互近邻集合和扩展集合,互近邻集合中的候选样本均与查询样本互为k-最近邻[26],扩展集合中的样本则与互近邻集合中的样本互为k′-最近邻(
$ k' $ 的取值选择$ k/2 $ ),二者的结合有效提高了正样本的相似性排名。然而,互近邻集合中相似性排名靠后的候选样本及其扩展集合中的样本很可能是负样本。为了避免引入过多的负样本,本文决定阶梯式设置$ k' $ 的取值,对于互近邻集合中相似性排名越靠后的候选样本,扩展集合的$ k' $ 取值越小,由此降低了重排序结果中包含负样本的可能性,进而提升模型识别准确率。k′-互近邻重排序的相似性距离
$ {d^ * } $ 计算公式为$$ {d^ * }(p,{g_i}) = (1 - \lambda ){d_{{\mathrm{J}}} }(p,{g_i}) + \lambda d(p,{g_i}) $$ 式中:
$ p $ 代表查询样本;$ {g_i} $ 代表候选集中第$ i $ 个候选样本;$ {d_{{\mathrm{J}}} } $ 为杰卡德距离;$ d $ 为初始排名;$ \lambda $ 代表初始距离的权重,$ \lambda $ =1表示仅使用初始距离,$ \lambda $ =0表示仅使用杰卡德距离。为了计算杰卡德距离,首先需要得到符合k-互近邻的样本对集合
$ R(p,k) $ ,$ R(p,k) $ 的定义为$$ R(p,k) = \left\{ {({g_i} \in N(p,k)) \cap (p \in N({g_i},k))} \right\} $$ 式中:
$ k $ 表示在初始排名中选取前$ k $ 个候选样本,$ N(p,k) $ 代表查询样本$ p $ 的$ k $ 个最近邻样本的集合,$ N({g_i},k) $ 则代表候选样本$ {g_i} $ 的$ k $ 个最近邻样本的集合。则$ R(p,k) $ 集合中的元素的要求为:$ {g_i} $ 在$ p $ 的k-最近邻集合中,且$ p $ 在$ {g_i} $ 的k-最近邻集合中,即$ p $ 和$ {g_i} $ 互为k-最近邻。考虑到换衣、姿态、遮挡等噪声的影响,一些正样本可能不在k-最近邻集合中,因此在集合$ R(p,k) $ 的基础上,引入$ R({g_i},k') $ ,得到扩展集合$ {R^ * }(p,k) $ ,其公式为$$ \begin{gathered}\boldsymbol{\mathit{R}}^*(p,k)\leftarrow\boldsymbol{\mathit{R}}(p,k)\cup\mathit{\boldsymbol{\mathit{R}}}(q,k') \\ \mathrm{s.t}.|\boldsymbol{\mathit{R}}(p,k)\cap\mathit{\mathit{\boldsymbol{\mathit{R}}}}(q,k')|\geqslant2|\boldsymbol{\mathit{R}}(q,k')|/3 \\ \forall q\in\boldsymbol{\mathit{R}}(p,k) \\ \end{gathered} $$ 式中
$ | \cdot | $ 表示集合中的元素个数。扩展集合的引入要求为:基础集合和扩展集合有较多重合部分,即有超过$ 2|\boldsymbol{\mathit{R}}(q,k')|/3 $ 个重合样本。这说明扩展集合的确包含一定量的正样本。对于$ k' $ 值的选取,k-互近邻方法选择了$ k/2 $ 。然而,排名靠前的$ {g_i} $ 的k-互近邻集合可能包含更多的正样本,即$ i $ 越小,$ k' $ 应该越大;而对于排名靠后的$ {g_i} $ ,$ k' $ 取值应越小。为此,本文阶梯式地选取$ k' $ ,即令$ k' = k - i $ ,使不同排名的$ {g_i} $ 拥有不同数量的k-互近邻扩展样本。得到集合
$ \boldsymbol{\mathit{R}}^*(p,k) $ 后,即可计算杰卡德距离:$$ {d_{\mathrm{J}}}(p,{g_i}) = 1 - \frac{{|{R^ * }(p,k) \cap {R^ * }({g_i},k)|}}{{|{R^ * }(p,k) \cup {R^ * }({g_i},k)|}} $$ 式中
$ | \cdot | $ 表示互近邻样本个数。可以看出,互近邻样本个数越多,杰卡德距离越近,二者相似性越高。k′-互近邻重排序结合初始距离与杰卡德距离来更新相似性排序,有效提高了正样本的排名,进而提高整体的重识别准确率。2. 仿真实验及结果分析
为了验证本文创新工作的有效性和先进性,分别进行2个方面的实验:1)通过消融实验对网络改进前后的结果进行对比分析,以验证3个改进点的有效性;2)将本文提出的改进模型与现有代表性模型进行对比,以验证本文模型的先进性。
2.1 实验环境及参数设置
实验使用64位Ubuntu 18.04操作系统,在深度学习框架PyTorch 1.13.1下完成网络模型搭建,采用NVIDIA GeForce GTX 1080Ti 12GB进行运算加速。模型使用VIT(vision Transformer)[19]网络在ImageNet[27]上的预训练权重,训练批次设置为32,学习率为0.000 1,梯度优化函数选择SGD函数,迭代轮数为150个epoch。
2.2 数据集及评价指标
本文使用换衣行人重识别领域公开通用的数据集LTCC(long-term cloth-changing person re-identification)[8]和PRCC(person Re-ID under moderate clothing change)[28]进行实验。LTCC该数据集由12个摄像头采集得到,包含了478套衣服、152位行人,共有17 138张图片,均标注了行人ID(identification)和衣服ID。该数据集中具有光照、视角和姿态的变化,同时包括衣服和携带物品的变化,甚至还包括发型变化。PRCC数据集由3个摄像头采集得到,包含了221个行人,每人2套衣服,共33 698张图片。该数据集同时考虑了光照、视角、遮挡以及适度换衣的情况。
本文采用行人重识别领域通用的首位命中率(Rank-1)[29]和均值平均精度(mean average precision, mAP)[30]作为模型的评价指标。Rank-1代表行人特征相似性排序中排名第一的样本为正确样本的概率。mAP是所有查询样本的平均精度(average precision, AP)的均值。假设查询样本数为
$ Q $ ,候选集样本数为$ G $ ,则第$ i $ 个查询样本$ {q_i} $ 的平均精度计算公式为$$ {I_{{{\mathrm{AP}}} }}({q_i}) = \frac{1}{G}\sum\limits_{j = 1}^G {\frac{{{p_j}}}{j}} $$ 式中
$ {p_j} $ 表示候选集中前$ j $ 个样本中正确样本的数量。则mAP的计算公式为$$ I_{\mathrm{mAP}}=\frac{1}{Q}\sum\limits_{i=1}^QI_{\mathrm{AP}}(q_i) $$ 2.3 模型有效性验证
为了验证本文改进的有效性,在LTCC数据集上进行了一系列消融实验,如表1所示。
表 1 LTCC数据集上的模型有效性验证Table 1 Verification of model validity in LTCC% 首先,实验结果表明,在模型训练阶段,单独引入短路连接结构、圆损失以及k′-互近邻重排序策略,均使模型性能得到了一定提升,验证了每个改进的有效性。其次,相比于直接引入k-互近邻重排序[25],使用本文改进的k′-互近邻重排序策略可以使模型获得更好的识别效果,进一步验证了该改进的有效性。最后,同时引入全部改进后,模型的准确率达到了最高。表1中,“混合设置”代表查询样本与候选样本的穿着可能相同也可能不同,用于衡量模型在日常场景中的性能表现,在该设置下,本文模型的mAP准确率比基线模型提高了9.59百分点,Rank-1提高了6.49百分点。“换衣设置”则代表查询样本与候选样本的衣服一定不同,用于衡量模型在极端情况下(如抓捕换衣伪装的罪犯)的性能表现,在此设置下,本文模型的mAP准确率比基线模型提高了5.65百分点,Rank-1准确率提高了9.69百分点。2种设置下的性能提升体现了模型在不同场景下的适应能力和鲁棒性,而混合设置下的性能整体高于换衣设置下的性能,表明模型对日常场景具有良好的适应性,也说明完全换衣的极端情况下重识别的难度更高。
为了进一步验证模型的有效性,本文对基线模型和改进模型的重识别效果进行了可视化,结果如图4所示。本文选取了图像库中与查询图像相似性排序在前10名的行人图像,行人图像下方的数字代表行人的身份标签,图像外的边框为红色表示识别错误,为绿色代表识别正确。首先,在基线模型中分别加入本文的3个改进后,相似性排序前10名中包含的正确图像更多,且排序更靠前。其次,相比于直接引入k-互近邻重排序[25],使用本文改进的k′-互近邻重排序策略可以使正确图像的排序进一步提升。最后,同时引入全部改进后,模型的重识别效果最佳,且图4(b)所示的换衣情况下的行人也能够被准确识别,证明了本文模型的有效性。
2.4 模型先进性验证
为了验证本文模型的先进性,将本文模型与现有先进模型CESD(cloth-elimination shape-distillation)[8]、IRANet(identity-relevance aware neural network)[9]、GI-ReID(gait recognition drive the image re-identification)[10]、CAL(clothes-based adversarial loss)[13]、AIM(a causality-based auto-intervention model)[14]、TCiP[17]进行比较,结果如表2、3所示。
表 2 LTCC数据集上的模型先进性验证Table 2 Verification of model advancement in LTCC% 表2给出了在LTCC数据集上的模型先进性验证,由表可知,本文模型的重识别准确率最高,其中混合设置下mAP准确率达到了51.09%,Rank-1准确率达到了80.93%;换衣设置下mAP准确率达到了25.47%,Rank-1准确率达到了47.70%,表明本文模型无论在日常场景还是在完全换衣的极端情况下,均取得了很好的效果,验证了本文模型的先进性。
表3在PRCC数据集上对比了本文模型与现有先进模型的效果,在常规设置即假设行人衣服不变的情况下,所有模型均取得了较好的效果,而在换衣设置下,本文模型取得了当前最优的效果,进一步验证了本文模型的先进性。
3. 结束语
本文提出了一种融合样本关系优化和重排序的换衣行人重识别模型。首先,在特征提取阶段设计了具有短路连接结构的Transformer网络,为网络深层特征提供浅层特征作为参考,提高了模型的特征表达能力;其次,在特征匹配阶段引入了圆损失对不同样本进行不同程度的优化,进而提高了模型的特征匹配能力;最后,在重识别阶段设计了k′-互近邻重排序策略,对样本间相似性排名进行更新,进一步提升了重识别准确率。本文方法解决了现有模型局部特征提取能力有限、样本关系优化不足的问题,在识别准确率上达到目前最优,为换衣行人重识别模型应用到智能监控系统中奠定了良好的基础。未来将进一步探索使用视频序列作为输入的换衣行人重识别模型,在提取图像中外观特征的基础上,提取视频序列中的时序运动信息,进一步提升换衣行人重识别模型的效果。
-
表 1 LTCC数据集上的模型有效性验证
Table 1 Verification of model validity in LTCC
% 表 2 LTCC数据集上的模型先进性验证
Table 2 Verification of model advancement in LTCC
% -
[1] 张鹏, 张晓林, 包永堂, 等. 换装行人重识别研究进展[J]. 中国图象图形学报, 2023, 28(5): 1242−1264. doi: 10.11834/jig.220702 ZHANG Peng, ZHANG Xiaolin, BAO Yongtang, et al. Cloth-changing person re-identification: a summary[J]. Journal of image and graphics, 2023, 28(5): 1242−1264. doi: 10.11834/jig.220702 [2] 宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(6): 770−780. SONG Wanru, ZHAO Qingqing, CHEN Changhong, et al. Survey on pedestrian re-identification research[J]. CAAI transactions on intelligent systems, 2017, 12(6): 770−780. [3] YE Mang, SHEN Jianbing, LIN Gaojie, et al. Deep learning for person re-identification: a survey and outlook[J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(6): 2872−2893. doi: 10.1109/TPAMI.2021.3054775 [4] 钱华明, 王帅帅, 王晨宇. 基于特征融合的行人重识别算法[J]. 应用科技, 2020, 47(2): 29−34,43. doi: 10.11991/yykj.201906013 QIAN Huaming, WANG Shuaishuai, WANG Chenyu. Research on the person re-identification algorithm based on feature fusion[J]. Applied science and technology, 2020, 47(2): 29−34,43. doi: 10.11991/yykj.201906013 [5] 张智, 毕晓君. 基于风格转换的无监督聚类行人重识别[J]. 智能系统学报, 2021, 16(1): 48−56. doi: 10.11992/tis.202012014 ZHANG Zhi, BI Xiaojun. Clustering approach based on style transfer for unsupervised person re-identification[J]. CAAI transactions on intelligent systems, 2021, 16(1): 48−56. doi: 10.11992/tis.202012014 [6] SUN Yifan, ZHENG Liang, YANG Yi, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]//Proceedings of the European conference on computer vision. Munich: Springer, 2018: 480−496. [7] ZHOU Kaiyang, YANG Yongxin, CAVALLARO A, et al. Omni-scale feature learning for person re-identification[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 3701−3711. [8] QIAN Xuelin, WANG Wenxuan, ZHANG Li, et al. Long-term cloth-changing person re-identification[C]// Proceedings of the Asian Conference on Computer Vision. Kyoto: Springer, 2020: 71–88. [9] SHI Wei, LIU Hong, LIU Mengyuan. IRANet: identity-relevance aware representation for cloth-changing person re-identification[J]. Image and vision computing, 2022, 117: 104335. doi: 10.1016/j.imavis.2021.104335 [10] JIN Xin, HE Tianyu, ZHENG Kecheng, et al. Cloth-changing person re-identification from A single image with gait prediction and regularization[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 14258−14267. [11] ZHANG Peng, XU Jingsong, WU Qiang, et al. Learning spatial-temporal representations over walking tracklet for long-term person re-identification in the wild[J]. IEEE transactions on multimedia, 2021, 23: 3562−3576. doi: 10.1109/TMM.2020.3028461 [12] CHEN Jiaxing, JIANG Xinyang, WANG Fudong, et al. Learning 3D shape feature for texture-insensitive person re-identification[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 8142−8151. [13] GU Xinqian, CHANG Hong, MA Bingpeng, et al. Clothes-changing person re-identification with RGB modality only[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 1050−1059. [14] YANG Zhengwei, LIN Meng, ZHONG Xian, et al. Good is bad: causality inspired cloth-debiasing for cloth-changing person re-identification[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 1472−1481. [15] XU Wanlu, LIU Hong, SHI Wei, et al. Adversarial feature disentanglement for long-term person re-identification[C]//International Joint Conference on Artificial Intelligence. Montreal: IJCAI, 2021: 1201−1207. [16] CUI Zhenyu, ZHOU Jiahuan, PENG Yuxin, et al. DCR-ReID: deep component reconstruction for cloth-changing person re-identification[J]. IEEE transactions on circuits and systems for video technology, 2023, 33(8): 4415−4428. [17] WANG Zepeng, JIANG Xinghao, XU Ke, et al. A transformer-based cloth-irrelevant patches feature extracting method for Long-term cloth-changing person re-identification[C]//39th Computer Graphics International Conference. Online: Springer, 2022: 278−289. [18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: ACM, 2017: 6000–6010. [19] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2020–10–22) [2024–04–08]. http://arxiv.org/abs/2010.11929. [20] HE Shuting, LUO Hao, WANG Pichao, et al. TransReID: transformer-based object re-identification[C]//2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 14993−15002. [21] SCHROFF F, KALENICHENKO D, PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 815−823. [22] SUN Yifan, CHENG Changmao, ZHANG Yuhan, et al. Circle loss: a unified perspective of pair similarity optimization[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 6397−6406. [23] LENG Qingming, HU Ruimin, LIANG Chao, et al. Person re-identification with content and context re-ranking[J]. Multimedia tools and applications, 2015, 74(17): 6989−7014. doi: 10.1007/s11042-014-1949-7 [24] SARFRAZ M S, SCHUMANN A, EBERLE A, et al. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 420−429. [25] ZHONG Zhun, ZHENG Liang, CAO Donglin, et al. Re-ranking person re-identification with k-reciprocal encoding[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 3652−3661. [26] SHEN Xiaohui, LIN Zhe, BRANDT J, et al. Object retrieval and localization with spatially-constrained similarity measure and k-NN re-ranking[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. Rhode Island: IEEE, 2012: 3013−3020. [27] DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248−255. [28] YANG Qize, WU Ancong, ZHENG Weishi. Person re-identification by contour sketch under moderate clothing change[J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 43(6): 2029−2046. doi: 10.1109/TPAMI.2019.2960509 [29] WANG Xiaogang, DORETTO G, SEBASTIAN T, et al. Shape and appearance context modeling[C]//2007 IEEE 11th International Conference on Computer Vision. Rio de Janeiro: IEEE, 2007: 1−8. [30] ZHENG Liang, SHEN Liyue, TIAN Lu, et al. Scalable person re-identification: a benchmark[C]//2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1116−1124.