ODE diffusion model for multiclass anomaly detection and localization
-
摘要: 多类异常检测和定位旨在训练一个单一模型,在多类场景下该模型能够识别出偏离正常的异常区域。最近基于扩散模型的方法在该项任务中表现出色而开始受到关注,然而,现有方法侧重于改进扩散模型去噪网络,通过添加更多约束,保持多步生成的高一致性,实现更高的重构性能,但更多的采样步数也意味着更高的计算开销。为此,本文提出了一种基于常微分方程(ordinary differential equations, ODE)扩散模型的多类异常检测和定位方法,只需一步即可实现高质量的重构生成,同时引入时间步感知网络来缓解采样步数少可能导致的一致性和恒等捷径问题,从而进一步提高重构质量。在通用的基准数据集MVTec-AD上进行的实验结果表明,本文方法在精度上可与当前最先进方法相媲美,但是计算量更低速度更快,满足了工业异常检测和定位的高精度和实时性需求。Abstract: Multiclass anomaly detection and localization methods aim to train a single model capable of identifying anomalous regions that deviate from normal across multiple categories. Diffusion-based methods have recently attracted attention due to their excellent performance in this task. However, existing methods concentrate on enhancing the denoising network of the diffusion model by adding more constraints to ensure high consistency in multistep generation and achieve superior reconstruction performance. Additional sampling steps also lead to higher computational costs. We propose a novel multiclass anomaly detection and localization method called TimeNet to address these issues. It is based on the diffusion model of ordinary differential equations and achieves high-quality reconstruction with only one-step generation. We introduce a time-perceptive network to address the consistency and identity shortcut problems that may arise from small sampling steps, which further improves the reconstruction quality. Experiments on the most popular benchmark MVTec-AD dataset demonstrate that our TimeNet competes with the current state-of-the-art methods in terms of accuracy while requiring less computational effort and achieving faster speeds. The high accuracy and real-time performance of TimeNet satisfy the requirements for industrial anomaly detection and localization.
-
视觉异常检测是一项非常重要的任务,旨在通过对视觉数据进行处理和分析,识别出与正常情况不符的异常情况,在工业表面缺陷检测[1-8]、医学诊断[9-10]、视频监控[11-13]等领域有着广泛的应用。目前大多数异常检测方法[14-16]遵循着一类一模型的范式,即为不同类别的图像分别训练单独的模型。然而,随着类别数量的增加,这种范式会大大增加训练成本和存储开销[17]。于是,近年来研究者[17-21]开始逐步探索多类一模型的新范式,也就形成了一个具有挑战性的新任务——多类异常检测和定位。多类异常检测和定位只需要训练一个模型,在多类场景下该模型就能够识别出偏离正常的异常区域,既要检测图像中是否包含异常,又要定位出异常所在区域,还要满足实际应用场景中对高精度和实时性的要求。
由于异常种类繁多,有时甚至未曾预见,具有多样性和复杂性,因此通常使用无监督方法来对正常样本数据在特征空间中的分布进行密度估计,将异常检测视为一种分布外问题。常见的无监督异常检测和定位方法主要分为基于表征和基于重建2大类。基于表征的方法包括基于特征嵌入[16]、基于教师学生模型[22-24]、基于标准化流[15,25-27]等,此类方法假设预训练模型提取的特征表示具有很强的区分性,在特征空间中异常样本和正常样本具有显著的差异。基于重建的方法包括自编码器[14,28]、生成对抗网络[29-30]和扩散模型(denoising diffusion probabilistic models, DDPMs)[20-21,31-33]等,此类方法力求在重建过程中,原有的正常区域尽可能被保留,而可能存在的异常区域被重建或者预测成与之相对应的正常区域。在多类异常检测和定位中,由于基于表征的方法用一个模型直接学习多类的正常样本分布,其边际分布不如单类情形下显著,因此降低了特征表示的区分性。而在基于重建的方法中,扩散模型作为一种新兴的生成模型,在异常检测领域取得了不俗的效果[31]。相比于自编码器、变分自编码器和生成对抗网络,其训练过程更加稳定,不仅能在小型数据集上进行训练,还具备强大的重建能力[34]。
但是,扩散模型受到反向采样速度慢的限制,通常需要数十步乃至数百步采样过程来生成高质量图像。即使通过去噪扩散隐模型(denoising diffusion implicit models, DDIM)[35]等加速采样的手段,目前基于扩散模型的异常检测方法[20-21,31-33]仍然需要10步乃至更多步才能实现高精度的异常检测和定位,需要在检测精度和推理速度之间进行权衡。然而,为了满足工业应用场景中多类异常检测和定位的高精度和实时性的要求,不仅需要在维持高精度的同时加快推理速度,还需要使得模型学好每个类别的边际分布,即在保持高质量生成结果的同时尽可能减少扩散模型的生成步数。
事实上,为了使得扩散模型更好地学习到不同类别的边际分布,可以考虑引入条件控制[36]的思想,将无条件扩散模型变成条件扩散模型,将无条件生成转变成条件下的可控生成。这样的扩散模型就能成为多类异常检测和定位的基础重建模型。据此,本文提出了一种基于重建的多类异常检测和定位方法,使用常微分方程(ordinary differential equations, ODE)扩散模型Rectified Flow[37-38]来实现高质量的一步生成,并将类别信息作为条件去控制生成样本的域,以获得更强的边际分布。在网络结构方面,由2个相似的并行U-Net[39]类网络组成:一个是去噪网络,基于ODE扩散模型Rectified Flow,用于高质量的一步生成;一个是时间步感知网络(timestep-perceptive network, TPN),用于辅助修复异常区域。ODE扩散模型Rectified Flow通过学习神经ODE模型,在2个经验分布之间直接进行传输,仅需一步反向求解,就可以产生高质量的生成结果。时间步感知网络与去噪网络并行,输入扩散后的带噪图像,输出控制去噪网络的时间步感知特征和时间步长,用于控制生成模型朝着一致性的方向生成,从而尽量避免发生恒等捷径的问题。一致性是指保持生成图像与输入图像的正常区域基本一样,并将可能存在的异常区域重建成跟正常区域一样的模式;恒等捷径指正常区域和异常区域都被模型重建成输入图像本身,即模型丧失了重建异常至正常的能力。
本文的主要贡献总结如下:
1)本文提出了一种基于Rectified Flow的多类异常检测和定位方法,可以通过高质量一步生成实现高性能的多类别异常检测和定位。
2)本文设计了与去噪网络并行连接的时间步感知网络,在一步生成过程中引导异常区域恢复为正常区域,同时保持其他正常区域的初始状态。
3)在通用的基准数据集MVTec-AD[1]上进行实验评估,定性和定量结果证明了本文提出的方法在性能上可与目前最优方法相媲美。
1. 相关工作
1.1 多类异常检测和定位
最近几年已有相关工作将目光从最流行的单类转向多类异常检测和定位中来。UniAD[17]首次提出一个统一模型来探索其在多类异常检测和定位中的性能表现,构建了一个基于Transformer的特征重建算法框架,其中包括逐层查询解码器和近邻掩码注意力模块。OmniAL[18]是一种自监督方法,提出了一个统一的卷积神经网络框架,采取参考样本引导的异常合成策略,使用一个自编码器来重建样本区域和图像,还使用一个U-Net类网络来进行分割。HVQ-Trans[19]也是特征重建方法,基于层次化量化原型的Transformer来解决恒等捷径问题。RAN[20]基于扩散模型来去噪和重建,将异常检测任务建模为噪声或异常去除问题,利用扩散模型进行梯度去噪,从异常图像中重构出正常图像,并提供了一种异常检测结果的可解释性分析。DiAD[21]则基于潜在扩散模型的方法,构造了一个语义引导网络来连接潜在扩散模型的去噪网络,以保持一致性的语义信息并重建异常,还提供了一个空间感知特征融合模块集成多尺度特征来进一步提升重建能力。
1.2 扩散模型
扩散模型[34,40-41]由于其强大的生成能力而广泛应用于许多领域,比如文生图、图生图、可控生成、图像编辑、视频生成等。潜在扩散模型(latent diffusion models, LDM)[42]在隐空间中执行扩散过程,该空间维度较低,可以降低计算成本。文生图条件控制扩散模型ControlNet[43]是一种神经网络架构,用于为预训练的潜在扩散模型增加空间条件控制。就异常检测而言,AnoDDPM[31]首次将单纯形噪声引入扩散模型并应用于医学图像异常检测。DiffAD[32]提出了基于潜在扩散模型的框架,包括带有噪声条件嵌入和通道插值算法。DDAD[33]使用条件控制的机制,引导去噪过程朝着目标图像的方向生成,并引入了特征域适应的方法来微调特征提取网络,从而提升检测精度。这些工作,包括上述的RAN[20]和DiAD[21],通常使用DDIM[35]的方法来加速多步的反向采样过程,这会引入一个检测精度和推理时间之间的折衷问题。
与现有基于扩散模型的方法不同的是,本文没有选择常用扩散模型来作为基础重建模型,而是选择更快的ODE扩散模型。近年来在加速扩散模型采样方面,常见的方法有DDIM[35]、高阶求解器[44-45]、Rectified Flow[37-38]、一致性网络[46]和蒸馏法[47]等。其中Rectified Flow可以视作对每一时间步都平等地进行了蒸馏,对于具有复杂性的真实异常来讲,采取的线性扩散过程便于时间步感知网络更具解释性地一步生成,异常与其期望正常之间的变换缺少的变量正是加噪的前向扩散时间步。Rectified Flow[37]引入了一种特殊的Reflow过程,增强了2个经验分布之间的耦合,并将ODE扩散模型的生成过程压缩至一步。Rectified Flow相关研究[37-38]表明,该方法确实能够在小型数据集以及大规模文生图任务中实现高质量的一步生成能力。
因此,本文遵循Rectified Flow的基本流程,根据多类异常检测和定位这个任务的特点专门设计了2点改进:一是将Rectified Flow扩展成类别条件控制下的模型,并同样通过Reflow流程增强其一步生成能力;二是独特设计了时间步感知网络,用于感知异常。
2. 基于ODE扩散模型的多类异常检测和定位算法
本文方法的整体框架如图1所示。在推理阶段,待测图像
X1 经过扩散过程得到加噪图像Xt ,将加噪图像同时输入去噪网络和时间步感知网络,分别得到感知时间步T 和速度场vk|T ,经过一步生成得到重建图像ˆX1|t ,与待测图像进行比较后得到异常分数图M 。其中E 表示编码器,D 表示解码器。2.1 Rectified Flow原理
2.1.1 Rectified Flow
Rectified Flow[37]提供了一种生成式建模的方法,通过学习神经ODE模型可以在2个经验分布
π0∈Rd 和π1∈Rd 之间直接传输。给定2个观测样本X0∼π0 和X1∼π1 ,Rectified Flow引入了一种简单的线性插值:Xt=tX1+(1−t)X0⇒ddtXt=X1−X0 这是有别于在常见扩散模型中使用的非线性插值过程(
Xt=αtX0+βtX1 ),比如DDPM[41]、DDIM[35]、LDM[42]、Flow ODEs[48]等。注意到ddtXt 是对时间步t 独立的,仅代表从X0 指向X1 的线性路径的变化方向(X1−X0) 。因此,Rectified Flow设立了一个速度场v:Rd→Rd ,通过一个ODE模型将从π0 到π1 的轨迹尽可能拉直:ddtZt=v(Zt,t) 这可以通过最小化一个简单的均方差目标函数得到
min (1) 式中
{\boldsymbol{v}} 可以通过神经网络赋以参数化,并且式(1)可以通过现有的优化算法进行最优化求解。2.1.2 快速生成
使用Rectified Flow对
{\boldsymbol{v}} 进行的反向生成过程记为{\text{ODE}}\left[ {\boldsymbol{v}} \right]\left( {{{\boldsymbol{Z}}_t}} \right) = {{\boldsymbol{\hat Z}}_{1|t}}\left( {{{\boldsymbol{Z}}_t},t,{\boldsymbol{v}}} \right) (2) 式中
{\text{ODE}}\left[ {\boldsymbol{v}} \right] 需要通过数值方法进行模拟求解,比如RK45或者Euler法。RK45指的是龙格库塔法,可以根据输入的参数自适应决定步长和求解步数。Euler法则是等步长模拟ODE的反向采样过程:\begin{array}{*{20}{c}} {{{\boldsymbol{Z}}_{t + \tfrac{1}{N}}} = {{\boldsymbol{Z}}_t} + \dfrac{1}{N}{\boldsymbol{v}}\left( {{{\boldsymbol{Z}}_t},t} \right),\forall t \in \dfrac{{\left\{ {0, 1, \cdots ,N - 1} \right\}}}{N}} \end{array} 式中步长为
{1 \mathord{\left/ {\vphantom {1 N}} \right. } N} ,共需要N 步。当步长足够大时,这个求解过程可以简化成一步:\begin{array}{c}{\hat{\boldsymbol{Z}}}_{1|t}\left({{\boldsymbol{Z}}}_{t},t\right)={{\boldsymbol{Z}}}_{t}+\left(1-t\right){\boldsymbol{v}}\left({{\boldsymbol{Z}}}_{t},t\right) \end{array} (3) 因此,拉直ODE轨迹是取得高质量一步生成能力的必要途径。
2.1.3 Reflow
Reflow[37]是一种生成微调的迭代程序,使用k-Rectified Flow
{{\boldsymbol{v}}_k} 生成的配对数据\left( {{{\boldsymbol{X}}_0},{{\boldsymbol{X}}_1}} \right) 进行微调来拉直{{\boldsymbol{v}}_k} 的轨迹,得到{{\boldsymbol{v}}_{k + 1}} 。使得{{\boldsymbol{v}}_{k + 1}} 具有更直的ODE轨迹,并且分别由{{\boldsymbol{v}}_k} 和{{\boldsymbol{v}}_{k + 1}} 生成的{{\boldsymbol{X}}_1} 具有相同的分布。\begin{array}{*{20}{c}} {{{\boldsymbol{v}}_{k + 1}} = \arg \mathop {\min }\limits_{\boldsymbol{v}} \mathop \int \nolimits_0^1 E\left[ {{{\left\| {\left( {{{\boldsymbol{X}}_1} - {{\boldsymbol{X}}_0}} \right) - {\boldsymbol{v}}\left( {{{\boldsymbol{X}}_t},t} \right)} \right\|}^2}} \right]{\text{d}}t} \end{array} 式中:
{{\boldsymbol{X}}_1} = {\text{ODE}}\left[ {{{\boldsymbol{v}}_k}} \right]\left( {{{\boldsymbol{X}}_0}} \right) 是使用{{\boldsymbol{v}}_k} 生成的图像,{{\boldsymbol{X}}_t} = t{{\boldsymbol{X}}_1} + \left( {1 - t} \right){{\boldsymbol{X}}_0} 是前向扩散得到的加噪图像。2.1.4 类别条件控制的Rectified Flow
像其他条件扩散模型[36,43]一样,速度场
{\boldsymbol{v}} 可以增加条件信息来控制生成与之相关的图像。本文选择类别作为一种必要的条件来生成指定类别的正常图像。在类别条件控制下,目标函数变成\begin{array}{*{20}{c}} {\mathop {\min }\limits_{\boldsymbol{v}} \mathop \int \nolimits_0^1 E\left[ {{{\left\| {\left( {{{\boldsymbol{X}}_1} - {{\boldsymbol{X}}_0}} \right) - {\boldsymbol{v}}\left( {{{\boldsymbol{X}}_t},t,c} \right)} \right\|}^2}} \right]{\text{d}}t} \end{array} (4) 式中:
c 指与输入图像{{\boldsymbol{X}}_1} 相一致的类别条件,{{\boldsymbol{X}}_1} = {\text{ODE}}\left[ {{{\boldsymbol{v}}_k}} \right]\left( {{{\boldsymbol{X}}_0}|c} \right) 是使用ODE求解器生成的指定类别为c 的图像,{{\boldsymbol{X}}_t} = t{{\boldsymbol{X}}_1} + \left( {1 - t} \right){{\boldsymbol{X}}_0} 也是前向扩散得到的加噪图像。如算法1所示,本文用
{{\boldsymbol{v}}_0} 表示最开始训练的类别条件控制的Rectified Flow,其参数表示为{\theta _1} 。后续通过Reflow操作微调模型得到{{\boldsymbol{v}}_k} ,其具有高质量一步生成的能力,被用来作为多类异常检测和定位的基础重建模型。算法1 训练类别条件控制的k-Rectified Flow
输入 扩散模型去噪网络
{{\boldsymbol{v}}_0} = {{\boldsymbol{v}}_{\theta _1}} ;正常数据集{D_{\text{N}}} 及其类别标签c 。输出 扩散模型去噪网络
{{\boldsymbol{v}}_a} 。1) for
k \leqslant a (a 是Reflow次数) do2)从
{{\boldsymbol{v}}_{k - 1}} 初始化得到{{\boldsymbol{v}}_k} 3)使用式(2)生成耦合数据对
\left( {{{\boldsymbol{X}}_0},{{\boldsymbol{X}}_1}} \right) ,用于Reflow程序在{{\boldsymbol{v}}_{k - 1}} 上训练{{\boldsymbol{v}}_k} ,其中{{\boldsymbol{X}}_1} 是使用RK45生成的{{\boldsymbol{X}}_1} = {\text{ODE[}}{{\boldsymbol{v}}_{k - 1}}{\text{]}}({{\boldsymbol{X}}_0}{\text{ | }}c) 4)通过优化式(4)来训练
{{\boldsymbol{v}}_k} 5) end for
2.2 时间步感知网络
正如引言中所讨论的,基于重建的异常检测和定位方法需要尽可能提高重建质量,以维持一致性和消除恒等捷径。基于扩散模型的方法[20-21,31-33]的流程首先是将待测图像扩散一定步数得到加噪图像,然后重建该加噪图像至清晰图像,通过比较待测图像与重建图像得到表示异常概率大小的异常分数图。然而,这类方法的实验结果显示出扩散步数对重建质量有着不可忽视的影响。因为生成的图像仅仅是从模型所学习到的正常样本分布中采样得到的。扩散步数越多,生成的图像是正常的,但越有可能跟输入图像不一致,比如可能是另一个角度摆放的正常物体。扩散步数越少,加噪图像越难以完全破坏异常所在区域,导致生成的图像越有可能仍然保留该异常区域的信息。
因此,为了解决上述问题,本文设计了一种时间步感知网络(timestep-perceptive network, TPN)来尽可能维持一致性和缓解恒等捷径的问题。TPN是专为多类异常检测与定位设计的模块,灵敏感知异常区域与其期望正常区域之间的差值。本文受到ControlNet[43]的一定启发,TPN具备和Rectified Flow[37]中使用的去噪网络相似的U-Net[39]结构。其输入与去噪网络一样,是扩散后的加噪图像。但不同的是,TPN输入没有扩散时间步
t ,去掉了相关网络层。输出则包括2个部分:一个是输出感知到的扩散时间步{\boldsymbol{T}} (与输入图像尺寸一致),从而代替式(3)中的t 进行生成;另一个部分是输出时间步感知特征跨连接到扩散模型去噪网络对应的尺度中,以达到控制去噪网络输出的目的。预训练好的扩散模型去噪网络参数被冻结,从时间步感知网络中传过来的时间步感知特征需经过一个特征自适应模块,如图1中金色箭头所示。该模块是扩散模型使用的U-Net去噪网络中一个常见的网络模块,由GroupNorm、SiLU和Conv依次连接而得,用于对时间步感知特征进行自适应的跨通道信息交互和平滑。其中,GroupNorm指组归一化(group normalization),它将特征通道数分为若干组,并对每组内的特征进行归一化处理;SiLU(sigmoid linear unit)是一种神经网络的激活函数,由Sigmoid函数乘以其输入计算可得;Conv指1 \times 1 的卷积层。最后,使用自适应平均池化来对齐2个并行网络的特征分辨率,以传输时间步感知特征。于是,最终的一步生成方式为{{\hat {\boldsymbol{ X}}}_{1|t}}\left( {{{\boldsymbol{X}}_t},t,c} \right) = {{\boldsymbol{X}}_t} + \left( {1 - {\boldsymbol{T}}} \right){{\boldsymbol{v}}_{k|{\boldsymbol{T}}}}\left( {{{\boldsymbol{X}}_t},t,c} \right) 式中:
{\boldsymbol{T}} = {\boldsymbol{T}}\left( {{X_t},c} \right) 代表时间步感知网络TPN,{{\boldsymbol{v}}_{k|{\boldsymbol{T}}}}\left( {{{\boldsymbol{X}}_t},t,c} \right) 是TPN用来控制输出的预训练扩散模型去噪网络。为了有效训练时间步感知网络,本文使用与其他自监督重建方法[10,18,32]相同的异常合成策略,其人造异常是通过将正常图像和从DTD[49]数据集中随机抽取的纹理图像组合得到的。训练时间步感知网络时使用到的重建损失函数是像素级均方误差(mean squared error,MSE)损失和特征级图像块相似度感知(learned perceptual image patch similarity,LPIPS)损失[50]之和,其中LPIPS是一种深度特征度量图像相似度的方法,它通过深度学习模型来评估2个图像之间的感知差异。训练流程如算法2所示,前后训练好的ODE扩散模型和时间感知网络组成了本文提出的模型框架。
算法2 基于k-Rectified Flow训练TPN
输入 扩散模型去噪网络
{{\boldsymbol{v}}_k} ;时间步感知网络{\boldsymbol{T}} = {{\boldsymbol{T}}_{{{\theta }_1}}}({{\boldsymbol{X}}_t},c) ;正常数据集{D_{\text{N}}} 及其类别标签c 。输出 训练好的时间步感知网络
{\boldsymbol{T}} 。1)初始化
{\boldsymbol{T}} ;2)使用正常数据集
{D_{\text{N}}} 和纹理图像数据集DTD来合成人造异常样本{{\boldsymbol{X}}_a} ;3)训练
{\boldsymbol{T}} ,损失函数为MSE和LPIPS之和。2.3 异常检测和定位
在推理评估阶段,对于基于重建的方法来说,通过同时在像素级和特征级计算输入图像和重建图像的相似度来得到异常分数图是至关重要的。异常分数图中每个像素的值代表该像素的异常概率,值越大,代表异常可能性越高。为了综合得到异常分数图,本文采用一种加权策略[33],在欧氏距离和余弦相似度之间平衡各自的重要性:
\begin{array}{*{20}{c}} {F\left( {{d_1},{d_2},w} \right) = \left( {w\dfrac{{\max {d_2}}}{{\max {d_1}}}} \right){d_1} + {d_2}} \end{array} (5) 式中:
{d_1} 和{d_2} 分别代表计算得到的欧氏距离和余弦相似度,w 是用来控制标准化后的{d_1} 重要性的加权系数。标准化后的{d_1} 与{d_2} 具有相同的上界。本文将式(5)应用于从预训练网络提取的多尺度特征并求和得到特征级异常分数图
\boldsymbol{S}_{\mathrm{f}}= \displaystyle\sum_i^{ }\limits\sigma_iF\left(d_{1,i},d_{2,i},w_i\right) ,其中{\sigma _i} 指上采样至图像尺寸。相似地,结合像素级异常分数图\boldsymbol{S}_{\mathrm{p}}= \left\| \boldsymbol{X}_1-\hat{\boldsymbol{X}}_{1|t} \right\| _2^2 ,用\begin{array}{*{20}{c}} \lambda \end{array} 控制\boldsymbol{S}_{\mathrm{p}} 的重要性,得到最终的异常分数图:\begin{array}{*{20}{c}} {{\boldsymbol{S}} = F\left( {{{\boldsymbol{S}}_{\mathrm{p}}},{{\boldsymbol{S}}_{\mathrm{f}}},\lambda } \right)} \end{array} 3. 实验结果与分析
3.1 数据集、评价指标和实现细节
3.1.1 MVTec-AD数据集
MVTec-AD[1]数据集来自真实世界工业异常检测场景,包含10种物体类和5种纹理类图像共计 5 354张图像,其中共有73种异常类型,包括划痕、凹陷、污点和其他结构性缺陷等。
3.1.2 评价指标
异常检测和定位需要分别判断整个图像包含异常的概率和每个像素属于异常区域的概率,可视作判断正常和异常的二分类问题。因此,常使用二分类问题的评价指标——受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUROC),即计算受试者工作特性(receiver operating characteristic, ROC)曲线下的面积。ROC曲线的横轴是假正例率(false positive rate, FPR),纵轴是真正例率(true positive rate, TPR)。两者分别定义为
\begin{gathered} {T_{{\text{PR}}}} = {{{N_{{\mathrm{TP}}}}} \mathord{\left/ {\vphantom {{{N_{{\mathrm{TP}}}}} {\left( {{N_{{\mathrm{TP}}}} + {N_{{\text{FN}}}}} \right)}}} \right. } {\left( {{N_{{\mathrm{TP}}}} + {N_{{\text{FN}}}}} \right)}} \\ {F_{{\text{PR}}}} = {{{N_{{\text{FP}}}}} \mathord{\left/ {\vphantom {{{N_{{\text{FP}}}}} {\left( {{N_{{\text{TN}}}} + {N_{{\text{FP}}}}} \right)}}} \right. } {\left( {{N_{{\text{TN}}}} + {N_{{\text{FP}}}}} \right)}} \\ \end{gathered} (6) 式中:
N_{\text{TP}} 是真正例的数量,N_{\text{FP}} 是假正例的数量,N_{\text{TN}} 是真反例的数量,N_{\text{FN}} 是假反例的数量。在异常检测中往往将异常样本设置成正样本,正常样本设置成负样本。根据模型预测得到的异常概率值,将待测样本进行排序。选取这个排序中间的某个值作为截断点将待测样本分为2部分,高于截断点的判为正例,反之判为反例。于是
N_{\mathrm{TP}} 就是判作正例中实际为正样本的数量,其余同理。选取不同的截断点,使用式(6)计算得到一系列的{\text{TPR}} 和{\text{FPR}} ,从而绘制出一条{\text{TPR-FPR}} 曲线,即ROC曲线。本文采取AUROC分别作为图像级异常检测和像素级异常定位的评价指标,分别记为I-AUROC和P-AUROC。然而,P-AUROC对每个像素平等看待,在计算时侧重于大的异常区域。因此,本文还对比了异常定位的PRO(per-region overlap)[1]指标,它平衡了不同大小的异常区域的重要性,相比P-AUROC更加准确。PRO对图像中每个真值异常掩码连通域(即异常区域)内的异常像素单独考虑,其表达式为
{I_{{\text{PRO}}}} = \dfrac{1}{N}\sum\limits_i {\sum\limits_k {\dfrac{{\left| {{P_i} \cap {C_{i,k}}} \right|}}{{\left| {{C_{i,k}}} \right|}}} } 式中:
N 是测试集所有真值异常掩码连通域的数量,{P_i} 是第i 张待测图像的异常分数图,{C_{i,k}} 是第i 张待测图像对应的真值异常掩码的第k 个连通域。3.1.3 实现细节
在MVTec-AD数据集中的所有图像均被放缩尺寸至256像素
\times 256像素,且没有使用任何图像 增强手段。对于训练类别条件控制的Rectified Flow,本文使用跟常见扩散模型一样的U-Net网络作为去噪网络。但与默认设定不一样的是,本文将参数量减少至30×106,其中基础通道数为64,通道数乘积分别为1、1、2、2、4、4,注意力模块涉及到的分辨率分别为8和16,训练过程没有使用指数滑动平均(exponential moving average, EMA)。如算法1和算法2所示,本文选择经过一次Reflow后得到的模型作为基础重建模型,然后开始训练时间步感知网络,最终得到用于多类异常检测和定位的全部模型。在推理评估阶段,初始扩散时间步默认为0.83,异常分数图中所有加权系数默认为7,并最终通过核为4的高斯滤波得到更为平滑的异常分数图。就异常检测而言,对异常分数图应用8轮全局平均池化再取最大值作为图像级异常分数。3.2 定性结果
本文通过一些定性结果来证明本文方法的优异效果。为了尽可能直观地展现模型重建能力,本文对比了同样的基于重建的方法,包括非扩散模型的DRAEM[14]和基于扩散模型的DiAD[21]方法。图2~4给出了本文方法跟这些基于重建的方法的可视化效果对比,其中“MVTec-AD” 2列分别指待测图像和真值异常掩码,其余代表不同的重建方法,每种方法的2列分别指重建图像和对应的异常分数图。
结果显示:DRAEM的重建效果相对比较模糊,在纹理类图像(如图4第3行皮革)上模糊效果尤为明显;此外存在恒等捷径的问题,模型直接重建缺陷本身,比如图2第2行电缆左下方保护层颜色未得到重建,第3行胶囊缺陷处未被修复,第4行榛子破损的外壳未得到复原。DiAD的10步重建质量比DRAEM高,缓解了部分恒等捷径问题,比如图3第2行的电缆左下方保护层能够由青绿色重建回正常的蓝色;但存在一致性问题,生成的图像与输入图像不匹配,比如图2第4行榛子重建后出现2个毛状顶部,且表面纹理细节发生损坏,第2行的电缆,重建后保护层的形状发生了变化,图4第4、5行的纹理类图像重建后正常区域的纹理细节发生了随机的变化。相比较而言,本文方法仅用1步就能生成高质量重建图像,生成的一致性较高,还有效缓解了恒等捷径问题,比如图2第4行榛子表面破损被修复,而其余正常区域几乎维持一致;并且对异常区域感知的界限更加清晰,比如图4纹理类图像重建图像比较清晰,除了异常区域被修复外其余正常区域的细小纹理细节也尽可能维持一致。从各类方法的主观结果对比来看,本文方法总体效果更好。
图5给出了不同前向扩散时间步下不同模型的重建结果。第1行是指对输入图像加噪不同前向扩散时间步的结果,随着前向扩散时间步的增大,给输入图像添加的噪声相应减少,导致正常的语义信息保留得较多,而异常区域却破坏得较少。第2~4行分别指Rectified Flow、1-Rectified Flow、本文方法进行一步重建的结果。可以发现,Rectified Flow和1-Rectified Flow均不能有效地重建异常,将其恢复成正常模样。当噪声水平较高时,这种纯粹的扩散模型方法倾向于生成正常样本但不一定跟输入图像保持一致。但是,本文提出的方法具备更优异的重建能力,能有效缓解上述问题。
在实际应用中,往往需要将异常分数图进一步进行阈值分割,将检测出来的异常区域可视化展示出来。图6便进一步提供了异常定位的可视化效果图,红色边界表示使用本文方法并以F1分数产生的阈值进行异常定位的轮廓。该阈值是由系列查准率和查全率计算得到的最大F1分数对应的阈值。
结果显示,本文方法能够精确地检测并定位到不同样本中的异常,包括不同类别、形状和大小的异常。
3.3 定量结果
本文开展了一系列定量实验,在MVTec-AD数据集上对比了大量先进方法,从而验证本文方法在多类异常检测和定位上的客观性能。参与对比的方法中,DRAEM[14]和PatchCore[16]是单类异常检测和定位中的先进方法,其余是多类异常检测和定位中的最先进方法,其中UniAD[17]、OmniAL[18]和HVQ-Trans[19]是非扩散模型法,RAN[20]和DiAD[21]是基于扩散模型的方法。
表1给出了图像级异常检测和像素级异常定位的评价指标结果(括号里分别是I-AUROC和P-AUROC)。粗体为最优结果、下划线为次优结果(下同),“本文方法”指在同一参数下的实验结果,“本文方法*”指每一类分别调参后的实验结果。整体而言,当对所有类别使用相同的参数设置来进行推理测试时,本文方法取得次优的结果。当针对每一类单独调整参数时,本文方法能够在异常检测上取得最优结果,在异常定位上非常逼近最优结果。其中本文方法在物体类图像取得或接近次优结果,在纹理类图像均取得最优结果。注意到,本文方法仅使用1步生成就能打败其他同类型使用DDIM 10步生成的基于扩散模型的方法。此外,本文方法的模型参数量是60×106,同类型DiAD参数量多达1.4×109。本文方法具备模型轻量、检测快、精度高的优点。
表 1 在MVTec-AD数据集上与SOTA方法相比的异常检测和定位实验结果Table 1 Comparison with SOTA methods on the MVTec-AD dataset in multi-class anomaly detection and localization% 类别 DRAEM[14] PatchCore[16] UniAD[17] OmniAL[18] HVQ-Trans[19] DiAD[21] 本文方法 本文方法* 物体类 Bottle (97.5,87.6) (100.0,97.4) (99.7,98.1) (100.0,99.2) (100.0,98.3) (99.7,98.4) (100.0,98.8) (100.0,98.9) Cable (57.8,71.3) (95.3,93.6) (95.2,97.3) (98.2,97.3) (99.0,98.1) (94.8,96.8) (91.8,97.4) (92.6,97.4) Capsule (65.3,50.5) (96.8,98.0) (86.9,98.5) (95.2,96.9) (95.4,98.8) (89.0,97.1) (91.6,96.7) (93.7,97.3) Hazelnut (93.7,96.9) (99.3,97.6) (99.8,98.1) (98.7,99.4) (100.0,98.8) (99.5,98.3) (98.8,98.6) (98.8,98.8) Metal Nut (72.8,62.2) (99.1,96.3) (99.2,94.8) (99.9,99.4) (99.9,96.3) (99.1,97.3) (99.1,96.6) (99.7,96.6) Pill (82.2,94.4) (86.4,90.8) (93.7,95.0) (95.6,98.4) (95.8,97.1) (95.7,95.7) (96.2,97.5) (97.4,97.7) Screw (92.0,95.5) (94.2,98.9) (87.5,98.3) (99.0,99.3) (95.6,98.9) (90.7,97.9) (90.9,99.2) (94.1,99.5) Toothbrush (90.6,97.7) (100.0,98.8) (94.2,98.4) (99.2,99.1) (93.6,98.6) (99.7,99.0) (100.0,99.2) (100.0,99.2) Transistor (74.8,64.5) (98.9,92.3) (99.8,97.9) (97.2,98.9) (99.7,97.9) (99.8,95.1) (99.0,94.0) (100.0,94.2) Zipper (98.8,98.3) (97.1,95.7) (95.8,96.8) (88.0,98.0) (97.9,97.5) (95.1,96.2) (99.0,98.3) (99.0,98.5) 平均值 (82.6,81.9) (96.7,95.9) (95.2,97.3) (97.1,98.6) (97.7,98.0) (96.3,97.2) (96.6,97.6) (97.5,97.8) 纹理类 Carpet (98.0,98.6) (97.0,98.1) (99.8,98.5) (99.6,99.0) (99.9,98.7) (99.4,98.6) (97.9,99.2) (97.9,99.4) Grid (99.3,98.7) (91.4,98.4) (98.2,96.5) (100.0,99.4) (97.0,97.0) (98.5,96.6) (100.0,99.4) (100.0,99.4) Leather (98.7,97.3) (100.0,99.2) (100.0,98.8) (93.8,93.3) (100.0,98.8) (99.8,98.8) (99.9,99.3) (100.0,99.5) Tile (99.8,98.0) (96.0,90.3) (99.3,91.8) (93.2,97.4) (99.2,92.2) (96.8,92.4) (99.9,97.9) (100.0,98.0) Wood (99.8,96.0) (93.8,90.8) (98.6,93.2) (100.0,99.5) (97.2,92.4) (99.7,93.3) (98.6,96.5) (99.1,97.5) 平均值 (99.1,97.7) (95.6,95.4) (99.2,95.8) (97.3,97.7) (98.7,95.8) (98.8,95.9) (99.3,98.5) (99.4,98.8) 平均值 (88.1,87.2) (96.4,95.7) (96.5,96.8) (97.2,98.3) (98.0,97.3) (97.2,96.8) (97.5,97.9) (98.2,98.1) 表2则给出了针对异常定位更准确的PRO评价指标下的实验结果,本文方法取得了最优的结果,说明本文方法对异常区域定位得更加准确。
3.4 消融实验
本小节设置了一系列消融实验来验证本文方法模块和参数等的有效性。
3.4.1 时间步感知网络的影响
如表3所示,本文验证了时间步感知网络的重要性,其中初始扩散时间步均设为0.80。数字1、3、5、10指在反向采样过程中使用的采样步数。结果显示出3点现象:1)只需一步采样就能达到比多步采样更高的结果。不同采样步数的Rectified Flow结果相近,但随着采样步数的增多,评价指标反而轻微下降。每一次采样会重新推理一次模型,当采样步数增加时,模型推理堆积的误差会随之增大,导致图像重建的一致性降低,因此评价指标略微下降。2)相同采样步数下1-Rectified Flow比Rectified Flow的评价指标高,这是由于 Rectified Flow经过一次Reflow流程后,拉直了ODE扩散模型的轨迹,从而提升了模型的一步生成能力。3)基于1-Rectified Flow增加时间步感知网络,显著提升了各项指标,其中I-AUROC提升了5.6%,P-AUROC提升了2.3%,PRO提升了6.5%。定量实验结果表明,Rectified Flow作为ODE扩散模型,其一步生成和多步生成的效果相近,与预期结果基本一致。本文方法提出的时间步感知模块显著地提升了异常检测和定位的性能。
表 3 时间步感知网络的消融实验Table 3 Ablation studies on TPN% 评价指标 Rectified Flow 1-Rectified Flow 本文方法 1 3 5 10 1 3 5 10 1 I-AUROC 90.0 89.4 89.4 88.6 92.2 92.1 92.0 91.9 97.4 P-AUROC 94.6 95.1 95.1 95.3 95.7 95.7 95.7 95.7 97.9 PRO 86.4 86.3 86.3 85.9 88.1 88.1 88.1 88.0 93.8 3.4.2 预训练特征提取器的影响
如表4所示,使用不同预训练特征提取器,异常分数图取得的结果不同。ResNet类[51-52]预训练模型相对VGG类[53]和EfficientNet类[54]取得更好结果。因此,在其他实验中,本文选择效果最好的WideResNet101作为默认特征提取器。
表 4 不同预训练特征提取器的消融实验Table 4 Ablation studies on different feature extractors% 3.4.3 多尺度特征层的影响
本文在预训练模型WideResNet101下使用不同尺度特征层来计算异常分数图。如表5所示,最高层特征f5影响非常小,说明其对表面异常的区分度信息较少;最低层特征f1会导致指标下滑,这可能是因为分辨率128像素
\times 128像素的特征含有冗余信息,干扰了距离度量。取得最佳效果的是特征层f2、f3、f4多尺度结合起来,其对应的特征分辨率分别是64 \times 64 、32 \times 32 、16 \times 16 。表 5 多尺度特征层的消融实验Table 5 Ablation studies on multi-scale feature layers% f1 f2 f3 f4 f5 I-AUROC P-AUROC PRO √ √ √ √ √ 97.0 97.0 92.7 √ √ √ √ 97.0 97.0 93.7 √ √ √ √ 97.5 97.9 93.9 √ √ √ 97.5 97.9 93.9 √ √ 97.0 97.0 92.7 √ √ 97.2 97.9 93.7 3.4.4 前向扩散时间步的影响
初始前向扩散时间步影响着给输入图像加噪的水平。定量结果如图7所示,横轴是前向扩散时间步,是[0,1]区间内的无量纲量,越小代表噪声水平越高,纵轴是不同评价指标(I-AUROC、P-AUROC和PRO)。随着前向扩散时间步逐步增大,各项评价指标呈现先上升后下降的趋势,最优结果位于80%~85%。
图5中定性结果也可视化地给出了该趋势。前向扩散时间步越大,加噪越少,正常语义信息保留得越多,异常区域被破坏的程度越小,导致发生模型恒等捷径问题。反之前向扩散时间步越小,加噪越多,尽管异常区域被破坏的程度变大,但正常语义信息保留变少,导致降低了图像重建一致性。因此选择适当的初始前向扩散时间步有助于取得最优结果。
4. 结束语
本文提出了一种ODE扩散模型方法,用于多类异常检测和定位。基于ODE扩散模型Rectified Flow,本文设计了一种专门用于异常检测和定位的时间步感知网络,目的是通过感知时间步控制扩散模型去噪网络的中间时间步嵌入特征,从而取得高质量的一步生成结果,在维持一致性和缓解恒等捷径方面获得优异效果。在通用的工业异常检测数据集MVTec-AD上开展的一系列实验证明了本文方法具备与目前最优方法相媲美甚至更好的性能,尤其是显著优于同类型基于扩散模型的方法,不仅更快而且更好。随着研究的不断深入,未来可在本文方法基础上探索持续学习方法,以面对实际应用中出现新的图像类别和新的异常模式的场景。
-
表 1 在MVTec-AD数据集上与SOTA方法相比的异常检测和定位实验结果
Table 1 Comparison with SOTA methods on the MVTec-AD dataset in multi-class anomaly detection and localization
% 类别 DRAEM[14] PatchCore[16] UniAD[17] OmniAL[18] HVQ-Trans[19] DiAD[21] 本文方法 本文方法* 物体类 Bottle (97.5,87.6) (100.0,97.4) (99.7,98.1) (100.0,99.2) (100.0,98.3) (99.7,98.4) (100.0,98.8) (100.0,98.9) Cable (57.8,71.3) (95.3,93.6) (95.2,97.3) (98.2,97.3) (99.0,98.1) (94.8,96.8) (91.8,97.4) (92.6,97.4) Capsule (65.3,50.5) (96.8,98.0) (86.9,98.5) (95.2,96.9) (95.4,98.8) (89.0,97.1) (91.6,96.7) (93.7,97.3) Hazelnut (93.7,96.9) (99.3,97.6) (99.8,98.1) (98.7,99.4) (100.0,98.8) (99.5,98.3) (98.8,98.6) (98.8,98.8) Metal Nut (72.8,62.2) (99.1,96.3) (99.2,94.8) (99.9,99.4) (99.9,96.3) (99.1,97.3) (99.1,96.6) (99.7,96.6) Pill (82.2,94.4) (86.4,90.8) (93.7,95.0) (95.6,98.4) (95.8,97.1) (95.7,95.7) (96.2,97.5) (97.4,97.7) Screw (92.0,95.5) (94.2,98.9) (87.5,98.3) (99.0,99.3) (95.6,98.9) (90.7,97.9) (90.9,99.2) (94.1,99.5) Toothbrush (90.6,97.7) (100.0,98.8) (94.2,98.4) (99.2,99.1) (93.6,98.6) (99.7,99.0) (100.0,99.2) (100.0,99.2) Transistor (74.8,64.5) (98.9,92.3) (99.8,97.9) (97.2,98.9) (99.7,97.9) (99.8,95.1) (99.0,94.0) (100.0,94.2) Zipper (98.8,98.3) (97.1,95.7) (95.8,96.8) (88.0,98.0) (97.9,97.5) (95.1,96.2) (99.0,98.3) (99.0,98.5) 平均值 (82.6,81.9) (96.7,95.9) (95.2,97.3) (97.1,98.6) (97.7,98.0) (96.3,97.2) (96.6,97.6) (97.5,97.8) 纹理类 Carpet (98.0,98.6) (97.0,98.1) (99.8,98.5) (99.6,99.0) (99.9,98.7) (99.4,98.6) (97.9,99.2) (97.9,99.4) Grid (99.3,98.7) (91.4,98.4) (98.2,96.5) (100.0,99.4) (97.0,97.0) (98.5,96.6) (100.0,99.4) (100.0,99.4) Leather (98.7,97.3) (100.0,99.2) (100.0,98.8) (93.8,93.3) (100.0,98.8) (99.8,98.8) (99.9,99.3) (100.0,99.5) Tile (99.8,98.0) (96.0,90.3) (99.3,91.8) (93.2,97.4) (99.2,92.2) (96.8,92.4) (99.9,97.9) (100.0,98.0) Wood (99.8,96.0) (93.8,90.8) (98.6,93.2) (100.0,99.5) (97.2,92.4) (99.7,93.3) (98.6,96.5) (99.1,97.5) 平均值 (99.1,97.7) (95.6,95.4) (99.2,95.8) (97.3,97.7) (98.7,95.8) (98.8,95.9) (99.3,98.5) (99.4,98.8) 平均值 (88.1,87.2) (96.4,95.7) (96.5,96.8) (97.2,98.3) (98.0,97.3) (97.2,96.8) (97.5,97.9) (98.2,98.1) 表 2 PRO评价指标的实验结果
Table 2 PRO metric on MVTec-AD
% 表 3 时间步感知网络的消融实验
Table 3 Ablation studies on TPN
% 评价指标 Rectified Flow 1-Rectified Flow 本文方法 1 3 5 10 1 3 5 10 1 I-AUROC 90.0 89.4 89.4 88.6 92.2 92.1 92.0 91.9 97.4 P-AUROC 94.6 95.1 95.1 95.3 95.7 95.7 95.7 95.7 97.9 PRO 86.4 86.3 86.3 85.9 88.1 88.1 88.1 88.0 93.8 表 4 不同预训练特征提取器的消融实验
Table 4 Ablation studies on different feature extractors
% 表 5 多尺度特征层的消融实验
Table 5 Ablation studies on multi-scale feature layers
% f1 f2 f3 f4 f5 I-AUROC P-AUROC PRO √ √ √ √ √ 97.0 97.0 92.7 √ √ √ √ 97.0 97.0 93.7 √ √ √ √ 97.5 97.9 93.9 √ √ √ 97.5 97.9 93.9 √ √ 97.0 97.0 92.7 √ √ 97.2 97.9 93.7 -
[1] BERGMANN P, FAUSER M, SATTLEGGER D, et al. MVTec AD—a comprehensive real-world dataset for unsupervised anomaly detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 9584−9592. [2] 吕承侃, 沈飞, 张正涛, 等. 图像异常检测研究现状综述[J]. 自动化学报, 2022, 48(6): 1402−1428. LYU Chengkan, SHEN Fei, ZHANG Zhengtao, et al. Review of image anomaly detection[J]. Acta automatica sinica, 2022, 48(6): 1402−1428. [3] 陶显, 侯伟, 徐德. 基于深度学习的表面缺陷检测方法综述[J]. 自动化学报, 2021, 47(5): 1017−1034. TAO Xian, HOU Wei, XU De. A survey of surface defect detection methods based on deep learning[J]. Acta automatica sinica, 2021, 47(5): 1017−1034. [4] 伍麟, 郝鸿宇, 宋友. 基于计算机视觉的工业金属表面缺陷检测综述[J]. 自动化学报, 2024, 50(7): 1261−1283. WU Lin, HAO Hongyu, SONG You. A review of metal surface defect detection based on computer vision[J]. Acta automatica sinica, 2024, 50(7): 1261−1283. [5] 黄健, 郑春厚, 章军, 等. 基于小样本度量迁移学习的表面缺陷检测[J]. 模式识别与人工智能, 2021, 34(5): 407−414. HUANG Jian, ZHENG Chunhou, ZHANG Jun, et al. Few-shot metric transfer learning network for surface defect detection[J]. Pattern recognition and artificial intelligence, 2021, 34(5): 407−414. [6] 邢鹏, 蒋鑫, 潘永华, 等. 基于特征约束蒸馏学习的视觉异常检测[J]. 软件学报, 2023, 34(9): 4378−4391. XING Peng, JIANG Xin, PAN Yonghua, et al. Feature constrained restricted distillation learning for visual anomaly detection[J]. Journal of software, 2023, 34(9): 4378−4391. [7] 王延春秋, 葛泉波, 刘华平. 石板材表面缺陷检测的无监督学习方法[J]. 智能系统学报, 2023, 18(6): 1344−1351. doi: 10.11992/tis.202212006 WANG Yanchunqiu, GE Quanbo, LIU Huaping. Unsupervised learning method for surface defect detection of slate materials[J]. CAAI transactions on intelligent systems, 2023, 18(6): 1344−1351. doi: 10.11992/tis.202212006 [8] 孙博言, 王洪元, 刘乾, 等. 基于多尺度和注意力机制的混合监督金属表面缺陷检测[J]. 智能系统学报, 2023, 18(4): 886−893. doi: 10.11992/tis.202205042 SUN Boyan, WANG Hongyuan, LIU Qian, et al. Hybrid supervised metal surface defect detection based on multi-scale and attention[J]. CAAI transactions on intelligent systems, 2023, 18(4): 886−893. doi: 10.11992/tis.202205042 [9] FERNANDO T, GAMMULLE H, DENMAN S, et al. Deep learning for medical anomaly detection—a survey[J]. ACM computing surveys, 2022, 54(7): 1−37. [10] 胡显耀, 靳聪明. 基于扩散常微分方程的医学图像异常检测[J]. 浙江理工大学学报(自然科学版), 2024, 49(6): 851−860. HU Xianyao, JIN Congming. Medical image anomaly detection based on diffusion ordinary differential equations[J]. Journal of Zhejiang Sci-Tech University (natural sciences edition), 2024, 49(6): 851−860. [11] NAYAK R, PATI U C, DAS S K. A comprehensive review on deep learning-based methods for video anomaly detection[J]. Image and vision computing, 2021, 106: 104078. doi: 10.1016/j.imavis.2020.104078 [12] 胡正平, 赵梦瑶, 辛丙一. 结合全局与局部视频表示的视频异常检测算法[J]. 模式识别与人工智能, 2020, 33(2): 133−140. HU Zhengping, ZHAO Mengyao, XIN Bingyi. Video anomaly detection algorithm combining global and local video representation[J]. Pattern recognition and artificial intelligence, 2020, 33(2): 133−140. [13] 黄超, 胡志军, 徐勇, 等. 基于视觉的车辆异常行为检测综述[J]. 模式识别与人工智能, 2020, 33(3): 234−248. HUANG Chao, HU Zhijun, XU Yong, et al. Vision-based abnormal vehicle behavior detection: a survey[J]. Pattern recognition and artificial intelligence, 2020, 33(3): 234−248. [14] ZAVRTANIK V, KRISTAN M, SKOČAJ D. DRÆM–A discriminatively trained reconstruction embedding for surface anomaly detection[C]//2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 8310−8319. [15] GUDOVSKIY D, ISHIZAKA S, KOZUKA K. CFLOW-AD: real-time unsupervised anomaly detection with localization via conditional normalizing flows[C]//2022 IEEE/CVF Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2022: 1819−1828. [16] ROTH K, PEMULA L, ZEPEDA J, et al. Towards total recall in industrial anomaly detection[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 14298−14308. [17] YOU Zhiyuan, CUI Lei, SHEN Yujun, et al. A unified model for multi-class anomaly detection[C]//Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans: Curran Associates Inc., 2022: 4571−4584. [18] ZHAO Ying. OmniAL: a unified CNN framework for unsupervised anomaly localization[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 3924−3933. [19] LU Ruiying, WU Yujie, TIAN Long, et al. Hierarchical vector quantized transformer for multi-class unsupervised anomaly detection[C]//Proceedings of the 37th International Conference on Neural Information Processing Systems. New Orleans: Curran Associates Inc., 2023: 8487−8500. [20] LU Fanbin, YAO Xufeng, FU C W, et al. Removing anomalies as noises for industrial defect localization[C]//2023 IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 16120−16129. [21] HE Haoyang, ZHANG Jiangning, CHEN Hongxu, et al. DiAD: a diffusion-based framework for multi-class anomaly detection[EB/OL]. (2023−12−11)[2024−02−22]. https://arxiv.org/abs/2312.06607. [22] WANG Guodong, HAN Shumin, DING Errui, et al. Student-teacher feature pyramid matching for anomaly detection[EB/OL]. (2021−03−07)[2024−02−22]. https://arxiv.org/abs/2103.04257. [23] DENG Hanqiu, LI Xingyu. Anomaly detection via reverse distillation from one-class embedding[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 9727−9736. [24] TIEN T D, NGUYEN A T, TRAN N H, et al. Revisiting reverse distillation for anomaly detection[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 24511−24520. [25] RUDOLPH M, WANDT B, ROSENHAHN B. Same same but DifferNet: semi-supervised defect detection with normalizing flows[C]//2021 IEEE Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2021: 1906−1915. [26] LEI Jiarui, HU Xiaobo, WANG Yue, et al. PyramidFlow: high-resolution defect contrastive localization using pyramid normalizing flow[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023: 14143−14152. [27] 毛国君, 吴星臻, 邢树礼. 基于多尺度流模型的视觉异常检测研究[J]. 自动化学报, 2024, 50(3): 640−648. MAO Guojun, WU Xingzhen, XING Shuli. Research on visual anomaly detection based on multi-scale normalizing flow[J]. Acta automatica sinica, 2024, 50(3): 640−648. [28] GONG Dong, LIU Lingqiao, LE V, et al. Memorizing normality to detect anomaly: memory-augmented deep autoencoder for unsupervised anomaly detection[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul: IEEE, 2019: 1705−1714. [29] AKCAY S, ATAPOUR-ABARGHOUEI A, BRECKON T P. GANomaly: semi-supervised anomaly detection via adversarial training[C]//14th Asian Conference on Computer Vision. Perth: Springer International Publishing, 2019: 622−637. [30] PERERA P, NALLAPATI R, XIANG Bing. OCGAN: one-class novelty detection using GANs with constrained latent representations[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 2893−2901. [31] WYATT J, LEACH A, SCHMON S M, et al. AnoDDPM: anomaly detection with denoising diffusion probabilistic models using simplex noise[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New Orleans: IEEE, 2022: 649−655. [32] ZHANG Xinyi, LI Naiqi, LI Jiawei, et al. Unsupervised surface anomaly detection with diffusion probabilistic model[C]//2023 IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 6759−6768. [33] MOUSAKHAN A, BROX T, TAYYUB J. Anomaly detection with conditioned denoising diffusion models[EB/OL]. (2023−05−25)[2024−02−22]. https://arxiv.org/abs/2305.15956. [34] DHARIWAL P, NICHOL A. Diffusion models beat gans on image synthesis[C]//Proceedings of the 35th International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc., 2021, 34: 8780−8794. [35] SONG Jiaming, MENG Chenlin, Ermon S. Denoising diffusion implicit models[C]//International Conference on Learning Representations. Vienna: OpenReview.net, 2021: 1−20. [36] NICHOL A, DHARIWAL P. Improved denoising diffusion probabilistic models[C]//International Conference on Machine Learning. Virtual: PMLR, 2021: 8162−8171. [37] LIU Xingchao, GONG Chengyue, LIU Qiang. Flow straight and fast: learning to generate and transfer data with rectified flow[C]//International Conference on Learning Representations. Kigali: OpenReview. net, 2023: 1−33. [38] LIU Xingchao, ZHANG Xiwen, MA Jianzhu, et al. InstaFlow: one step is enough for high-quality diffusion-based text-to-image generation[EB/OL]. (2023−09−12)[2024−02−22]. https://arxiv.org/abs/2309.06380. [39] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention. Munich: Springer International Publishing, 2015: 234−241. [40] SOHL-DICKSTEIN J, WEISS E A, MAHESWARANATHAN N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//International Conference on Machine Learning. Lille: PMLR, 2015: 2256−2265. [41] HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems. Virtual: Curran Associates Inc., 2020, 33: 6840−6851. [42] ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 10674−10685. [43] ZHANG Lyumin, RAO Anyi, AGRAWALA M. Adding conditional control to text-to-image diffusion models[C]//2023 IEEE/CVF International Conference on Computer Vision. Paris: IEEE, 2023: 3813−3824. [44] LU Cheng, ZHOU Yuhao, BAO Fan, et al. Dpm-solver: a fast ode solver for diffusion probabilistic model sampling in around 10 steps[C]//Proceedings of the 36th International Conference on Neural Information Processing Systems. New Orleans: Curran Associates Inc., 2022, 35: 5775−5787. [45] ZHOU Zhenyu, CHEN Defang, WANG Can, et al. Fast ODE-based sampling for diffusion models in around 5 steps[EB/OL]. (2023−11−30)[2024−02−22]. https://arxiv.org/abs/2312.00094. [46] SONG Yang, DHARIWAL P, CHEN M, et al. Consistency models[EB/OL]. (2023−03−02)[2024−02−22]. https://arxiv.org/abs/2303.01469. [47] YIN Tianwei, GHARBI M, ZHANG R, et al. One-step diffusion with distribution matching distillation[EB/OL]. (2023−11−30)[2024−02−22]. https://arxiv.org/abs/2311.18828. [48] SONG Yang, SOHL-DICKSTEIN J, KINGMA D P, et al. Score-based generative modeling through stochastic differential equations[C]//International Conference on Learning Representations. Vienna: OpenReview.net, 2021: 1−36. [49] CIMPOI M, MAJI S, KOKKINOS I, et al. Describing textures in the wild[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 3606−3613. [50] ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 586−595. [51] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770−778. [52] ZAGORUYKO S, KOMODAKIS N. Wide residual networks[EB/OL]. (2016−05−03)[2024−02−22]. https://arxiv.org/abs/1605.07146. [53] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations. San Diego: OpenReview.net, 2015: 1–14. [54] TAN Mingxing, LE Q. EfficientNet: rethinking model scaling for convolutional neural networks[C]//Proceedings of the 36th International Conference on Machine Learning. Los Angeles: PMLR, 2019: 6105–6114.