Method of defect sample image generation based on point set matching
-
摘要: 针对工业缺陷检测中存在的由产品次品率过低、产品迭代更新过快、缺陷种类难以覆盖全部以及缺陷样本高质量标注难度较高导致的小样本问题,使用基于点集匹配的缺陷样本图像生成方法来对缺陷数据进行扩充。将缺陷部位从多特征角度进行变换,使用单张样本进行扩充得到不同特征的缺陷图像,解决小样本条件下深度学习方法难以生成高质量缺陷图像的问题。通过图像评估与实验验证,该方法生成的图像具有更好的视觉效果,并且对缺陷与分割模型有着高效的提升。该方法可应用于样本较少的深度学习模型训练过程中,达到扩充样本提高训练效果的目的。
-
关键词:
- 工业 /
- 缺陷检测 /
- 小样本问题 /
- 点集匹配 /
- 样本扩充 /
- 缺陷样本生成 /
- 有效训练 /
- 循环生成对抗网络模型 /
- 矢量化变分自动编码器
Abstract: The paper presents a novel approach for generating defect sample images using point set matching, which addresses the challenges posed by small-sample in industrial defect detection. These challenges arise due to low defective rates of products, rapid iterative updating of products, limited coverage of defect types, and difficulty in obtaining high-quality labeled defect samples. The proposed method transforms defects from a multifeature perspective and applies a single-sample expansion technique to generate defect images with diverse characteristics. This method solves the problem of the difficult generation of a high-quality defect image by deep learning under small-sample conditions. Through image evaluation and experimental verification, this method can produce images with superior visual effects and can effectively improve defect segmentation and detection. This method can be applied to the training process of the deep learning model with few samples for sample expansion and improvement of the training effect. -
工业产品与人们的生活息息相关,因此工业产品的质量把控尤为重要,这也使得工业产品的缺陷检测问题愈发受到重视。其检测过程中存在的小样本问题指缺陷检测时存在的缺陷样本数量少、缺陷特征缺乏多样性等问题,这也是当前许多行业缺陷检测中普遍存在的问题[1]。产生小样本问题的原因有很多,最常见的为缺陷样本图像采集成本过高。其次由于部分工业生产过程中缺陷产品数量极少,导致采集到的缺陷样本数量也极少。近年来缺陷检测行业主要通过工程途径和算法途径来解决工业检测中的小样本问题[2]。工程途径的方法主要为基于真实产品手动制造仿真缺陷,但这会对产品造成不可逆的破坏,对具有较高价值的产品采用这种方法并不合理。此外,由于大多数缺陷产生于无意识状态,手动制造缺陷不一定与实际缺陷情况吻合,往往存在较大的失真[3]。因此基于算法途径的生成方法更加具有研究意义与应用价值。
传统的图像增广方法,如仿射变换、图像裁剪与翻转等方法无法解决图像卷积过程中存在的平移不变性[4],因此获得的图像会使神经网络模型产生过拟合。算法途径的缺陷生成方法凭借其生成缺陷样本的真实性以及无需破坏产品的优点,成为解决小样本问题主流方法。目前生成模型更加擅长合成具有多样化特征的图像,而应用最广泛的为基于变分自动编码器(variational autoencoder, VAE)[5]的生成模型、基于生成对抗网络(generative adversarial network,GAN)[6]的生成模型、基于Transformer[7]的图像生成方法以及基于概率扩散模型 (Diffusion model) [8]的图像生成方法。
变分自动编码器是早期用于图像合成的模型之一,通过解码某种类型的潜在向量来生成图像。Shi等[9]使用了带有扩散解码器(DiVAE)的VQ-VAE结构模型,作为图像合成中的重建部件。Razavi等[10]提出了VQ-VAE-2框架来进行图像生成。该方法利用了有损压缩的思想,通过自编码器的中间表征使生成模型忽略对不重要信息的建模并将图像压缩到离散隐变量空间。然而基于VAE模型生成的图像模糊分辨率较低,因此并不适用于工业缺陷图像的生成。因此也提出了许多基于GAN的方法来生成质量更高细节更丰富的图像。
GAN具有十分强大的生成能力,通过生成器与鉴别器的相互对抗学习使得生成的图像质量逐渐提高。具有广泛应用的有风格翻译[11-14],图像修复[15-17]等。Liu等[18]提出一种PairsGAN结构来对织物缺陷进行生成。设计额外的缺陷鉴别器来提高缺陷区域的生成质量。Singh等[19]提出基于GAN的缺陷生成方法应用于工业材料表面缺陷图像的生成。Yang等[20]提出数据扩充算法Mask2Defect,注入先验知识,产生不同特征的缺陷。方法主体基于编码解码的nested-Unet来生成金属表面缺陷图像。胡文杰等[4]将生成模型ConSinGAN中加入了双通道自注意力机制,并且引入了结构相似度来改进损失函数,提高了生成样本中背景纹理的一致性。
Vaswani等[7]首次使用Transformer来完成图像生成任务,该模型将图像的联合分布转换为像素的条件分布,虽然该模型对图像进行长期建模且感受野增大,但是却无法保证生成图像的分辨率。
概率扩散模型近几年在图像生成领域有着非常巨大的潜力。Choi等[21]提出了迭代潜在变量细化 (iterative latent variable refinement, ILVR),这是一种指导 DDPM 中的生成过程以基于给定参考图像生成高质量图像的方法, 允许适应单个 DDPM,而无需在各种图像生成任务中进行任何额外的学习。Lugmayr 等[22]提出一种基于去噪扩散概率模型 (denoising diffusion probabilistic model, DDPM)的修复方法,采用预训练的无条件 DDPM 作为生成先验, 可以为任何修复形式生成高质量和多样化的输出图像。
与现有的图像生成任务不同的是,以上4种生成模型需要大量的训练样本才能保证模型的生成效果。由于小样本情况下缺陷样本数量极少,已有样本数量无法完成模型的有效训练,因此模型生成的图像对缺陷检测模型训练不能起到有效的帮助。
针对上述问题,本文提出一种小样本条件下的基于点集匹配的缺陷样本图像生成方法,在不对产品造成破坏的情况下对缺陷样本图像进行生成。即使在只有一张缺陷样本的情况下也可完成对缺陷样本数量进行扩充,且生成缺陷的形状、大小、位置极大程度地由人对缺陷的需求来决定,满足人们对于某种特征的需求。由于一致性点漂移算法(coherent point drift,CPD) 方法[23]对于特征点的非刚性变换精度更高,效率更快,因此在对图像区域层面实现缺陷特征变换时可以使缺陷纹理细节保留更加完整,因此使用该方法可以更加高效地生成新的缺陷数据。本文从图像变换角度出发,使用基于工业先验知识来获取生成缺陷模板,使用CPD点集匹配方法生成具有与原缺陷形状、纹理等特征相似且有效缺陷数据。使用图像处理相关技术对生成的缺陷图像进行优化,使其具有更加真实的图像细节纹理表现[24]。
1. 缺陷样本图像生成算法
1.1 CPD点集匹配算法
CPD点集匹配算法是将一个点集准确映射至另一个点集之上的匹配方法。对状态进行估计,将先前的估计结果匹配到新的点集来获得物体上每个节点的位置。对于大多任务来说,引入CPD方法来检查物体当前状态与预先记录的的训练状态之间的相似性,然后通过寻找最大相似性来确定进一步的操作步骤。该方法在医学图像处理中发挥了巨大的潜力,可形变配准一直是现代医学图像分析的一个具有挑战性的工作之一[25]。同时点集匹配算法在遥感图像的配准上也有着广泛的用处,Ma等[26]的工作使用局部线性变换的方式对遥感图像进行配准,实现遥感图像的刚性和非刚性的特征匹配,实现了遥感图像领域的目标检测、位姿校准等一系列配准任务。
1.2 图像生成算法
本文提出的方法为基于CPD点集匹配的缺陷样本图像生成算法,使用CPD点集匹配方法来对缺陷图像中缺陷部位的mask图以及目标缺陷部位mask图进行匹配操作。使用mask图既可以完整地将缺陷部位分离出来,也能有效地避免缺陷背景对实际缺陷的影响。因为当缺陷内部包含的特征与背景相同或相似时,无法判断其是缺陷内部的特征还是缺陷以外背景上的特征。操作完成后使用其生成转换矩阵来对缺陷图像中的缺陷部位进行转换,从而生成一个新的缺陷图像。
本文使用的mask图是指具有缺陷部位轮廓形状的二值图,缺陷部位值为1,轮廓之外值为0,缺陷图与缺陷部位轮廓二值图如图1所示。
CPD匹配算法要求等待匹配的作为输入的两个点集都是已知的,这对于缺陷图像的生成是不合适的,此时缺少已知的生成缺陷图像的点集作为算法匹配的输入。因此我们从一幅真实的缺陷图像中选取出缺陷部位的mask图并获取点集作为算法输入的其中之一,另一输入则为具有与真实缺陷部位相似特征的mask图点集。由于基于神经网络的轮廓提取方法往往需要大量的训练数据,无法直接准确地获取到缺陷部位的轮廓,因此在当前的小样本前提下并不适用。所以无法直接对图像缺陷部位进行变换。使用缺陷部位的mask图以及目标图像mask图作为匹配算法的输入,从侧面获得真实图像的缺陷部位的转换矩阵,并将转换矩阵应用到缺陷部位上进行形变,从而生成具有真实缺陷形状与纹理的缺陷图像。其中算法流程如图2所示。
图像生成过程如图3所示。其中左侧框图内为由输入到输出所形成端到端的图像生成方法。右侧框图内为缺陷转换的示意图。
2. 算法实现
2.1 特征图库建立
特征图库包含的缺陷特征为已经存在的或者尚未发现的。其中已经存在的缺陷特征由相关行业专家从现有的缺陷数据集上将缺陷经过特征变换得到一定数量的缺陷特征mask图。同时可将普遍物品所建样本中存在的缺陷迁移至珍贵物品样本的表面,建立珍贵样本隐患类缺陷的数据集。
2.2 指令引导的目标缺陷部位mask图获取
为了使输入图像数据更加符合算法的实现要求,对图像数据进行一定的预处理操作。使用图像裁剪来获得更加匹配的尺寸,获取原缺陷图像缺陷部位的mask图其对应的点集以及目标缺陷图像指定特征的点集以得到算法的直接输入。
指令引导的缺陷特征图获取,根据指令特征从特征图库中获取相应的目标缺陷图像特征mask图。通过专家知识来建立基本的缺陷特征模板,根据文字指令传达的对缺陷生成的具体需求来获取对应模板,在模板的基础上对缺陷特征进行一定的改变然后获取缺陷部位的mask图。最终缺陷生成的特征与获取的mask特征直接相关。指令引导包括缺陷的位置、大小、形状。
2.3 点集匹配模块
首先获取原缺陷部位图像以及目标缺陷图像mask图的像素点坐标点集,分别从其中抽样构建源点集与目标点集作为点集匹配算法的输入。点集匹配算法将源点集中的坐标点集通过弹性形变逼近至目标点集,并产生一个记录源点集位移量的转换矩阵。然后通过未采样点相邻的采样点的转换矩阵加权求和获得未采样点所对应的转换矩阵。将求得的未采样点转换矩阵与采样点的转换矩阵按照采样点顺序合并,即可得到整个缺陷部位的所有点集的转换矩阵。最后将所有采样点按照其对应的转换距离进行偏移即可得到一幅转换后的缺陷块图像。
2.4 后处理模块
后处理是为了使生成的图像更加真实。由于生成的缺陷是由形变而来,当原图像缺陷部位的尺寸小于生成的缺陷图像时,内部会出现部分裂痕以及小型的空洞,这些都是形变过程中常有的情况。因此对裂痕以及空洞进行填补操作,使得缺陷图像具有更强的真实性与更丰富的纹理细节,然后使用中值滤波对填充后的缺陷块图像进行平滑。
此外为了使填充后的边界能有真实且合理的过渡,使用具有良好边界过渡的指数函数[27]:
$$ \theta = \exp {( - ax)^b} , a,b \in {R^*},x \in (0,C) $$ 式中:
$ C $ 为缺陷边界透明的宽度,以设定像素值个数为宽度。为了使指数函数的边界能够与缺陷部位透明边界的宽度自适应,对指数函数的参数$ a $ 进行限制操作,取$ a=\dfrac{2}{C} $ 时宽度与指数函数的边界进行自适应对齐。对于以
$ C $ 为宽度的缺陷边界之内任一点,其透明度计算公式为$$ {T_{{\rm{tr}}}} = (1 - \theta ) \times {Z_1} + \theta \times {Z_2} $$ 其中,
$ {Z_1} $ 为以$ C $ 为宽度的缺陷边界之内任一点的像素值,$ {Z_2} $ 为该边界点所在位置的背景像素值。此时,无论边界宽度
$ C $ 为何值,都能与指数函数的边界进行自适应对齐,使得边界平滑有着更好的效果。最后将优化后的图像直接合成至无缺陷的干净背景图像之上,即可生成全新的缺陷图像。3. 实验结果
3.1 数据集
本文使用公开数据集MVTec AD[28]。MVTec AD是MVTec公司提出的一个用于异常检测的数据集,发布于2019年。与之前的异常检测数据集不同,该数据集模仿了工业实际生产场景,并且主要用于无监督异常检测。根据本文算法特性,使用了MVTec AD 数据集中的Carpet、Leather、Tile、Wood等4类数据集作为本文方法中缺陷生成的样本数据集。其中Carpet数据中包含颜色污渍、孔洞、切口、金属异物、织线异物5种缺陷类型,Leather包含颜色污渍、孔洞、切口、胶水滴、刺破5种缺陷类型,Tile包含裂缝、胶水带、灰色污渍、油滴、磨损5种缺陷类型,Wood包含颜色污渍、孔洞、液体、划痕以及混合种类5种缺陷类型。算法生成缺陷后,将缺陷迁移至无缺陷背景时无需考虑边界因素更易操作,且与背景有较高的契合度,生成的缺陷图像整体具有更高的真实性,本文方法对生成平面物体缺陷具有更加独特的优势。
3.2 评价指标与对比试验
采用U-NET作为缺陷图像分割的检测模型,Fast-R-CNN为缺陷图像检测的模型。使用图像生成领域常用的评价指标Frechet Inception Distance(FID)来对本文方法生成的图片进行定量评估,该评价指标值越小,表示生成的图像越接近真实图像,生成的图片质量越好。同时从视觉效果、生成图像的时间消耗来进行多方位评估。
为了更好地评估该模型,本文采用了CycleGAN[13]、VQ-VAE[10]、Diffusion model[8]作为对比模型,以上3种模型是图像生成领域中较为常用且效果较好的图像生成模型。本文按批次添加相同数量的由不同的方法生成的图像,通过模型召回率与准确率的提升程度来表示生成图像的质量,提升程度越大则说明质量越高,以显示出本文方法生成的图像对比其他方法所具有的优势。
3.3 实验设置与生成结果
在本文实验中输入算法的图片尺寸为256像素×256像素,匹配算法迭代次数为400。CycleGAN与VQ-VAE方法的epoch设为400,batch size大小设为5。后处理模块中用于边界过渡的指数函数中的
$ b $ 取值为3。中值滤波平滑参数设为1。验证模型采用U-NET与Fast-R-CNN,选择1000个epoch在5张基础训练集上进行训练后,模型的准确率与召回率达到收敛。学习率选取0.0001,batch size选为1。并在此模型基础上以5张为一个批次逐次添加生成的图像。
3.3.1 生成图像可视化结果
本文方法与CycleGAN、VQ-VAE、Diffusion model方法生成的结果图像对比如图4所示。更多本文生成图像如图5所示。其中图5(a)~(d)为相同物体表面之间缺陷图像生成,图5(e)为跨种类缺陷合成。图5(e)中第2至第4幅图像为carpet中颜色污渍迁移生成。
3.3.2 生成图像对模型的影响
在这一部分,我们严格模拟了小样本场景下的图像生成与检测,选定原缺陷图像数量为20张,测试缺陷图像数量为40张,我们使用MVTec AD中除生成图片以外的同类型数据集分别进行了分割和检测模型的评估。选择一定数量的真实图像作为训练集,逐量添加生成的缺陷图像来研究生成图像对分割、检测模型的影响。其中数据集样本分布表如表1所示。
训练批次 训练集数量/张 测试集数量/张 原图像 样本添加数量 原图像 第1次 20 0 40 第2次 20 5 40 第3次 20 10 40 第4次 20 15 40 第5次 20 195/6 40 第6次 20 50 40 第7次 20 75 40 第8次 20 100 40 模型提升效果对比图如图6所示,以Leather、Carpet两类为例,每幅图中左右两侧折线图分别为不同模型对相同图像数据测试的召回率与准确率。以5张为一批次添加生成数据,更加直观地表现生成数据对模型带来的影响。图中第5次为添加数量为20、25、30、35、40、45的6次均值,第7次同理。
同时给出了所选4类数据集添加100张生成数据后各模型的总提升率,如表2所示。
种类 方法 分割模型提升率 检测模型提升率 leather 本文方法 56.62 34.66 CycleGAN 35.71 12.55 VQ-VAE 22.33 −4.78 Diffusion model 35.89 0.25 carpet 本文方法 32.53 34.37 CycleGAN 17.66 17.48 VQ-VAE 19.21 7.44 Diffusion model 20.19 8.02 tile 本文方法 26.54 32.55 CycleGAN 10.65 −12.85 VQ-VAE 8.78 −10.47 Diffusion model 12.36 10.66 wood 本文方法 38.85 28.56 CycleGAN 15.46 17.55 VQ-VAE 16.54 15.22 Diffusion model 22.47 10.45 由图6中对比结果图可以看出,本文方法随着样本数量的添加,分割与检测模型提升率最高、提升幅度最大。并且模型趋于收敛之时,模型的召回率与准确率对比3种方法均为最高,由此可得本文方法生成的图像具有更丰富的纹理与细节,与原图像之间的差距更小,具有更好的生成效果。
我们对3种方法生成的图像分别计算了各自的FID,如表3所示。本文方法与3种对比方法相比均有着最低的FID值,说明本文方法生成的图像质量更高,真实度更加贴近真实图像。
方法 leather carpet tile wood CycleGAN 318.91 156.41 330.34 384.35 VQ-VAE 283.55 189.68 289.65 354.44 Diffusion model 298.87 176.62 277.65 378.54 本文方法 222.43 88.56 149.97 253.91 同时对比了各算法的平均生成时间消耗,以输入图像256像素×256像素为例,来显示本文方法在算法效率上的优势。如表4所示,本文算法由于无需训练模型,算法生成一张图像的时间大大减少,与对比方法相比具有最少的耗时。
方法 t CycleGAN 82 VQ-VAE 45 Diffusion model 53 本文方法 13 针对后处理对生成结果的改善做了消融研究,以显示其对生成图像的影响。以Leather数据类型为例,添加100张不同过程的生成图像来观察分割模型的召回率。消融研究结果如表5所示。
方法 召回率 CPD 30.52 CPD+填充 53.22 CPD+平滑 44.55 CPD+填充+平滑 65.24 CPD+填充+平滑+边缘透明 72.20 从视觉效果来看,本文方法生成的图像具有更高的真实性且具有十分清晰的纹理细节,图像细节也更加的丰富。VQ-VAE模型生成的图像异常模糊,且在图像细节方面出现严重的失真,这是因为VQ-VAE模型因降维、重构导致了一定程度的失真,以及模型本身生成离散型变量过程中导致梯度消失。CycleGAN方法也由于训练样本的不足,生成的图像效果与本文方法有一定差距。由于模型训练效果存在浮动,因此采用均值法获取评价指标。
表2中评价指标为连续训练5次的平均值,其中加粗字体代表3种方法中提升更高的结果。从图中实验结果可以看出,图像的分割与检测模型在召回率方面均得到一定程度的提升,并且由于不同种类的缺陷数据特征不同,生成的缺陷图像对模型的提升结果也不相同。并且模型的提升率在样本数量添加至50之后逐渐趋于平缓,模型逐渐达到收敛状态,样本添加对模型的提升效果逐渐减小。
对于检测模型,由于模型无法完全去除冗余候选区域,使得部分冗余候选区域发生重叠,因此模型的精度会随着输入数据的增加而发生下降,这是当前的Fast-R-CNN模型仍存在的问题。从数据测试数据可以看出,本文方法生成的图像对模型准确率的影响程度是3种方法中最低的,并且召回率的提升程度确实最高的,由此可以证明本文方法所生成的图像对模型的训练有着更加有效的提升作用。最后本文方法生成的图像相较于其他方法具有更小的FID指数,说明本文方法生成的图像具有更高的真实度以及更丰富的信息。
由表5可得,添加3个后处理步骤生成的图像经过训练得到的模型具有更高的精度。由于输入CPD算法的源点集与目标点集均为抽样构建,直接生成的图像包含大量空白像素点,因此该图像训练得到的模型精度较低。只添加平滑或填充操作生成的图像不及两者同时使用生成的图像。若不进行填充仅平滑时,图像内部过于平滑丧失大量纹理细节,邻域填充能够使图像内部纹理具有更好的渐变效果。添加边缘透明生成的图像对模型分割与检测提升较小是因为在图像为256像素×256像素时,缺陷块尺寸往往较小,难以为缺陷边界设置合理的透明宽度。
通过视觉分析、实验验证以及图像质量评测,本文方法生成的图像均有着更好的效果。本文算法在只有一张样本数据的情况下依然能够对数据进行扩充,并且无需预训练的模型来进行微调[17],具有更高的应用价值。
4. 结束语
本文提出的基于点集匹配的缺陷样本图像生成方法生成的图像不仅在视觉上有着良好的特征分辨能力,对模型分割与检测能力的提升也最为突出,并且无需依赖大量的训练样本,对解决工业缺陷检测中存在的小样本问题具有得天独厚的优势。由于匹配算法的特性使得形变后的缺陷块图像存在裂痕或者空洞,由于裂痕以及空洞的填补使用的是相关邻域像素的均值,因此仍存在一定程度的块状化,图形的表面并不能像原始图像一样自然真实,若采用基于深度学习的裂痕、空洞填补方法会使得图像具有更高的真实性。本文方法所生成的缺陷图像,不仅缺陷的形状大小以及纹理细节在极大程度上保存了下来,并且除缺陷部位以外并没有做出任何改变,不会对缺陷部位的检测产生不必要的影响。仅需一张缺陷图像即可完成图像生成,对生成数据数量、计算资源的消耗也极低,因此适用于多种平面类缺陷图像的生成。
-
表 1 数据集分布
Table 1 Table of data set distribution
训练批次 训练集数量/张 测试集数量/张 原图像 样本添加数量 原图像 第1次 20 0 40 第2次 20 5 40 第3次 20 10 40 第4次 20 15 40 第5次 20 195/6 40 第6次 20 50 40 第7次 20 75 40 第8次 20 100 40 表 2 模型提升率
Table 2 Model promotion rate
% 种类 方法 分割模型提升率 检测模型提升率 leather 本文方法 56.62 34.66 CycleGAN 35.71 12.55 VQ-VAE 22.33 −4.78 Diffusion model 35.89 0.25 carpet 本文方法 32.53 34.37 CycleGAN 17.66 17.48 VQ-VAE 19.21 7.44 Diffusion model 20.19 8.02 tile 本文方法 26.54 32.55 CycleGAN 10.65 −12.85 VQ-VAE 8.78 −10.47 Diffusion model 12.36 10.66 wood 本文方法 38.85 28.56 CycleGAN 15.46 17.55 VQ-VAE 16.54 15.22 Diffusion model 22.47 10.45 表 3 每种方法的FID
Table 3 FID of each method
方法 leather carpet tile wood CycleGAN 318.91 156.41 330.34 384.35 VQ-VAE 283.55 189.68 289.65 354.44 Diffusion model 298.87 176.62 277.65 378.54 本文方法 222.43 88.56 149.97 253.91 表 4 图像生成时间对比
Table 4 Comparison of algorithm running time
s 方法 t CycleGAN 82 VQ-VAE 45 Diffusion model 53 本文方法 13 表 5 消融研究
Table 5 Ablation research
% 方法 召回率 CPD 30.52 CPD+填充 53.22 CPD+平滑 44.55 CPD+填充+平滑 65.24 CPD+填充+平滑+边缘透明 72.20 -
[1] 于重重, 萨良兵, 马先钦, 等. 基于度量学习的小样本零器件表面缺陷检测[J]. 仪器仪表学报, 2020, 41(7): 214–223. doi: 10.19650/j.cnki.cjsi.J2006443 YU Chongchong, SA Liangbing, MA Xianqin, et al. Few-shot parts surface defect detection based on the metric learning[J]. Chinese journal of scientific instrument, 2020, 41(7): 214–223. doi: 10.19650/j.cnki.cjsi.J2006443 [2] CHEN Yajun, DING Yuanyuan, ZHAO Fan, et al. Surface defect detection methods for industrial products: a review[J]. Applied sciences, 2021, 11(16): 7657. doi: 10.3390/app11167657 [3] GAO Yiping, LI Xinyu, WANG X V, et al. A review on recent advances in vision-based defect recognition towards industrial intelligence[J]. Journal of manufacturing systems, 2022, 62: 753–766. doi: 10.1016/j.jmsy.2021.05.008 [4] 胡文杰, 吴晓波, 李波, 等. 基于Self-Attention的单样本ConSinGAN模型的工业缺陷样本图像生成[J]. 中南民族大学学报(自然科学版), 2022, 41(3): 356–364. HU Wenjie, WU Xiaobo, LI Bo, et al. Single sample image generation of industrial defect samples based on self-attention ConSinGAN[J]. Journal of south-central Minzu university (natural science edition), 2022, 41(3): 356–364. [5] KINGMA D P, WELLING M. Auto-encoding variational bayes[J]. Advances in neural information processing systems, 2014: 2002–2009. [6] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the acm, 2020, 63(11): 139–144. doi: 10.1145/3422622 [7] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 6000−6010. [8] HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840–6851. [9] SHI Jie, WU Chenfei, LIANG Jian, et al. Divae: Photorealistic images synthesis with denoising diffusion decoder[EB/OL].(2022−06−01)[2022−09−10]. https://arxiv.org/abs/2206.00386. [10] RAZAVI A, VAN DEN OORD A, VINYALS O. Generating diverse high-fidelity images with vq-vae-2[J]. Advances in Neural Information Processing Systems, 2019: 14866–14876. [11] LIU Mingyu, BREUEL T, KAUTZ J. Unsupervised image-to-image translation networks[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 700−708. [12] 余艳杰, 孙嘉琪, 葛思擘, 等. CycleGAN-SN: 结合谱归一化和CycleGAN的图像风格化算法[J]. 西安交通大学学报, 2020, 54(5): 133–141. YU Yanjie, SUN Jiaqi, GE Siqing. CycleGAN-SN: image stylization algorithm combining spectral normalization and CycleGAN[J]. Journal of Xi’an Jiaotong University, 2020, 54(5): 133–141. [13] 叶亚男, 迟静, 于志平, 等. 基于改进CycleGan模型和区域分割的表情动画合成[J]. 计算机科学, 2020, 47(9): 142–149. YE Yanan, CHI Jing, YU Zhiping, et al. Expression animation synthesis based on improved CycleGan model and region segmentation[J]. Computer science, 2020, 47(9): 142–149. [14] KÖKSAL A, LU Shijian. RF-GAN: a light and reconfigurable network for unpaired image-to-image translation[C]//ISHIKAWA H, LIU C L, PAJDLA T, et al. Asian Conference on Computer Vision. Cham: Springer, 2021: 542−559. [15] YEH R A, CHEN Chen, LIM T Y, et al. Semantic image inpainting with deep generative models[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6882−6890. [16] YU Jiahui, LIN Zhe, YANG Jimei, et al. Generative image inpainting with contextual attention[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5505−5514. [17] 崔克彬, 潘锋. 用于绝缘子故障检测的CycleGAN小样本库扩增方法研究[J]. 计算机工程与科学, 2022, 44(3): 509–515. doi: 10.3969/j.issn.1007-130X.2022.03.017 CUI Kebin, PAN Feng. A CycleGAN small sample library amplification method for faulty insulator detection[J]. Computer engineering & science, 2022, 44(3): 509–515. doi: 10.3969/j.issn.1007-130X.2022.03.017 [18] LIU Zirong, LAI Zhihui, GAO Can. Multi-scale defective samples synthesis for surface defect detection[C]//IEEE 7th International Conference on Cloud Computing and Intelligent Systems. Xi'an: IEEE, 2022: 224−229. [19] SINGH R, GARG R, PATEL N S, et al. Generative adversarial networks for synthetic defect generation in assembly and test manufacturing[C]//31st Annual SEMI Advanced Semiconductor Manufacturing Conference. Saratoga Springs: IEEE, 2020: 1−5. [20] YANG Benyi, LIU Zhenyu, DUAN Guifang, et al. Mask2Defect: a prior knowledge-based data augmentation method for metal surface defect inspection[J]. IEEE transactions on industrial informatics, 2022, 18(10): 6743–6755. doi: 10.1109/TII.2021.3126098 [21] CHOI J, KIM S, JEONG Y, et al. ILVR: Conditioning method for denoising diffusion probabilistic models[EB/OL]. (2021-08-06)[2022-09-10] . https://arxiv.org/abs/2108.02938. [22] LUGMAYR A, DANELLJAN M, ROMERO A, et al. RePaint: inpainting using denoising diffusion probabilistic models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 11451−11461. [23] MYRONENKO A, SONG Xubo. Point set registration: coherent point drift[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(12): 2262–2275. doi: 10.1109/TPAMI.2010.46 [24] TANG Te, WANG Changhao, TOMIZUKA M. A framework for manipulating deformable linear objects by coherent point drift[J]. IEEE robotics and automation letters, 2018, 3(4): 3426–3433. doi: 10.1109/LRA.2018.2852770 [25] SOTIRAS A, DAVATZIKOS C, PARAGIOS N. Deformable medical image registration: a survey[J]. IEEE transactions on medical imaging, 2013, 32(7): 1153–1190. doi: 10.1109/TMI.2013.2265603 [26] MA Jiayi, ZHOU Huabing, ZHAO Ji, et al. Robust feature matching for remote sensing image registration via locally linear transforming[J]. IEEE transactions on geoscience and remote sensing, 2015, 53(12): 6469–6481. doi: 10.1109/TGRS.2015.2441954 [27] XU Xingpeng, MATKOWSKI W M, KONG A W K. A portrait photo-to-tattoo transform based on digital tattooing[J]. Multimedia tools and applications, 2020, 79(33): 24367–24392. [28] BERGMANN P, FAUSER M, SATTLEGGER D, et al. MVTec AD—a comprehensive real-world dataset for unsupervised anomaly detection[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2020: 9584−9592.