Fingerprint pattern classification based on dual-branch attention mechanism
-
摘要: 针对现有指纹分类算法中存在的低质量指纹难以识别、特征信息提取不充分以及提取过程中信息丢失的问题,提出一种基于双分支注意力机制的指纹纹型分类算法。算法通过提取方向场和进行Gabor滤波的双分支网络进行特征融合,充分利用指纹图像的纹线特征和全局特征;提出的组合激活函数和综合注意力机制模块充分提取卷积分支上的空间特征和通道特征信息,减少提取过程中的信息丢失;设计分支特征融合模块对双分支输出的特征图进行加权,充分融合特征信息;最后引入改进的交叉熵损失缓解样本分布不平衡的问题。实验结果表明,所提算法在自建纹型数据集的4类指纹分类中取得了99.08%的准确率,在准确率、F1分数和曲线下面积指标方面均优于其他网络模型,验证了本文算法在纹型分类任务上的有效性和优越性。Abstract: In order to address the challenges of low-quality fingerprint recognition, insufficient feature extraction and information loss during the extraction process in existing fingerprint classification algorithms, a novel fingerprint pattern classification algorithm based on a dual-branch attention mechanism is proposed. The algorithm employs a dual-branch network for the extraction of orientation fields, which are then subjected to Gabor filtering for the purpose of feature fusion. This approach allows for effective utilisation of both ridge features and global features inherent to fingerprint images. A combination of activation functions and a comprehensive attention mechanism module are proposed to effectively extract spatial and channel feature information from the convolutional branch, thereby reducing information loss during feature extraction. A branch feature fusion module has been devised with the objective of weighting and integrating the feature maps that are output by the dual branches, thereby ensuring comprehensive feature fusion. Finally, an improved cross-entropy loss function is introduced to mitigate the problem of imbalanced sample distribution. The results of the experimental study demonstrate that the proposed algorithm achieves a 99.08% accuracy rate in the classification of four types of fingerprints on a self-built fingerprint pattern dataset, outperforming other network models in terms of accuracy, F1 score, and area under curve. These findings verify the effectiveness and superiority of the algorithm in fingerprint pattern classification tasks.
-
生物特征识别技术通过采集个体的生物特征或行为特征信息(如指纹[1]、虹膜[2]、步态[3]等)进行身份鉴别,被广泛应用于法庭科学、刑事侦查、金融安全等多个领域。指纹作为人体独特的生物特征,具有人各不同和终身基本不变的特性,因此在个体身份识别方面具有重要的地位。指纹识别的广泛应用能够有效地缩小侦查范围,加速刑事侦查过程,并提高案件侦破效率[4]。
目前,我国指纹数据库的规模迅速增长,在指纹识别阶段前进行指纹的纹型分类可以有效缩小海量数据库搜索范围,节省大量的计算成本和搜索时间。指纹纹型分类算法的准确性直接影响指纹识别的精度,因此,如何准确地提取指纹的特征信息进行纹型分类成为关键问题。
但是指纹类型分类目前仍存在诸多挑战,首先,指纹纹型的类间变化很小,类内变化很大。例如弓型纹与箕型纹之间的判断仅依赖于细节的纹线判断,而在弓型纹中各个指纹的差距非常大,这就对模型的泛化性能提出了很高的要求。此外,在刑事侦查和法庭科学等领域,指纹的质量往往参差不齐,表现出多样性。指纹图像通常包含噪声,部分指纹出现模糊和残缺,这使得指纹图像的分类任务更加困难。传统的指纹纹型分类方法通常基于人工定义的特征进行分类,例如脊线流[5-6]、奇异点[7]和方向场[8]。这在一定程度上会导致部分特征的丢失以及难以捕捉复杂指纹图像中的高层次特征。此外,当模型无法有效提取出人工定义的特征时,纹型分类的准确率将显著下降。因此,如何有效地提取特征进行纹型分类对算法提出了较高的要求。
针对现有算法中存在的低质量指纹难以识别、特征信息提取不充分以及提取过程中信息丢失等问题,本文以研究与指纹纹型相关的特征为出发点,提出一种基于双分支注意力机制的指纹纹型分类算法。算法能够有效地识别低质量指纹,充分提取特征信息,解决信息丢失等问题,实现指纹纹型的自动分类。主要工作如下:
1)为全面地模拟指纹图像多样的实际应用场景,本文通过采集公安实战领域中的指纹图像,构建了指纹纹型数据集。2)提出通过方向场分支和Gabor滤波分支的双分支特征融合结构,充分利用和提取指纹信息,实现指纹纹型的自动分类,在低质量指纹分类中表现显著。3)提出一种综合利用空间特征和通道特征的注意力机制模块,实现特征的有效提取,去除冗余特征,提高模型的分类效能。4)在自建数据集上进行实验,通过与经典神经网络模型的比较,验证本文所提算法在指纹纹型分类中的有效性和优越性。
1. 相关工作
随着人工智能在生物特征识别技术领域的应用不断拓展[9-11],其独特的优势和巨大的潜力逐渐显现。深度学习无需人工定义特征,其能够凭借强大的特征表达能力直接从指纹图像中学习到更深层的语义特征[12-15],从而实现指纹纹型分类[16]。近年来深度学习方法被应用到指纹纹型分类中并取得了显著的进展。Wang等[17]基于深度神经网络方法对纹型分类问题进行了初步尝试。选择方向场作为分类特征,使用3个隐藏层的堆叠稀疏自动编码器进行模糊分类,有效提高了分类准确率。Peralta等[18]对几种最先进的指纹特征提取分类器与卷积神经网络(convolutional neural network,CNN)模型进行了比较,结果表明CNN的性能优于所有比较方法,具有更好的准确性和更短的运行时间。李伯男等[19]提出了一种基于胶囊网络的指纹纹型分类模型Cap-FingerNet,取得了较好的分类效果。Tertychnyi等[20]针对低质量指纹图像提出了一种高效的深度神经网络算法,结果表明深度神经网络算法的高性能和鲁棒性。甘俊英等[21]提出了一种轻量化多特征融合的指纹分类算Finger-SqueezeNet。利用细化图求取感兴趣区域图像与提取的特征图进行特征融合,实现纹型信息的充分利用,并且算法更加轻量化。Jian等[22]提出了一种基于奇异点感兴趣区域的轻量级CNN算法,所提出的结构以较低的参数规模实现了较好的性能。Hou等[23]提出了一种无监督深度学习算法,使用约束卷积自动编码自动提取指纹特征并采用混合聚类策略对指纹模式进行分类,在指纹分类方面表现出高效的性能。然而,现有的纹型分类的算法大都基于人工定义的特征进行,泛化性能较差并且存在指纹特征提取不充分、部分特征丢失等问题。此外,算法对噪声大、模糊和缺损的低质量指纹图像往往识别效果较差,难以满足实战领域的要求。
由于公开指纹数据集有限且图像质量难以符合要求,本文建立了指纹纹型数据集,为指纹纹型分类研究提供数据支撑。针对当前指纹特征提取方法存在的特征利用率低下、提取不充分以及低质量指纹难以识别等问题,本文提出一种基于双分支注意力机制的指纹纹型分类方法。首先融合方向场[24]和Gabor滤波[25]的双分支网络结构以提高特征利用率;其次设计充分融合通道与空间信息的注意力机制(full channel and spatial attention, FCSA)模块,提高深层特征表达能力,增强模型的泛化性与鲁棒性;最后针对多标签分类问题中样本不平衡的问题,引入Focal Loss损失函数[26]。
2. 所提方法
本文提出一种基于双分支注意力机制的指纹纹型自动分类模型,其主要包括方向场分支、Gabor滤波分支和特征融合分类部分,结构如图1所示。原始指纹图像首先进行方向场的提取和Gabor滤波,然后送入两个平行的特征提取分支,分别进行纹线特征和全局图像特征的提取。特征提取分支由全维度动态卷积层[27](omni-dimensional dynamic convolution, ODConv)、4个密集连接模块[28](Dense Block)以及注意力机制模块组成。双分支输出的特征图经过特征融合模块充分融合特征信息[29],最终,融合后的特征图依次经过全局平均池化层、全连接层,并通过softmax函数输出纹型分类结果。
本文还采用迁移学习方法,通过加载预训练权重来加速训练过程,解决了模型在小样本数据集上难以从零开始训练的问题,有效提高了模型性能。
2.1 双分支网络
双分支网络架构由两个并行的CNN主干分支组成,每个分支处理不同的输入图像,最终生成的特征图将用于后续的特征融合。具体而言,CNN主干分支由一个全维度动态卷积开始,随后依次通过4个Dense Block模块,最终输出到FCSA模块生成分支特征图。
Dense Block模块由若干密集连接的卷积层、1×1卷积层和平均池化层组成。该模块利用全维度动态卷积,沿卷积核的4个维度并行学习注意力机制,实现模型对不同输入图像的灵活适应,显著提高了模型在处理复杂纹理和细节特征时的表现。同时卷积层通过密集连接实现特征的共享和复用,有效地缓解梯度消失,形成更加全面的特征表示。在指纹分类任务中显著提升了模型捕捉复杂指纹纹线信息的能力。
纹线特征对于指纹纹型分类至关重要,双分支网络利用方向场分支实现指纹纹线特征的提取,增加纹线特征在融合分类中的比重,帮助模型更好地理解纹线特征;利用Gabor滤波分支去除噪声并且增强指纹图像,实现低质量图像的全局特征提取,解决低质量指纹难以识别和部分特征丢失的问题。综上所述,双分支网络充分利用方向场图和Gabor滤波图的互补特性,增强了对复杂指纹图像的处理能力和特征提取能力,有效提升了模型的准确性和鲁棒性。
2.2 ReLU-Tanh组合激活函数
ReLU激活函数在输入为负时输出恒为0,可能出现神经元“死亡”的问题,使权重无法更新,这一问题在深层网络中尤为显著。此外,还可能导致负值信息的丢失,影响模型的性能。
针对存在的问题,本文对卷积神经网络主干分支中的激活函数进行改进,提出ReLU-Tanh组合激活函数,通过在负值领域引入非线性计算,在处理负值时有效地保留更多信息,并且显著增强了激活函数的非线性拟合能力,增强模型的表现。新的组合激活函数可以避免神经元死亡的问题同时保留一定的负值信息,其计算公式为
$$ {y_i} = \left\{ {\begin{array}{*{20}{l}} {{x_i},\quad {x_i} \geqslant 0} \\ {\dfrac{{{e^x} - {e^{ - x}}}}{{{e^x} + {e^{ - x}}}}, \quad{x_i} < 0} \end{array}} \right. $$ 式中:
$i$ 表示不同的通道,$e$ 表示可学习的参数。2.3 FCSA注意力机制模块
为了减少传统注意力机制在特征信息提取过程中的信息丢失,本文提出FCSA模块,通过创新性地融合通道与空间信息,赋予特征图中不同通道以自适应的重要性权重,同时保持空间和位置信息的完整性,可以最大限度上保留有效特征信息,减少特征信息丢失,其结构如图2所示。
FCSA模块包括压缩和激励(squeeze-and-excitation,SE)和CA(coordinate attention)两个特征提取分支,分别提取通道与空间信息。SE分支[30]通过一个权重矩阵,从通道域的角度赋予图像不同位置不同的权重,得到更重要的特征信息。CA分支[31]通过引入两个并行的注意力分支,分别对水平和竖直坐标方向上的特征进行编码,在避免二维全局池化过程中位置信息的损失的同时还能够捕获长距离的依赖关系,增强特征提取能力。
SE分支对C×H×W的输入通过全局平均池化,将每一个通道的空间维度压缩成一个标量。压缩后的特征图通过一个两层的全连接网络进行处理,首先经过一个全连接层将通道数降维,然后使用另一个全连接层升维回原通道数。接着将生成的通道权重重新应用到原始输入特征图上,生成通道维度上的注意力分布图,计算公式为
$$ \boldsymbol{L}\mathrm{_c}=\dfrac{1}{H\times W}\sum\limits_{i=1}^H\sum\limits_{j=1}^W\boldsymbol{X}_{\mathrm{c}ij} $$ $$ {\boldsymbol{s}} = \sigma \left\{ {{{\boldsymbol{W}}_2}\delta \left[ {\left( {{{\boldsymbol{W}}_1}{\boldsymbol{L}}} \right)} \right]} \right\} $$ $$ \boldsymbol{V}_{1\mathrm{c}}=\boldsymbol{s}_{\mathrm{c}}\times\boldsymbol{X}\mathrm{_c} $$ 式中:
$ {{\boldsymbol{X}}_c} $ 表示输入特征图,$ {{\boldsymbol{W}}_1} $ 和$ {{\boldsymbol{W}}_2} $ 分别表示两个全连接层的权重矩阵,$ \delta $ 表示非线性激活函数,$ \sigma $ 表示Sigmoid激活函数,${{\boldsymbol{V}}_1}$ 表示经过通道注意力后的特征图。CA分支对C×H×W的输入使用尺寸(H,1)和(1,H)的池化核沿着水平坐标方向和竖直坐标方向对每个通道进行编码。在坐标注意力生成时,模块先将生成的特征图进行变换和拼接,而后利用1×1卷积核对生成的特征图进行降维和激活操作。接着沿着空间维度,将激活后的特征图进行切割,并利用1×1卷积进行升维操作生成宽高维度上的注意力分布图,计算公式为
$$ {\boldsymbol{z}}_{\text{c}}^{\rm{h}}({\mathrm{h}}) = \dfrac{1}{W}\sum\limits_{0 \leqslant i < W\,} {{{\boldsymbol{X}}_{\mathrm{c}}}\left( {{\mathrm{h}},i} \right)} $$ $$ {\boldsymbol{z}}_{\text{c}}^{\rm{w}}({\mathrm{w}}) = \dfrac{1}{H}\sum\limits_{0 \leqslant j < { H}\,} {{{\boldsymbol{X}}_{\rm{c}}}\left( {j,{\text{w}}} \right)} $$ $$ {\boldsymbol{f}} = \delta \left\{ {{{\text{F}}_1}\left[ {\left( {{{\boldsymbol{z}}^{\rm{h}}},{{\boldsymbol{z}}^{\rm{w}}}} \right)} \right]} \right\} $$ $$ {{\boldsymbol{g}}^{\rm{h}}} = \sigma \left[ {{{\mathrm{F_h}}}\left( {{{\boldsymbol{f}}^{\rm{h}}}} \right)} \right] $$ $$ {{\boldsymbol{g}}^{\rm{w}}} = \sigma \left[ {{{\mathrm{F_w}}}\left( {{{\boldsymbol{f}}^{\rm{w}}}} \right)} \right] $$ $$ {{\boldsymbol{V}}_{2{\mathrm{c}}}}\left( {i{\text{,}}j} \right) = {{\boldsymbol{X}}_{\rm{c}}}\left( {i{\text{,}}j} \right) \times {\boldsymbol{g}}_{\rm{c}}^{\rm{h}}\left( i \right) \times {\boldsymbol{g}}_{\rm{c}}^{\rm{w}}\left( j \right) $$ 式中:
$ {{\mathrm{F}}_1} $ 表示1×1卷积,$ {{\mathrm{F_h}}} $ 表示在高度维度上的1×1卷积,$ {{\mathrm{F_w}}} $ 表示在宽度维度上的1×1卷积,$ {\boldsymbol{g}}_{\rm{c}}^{\rm{h}} $ 表示高度方向上的坐标注意力分数,$ {\boldsymbol{g}}_{\rm{c}}^{\rm{w}} $ 表示宽度方向上的坐标注意力分数,$ {{\boldsymbol{V}}_2} $ 表示经过空间注意力机制后的特征图。输入特征通过SE分支和CA分支后分别得到特征向量
${{\boldsymbol{V}}_1}$ 和$ {{\boldsymbol{V}}_2} $ ,接着引入一个可学习参数$\alpha $ ,将特征向量进行加权融合得到最终的预测向量${\boldsymbol{V}}$ 。FCSA模块兼顾通道和空间信息,提升特征提取的有效性和鲁棒性,具体计算公式为$$ {\boldsymbol{V}}=\alpha \cdot {{\boldsymbol{V}}}_{1}+(1-\alpha )\cdot {{\boldsymbol{V}}}_{2} $$ 式中:
$\alpha $ 表示一个可学习的参数,取值范围在[0,1];${\boldsymbol{V}}$ 表示融合后的特征图。2.4 特征融合模块
为有效融合经过双分支提取的纹线特征和全局特征,减少信息丢失和冗余,本文提出一种新的特征融合模块(feature fusion module, FFM),其结构如图3所示。
FFM模块实现了综合利用局部纹线特征和全局图像特征自动调整权重分配,使模型在不同层次上获取更加全面的图像特征,从而增强模型对整体指纹图像的理解。
具体而言,经过双分支输出的特征图X和Y首先进行逐元素相加,然后对得到初始融合特征图进行全局平均池化,得到全局特征向量S。将全局特征向量通过两个全连接层(其中第1个全连接层将特征维度降至r,第2个全连接层升维至原始通道数C),生成融合权重向量A和B。利用生成的权重向量A和B分别对输入特征图X和Y进行加权。最终,将加权后的特征图X′和Y′进行逐元素相加得到融合特征图Z,计算公式为
$$ {\boldsymbol{S}} = {\text{GAP}}({\boldsymbol{X}} + {\boldsymbol{Y}}) $$ $$ {\boldsymbol{A}} = \sigma \left\{ {{\mathrm{F{C_1}}}\left\{ {\delta \left[ {{\text{FC}}\left( {\boldsymbol{S}} \right)} \right]} \right\}} \right\} $$ $$ {\boldsymbol{B}} = \sigma \left\{ {{\mathrm{F{C_2}}}\left\{ {\delta \left[ {{\text{FC}}\left( {\boldsymbol{S}} \right)} \right]} \right\}} \right\} $$ $$ {{{\boldsymbol{Z}}={{\boldsymbol{X}}}{'}+{{\boldsymbol{Y}}}{'}={\boldsymbol{A}}\cdot{\boldsymbol{ X}}+{\boldsymbol{B}}\cdot {\boldsymbol{Y}}}} $$ 式中:GAP表示全局平均池化,FC表示降维的全连接层,FC1和FC2表示升维的全连接层,
$\delta $ 表示RELU激活函数,$\sigma $ 表示Sigmoid激活函数。2.5 损失函数
指纹主要由箕型纹和斗型纹构成,弓型纹在纹型中占比较低。针对指纹纹型数据集中样本不平衡的问题,本文引入改进的交叉熵损失Focal Loss,通过对各类样本施加不同的权重来加大对稀有指纹纹型分类错误的惩罚,从而使模型在训练过程中更加关注难以分类的样本,提高模型在多分类任务中的识别能力。Focal Loss计算公式为
$$ L({p_t}) = - {\alpha _t}{(1 - {p_t})^\gamma }\log ({p_t}) $$ 式中:
$ {p_t} $ 表示模型预测样本属于真实类别t的概率,${\alpha _t}$ 表示权重因子,用于平衡类别,$\gamma $ 表示可调节的聚焦参数。3. 实验及结果分析
本文实验是在使用Python语言的基础上利用PyTorch深度学习框架进行的,处理器为Intel(R) core(TM) i9-12900KS,内存为24GB,GPU为NVIDIA GeForce RTX 4090,操作系统为Windows11。
实验数据集中的指纹图像尺寸设置为224像素×224像素,并进行像素归一化处理。在训练的过程中选择自适应矩估计算法作为优化器。整个模型一共训练30轮次,将批处理的大小设置为32,初始学习率设置为
0.0001 ,并采用迁移学习加载部分预训练权重。3.1 指纹数据集的构建
针对纹型分类复杂的应用场景,本文通过采集公安实战领域中的指纹图像,构建一个包含各类质量的指纹纹型分类数据集。该数据集不仅涵盖了高质量的清晰指纹图像,还包括了模糊和残缺的指纹图像,旨在全面模拟多样性的实际应用场景中,提升所提模型的鲁棒性。指纹分为弓型、帐型、左箕、右箕和斗型5类,如图4所示。由于弓型纹和帐型纹具有相似的特征,在指纹分类领域通常将其合并为弓型纹。数据集包括弓、左箕、右箕和斗4类。
数据集经过中心区域的裁剪,得到涵盖各个年龄段的
5980 张指纹灰度图像。实验采用8∶2的比例随机将数据集划分为训练集和测试集,数据构成如表1所示。表 1 数据集构成Table 1 Dataset composition张 纹型 训练集 测试集 共计 弓 128 31 159 左箕 951 227 1 178 右箕 1 056 278 1 334 斗 2 649 660 3 309 共计 4 784 1 196 5 980 3.2 图像处理
图像处理部分具体包括直方图均衡化、背景分离、方向场图生成和Gabor滤波图处理。原始图像首先进行自适应直方图均衡化,用于改善图像的对比度。然后利用背景分离步骤去除图像中的背景噪声,突出指纹区域的有效信息。指纹的方向场是指纹图像的一种固有属性,反映了指纹图像场的中心、圆形纹线趋势场、斜角度直纹线趋势场、水平纹线趋势场及混合趋势场等。指纹纹型分类主要基于指纹图像的纹线,提取指纹的方向场图可以有效地获取指纹纹线的基本特征,更加直观地反映指纹的纹理模式。对于低质量图像中存在的噪声和局部图像模糊和缺损,方向场图能够保持整体的纹线方向信息,从而提高分类的鲁棒性和抗干扰能力。Gabor滤波器是一种可以在不同方向、尺度和频率信息上提取特征的滤波器,经常用于纹理识别,并取得了较好的效果。Gabor滤波器能够增强图像的局部特征使指纹图像更加清晰,如图像边缘和细节纹理,这对于指纹图像的处理尤为重要。同时利用Gabor滤波器能够有效地抑制噪声的影响,有助于分类模型更好地识别和区分不同的指纹类型。将背景分离后的指纹图像分别提取方向场图和Gabor滤波图像,处理如图5所示。
3.3 评价指标
为了科学地比较和分析模型在纹型分类中的性能,本文使用准确率、宏平均F1分数和曲线下面积(area under the curve, AUC)对模型结果进行评估。
准确率表示分类正确的样本数在总样本数中所占的比例。宏平均F1分数是所有类别的统计指标的算数平均值求得的。其同时兼顾准确率和召回率,适用于样本类别分布不均衡的情况,能够有效反映模型的性能。AUC是受试者工作特征曲线下方的面积,能够全面地评价分类模型的性能,AUC的值越大,分类效果越好。具体公式分别为
$$ {P_i} = \dfrac{{{N_{{\text{TP}}}}_i}}{{{N_{{\text{TP}}}}_i + {N_{{\text{FP}}i}}}} $$ $$ {R_i} = \dfrac{{{N_{{\text{TP}}}}_i}}{{{N_{{\text{TP}}}}_i + {N_{{\text{FN}}}}_i}} $$ $$ {F_1}_i = 2 \times \dfrac{{{P_i} \times {R_i}}}{{{P_i} + {R_i}}} $$ $$ {F_{1{\text{Macro}}}} = \dfrac{1}{C}\sum\limits_{i = 1}^C {{F_{1i}}} $$ 式中:i表示第i类的样本;NTP表示模型正确预测为正类的样本数;NFP表示模型错误预测为正类的样本数;NFN表示模型错误预测为负类的样本数;P表示精确率;R表示召回率; F1Macro表示宏平均F1得分,对每个类别分别计算F1得分然后取平均。
3.4 实验结果与分析
3.4.1 与其他模型性能对比
为验证所提模型分类效果的有效性和优越性,本文选择了3种经典的卷积神经网络(ResNet[32]、DenseNet[28]、EfficientNet[33])和4种Transformer架构网络(Vision Transformer[34]、Deit[35]、Swin Transformer[36]、RepViT[37])进行对比,所有实验在相同环境下进行训练和测试,其结果如表2所示。
表 2 本文模型与其他网络模型性能对比Table 2 Performance comparison of our model with other network models模型类别 模型 ACC/% F1/% AUC 卷积神经网络 ResNet 97.91 97.86 0.985 DenseNet 98.33 98.30 0.987 EfficientNet 96.66 96.69 0.977 Transformer 网络 Vision Transformer 97.24 97.25 0.978 Deit 97.83 97.83 0.987 Swin 98.24 98.23 0.987 RepViT 98.33 98.29 0.988 卷积神经网络 本文算法 99.08 99.06 0.995 实验结果表明,本文所提模型对指纹纹型分类的准确率为99.08%,F1得分为99.06%,AUC值为0.995,在准确率、F1得分和AUC值方面均优于其他所有模型,证明了本文算法在纹型分类任务上的有效性和优越性。在卷积神经网络中,DenseNet具有最高的分类准确率98.33%。在Transformer网络中,RepViT具有最高的分类准确率98.33%。优异的分类性能来源于双分支网络对于指纹图像的处理以及注意力机制对特征的充分提取,这使得模型在学习全局图像特征的同时能够兼顾指纹的细节纹线特征,突出纹线特征在指纹纹型分类中的比重。通过评价指标的对比,说明本文模型能够更全面地提取特征信息,改善传统网络结构中的特征信息丢失问题,且对于低质量的指纹图像具有更好的分类效果。
3.4.2 消融实验
为了研究各个模块对模型分类效果的影响,对所用方法进行消融实验,实验结果如表3所示。
表 3 消融实验结果Table 3 Results of ablation experiment模型 ACC/% F1/% AUC 原始图像 98.33 98.31 0.989 方向场 98.24 98.28 0.987 Gabor 滤波 98.50 98.49 0.989 Dual-Branch+FFM 98.66 98.65 0.991 Dual-Branch+FFM+FCSA 98.83 98.80 0.991 Dual-Branch+FFM+FCSA+ ReLU-Tanh 98.91 98.91 0.993 Dual-Branch+FFM+FCSA+ReLU-Tanh+Focal Loss 99.08 99.06 0.995 由实验结果可知,实验中的双分支、FFM特征融合模块、FCSA注意力机制模块、使用ReLU-Tanh激活函数和改进的交叉熵损失函数对于分类的模型性能均有提升。
指纹图像经过Gabor滤波后分类准确率出现提升,这表明Gabor滤波可以有效过滤噪声和处理复杂图像,对于模糊和残缺图像处理的效果更为明显。而经过提取方向场的图像分类效果反而下降,这是因为在提取方向场的过程中,指纹图像的部分信息特征丢失,仅保留关于指纹纹线方向的部分信息,对于一些图像会造成判断错误。但是在双分支网络特征融合之后,模型分类的准确率较原始图像提升了0.33百分点,证明双分支能够帮助模型实现更精确的分类。
基础模型的混淆矩阵如图6所示,改进后模型的混淆矩阵如图7所示。根据混淆矩阵可以看出,指纹纹型分类的难点主要是弓型纹与箕型纹以及斗型纹与箕型纹,它们的主要区别在于指纹纹线的具体细节和细微的纹线流向。在双分支结构中,方向场分支使模型集中地关注指纹纹线特征,并结合滤波后的增强图像,有效地弥补了模型在空间特征损失方面的问题,为分类提供了更加丰富和全面的信息。这种融合不仅提高了模型对指纹图像细节的捕捉能力,还增强了对复杂图像的处理效果。
FCSA模块的加入后使得模型的准确率较原始图像提升0.5百分点。这得益于它能够在不同尺度上综合考虑指纹图像特征,既赋予了特征图中不同通道的重要性权重,又保留了空间位置信息的完整性,最大限度的保留有效特征信息,去除冗余信息,为之后进行的双分支特征融合分类打好基础。通过添加FCSA模块,模型能够更加关注图像中关于指纹纹型的重要特征,提高模型的识别能力。
使用ReLU-Tanh组合激活函数通过引入非线性特征,灵活地处理负值输入,可以更全面地提取特征信息,能够有效地提高模型分类的准确率。
引入Focal Loss损失函数后模型较基础模型准确率略有提升。弓型纹在纹型中占比较低,并且帐型纹与箕型纹在形态上非常接近,往往难以区分。在样本分布不平衡时,Focal Loss能够强化模型对帐型纹与箕型纹边界附近样本的学习,通过增加这些边界样本的损失权重,鼓励模型更加关注这些难以区分的样本。在指纹纹型多分类问题中,能够提高对少数类的识别准确性,从而提升整体的分类效果。
3.4.3 热力图对比实验
为直观地观察模型在类别预测中关注的图像区域,验证模型在特征提取过程中的有效性。本文使用Grad-CAM[38]对两个分支提取的特征图分别进行可视化,结果如图8所示。
通过可视化结果,可以观察到模型可以集中地关注指纹的关键区域,能够准确地识别指纹的主要纹线和重要细节区域。Grad-CAM热力图主要集中在弓型纹的弓型线、箕型纹的箕型线以及斗型纹的斗型线,这说明模型能够理解不同纹型之间的差异,准确分类不同的纹线类型,充分利用纹线信息进行有效的分类决策。这有利于对一些难以区分的指纹图像进行分类。并且在一些噪声较大、质量较低的图像中,热力图仍能准确识别指纹图像的关键特征区域,进一步验证了模型的鲁棒性。综上所述,本文模型在理解指纹图像中的关键信息方面表现出色,具有优越的特征提取和分类能力。
4. 结束语
针对指纹纹型分类中复杂图像难以提取特征和特征提取不充分的问题,本文提出一种基于双分支注意力机制的指纹纹型分类方法,实现高效的纹型自动分类。通过方向场分支和Gabor滤波分支的特征融合,模型有效地提取了指纹图像的纹线特征和全局图像特征,并且对于模糊和缺损的图像分类效果显著。注意力机制模块实现了空间特征和通道特征综合利用,去除冗余特征,从而提高模型的分类效能。实验结果表明,本文所提模型在各项指标中均优于其他模型,具有良好的泛化性和鲁棒性。未来的研究中,将围绕模型的轻量化进行改进,减少模型参数量,并优化模型使其能够实际应用于其他公安实战分类任务中。
-
表 1 数据集构成
Table 1 Dataset composition
张 纹型 训练集 测试集 共计 弓 128 31 159 左箕 951 227 1 178 右箕 1 056 278 1 334 斗 2 649 660 3 309 共计 4 784 1 196 5 980 表 2 本文模型与其他网络模型性能对比
Table 2 Performance comparison of our model with other network models
模型类别 模型 ACC/% F1/% AUC 卷积神经网络 ResNet 97.91 97.86 0.985 DenseNet 98.33 98.30 0.987 EfficientNet 96.66 96.69 0.977 Transformer 网络 Vision Transformer 97.24 97.25 0.978 Deit 97.83 97.83 0.987 Swin 98.24 98.23 0.987 RepViT 98.33 98.29 0.988 卷积神经网络 本文算法 99.08 99.06 0.995 表 3 消融实验结果
Table 3 Results of ablation experiment
模型 ACC/% F1/% AUC 原始图像 98.33 98.31 0.989 方向场 98.24 98.28 0.987 Gabor 滤波 98.50 98.49 0.989 Dual-Branch+FFM 98.66 98.65 0.991 Dual-Branch+FFM+FCSA 98.83 98.80 0.991 Dual-Branch+FFM+FCSA+ ReLU-Tanh 98.91 98.91 0.993 Dual-Branch+FFM+FCSA+ReLU-Tanh+Focal Loss 99.08 99.06 0.995 -
[1] 李硕, 赵朝阳, 屈音璇, 等. 深度学习技术在指纹识别中的应用[J]. 计算机工程, 2024, 50(12): 33−47. LI Shuo, ZHAO Chaoyang, QU Yinxuan, et al. Application of deep learning in fingerprint recognition[J]. Computer engineering, 2024, 50(12): 33−47. [2] 江健, 张琪, 王财勇. 基于深度学习的虹膜识别研究综述[J]. 计算机科学与探索, 2024, 18(6): 1421−1437. doi: 10.3778/j.issn.1673-9418.2312062 JIANG Jian, ZHANG Qi, WANG Caiyong. Review of deep learning based iris recognition[J]. Journal of frontiers of computer science and technology, 2024, 18(6): 1421−1437. doi: 10.3778/j.issn.1673-9418.2312062 [3] 许文正, 黄天欢, 贲晛烨, 等. 跨视角步态识别综述[J]. 中国图象图形学报, 2023, 28(5): 1265−1286. doi: 10.11834/jig.220458 XU Wenzheng, HUANG Tianhuan, BEN Xianye, et al. Cross-view gait recognition: a review[J]. Journal of image and graphics, 2023, 28(5): 1265−1286. doi: 10.11834/jig.220458 [4] WIN K N, LI Kenli, CHEN Jianguo, et al. Fingerprint classification and identification algorithms for criminal investigation: a survey[J]. Future generation computer systems, 2020, 110: 758−771. doi: 10.1016/j.future.2019.10.019 [5] HENRY E R. Classification and uses of finger prints[M]. [S. l.]: HM Stationery office, 1928. [6] CAO Kai, PANG Liaojun, LIANG Jimin, et al. Fingerprint classification by a hierarchical classifier[J]. Pattern recognition, 2013, 46(12): 3186−3197. doi: 10.1016/j.patcog.2013.05.008 [7] JUNG H W, LEE J H. Noisy and incomplete fingerprint classification using local ridge distribution models[J]. Pattern recognition, 2015, 48(2): 473−484. doi: 10.1016/j.patcog.2014.07.030 [8] LIU Manhua. Fingerprint classification based on singularities[C]//2009 Chinese Conference on Pattern Recognition. Nanjing: IEEE, 2009: 1-5. [9] ANUSHA K, SIVA KUMAR P V. Fingerprint image enhancement for crime detection using deep learning[C]//Proceedings of the International Conference on Cognitive and Intelligent Computing. Singapore: Springer Nature Singapore, 2023: 257−268. [10] LING Hefei, WU Jiyang, HUANG Junrui, et al. Attention-based convolutional neural network for deep face recognition[J]. Multimedia tools and applications, 2020, 79(9): 5595−5616. [11] MICHELE A, COLIN V, SANTIKA D D. MobileNet convolutional neural networks and support vector machines for palmprint recognition[J]. Procedia computer science, 2019, 157: 110−117. doi: 10.1016/j.procs.2019.08.147 [12] DONIDA LABATI R, GENOVESE A, MUÑOZ E, et al. A novel pore extraction method for heterogeneous fingerprint images using convolutional neural networks[J]. Pattern recognition letters, 2018, 113: 58−66. doi: 10.1016/j.patrec.2017.04.001 [13] NOGUEIRA R F, DE ALENCAR LOTUFO R, CAMPOS MACHADO R. Fingerprint liveness detection using convolutional neural networks[J]. IEEE transactions on information forensics and security, 2016, 11(6): 1206−1213. doi: 10.1109/TIFS.2016.2520880 [14] 高梦婷, 孙晗, 唐云祁, 等. 基于改进YOLOv5的指纹二级特征检测方法[J]. 激光与光电子学进展, 2023, 60(10): 89−99. GAO Mengting, SUN Han, TANG Yunqi, et al. Fingerprint second-order minutiae detection method based on improved YOLOv5[J]. Laser & optoelectronics progress, 2023, 60(10): 89−99. [15] TANG Yao, GAO Fei, FENG Jufu. Latent fingerprint minutia extraction using fully convolutional network[C]//2017 IEEE International Joint Conference on Biometrics. Denver: IEEE, 2017: 117−123. [16] MILITELLO C, RUNDO L, VITABILE S, et al. Fingerprint classification based on deep learning approaches: experimental findings and comparisons[J]. Symmetry, 2021, 13(5): 750. doi: 10.3390/sym13050750 [17] WANG Ruxin, HAN Congying, GUO Tiande. A novel fingerprint classification method based on deep learning[C]//2016 23rd International Conference on Pattern Recognition. Cancun: IEEE, 2016: 931−936. [18] PERALTA D, TRIGUERO I, GARCÍA S, et al. On the use of convolutional neural networks for robust classification of multiple fingerprint captures[J]. International journal of intelligent systems, 2018, 33(1): 213−230. doi: 10.1002/int.21948 [19] 李伯男, 赵彤, 吴敏. 基于胶囊网络的海量指纹纹型精准分类算法[J]. 中国科学院大学学报, 2020, 37(3): 387−397. doi: 10.7523/j.issn.2095-6134.2020.03.012 LI Bonan, ZHAO Tong, WU Min. Fast exact classification algorithm of massive fingerprint patterns based on capsule network[J]. Journal of University of Chinese Academy of Sciences, 2020, 37(3): 387−397. doi: 10.7523/j.issn.2095-6134.2020.03.012 [20] TERTYCHNYI P, OZCINAR C, ANBARJAFARI G. Low-quality fingerprint classification using deep neural network[J]. IET biometrics, 2018, 7(6): 550−556. doi: 10.1049/iet-bmt.2018.5074 [21] 甘俊英, 戚玲, 项俐, 等. 轻量化多特征融合的指纹分类算法研究[J]. 信号处理, 2019, 35(5): 888−896. GAN Junying, QI Ling, XIANG Li, et al. Research on lightweight multi-feature fusion fingerprint classification algorithm[J]. Journal of signal processing, 2019, 35(5): 888−896. [22] JIAN Wen, ZHOU Yujie, LIU Hongming. Lightweight convolutional neural network based on singularity ROI for fingerprint classification[J]. IEEE access, 2020, 8: 54554−54563. doi: 10.1109/ACCESS.2020.2981515 [23] HOU Yuejie, XIE Zaixin, HU Jian. An unsupervised deep-learning method for fingerprint classification: the ccae network and the hybrid clustering strategy[EB/OL]. (2021−09−12) [2024−07−02]. https://arxiv.org/pdf/2109.05526. [24] FENG Jianjiang, ZHOU Jie, JAIN A K. Orientation field estimation for latent fingerprint enhancement[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(4): 925−940. doi: 10.1109/TPAMI.2012.155 [25] YANG Jianwei, LIU Lifeng, JIANG Tianzi, et al. A modified Gabor filter design method for fingerprint image enhancement[J]. Pattern recognition letters, 2003, 24(12): 1805−1817. doi: 10.1016/S0167-8655(03)00005-9 [26] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999−3007. [27] LI C, ZHOU A, YAO A. Omni-dimensional dynamic convolution[EB/OL]. (2022−09−16) [2024−07−02]. https://arxiv.org/pdf/2209.07947.pdf. [28] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2261−2269. [29] DAI Yimian, GIESEKE F, OEHMCKE S, et al. Attentional feature fusion[C]//2021 IEEE Winter Conference on Applications of Computer Vision. Waikoloa: IEEE, 2021: 3560−3569. [30] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 7132−7141. [31] HOU Qibin, ZHOU Daquan, FENG Jiashi. Coordinate attention for efficient mobile network design[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021: 13708−13717. [32] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770−778. [33] TAN Mingxing, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[EB/OL]. (2019−05−28)[2024−06−21]. https://arxiv.org/abs/1905.11946v5. [34] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2021−06−03)[2024−07−02]. https://arxiv.org/pdf/2010.11929. [35] TOUVRON H, CORD M, DOUZE M, et al. Training data-efficient image transformers & distillation through attention[EB/OL]. (2020−12−23) [2024−06−21]. https://arxiv.org/abs/2012.12877v2. [36] LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision. Montreal: IEEE, 2021: 9992−10002. [37] WANG Ao, CHEN Hui, LIN Zijia, et al. Rep ViT: revisiting mobile CNN from ViT perspective[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2024: 15909−15920. [38] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[J]. International journal of computer vision, 2020, 128(2): 336−359. doi: 10.1007/s11263-019-01228-7