基于红外可见光融合的复杂环境下人脸识别方法

引用本文

冯广, 鲍龙. 基于红外可见光融合的复杂环境下人脸识别方法[J]. 广东工业大学学报, 2024, 41(3): 62-70, 109. DOI: 10.12052/gdutxb.230052.

Feng Guang, Bao Long. Face Recognition Method in Complex Environment Based on Infrared Visible Fusion[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2024, 41(3): 62-70, 109. DOI: 10.12052/gdutxb.230052.

基金项目:

国家自然科学基金资助项目(62237001)；广东省哲学社会科学项目(GD23YJY08)

作者简介:

冯广(1973–) ，男，教授级高级实验师，博士，主要研究方向为网络控制、机器学习、大数据，E-mail：von@gdut.edu.cn。

文章历史

收稿日期：2023-03-20

Contents Abstract Full text Figures/Tables PDF

基于红外可见光融合的复杂环境下人脸识别方法

冯广¹, 鲍龙²

1. 广东工业大学自动化学院, 广东广州 510006;
2. 广东工业大学计算机学院, 广东广州 510006

收稿日期：2023-03-20

基金项目：国家自然科学基金资助项目(62237001)；广东省哲学社会科学项目(GD23YJY08)

作者简介：冯广(1973–) ，男，教授级高级实验师，博士，主要研究方向为网络控制、机器学习、大数据，E-mail：von@gdut.edu.cn。

摘要: 随着深度学习方法的发展，理想环境下基于可见光的人脸识别精度和速度已经达到优秀的水平。但是在弱光等复杂环境下，由于缺少光源，可见光图像无法体现人脸细节，导致人脸识别效果下降甚至失效。为了解决这一问题，提出一种基于红外可见光融合的复杂环境下人脸识别方法。首先，针对低照度环境提出联合CNN(Convolutional Neural Network) 和Transformer的红外与可见光融合识别网络，并联CNN和视觉Transformer组成单模态特征融合模块，充分利用源图像的局部细节信息和全局上下文信息。同时，提出一种基于模态平均差异度的多模态特征融合策略，强化对源图像不同区域特征的差异化表达。其次，针对实际应用中融合识别网络模型大、速度慢的问题提出轻量化人脸识别网络MobileFaceNet-Coo和基于边云协同的自适应识别策略，通过图像质量选择识别模型，有效利用硬件资源。实验结果表明，弱光条件下，融合红外光与仅使用可见光图像相比，识别率提升了13.96个百分点。同时，将本方法应用实际项目中，结果表明：本方法在复杂环境下，能提高人脸识别的实时性和准确率。

关键词: 人脸识别图像融合低照度 Transformer

Face Recognition Method in Complex Environment Based on Infrared Visible Fusion

Feng Guang¹, Bao Long²

1. School of Automation, Guangdong University of Technology, Guangzhou 510006, China;
2. School of Computer Science and Technology, Guangdong University of Technology, Guangzhou 510006, China

Abstract: With the development of deep learning methods, the accuracy and speed of face recognition based on visible light in ideal environments have reached an excellent level. However, in complex environments such as low light, the lack of a light source keeps visible images from reflecting face details, resulting in reduced or even invalid face recognition. Aiming at the problems in this issue, a face recognition method in complex environments based on infrared-visible light fusion is proposed. Firstly, an infrared and visible fusion recognition network combining CNN and Transformer is introduced, specifically designed for low illumination environments. This network combines CNN and visual Transformer in parallel to form a single-mode feature fusion module, which is utilized to effectively utilize local details and global context information from the source image. Additionally, a multimodal feature fusion strategy based on the average difference of modes is proposed to enhance the distinctive expression of different regional features in the source image. Secondly, a lightweight face recognition network MobileFaceNet-Coo and an adaptive recognition strategy based on edge-cloud collaboration are proposed in order to solve the problem of large and slow fusion recognition network models in practical applications. This strategy selects the recognition model through image quality and effectively utilizes hardware resources. Experimental results demonstrate that the recognition rate of fused infrared light is 13.96 percentage point higher than that of visible light alone. Real-world project result shows that this method significantly improves real-time and accuracy of face recognition in complex environments.

Key words: face recognition image fusion low illumination Transformer

人脸识别作为一种高效准确的身份认证技术，已经受到学界的广泛关注，并且在解锁终端、移动支付、登陆应用等领域应用广泛。但目前的识别算法绝大部分基于可见光图像研究，虽然可见光图像容纳了充足的纹理细节信息，但实际场景中拍摄环境复杂、人像存在遮挡、光照不均以及噪声干扰等情况，导致实际应用中识别效果不及预期。而红外图像由于其利用热辐射能量成像的特性，抗干扰能力强，可以显著突出目标，但存在对比度低、边缘模糊、人像纹理细节等特征损失的缺陷。因此，综合利用两种模态图像的特点，将同一场景中的红外图像与可见光图像融合识别，对复杂环境下人脸识别技术的发展有重要的研究价值。

目前对于红外和可见光融合人脸识别的研究相对较少，Singh 等^[1]通过残差网络实现对热红外图像中微小人脸特征的提取。马娜^[2]利用微米波段的可见和近红外光谱提出了一种基于Gabor特征融合的人脸识别算法；郭婷等^[3]提出了一种基于图谱融合的自适应特征融合方法。谢志华等^[4]提出了一种基于VGG网络的分块谱带选择人脸识别算法，融合了不同谱带的深度特征。但以上方法均存在网络设计简单、特征融合方法限于拼接、无法有效融合特征等缺点，因此鲁棒性差，在实际应用中没有体现出红外和可见光融合人脸识别的独特优势。

而在红外与可见光图像融合领域，目前受到广泛应用的是深度学习方法，Li 等^[5]使用卷积神经网络提取图像凸出部分的多尺度深层特征，从而在融合时保留了丰富的纹理信息，但是融合结构简单，融合图像质量易受影响；Ma 等^[6]提出了 FusionGAN，将 GAN 引入到红外与可见光图像的融合任务中。通过生成器融合图像，判断器判断融合图像与可见光图像之间的相似度，虽然保留了一定的纹理和目标信息，但是对比度较低，融合图像暗淡；Prabhakar 等^[7] 提出DeepFuse，该算法利用卷积神经网络提取原图像的特征图，然后分别融合不同维度上的特征图，最后解码还原得到融合图像，这种方法由于自编码器的结构限制，合成图像依赖于最后一层网络特征的提取能力。同时，上述基于卷积神经网络的方法受卷积机制的限制，无法利用图像中的上下文信息指导图像融合，降低了融合图像的质量。

以上研究现状表明，基于红外和可见光融合的人脸识别是一种提升复杂环境下人脸识别效果的有效方法，但目前在网络结构、特征融合策略等方面的研究还不够深入，没有充分利用源图像特征信息，缺乏对源图像细节信息的保留。为此，本文提出了一种基于红外可见光融合的复杂环境下自适应人脸识别方法，该方法通过联合CNN和Transformer的红外与可见光人脸融合识别网络，充分利用CNN提取局部细节特征和Transformer提取全局上下文特征的能力，提取多模态图像的局部和全局特征，同时在多模态图像特征融合前加入单模态特征预融合模块，使网络可以提取区域之间多尺度特征的差异，从而加深不同区域不同尺度特征之间的联系。此外根据模态之间平均差异度提出了一种多模态特征融合策略，根据不同模态特征差异引导融合过程中信息的自适应表达，综合不同模态图像优点，有效减少信息丢失，提升了复杂环境下的人脸识别效果。同时通过轻量级人脸识别网络和基于边云协同的自适应识别策略，显著提升了人脸识别方法的识别效率。实验表明，在模拟实际应用的环境下，所提出的系统在实时性和准确率方面都有明显改善。

1 基于红外可见光融合的复杂环境下自适应人脸识别方法结构 1.1 基于红外可见光融合的复杂环境下自适应人脸识别框架研究

单模态的图像通过部分谱段感知外部环境，从而获取对应谱段的环境信息，这导致单模态图像描述环境时信息量不足，缺失对谱段外场景信息的描述。红外光图像通过捕获的物体热辐射释放的能量描述发热目标的位置信息和轮廓信息，但也导致它在获取物体的纹理背景等信息方面存在缺陷。而可见光图像通过接受物体的表面反射光来表征物体的场景细节、纹理特征等信息，但在光照不足的情况下无法检测目标。因此单纯基于可见光和红外光的人脸识别方法在应用场景方面都存在限制，在复杂环境下无法满足识别需求。

为了提升复杂环境下人脸识别的效果，综合利用多模态图像优势，本文提出一种联合CNN和Transformer的红外与可见光人脸融合识别网络，在弱光环境下根据源图像不同区域信息差异自适应融合两种模态图像，使融合后的图像既具有红外图像的热辐射目标信息，又具备可见光图像充分的纹理特征，有效降低了光照等环境因素的干扰，提升弱光条件下人脸识别的鲁棒性。

准确识别不同质量的图像时需要的模型规模存在差异。融合识别模型在显著提升弱光条件下人脸识别率的同时，由于其模型结构复杂、参数量大，因而对部署平台提出了更高的性能要求。为了适应实际需求，提升识别的实时性，本文结合边云协同和融合识别网络提出一种基于红外可见光融合的复杂环境下自适应人脸识别方法，该方法包含了基于边缘计算的 MobileFaceNet-Coo人脸识别网络和基于云计算的联合CNN和Transformer的红外与可见光人脸融合识别网络，利用特征范数判断图片质量^[8]，自适应选择识别模型，有效提升识别效率，其结构如图1所示。

图 1 人脸识别框架 Figure 1 Face recognition framework

当采集到目标人脸图像时，在边缘端先完成预处理和MobileFaceNet-Coo特征提取，然后计算所获得的人脸图像特征范数，当范数大于预先设定的阈值时，在边缘设备本地进行余弦相似度匹配并进行即时结果展示，当范数小于预先设定的阈值时，将采集到的人脸图像通过网络发送至云端，在云端上进行人脸图像预处理，融合识别网络特征提取和余弦相似度匹配，得出人脸识别结果并返回终端设备进行展示；如果预定时间内终端设备没有接收到云端的反馈，则返回重新采集图像。

传统图像质量评估算法较为复杂，为了在边缘设备尽可能减少工作量，降低计算资源的消耗，协同模型采用特征范数作为评估指标，特征范数是计算特征向量的中间结果，并不占据额外的计算资源，有效提升了计算资源的利用率。下面分别描述2个识别算法。

1.2 基于边缘平台的MobileFaceNet-Coo人脸识别方法

基于边缘平台的MobileFaceNet-Coo人脸识别方法包含4个部分，分别是人脸图像预处理、MobileFaceNet-Coo特征提取、余弦相似度人脸匹配以及返回人脸识别结果。

人脸图像预处理将采集到的人脸图像处理成能够被MobileFaceNet-Coo接受并转换成特征向量的人脸图像块，包含3个部分：图像预处理、人脸检测、人脸矫正。图像预处理通过灰度化、直方图均衡化处理采集到的人脸图像，降低计算量同时减少不相关因素对识别结果的影响。人脸检测使用MTCNN^[9]检测截取人脸并调整为128×128像素的图像块，同时获取面部关键点坐标。人脸矫正利用关键点坐标和仿射函数对人脸区域进行矫正。人脸匹配使用余弦相似度匹配算法，将MobileFaceNet-Coo人脸特征数据库中的标准人脸特征向量与目标人脸特征向量进行比较，选择符合阈值限制同时相似度最高的人脸。最后根据选定的人脸身份信息返回人脸识别结果。

人脸特征提取直接关系到人脸识别的效果，是研究优化的重点。MobileFaceNet-Coo在MobileFaceNet的基础上通过引入CoordAtt注意力模块提高了对空间和通道信息的关注^[10]，采用Coo-bneck模块作为网络组成模块，在bneck的基础上根据空间信息动态增强有用特征的表达，同时调整网络结构，进一步提升模型特征提取能力。

1.2.1 Coo-bneck设计

MobileFaceNet是基于MobileNetv2构建^[11]，原始bneck使用深度分离可卷积(DWConv) ，在通过分组卷积降低参数量的同时，存在缺乏跨通道信息和空间位置信息的问题，为此在DWConv层后添加CoordAtt注意力模块^[10]，并在支路特征Contact阶段加入通道混洗操作，提升模型的特征表达能力。

CoordAtt注意力模块利用两个一维全局池化操作将水平、竖直两个方向上的输入特征聚合成2个独立方向特征图，这2个特征图包含了全局特征在特定方向上的长程依赖，最后融入输出特征图，从而增强特征图的位置表示能力。最后用一个1×1卷积层融合各通道的特征。

基于保持网络轻量级特性和提升对跨通道信息和空间位置信息关注的原则，采用通道混洗使不同通道特征相互关联，同时采用CoordAtt注意力模块替换SE模块，将空间信息嵌入通道注意力中，同时使得特征提取网络可以根据特征图包含的空间信息动态增强有用的特征表达，提出了Coo-bneck，其结构如图2所示。

图 2 Coo-bneck模块结构 Figure 2 Coo-bneck module structure

输入特征首先经过1×1卷积层进行升维处理，然后进入3×3深度分离可卷积层及CoordAttblock，而后根据每一个block的stride采取不同的策略。stride=1时输入输出通道数相等，根据ShuffleNetV2所提出的设计原则^[12]，这种操作可以减少访存次数，同时不需要调整通道数，因此可以加入shortcut操作，在没有额外操作的基础上增加网络深度，在最后连接支路特征信息时，采用通道混洗操作使不同支路通道信息通信，促进通道信息融合。stride=2时直接进入1×1降维投影层，完成输出。在每层的激活函数选择上，前3个block采用ReLU6激活函数，其他block采用h-switch激活函数。

1.2.2 MobileFaceNet-Coo网络设计

在MobileFaceNet的基础上，本文构建了MobileFaceNet-Coo轻量级卷积神经网络，具体网络结构如图3所示，该网络主要部分由Coo-bneck堆叠构成，第1层是传统卷积进行快速下采样操作，降低特征维度，然后利用6个Coo-bneck的堆叠提取丰富的人脸特征，并增加特征的通道数，同时在池化层部分，用全局深度卷积层(Global Depthwise Convolution，GDConv)替换全局池化层，受到倒残差的启发，在最后增加一个1×1卷积层获取高维特征，由于特征图较小，在获取更丰富的特征满足需求的同时没有提高计算成本。

图 3 MobileFaceNet-Coo网络结构 Figure 3 MobileFaceNet-Coo network structure

1.3 基于云平台的联合CNN和Transformer的红外与可见光人脸融合识别网络

基于云平台的联合CNN和Transformer的红外与可见光人脸融合识别模型结构如图4所示，整体流程为：经过预处理的红外图像和可见光图像分别进入编码器网络提取特征，得到各自的特征图F₁和F₂，然后将2种特征图根据预设的多模态特征融合策略进行融合得到融合图像的特征图F，将特征图F调整为128维特征向量，通过余弦相似度比对获取识别结果。编码器网络由3个模块构成，分别是卷积神经网络(CNN)、Transformer模块、单模态特征融合(Fusion) 模块。其中CNN模块和Transformer模块分别提取源图像中的局部特征和全局特征，然后将特征信息在Fusion模块中进行融合，从而实现对全局信息和局部信息的充分利用。最后根据融合策略输出的融合特征图通过全局深度卷积(GDConv)操作进行特征编码，输出128维特征向量。

图 4 联合CNN和Transformer的红外与可见光人脸融合识别模型结构 Figure 4 The structure of the infrared and visible face fusion recognition model combined with CNN and Transformer

联合CNN和Transformer的红外与可见光人脸融合识别模型在提取单模态图像特征方面应用了CNN和Transformer两种网络，充分利用CNN提取局部细节特征和Transformer提取全局上下文特征的能力，同时在多模态图像特征融合前加入单模态特征预融合模块，根据细节特征和全局特征的不同特性有效整合，建立不同区域之间的相关性，使网络同时关注到来自单模态图像中的局部和全局信息，提取区域之间多尺度特征的差异，并加深不同区域不同尺度特征之间的联系。

将多模态特征图进行融合对综合体现不同模态图像特征有重要意义，但大部分网络采用的都是简单的加和拼接，无法有效融合特征，反而影响了对特征信息的差异化表达，为此根据模态之间平均差异度提出了一种多模态融合策略，充分参考红外和可见光图像中的显著特征，根据不同模态特征差异引导融合过程中信息的自适应表达，综合不同模态图像优点，更好体现红外图像中的目标位置信息和突出可见光图像中的背景纹理细节，有效减少信息丢失，提升了复杂环境下的人脸识别效果。

1.3.1 CNN模块

CNN模块的作用为提取图像的局部特征，结构如图5所示。其设计类似于DenseNet^[13]，由5层密集卷积块组成，通过这种卷积结构可以使CNN模块更好地聚焦于图像的浅层局部特征。从第2层开始每层都参与后几层的输出，密集卷积块由3×3卷积、批归一化层 (BN) 和LeakyReLU 激活函数组成。

图 5 CNN模块结构 Figure 5 CNN module structure

1.3.2 Transformer模块

Transformer模块参考了Restormer^[14]中的多头转置注意力模块(MDTA) 与多尺度通道注意力模块^[15](MS-CAM) 组合提取源图像的全局特征。MDTA通过跨通道应用自注意力替代空间维度上应用自注意力的方式解决了传统Transformer中多头自注意力模块计算量随输入分辨率呈二次增长的问题。

给定一个输入图像$ I\in {{\bf{R}}}^{{H}\times {W}\times {C}} $，这里的H、W、C分别指代输入图像的高度、宽度和通道数。输入I经层归一化、1×1卷积和3×3深度卷积得到query(Q) 、key(K) 和value(V) 。然后将Q和K的维度改组为$ {{\bf{R}}}^{{H}{W}\times {C}} $，$ {{\bf{R}}}^{{C}\times {H}{W}} $并进行矩阵相乘，生成转置特征图M，其尺寸为$ {{\bf{R}}}^{{C}\times {C}} $，相较于原来在空间维度上自注意力生成的特征图维度$ {{\bf{R}}}^{{H}{W}\times {H}{W}} $，计算量明显降低。

视觉Transformer中利用全连接层转换特征，输出最终结果是常用做法，MDTA的输出特征由于应用通道维度的自注意力机制，需要强化跨通道信息的表达，为此本文使用MS-CAM模块替代原来的全连接层。MS-CAM模块用点卷积调整通道维度，并在空间层面上融合不同尺度的上下文信息，进一步强化了MDTA获得的全局特征，其结构如图6所示。具体来说，本文的Transformer模块通过式(1) ~(4) 实现了全局特征的提取。

图 6 Transformer模块结构 Figure 6 Transformer module structure

$ T(Q,K,V) = V \times {{\rm{Softmax}}} (K \times Q/\gamma ) $

(1)

$ X' = {\rm{Con}}{{\rm{v}}_{1 \times 1}}(A(Q,K,V) ) + X $

(2)

$ L(X') = B({\rm{Con}}{{\rm{v}}_{1 \times 1}}(\delta (B({\rm{Con}}{{\rm{v}}_{1 \times 1}}(X') ) ) ) ) $

(3)

$ F = X' \otimes (L(X') \oplus G(X') ) $

(4)

式(1)~(2)为MDTA过程，其中${X}'$、X分别为输出特征图和输入特征图，$ A\left(Q,K,V\right) $为计算自注意力，$ \mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{m}\mathrm{a}\mathrm{x} $为Softmax操作，$ {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{1\times 1} $为1×1卷积操作，$ \gamma $是一个调节$ Q $, K相乘结果大小的可学习缩放系数。式(3)~(4)为MS-CAM过程，其中L($ {X}' $)为局部通道注意力，$ B $为批归一化，$ \delta $为ReLU激活函数，$ G({X}') $为全局注意力，与$ L({X}') $不同在于一开始就对输入进行一次全局平均池化操作。

1.3.3 单模态特征预融合(Fusion)模块

单模态特征预融合(Fusion)模块通过整合来自CNN模块和Transformer模块的特征，连接来自不同区域的信息，使后续任务能够充分接受到图像多尺度特征信息，其结构如图7所示，具体计算过程为式(5)~(7)。

图 7 Fusion模块结构 Figure 7 Fusion module structure

$ F_{\rm{C}}' = {\rm{GAMSpAtt}}({F_{\rm{C}}}) $

(5)

$ F' = {\rm{Conv}}({\rm{Conv}}({F_C}) \odot {\rm{Conv}}({F_{\rm{T}}}) ) $

(6)

$ F = {\rm{Conv}}({\rm{Cat}}(F_{\rm{C}}',{F_{\rm{T}}},{F'}) ) $

(7)

式中：GAMSpAtt参考了CBAM ^[16]中的空间注意力模块，用来使CNN模块提取的特征增加对空间信息的关注，同时在多尺寸融合时利用哈尔玛乘积$ ⨀ $和卷积操作使局部特征$ {F}_{\mathrm{C}} $和全局特征$ {F}_{\mathrm{T}} $完成交互，使不同位置不同尺度的特征加深关联。最后在通道层面拼接预融合特征图$ {F'} $、局部特征图$ {F'_{\mathrm{C}} }$以及全局特征图$ {F}_{\mathrm{T}} $，并进行卷积运算得到最终的单模态融合特征图$ F $。

1.3.4 多模态特征融合策略

多模态特征融合模块使用多模态图像中的特征差异引导源图像信息自适应表达，更好地突出红外图像中的发热目标和可见光图像中的背景纹理，具体流程如图8所示。

图 8 多模态特征融合策略 Figure 8 Multimodal feature fusion strategy

为了显式表达红外与可见光图像中的差异特征，首先计算Fusion模块所获取红外特征图像$ {F}_{{\rm{i}}} $，可见光特征图像$ {F}_{{\rm{v}}} $之间的差异特征图，同时计算相对差异系数，如式(8)~(10)所示。

$ \mu = {\rm{Avg}}(| {{F_{\rm{i}}} - {F_{\rm{v}}}} |) $

(8)

$ {\lambda _1} = \frac{{{F_{\rm{i}}} - \mu }}{{\sqrt {\sum {{\left( {{F_{\rm{i}}} - \mu } \right)}^2}} }} $

(9)

$ {\lambda _2} = \frac{{{F_{\rm{v}}} - \mu }}{{\sqrt {{{\sum {\left( {{F_{\rm{v}}} - \mu } \right) } }^2}} }} $

(10)

式中：Avg指对差异特征图进行全局平均池化操作，$ \mu $为差异特征图的平均差异度，$ {\lambda }_{1} $和$ {\lambda }_{2} $为2种模态的相对差异系数。

为了根据双模态特征图中像素的重要性差异自适应分配红外和可见光特征图中元素的权重，突出需要表达的特征，将式(9)~(10)中得到的相对差异系数与其绝对值相加求均值，然后与初始特征图相乘得到加权预融合特征图$ {F}_{1} $、$ {F}_{2} $，计算如式(11)~(12)所示。

$ {F_1} = \frac{{{\lambda _1} + | {{\lambda _1}} |}}{2} \times {F_{\rm{i}}} + (1 - \frac{{{\lambda _1} + | {{\lambda _1}} |}}{2}) \times {F_{\rm{v}}} $

(11)

$ {F_2} = \frac{{{\lambda _2} + | {{\lambda _2}} |}}{2} \times {F_{\rm{v}}} + (1 - \frac{{{\lambda _2} + | {{\lambda _2}} |}}{2}) \times {F_{\rm{i}}} $

(12)

将式(11)~(12)中双模态预融合特征图进行平均运算得到最终的多模态融合特征图F，如式(13) 所示。

$ F = \frac{{{F_1} + F_2^{}}}{2} $

(13)

2 实验验证及应用验证 2.1 实验验证 2.1.1 实验数据集

本实验使用CASIA-Webface人脸数据集^[17]作为轻量识别网络的数据集和融合识别网络的预训练数据集，CASIA-Webface人脸数据集包含了了10 575个人的490 871张人像，该数据集覆盖了大范围的姿态、年龄和种族，用于训练人脸识别有很好的鲁棒性。并使用CASIA NIR-VIS 2.0数据集^[18]作为融合识别网络的迁移数据集，包含 725 个身份ID，每个ID有1~22个可见光图像和5~50个红外光图像。训练时采用加噪声、旋转进行数据增强，并裁剪成112×112像素的人像图片用于训练。

轻量识别网络的测试集数据使用LFW^[19]、CPLFW^[20]、AgeDB-30^[21]。LFW人脸数据集包含了5 749个人的13 233张人像，图片人物的表情、光照、姿势等条件都不同。CPLFW数据集是LFW数据集针对不同姿态识别的扩展，包含500个人的7 000张人像。AgeDB-30所包含的人像年龄差较大，包含440个人的12 240张人像，年龄跨度为30。

2.1.2 实验环境和参数设置

本次实验以GeForce GTX TITAN X(12 G) 和Intel(R) Xeon(R) CPU E5-2643 v3 @ 3.40 GHz为边缘计算设备，以NVIDIA RTX 3070Ti 8 GB GPU和Intel(R) Core(TM) i7-11700K @ 3.60 GHz CPU的服务器为云计算设备；双端模型均在NVIDIA RTX 3070Ti 8 GB的GPU上训练，整个过程都是在pytorch框架下进行，均采用Arcface损失函数监督训练过程。网络训练参数如下：训练总轮数epoch设为100，batchsize设置为32，初始学习率设置为0.1，权重衰减参数设置为4×10⁻⁵，使用SGD优化模型，动量参数设置为0.9。边缘模型和云端模型均采取固定浅层参数，采用微调高层参数的方法对网络进行微调，具体的微调策略是只训练GDConv层及之后的全连接层。

2.1.3 轻量化识别模型性能评估

为了验证本文提出的边缘模型的有效性，本实验选择了4种不同的特征提取网络，即MobileNetV3、Shufflefacenet、MobileFaceNet以及本文的MobileFaceNet-Coo。实验测试人脸识别的性能指标，其中平均准确率通过10折交叉验证的方式获取。4个模型在边缘设备上的运行时间及准确率如表1所示。

表 1 四种轻量级网络的性能比较 Table 1 Performance comparison of four lightweight networks

从表中可以看出MobileFaceNet-Coo在略微增加运行时间的情况下，在3种不同数据集上均取得了最佳效果，特别是由于增加了对通道信息和空间信息的关注，在姿态数据CPLFW上相较于MobileFaceNet性能更好，符合实际需求，适合部署在资源不足的边缘设备上。

2.1.4 红外与可见光融合识别模型性能评估

对融合识别模型的训练样本按 9:1 划分为训练集和测试集，并以光照质量为标准将测试集划分为光照正常(Test-G) 与光照不良(Test-B) 两部分，将融合识别模型与边缘端轻量化识别模型比较，验证融合识别模型在不同图像质量下的识别效果。同时为了验证本文融合识别模型在红外与可见光图像上的融合效果，将本模型和近几年一些典型的深度学习融合方法结合识别模块进行比较，这些模型包括SeA Fusion ^[22]、DenseFuse^[5]、FusionGAN^[6]和 GANMcC^[23]。

从表2可以看出，与轻量化模型相比，融合识别模型在保持实时识别性的前提下，在光照不良测试集上的识别率提升了13.96个百分点，显著提升了识别效果。与其他4个深度学习融合方法相比，在光照正常和不良两部分数据集上均取得了最优的效果，证明了本文提出的融合识别方法的有效性与先进性。

表 2 对比试验结果 Table 2 Comparison of experimental results

本文在所提模型的基础上设计了3种模型，以开展消融实验验证模型各组成部分的有效性，部分结果如表3所示。

表 3 消融试验结果 Table 3 Results of ablation experiment

模型A：使用CNN进行特征提取并且通过对特征图取平均来实现融合。该模型验证了本文Transformer 模块、Fusion 模块和融合策略协同的作用。

模型B：使用 CNN 和 Transformer 进行特征提取并且融合方式为求平均。该模型验证了所提出的 Transformer 以及 Fusion 模块的作用。

模型C：使用 CNN 进行特征提取并且融合方式为所提融合策略。该模型验证了本文所提的融合策略的作用。

根据消融实验结果可以得出结论，本文提出的Transformer 模块、Fusion 模块和融合策略均在一定程度上提升了红外与可见光图像融合识别的效果。

2.2 应用验证 2.2.1 应用环境

为了进一步证明本文提出方法的泛化能力和实际落地效果，模拟中国援圣多美和普林西比抗疟技术援助第3期项目中“圣普疟疾疫情人脸识别用户信息系统”应用场景，对方法进行测试验证，图9是训练数据人脸图像示例，图10为该系统识别模块设计。圣普国是非洲第二小的国家，经济极不发达，互联网覆盖率低，公用网络带宽低，时延高，采集人像的边缘设备不统一，采集环境光照条件不稳定，所采集的人像质量不一。而一般的人脸识别方法设计运行在互联网覆盖率高、网络情况良好的地区，采集人像的设备性能优良，因此在圣普国的实际识别效果较差，不能适应实际需求。所以在这里开发基于红外可见光融合的复杂环境下人脸识别方法，该方法基于边云协同概念，可以有效解决人脸识别实时性的问题，同时针对复杂环境导致的图像质量问题提出红外和可见光融合识别方法，符合实际需求。

图 9 训练数据人脸图像示例 Figure 9 Examples of training data face images

为了证明模型的泛化性和鲁棒性，在训练集设置方面，从项目运行数据中采集了352个志愿者的2 112张人脸图像，同时为进一步扩充训练数据，还从Tufts Face数据集^[24]中选取了112个志愿者的5 137张人脸图像，共同组成应用场景训练数据。

图 10 圣普疟疾疫情人脸识别用户信息系统识别模块设计 Figure 10 Design of the recognition module for the face recognition user information system of the stp malaria epidemic

2.2.2 系统性能评估

将应用场景训练数据按9:1划分为迁移训练集和测试集，项目使用迁移训练集进行迁移学习训练以消除实验验证所得预训练模型的偏差，将迁移训练集作为迁移学习的目标域数据集，迁移学习策略与实验验证部分相同。

模型迁移训练完成后，通过MobileFaceNet-Coo网络计算所有训练数据的特征范数，统计后从高到低排序，以1:1的比例划分高质量图片集和低质量图片集，将高质量图片集中最困难样本的特征范数作为特征范数阈值。将训练好的协同模型和改进前的协同模型分别部署在边缘设备和云设备上，设定在边缘端请求发出后0.3 s内未收到服务器响应即视为无响应，直接由边缘端进行识别。其中，本文边云协同系统中边缘模型为MobileFaceNet-Coo模型，云计算模型为融合识别模型；改进前的边缘模型和云计算模型均为融合识别模型。

在2种协同模型下，对测试集分别模拟网络正常、网络断开和网络阻塞状态进行测试，记录并统计识别率及识别时间，进行对比分析，表4列出了不同状态下人脸识别的平均用时和准确率。

表 4 不同条件下协同模型的性能比较 Table 4 Performance comparison of collaboration models under different conditions

从表4可以看出，在网络正常的情况下，本文边云协同系统平均识别时间为1.49 s，准确率为94.3%。在网络阻塞和断开的情况下，与改进前的模型对比，在识别率略微降低的同时平均识别时间分别减少了2.97 s和4.19 s，识别时间显著降低。由此可见，本文边云协同系统在各种网络状态下，都能及时选择适合的模型，达到了准确实时识别的目的。而改进前的协同系统虽然识别率较高，但是在异常网络条件下识别时间过长，不符合实时性的需求。由此说明，在大多数网络状态和识别场景下，本文提出的边云协同自适应人脸识别系统能在保持较高识别率的情况下进行实时识别，满足需求。

3 结论

本文提出了一种基于红外可见光融合的复杂环境下自适应人脸识别方法。针对复杂环境下人脸识别效果差的问题提出联合CNN和Transformer的红外与可见光人脸融合识别网络，采用红外与可见光图像融合识别网络提取人脸特征，有效利用多模态图像特点，建模源图像全局语义相关性和上下文信息，自适应保留源图像中的显著特征，提升了低质量图像的识别效果。同时针对融合识别网络模型大，对部署设备性能要求高的问题提出轻量化人脸识别模型MobileFaceNet-Coo，在MobileFaceNet的基础上增加对空间信息和跨通道信息的感知，获取更多特征信息。根据不同质量的图像准确识别时需要的模型规模存在差异提出基于边云协同的自适应识别策略，根据图片特征范数自适应选择识别模型，有效提升了识别效率。模型性能评估表明，本文提出的联合CNN和Transformer的红外与可见光人脸融合识别网络显著提升了弱光条件下的人脸识别效果。实验结果表明，本文提出的边云协同自适应人脸识别方法在实际环境下能够进行实时识别，同时保证较高的识别率。但是，本文的特征范数阈值计算方法是依照数据集特征按比例计算，较为粗糙，存在一定提升空间，未来将使用其他图片质量评估算法辅助计算加以改进。

参考文献

[1]	SINGH R, AHMED T, SINGH R, et al. Identifying tiny faces in thermal images using transfer learning[J]. Journal of Ambient Intelligence and Humanized Computing, 2020, 11(5): 1957-1966. DOI: 10.1007/s12652-019-01470-4.
[2]	马娜. 基于高光谱图像的人脸识别算法和实验研究[D]. 济南: 山东师范大学, 2017.
[3]	郭婷, 张天序, 郭诗嘉. 一种红外图像和宽光谱融合的人脸识别算法[J]. 武汉工程大学学报, 2022, 44(3): 320-324. GUO T, ZHAG T X, GUO S J. A face recognition algorithm based on infrared image and wide spectrum fusion[J]. Journal of Wuhan Engineering University, 2022, 44(3): 320-324. DOI: 10.19843/j.cnki.CN42-1779/TQ.202111015.
[4]	谢志华, 李毅, 牛杰一. 联合分块谱带优选和深度特征的高光谱人脸识别[J]. 中国图象图形学报, 2021, 26(12): 2870-2878. XIE Z H, LI Y, NIU J Y. Hyperspectral face recognition combining block spectral band optimization and depth feature[J]. Chinese Journal of Image Graphics, 2021, 26(12): 2870-2878. DOI: 10.11834/jig.200158.
[5]	LI H, WU X J. DenseFuse: a fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2018, 28(5): 2614-2623.
[6]	MA J, YU W, LIANG P, et al. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11-26. DOI: 10.1016/j.inffus.2018.09.004.
[7]	PRABHAKAR K R, SRIKAR V S, BABU R V. Deepfuse: a deep unsupervised approach for exposure fusion with extreme exposure image pairs[C]//Proceedings of the IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 4714-4722.
[8]	KIM M, JAIN A K, LIU X. AdaFace: quality adaptive margin for face recognition[C] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2022: 18750-18759.
[9]	ZHANG K, ZHANG Z, LI Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503. DOI: 10.1109/LSP.2016.2603342.
[10]	HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2021: 13713-13722.
[11]	CHEN S, LIU Y, GAO X, et al. MobileFaceNets: efficient CNNs for accurate real-time face verification on mobile devices [EB/OL]. arXiv: 1804.07573(2019-03-21) [2023-03-01].https://arxiv.org/ftp/arxiv/papers/1804/1804.07573.pdf.
[12]	MA N, ZHANG X, ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[EB/OL]. arXiv: 1807.11164(2018-07-30) [2023-03-10].https://arxiv.org/abs/1807.11164.
[13]	HUANG G, LIU Z, VAN Der M L , et al. 2017. Densely connected convolutional networks[J]. IEEE Computer Society, 2017: 2261-2269.
[14]	ZAMIR S W, ARORA A, KHAN S , et al. Restormer: efficient transformer for high-resolution image restoration[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) . Piscataway: IEEE Press, 2022: 5718-5729.
[15]	DAI C . Attentional feature fusion[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway: IEEE Press, 2021: 3560-3569.
[16]	WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// European Conference on Computer Vision(ECCV) . Munich: Springer, 2018: 3-19.
[17]	YI D, LEI Z, LIAO S, et al. Learning face representation from scratch[J]. Computer Science, 2014, 29(1): 51-59.
[18]	STAN L, DONG Y, ZHEN L, et al. The casia nir-vis 2.0 face database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2013: 348-353.
[19]	HUANG G B, RAMESH M, BERG T, et al. Labeled Faces in the Wild: a database for studying face recognition in unconstrained environments[EB/OL]. (2008-10-01) [2023-03-10].https://people.cs.umass.edu/~elm/papers/Huang_eccv2008-lfw.pdf
[20]	ZHENG T, DENG W, HU J. Cross-pose lfw: a database for studying corsspose face recognition in unconstrained environments[EB/OL]. arXiv: 1708.08197(2017-08-28) [2023-03-10]. https://arxiv.org/abs/1708.08197v1.
[21]	MOSCHOGLOU S, PAPAIOANNOU A, SAGONAS C, et al. Agedb: the first manually collected, in-the-wild age database[C]//Proceedings of the IEEE Conference on Compute Vision and Pattern Recognition Workshops. [S.l.]: IEEE, 2017: 51-59.
[22]	TANG L, YUAN J, MA J. Image fusion in the loop of high-level vision tasks: a semantic-aware real-time infrared and visible image fusion network[J]. Information Fusion, 2022, 82: 28-42. DOI: 10.1016/j.inffus.2021.12.004.
[23]	MA J, ZHANG H, SHAO Z, et al. GANMcC: a generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 99: 1.
[24]	PANETTA, KAREN, QIANWEN W, et al. A comprehensive database for benchmarking imaging systems[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(3): 509-520.