2. 河海大学 物联网工程学院,江苏 常州 213000
2. School of Internet of Things Engineering, Hohai University, Changzhou 213000, China
红外成像技术提供了重要的目标热辐射信息,在诸多领域都有着广泛应用,包括热分析、视频监控、医疗诊断和遥感等方面。然而,由于红外传感器线性尺寸的关系,热成像仪捕获的红外图像空间分辨率低、清晰度差[1];同时高分辨率红外成像仪制作困难、成本昂贵。因此,本文在不改变硬件成像设备的情况下,通过输入低分辨率红外图像(low resolution infrared image, LRI),利用深度学习算法重建高分辨率红外图像(high resolution infrared image, HRI),提高红外图像的质量,以支持高层的计算机视觉任务[2]。
传统的超分辨率重建(super resolution, SR)算法主要有3类:插值算法[3-4]实现简单、处理迅速,但会丢失图像细节信息,导致重建图像模糊;基于重建的算法通常需要利用多帧图像,并结合先验知识,属于多帧图像超分重建算法;而人工设计表示特征的局限性导致基于机器学习[5]的超分辨率重建算法也表现一般[6]。
近年兴起的深度学习在图像分类、图像分割和目标检测识别等计算机任务有着显著的效果,研究人员也尝试通过设计深度神经网络来解决超分辨率重建问题[7]。Dong 等[8]提出的SRCNN (image super-resolution using deep convolutional networks)首次使用卷积神经网络来完成超分辨率重建任务,模型能够自主学习低分辨率图像和高分辨率图像间的非线性映射关系,不需要人工参与设计特征,与传统算法相比,重建效果得到了显著提升;随后的SRGAN(photo-realistic single image super-resolution using a generative adversarial network)[9]则引入了残差网络[10],使用残差块构建模型,并利用生成对抗网络[11](generative adversarial network,GAN)辅助训练,提高了重建图像的视觉效果和真实感;Lim 等[12]对SRGAN的生成网络SRResNet网络的结构进行了修改,去除了残差块内的批归一化层(batch normalization, BN),构建了EDSR网络,使得重建图像质量得到了进一步的提升;近期的SinGAN[13]网络,创新性地提出了只通过对单幅自然图像进行学习,通过在单个样本上训练应用于特定任务的模型,可用于图像的超分辨率重建。通过构建金字塔结构的全卷积生成对抗网络,捕捉不同尺度图像内部块的分布信息,从而生成保留原始目标结构和图像块分布的高质量的样本。
但是,SRCNN等[14]网络都是为了解决可见光图像超分辨率重建问题而构建的,不能直接应用到红外图像的超分辨率重建问题上。因此,本文根据红外图像噪声大、图像细节信息模糊的特性,在EDSR网络结构的基础上,构建了针对红外图像超分辨率重建的IEDSR(enhanced deep residual networks for infrared image super-resolution)网络。首先,针对EDSR[11]简单地移除BN层可能带来的训练困难问题,IEDSR引入了池化层,解决训练过程中的梯度弥散问题,同时还能有效缩减模型参数量,提升性能;其次IEDSR在残差模块中新加入了一层卷积层和激活层,通过增加网络深度,提高网络的学习能力,用于有效恢复图像的边缘、纹理等细节信息;最后模型在预测时使用了增强预测算法,通过取均值来达到提高精准度的目的,有效地优化重建图像,提升重建高分辨率红外图像质量。
1 IEDSR网络结构IEDSR网络以残差网络结构作为骨干网络,和EDSR网络相似,模型只需要学习图像高频信息,提高了学习速度;同时在网络输出端都使用了反卷积层,实现图像空间分辨率的提升。不同的是,IEDSR网络针对红外图像分辨率低、信噪比差和对比度低等特性,对残差模块进行了改进:加入了新的卷积层和池化层,扩大感受野,提高模型的学习能力。另外,在模型预测时使用了增强预测算法来提高精准度。
1.1 残差网络残差网络[15]是由多个结构相同的残差块通过级联的方式连接而成,单个残差块如图1所示。残差块分2条路径处理输入:短接路和学习路,并在输出时融合2条路径的特征数据。残差网络减轻了网络的学习负担,网络只需学习输入与输出的差别信息,有效地解决了深层网络训练困难的问题,同时也能保证良好的性能。
Download:
|
|
残差网络的引入,使得图像超分辨率重建效果得到了进一步的提高。各网络残差块结构如图2所示。在残差模块中,输入经卷积处理后,还需要通过批归一化(batch normalization, BN)层,BN层通过计算卷积处理后的数据的均值和方差,增加正则化参数,使批次数据具有相同的分布模型。因此,批归一化层对特征进行了规范化,缩小了数据的变化范围[16],因此EDSR网络去除了BN层,其残差块结构如图2(b)所示。
Download:
|
|
如图1所示,
$F(x) = \max \{ 0,U(x) + x\} $ |
对于普通的堆叠非线性层的神经网络,网络需要学习的映射函数为
在生物神经网络上,一个神经元所反应的刺激区域叫做该神经元的感受野,对应卷积神经网络,每个卷积层输出的特征图上的像素连接到输入图像上的区域即为感受野(receptive field,RF)。卷积神经网络某一层的感受野计算如式(1)所示,感受野的计算要由后层向前层推算,且最后一层输出的特征图的感受野即为其卷积核的大小。
$R = (R' - 1) \times S + K$ | (1) |
式中:
因此,在构建IEDSR网络时,选用了残差网络作为骨干网络用于训练,同时在残差块的调整中,与EDSR网络一样,IEDSR网络移除BN层,但由于BN层能够使网络模型更好地学习,避免出现梯度弥散现象,因此只是简单地移除BN层可能会带来训练困难的问题。所以在移除BN层的基础上,加入了池化层,即使用池化层替代BN层,提高训练效率,同时也能进一步扩大感受野。
深层神经网络依靠其更大的感受野范围,能够提取图像更加深层次、更加抽象的特征,有利于更好地重建图像。因此,在IEDSR的残差模块中增加了卷积层和激活层的层数,通过增加局部残差模块的感受野,提高学习能力[17],用于有效恢复图像的大规模结构信息,如图2(c)所示。改进的残差网络通过增加残差模块的卷积层,能够增强模型非线性映射能力,扩大感受野,在保证网络深度的同时,避免出现梯度弥散现象;同时池化层能够减少网络参数量、减小过拟合。
1.3 增强预测算法增强预测[18]算法通过沿边翻转、旋转等数据增强方式,生成多张输入,再对多个预测结果取均值,得到最终输出结果。增强预测通过平均,使模型对同一“输入”的预测不会产生较大的偏差,保证模型预测稳定,提高重建精度。
对于卷积神经网络,卷积运算具有平移不变性和旋转鲁棒性,旋转等操作对特征提取不会有较大影响。因此,可以将增强预测加入到模型测试阶段,提高重建精度。具体到本文,在对IEDSR模型进行测试时,分别将输入图像以4条边线为轴翻转,再对输入旋转180°处理,得到5张输入,经过网络重建,将单张预测复原到正常位置,取5张预测的均值,得到最终的重建结果。
2 实验过程与结果分析本文将可见光图像的超分辨率重建算法EDSR引入到红外图像的超分辨率问题上,并根据红外图像的特性对网络结构进行了改进,合理选择网络参数,有效减少了网络需要学习的参数和计算量。
本文模型的残差网络部分由16个具有相同结构的残差块级联组成,卷积核尺寸均为
本文训练过程采用Adam(adaptive moment estimation)优化算法,Adam算法通过使用指数加权平均和偏差修正算法更新权重,能够加速梯度的下降,加快网络收敛,具有较快的学习速度;并使学习率离散下降,在不同的迭代次数内使用不同的学习率。具体的超参数设置如下:初始学习率为0.001,学习率衰减因子设置为0.5。在DIV2K数据集上预训练时的迭代次数为300,每经过100次迭代,学习率衰减为原来的0.5倍;使用红外图像对模型进行微调时,初始学习率为0.001,训练迭代次数为60次,每经过20次迭代,学习率下降为原来的0.5倍。Adam算法权重衰减等其他超参数采用默认值,不做调整。
原始高分辨率图像
${\rm{Loss}} = {\rm{MSE}} = \frac{1}{{MN}}\sum\limits_{i = 0}^{M - 1} {\sum\limits_{j = 0}^{N - 1} {{{\left[ {{{Y}}(i,j) - \hat {{Y}}(i,j)} \right]}^2}} } $ | (2) |
式中M、N为重建图像的宽、高。
2.2 训练策略由于网络规模较大,而红外图像数据资源比较稀缺,因此,为了保证模型收敛到较优的位置,在训练时首先使用了DIV2K数据集来对模型进行预训练,学习可见光图像重建映射函数;完成初步训练后,再使用红外图像对模型进行微调,实现对红外图像的超分辨率重建。
微调训练的数据集红外图像大小为
Download:
|
|
为了很好地表明本文算法的有效性和优越性,本节从主观和客观2个方面来对本文提出的方法进行定性和定量分析。主观定性分析主要观察重建图像的直观视觉效果;定量分析主要采用常用的峰值信噪比(PSNR)和结构相似度(structural SIMilarity index, SSIM)作为重建图像质量评价指标。PSNR即最大像素值与均方误差的比值,该值越大,重建图像的失真越小。其计算为
${\rm{PSNR}} = 10\lg \Bigg(\frac{{{\rm{MA}}{{\rm{X}}^2}}}{{{\rm{MSE}}}}\Bigg)$ |
式中:MSE为均方根误差,计算如式(2)所示;
${\rm{SSIM}}({{Y}},\hat {{Y}}) = \frac{{(2{\mu _Y}{\mu _{\hat Y}} + C)(2{\sigma _{Y\hat Y}} + C')}}{{(\mu _Y^2 + \mu _{\hat Y}^2 + C)(\sigma _Y^2 + \sigma _{\hat Y}^2 + C')}}$ |
式中:Y、
实验对IEDSR、双三次插值算法(Bicubic[20])、EDSR和SinGAN算法重建图像的PSNR和SSIM进行比较。在16张测试集中随机选取5张红外图像完成对比实验,定性分析如图4所示,为了更好地对比重建效果,将局部细节放大2倍并放置于图像的左上方。从左往右依次为原图(HR)、Bicubic算法、EDSR算法、SinGAN算法及本文IEDSR算法重建的图像。可从主观角度观察红外图像的超分辨率重建效果。表1展示了客观评价指标的对比结果,实验选择的评价指标为重建图像的PSNR和SSIM。
Download:
|
|
1)针对红外图像超分辨率重建问题,提出了改进的残差网络,构建IEDSR深度神经网络,解决了深层网络训练困难问题,避免了过拟合问题,提高网络的学习表达能力,在保证重建红外图像质量的同时,提高了图像空间分辨率,更好地支持后续检测识别等任务。
2)使用可见光图像和红外图像样本对模型进行训练拟合,丰富了训练数据集的容量,提高模型的泛化能力,对不同场景的红外图像都能够实现较好的重建效果,利用增强预测算法增加模型的鲁棒性,提升重建红外图像的精度。
实验证明,本文方法重建红外图像清晰度高、视觉效果好,并且算法处理迅速,具有较强实用价值。不足的是,仅实现了3倍超分辨率放大,放大后的红外图像尺寸相对也较小。因此,高倍数红外图像超分辨率重建是下一步需要研究的方向。
[1] | 王合龙, 边栓成. 一种增强细节的红外图像处理算法[J]. 太赫兹科学与电子信息学报, 2018, 16(1): 139-142. DOI:10.11805/TKYDA201801.0139 (0) |
[2] | 王岳, 李双喜, 王磊. 红外图像超分辨率重建技术研究[J]. 激光与红外, 2018, 48(4): 524-530. DOI:10.3969/j.issn.1001-5078.2018.04.020 (0) |
[3] | 苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, 2013, 39(8): 1202-1213. (0) |
[4] | 李浪宇, 苏卓, 石晓红, 等. 图像超分辨率重建中的细节互补卷积模型[J]. 中国图象图形学报, 2018, 23(4): 572-582. DOI:10.11834/jig.170361 (0) |
[5] | TIAN Jing, MA Kaikuang. A survey on super-resolution imaging[J]. Signal, image and video processing, 2011, 5(3): 329-342. DOI:10.1007/s11760-010-0204-6 (0) |
[6] | 刘月峰, 杨涵晰, 蔡爽, 等. 基于改进卷积神经网络的单幅图像超分辨率重建方法[J]. 计算机应用, 2019, 39(5): 1440-1447. DOI:10.11772/j.issn.1001-9081.2018091887 (0) |
[7] | 廖小华, 陈念年, 蒋勇, 等. 改进的卷积神经网络红外图像超分辨率算法[J]. 红外技术, 2020, 42(1): 75-80. (0) |
[8] | DONG C, LOY C, HE K, et al. Learning a deep convolutional network for image super-resolution[C]//ECCV. Zurich, Switzerland, 2014: 35-40. (0) |
[9] | LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii, 2017: 105-114. (0) |
[10] | HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 770-778. (0) |
[11] | GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in neural information processing systems. Montreal, Canada, 2014: 2672-2680. (0) |
[12] | LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//Computer Vision and Pattern Recognition Workshops. Honolulu, USA, IEEE, 2017: 1132-1140. (0) |
[13] | SHAHAM T R, DEKEL T, MICHAELI T. SinGAN: Learning a generative model from a single natural image[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea , 2019: 4569-4579. (0) |
[14] | 凡遵林, 管乃洋, 王之元, 等. 红外图像质量的提升技术综述[J]. 红外技术, 2019, 41(10): 941-946. (0) |
[15] | 张川. 面向图像分类的深度残差网络优化结构研究[D]. 北京: 中国科学院大学, 2016. (0) |
[16] | IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//International Conference on International Conference on Machine Learning. Lille, French, 2015: 448-456. (0) |
[17] | 麻旋, 戴曙光. 基于残差网络的图像超分辨率算法改进研究[J]. 软件导刊, 2018, 17(4): 95-97. (0) |
[18] | TIMOFTE R, ROTHE R, VAN GOOL L. Seven ways to improve example-based single image super resolution[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 1865-1873. (0) |
[19] | 王贺, 李野, 付明艳. 一种基于图像分层的红外图像目标细节增强算法[J]. 计算机科学与应用, 2020, 10(5): 6. (0) |
[20] | BOOR C D. Bicubic spline interpolation[J]. Journal of mathematics and physics, 1962, 41(1/2/3/4):212-218. (0) |