基于深度学习的红外图像超分辨率重建

应用科技

2020, Vol. 47

Issue (4): 8-13 DOI: 10.11991/yykj.201912020

引用本文

史永祥, 蒋斌, 黄雍晫, 等. 基于深度学习的红外图像超分辨率重建[J]. 应用科技, 2020, 47(4): 8-13. DOI: 10.11991/yykj.201912020.

SHI Yongxiang, JIANG Bin, HUANG Yongzhuo, et al. Infrared image super-resolution reconstruction based on deep learning[J]. Applied Science and Technology, 2020, 47(4): 8-13. DOI: 10.11991/yykj.201912020.

基金项目

国家自然科学基金项目(41706103)；国家重点研发计划项目(2018YFC0406900)

通信作者

张志良，E-mail：xjolyon@gmail.co

作者简介

史永祥，男，高级工程师;
蒋斌，男，高级工程师

文章历史

收稿日期：2019-12-20
网络出版日期：2020-07-20

Contents Abstract Full text Figures/Tables PDF

基于深度学习的红外图像超分辨率重建

史永祥¹, 蒋斌¹, 黄雍晫¹, 杨桂生¹, 李庆武², 张志良²

1. 国家电网溧阳市供电公司，江苏溧阳 213300;
2. 河海大学物联网工程学院，江苏常州 213000

收稿日期：2019-12-20；网络出版日期：2020-07-20

基金项目：国家自然科学基金项目(41706103)；国家重点研发计划项目(2018YFC0406900)

作者简介：史永祥，男，高级工程师;
蒋斌，男，高级工程师.

通信作者：张志良，E-mail：xjolyon@gmail.co.

摘要：为提升红外图像分辨率，本文构建了用于红外图像超分辨率重建的IEDSR（enhanced deep residual networks for infrared image super-resolution）网络。该网络在EDSR网络模型的基础上加入了池化层，避免了EDSR（enhanced deep residual networks for single image super-sesolution）网络移除批正则化层（batch normalization, BN）可能会带来训练困难的问题。同时考虑到红外图像对比度低、纹理不明显的特性，在残差块内加入新的卷积层和激活层，通过增加网络深度扩大局部残差模块的感受野，有利于恢复图像的局部细节信息。最后利用增强预测算法对重建图像进行优化，提升重建精度。实验结果表明：本文算法重建的红外图像在主观视觉效果与客观指标上较传统红外图像重建方法均有所改善，具有较高的实用价值。

关键词：神经网络深度学习残差网络红外图像超分辨率重建池化层感受野增强预测

Infrared image super-resolution reconstruction based on deep learning

SHI Yongxiang¹, JIANG Bin¹, HUANG Yongzhuo¹, YANG Guisheng¹, LI Qingwu², ZHANG Zhiliang²

1. State Grid Liyang Power Supply Company, Liyang 213300, China;
2. School of Internet of Things Engineering, Hohai University, Changzhou 213000, China

Abstract: In order to improve the resolution of infrared image, this paper constructs an IEDSR (enhanced deep residual networks for infrared image super-resolution) network for infrared image super-resolution reconstruction. Based on the EDSR (enhanced deep residual networks for single image super-sesolution) network model, a pooling layer is added to the network, which avoids the problem that removing BN (batch normalization) layer from EDSR network may bring training difficulty. At the same time, considering the low contrast of infrared image and the characteristics of not obvious texture, a new convolution layer and activation layer are added to the residual block, which is helpful to recover the local details of the image by increasing the depth of network and expanding the receptive field of the local residual module. Finally, we use the enhanced prediction algorithm to optimize the reconstructed image and improve the reconstruction accuracy. The experimental results show that the infrared image reconstructed by this algorithm has better subjective visual effect and objective index than traditional infrared image reconstruction method, and has higher practical value.

Keywords: neural network deep learning residual network infrared image super-resolution reconstruction pool layer receptive field enhanced forecasting

红外成像技术提供了重要的目标热辐射信息，在诸多领域都有着广泛应用，包括热分析、视频监控、医疗诊断和遥感等方面。然而，由于红外传感器线性尺寸的关系，热成像仪捕获的红外图像空间分辨率低、清晰度差^[1]；同时高分辨率红外成像仪制作困难、成本昂贵。因此，本文在不改变硬件成像设备的情况下，通过输入低分辨率红外图像(low resolution infrared image, LRI)，利用深度学习算法重建高分辨率红外图像(high resolution infrared image, HRI)，提高红外图像的质量，以支持高层的计算机视觉任务^[2]。

传统的超分辨率重建(super resolution, SR)算法主要有3类：插值算法^[3-4]实现简单、处理迅速，但会丢失图像细节信息，导致重建图像模糊；基于重建的算法通常需要利用多帧图像，并结合先验知识，属于多帧图像超分重建算法；而人工设计表示特征的局限性导致基于机器学习^[5]的超分辨率重建算法也表现一般^[6]。

近年兴起的深度学习在图像分类、图像分割和目标检测识别等计算机任务有着显著的效果，研究人员也尝试通过设计深度神经网络来解决超分辨率重建问题^[7]。Dong 等^[8]提出的SRCNN (image super-resolution using deep convolutional networks)首次使用卷积神经网络来完成超分辨率重建任务，模型能够自主学习低分辨率图像和高分辨率图像间的非线性映射关系，不需要人工参与设计特征，与传统算法相比，重建效果得到了显著提升；随后的SRGAN(photo-realistic single image super-resolution using a generative adversarial network)^[9]则引入了残差网络^[10]，使用残差块构建模型，并利用生成对抗网络^[11](generative adversarial network，GAN)辅助训练，提高了重建图像的视觉效果和真实感；Lim 等^[12]对SRGAN的生成网络SRResNet网络的结构进行了修改，去除了残差块内的批归一化层(batch normalization, BN)，构建了EDSR网络，使得重建图像质量得到了进一步的提升；近期的SinGAN^[13]网络，创新性地提出了只通过对单幅自然图像进行学习，通过在单个样本上训练应用于特定任务的模型，可用于图像的超分辨率重建。通过构建金字塔结构的全卷积生成对抗网络，捕捉不同尺度图像内部块的分布信息，从而生成保留原始目标结构和图像块分布的高质量的样本。

但是，SRCNN等^[14]网络都是为了解决可见光图像超分辨率重建问题而构建的，不能直接应用到红外图像的超分辨率重建问题上。因此，本文根据红外图像噪声大、图像细节信息模糊的特性，在EDSR网络结构的基础上，构建了针对红外图像超分辨率重建的IEDSR（enhanced deep residual networks for infrared image super-resolution）网络。首先，针对EDSR^[11]简单地移除BN层可能带来的训练困难问题，IEDSR引入了池化层，解决训练过程中的梯度弥散问题，同时还能有效缩减模型参数量，提升性能；其次IEDSR在残差模块中新加入了一层卷积层和激活层，通过增加网络深度，提高网络的学习能力，用于有效恢复图像的边缘、纹理等细节信息；最后模型在预测时使用了增强预测算法，通过取均值来达到提高精准度的目的，有效地优化重建图像，提升重建高分辨率红外图像质量。

1 IEDSR网络结构

IEDSR网络以残差网络结构作为骨干网络，和EDSR网络相似，模型只需要学习图像高频信息，提高了学习速度；同时在网络输出端都使用了反卷积层，实现图像空间分辨率的提升。不同的是，IEDSR网络针对红外图像分辨率低、信噪比差和对比度低等特性，对残差模块进行了改进：加入了新的卷积层和池化层，扩大感受野，提高模型的学习能力。另外，在模型预测时使用了增强预测算法来提高精准度。

1.1 残差网络

残差网络^[15]是由多个结构相同的残差块通过级联的方式连接而成，单个残差块如图1所示。残差块分2条路径处理输入：短接路和学习路，并在输出时融合2条路径的特征数据。残差网络减轻了网络的学习负担，网络只需学习输入与输出的差别信息，有效地解决了深层网络训练困难的问题，同时也能保证良好的性能。

	Download: JPG larger image
图 1 单个残差块

残差网络的引入，使得图像超分辨率重建效果得到了进一步的提高。各网络残差块结构如图2所示。在残差模块中，输入经卷积处理后，还需要通过批归一化(batch normalization, BN)层，BN层通过计算卷积处理后的数据的均值和方差，增加正则化参数，使批次数据具有相同的分布模型。因此，批归一化层对特征进行了规范化，缩小了数据的变化范围^[16]，因此EDSR网络去除了BN层，其残差块结构如图2(b)所示。

	Download: JPG larger image
图 2 各不同残差模块对比

1.2 残差块的改进

如图1所示， $x$ 为输入图像， $U(x)$ 为学习路径的输出，残差模块的输出为 $F(x)$ ，则有

$F(x) = \max \{ 0,U(x) + x\} $

对于普通的堆叠非线性层的神经网络，网络需要学习的映射函数为 $F(x)$ ，增加短接路后，残差网络只需要学习映射函数 $U(x) = F(x) - x$ ，原来的非线性映射函数变成了 $U(x) + x$ 。通常情况下，优化残差网络映射函数要比优化原来的映射函数容易得多。特别地当网络要学习的是等价映射函数时，学习 $U(x) = 0$ 要比学习 $F(x) = x$ 简单得多^[8]。

在生物神经网络上，一个神经元所反应的刺激区域叫做该神经元的感受野，对应卷积神经网络，每个卷积层输出的特征图上的像素连接到输入图像上的区域即为感受野(receptive field，RF)。卷积神经网络某一层的感受野计算如式(1)所示，感受野的计算要由后层向前层推算，且最后一层输出的特征图的感受野即为其卷积核的大小。

$R = (R' - 1) \times S + K$

(1)

式中: $R$ 为本层感受野的大小； $R'$ 为后一卷积层感受野大小； $S$ 为卷积步长； $K$ 为卷积核的大小。由式(1)可知，卷积和池化的层数越多，层数越靠后，该层的感受野越大，网络学习时“反应”的图像范围更大，整体性更强，提取的特征也更高级、抽象，表达图像的能力更强。

因此，在构建IEDSR网络时，选用了残差网络作为骨干网络用于训练，同时在残差块的调整中，与EDSR网络一样，IEDSR网络移除BN层，但由于BN层能够使网络模型更好地学习，避免出现梯度弥散现象，因此只是简单地移除BN层可能会带来训练困难的问题。所以在移除BN层的基础上，加入了池化层，即使用池化层替代BN层，提高训练效率，同时也能进一步扩大感受野。

深层神经网络依靠其更大的感受野范围，能够提取图像更加深层次、更加抽象的特征，有利于更好地重建图像。因此，在IEDSR的残差模块中增加了卷积层和激活层的层数，通过增加局部残差模块的感受野，提高学习能力^[17]，用于有效恢复图像的大规模结构信息，如图2(c)所示。改进的残差网络通过增加残差模块的卷积层，能够增强模型非线性映射能力，扩大感受野，在保证网络深度的同时，避免出现梯度弥散现象；同时池化层能够减少网络参数量、减小过拟合。

1.3 增强预测算法

增强预测^[18]算法通过沿边翻转、旋转等数据增强方式，生成多张输入，再对多个预测结果取均值，得到最终输出结果。增强预测通过平均，使模型对同一“输入”的预测不会产生较大的偏差，保证模型预测稳定，提高重建精度。

对于卷积神经网络，卷积运算具有平移不变性和旋转鲁棒性，旋转等操作对特征提取不会有较大影响。因此，可以将增强预测加入到模型测试阶段，提高重建精度。具体到本文，在对IEDSR模型进行测试时，分别将输入图像以4条边线为轴翻转，再对输入旋转180°处理，得到5张输入，经过网络重建，将单张预测复原到正常位置，取5张预测的均值，得到最终的重建结果。

2 实验过程与结果分析

本文将可见光图像的超分辨率重建算法EDSR引入到红外图像的超分辨率问题上，并根据红外图像的特性对网络结构进行了改进，合理选择网络参数，有效减少了网络需要学习的参数和计算量。

本文模型的残差网络部分由16个具有相同结构的残差块级联组成，卷积核尺寸均为 $3 \times 3$ ，其中残差块的特征图的深度维数为256。相对于EDSR网络的32个残差块、256通道特征图，IEDSR模型需要学习的参数大大降低。

2.1 训练过程

本文训练过程采用Adam(adaptive moment estimation)优化算法，Adam算法通过使用指数加权平均和偏差修正算法更新权重，能够加速梯度的下降，加快网络收敛，具有较快的学习速度；并使学习率离散下降，在不同的迭代次数内使用不同的学习率。具体的超参数设置如下：初始学习率为0.001，学习率衰减因子设置为0.5。在DIV2K数据集上预训练时的迭代次数为300，每经过100次迭代，学习率衰减为原来的0.5倍；使用红外图像对模型进行微调时，初始学习率为0.001，训练迭代次数为60次，每经过20次迭代，学习率下降为原来的0.5倍。Adam算法权重衰减等其他超参数采用默认值，不做调整。

原始高分辨率图像 ${{Y}}$ 经下采样得到的低分辨率图像为 $X$ ，模型预测得到的重建图像为 $\hat {{Y}}$ 。良好的超分辨率算法，其重建图像 $\hat {{Y}}$ 与原始高分辨率图像 ${{Y}}$ 应该尽可能的相同。因此，本文在训练时选用了均方根误差(mean squared error, MSE)函数作为网络损失函数，使 $\hat {{Y}}$ 与 ${{{{Y}}}}$ 具有最小欧氏距离：

${\rm{Loss}} = {\rm{MSE}} = \frac{1}{{MN}}\sum\limits_{i = 0}^{M - 1} {\sum\limits_{j = 0}^{N - 1} {{{\left[ {{{Y}}(i,j) - \hat {{Y}}(i,j)} \right]}^2}} } $

(2)

式中M、N为重建图像的宽、高。

2.2 训练策略

由于网络规模较大，而红外图像数据资源比较稀缺，因此，为了保证模型收敛到较优的位置，在训练时首先使用了DIV2K数据集来对模型进行预训练，学习可见光图像重建映射函数；完成初步训练后，再使用红外图像对模型进行微调，实现对红外图像的超分辨率重建。

微调训练的数据集红外图像大小为 $320 \times 240$ ，由于初步训练使用的是彩色RGB通道图像，因此微调时，使用了Matlab算法对单通道红外图像进行了伪彩色上色处理，转换为3通道彩色图像，增加图像特征的丰富性^[19]。预训练模型放大倍数为3。为方便计算峰值信噪比(peak signal-to-noise ratio, PSNR)，训练前将图像裁剪到 $318 \times 240$ 大小。将大小为 $318 \times 240$ 的图像作为真值图像(ground truth, GT)，使用Matlab的双立方插值算法下采样3倍得到大小为 $106 \times 80$ 的图像作为训练图像，也即LR图像。数据集由256张红外图像组成，其中240张用作训练集，剩余的16张作为测试集。预训练和模型微调过程均在配置为NVIDIA-1080的GPU，内存32 GB的工程机上完成，网络在PyTorch神经网络平台上搭建。图3为训练过程中模型在测试集上PSNR随迭代次数变化图。

	Download: JPG larger image
图 3 训练过程中PSNR增长曲线

2.3 实验结果分析与比较

为了很好地表明本文算法的有效性和优越性，本节从主观和客观2个方面来对本文提出的方法进行定性和定量分析。主观定性分析主要观察重建图像的直观视觉效果；定量分析主要采用常用的峰值信噪比(PSNR)和结构相似度(structural SIMilarity index, SSIM)作为重建图像质量评价指标。PSNR即最大像素值与均方误差的比值，该值越大，重建图像的失真越小。其计算为

${\rm{PSNR}} = 10\lg \Bigg(\frac{{{\rm{MA}}{{\rm{X}}^2}}}{{{\rm{MSE}}}}\Bigg)$

式中：MSE为均方根误差，计算如式(2)所示； ${\rm{MAX}}$ 为图像像素的最大值，对于本文的RGB图像， ${\rm{MAX}}$ 即为255。SSIM的计算为

${\rm{SSIM}}({{Y}},\hat {{Y}}) = \frac{{(2{\mu _Y}{\mu _{\hat Y}} + C)(2{\sigma _{Y\hat Y}} + C')}}{{(\mu _Y^2 + \mu _{\hat Y}^2 + C)(\sigma _Y^2 + \sigma _{\hat Y}^2 + C')}}$

式中：Y、 $\hat {{Y}}$ 表示原始高分辨率图像和重建图像； $\mu$ 、 $\sigma $ 表示图像的均值和方差； ${\sigma _{Y\hat Y}}$ 表示2幅图像的协方差；C、 $C'$ 为接近0的正常数。SSIM的计算基于图像亮度、对比度和结构信息，其值越大，表示2幅图像的相似度越高。

实验对IEDSR、双三次插值算法(Bicubic^[20])、EDSR和SinGAN算法重建图像的PSNR和SSIM进行比较。在16张测试集中随机选取5张红外图像完成对比实验，定性分析如图4所示，为了更好地对比重建效果，将局部细节放大2倍并放置于图像的左上方。从左往右依次为原图(HR)、Bicubic算法、EDSR算法、SinGAN算法及本文IEDSR算法重建的图像。可从主观角度观察红外图像的超分辨率重建效果。表1展示了客观评价指标的对比结果，实验选择的评价指标为重建图像的PSNR和SSIM。

	Download: JPG larger image
图 4 不同算法实现红外图像重建效果

表 1 不同算法放大3倍重建红外图像的PSNR和SSIM

3 结论

1)针对红外图像超分辨率重建问题，提出了改进的残差网络，构建IEDSR深度神经网络，解决了深层网络训练困难问题，避免了过拟合问题，提高网络的学习表达能力，在保证重建红外图像质量的同时，提高了图像空间分辨率，更好地支持后续检测识别等任务。

2)使用可见光图像和红外图像样本对模型进行训练拟合，丰富了训练数据集的容量，提高模型的泛化能力，对不同场景的红外图像都能够实现较好的重建效果，利用增强预测算法增加模型的鲁棒性，提升重建红外图像的精度。

实验证明，本文方法重建红外图像清晰度高、视觉效果好，并且算法处理迅速，具有较强实用价值。不足的是，仅实现了3倍超分辨率放大，放大后的红外图像尺寸相对也较小。因此，高倍数红外图像超分辨率重建是下一步需要研究的方向。

参考文献

[1]	王合龙, 边栓成. 一种增强细节的红外图像处理算法[J]. 太赫兹科学与电子信息学报, 2018, 16(1): 139-142. DOI:10.11805/TKYDA201801.0139 (1)
[2]	王岳, 李双喜, 王磊. 红外图像超分辨率重建技术研究[J]. 激光与红外, 2018, 48(4): 524-530. DOI:10.3969/j.issn.1001-5078.2018.04.020 (1)
[3]	苏衡, 周杰, 张志浩. 超分辨率图像重建方法综述[J]. 自动化学报, 2013, 39(8): 1202-1213. (1)
[4]	李浪宇, 苏卓, 石晓红, 等. 图像超分辨率重建中的细节互补卷积模型[J]. 中国图象图形学报, 2018, 23(4): 572-582. DOI:10.11834/jig.170361 (1)
[5]	TIAN Jing, MA Kaikuang. A survey on super-resolution imaging[J]. Signal, image and video processing, 2011, 5(3): 329-342. DOI:10.1007/s11760-010-0204-6 (1)
[6]	刘月峰, 杨涵晰, 蔡爽, 等. 基于改进卷积神经网络的单幅图像超分辨率重建方法[J]. 计算机应用, 2019, 39(5): 1440-1447. DOI:10.11772/j.issn.1001-9081.2018091887 (1)
[7]	廖小华, 陈念年, 蒋勇, 等. 改进的卷积神经网络红外图像超分辨率算法[J]. 红外技术, 2020, 42(1): 75-80. (1)
[8]	DONG C, LOY C, HE K, et al. Learning a deep convolutional network for image super-resolution[C]//ECCV. Zurich, Switzerland, 2014: 35-40. (2)
[9]	LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii, 2017: 105-114. (1)
[10]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 770-778. (1)
[11]	GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in neural information processing systems. Montreal, Canada, 2014: 2672-2680. (2)
[12]	LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution[C]//Computer Vision and Pattern Recognition Workshops. Honolulu, USA, IEEE, 2017: 1132-1140. (1)
[13]	SHAHAM T R, DEKEL T, MICHAELI T. SinGAN: Learning a generative model from a single natural image[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea , 2019: 4569-4579. (1)
[14]	凡遵林, 管乃洋, 王之元, 等. 红外图像质量的提升技术综述[J]. 红外技术, 2019, 41(10): 941-946. (1)
[15]	张川. 面向图像分类的深度残差网络优化结构研究[D]. 北京: 中国科学院大学, 2016. (1)
[16]	IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//International Conference on International Conference on Machine Learning. Lille, French, 2015: 448-456. (1)
[17]	麻旋, 戴曙光. 基于残差网络的图像超分辨率算法改进研究[J]. 软件导刊, 2018, 17(4): 95-97. (1)
[18]	TIMOFTE R, ROTHE R, VAN GOOL L. Seven ways to improve example-based single image super resolution[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA, 2016: 1865-1873. (1)
[19]	王贺, 李野, 付明艳. 一种基于图像分层的红外图像目标细节增强算法[J]. 计算机科学与应用, 2020, 10(5): 6. (1)
[20]	BOOR C D. Bicubic spline interpolation[J]. Journal of mathematics and physics, 1962, 41(1/2/3/4):212-218. (1)

	Download: JPG larger image
图 1 单个残差块

	Download: JPG larger image
图 2 各不同残差模块对比

	Download: JPG larger image
图 3 训练过程中PSNR增长曲线

	Download: JPG larger image
图 4 不同算法实现红外图像重建效果

表 1 不同算法放大3倍重建红外图像的PSNR和SSIM

返回顶部