Two-step deep unfolding strategy for compressed sensing reconstruction algorithms
-
摘要: 针对压缩感知中重构算法的深度展开问题,提出了一种两步深度展开策略(two-step deep unfolding,TwDU)。已有深度展开重构算法通常依赖前一步估计值估计当前值,TwDU对已有深度展开重构算法增加估计深度,依赖于前两步估计值估计当前展开值。TwDU对已有深度展开算法前两步估计值增加了两个训练权重。训练权重优化利用了信号估计值之间的相关特性,可以随着数据的特性自我学习和调整,所提TwDU策略应用于可学习迭代软阈值算法(learned iterative soft thresholding algorithm, LISTA)、可训练迭代软阈值算法(trainable iterative soft thresholding algorithm ,TISTA)、可学习近似消息传递算法(learned approximate message passing, LAMP)等已有深度展开算法。通过在一维和二维稀疏信号的仿真验证,TwDU策略在重构精度和收敛速度上都更具有明显优势。Abstract: A two-step deep unfolding (TwDU) strategy is put forward for the deep unfolding of reconstruction algorithms in compressed sensing. The existing deep unfolding reconstruction algorithms usually estimate the current value based on the previous one-step estimated value. TwDU increases the estimation depth for the existing deep unfolding reconstruction algorithms and estimates the current unfolding value based on the previous two-step estimation value. TwDU increases two training weights for the previous two-step estimation value in the existing deep unfolding reconstruction algorithm. The training weights are self-adaptive, which can learn and adjust following the changes in data characteristics by themselves and optimize and utilize the correlation among the estimated signal values. The proposed TwDU strategy is applied to the existing deep unfolding reconstruction algorithms, such as the learned iterative soft thresholding algorithm, learned approximate message passing algorithm, and trainable iterative soft thresholding algorithm. The simulation results in one-dimensional and two-dimensional sparse signals confirm that the TwDU strategy has obvious advantages regarding reconstruction accuracy and convergence speed.
-
压缩感知(compressed sensing,CS)[1-2]指在远低于奈奎斯特采样率条件下,用采样矩阵获取原始信号的离散样本,然后通过非线性重构算法对原始信号进行重构。为了高效率、高精度地重构原始信号,大量优秀的重构算法[3]被提出,其中凸优化类算法因其稳定性好、精度高被广泛地研究使用。常见凸优化类算法包括迭代软阈值算法(iterative soft thresholding algorithm,ISTA)[4]、快速迭代软阈值算法(fast ISTA,FISTA)[5]、两步迭代软阈值算法(two step ISTA,TwIST)[6] 、近似消息传递算法(approximate message passing algorithm,AMP)[7]等。但是,该类算法在参数优化过程中面临挑战,在一些时间敏感型场景中,收敛速度过慢。
近年来,深度学习技术由于其强大的特征学习能力,对压缩感知重构算法[8-11]的研究与设计产生了重大影响。这些工作主要分为两大类:第一类是基于数据驱动的方法,该类方法往往通过调整神经网络模型来适应数据结构。文献[12]提出CSNet网络架构,该架构通过卷积神经网络共同优化信号的采样与重构,能够更好地重构压缩图像。文献[13]提出DR2-Net网络架构,利用残差网络强大的学习能力重构更高质量的信号,并有效地降低了时间复杂度。文献[14]提出DeepInverse网络,克服了现实生活中数据不够稀疏,传统算法收敛慢的缺点。相比传统算法,基于数据驱动的方法具备一定的优势。但是其主要采用神经网络模型,也有如下缺点:1) 网络架构往往是通用性的,模型不具备可解释性、稳定度不高。2) 在网络训练过程中,这些网络往往需要大批量的数据样本,对平台的算力与内存有较高要求。第二类是基于模型驱动的方法,该类方法将具有性能保证的传统算法与神经网络模型的优点融合在一起,已广泛应用于无线通信[15-17]、图像处理[18-20]、生物医学[21-23]等领域,该类方法在文献[24]中被统一称为深度展开(deep unfolding)。深度展开具体是指通过展开传统算法中的迭代过程,形成新的类似神经网络中的层级结构。而这些层级结构中包含一些可被训练的参数变量,这些参数变量通过有监督学习的方式进行训练,并利用基于梯度下降法的反向传播机制进行算法参数更新。深度展开方法充分利用了深度学习技术强大的学习能力与传统算法的稳定性,使得传统算法具有了学习能力。Gregor和LeCun在文献[25]中第一次利用该方法,提出Learned ISTA (LISTA)网络模型,该方法将ISTA算法中的门限值、矩阵变量抽象成网络训练参数,获得了比ISTA更好的性能表现。Borgerding和Schniter在文献[26]中,将AMP中Onsager校正项中部分参数与门限值抽象成网络训练参数,提出了Learned AMP(LAMP)网络模型,LAMP表现优于LISTA与AMP。最近,文献[27]将MMSE估计器引入到ISTA,提出Trainable ISTA (TISTA)深度展开模型,通过极少量的训练参数获得比LISTA、LAMP更快的收敛速度。相较第一类而言,深度展开算法具备以下优点:1) 受传统算法的约束,稳定性高、性能有保证。2) 大多数深度展开算法只需训练较少的参数,因此,所需训练样本少。3) 深度展开算法通常是直观、可解释的,并且具有较低的算力和内存要求。
为了进一步提高深度展开算法的性能,本文在现有的深度展开方法的基础上提出了两步深度展开策略(two-step deep unfolding,TwDU)。TwDU基于TwIST中两步迭代基本原理,充分利用了信号之间的内在特性,对深度展开算法的前两步估计值分配不同的权重,共同决定当前结果。该策略在现有的深度展开算法基础上,仅仅增加了两个训练权重参数
ω 和ψ 就改善了已有重构算法的性能。本文所提两步深度展开策略在可学习迭代软阈值算法(learned iterative soft thresholding algorithm, LISTA)、可训练迭代软阈值算法(trainable iterative soft thresholding algorithm ,TISTA)、可学习近似消息传递算法(learned approximate message passing, LAMP)中经过实验验证,当输入信号为一维稀疏信号时,同样迭代8次,它们的归一化均方误差(normalized mean square error,NMSE)分别减少了8.9、1.2、5.8 dB,证明了本策略的可行性与优越性。1. 深度展开重构算法
压缩感知理论的基本数学模型如下:
y=Φs+n (1) 式中:
s∈RN 为原始信号向量,Φ∈RM×N (N>M )为观测矩阵,n∈RM 为高斯白噪声向量。y∈RM 是经过观测矩阵Φ 对s 进行采样得到的观测信号向量。假设原始信号向量s 在已知标准正交基Ψ∈RN×N 下能够稀疏化,即s=Ψx ,其中x∈RN 称为s 的稀疏系数,是原始信号向量s 在新的变换域Ψ 下的稀疏表示。令传感矩阵AΔ=ΦΨ∈RM×N ,重写式(1)为y=Ax+n (2) 压缩感知重构算法的目的便是在如式(2)所示的欠定线性系统中,通过观测信号
y 重构稀疏信号x 的估计值ˆx 。常见的凸优化类重构算法将上述稀疏重构问题建模成如下凸优化问题:ˆx=argminx12‖y−Ax‖22+λ‖x‖1 (3) 式中:数据保真项
‖y−Ax‖22 促使重构信号的误差减小,正则项λ‖x‖1 促使了重构信号的稀疏性。正则项常数λ>0 是一个可调整参数,用来控制平衡数据保真项与正则项之间的关系。在详细描述TwDU之前,本节首先给出LISTA、TISTA、LAMP深度展开基本结构。在本节中,观测向量被统一假设为
y=Ax+n ,其中A∈RM×N (N>M ),x∈RN 。噪声向量n∈RM 服从均值为0方差为σ2 的高斯分布。1.1 LISTA
ISTA是解决式(3)最知名的重构算法[4],其数学迭代过程表示为
vt=y−Aˆxt ˆxt+1=ηst(ˆxt+βATvt;τ) (4) 式中:
β∈(0,1/1∥A∥22∥A∥22] 代表步长;vt 是第t (t=0,1,⋯,T−1 )次迭代对信号ˆxt 的估计残差;τ 是门限值;ηst(⋅;⋅):RN→RN 是软阈值去噪函数,其数学形式表示为ηst(r;τ)=sign(rj)max{|rj|−τ,0} (5) 经过
T 次迭代之后,稀疏信号x 的估计值ˆx 被得到。Gregor和LeCun在文献[25]中首次将ISTA进行了深度展开。首先,作者将式(4)进行化简、表示为
ˆxt+1=ηst(Sˆxt+By;τ) BΔ=βAT,SΔ=IN−BA (6) 然后,将
t=1,2,⋯,T 的迭代过程深度展开为如图1所示的K层前馈神经网络,图中每一层对应原算法的一次迭代(图2)。在LISTA网络中,式(6)中每一层参数θ=[BSτ] 通过深度学习技术训练输入的数据对{(y(h),x(h))}h=Hh=1 实现学习与更新,其中H 是信号样本总数,y(h) 是第h 批信号样本的观测信号,x(h) 是第h 批信号样本的稀疏信号。Gregor和LeCun通过实验充分说明了LISTA信号重构的速度与质量优于ISTA。训练过程中,损失函数为
L(θ)=1HH∑h=1‖ˆx(y(h);θ)−x(h)‖22 (7) 式中:
θ 代表深度展开重构算法中所有需要训练的参数;ˆx(y(h);θ) 代表当输入观测信号为y(h) 、训练参数为θ 时,重构稀疏信号的估计值。针对LISTA算法时而言,θ=[BSτ] 。1.2 TISTA
TISTA是ISTA算法另一种深度展开形式,作者创新性地将MMSE估计器引入其中,其数学表示为
rt=ˆxt+γtW(y−Aˆxt) v2t=max(‖y−Axt‖22−Mσ2trace(ATA),ε) (8) τ2t=v2tN(N+(γ2t−2γt)M)+γ2tσ2Ntrace(WWT) ˆxt+1=ηMMSE(rt;τ2t) 式中:
rt 为残差,矩阵W=AT(AAT)−1 是矩阵A 的伪逆矩阵,v2t 为误差方差估计值,σ2 为噪声方差,τ2t 为残差的估计噪声方差,ηMMSE 为最小均方误差估计器,其选择需要根据输入信号x 的先验分布。当输入信号服从伯努利−高斯分布时,ηMMSE 表达式为ηMMSE(y;ϑ2)=(yα2ξ)pF(y;ξ)(1−p)F(y;ϑ2)+pF(y;ξ) (9) 式中:
y 为接收信号,ϑ2 为残差的估计噪声方差,α2 为输入信号为非零元素的方差,ξ = α2+ϑ2 ,p 为输入信号非零元素出现的概率,以及:F(z,χ)=1√2πχexp(−z22χ) (10) 从式(8)中可以看出,误差方差估计值
v2t 和τ2t 对于最终稀疏信号估计值的影响至关重要,其推导证明过程文献[27]中有详细说明。为了防止v2t 出现非正值,式(8)中常数ε 被赋予极小的正值,如ε = 10−9 。标量变量γt∈R (t=0,1,⋯,T−1 )是步长参数,用来控制调节误差方差大小,也是深度学习技术需要训练的参数,其个数与网络层数相等。TISTA算法训练参数θ=[γt] 远少于LISTA。TISTA算法单层深度展开形式如图3所示。相比于LISTA网络,随着MMSE估计器的引入,TISTA仅仅训练极少的参数,便使得TISTA具备高度的稳定性、更快的收敛速度。文献[27]实验证明,TISTA收敛速度不仅仅优于传统的AMP、ISTA算法,而且还优于深度展开重构算法LISTA。
1.3 LAMP
AMP算法是近年来提出的算法,因其快速的收敛速度,受到广泛关注,其数学迭代公式表示为
vt=y−Aˆxt+btvt−1 ˆxt+1=ηst(ˆxt+ATvt;τt) (11) 式中:
vt 为第t (t=0,1,2,⋯,T−1 )次迭代对信号ˆxt 估计残差,以及:bt=1M‖ˆxt‖0 (12) τt=α√M∥vt∥2 (13) 其中,
α 是可调参数,与式(3)中λ 值一一对应[28]。比较AMP与ISTA,能看出两个主要区别:1) AMP的估计残差公式vt 包含“Onsager校正项”btvt−1 。Onsager校正项能够迫使信号扰动非常接近加性高斯白噪声,更有利于去噪函数进行降噪处理,同时也保证了AMP的快速收敛性。2) AMP的门限值τt 在所有迭代过程中不再是同一个值,而是关于t 相互独立。Borgerding和Schniter在文献[26]中将AMP 化简成为
ˆxt+1=βtηst(ˆxt+Btvt;αt√M∥vt∥2) vt+1=y−Aˆxt+1+βtM||ˆxt+1||0vt (14) 将式(14)中的迭代过程进行深度展开如图4所示。式(14)建立在AMP算法式(11)的泛化基础上,其中矩阵(
A,AT )在迭代t 时表现为(At,Bt )。为了减少LAMP网络所需训练参数,Borgerding和Schniter在不改变算法特性的基础之上,令At=βtA ,此时,At 中只有标量βt 会随着迭代次数t 不断地变化。因此,LAMP网络参数θ=[Bt,{αt}t=T−1t=0,{βt}t=T−1t=0] 通过训练输入的数据对{(y(h),x(h))}h=Hh=1 使式(7)损失函数L(θ) 最小,实现自我学习与更新。文献[26]实验证明,LAMP算法在准确率和收敛速度优于AMP和LISTA网络。2. 两步深度展开策略
本节主要介绍两步深度展开策略(TwDU)及其训练方法。采用符号
Γ(⋅) 表示传统重构算法模型,符号U(⋅) 表示对传统重构算法的深度展开模型,对ISTA重新描述表示为vt=y−Aˆxt (15) ˆxt+1=Γ(ˆxt)=ηst(ˆxt+βATvt;τ)=ηst(ˆxt+βAT(y−Aˆxt);τ)=ηst((IN−βATA)ˆxt+βATy;τ) (16) 令
βAT=B,IN−BA=S ,即可得到:Γ(ˆxt)=ηst(Sˆxt+By;τ) (17) 以上为传统ISTA算法,利用深度展开技术改进ISTA简单表示为
ˆxt+1=U(Γ(ˆxt)) (18) 式(18)表示将传统算法ISTA深度展开为LISTA,进而得到下一次迭代的结果。
2.1 两步展开算法
两步深度展开策略的提出源于
ˆxt+1 的结果不仅仅依赖ˆxt ,而且还依赖于[6]ˆxt−1 。文献[6]第一次针对图片修复提出TwIST(two step ISTA )算法,其形式如下:ˆxt+1=(1−ω)ˆxt−1+(ω−ψ)ˆxt+ψΓ(ˆxt) (19) 为了保证收敛的速度,
ω 、ψ 取值为ω=ˆω=ˆp2+1 (20) ψ=ˆψ=2ˆωˉξm+ξ1 (21) 式中:
0<ξ1⩽ ,{\lambda _i}\left( {{{\boldsymbol{A}}^{\rm{T}}}{\boldsymbol{A}}} \right) 是{{\boldsymbol{A}}^{\rm{T}}}{\boldsymbol{A}} 的第i个特征值,{\bar \xi _m} \equiv \max \left( {1,{\xi _m}} \right) ,以及\hat p \equiv \frac{{1 - \sqrt k }}{{1 + \sqrt k }} < 1 (22) TwIST算法虽然相比ISTA具备更快的收敛速度,但
\omega 、\psi 的取值相对复杂。在每次重构稀疏信号时,\omega 、\psi 需要仔细手动调整才能获得较好的收敛效果,不能根据数据的变化自适应调整。本文研究受此启发,将两步迭代方法与第1节中介绍的已有的深度展开算法相结合,提出了两步深度展开策略(TwDU),即每一次深度展开算法的估计值依赖于前两次深度展开算法估计值,而不是仅仅依赖于前一次,其公式表述为
{{\boldsymbol{\hat x}}_{t + 1}} = \left( {1 - \omega } \right){{\boldsymbol{\hat x}}_{t - 1}} + \left( {\omega - \psi } \right){{\boldsymbol{\hat x}}_t} + \psi U\left( {\varGamma ( \cdot )} \right) (23) 式中:
U\left( {\varGamma ( \cdot )} \right) 代指各已有的深度展开重构算法。TwDU算法中需要利用深度学习技术训练的参数为{\boldsymbol{\varTheta }} = [\omega \quad \psi \quad {\boldsymbol{\theta}}(U( \cdot ))] ,其中{\boldsymbol{\theta }}(U( \cdot )) 在第1节已经介绍,表示各已有的深度展开模型中需要训练的参数。式(23)与式(19)对比,看似只有等号右侧的最后一项不同,其实每一项都不相同。在式(19)中,{{\boldsymbol{\hat x}}_{t - 1}} 和{{\boldsymbol{\hat x}}_t} 均是通过传统的数学迭代计算推导而出,而在式(23)中{{\boldsymbol{\hat x}}_{t - 1}} 和{{\boldsymbol{\hat x}}_t} 在各自的求值过程中均利用了两步深度展开策略。此外,{{\boldsymbol{\hat x}}_{t - 1}} 和{{\boldsymbol{\hat x}}_t} 的训练参数也在各自的两步深度展开中已经训练完毕,不再参与当前训练,可以减少计算负担。前两次计算结果({{\boldsymbol{\hat x}}_{t - 1}} 和{{\boldsymbol{\hat x}}_t} )对于当前计算结果的影响因子\omega 和\psi 也不再如式(20)与(21)固定不变,而会利用深度学习强大的学习能力随着数据的特性自适应调整。当令\omega = \psi = 1.0 ,则得到:{{\boldsymbol{\hat x}}_{t + 1}} = U(\varGamma ( \cdot )) (24) 此时,式(24)与式(18)是已有的深度展开方案。事实上,所提方案式(23)更具有普遍意义,式(18)可以看成式(23)的一种特殊情况
2.2 参数优化及算法框架
在两步深度展开算法训练过程中,除了已有深度展开算法中固有的训练参数
{\boldsymbol{\theta}}(U( \cdot )) 外,参数\omega 和\psi 已不再固定不变,而是具有自适应能力,会随着数据的特性自我学习和调整。当初始化参数\omega = \psi = 1.0 时,{{\boldsymbol{\hat x}}_{t - 1}} 和{{\boldsymbol{\hat x}}_t} 系数项为0,此时前两次迭代结果对当前结果并无影响,此时的两步深度展开算法等于第1节中介绍的已有的深度展开算法,但是随着算法迭代次数的不断增加,参数\omega 与\psi 不断通过深度学习中的反向传播机制自我优化,最后稳定在最优数值上下小幅波动。此时,{{\boldsymbol{\hat x}}_{t - 1}} 的系数1 - \omega 与{{\boldsymbol{\hat x}}_t} 的系数\omega - \psi 均不再为0。基于两步深度展开策略的重构算法流程如下:输入 稀信号经过稀疏采样之后的观测信号
{\boldsymbol{y}} \in {{\bf{R}}^M} 。输出 稀疏信号向量
{\boldsymbol{x}} \in {{\bf{R}}^N} (N>M )。1)初始化参数
{\boldsymbol{ \varTheta }} = \left[ {\omega \quad \psi \quad \theta \left( {{{U}}\left( \cdot \right)} \right)} \right] ,令\omega = \psi =1.0 。2)for(int i = 0; i < 12; i++),do
3)
{\boldsymbol{y}}={\boldsymbol{Ax}}+{\boldsymbol{n}} ; //对原始稀疏信号进行稀疏采样。4)
U(\varGamma(\hat {\boldsymbol{x}}_t) )={\rm{model}}({\boldsymbol{y}}) ; //将观测信号向量\omega 送入深度展开重构算法模型。5)
{\hat {\boldsymbol{x}}_{t + 1}} = \left( {1 - \omega } \right){\hat {\boldsymbol{x}}_{t - 1}} + \left( {\omega - \psi } \right){\hat {\boldsymbol{x}}_t} + \psi {{U}}\left( {\varGamma \left( {{{\hat {\boldsymbol{x}}}_t}} \right)} \right) ; //运用两步展开策略对估计值进一步优化。6)loss=MSE_loss(
\omega ) //计算最小均方误差损失值。7)loss.backword();//利用深度学习中的反向传播机制,优化算法参数
{\boldsymbol{\varTheta }} 。8)end.//迭代12次之后,求出满足该条件的估计信号。
在深度学习技术中,不同的神经网络结构对于网络的学习能力有重大影响。本文采用层级串联结构,分别对LISTA、TISTA、LAMP应用TwDU策略展开,得到如图5~7所示的改进结构。该结构中每一层均是传统算法中一次迭代的展开,类似于深度学习中多层的前馈神经网络。该结构与已有的深度展开算法网络最大的不同是“两步线”的引入,经实验验证,通过训练“线上”参数
\omega 与\psi 调节前两次输出对于本次输出的影响权重,进一步提高了深度展开算法的收敛速度和信号重构质量。在第1节中,本文分别介绍了LISTA、TISTA和LAMP需要训练的参数变量分别为
{\boldsymbol{\theta }} = [{\boldsymbol{B}}\quad{\boldsymbol{S}}\quad \tau ] 、{\boldsymbol{\theta}} = [{\gamma _t}] 、{\boldsymbol{\theta }} = [{{\boldsymbol{B}}_t},\{ {\alpha _t}\} _{t = 0}^{t = T - 1},\{ {\beta _t}\} _{t = 0}^{t = T - 1}] 。在LISTA中,因为{\boldsymbol{B}} \in {\bf{R}}^{N \times M} 和{\boldsymbol{S}} \in {\bf{R}} ^{{{N}} \times N} ,所以LISTA需要训练的参数总数为T \times \left( {{N^2} + MN + 1} \right) ,其中T 是算法迭代的次数。同理可得LAMP和TISTA需要训练参数总数分别为T \times \left( {NM + 2} \right) 和T [27]。相比于已有的深度展开算法,TwDU策略在原有的许多参数基础上仅仅增加了两个参数(如表1)就提高了算法的性能,具有较高的性价比,而且还可以通过一次预训练的方式消除这两个参数带来的计算负担。表 1 两步展开策略算法训练参数量(第T次迭代)Table 1 The amount of trainable parameters of the TwDU strategy (T{\text{-}}{\rm{th}} iteration)算法 TwDU-LISTA TwDU-TISTA TwDU-LAMP 参数总数 T\left( {{N^2} + MN + 1} \right) + 2 T{\text{ + }}2 T\left( {MN + 2} \right) + 2 2.3 增量训练
在基于TwDU策略的算法中,参数
{\boldsymbol{\varTheta }} = [\omega \quad \psi \quad {\boldsymbol{\theta }}(U( \cdot ))] 的数值将直接影响到稀疏信号的重构质量,因此,{\boldsymbol{\varTheta }} 的训练方法显得极其重要。在本文训练过程中,一批数据首先被划分成H 个小批量数据(batch)送入算法网络,网络损失值随着batch的训练逐渐下降。当完成一批数据的训练,新的一批数据将再次被送入网络训练。经过多次实验验证,增量训练的方法对于调整{\boldsymbol{\varTheta }} ,提高网络性能非常有效。这是因为增量训练不仅仅能够缓解梯度消失问题,还能进一步提升网络的泛化能力。训练数据是随机生成的数据对(
{\boldsymbol{x}},{\boldsymbol{y}} ),其中{\boldsymbol{y}} 是两步深度展开算法需要学习的、稀疏采样之后的特征数据,{\boldsymbol{x}} 是稀疏的标签数据。TwDU算法通过运用随机梯度下降算法,学习数据特征,重构稀疏信号{\boldsymbol{x}} 。在第t 次增益训练过程中,优化器通过调整{\boldsymbol{\varTheta }} 促使本次训练的目标函数{{{\rm{E}}}}[||{{\boldsymbol{x}}_t} - {\boldsymbol{x}}||_2^2] 最小化。当处理完H 个小批量数据之后,优化器的目标函数变为{{{\rm{E}}}}[||{{\boldsymbol{x}}_{t + 1}} - {\boldsymbol{x}}||_2^2] 。尽管在网络训练过程中目标函数从第一层到最后一层不断变换,但参数{\boldsymbol{\varTheta }} 在每一训练过程中都是将前一次的结果作为本次训练的初始值,具有一定的连贯性。在本文中,为了控制变量,所有的实验包括对照实验均采用增量训练的方法。3. 实验结果分析
本节将通过实验验证基于两步深度展开策略的重构算法性能。实验系统布署在Linux平台,应用PyTorch1.5.1深度学习框架,采用Adam优化器。分别为参数
\omega 与\psi 设置不同的初始值,分析参数\omega 与\psi 的自适应能力。伯努利−高斯分布的一维信号和NMSE在相关研究文献[27,29]等被广泛采用作为基准设置,因此采用服从伯努利−高斯分布的一维信号作为仿真输入信号,采用归一化均方误差(NMSE)作为判断标准去衡量各深度重构算法的性能。实验采用非独立同分布的稀疏二维图像信号作为输入信号,验证所提算法对图像的重构效果。3.1 参数
\omega 与\psi 分析为了进一步研究参数
\omega 与\psi 的自适应能力,本次实验分别使用3种不同的随机种子(5、10、15)生成稀疏信号{\boldsymbol{x}} ,并且分别为\omega 与\psi 设置两组不同的初始值即\omega = \psi = 1.0 和\omega = \psi = 0.5 。\omega 与\psi 的变化规律如图8所示。图8中\omega 5\_1 与\psi 5\_1 为第1组实验参数,表示当输入信号随机种子为5时,设置初始值\omega = \psi = 1.0 。\omega 5\_0.5 与\psi 5\_0.5 为第2组实验参数,表示当输入信号随机种子为5时,设置初始值\omega = \psi = 0.5 ,以此类推图中其他符号。从图8中可以观察出当参数的初始值一样时,\omega 与\psi 优化的规律基本是一致的,而不同的初始值之间在30次迭代之后,虽然都提高了算法的NMSE的表现,但\omega = \psi = 1.0 和\omega = \psi = 0.5 的最优值却产生了较大的差距。因为,基于TwDU策略的重构算法中,训练参数{\boldsymbol{\varTheta }} = [\omega \quad \psi \quad {\boldsymbol{\theta }}(U( \cdot ))] 中{\boldsymbol{\theta }}(U( \cdot )) 是随着迭代次数实时变化的,\omega 与\psi 的优化过程也要依赖于{\boldsymbol{\theta }}(U( \cdot )) ,它们会根据不同的输入数据、不同的初始值,自适应地共同优化找到当前最优值。为了确定
\omega 与\psi 的初始值,分别验证\omega = \psi = \left\{ {0.5,}\;{0.8,}\;{1.0,}\;{1.2,}\;{1.5} \right\} 等不同初始值时算法的效果,此时,TwDU算法虽然均能够收敛,但是\omega = \psi = 1.0 时能够获得较为理想的收敛速度。同时,当\omega = \psi = 1.0 时,式(23)等号右侧前两项正好为0,可以利用已有的深度展开算法参数初始化的经验。基于以上两个原因,以下实验中设置\omega = \psi = 1.0 为初始值。3.2 一维稀疏信号重构
在本节中,设定稀疏信号
{\boldsymbol{x}} 是服从伯努利−高斯的独立同分布的随机变量,表示为P\left( x \right) = \left( {1 - p} \right)\delta \left( x \right) + \frac{p}{{\sqrt {2{\text{π}} {\alpha ^2}} }}\exp \left( { - \frac{{{x^2}}}{{2{\alpha ^2}}}} \right) (25) 式中:
p 代表稀疏信号{\boldsymbol{x}} 中非零元素出现的概率,在本次实验中默认p{\text{ = }}0.1 ,其中非零元素服从均值为0,方差{\alpha ^2} = 1 的高斯分布。根据式(25),在产生稀疏信号{\boldsymbol{x}} 时,首先在{\boldsymbol{x}} 中随机挑选p 个非0值位置,之后对{\boldsymbol{x}} 中挑选的非0位置进行数值填充,填充的数值服从高斯分布。噪声{\boldsymbol{n}} 服从均值为0,方差为{\sigma ^2} 的高斯分布。信号的信噪比计算公式为\zeta = \frac{{{\rm{E}}\left[ {||{\boldsymbol{Ax}}||_2^2} \right]}}{{{\rm{E}}\left[ {||{\boldsymbol{n}}||_2^2} \right]}} (26) 在实验中,每批训练数据被分成
H = 200 个小批量数据(batch),其中batch为1000。1) 不同信噪比条件下各深度展开算法的性能比较。为了进行实验对比,本实验中首先按文献[26-27]设置信噪比,即
\zeta = 40\;{\text{dB}} 进行实验。此外,为了进一步验证不同信噪比条件下各深度展开算法的性能,实验中还分别设置了\zeta = 30\;{\text{dB}} 和\zeta = 20\;{\text{dB}} 。实验中采用的仿真稀疏信号长度为N = 500 ,观测矩阵{\boldsymbol{A}} 的维度M = 250 ,N = 500 。矩阵{\boldsymbol{A}} 中每一个元素服从均值为0,方差为{1 \mathord{\left/ {\vphantom {1 M}} \right. } M} 的高斯分布,即{A_{i,j}}\sim N(0,{1 \mathord{\left/ {\vphantom {1 M}} \right. } M}) 。图9给出了LISTA、TwDU-LISTA、TISTA、TwDU-TISTA、LAMP和TwDU-LAMP分别迭代12次的归一化最小均方误差(NMSE)。NMSE计算公式如下:
\xi = 10{{\rm{lg}}}E\left[ {\frac{{||{{{\boldsymbol{\hat x}}}_{t + 1}} - {\boldsymbol{x}}||_2^2}}{{||{\boldsymbol{x}}||_2^2}}} \right] (27) 从图9中可以观察出,基于两步深度展开策略的重构算法与已有的深度展开算法相比,能够更好地重构稀疏信号。TwDU-LISTA与LISTA在初始阶段具有相近的NMSE,随着迭代次数的增多,在
t = 9 和t = 12 时,相比于LISTA,TwDU-LISTA分别大约减少了9 dB和6 dB。TISTA在前12次迭代中收敛,收敛时NMSE为−42 dB,而TwDU-TISTA在t = 8 的时候,NMSE已经达到−42 dB,相比于TISTA收敛时t = 10 ,TwDU-TISTA具备更快的收敛速度。同时,在前12次迭代中TwDU-LAMP的NMSE表现一直优于LAMP,而且比LAMP收敛速度也提前了2个周期。图10和图11分别给出了信噪比为30 dB和20 dB时,各深度展开算法NMSE对比。从图中可以明显的观察出,随着信噪比的降低,各深度展开算法对信号的重构能力变差。即便如此,基于TwDU策略的重构算法与已有的深度展开算法相比,仍能够更好地重构稀疏信号。当信噪比为30 dB时,TwDU-LISTA的NMSE相比LISTA最多减少了0.6 dB,TwDU-TISTA相比TISTA最多减少了4.6 dB,TwDU-LAMP相比LAMP最多减少了3.9 dB。当信噪比为20 dB时,由于噪声污染严重,各个深度展开重构算法的性能差距变小,基于TwDU策略的深展开重构算法相比于已有的深度展开算法,NMSE减少均在1 dB以内。
2) 不同稀疏度下的深度展开算法的性能比较。在压缩感知中,稀疏度是影响信号能否高精度重构的关键因素。一般情况下,稀疏度越低,重构算法越能更好地重构信号。图12中给出了稀疏度在50~250,各深度展开算法的NMSE表现。从图12中可以看出,随着稀疏度的增大,各深度展开算法性能逐渐下降。当稀疏度小于150时,除了TwDU-LAMP与LAMP算法性能相近外,其余基于两步展开策略的深度展开算法均优于已有的深度展开算法。当稀疏度大于150时,各深度展开算法均难以重构信号,NMSE性能无太大差异。
3.3 二维图像重构
本节采用非独立同分布的稀疏二维图像信号进一步评估基于两步展开策略的深度展开重构算法的性能。稀疏二维图像信号采用公开的MNIST数据集。MNIST数据集来源于美国国家标准与技术研究所,由250个人手写数字图像和其对应标签组成。
MNIST中每一个数字图像由
28 \times 28 = 784 像素组成,其中每个像素值是在[0,255] 之间的整数。在本次实验中,每一个数字图像的像素值被归一化到[0,1] ,然后被转换成784维的向量。实验设置N = 784 ,M = 392 ,传感矩阵{\boldsymbol{A}} \in {\bf{R}} ^{M \times N} 中每一个元素服从均值为0,方差为{1 \mathord{\left/ {\vphantom {1 M}} \right. } M} 的高斯分布,加性噪声{\boldsymbol{n}} \in {\bf{R}}^M 服从均值为0,方差为4 \times {10^{ - 4}} 的高斯分布。接收到的信号{\boldsymbol{y}} \in {{\bf{R}}^M} 是通过{\boldsymbol{y}} = {\boldsymbol{Ax}} + {\boldsymbol{n}} 生成。此外,MSE被用来衡量各个算法的性能。在训练过程中,实验采用增量训练方式,MNIST训练集中60000张图片全部被应用,小批量数据batch为200,采用Adam优化器。图13中给出了各深度展开算法迭代
T{\text{ = }}8 次之后的重构图像。所有图像均是在如左最下方原始图像的基础上加入相同条件的高斯噪声之后进行算法重构。经过8次迭代,基于两步展开策略的深度展开算法的MSE值均有所下降。TwDU-LISTA的MSE下降了0.0010,TwDU-LAMP的MSE下降了0.0001,TwDU-TISTA的MSE下降了0.0025。MSE数值反应在图像上,除了TwDU-LAMP重构图像不能明显看出与LAMP图像的区别,其余重构图像均能看出基于两步展开策略的深度展开算法重构信号的优越性。从上述实验中可以看出,基于两步深度展开策略的重构算法无论针对一维伯努利−高斯独立同分布的随机稀疏信号重构还是针对二维非独立同分布的图像信号重构,都显示出了优越性。
4. 结束语
为了提高深度展开算法重构信号的效率,本文在原有深度展开算法基础上提出了两步深度展开策略。两步深度展开策略充分利用了信号的内在特性,将前两次深度展开算法的估计值按照不同的权重,对本次结果共同施加影响,而权重的大小与本次深度展开算法中的参数共同利用深度学习技术进行训练。仿真结果表明,两步深度展开策略无论针对一维伯努利−高斯独立同分布的随机稀疏信号重构还是针对二维非独立同分布的图像信号重构都获得了较好的结果。这些实验证明了,该策略具有高度的稳定性与扩展性。
-
表 1 两步展开策略算法训练参数量(第T次迭代)
Table 1 The amount of trainable parameters of the TwDU strategy (
T{\text{-}}{\rm{th}} iteration)算法 TwDU-LISTA TwDU-TISTA TwDU-LAMP 参数总数 T\left( {{N^2} + MN + 1} \right) + 2 T{\text{ + }}2 T\left( {MN + 2} \right) + 2 -
[1] CANDES E J, ROMBERG J, TAO T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information[J]. IEEE transactions on information theory, 2006, 52(2): 489–509. doi: 10.1109/TIT.2005.862083 [2] DONOHO D L. Compressed sensing[J]. IEEE transactions on information theory, 2006, 52(4): 1289–1306. doi: 10.1109/TIT.2006.871582 [3] ZHANG Zheng, XU Yong, YANG Jian, et al. A survey of sparse representation: algorithms and applications[J]. IEEE access, 2015, 3: 490–530. doi: 10.1109/ACCESS.2015.2430359 [4] CHAMBOLLE A, DE VORE R A, LEE N Y, et al. Nonlinear wavelet image processing: variational problems, compression, and noise removal through wavelet shrinkage[J]. IEEE transactions on image processing, 1998, 7(3): 319–335. doi: 10.1109/83.661182 [5] BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J]. SIAM journal on imaging sciences, 2009, 2(1): 183–202. doi: 10.1137/080716542 [6] BIOUCAS-DIAS J M, FIGUEIREDO M A T. A new TwIST: two-step iterative shrinkage/thresholding algorithms for image restoration[J]. IEEE transactions on image processing, 2007, 16(12): 2992–3004. doi: 10.1109/TIP.2007.909319 [7] DONOHO D L, MALEKI A, MONTANARI A. Message-passing algorithms for compressed sensing[J]. Proceedings of the national academy of sciences of the United States of America, 2009, 106(45): 18914–18919. doi: 10.1073/pnas.0909892106 [8] 许子微, 陈秀宏. 自步稀疏最优均值主成分分析[J]. 智能系统学报, 2016, 16(3): 416–424. XU Ziwei, CHEN Xiuhong. Sparse optimal mean principal component analysis based on self-paced learning[J]. CAAI transactions on intelligent systems, 2016, 16(3): 416–424. [9] 唐荣, 罗川, 曹潜, 等. 不完备数据中面向特征值更新的增量特征选择方法[J]. 智能系统学报, 2021, 16(3): 493–501. TANG Rong, LUO Chuan, CAO Qian, et al. Incremental approach for feature selection in incomplete data while updating feature values[J]. CAAI transactions on intelligent systems, 2021, 16(3): 493–501. [10] 窦勇敢, 袁晓彤. 基于隐式随机梯度下降优化的联邦学习[J]. 智能系统学报, 2022, 17(3): 488–495. DOU Yonggan, YUAN Xiaotong. Federated learning with implicit stochastic gradient descent optimization[J]. CAAI transactions on intelligent systems, 2022, 17(3): 488–495. [11] 包政凯, 朱齐丹, 刘永超. 满秩分解最小二乘法船舶航向模型辨识[J]. 智能系统学报, 2022, 17(1): 137–143. BAO Zhengkai, ZHU Qidan, LIU Yongchao. Ship heading model identification based on full rank decomposition least square method[J]. CAAI transactions on intelligent systems, 2022, 17(1): 137–143. [12] SHI Wuzhen, JIANG Feng, LIU Shiliang, et al. Image compressed sensing using convolutional neural network[J]. IEEE transactions on image processing, 2020, 29: 375–388. doi: 10.1109/TIP.2019.2928136 [13] YAO Hantao, DAI Feng, ZHANG Shiliang, et al. DR2-Net: deep residual reconstruction network for image compressive sensing[J]. Neurocomputing, 2019, 359: 483–493. doi: 10.1016/j.neucom.2019.05.006 [14] MOUSAVI A, BARANIUK R G. Learning to invert: signal recovery via deep convolutional networks[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans: IEEE, 2017: 2272−2276. [15] SAMUEL N, DISKIN T, WIESEL A. Learning to detect[J]. IEEE transactions on signal processing, 2019, 67(10): 2554–2564. doi: 10.1109/TSP.2019.2899805 [16] 李晓辉, 王维猛, 黑永强. 基于空频相关的大规模MIMO-OFDM系统压缩信道反馈[J]. 电子与信息学报, 2014, 36(5): 1178–1183. LI Xiaohui, WANG Weimeng, HEI Yongqiang. Compressed channel feedback for large-scale MIMO-OFDM systems based on space frequency correlation[J]. Journal of Electronics and Information Technology, 2014, 36(5): 1178–1183. [17] 张博文. 基于自适应深度神经网络的稀疏线性逆问题研究及其在通信系统中的应用[D].北京: 北京交通大学, 2021: 12−29. ZhANG Bowen. Research on Sparse Linear Inverse Problem Based on Adaptive Deep Neural Networks and Its Application in Communication Systems [D]. Beijing: Beijing Jiaotong University, 2021: 12−29. [18] QIAN Qipeng, XIONG Fengchao, ZHOU Jun. Deep unfolded iterative shrinkage-thresholding model for hyperspectral unmixing[C]//2019 IEEE International Geoscience and Remote Sensing Symposium. Yokohama: IEEE, 2019: 2151−2154. [19] VAN LUONG H, JOUKOVSKY B, ELDAR Y C, et al. A deep-unfolded reference-based RPCA network for video foreground-background separation[C]//2020 28th European Signal Processing Conference. Amsterdam: IEEE, 2020: 1432−1436. [20] LIU Jiaming, SUN Yu, GAN Weijie, et al. Stochastic deep unfolding for imaging inverse problems[C]//2021 IEEE International Conference on Acoustics, Speech and Signal Processing. Toronto: IEEE, 2021: 1395−1399. [21] 马培旗, 袁玉山, 张宗夕, 等. 基于压缩感知技术三维MRI用于半月板损伤[J]. 中国医学影像技术, 2020, 36(10): 1533–1536. MA Peiqi, YUAN Yushan, ZHANG Zongxi, et al. 3D MRI based on compressed sensing technology for meniscus injury[J]. Chinese Medical Imaging Technology, 2020, 36(10): 1533–1536. [22] LIU Yiling, LIU Qiegen, ZHANG Minghui, et al. IFR-net: iterative feature refinement network for compressed sensing MRI[J]. IEEE transactions on computational imaging, 2020, 6: 434–446. doi: 10.1109/TCI.2019.2956877 [23] SOLOMON O, COHEN R, ZHANG Yi, et al. Deep unfolded robust PCA with application to clutter suppression in ultrasound[J]. IEEE transactions on medical imaging, 2020, 39(4): 1051–1063. doi: 10.1109/TMI.2019.2941271 [24] HERSHEY J R, LE ROUX J, WENINGER F. Deep unfolding: model-based inspiration of novel deep architectures[EB/OL]. (2014−09−09)[2020−01−01]. https://arxiv.org/abs/1409.2574. [25] GREGOR K, LECUN Y. Learning fast approximations of sparse coding[J]. ICML 2010 - proceedings, 27th international conference on machine learning, 2010: 399−406. [26] BORGERDING M, SCHNITER P. Onsager-corrected deep learning for sparse linear inverse problems[C]//2016 IEEE Global Conference on Signal and Information Processing. Washington, DC: IEEE, 2017: 227−231. [27] ITO D, TAKABE S, WADAYAMA T. Trainable ISTA for sparse signal recovery[J]. IEEE transactions on signal processing, 2019, 67(12): 3113–3125. doi: 10.1109/TSP.2019.2912879 [28] MONTANARI A. Graphical models concepts in compressed sensing[M]//Compressed Sensing. Cambridge: Cambridge University Press, 2012: 394−438. [29] BORGERDING M, SCHNITER P, RANGAN S. AMP-inspired deep networks for sparse linear inverse problems[J]. IEEE transactions on signal processing, 2017, 65(16): 4293–4308. doi: 10.1109/TSP.2017.2708040