广东工业大学学报  2024, Vol. 41Issue (6): 125-132.  DOI: 10.12052/gdutxb.230205.
0

引用本文 

谢伟立, 张军. 一种基于多尺度的多层卷积稀疏编码网络[J]. 广东工业大学学报, 2024, 41(6): 125-132. DOI: 10.12052/gdutxb.230205.
Xie Wei-li, Zhang Jun. A Multi-layer Convolutional Sparse Coding Network Based on Multi-Scale[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2024, 41(6): 125-132. DOI: 10.12052/gdutxb.230205.

基金项目:

国家自然科学基金资助项目(61973088)

作者简介:

谢伟立(1999– ) ,男,硕士研究生,主要研究方向为卷积稀疏编码、深度学习等,E-mail:tlich@sina.com

通信作者

张军(1979– ) ,男,教授,博士,主要研究方向为人工智能技术、压缩感知理论及其应用,E-mail:jzhang@gdut.edu.cn

文章历史

收稿日期:2023-12-15
一种基于多尺度的多层卷积稀疏编码网络
谢伟立, 张军    
广东工业大学 信息工程学院, 广东 广州 510006
摘要: 多层卷积稀疏编码模型(Multi-layer Convolutional Sparse Coding, ML-CSC)被认为是对卷积神经网络(Convolutional Neural Networks, CNN)的一种理论阐释。尽管ML-CSC模型在特征对比度高的数据集上表现良好,但是其在特征对比度低的数据集上表现不佳。为了解决这一问题,本文引入多尺度技术设计了一种多尺度多层卷积稀疏编码网络(Multi-scale Multi-layer Convolutional Sparse Coding Network, MSMCSCNet),不仅在特征对比度较弱的情况下得到更好的图像分类效果,而且也使模型具有扎实的理论基础和较高的可解释性。实验结果表明,MSMCSCNet在不增加参数量的前提下,在Cifar10、Cifar100数据集和Imagenet32数据子集上,准确率相比现有ML-CSC模型分别提高了5.75,9.75和9.8个百分点。此外,消融实验进一步证实了模型的多尺度设计和特征筛选模式设计的有效性。
关键词: 多层卷积稀疏编码    卷积神经网络    图像分类    多尺度    
A Multi-layer Convolutional Sparse Coding Network Based on Multi-Scale
Xie Wei-li, Zhang Jun    
School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China
Abstract: In recent years, the Multi-layer convolutional sparse coding (ML-CSC) model has been regarded as a theoretical explanation for convolutional neural networks (CNN). While the ML-CSC model performs well on datasets with high feature contrast, its performance is not satisfactory on datasets with low feature contrast. To address this issue, this paper introduces a multi-scale technique to design a multi-scale multi-layer convolutional sparse coding network (MSMCSCNet), which not only achieves better image classification results in scenarios with weak feature contrast, but also provides the model with a solid theoretical foundation and higher interpretability. Experimental results demonstrate that, without increasing the parameter count, MSMCSCNet achieves accuracy improvements of 5.75, 9.75, and 9.8 percentage points on the Cifar10, Cifar100 datasets, and the Imagenet32 subset, respectively, compared to existing ML-CSC models. Furthermore, ablation experiments further validate the effectiveness of the model's multi-scale design and feature selection mechanism.
Key words: multi-layer convolutional sparse coding    convolutional neural network    image classification    multi-scale    

近年来,卷积神经网络(Convolutional Neural Networks, CNN)已成为深度学习领域的核心技术之一。自1989年LeCun等[1]首次提出以来,CNN在众多计算机视觉任务中已展现出卓越性能[2]。尽管CNN性能强大,其内部机制通常被视为“黑匣子”。这意味着,虽然这些网络能高效完成任务,但其内部工作机制不透明且难以解释。这种不透明性在要求高解释性和可验证性的应用中,如医疗诊断和自动驾驶,可能导致不可预测的风险,从而限制了CNN的进一步发展。

近期,Papyan等[3]揭示了多层卷积稀疏编码模型(Multi-layer Convolutional Sparse Coding, ML-CSC) 与CNN之间的有效联系,并为CNN提供了一种可解释性框架[3-5]。ML-CSC模型由多层卷积稀疏编码组成,类似于CNN中的多卷积层结构。在CNN中,通过多个卷积层逐步提取特征的过程被称为前向传播,在ML-CSC框架中可以被解释为逐层求解卷积稀疏编码。

稀疏向量的求解过程被称为稀疏编码或基追踪(Basis Pursuit, BP) 问题[6]。BP问题的常用解决方法包括(Orthogonal Matching Pursuit, OMP)[7]、软阈值迭代算法[8](Iterative Shrinkage-thresholding Algorithm, ISTA)、快速软阈值迭代算法[9](Fast Iterative Shrinkage-thresholding Algorithm, FISTA) 和交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)[10]。其中,ISTA和FISTA最为常用,因为它们仅需矩阵和向量乘法,以及逐项运算。Papyan等[3]提出的ML-CSC模型采用分层的BP算法,该算法仅考虑单层编码的稀疏性,而未涉及中间层编码的稀疏性。因此,Sulam等[4]基于多层BP问题提出了多层软阈值迭代算法(Multi-layer Iterative Soft Thresholding Algorithm, ML-ISTA) ,具有更优的稀疏性,而由此算法提出的ML-ISTA模型展现出更好的分类性能。

尽管ML-CSC模型在理论分析和可解释性方面展现出独特的优势,但其性能与当前流行的CNN模型相比仍存在明显的差距。ML-CSC模型通过对输入信号执行多层卷积稀疏编码来获取更稀疏的特征,旨在提高分类性能。然而,这个过程存在一些问题。例如,多层卷积稀疏编码的堆叠可能导致特征的冗余或重复。同时,ML-CSC模型在多层编码过程中可能过度强调对比度高的特征,而忽略了对比度低的特征[11]。此外,ML-CSC模型使用的单一尺度卷积字典可能进一步加剧了上述问题,这一点将在后续实验中进一步验证。

为解决前述问题,本文采用多尺度卷积技术来设计网络模型。多尺度卷积技术的灵感来源于人类视觉系统(Human Visual System, HVS) 的多尺度感知能力[12-13]。通过使用不同尺度的卷积滤波器,多尺度卷积技术能够在多个层次上捕获图像或数据的特征[14]。借助这种能力能够解决ML-CSC模型所面临的问题。在引入多尺度卷积技术后,本文进一步提出了一种融合多尺度设计的ML-CSC模型多尺度多层卷积稀疏编码网络(Multi-scale Multi-layer Convolutional Sparse Coding Network, MSMCSCNet),这一新模型不仅继承了卷积稀疏编码模型在理论分析和可解释性方面的优势,也解决了ML-CSC模型所出现的问题,而且在图像分类性能上也显著超越了传统ML-CSC模型。

实验结果表明,本文设计的MSMCSCNet在图像分类方面取得了显著进步,与当前最先进的ML-CSC模型相比,在Cifar10、Cifar100数据集和Imagenet32数据子集上分别提高了5.75,9.75和9.8个百分点,显示出其卓越的性能。为了进一步验证本文模型,特别是多尺度设计和特征筛选模式的有效性,本文进行了论证实验和2组详尽的消融实验。实验结果显示,本文的模块设计在提升模型性能方面具有显著效果。

1 相关工作 1.1 多层卷积稀疏编码

在稀疏编码中,给定信号$x \in {{{{\bf{R}}}}^n}$,若$x = {{{\boldsymbol{D}}}}{\boldsymbol{\gamma}}$,则信号在过完备字典${\boldsymbol{D}}$上的表示是稀疏的,其中${\boldsymbol{D}} \in {{{{\bf{R}}}}^{n \times m}}$,且${\boldsymbol{\gamma}} \in {{{{\bf{R}}}}^m}$(m<<n)为稀疏向量。这一过程可表述为

$ \underset{{\boldsymbol{\gamma}} }{\mathrm{min}}{\Vert {\boldsymbol{\gamma}} \Vert }_{0}\text{,}{\rm{s}}.{\rm{t}}.{\Vert x-{\boldsymbol{D}}{\boldsymbol{\gamma}} \Vert }_{2}^{2} \leqslant \epsilon $ (1)

式中:${\left\| {\boldsymbol{\gamma}} \right\|_0}$表示${\ell _0}$范数,是${\boldsymbol{\gamma}}$中非零元素的数量,$x$为输入信号,${\boldsymbol{D}}$为过完备字典,${\boldsymbol{\gamma}}$为稀疏向量。

由于存在${\ell _0}$范数是一个NP-hard问题[15],通常${\ell _0}$范数放宽为$ {\ell _1} $范数[16],同时引入正则化系数$ \lambda $,使得优化问题(1) 转化为凸优化问题。这类问题通常被称为基追踪问题或Lasso问题[17]。基追踪问题的表达式为[18-20]

$ \mathop {\min }\limits_{\boldsymbol{\gamma}} \frac{1}{2}\left\| {x - {\boldsymbol{D}}{\boldsymbol{\gamma}} } \right\|_2^2 + \lambda {\left\| {\boldsymbol{\gamma}} \right\|_1} $ (2)

在解决基追踪问题时,ISTA是一种广泛应用的方法。该算法利用软阈值操作符来更新${\boldsymbol{\gamma}}$,其更新公式为

$ {{\boldsymbol{\gamma}} ^{k + 1}} = {S_{{\lambda \mathord{\left/ {\vphantom {\lambda L}} \right. } L}}}\left( {{{\boldsymbol{\gamma}} ^k} - \frac{1}{L}\left( {{{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D}}{{\boldsymbol{\gamma}} ^k} - {{\boldsymbol{D}}^{\rm{T}}}x} \right) } \right) $ (3)

式中:${{\boldsymbol{\gamma}} ^k}$代表第k次迭代的编码结果;L是利普希茨常数,对于${1 \mathord{\left/ {\vphantom {1 2}} \right. } 2}\left\| {x - {\boldsymbol{D}}{\boldsymbol{\gamma}} } \right\|_2^2$ 的最大利普希茨常数其值为${{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D}}$的最大特征值,即${\lambda _{\max }}\left( {{{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D}}} \right)$${\boldsymbol{D}}$为卷积字典;$ {S}_{\theta }(\cdot) $是软阈值收缩算子,其定义为

$ S_\theta(x)= \left\{ {\begin{array}{*{20}{l}} x +\theta, & x < -\theta \\ 0, & -\theta \leqslant x \leqslant \theta \\ x-\theta, & x >\theta \end{array}} \right.$ (4)

式中:$ \theta $则是阈值,$x$为输入信号。

稀疏编码这一问题最近被Papyan等[3]扩展到多层设置称为ML-CSC,基于ML-CSC提出了层基追踪(Layer Basis Pursuit,LBP) 模型。ML-CSC模型整个过程可以表示为

$ \begin{gathered} x = {{\boldsymbol{D}}_1}{{\boldsymbol{\gamma}} _1} \\ {{\boldsymbol{\gamma}} _1} = {{\boldsymbol{D}}_2}{{\boldsymbol{\gamma}} _2} \\ \cdots \\ {{\boldsymbol{\gamma}} _n} = {{\boldsymbol{D}}_{n + 1}}{{\boldsymbol{\gamma}} _{n + 1}} \\ \end{gathered} $ (5)

式中:$x$为输入信号,它通过卷积字典${{\boldsymbol{D}}_1}$和稀疏向量${{\boldsymbol{\gamma}} _1}$的乘积进行分解。进一步地,${{\boldsymbol{\gamma}} _1}$也被类似地分解为${{\boldsymbol{\gamma}} _1} = {{\boldsymbol{D}}_2}{{\boldsymbol{\gamma}} _2}$。通过将这种分解结构扩展到多个层级,形成了ML-CSC模型。这里的等号表示重建过程,而非严格的数学相等。在Papyan等[3]提出的ML-CSC模型中,采用层基追踪方法来更新编码,因此该模型也被称为LBP模型,其中第i层的BP问题可以表述为

$ \mathop {\min }\limits_{{{\boldsymbol{\gamma}} _i}} \frac{1}{2}\left\| {{{\boldsymbol{\gamma}} _{i - 1}} - {{\boldsymbol{D}}_i}{{\boldsymbol{\gamma}} _i}} \right\|_2^2 + \lambda {\left\| {{{\boldsymbol{\gamma}} _i}} \right\|_1} $ (6)

继Papyan等[3]提出ML-CSC模型后,Sulam等[4]指出,该模型在处理层基追踪问题时存在局限性,因为它仅关注单一层级的编码,而忽视了不同层级间的编码互动。为了解决这一问题,Sulam等[4]基于多层BP问题提出了ML-ISTA算法,并证明了其收敛性。在此基础上,提出了ML-ISTA和ML-FISTA模型,这些模型在不增加额外参数的情况下,显著提升了分类性能。

1.2 卷积稀疏编码和卷积神经网络之间的联系

ML-CSC模型由多层卷积稀疏编码组成,类似于CNN中的多卷积层结构。卷积层和卷积稀疏编码具有相似的功能:通过卷积操作提取信号特征。但卷积层提取特征的过程难以通过数学工具进行分析,而卷积稀疏编码通过求解BP问题求解输入的稀疏编码。此过程可由式(2)定义,形成一个可通过数学工具分析的严格优化问题[21]。对于CNN中的前向传播,在ML-CSC中就是求解多层级卷积稀疏编码,而反向传播用于更新卷积字典,实现字典学习。

卷积稀疏编码不仅提升CNN的可解释性,而且它的融入在多个层面上改进了传统CNN的性能。这一点在SDNet模型[22]中尤为明显,该模型通过将ResNet的首层卷积层替换为卷积稀疏编码层,成功地增强了模型对输入图像的特征提取和表达能力,从而提高了模型的分类精度和鲁棒性。进一步地,在MSD-CSC网络[23]中,作者假设ML-CSC的字典形式,让MSDNet[24]成为ML-CSC的一种特例,这创新的设计不仅为MSDNet的扩张卷积和密集连接提供了坚实的理论基础,而且在实际应用中实现了性能的显著提升。

在这些研究中,卷积稀疏编码的融合增强了网络的性能,还为本文理解和改进传统CNN架构提供了新的视角。

2 算法设计

本节首先介绍用于图像分类的多尺度多层卷积稀疏编码模型,然后为其提供数学解决方案。通过解决方案,本文提出了可解释的多尺度多层卷积稀疏编码网络,即MSMCSCNet来解决图像分类任务。

2.1 多尺度卷积稀疏编码

为了解决ML-CSC模型存在的问题,引入多尺度卷积技术,从多个尺度提取输入信号特征。在卷积稀疏编码中,面临求解BP问题,这通常是一个具有多个解的问题,尤其是在卷积字典不同的情况下。具体而言,通过不同尺度分解信号$x$,每个尺度使用不同的卷积字典,如下所示:

$ \begin{gathered} x = {{\boldsymbol{D}}_1}{{\boldsymbol{\gamma}} _1} = {{\boldsymbol{D}}_2}{{\boldsymbol{\gamma}} _2} = \cdots = {{\boldsymbol{D}}_s}{{\boldsymbol{\gamma}} _s} \\ {{\boldsymbol{D}}_s} = \displaystyle\sum\limits_{t = 1}^T {{{\boldsymbol{d}}_{s,t}}} \\ \end{gathered} $ (7)

式中:$x$为输入信号,s为不同的尺度级别。在尺度1上,定义卷积字典${{\boldsymbol{D}}_1}$,由$T$个尺寸为$ {k_s} \times {k_s} $的滤波器${{\boldsymbol{d}}_{s,t}}$组成。为了模拟人类视觉系统的多尺度感知能力,在不同的尺度上采用了不同数量的滤波器。鉴于此,在多尺度CSC中面临式(8)优化问题的求解:

$ \mathop {\min }\limits_{{{\boldsymbol{\gamma}} _s}} \frac{1}{2}\left\| {x - {{\boldsymbol{D}}_s}{{\boldsymbol{\gamma}} _s}} \right\|_2^2 + \lambda {\left\| {{{\boldsymbol{\gamma}} _s}} \right\|_1} $ (8)

式中:${\left\| {{{\boldsymbol{\gamma}} _s}} \right\|_1}$${\ell _1}$范数,$\lambda $为正则化系数,$x$为输入信号,${{\boldsymbol{D}}_s}$为尺度s下的卷积字典,${{\boldsymbol{\gamma}} _s}$为尺度s下的稀疏向量。本文的目标是解决这个优化问题,以获得尺度s的特征,这对图像分类任务至关重要。为了求解式(5) ,本文采用了ISTA,其迭代过程为

$ {\boldsymbol{\gamma}} _s^{k + 1} = {S_{{\lambda \mathord{\left/ {\vphantom {\lambda L}} \right. } L}}}\left( {{\boldsymbol{\gamma}} _s^k - \frac{1}{L}\left( {{{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D}}{\boldsymbol{\gamma}} _s^k - {{\boldsymbol{D}}^{\rm{T}}}x} \right) } \right) $ (9)

式中:${\boldsymbol{\gamma}} _s^k$为尺度s下第k次迭代的编码结果,L为利普希茨常数,${\boldsymbol{D}}$为卷积字典,$ {S}_{\lambda /L}(\cdot) $为软阈值收缩算子,${\lambda \mathord{\left/ {\vphantom {\lambda L}} \right. } L}$则是阈值。

定义$\left( {{1 \mathord{\left/ {\vphantom {1 L}} \right. } L}} \right) $为可训练参数c。在CNN的背景下,$ {S_{{\lambda \mathord{\left/ {\vphantom {\lambda L}} \right. } L}}} $可以被视为ReLU激活函数的一种泛化,因为它在功能上与ReLU有相似之处[3]。基于这一理解,迭代式(9) 得到式(10):

$ {\boldsymbol{\gamma}} _s^{k + 1} = {{\rm{ReLU}}} \left( {{\boldsymbol{\gamma}} _s^k - c\left( {{{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D\gamma}} _s^k - {{\boldsymbol{D}}^{\rm{T}}}x} \right) } \right) + b $ (10)

式中:cb都是可训练参数。同时,让${\boldsymbol{\gamma}} _s^0 = 0$,得到了初始化公式:

$ {\boldsymbol{\gamma}} _s^1 = {Re} LU\left( {c\left( {{{\boldsymbol{D}}^T}x} \right) } \right) + b $ (11)

基于式(10) ~(11) ,建立了解决该问题的迭代框架。在每个尺度上,应用这2个公式进行迭代,形成了一个针对该尺度特征向量求解的CSC模块,如图1所示。

图 1 多尺度多层卷积稀疏编码网络的模型 Figure 1 Model of multi-scale multi-layer convolutional sparse coding network
2.2 多尺度多层卷积稀疏编码网络

上一节探讨了多尺度CSC的求解方法。本节将着重介绍MSMCSCNet的架构。MSMCSCNet的核心在于解决多尺度CSC问题,以获取信号$x$在多个尺度上的特征,进而增强模型在图像分类任务中的性能。在MSMCSCNet中设计了3组尺度来提取信号$x$的特征,并构建了3个不同的CSC模块,如图1所示。在提取所需特征后,选择将这些多尺度特征进行合并,形成一个综合的多尺度特征矩阵${\boldsymbol{\varGamma}}$

$ {\boldsymbol{\varGamma}} = \left[ {{{\boldsymbol{\gamma}} _1}{\text{ }}{{\boldsymbol{\gamma}} _2}{\text{ }}{{\boldsymbol{\gamma}} _3}} \right] $ (12)

经过多尺度卷积处理后,通过级联方法将不同尺度的特征融合成一个综合特征矩阵。然而,这个矩阵可能包含了不必要的冗余信息,且模型难以识别哪些尺度的特征最为关键。为了解决这一问题,进一步对该特征矩阵应用了卷积稀疏编码。这一步骤能有效地从众多特征中筛选出最重要的部分,并对多尺度特征进行有效整合,从而提升模型性能并减少对特定尺度的依赖。在获得式(12) 所示的多尺度特征矩阵后,对其进行了单层CSC处理,其数学过程为

$ \begin{gathered} {\boldsymbol{\varGamma}} = {\boldsymbol{DZ}} \\ \mathop {\min }\limits_Z \frac{1}{2}\left\| {{\boldsymbol{\varGamma}} - {\boldsymbol{DZ}}} \right\|_2^2 + \lambda {\left\| {\boldsymbol{Z}} \right\|_1} \\ \end{gathered} $ (13)

式中:变量${\boldsymbol{Z}}$代表了${\boldsymbol{\varGamma}} $的稀疏系数,它精选出多尺度特征矩阵${\boldsymbol{\varGamma}} $中最重要的特征。这些精选特征对于模型在图像分类任务中的性能至关重要,模型构建过程如算法1所示。

算法1 多尺度多层卷积稀疏编码算法

输入:输入信号$ {x}$ 卷积字典$ {{{\boldsymbol{D}}_s}}$软阈值$ {{b_s} }$,可训练参数$ {{c_s}}$

输出:编码特征$ {{\boldsymbol{Z}}}$

1:For s = 1:S do

2:$ {{\hat {\boldsymbol{\gamma}} _s} \leftarrow {{\rm{ReLU}}} \left( {{c_s}\left( {{\boldsymbol{D}}_s^{\rm{T}}x} \right) } \right) + {b_s}}$

3:    For k = 1:unfolding do

4:$ {\hat {\boldsymbol{\gamma}} _s^{k + 1} \leftarrow {{\rm{ReLU}}} \left( {{\boldsymbol{\gamma}} _s^k - {c_s}\left( {{\boldsymbol{D}}_s^{\rm{T}}{{\boldsymbol{D}}_s}{\boldsymbol{\gamma}} _s^k - {{\boldsymbol{D}}_s}^{\rm{T}}x} \right) } \right) + {b_s}}$

5:    End For

6:End For

7:$ {{\boldsymbol{\varGamma}} \leftarrow {\text{concat}}\left( {{{\boldsymbol{\gamma}} _1},{\text{ }}{{\boldsymbol{\gamma}} _2},{\text{ }} \cdots ,{\text{ }}{{\boldsymbol{\gamma}} _s}} \right)}$

8:For k = 1:unfolding do

9:  $ {\hat {\boldsymbol{Z}} \leftarrow {{\rm{ReLU}}} \left( {{\boldsymbol{Z}} - c\left( {{\boldsymbol{D}}_{}^{\rm{T}}{\boldsymbol{DZ}} - {{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{\varGamma}} } \right) } \right) + b }$

10:End For

3 实验结果及讨论 3.1 实验设置

在本节中,为了有效比较本文模型与ML-CSC模型的性能,本文采用了2组具有不同特征对比度的数据集进行实验。第1组特征对比度高,包括Minist、Fashion-Minist和SVHN。第2组特征对比度低,包括Cifar10、Cifar100[25]和Imagenet32[26]的子集。2组数据集的对比结果如图2所示。

图 2 特征对比度不同的2组数据集的对比 Figure 2 Comparison of two datasets with different feature contrasts

第1组是特征对比度高的数据集,如图2(a) 所示。SVHN数据集[27]包含超过60万张彩色图像,这些图像分为10个类别,各代表数字0至9。Minist数据集由大约250个不同人手写的数字0到9组成,共70 000张灰度图像,其中60 000张用于训练,10 000张用于测试。Fashion-Mnist数据集是作为传统MNIST数据集的现代替代者,包含10个类别的70 000张灰度图像,分为60 000张训练图像和10 000张测试图像。这些类别涵盖了T恤、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和短靴等多种服饰。这3个数据集的特征对比度都非常明显,是评价本文模型性能的理想选择。

另一组是特征对比度较低的数据集,如图2(b) 所示。Cifar10和Cifar100数据集包含60 000张像素的彩色图像,其中50 000张用于训练,10 000张用于测试。Cifar10包含10个类别,而Cifar100则包含100个类别,后者的分类难度更高。通过对Imagenet数据集进行窗口下采样到32×32尺寸,形成Imagenet32数据集,为了适应本文的模型大小,本文从1 000个分类中选择10个分类的图片作为模型的数据集。

在Cifar10,Cifar100和Imagnet32数据集上,实施了包括随机裁剪和水平翻转在内的数据增强操作。在训练参数配置方面,模型采用了随机梯度下降(Stochastic Gradient Descent,SGD)作为优化器,设置小批量大小为128,动量为0.9,并对每个模型进行了150个epoch的训练。初始学习率被设定为0.005,并在每45个epoch后将其减少到原来的十分之一。所有实验均在型号为RTX3080TI的单卡GPU上进行,且未增加额外的机器性能开销,以确保实验性能分析的准确性。

在MSMCSCNet的配置中,模型设置了3个尺度的卷积核尺寸,分别为${k_1} = 8,{k_2} = 6,{k_3} = 4$。为了便于与ML-CSC模型比较,模型采用了相同数量的滤波器,分别为${T_1} = 32,{T_2} = 64,{T_3} = 128$。在特征统一和融合的CSC模块中,模型采用了${k_4} = 3,{T_4} = 256$的参数设置。模型采用Negative Log Likelihood作为损失函数,并使用LogSoftmax函数进行输出。这种方法鼓励模型提高真实类别的预测概率,从而有效减少损失。

3.2 实验结果分析 3.2.1 图像分类效果

在主要的对比方法中,本文选取了LBP、ML-CSC模型及其快速版本ML-FISTA模型,这些均为多层卷积稀疏编码模型。这些模型的结构与原论文中的设置相同,即使用6层的ML-CSC模型。同时本文还将传统的前馈网络(即unfolding=0)和基于ML-CSC模型框架改进的MSD-CSC模型的6层版本作为对比对象。本文比较了上述模型在ISTA和FISTA下的结果,以及它们在0、1和2级展开的表现,如图3表1所示。

图 3 MSMCSC模型和其他经典CSC模型在6种数据集上的准确率 Figure 3 Accuracy of the MSMCSC model and other classic CSC models on six datasets
表 1 MSMCSC模型和其他经典CSC模型在两组数据集上的准确率 Table 1 Accuracy of MSMCSC model and other classic CSC models on two datasets

在参数量相同的前提下,MSMCSCNet模型与现有ML-CSC模型相比,在特征对比度较低的数据集上性能显著提升:在CIFAR10和CIFAR100数据集上分别提高了5.75和9.75个百分点,Imagenet32数据子集上提高了9.8个百分点。对于特征对比度高的数据集,如SVHN数据集,本文的模型提高了1.04个百分点。同时,在MNIST和Fashion-MNIST数据集上,模型的性能与ML-CSC模型相似。这些实验结果显示了本文的模型在高特征对比度数据集上保持了ML-CSC模型的优势同时,也大大改善了在低特征对比度数据集上的表现。此外,模型在3个数据集上的性能与6层MSD-CSC模型相当,这说明模型性能已经和主流可解释CNN模型相当,尽管MSMCSCNet模型的参数量超过MSD-CSC模型,但运行时间显著缩短。与传统前馈网络(即unfolding=0)相比,本文的模型既增强了CNN的可解释性,也提高了图像分类的效率。

3.2.2 特征提取模块的消融实验

在多尺度卷积之后,模型采用了单层CSC模块对多尺度特征矩阵进行稀疏编码,以提取更关键的特征并简化特征矩阵。因此,本文进行了消融实验来验证该模块对模型图像分类性能的影响。实验中设置了2组对比对象:一组将CSC模块替换为CNN(即unfolding=0),另一组则完全移除CSC模块。

首先,从表2中可以明显看出,当移除CSC模块时,所得结果与ML-ISTA模型相近。这表明直接使用多尺度特征矩阵进行图像分类可能导致特征重复和冗余,从而影响分类效果。其次,通过比较使用卷积层和CSC模块的对照组,本文发现CSC模块在提取关键特征方面优于使用卷积层,特别是在Cifar10、SVHN和Imagenet32数据集中。最后,实验结果可以确定,对多尺度卷积后得到的特征矩阵进行进一步的特征提取是必要的,因为这将显著提升模型的图像分类性能。

表 2 特征提取模块消融实验的准确率 Table 2 Ablation experiment of feature extraction module
3.2.3 多尺度特征的消融实验

鉴于本文提出的模型基于多尺度设计,本文进行了一系列实验来探究多尺度机制对模型性能的影响,并比较了多尺度和单一尺度在图像分类效果上的差异。为了精确控制多尺度技术的影响,本文设置3个CSC模块的滤波器数目相同,即${T_1} = {T_2} = {T_3}$。接着,本文选取了4、6、8三个尺度进行对比实验,并使用了2组数据集进行实验。

图4展示了使用不同尺度字典重构的图像与原始图片的对比,上面2张图片来自Cifar数据集,下面2张图片则来自SVHN数据集。从图4可以观察到,尺度1具有最大的卷积核和最少的滤波器数量,导致其重构的图片出现格子状纹理。尤其是在Cifar数据集上表现最差,而在SVHN数据集上则显示出较好的恢复效果。后续实验结果也支持了这一观察,表明尺度1在SVHN数据集上的分类性能优于Cifar数据集。尺度2的性能位于尺度1和尺度3之间,虽不及尺度3,但未出现类似于尺度3的斑点问题。尺度3的表现与尺度1相反,在Cifar10数据集上表现良好,而在SVHN数据集上则较差,这一点在后续实验中得到了验证。

图 4 不同尺度恢复图与原始图片 Figure 4 Scale recovery chart

表3中可以明显看出,尽管优势并不非常显著,但多尺度模型在各个测试数据集上均展现出比单一尺度模型更优的性能。这一发现凸显了多尺度技术在提升模型对不同数据集适应性方面的重要作用。此外,表3的结果与本文前面对图4的分析一致,显示出尺度1在特征对比度强的数据集上的表现明显优于其他两个尺度,而尺度3则在特征对比度弱的数据集上表现最佳。这一观察说明,在特定数据集上,不同尺度的模型会因其独特的特征提取机制而表现出差异。尺度1由于其卷积核大,能够更好地捕捉特征对比度强的数据集中的宽泛特征,而尺度3的小卷积核则适合捕捉特征对比度弱的数据集中的细节特征。尺度2在所有测试的数据集上表现均位于尺度1和尺度3之间。实验说明,多尺度设计使模型在不同数据集上适应能力更强,图像分类效果更好。

表 3 多尺度与单一尺度对比的消融实验 Table 3 Ablation experiment: comparison between multi-scale and single scale
4 结论

本文受ML-CSC模型和多尺度卷积技术的启发,提出了一种基于多尺度的多层卷积稀疏编码模型,即MSMCSCNet。在参数相近的情况下,MSMCSCNet在图像分类性能上超越了原有的ML-CSC模型。MSMCSCNet的性能不仅超越了现有的ML-CSC模型,而且接近于主流可解释CNN模型,这在ML-CSC模型领域中是一个显著的突破。此外,本文对MSMCSCNet进行了深入分析。通过设计2组实验,分别探讨了多尺度设计和特征提取模块设计的合理性。

本文对未来的研究方向进行了总结和思考。从多尺度角度出发的ML-CSC模型,未来可能为类似结构的CNN提供解释力并提升其性能,类似于当前的MSD-CSC模型。虽然本文的模型相比于传统CNN具有更高的解释性,但其性能仍与当前最先进的CNN存在差距。其次,与其他CNN网络相比,ML-CSC模型的参数量较大,未来研究会探索如何精简ML-CSC模型的参数以获得更轻量化的版本。

参考文献
[1]
LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI: 10.1038/nature14539.
[2]
NERCESSIAN S C, PANETTA K A, AGAIAN S S. Non-linear direct multi-scale image enhancement based on the luminance and contrast masking characteristics of the human visual system[J]. IEEE Transactions on Image Processing, 2013, 22(9): 3549-3561. DOI: 10.1109/TIP.2013.2262287.
[3]
PAPYAN V, ROMANO Y, ELAD M. Convolutional neural networks analyzed via convolutional sparse coding[J]. The Journal of Machine Learning Research, 2017, 18(1): 2887-2938.
[4]
SULAM J, ABERDAM A, BECK A, et al. On multi-layer basis pursuit, efficient algorithms and convolutional neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(8): 1968-1980.
[5]
PAPYAN V, SULAM J, ELAD M. Working locally thinking globally: theoretical guarantees for convolutional sparse coding[J]. IEEE Transactions on Signal Processing, 2017, 65(21): 5687-5701. DOI: 10.1109/TSP.2017.2733447.
[6]
CHEN S S, DONOHO D L, SAUNDERS M A. Atomic decomposition by basis pursuit[J]. SIAM Review, 2001, 43(1): 129-159. DOI: 10.1137/S003614450037906X.
[7]
TROPP J A, GILBERT A C. Signal recovery from random measurements via orthogonal matching pursuit[J]. IEEE Transactions on Information Theory, 2007, 53(12): 4655-4666. DOI: 10.1109/TIT.2007.909108.
[8]
DAUBECHIES I, DEFRISE M, DE MOL C. An iterative thresholding algorithm for linear inverse problems with a sparsity constraint[J]. Communications on Pure and Applied Mathematics:A Journal Issued by the Courant Institute of Mathematical Sciences, 2004, 57(11): 1413-1457.
[9]
BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J]. SIAM Journal on Imaging Sciences, 2009, 2(1): 183-202. DOI: 10.1137/080716542.
[10]
BOYD S, PARIKH N, CHU E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers[J]. Foundations and Trends® in Machine Learning, 2011, 3(1): 1-122.
[11]
SIMON D, ELAD M. Rethinking the CSC model for natural images[J]. Advances in Neural Information Processing Systems, 2019(204): 2274-2284.
[12]
GUO P, ZENG D, TIAN Y, et al. Multi-scale enhancement fusion for underwater sea cucumber images based on human visual system modelling[J]. Computers and Electronics in Agriculture, 2020, 175: 105608. DOI: 10.1016/j.compag.2020.105608.
[13]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[14]
OLIMOV B, SUBRAMANIAN B, UGLI R A A, et al. Consecutive multiscale feature learning-based image classification model[J]. Scientific Reports, 2023, 13(1): 3595. DOI: 10.1038/s41598-023-30480-8.
[15]
NATARAJAN B K. Sparse approximate solutions to linear systems[J]. SIAM Journal on Computing, 1995, 24(2): 227-234. DOI: 10.1137/S0097539792240406.
[16]
CANDÈS E J, ROMBERG J, TAO T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information[J]. IEEE Transactions on Information Theory, 2006, 52(2): 489-509. DOI: 10.1109/TIT.2005.862083.
[17]
TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society Series B:Statistical Methodology, 1996, 58(1): 267-288.
[18]
DONOHO D L, ELAD M. Optimally sparse representation in general (nonorthogonal) dictionaries via ℓ1 minimization[J]. Proceedings of the National Academy of Sciences, 2003, 100(5): 2197-2202. DOI: 10.1073/pnas.0437847100.
[19]
RUBINSTEIN R, ZIBULEVSKY M, ELAD M. Double sparsity: learning sparse dictionaries for sparse signal approximation[J]. IEEE Transactions on Signal Processing, 2009, 58(3): 1553-1564.
[20]
TROPP J A. Greed is good: algorithmic results for sparse approximation[J]. IEEE Transactions on Information theory, 2004, 50(10): 2231-2242. DOI: 10.1109/TIT.2004.834793.
[21]
GROHS P. Mathematical aspects of deep learning[M]. Cambridge England: Cambridge University Press, 2022: 1-111.
[22]
LI M, ZHAI P, TONG S, et al. Revisiting sparse convolutional model for visual recognition[J]. Advances in Neural Information Processing Systems, 2022, 35: 10492-10504.
[23]
ZHANG Z, ZHANG S. Towards understanding residual and dilated dense neural networks via convolutional sparse coding[J]. National Science Review, 2021, 8(3): nwaa159. DOI: 10.1093/nsr/nwaa159.
[24]
HUANG G. Multi-scale dense networks for resource efficient image Classification[EB/OL]. arXiv: 1703.09844(2017-03-29) [2023-12-15].https://doi.org/10.48550/arXiv.1703.09844.
[25]
KRIZHEVSKY A. Learning multiple layers of features from tiny images[EB/OL]. (2023-12-18) [2009-04-08].https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf.
[26]
CHRABASZCZ, P. A downsampled variant of ImageNet as an alternative to the CIFAR datasets[EB/OL]. arXiv: 1707.08819 (2017-08-23) [2023-12-15].https://ar5iv.org/abs/1707.08819.
[27]
NETZER Y. Reading digits in natural images with unsupervised feature learning[EB/OL]. (2023-12-18) [2011-12-08].https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/37648.pdf.