近年来,卷积神经网络(Convolutional Neural Networks, CNN)已成为深度学习领域的核心技术之一。自1989年LeCun等[1]首次提出以来,CNN在众多计算机视觉任务中已展现出卓越性能[2]。尽管CNN性能强大,其内部机制通常被视为“黑匣子”。这意味着,虽然这些网络能高效完成任务,但其内部工作机制不透明且难以解释。这种不透明性在要求高解释性和可验证性的应用中,如医疗诊断和自动驾驶,可能导致不可预测的风险,从而限制了CNN的进一步发展。
近期,Papyan等[3]揭示了多层卷积稀疏编码模型(Multi-layer Convolutional Sparse Coding, ML-CSC) 与CNN之间的有效联系,并为CNN提供了一种可解释性框架[3-5]。ML-CSC模型由多层卷积稀疏编码组成,类似于CNN中的多卷积层结构。在CNN中,通过多个卷积层逐步提取特征的过程被称为前向传播,在ML-CSC框架中可以被解释为逐层求解卷积稀疏编码。
稀疏向量的求解过程被称为稀疏编码或基追踪(Basis Pursuit, BP) 问题[6]。BP问题的常用解决方法包括(Orthogonal Matching Pursuit, OMP)[7]、软阈值迭代算法[8](Iterative Shrinkage-thresholding Algorithm, ISTA)、快速软阈值迭代算法[9](Fast Iterative Shrinkage-thresholding Algorithm, FISTA) 和交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)[10]。其中,ISTA和FISTA最为常用,因为它们仅需矩阵和向量乘法,以及逐项运算。Papyan等[3]提出的ML-CSC模型采用分层的BP算法,该算法仅考虑单层编码的稀疏性,而未涉及中间层编码的稀疏性。因此,Sulam等[4]基于多层BP问题提出了多层软阈值迭代算法(Multi-layer Iterative Soft Thresholding Algorithm, ML-ISTA) ,具有更优的稀疏性,而由此算法提出的ML-ISTA模型展现出更好的分类性能。
尽管ML-CSC模型在理论分析和可解释性方面展现出独特的优势,但其性能与当前流行的CNN模型相比仍存在明显的差距。ML-CSC模型通过对输入信号执行多层卷积稀疏编码来获取更稀疏的特征,旨在提高分类性能。然而,这个过程存在一些问题。例如,多层卷积稀疏编码的堆叠可能导致特征的冗余或重复。同时,ML-CSC模型在多层编码过程中可能过度强调对比度高的特征,而忽略了对比度低的特征[11]。此外,ML-CSC模型使用的单一尺度卷积字典可能进一步加剧了上述问题,这一点将在后续实验中进一步验证。
为解决前述问题,本文采用多尺度卷积技术来设计网络模型。多尺度卷积技术的灵感来源于人类视觉系统(Human Visual System, HVS) 的多尺度感知能力[12-13]。通过使用不同尺度的卷积滤波器,多尺度卷积技术能够在多个层次上捕获图像或数据的特征[14]。借助这种能力能够解决ML-CSC模型所面临的问题。在引入多尺度卷积技术后,本文进一步提出了一种融合多尺度设计的ML-CSC模型多尺度多层卷积稀疏编码网络(Multi-scale Multi-layer Convolutional Sparse Coding Network, MSMCSCNet),这一新模型不仅继承了卷积稀疏编码模型在理论分析和可解释性方面的优势,也解决了ML-CSC模型所出现的问题,而且在图像分类性能上也显著超越了传统ML-CSC模型。
实验结果表明,本文设计的MSMCSCNet在图像分类方面取得了显著进步,与当前最先进的ML-CSC模型相比,在Cifar10、Cifar100数据集和Imagenet32数据子集上分别提高了5.75,9.75和9.8个百分点,显示出其卓越的性能。为了进一步验证本文模型,特别是多尺度设计和特征筛选模式的有效性,本文进行了论证实验和2组详尽的消融实验。实验结果显示,本文的模块设计在提升模型性能方面具有显著效果。
1 相关工作 1.1 多层卷积稀疏编码在稀疏编码中,给定信号
| $ \underset{{\boldsymbol{\gamma}} }{\mathrm{min}}{\Vert {\boldsymbol{\gamma}} \Vert }_{0}\text{,}{\rm{s}}.{\rm{t}}.{\Vert x-{\boldsymbol{D}}{\boldsymbol{\gamma}} \Vert }_{2}^{2} \leqslant \epsilon $ | (1) |
式中:
由于存在
| $ \mathop {\min }\limits_{\boldsymbol{\gamma}} \frac{1}{2}\left\| {x - {\boldsymbol{D}}{\boldsymbol{\gamma}} } \right\|_2^2 + \lambda {\left\| {\boldsymbol{\gamma}} \right\|_1} $ | (2) |
在解决基追踪问题时,ISTA是一种广泛应用的方法。该算法利用软阈值操作符来更新
| $ {{\boldsymbol{\gamma}} ^{k + 1}} = {S_{{\lambda \mathord{\left/ {\vphantom {\lambda L}} \right. } L}}}\left( {{{\boldsymbol{\gamma}} ^k} - \frac{1}{L}\left( {{{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D}}{{\boldsymbol{\gamma}} ^k} - {{\boldsymbol{D}}^{\rm{T}}}x} \right) } \right) $ | (3) |
式中:
| $ S_\theta(x)= \left\{ {\begin{array}{*{20}{l}} x +\theta, & x < -\theta \\ 0, & -\theta \leqslant x \leqslant \theta \\ x-\theta, & x >\theta \end{array}} \right.$ | (4) |
式中:
稀疏编码这一问题最近被Papyan等[3]扩展到多层设置称为ML-CSC,基于ML-CSC提出了层基追踪(Layer Basis Pursuit,LBP) 模型。ML-CSC模型整个过程可以表示为
| $ \begin{gathered} x = {{\boldsymbol{D}}_1}{{\boldsymbol{\gamma}} _1} \\ {{\boldsymbol{\gamma}} _1} = {{\boldsymbol{D}}_2}{{\boldsymbol{\gamma}} _2} \\ \cdots \\ {{\boldsymbol{\gamma}} _n} = {{\boldsymbol{D}}_{n + 1}}{{\boldsymbol{\gamma}} _{n + 1}} \\ \end{gathered} $ | (5) |
式中:
| $ \mathop {\min }\limits_{{{\boldsymbol{\gamma}} _i}} \frac{1}{2}\left\| {{{\boldsymbol{\gamma}} _{i - 1}} - {{\boldsymbol{D}}_i}{{\boldsymbol{\gamma}} _i}} \right\|_2^2 + \lambda {\left\| {{{\boldsymbol{\gamma}} _i}} \right\|_1} $ | (6) |
继Papyan等[3]提出ML-CSC模型后,Sulam等[4]指出,该模型在处理层基追踪问题时存在局限性,因为它仅关注单一层级的编码,而忽视了不同层级间的编码互动。为了解决这一问题,Sulam等[4]基于多层BP问题提出了ML-ISTA算法,并证明了其收敛性。在此基础上,提出了ML-ISTA和ML-FISTA模型,这些模型在不增加额外参数的情况下,显著提升了分类性能。
1.2 卷积稀疏编码和卷积神经网络之间的联系ML-CSC模型由多层卷积稀疏编码组成,类似于CNN中的多卷积层结构。卷积层和卷积稀疏编码具有相似的功能:通过卷积操作提取信号特征。但卷积层提取特征的过程难以通过数学工具进行分析,而卷积稀疏编码通过求解BP问题求解输入的稀疏编码。此过程可由式(2)定义,形成一个可通过数学工具分析的严格优化问题[21]。对于CNN中的前向传播,在ML-CSC中就是求解多层级卷积稀疏编码,而反向传播用于更新卷积字典,实现字典学习。
卷积稀疏编码不仅提升CNN的可解释性,而且它的融入在多个层面上改进了传统CNN的性能。这一点在SDNet模型[22]中尤为明显,该模型通过将ResNet的首层卷积层替换为卷积稀疏编码层,成功地增强了模型对输入图像的特征提取和表达能力,从而提高了模型的分类精度和鲁棒性。进一步地,在MSD-CSC网络[23]中,作者假设ML-CSC的字典形式,让MSDNet[24]成为ML-CSC的一种特例,这创新的设计不仅为MSDNet的扩张卷积和密集连接提供了坚实的理论基础,而且在实际应用中实现了性能的显著提升。
在这些研究中,卷积稀疏编码的融合增强了网络的性能,还为本文理解和改进传统CNN架构提供了新的视角。
2 算法设计本节首先介绍用于图像分类的多尺度多层卷积稀疏编码模型,然后为其提供数学解决方案。通过解决方案,本文提出了可解释的多尺度多层卷积稀疏编码网络,即MSMCSCNet来解决图像分类任务。
2.1 多尺度卷积稀疏编码为了解决ML-CSC模型存在的问题,引入多尺度卷积技术,从多个尺度提取输入信号特征。在卷积稀疏编码中,面临求解BP问题,这通常是一个具有多个解的问题,尤其是在卷积字典不同的情况下。具体而言,通过不同尺度分解信号
| $ \begin{gathered} x = {{\boldsymbol{D}}_1}{{\boldsymbol{\gamma}} _1} = {{\boldsymbol{D}}_2}{{\boldsymbol{\gamma}} _2} = \cdots = {{\boldsymbol{D}}_s}{{\boldsymbol{\gamma}} _s} \\ {{\boldsymbol{D}}_s} = \displaystyle\sum\limits_{t = 1}^T {{{\boldsymbol{d}}_{s,t}}} \\ \end{gathered} $ | (7) |
式中:
| $ \mathop {\min }\limits_{{{\boldsymbol{\gamma}} _s}} \frac{1}{2}\left\| {x - {{\boldsymbol{D}}_s}{{\boldsymbol{\gamma}} _s}} \right\|_2^2 + \lambda {\left\| {{{\boldsymbol{\gamma}} _s}} \right\|_1} $ | (8) |
式中:
| $ {\boldsymbol{\gamma}} _s^{k + 1} = {S_{{\lambda \mathord{\left/ {\vphantom {\lambda L}} \right. } L}}}\left( {{\boldsymbol{\gamma}} _s^k - \frac{1}{L}\left( {{{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D}}{\boldsymbol{\gamma}} _s^k - {{\boldsymbol{D}}^{\rm{T}}}x} \right) } \right) $ | (9) |
式中:
定义
| $ {\boldsymbol{\gamma}} _s^{k + 1} = {{\rm{ReLU}}} \left( {{\boldsymbol{\gamma}} _s^k - c\left( {{{\boldsymbol{D}}^{\rm{T}}}{\boldsymbol{D\gamma}} _s^k - {{\boldsymbol{D}}^{\rm{T}}}x} \right) } \right) + b $ | (10) |
式中:c和b都是可训练参数。同时,让
| $ {\boldsymbol{\gamma}} _s^1 = {Re} LU\left( {c\left( {{{\boldsymbol{D}}^T}x} \right) } \right) + b $ | (11) |
基于式(10) ~(11) ,建立了解决该问题的迭代框架。在每个尺度上,应用这2个公式进行迭代,形成了一个针对该尺度特征向量求解的CSC模块,如图1所示。
|
图 1 多尺度多层卷积稀疏编码网络的模型 Figure 1 Model of multi-scale multi-layer convolutional sparse coding network |
上一节探讨了多尺度CSC的求解方法。本节将着重介绍MSMCSCNet的架构。MSMCSCNet的核心在于解决多尺度CSC问题,以获取信号
| $ {\boldsymbol{\varGamma}} = \left[ {{{\boldsymbol{\gamma}} _1}{\text{ }}{{\boldsymbol{\gamma}} _2}{\text{ }}{{\boldsymbol{\gamma}} _3}} \right] $ | (12) |
经过多尺度卷积处理后,通过级联方法将不同尺度的特征融合成一个综合特征矩阵。然而,这个矩阵可能包含了不必要的冗余信息,且模型难以识别哪些尺度的特征最为关键。为了解决这一问题,进一步对该特征矩阵应用了卷积稀疏编码。这一步骤能有效地从众多特征中筛选出最重要的部分,并对多尺度特征进行有效整合,从而提升模型性能并减少对特定尺度的依赖。在获得式(12) 所示的多尺度特征矩阵后,对其进行了单层CSC处理,其数学过程为
| $ \begin{gathered} {\boldsymbol{\varGamma}} = {\boldsymbol{DZ}} \\ \mathop {\min }\limits_Z \frac{1}{2}\left\| {{\boldsymbol{\varGamma}} - {\boldsymbol{DZ}}} \right\|_2^2 + \lambda {\left\| {\boldsymbol{Z}} \right\|_1} \\ \end{gathered} $ | (13) |
式中:变量
算法1 多尺度多层卷积稀疏编码算法
输入:输入信号
输出:编码特征
1:For s = 1:S do
2:
3: For k = 1:unfolding do
4:
5: End For
6:End For
7:
8:For k = 1:unfolding do
9:
10:End For
3 实验结果及讨论 3.1 实验设置在本节中,为了有效比较本文模型与ML-CSC模型的性能,本文采用了2组具有不同特征对比度的数据集进行实验。第1组特征对比度高,包括Minist、Fashion-Minist和SVHN。第2组特征对比度低,包括Cifar10、Cifar100[25]和Imagenet32[26]的子集。2组数据集的对比结果如图2所示。
|
图 2 特征对比度不同的2组数据集的对比 Figure 2 Comparison of two datasets with different feature contrasts |
第1组是特征对比度高的数据集,如图2(a) 所示。SVHN数据集[27]包含超过60万张彩色图像,这些图像分为10个类别,各代表数字0至9。Minist数据集由大约250个不同人手写的数字0到9组成,共70 000张灰度图像,其中60 000张用于训练,10 000张用于测试。Fashion-Mnist数据集是作为传统MNIST数据集的现代替代者,包含10个类别的70 000张灰度图像,分为60 000张训练图像和10 000张测试图像。这些类别涵盖了T恤、裤子、套头衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包和短靴等多种服饰。这3个数据集的特征对比度都非常明显,是评价本文模型性能的理想选择。
另一组是特征对比度较低的数据集,如图2(b) 所示。Cifar10和Cifar100数据集包含60 000张像素的彩色图像,其中50 000张用于训练,10 000张用于测试。Cifar10包含10个类别,而Cifar100则包含100个类别,后者的分类难度更高。通过对Imagenet数据集进行窗口下采样到32×32尺寸,形成Imagenet32数据集,为了适应本文的模型大小,本文从1 000个分类中选择10个分类的图片作为模型的数据集。
在Cifar10,Cifar100和Imagnet32数据集上,实施了包括随机裁剪和水平翻转在内的数据增强操作。在训练参数配置方面,模型采用了随机梯度下降(Stochastic Gradient Descent,SGD)作为优化器,设置小批量大小为128,动量为0.9,并对每个模型进行了150个epoch的训练。初始学习率被设定为0.005,并在每45个epoch后将其减少到原来的十分之一。所有实验均在型号为RTX3080TI的单卡GPU上进行,且未增加额外的机器性能开销,以确保实验性能分析的准确性。
在MSMCSCNet的配置中,模型设置了3个尺度的卷积核尺寸,分别为
在主要的对比方法中,本文选取了LBP、ML-CSC模型及其快速版本ML-FISTA模型,这些均为多层卷积稀疏编码模型。这些模型的结构与原论文中的设置相同,即使用6层的ML-CSC模型。同时本文还将传统的前馈网络(即unfolding=0)和基于ML-CSC模型框架改进的MSD-CSC模型的6层版本作为对比对象。本文比较了上述模型在ISTA和FISTA下的结果,以及它们在0、1和2级展开的表现,如图3和表1所示。
|
图 3 MSMCSC模型和其他经典CSC模型在6种数据集上的准确率 Figure 3 Accuracy of the MSMCSC model and other classic CSC models on six datasets |
| 表 1 MSMCSC模型和其他经典CSC模型在两组数据集上的准确率 Table 1 Accuracy of MSMCSC model and other classic CSC models on two datasets |
在参数量相同的前提下,MSMCSCNet模型与现有ML-CSC模型相比,在特征对比度较低的数据集上性能显著提升:在CIFAR10和CIFAR100数据集上分别提高了5.75和9.75个百分点,Imagenet32数据子集上提高了9.8个百分点。对于特征对比度高的数据集,如SVHN数据集,本文的模型提高了1.04个百分点。同时,在MNIST和Fashion-MNIST数据集上,模型的性能与ML-CSC模型相似。这些实验结果显示了本文的模型在高特征对比度数据集上保持了ML-CSC模型的优势同时,也大大改善了在低特征对比度数据集上的表现。此外,模型在3个数据集上的性能与6层MSD-CSC模型相当,这说明模型性能已经和主流可解释CNN模型相当,尽管MSMCSCNet模型的参数量超过MSD-CSC模型,但运行时间显著缩短。与传统前馈网络(即unfolding=0)相比,本文的模型既增强了CNN的可解释性,也提高了图像分类的效率。
3.2.2 特征提取模块的消融实验在多尺度卷积之后,模型采用了单层CSC模块对多尺度特征矩阵进行稀疏编码,以提取更关键的特征并简化特征矩阵。因此,本文进行了消融实验来验证该模块对模型图像分类性能的影响。实验中设置了2组对比对象:一组将CSC模块替换为CNN(即unfolding=0),另一组则完全移除CSC模块。
首先,从表2中可以明显看出,当移除CSC模块时,所得结果与ML-ISTA模型相近。这表明直接使用多尺度特征矩阵进行图像分类可能导致特征重复和冗余,从而影响分类效果。其次,通过比较使用卷积层和CSC模块的对照组,本文发现CSC模块在提取关键特征方面优于使用卷积层,特别是在Cifar10、SVHN和Imagenet32数据集中。最后,实验结果可以确定,对多尺度卷积后得到的特征矩阵进行进一步的特征提取是必要的,因为这将显著提升模型的图像分类性能。
| 表 2 特征提取模块消融实验的准确率 Table 2 Ablation experiment of feature extraction module |
鉴于本文提出的模型基于多尺度设计,本文进行了一系列实验来探究多尺度机制对模型性能的影响,并比较了多尺度和单一尺度在图像分类效果上的差异。为了精确控制多尺度技术的影响,本文设置3个CSC模块的滤波器数目相同,即
图4展示了使用不同尺度字典重构的图像与原始图片的对比,上面2张图片来自Cifar数据集,下面2张图片则来自SVHN数据集。从图4可以观察到,尺度1具有最大的卷积核和最少的滤波器数量,导致其重构的图片出现格子状纹理。尤其是在Cifar数据集上表现最差,而在SVHN数据集上则显示出较好的恢复效果。后续实验结果也支持了这一观察,表明尺度1在SVHN数据集上的分类性能优于Cifar数据集。尺度2的性能位于尺度1和尺度3之间,虽不及尺度3,但未出现类似于尺度3的斑点问题。尺度3的表现与尺度1相反,在Cifar10数据集上表现良好,而在SVHN数据集上则较差,这一点在后续实验中得到了验证。
|
图 4 不同尺度恢复图与原始图片 Figure 4 Scale recovery chart |
从表3中可以明显看出,尽管优势并不非常显著,但多尺度模型在各个测试数据集上均展现出比单一尺度模型更优的性能。这一发现凸显了多尺度技术在提升模型对不同数据集适应性方面的重要作用。此外,表3的结果与本文前面对图4的分析一致,显示出尺度1在特征对比度强的数据集上的表现明显优于其他两个尺度,而尺度3则在特征对比度弱的数据集上表现最佳。这一观察说明,在特定数据集上,不同尺度的模型会因其独特的特征提取机制而表现出差异。尺度1由于其卷积核大,能够更好地捕捉特征对比度强的数据集中的宽泛特征,而尺度3的小卷积核则适合捕捉特征对比度弱的数据集中的细节特征。尺度2在所有测试的数据集上表现均位于尺度1和尺度3之间。实验说明,多尺度设计使模型在不同数据集上适应能力更强,图像分类效果更好。
| 表 3 多尺度与单一尺度对比的消融实验 Table 3 Ablation experiment: comparison between multi-scale and single scale |
本文受ML-CSC模型和多尺度卷积技术的启发,提出了一种基于多尺度的多层卷积稀疏编码模型,即MSMCSCNet。在参数相近的情况下,MSMCSCNet在图像分类性能上超越了原有的ML-CSC模型。MSMCSCNet的性能不仅超越了现有的ML-CSC模型,而且接近于主流可解释CNN模型,这在ML-CSC模型领域中是一个显著的突破。此外,本文对MSMCSCNet进行了深入分析。通过设计2组实验,分别探讨了多尺度设计和特征提取模块设计的合理性。
本文对未来的研究方向进行了总结和思考。从多尺度角度出发的ML-CSC模型,未来可能为类似结构的CNN提供解释力并提升其性能,类似于当前的MSD-CSC模型。虽然本文的模型相比于传统CNN具有更高的解释性,但其性能仍与当前最先进的CNN存在差距。其次,与其他CNN网络相比,ML-CSC模型的参数量较大,未来研究会探索如何精简ML-CSC模型的参数以获得更轻量化的版本。
| [1] |
LECUN Y, BENGIO Y, HINTON G. Deep learning[J].
Nature, 2015, 521(7553): 436-444.
DOI: 10.1038/nature14539. |
| [2] |
NERCESSIAN S C, PANETTA K A, AGAIAN S S. Non-linear direct multi-scale image enhancement based on the luminance and contrast masking characteristics of the human visual system[J].
IEEE Transactions on Image Processing, 2013, 22(9): 3549-3561.
DOI: 10.1109/TIP.2013.2262287. |
| [3] |
PAPYAN V, ROMANO Y, ELAD M. Convolutional neural networks analyzed via convolutional sparse coding[J].
The Journal of Machine Learning Research, 2017, 18(1): 2887-2938.
|
| [4] |
SULAM J, ABERDAM A, BECK A, et al. On multi-layer basis pursuit, efficient algorithms and convolutional neural networks[J].
IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(8): 1968-1980.
|
| [5] |
PAPYAN V, SULAM J, ELAD M. Working locally thinking globally: theoretical guarantees for convolutional sparse coding[J].
IEEE Transactions on Signal Processing, 2017, 65(21): 5687-5701.
DOI: 10.1109/TSP.2017.2733447. |
| [6] |
CHEN S S, DONOHO D L, SAUNDERS M A. Atomic decomposition by basis pursuit[J].
SIAM Review, 2001, 43(1): 129-159.
DOI: 10.1137/S003614450037906X. |
| [7] |
TROPP J A, GILBERT A C. Signal recovery from random measurements via orthogonal matching pursuit[J].
IEEE Transactions on Information Theory, 2007, 53(12): 4655-4666.
DOI: 10.1109/TIT.2007.909108. |
| [8] |
DAUBECHIES I, DEFRISE M, DE MOL C. An iterative thresholding algorithm for linear inverse problems with a sparsity constraint[J].
Communications on Pure and Applied Mathematics:A Journal Issued by the Courant Institute of Mathematical Sciences, 2004, 57(11): 1413-1457.
|
| [9] |
BECK A, TEBOULLE M. A fast iterative shrinkage-thresholding algorithm for linear inverse problems[J].
SIAM Journal on Imaging Sciences, 2009, 2(1): 183-202.
DOI: 10.1137/080716542. |
| [10] |
BOYD S, PARIKH N, CHU E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers[J].
Foundations and Trends® in Machine Learning, 2011, 3(1): 1-122.
|
| [11] |
SIMON D, ELAD M. Rethinking the CSC model for natural images[J]. Advances in Neural Information Processing Systems, 2019(204): 2274-2284.
|
| [12] |
GUO P, ZENG D, TIAN Y, et al. Multi-scale enhancement fusion for underwater sea cucumber images based on human visual system modelling[J].
Computers and Electronics in Agriculture, 2020, 175: 105608.
DOI: 10.1016/j.compag.2020.105608. |
| [13] |
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J].
Communications of the ACM, 2017, 60(6): 84-90.
|
| [14] |
OLIMOV B, SUBRAMANIAN B, UGLI R A A, et al. Consecutive multiscale feature learning-based image classification model[J].
Scientific Reports, 2023, 13(1): 3595.
DOI: 10.1038/s41598-023-30480-8. |
| [15] |
NATARAJAN B K. Sparse approximate solutions to linear systems[J].
SIAM Journal on Computing, 1995, 24(2): 227-234.
DOI: 10.1137/S0097539792240406. |
| [16] |
CANDÈS E J, ROMBERG J, TAO T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information[J].
IEEE Transactions on Information Theory, 2006, 52(2): 489-509.
DOI: 10.1109/TIT.2005.862083. |
| [17] |
TIBSHIRANI R. Regression shrinkage and selection via the lasso[J].
Journal of the Royal Statistical Society Series B:Statistical Methodology, 1996, 58(1): 267-288.
|
| [18] |
DONOHO D L, ELAD M. Optimally sparse representation in general (nonorthogonal) dictionaries via ℓ1 minimization[J].
Proceedings of the National Academy of Sciences, 2003, 100(5): 2197-2202.
DOI: 10.1073/pnas.0437847100. |
| [19] |
RUBINSTEIN R, ZIBULEVSKY M, ELAD M. Double sparsity: learning sparse dictionaries for sparse signal approximation[J].
IEEE Transactions on Signal Processing, 2009, 58(3): 1553-1564.
|
| [20] |
TROPP J A. Greed is good: algorithmic results for sparse approximation[J].
IEEE Transactions on Information theory, 2004, 50(10): 2231-2242.
DOI: 10.1109/TIT.2004.834793. |
| [21] |
GROHS P. Mathematical aspects of deep learning[M]. Cambridge England: Cambridge University Press, 2022: 1-111.
|
| [22] |
LI M, ZHAI P, TONG S, et al. Revisiting sparse convolutional model for visual recognition[J].
Advances in Neural Information Processing Systems, 2022, 35: 10492-10504.
|
| [23] |
ZHANG Z, ZHANG S. Towards understanding residual and dilated dense neural networks via convolutional sparse coding[J].
National Science Review, 2021, 8(3): nwaa159.
DOI: 10.1093/nsr/nwaa159. |
| [24] |
HUANG G. Multi-scale dense networks for resource efficient image Classification[EB/OL]. arXiv: 1703.09844(2017-03-29) [2023-12-15].https://doi.org/10.48550/arXiv.1703.09844.
|
| [25] |
KRIZHEVSKY A. Learning multiple layers of features from tiny images[EB/OL]. (2023-12-18) [2009-04-08].https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf.
|
| [26] |
CHRABASZCZ, P. A downsampled variant of ImageNet as an alternative to the CIFAR datasets[EB/OL]. arXiv: 1707.08819 (2017-08-23) [2023-12-15].https://ar5iv.org/abs/1707.08819.
|
| [27] |
NETZER Y. Reading digits in natural images with unsupervised feature learning[EB/OL]. (2023-12-18) [2011-12-08].https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/37648.pdf.
|
2024, Vol. 41

