
尽管深度学习在计算机视觉、自然语言处理、语音处理等具体任务上展现出了强大的能力[1],但是仍然存在可靠性不足的缺点。例如深度模型往往表现出较差的鲁棒性,当测试集与训练集分布有少许不同时,模型的性能会有明显下降[2]。并且人们可以人为构造对抗样本[3],在测试样本上加入人类感知不到的扰动就会使模型输出错误答案。由此可知,深度模型在分类时所依赖的特征与人类直接使用的特征是不同的。分析深度学习模型的特性对理解神经网络有重要意义。
尽管深度神经网络结构复杂,表现出高度的非线性,但根据神经正切核理论[4],无穷宽的神经网络通过适当的初始化,由梯度流训练得到的模型等效于使用神经正切核的核回归预测器。因此,无穷宽的神经网络等价于一个线性模型。所以,分析过参数化的线性模型有益于加深对神经网络的理解。
分类任务是模式识别中的一项基本任务。在使用机器学习完成分类问题时,交叉熵损失往往被用来训练分类器。交叉熵损失用来衡量样本的one-hot标签分布与模型的输出经过softmax操作得到的分布之间的差异。由于交叉熵损失概率意义明确、实现简单并且实际表现良好,所以一直作为训练分类神经网络的默认损失[1]。使用过参数化的线性模型,由于梯度下降的隐式偏好,交叉熵损失中的逻辑回归会得到最大间隔解[5],而最小二乘损失会得到最小范数解。不像最小范数解有明确的解析形式,最大间隔解没有解析形式,这为分析该解在核矩阵上不同特征向量上的分解带来了困难。文献[6]用扰动分析的方法证明了带权重衰减的逻辑回归得到的解表现出梯度饥饿的现象,即模型只关注最主要的特征而忽视其他特征。具体是因为模型在特征值大的方向上的学习会抑制特征值小的方向上的学习。这种偏好可能会增强模型的泛化性能,但在某些情况下会损害鲁棒性。基于此分析,Pezeshki等[6]提出一种交叉熵损失的改进方法,把权重衰减替换成模型输出衰减,即直接惩罚模型输出的l2范数而不是权重的l2范数,称为谱解耦正则。
Pezeshki等[6]证明用谱解耦正则替换权重衰减能够消除梯度饥饿现象。但是研究者们已经发现训练神经网络时加上足够小的权重衰减会提高模型的性能[7],所以谱解耦正则与权重衰减以及梯度饥饿的关系仍然需要更细致的刻画。同时,谱解耦正则带来了新的超参数γ用来控制正则的强度。γ=0即退化为原始交叉熵损失,那么不同的γ得到的解之间的关系也值得研究。
本文的主要工作是分析刻画使用过参数化的线性模型,分别在无权重衰减和有权重衰减的情况下,用梯度下降法优化交叉熵损失加上不同强度的谱解耦正则得到的解的情况。由于本文关注分类问题,所以只需要关注解的方向,同方向的模型即为等价模型。本文证明在没有权重衰减时,不同γ得到的最优值是平行的。由于梯度下降的隐式偏好,最终得到的解为最小范数解,所以不同的γ>0得到的解都是等价的。在有权重衰减时,由于一般情况下权重衰减的系数很小,所以我们将损失函数在最优值处用它的二阶泰勒展开近似,得到一个解析的近似解。分析不同γ>0对应的近似解,可以发现减小γ有增大权重衰减的效果。在二分类问题中,减小γ直接等价于增大权重衰减的系数。而在多分类问题中,减小γ还会放大权重衰减在最优解的垂直空间中的作用。
本文通过对不同强度谱解耦正则项的分析,揭示谱解耦正则项与权重衰减之间的内在联系,进而得到最大间隔解与最小范数解之间的一种近似关系,即最大间隔解可以近似看作是在较大的权重衰减下得到的最小范数解。刻画它们之间的关系有助于加深对深度模型的理解。同时,本文的结论在实际应用中对于损失函数的选择以及谱解耦正则与权重衰减超参数的调整都具有指导意义。此外,本文的研究方法也可以用来分析其他损失函数或正则项的性质。
1 相关工作现代神经网络往往具有良好的泛化性,但是鲁棒性却稍差[8]。一些工作尝试用深度模型在训练过程中表现出的隐式偏好来解释该现象。Pezeshki等[6]发现交叉熵损失训练的神经网络表现出梯度饥饿现象,即梯度下降主要在显著特征方向上更新参数,在其他方向上表现出“饥饿”状态,导致神经网络只学会了显著特征,而忽略了其他有用特征。同时,Pezeshki等[6]在理论上分析了出现梯度饥饿现象的原因。具体地,他们提供了一个理论框架来研究在对偶空间中用交叉熵损失训练线性化神经网络的学习过程,使用扰动分析的方法刻画模型在特征空间中各个特征方向上的分量的关系,发现显著特征上的学习会抑制其他特征的学习。基于以上理论分析,他们提出谱解耦正则,直接惩罚过大的模型输出。使用同样的分析方法,他们证明使用谱解耦正则替换权重衰减能够解耦模型在不同特征方向上的学习过程,从而消除梯度饥饿现象。本文基于此分析不同大小谱解耦正则对模型带来的影响。另外,在文献[6]中谱解耦正则是用来替代权重衰减的,我们则通过分析同时带有权重衰减和谱解耦正则的解,揭示谱解耦正则与权重衰减的内在联系。
研究者们还尝试从不同角度分析理解这种现象。Shah等[9]用模型的线性程度定义模型的简单性,并且发现随机梯度法训练的神经网络表现出严重的简单化倾向,即使最简单的特征的预测能力不如其他复杂特征,模型仍会坚持学习该特征。Xu等[10]从傅里叶分析的角度研究神经网络的训练过程,发现神经网络的学习是从低频到高频,即神经网络会优先学习低频信息。
最近,过参数化的线性模型因为能够解释神经网络中的某些现象,比如良好的过拟合[11],双重下降等[12],而引起了广泛的研究兴趣。用过参数化线性模型解决二分类问题,令X=(x1,⋯,xn)T∈Rn×d 为训练样本,其中d>n,y=(y1,⋯,yn)∈Rn,yi∈{−1,1} 为样本的标签,θ∈Rd为线性模型的权重。Daniel等[5]证明使用逻辑回归求解可分的二分类问题会趋向于最大间隔解,即
argmaxθ,‖θ‖=1mini{yixTiθ} |
等价于求解硬间隔支持向量机得到的解,即
argminθ‖θ‖ s. t. yixTiθ⩾ |
同时也可以把标签y当作目标,用求解回归问题的方法求解该分类问题。例如用最小二乘求解回归问题会得到最小范数插值解,即
\operatorname{argmin}_{\boldsymbol{\theta}}\|\boldsymbol{\theta}\| \quad \text { s. t. } \quad \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{\theta}=y_{i}, 1 \leqslant i \leqslant n . |
该解有解析表达式\boldsymbol{\theta}=\boldsymbol{X}^{\dagger} \boldsymbol{y}。最小范数解与最大间隔解之间有什么关系是值得探讨的。Bartlett等[11]证明在一定条件下最小范数解能出现良好的过拟合现象,即在过拟合的情况下仍然具有良好的泛化性。Shamir[13]细致分析了最小范数解和最大间隔解出现良好的过拟合现象的具体条件。文献[14-15]证明当模型充分过参数化时,对于支持向量机,每个样本点都会变成支撑向量,此时最小范数解与最大间隔解等价。本文通过对不同大小的谱解耦正则的解的分析,得出最小范数解与最大间隔解的一个近似关系,即最大间隔解可以近似看作添加很大权重衰减的最小范数解。
2 带谱解耦正则解的分析 2.1 二分类情形下解的刻画令\mathcal{D}=\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=1}^{n} 表示一个包含n 个样本点的训练集,其中\boldsymbol{x}_{i} \in \mathbb{R}^{d}, y_{i} \in\{-1, 1\}。记\boldsymbol{X}=\left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{n}\right)^{\mathrm{T}} \in \mathbb{R}^{n \times d} 为训练样本,其中d> n,并且\boldsymbol{X} 行满秩,\boldsymbol{y}=\left(y_{1}, \cdots, y_{n}\right) \in \mathbb{R}^{n}, \boldsymbol{\theta} \in \mathbb{R}^{d}为线性模型的权重,\boldsymbol{f}=\boldsymbol{X} \boldsymbol{\theta} \in \mathbb{R}^{n} 为模型在n 个样本点上的输出,q(\boldsymbol{f})=\frac{1}{1+\mathrm{e}^{-f}} 表示输出为\boldsymbol{f} 时属于1类的概率,q_{i}=q\left(f_{i}\right) 表示第i 个样本属于1类的概率。于是带谱解耦正则的逻辑回归在单个样本上的损失为
\begin{align*} l_{i} & =\log \left(1+\mathrm{e}^{-y_{i} f_{i}}\right)+\frac{\gamma}{2} f_{i}^{2} \\ & =\log \left(1+\mathrm{e}^{-y_{i} x_{i}^{\mathrm{T}} \boldsymbol{\theta}}\right)+\frac{\gamma}{2}\left(\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{\theta}\right)^{2} . \end{align*} | (1) |
其中γ表示谱解耦正则的强度,于是总的目标函数为
\begin{equation*} \min\limits _{\boldsymbol{\theta}} L=\sum\limits_{i} l_{i}=\sum\limits_{i} \log \left(1+\mathrm{e}^{-y_{i} f_{i}}\right)+\frac{\gamma}{2}\|\boldsymbol{f}\|^{2} . \end{equation*} | (2) |
由于模型参数超过样本个数,所以每个样本点都能取到最优值,可以直接把f当作自变量,令
\left.\frac{\partial l_{i}}{\partial f_{i}}\right|_{f_{i}=f_{i}^{*}}=\frac{-y_{i} \mathrm{e}^{-y_{i} f_{i}^{*}}}{1+\mathrm{e}^{-y_{i} f_{i}^{*}}}+\gamma f_{i}^{*}=0, |
可以得到\boldsymbol{f}^{*}=\operatorname{argmin} L=w(\gamma) \boldsymbol{y},其中w(\gamma) 为一个正数满足\gamma w(\gamma)=1-q(w(\gamma)),显然w(\gamma)关于\gamma 单调递减。
定理2.1 在无权重衰减时,逻辑回归损失添加不同γ>0的谱解耦正则得到的解是等价的。
证明 由于对任意γ>0,目标函数的梯度都在样本张成的空间内[13],所以求得的最优解\boldsymbol{\theta}^{*}为最小范数解,即\boldsymbol{\theta}^{*}=\boldsymbol{X}^{\dagger} \boldsymbol{f}^{*}=w(\gamma) \boldsymbol{X}^{\dagger} \boldsymbol{y}。所以当只关注\boldsymbol{\theta}的方向时,不同γ>0得到的解是等价的,都是最小范数解。证毕。
当有权重衰减时,目标函数为
\begin{gather*} \min _{\boldsymbol{\theta}} L+\frac{\lambda}{2}\|\boldsymbol{\theta}\|^{2}=\sum\limits_{i} \log \left(1+\mathrm{e}^{-y_{i} f_{i}}\right)+ \\ \frac{\gamma}{2}\|\boldsymbol{f}\|^{2}+\frac{\lambda}{2}\|\boldsymbol{\theta}\|^{2} . \end{gather*} | (3) |
由于\boldsymbol{\theta}=\boldsymbol{X}^{\dagger} \boldsymbol{f},把\boldsymbol{f} 当作自变量,目标函数成为
\begin{gather*} \min _{f} L+\frac{\lambda}{2}\|\boldsymbol{\theta}\|^{2}=\sum\limits_{i} \log \left(1+\mathrm{e}^{-y_{i} f_{i}}\right)+ \\ \frac{\gamma}{2}\|\boldsymbol{f}\|^{2}+\frac{\lambda}{2}\left\|\boldsymbol{X}^{\dagger} \boldsymbol{f}\right\|^{2} . \end{gather*} | (4) |
权重衰减会将f^{*} 从原来的位置向原点拉,并且对同类的样本拉动的方向和大小并不相同。由于该目标函数的最优解没有解析表达形式,所以很难分析不同\gamma, \lambda 得到的解之间的关系。注意到一般权重衰减的\lambda 很小,所以最优的\boldsymbol{f} 距离f^{*} 不会很远,用L 在f^{*} 处的二阶近似来替代L,得到一个替代的优化问题
\begin{equation*} \min\limits _{f} \frac{a}{2}\left\|\boldsymbol{f}-\boldsymbol{f}^{*}\right\|^{2}+\frac{\lambda}{2}\left\|\boldsymbol{X}^{\dagger} \boldsymbol{f}\right\|^{2} . \end{equation*} | (5) |
其中a=q(w(\gamma))(1-q(w(\gamma)))+\gamma。此时
\begin{equation*} \overparen{\boldsymbol{f}^{*}}=\left(\boldsymbol{I}+\frac{\lambda}{a}\left(\boldsymbol{X}^{\dagger}\right)^{\mathrm{T}} \boldsymbol{X}^{\dagger}\right)^{-1} \boldsymbol{f}^{*} . \end{equation*} | (6) |
所以\overparen{\boldsymbol{f}^{*}} 只与\lambda 和a 的比值有关。同时\gamma 越小,w(\gamma) 越大,导致a 越小,从而\lambda / a 越大,即减小谱解耦正则近似等价于增大权重衰减。由于\gamma= 0会退化为原始的逻辑回归损失,基于该近似解,可以得到最小范数解与最大间隔解之间的一个近似关系,即最大间隔解近似等价于有无穷大权重衰减的最小范数解。而权重衰减越大,模型会更关注拥有更大特征值的特征方向,所以最大间隔解会出现梯度饥饿现象。
2.2 多分类情形下解的刻画考虑有k 个类别的多分类问题,k>2,令\mathcal{D}=\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=1}^{n} 表示一个包含n 个样本点的训练集,其中\boldsymbol{x}_{i} \in \mathbb{R}^{d}, y_{i} \in\{1, \cdots, k\}。记\boldsymbol{X}= \left(\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{n}\right)^{\mathrm{T}} \in \mathbb{R}^{n \times d} 为训练样本,其中d>n,并且\boldsymbol{X} 行满秩,\boldsymbol{W} \in \mathbb{R}^{d \times k} 为线性模型的权重,\boldsymbol{f}_{i}= \boldsymbol{W}^{\mathrm{T}} \boldsymbol{x}_{i} \in \mathbb{R}^{k} 为模型在第i 个样本上的输出,\boldsymbol{F}= \left(\boldsymbol{f}_{1}, \cdots, \boldsymbol{f}_{n}\right)^{\mathrm{T}}=\boldsymbol{X} \boldsymbol{W} \in \mathbb{R}^{n \times k} 为模型总的输出。记\boldsymbol{p}_{i} 为样本i 的独热标签分布,\boldsymbol{q}_{i}=\operatorname{softmax}\left(\boldsymbol{f}_{i}\right),用v^{(j)} 表示向量\boldsymbol{v} 的第j 个分量。于是第i 个样本上的带谱解耦正则的交叉熵损失为
l_{i}=-\log q_{i}^{\left(y_{i}\right)}+\frac{\gamma}{2}\left\|\boldsymbol{f}_{i}\right\|^{2}=-\log \frac{\mathrm{e}^{f_{i}^{\left(f_{i}\right)}}}{\sum_{j} \mathrm{f}^{f_{i}^{(j)}}}+\frac{\gamma}{2}\left\|\boldsymbol{f}_{i}\right\|^{2}. | (7) |
总的目标函数为
\begin{align*} L & =\sum\limits_{i=1}^{n} l_{i}=\sum\limits_{i=1}^{n}\left(-\log q_{i}^{\left(y_{i}\right)}\right)+\frac{\gamma}{2}\|\boldsymbol{F}\|_{F}^{2} \\ & =\sum\limits_{i=1}^{n}\left(-\log \frac{\mathrm{e}^{f_{i}^{\left(v_{i}\right)}}}{\sum_{j} \mathrm{e}^{f_{i}^{(j)}}}\right)+\frac{\gamma}{2}\|\boldsymbol{F}\|_{F}^{2} . \end{align*} | (8) |
令\frac{\partial l_{i}}{\partial \boldsymbol{f}_{i}}=0,可以得到\boldsymbol{f}_{i}^{*} 满足
\begin{equation*} \boldsymbol{q}_{i}^{*}-\boldsymbol{p}_{i}+\gamma \boldsymbol{f}_{i}^{*}=\mathbf{0} . \end{equation*} | (9) |
由式(9)可知\sum_{j}\left(f_{i}^{*}\right)^{(j)}=0,并且\forall j \neq y_{i},\left(q_{i}^{*}\right)^{(j)}+\gamma\left(f_{i}^{*}\right)^{(j)}=0。由于f_{i}^{(s)}>f_{i}^{(t)} \Rightarrow q_{i}^{(s)}> q_{i}^{(t)},所以\left(f_{i}^{*}\right)^{(s)}=\left(f_{i}^{*}\right)^{(t)} < 0, \forall s, t \neq y_{i}。所以有
\begin{equation*} \boldsymbol{f}_{i}^{*}=w(-1, \cdots, k-1, \cdots, -1)^{\mathrm{T}} . \end{equation*} | (10) |
第y_{i} 个位置为k-1,其他位置为-1。将该式代人式(9),可以得到w 满足:1 / w=\gamma\left(\mathrm{e}^{k w}+k-\right. 1)。所以可知给定\gamma, w 是唯一的,并且w 是关于\gamma 的单调递减函数。有了\boldsymbol{f}_{i}^{*},就有\boldsymbol{q}_{i}^{*}= \left(\frac{1-q_{\text {max }}}{k-1}, \cdots, q_{\text {max }}, \cdots, \frac{1-q_{\text {max }}}{k-1}\right)^{\mathrm{T}},其中q_{\text {max }} 由\gamma唯一决定。虽然w, ~ q_{\text {max }} 关于\gamma 的解析形式很难写出,但是w, ~ q_{\text {max }} 与\gamma 都是一一对应的,所以在实验中可以给出w 或者q_{\text {max }} 为超参数,求解相应的\gamma。
定理2.2 在无权重衰减时,交叉熵损失添加不同\gamma>0 的谱解耦正则得到的解是等价的。
证明 与逻辑回归损失相同,由于梯度下降的隐式偏好,模型会收玫到最小范数解,即有
\begin{equation*} \boldsymbol{W}^{*}=\boldsymbol{X}^{\dagger} \boldsymbol{F}^{*}=\boldsymbol{X}^{\dagger}\left(\boldsymbol{f}_{1}^{*}, \cdots, \boldsymbol{f}_{n}^{*}\right)^{\mathrm{T}} . \end{equation*} | (11) |
由于不同大小的\gamma 只会改变w,不会改变\boldsymbol{F}^{*} 方向,所以对于任意的\gamma>0,得到的解都是等价的。证毕。
接下来分析添加权重衰减的情况。同样由于\boldsymbol{W}=\boldsymbol{X}^{\dagger} \boldsymbol{F},目标函数为
\begin{gather*} L+\frac{\lambda}{2}\|\boldsymbol{W}\|_{F}^{2}=\sum\limits_{i=1}^{n}\left(-\log \frac{\mathrm{e}^{f_{i}^{\left(y_{i}\right)}}}{\sum_{j} \mathrm{e}^{f_{i}^{(j)}}}\right)+ \\ \frac{\gamma}{2}\|\boldsymbol{F}\|_{F}^{2}+\frac{\lambda}{2}\left\|\boldsymbol{X}^{\dagger} \boldsymbol{F}\right\|_{F}^{2} . \end{gather*} | (12) |
与分析逻辑回归损失时相同,可以将目标函数L用它在\boldsymbol{F}^{*} 处的二阶泰勒展开近似,从而得到近似解。计算第i 个样本l_{i} 对\boldsymbol{f}_{i} 的二阶Hessian矩阵\boldsymbol{H}_{i},如下
\left(\begin{array}{ccc} q_{i}^{(1)}\left(1-q_{i}^{(1)}\right)+\gamma & \cdots & -q_{i}^{(1)} q_{i}^{(k)} \\ \vdots & & \vdots \\ -q_{i}^{(k)} q_{i}^{(1)} & \cdots & q_{i}^{(k)}\left(1-q_{i}^{(k)}\right)+\gamma \end{array}\right) \text {, } | (13) |
即有
\begin{equation*} \boldsymbol{H}_{i}=\operatorname{diag}\left(\boldsymbol{q}_{i}\right)-\boldsymbol{q}_{i} \boldsymbol{q}_{i}^{\mathrm{T}}+\gamma \boldsymbol{I} . \end{equation*} | (14) |
由于给定\gamma 时,\boldsymbol{q}_{i}^{*} 是确定的,所以l_{i} 在\boldsymbol{f}_{\boldsymbol{i}}^{*} 处的Hessian矩阵为
\begin{equation*} \boldsymbol{A}_{i}=\operatorname{diag}\left(\boldsymbol{q}_{i}^{*}\right)-\boldsymbol{q}_{i}^{*} \boldsymbol{q}_{i}^{* \mathrm{~T}}+\gamma \boldsymbol{I} . \end{equation*} | (15) |
分析矩阵\boldsymbol{A}_{i} 的特征值和特征向量,可以发现,矩阵\boldsymbol{A}_{i} 有3个特征值,最大特征值s_{1}=\frac{k}{k-1} q_{\text {max }}(1- \left.q_{\text {max }}\right)+\gamma,对应的特征方向为\boldsymbol{f}_{i}^{*},即(-1, \cdots, k-1, \cdots, -1)^{\mathrm{T}}。最小特征值为s_{3}=\gamma,对应的特征方向为(1, \cdots, 1)^{\mathrm{T}}。垂直于这2个方向的子空间对应的特征值为s_{2}=\frac{1-q_{\text {max }}}{k-1}。可以发现改变\gamma并不会改变矩阵\boldsymbol{A}_{\boldsymbol{i}} 的特征子空间,只改变了3个特征值的大小。
图 1画出了k=10 时,s_{1}, s_{2}, ~ s_{2} / s_{1} 随q_{\text {max }} 的变化情况,可以发现随着q_{\text {max }} 的增大,即\gamma 的减小,s_{1}, s_{2}都会逐渐变小趋于0,并且s_{2} 减小的速度比s_{1} 快。
![]() |
Download:
|
图 1 特征值与q_{\text {max }} 的关系 Fig. 1 Relationship between the eigenvalues and q_{\text {max }} |
有了损失函数L 在最优点处的Hessian矩阵,用L 的二阶泰勒展开替代L,得到替代目标函数
\begin{equation*} \min\limits _{\boldsymbol{F}} \sum_{i}\left(\boldsymbol{f}_{i}-\boldsymbol{f}_{i}^{*}\right)^{\mathrm{T}} \boldsymbol{A}_{i}\left(f_{i}-\boldsymbol{f}_{i}^{*}\right)+\frac{\lambda}{2}\left\|\boldsymbol{X}^{\dagger} \boldsymbol{F}\right\|_{F}^{2} . \end{equation*} | (16) |
对该目标函数求导,可以得到近似解,记为\overparen{\boldsymbol{F}^{*}}。记\overparen{\boldsymbol{f}^{*}}=\operatorname{vec}\left(\left(\overparen{\boldsymbol{F}^{*}}\right)^{\mathrm{T}}\right), \boldsymbol{f}^{*}=\operatorname{vec}\left(\left(\boldsymbol{F}^{*}\right)^{\mathrm{T}}\right), \boldsymbol{B}= \left(\boldsymbol{X}^{\dagger}\right)^{\mathrm{T}} \boldsymbol{X}^{\dagger} \in \mathbb{R}^{n \times n},可以得到\overparen{\boldsymbol{f}^{*}} 满足如下线性方程组
\begin{equation*} \left(\frac{1}{s_{1}} \boldsymbol{A}+\frac{\lambda}{s_{1}} \boldsymbol{B} \otimes \boldsymbol{I}_{k}\right) \overparen{\boldsymbol{f}}^{*}=\boldsymbol{f}^{*} . \end{equation*} | (17) |
其中
\boldsymbol{A}=\left(\begin{array}{llll} \boldsymbol{A}_{1} & & & \\ & \boldsymbol{A}_{2} & & \\ & & \ddots & \\ & & & \boldsymbol{A}_{3} \end{array}\right) \in \mathbb{R}^{n k \times n k} . |
取s_{3} 对应的所有的特征向量构成矩阵\boldsymbol{U}, \boldsymbol{U}= \left(\boldsymbol{u}_{1}, \cdots, \boldsymbol{u}_{n}\right) \in \mathbb{R}^{n k \times n},其中\boldsymbol{u}_{i}=\left(0, \cdots, \boldsymbol{1}_{k}, \cdots\right.,0)^{\mathrm{T}},第(i-1) k+1 到i k 位置为1,其余位置为0。记\boldsymbol{c}=\left(c_{1}, \cdots, c_{n}\right)^{\mathrm{T}}, c_i=<\overparen{\boldsymbol{f}_i^*}, \boldsymbol{l}_k>,将\boldsymbol{U}^{\mathrm{T}} 左乘到方程(17)的两边,可以得到
\begin{equation*} (\gamma \boldsymbol{I}+\lambda \boldsymbol{B}) c=\mathbf{0} . \end{equation*} | (18) |
于是可以得出结论\boldsymbol{c}=\boldsymbol{0},即每个样本上的近似解各个分量求和均为0。所以只需要关注s_{1}, ~ s_{2} 对应的特征子空间即可。
由于不同\gamma 只会改变矩阵\boldsymbol{A} 的特征值的大小,不会改变特征子空间,所以是\gamma 的改变造成2个比值s_{2} / s_{1}, \lambda / s_{1} 的改变,从而改变了最终的解。与逻辑回归损失中一样,减小\gamma 会增大q_{\text {max }},进而比值\lambda / s_{1} 会减小,所以效果上等价于增强了权重衰减。与二分类情形不同的是减小\gamma 额外会造成s_{2} / s_{1} 的减小。s_{2} 越小,同样大小的权重衰减在它的特征子空间上效果就会越明显,所以减小\gamma 不仅仅相当于增大权重衰减系数,还会加大其在s_{2}的特征子空间上的影响,即最终得到的解在垂直于最优解的方向上会更接近原点,也会变得更分散。
3 实验 3.1 二分类的实验通过实验验证二分类情形下近似解对真实解的近似情况,同时观察谱解耦正则与权重衰减的关系。
3.1.1 合成数据集同文献[6]中一样,数据集选择线性可分的双月型数据,如图 2所示。训练样本共100个,每类50个。为使用过参数化模型,利用随机傅里叶特征将原始的二维特征映射到2 000维。为计算方便,直接给出q=q(w(\gamma))作为超参数,γ可由q简单计算得到。用牛顿法求解目标函数(4)得到真实解,用式(6)计算近似解。由于我们只关注解的方向,所以求得的真实解和近似解都进行归一化处理,统计它们之间的距离,结果如表 1所示。
![]() |
Download:
|
图 2 二分类问题中真实解与近似解的对比 Fig. 2 Comparison between the true classifiers and approximations for a binary classification problem |
![]() |
表 1 双月型数据不同情形下真实值与近似值之间的距离 Table 1 Distances between the true values and approximations for two moon dataset |
由表 1可知,当\lambda 较小时,近似解与真实解之间的距离很小,从而验证了使用近似解的有效性。同时可以发现当q 较大时,近似的情况不如q 较小时。这是因为当q 较大时,相应的a 会较小,于是\lambda / a 会较大,导致距离原来的\boldsymbol{f}^{*} 较远。
观察使用不同强度的谱解耦正则对最终分类器形状的影响。具体地,图 2画出了λ=0.2,q取值[0.6, 0.7, 0.8, 0.9]时真实解和近似解在原始空间的等高线情况。
如图 2所示,首先可以看到近似解是真实解的良好近似。同时,随着q的增大(即γ的减小),分界线会逐渐平缓,说明模型越来越重视水平方向的特征。从左到右观察图 2,从真实解的角度,是谱解耦正则逐渐减弱,从近似解的角度,则是权重衰减逐渐加强。所以验证了前述减小谱解耦正则近似等价于增大权重衰减的结论。
3.1.2 MNIST手写数字数据集对于MNIST手写数字,选择数字0与1进行二分类实验。训练样本共200个,每类100个。使用随机傅里叶特征将原始特征映射到10 000维。用牛顿法求解目标函数(4)得到真实解,用式(6)计算近似解,求得的真实解和近似解都进行归一化处理,统计它们之间的距离,结果如表 2所示。由表 2可知,近似解与真实解之间的距离很小。
![]() |
表 2 MNIST数据0和1不同情形下真实值与近似值之间的距离 Table 2 Distances between the true values and approximations for 0 and 1 of MNIST data |
在一个包含3个类别的分类问题上验证前文提出的结论。3类数据采样自3个不同的二维高斯分布,中心分别是(2, 2)、(8, 2)、(2, 8),方差均为1,每类50个样本。同样采用随机傅里叶特征将原始数据映射到2 000维数。采用带动量的梯度法求解目标函数(12)得到真实解,动量系数设为0.9,学习率设为0.1。求解相应的线性方程(17)得到近似解。表 3列出了qmax、λ取不同值时的真实解与近似解的距离。由表 3可知,当λ较小时,真实解与近似解的距离很小,说明用近似解去近似真实解是有意义的。与逻辑回归损失相同,qmax越小,同样大小的λ近似程度越好。
![]() |
表 3 合成数据不同情形下真实解与近似解之间的距离 Table 3 Distances between the true values and approximations for synthesis data |
由前文结论,所有样本点的最优输出落在一个二维平面上,垂直于向量(1, 1, 1)T。固定λ=0.001,将qmax取不同值时得到的真实解与近似解都投影到该平面,观察不同强度谱解耦正则下的解的形状。由于γ的变化,2个比值λ/s1,s2/s1都会改变,为更好地观察2个比值对解的影响,把不同qmax得到的近似解和真实解放在对角线上,然后保持每一行的近似解λ/s1相同,每一列的近似解s2/s1相同。结果如图 3所示。首先观察对角线上的图可知不同qmax下近似解与真实解之间的距离都很小。同时,从上到下观察每一列可以发现减小谱解耦正则确实有增大权重衰减的效果,从左到右观察每一行可以发现减小谱解耦正则会让样本输出在最优解的垂直方向上更分散。
![]() |
Download:
|
图 3 多分类问题中真实解与近似解的对比 Fig. 3 Comparison between the true values and approximations for a multi-class classification problem |
对MNIST手写数字数据集,选择0到9共10个类别进行分类,每类抽取100个训练样本,同样采用随机傅里叶特征将原始数据映射到10 000维数。表 4列出了不同情形下的真实解与近似解的距离。由表 4可知,当λ较小时,真实解与近似解的距离很小,说明用近似解去近似真实解是有意义的。
![]() |
表 4 MNIST数据0~9不同情形下真实值与近似值之间的距离 Table 4 Distances between the true values and approximations for 0-9 of MNIST data |
本文研究在过参数线性模型下,用梯度下降法优化带有不同大小谱解耦正则的交叉熵损失得到的解的特性。在没有权重衰减时,改变谱解耦正则项的强度γ不会改变最终解的方向,都等价于最小范数解。在有小量的权重衰减时,可以用二阶泰勒展开得到一个近似解。通过对近似解的分析,发现减小谱解耦正则有增大权重衰减系数的作用,并且在二分类时,减小谱解耦正则近似等价于增大权重衰减系数。由于一般的逻辑回归损失会得到最大间隔解,所以该结论可以得到最小范数解与最大间隔解的一个直观关系,即最大间隔解可以近似看作由最小范数解添加很大权重衰减得到。同时,在多分类问题中,减小谱解耦正则还会放大权重衰减在垂直于最优解的空间中的影响。
[1] |
Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90. Doi:10.1145/3065386 |
[2] |
Hendrycks D, Mu N, Cubuk E D, et al. AugMix: a simple data processing method to improve robustness and uncertainty[EB/OL]. 2019. arXiv: 1912.02781. (2020-02-17)[2023-07-15]. https://arxiv.org/abs/1912.02781.
|
[3] |
Madry A, Makelov A, Schmidt L, et al. Towards deep learning models resistant to adversarial attacks[EB/OL]. 2017. arXiv: 1706.06083. (2019-09-04)[2023-07-15]. https://arxiv.org/abs/1706.06083.
|
[4] |
Jacot A, Gabriel F, Hongler C. Neural tangent kernel: convergence and generalization in neural networks[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. December 3-8, 2018, Montréal, Canada. New York: ACM, 2018: 8580-8589. DOI: 10.5555/3327757.3327948.
|
[5] |
Daniel S, Elad H, Shpigel N M, et al. The implicit bias of gradient descent on separable data[J]. Journal of Machine Learning Research, 2018, 19(1): 2822-2878. Doi:10.5555/3291125.3309632 |
[6] |
Pezeshki M, Kaba S O, Bengio Y, et al. Gradient starvation: a learning proclivity in neural networks[EB/OL]. 2020. arXiv: 2011.09468. (2021-11-24)[2023-07-15]. https://arxiv.org/abs/2011.09468.
|
[7] |
Lewkowycz A, Gur-Ari G. On the training dynamics of deep networks with L2 regularization[C]//Proceedings of the 34th International Conference on Neural Information Processing Systems. December 6-12, 2020, Vancouver, BC, Canada. New York: ACM, 2020: 4790-4799. DOI: 10.5555/3495724.3496126.
|
[8] |
Geirhos R, Jacobsen J H, Michaelis C, et al. Shortcut learning in deep neural networks[J]. Nature Machine Intelligence, 2020, 2(11): 665-673. Doi:10.1038/s42256-020-00257-z |
[9] |
Shah H, Tamuly K, Raghunathan A, et al. The pitfalls of simplicity bias in neural networks[EB/OL]. 2020. arXiv: 2006.07710. (2020-10-28)[2023-07-15]. https://arxiv.org/abs/2006.07710.
|
[10] |
Xu Z Q J, Zhang Y Y, Luo T, et al. Frequency principle: Fourier analysis sheds light on deep neural networks[EB/OL]. 2019. arXiv: 1901.06523. (2019-09-20)[2023-07-15]. https://arxiv.org/abs/1901.06523.
|
[11] |
Bartlett P L, Long P M, Lugosi G, et al. Benign overfitting in linear regression[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(48): 30063-30070. Doi:10.1073/pnas.1907378117 |
[12] |
Hastie T, Montanari A, Rosset S, et al. Surprises in high-dimensional ridgeless least squares interpolation[J]. Annals of Statistics, 2022, 50(2): 949-986. Doi:10.1214/21-aos2133 |
[13] |
Shamir O. The implicit bias of benign overfitting[EB/OL]. 2022. arXiv: 2201.11489. (2022-05-29)[2023-07-15]. https://arxiv.org/abs/2201.11489.
|
[14] |
Hsu D, Muthukumar V, Xu J. On the proliferation of support vectors in high dimensions[J]. Journal of Statistical Mechanics Theory and Experiment, 2022, 2022(11): 114011. Doi:10.1088/1742-5468/ac98a9 |
[15] |
Vidya M, Adhyyan N, Vignesh S, et al. Classification vs regression in overparameterized regimes: does the loss function matter?[J]. Journal of Machine Learning Research, 2021, 22(1): 10104-10172. Doi:10.5555/3546258.3546480 |