Abnormal electroencephalography recognition via adaptive structured sparse regression
-
摘要: 特征约简是提升脑电信号病理解码精度的一种重要手段。然而,目前的异常脑电识别方法通常采用单尺度聚合实现特征降维,并未考虑不同尺度聚合特征之间的互补性,容易导致识别精度不高的问题;此外,现有方法在学习过程中常忽略了脑电数据特征内在的相关结构信息。为此,提出一种基于自适应结构稀疏回归的异常脑电识别模型及其两阶段构造方法。采用自适应局部和全局特征聚合机制来有效融合从原始数据提取的小波统计特征,为高精度脑电信号病理解码提供更具代表性的特征。定义了一种新的正则化稀疏模型,它通过加权L1范数约束剔除非重要特征,同时利用加权成对结构正则化实现对高度相关特征的组选择。在实际异常脑电数据集上的实验结果表明,新方法大幅度提高了分类精度和分类结果的稳定性。Abstract: Feature reduction is a critical technique for enhancing the decoding accuracy of electroencephalography (EEG) pathology. However, conventional abnormal EEG identification methods generally employ single-scale aggregation for dimension reduction, overlooking the complementary nature of multiscale aggregated features. This oversight frequently leads to suboptimal classification performance. Furthermore, current approaches often overlook the inherent correlation structure present among EEG features. To this end, an abnormal EEG recognition model based on adaptive structured sparse regression and its two-stage construction method is proposed. First, a novel adaptive local-global aggregation mechanism is employed to integrate wavelet statistical features extracted from the original data. This mechanism aims to provide representative features for high-precision EEG pathology decoding. Second, a novel sparse regularization model is defined, which can automatically eliminate unimportant characteristics by the L1-norm constraint term. Concurrently, weighted piecewise structural regularization is employed to enable the group selection of highly correlated features. The experimental findings based on real-world abnormal EEG datasets demonstrate that the proposed method significantly enhances the accuracy and stability of the classification results.
-
脑电(electroencephalography,EEG)是通过头皮电极记录下来的脑细胞群的自发性、节律性电活动,包含丰富的、可有效反映生理和病理变化的信息。由于EEG具有操作简单、时间分辨率高、成本低(与正电子发射断层扫描、功能性磁共振成像等其他神经影像技术相比)等优势,使其不仅是当前协助医生诊断阿尔茨海默病、精神分裂症、癫痫等各种神经系统疾病的一个重要手段[1],还是研究人类脑功能的关键方法之一[2]。临床上,脑电专家常常通过遵循一种类似于决策树的复杂分析规则来判别EEG记录为正常或异常[3]。然而,EEG信号的强时变性、低信噪比等特点使这一过程费时费力,并且易受评分者间低一致性的影响[4]。一种可靠且无需人工干预的异常脑电识别方法显得尤为重要。它可以作为基础工具,能够以更客观、准确和高效的方式分析EEG数据,尤其在寻求低成本远程诊断时具有显著优势。
脑电数据不仅具有传统生物数据的高复杂性,还表现出个体差异性大的特点。受此影响,当用传统算法分析此类数据时,效率低下且较为复杂[5],尤其经典的统计模型可处理的特征(也称为变量)通常是有限的。另外,面对复杂多变的脑电数据,直接利用目前较为成熟的特征选择技术也难以有效降维[6]。如何从原始数据中自动提取鲁棒低维数据表征(也称数据特征),成了实现精准异常脑电识别的首要任务。
目前,脑电数据表征学习方法主要包括统计参数(均值、标准差、偏度和峰度)[5],振幅相关参数(非线性能量、最大值和最小值)和熵相关度量[7]。这些方法可归纳为时域、频域和时频域特征学习三大类。由于EEG信号具有非线性、非平稳、混沌等特点,导致以小波变换为代表的时频分析方法近年来成为提取EEG特征的一个重要手段[5, 8-10]。这是因为小波变换在多分辨率表示和细节定位方面具有出色性能。例如,Sharma等[10]利用小波变换分解EEG信号为不同频率子带,并从特定的频率子带中提取相关特征,作为传统分类器的输入,以实现异常脑电识别。然而,通过小波变换等技术得到的小波系数常存在大量冗余[11],致使这些方法往往难以获得令人满意的识别效果。最近,Gemein等[5]和Albaqami等[8]利用单尺度聚合技术来降低提取特征的维度,以提升异常脑电分类精度。类似地,Zhong等[12]在聚合EEG特征的基础上,使用克鲁斯卡尔−沃利斯检验进一步选取有用特征,提高了异常脑电识别效果。然而,一方面,文献[5,8,12]所提出方法均采用单一视图进行特征聚合,忽略了局部与全局聚合特征的互补性;另一方面,EEG特征间通常包含许多重要的相关结构[13],如分组结构[6, 14]等,这些结构对于提高模型的分类性能是有益的,但现有方法在特征选择过程中并未充分考虑这一关键信息。此外,受颅内容积传导效应的影响,目前的异常脑电识别方法提取的EEG特征中往往存在大量噪声信息以及特征间高度相关,尤其是从空间相邻或对称电极抽取的EEG特征[15]。实际应用中,这些冗余信息的存在不仅无助于模型对类的鉴别,还将大大降低模式识别系统的有效性。
近年来,正则化稀疏逻辑回归模型由于其良好的稀疏性和模式识别效率在生物信息领域受到广泛关注[16-19]。与传统的分类算法不同,这类方法可以通过对模型的未知参数施以某种先验约束来使非重要特征对应的参数在训练过程中压缩为零,从而实现稀疏特征选择的同时,有效提升分类性能。这一特性弥补了传统表征学习的局限性。例如,DÍAZ和Olaya[19]通过利用L2正则化逻辑回归模型实现了在减少脑电实验次数的情况下,仍取得了较高的分类精度;Garces等[20]则使用弹性网惩罚逻辑回归模型(elastic net logistic regression, ENLR)获得了相比传统支持向量机(support vector machine,SVM)更优的异常脑电分类效果。然而,这些方法容易出现无效估计或特征选择不一致等现象,这是因为它们对所有特征对应的回归系数施加相同程度的惩罚,忽略了特征的差异性[21]。针对这一问题,学者们提出根据特征与响应向量之间的相关程度来确定各回归系数的惩罚强度,以减少估计偏差。例如,Algamal和Lee[16]采用基于相关性惩罚的逻辑回归的初始估计来构造特征权重,结果表明其可以显著提升模型分类准确性的同时却选择更少的特征;Patil等[22]提出采用诸如Fisher分数、卡方检验和信息增益等手段来缓解传统Lasso逻辑回归模型的有偏估计问题,增强了模型的预测性能。其他常用于特征权重构造的统计分析方法还包括皮尔逊相关系数[17]、Wilcoxon秩和检验[23]以及T检验[24]等。然而,这些稀疏逻辑回归模型在学习过程中缺乏考虑特征间的相关结构,并且所使用的权重构造策略并不能很好地抑制真实数据中的异常值和噪声影响[25],从而导致它们在异常脑电检测任务中往往表现欠佳。最近,Wang等[18]利用对称不确定性来构造每个特征对应的回归系数惩罚权重,并提出了结构稀疏逻辑回归模型(adaptive lasso and correlation based penalty,ALCP)。与多种经典稀疏学习模型相比,ALCP在模拟数据和基准数据上均取得了更高的分类精度,并表现出更优的特征选择能力。然而,ALCP在特征组选择过程中侧重于考虑特征间的相关性,而忽略了它们之间的交互信息,这是不完备的。
本文提出一种基于结构稀疏回归的异常脑电识别方法,用于对蕴含多种脑疾病信息的高维复杂脑电数据进行分类。首先,利用离散小波变换将EEG信号分解为多个小波系数,并从中提取出一组紧凑的统计特征集的同时,采用自适应特征聚合技术来增强特征的表达能力;随后,基于最大信息系数和多元交互信息(three-way interaction information),提出成对特征相关权重和特征权重的两种权重构造策略,并以此为基础定义了新的正则化回归模型——自适应结构稀疏的逻辑回归模型(adaptive structured sparse logistic regression,ASLR)。通过引入加权L1范数约束和加权成对结构正则化项,实现了成组的重要EEG特征选择。在两个真实异常脑电数据集上的实验结果表明,ASLR方法能够从复杂数据中挖掘出具有良好判别力的显著特征,有效提高了分类准确度和分类结果的稳定性。
1. 异常脑电识别方法
本文提出的异常脑电识别方法的总体工作流程如图1所示。新方法主要包括3个阶段:第1阶段是预处理,目的是保证处理数据的一致性;第2阶段为多尺度特征融合,主要是从每个离散小波变换系数中提取若干个统计特征,然后通过自适应特征聚合机制增强EEG特征的表达能力;最后,使用结构稀疏逻辑回归模型对其进行分类,并筛选出具有强区分性的特征。在对新方法正式展开叙述之前,首先约定全文使用的记号。给定一组含有
$ N $ 个原始脑电样本的训练数据集$ {T_{\rm{r}}=\left\{\right({\boldsymbol{z}}_{i},{{{y}}}_{i}\left)\right\}}_{i=1}^{N} $ ,其中,$ {\boldsymbol{z}}_{i}\in {\bf{R}}^{C\times N} $ 为原始数据空间中的第$ i $ 个样本,$ {{{y}}}_{i}\in \left\{0,1,\mathrm{ }\cdots K-1\right\} $ 是样本$ {\boldsymbol{z}}_{i} $ 对应的类标签或目标值$ \left(i=1,2,\mathrm{ }\cdots ,N\right) $ 。这里,$ C $ 表示脑电信号采集的电极数目,$ K $ 表示训练数据集$ T_{\rm{r}} $ 中包含的类数目。本文重点研究高维复杂脑电信号的二分类问题,故$ K $ 取值为2。设$ \boldsymbol{y}={\left({y}_{1},{y}_{2},{y}_{N}\right)}^{\rm{T}}\in {\bf{R}}^{N} $ 是由训练数据集中所有样本类标签值构成的响应向量。对于任意一个样本$ {\boldsymbol{z}}_{i} $ ,将经模型学习而来的聚合特征组成一个向量$ {\boldsymbol{x}}_{i}={({x}_{i1},{x}_{i2},\cdots ,{x}_{ip})}^{\rm{T}}\in {\bf{R}}^{p} $ ,其中$ p $ 代表数据特征的维数。进而,可以构建出一个与训练数据集$T_{\rm{r}} $ 相对应的设计矩阵$ \boldsymbol{X}= {\left[{\boldsymbol{x}}_{1}\;\;\;{\boldsymbol{x}}_{2}\;\;\;\cdots \;\;\;{\boldsymbol{x}}_{N}\right]}^{\rm{T}}\in {\bf{R}}^{N\times p} $ ,同时将设计矩阵$ \boldsymbol{X} $ 的第$ j $ 列用$ {\boldsymbol{x}}_{\left(j\right)}={({x}_{1j},{x}_{2j},\cdots ,{x}_{Nj})}^{\rm{T}} $ 来表示$ \left(j=1,2,\cdots ,p\right) $ 。不失一般性,假设向量$ \boldsymbol{y} $ 已作中心化处理,且设计矩阵$ \boldsymbol{X} $ 中每个特征已被标准化,即$ \displaystyle\sum _{i=1}^{N}{y}_{i}=0$ ,$ \displaystyle\sum _{i=1}^{N}{x}_{ij}=0 $ 和$ \displaystyle\sum _{i=1}^{N}{x}_{ij}^{2}=1\left(j=1,2,\cdots ,p\right) $ 。1.1 多尺度特征融合
表征学习是解决复杂脑电数据问题的一个重要手段,可以为后续任务提供具有判别力的特征。为了更好地提取数据特征,预处理过程常将原始数据分割为若干个较短的脑电片段,并假设每个片段蕴含有益于脑电模式识别的相似特征[26];随后,采用时频分析技术分解脑电片段为不同频率子带,并从其中提取相关特征。这是因为EEG信号具有非平稳性,可能存在时域或频域特征量不足[2],而时频分析方法能够有效应对这一难题。目前,小波变换和短时傅里叶变换是最常用的时频分析方法。针对高时间分辨率的EEG信号,小波变换由于可以更好地平衡频率和时间分辨率,致使其相比短时傅里叶变换更为适用。因此,本文采用离散小波变换对分割后的EEG片段进行分解,并从选取的小波系数中提取一组有用的统计特征。虽然分解后的脑电数据可直接拼接成单个向量作为分类算法的输入,但由于其易受噪声影响,导致后续分类效果不佳。图1中给出了采用5阶离散小波变换从单通道EEG片段中提取统计特征的基本过程,其中符号“A”和“D”分别代表近似系数和细节系数。为了表征小波系数所蕴含的信息,本文选用了绝对偏差均值
$ \gamma $ (mean absolute difference)、绝对平均值$ \xi $ (mean absolute value)、偏度$ \alpha $ 和峰度$ \delta $ 这4个经典的统计参数。给定一个含有$ C $ 个通道的样本$ {\boldsymbol{z}}_{i} $ ,经特征提取后可以构建出一个与之相对应的特征矩阵$ {\boldsymbol{M}}_{i}\in {\bf{R}}^{C\times S\times 4(R+1)} $ ,其中,S代表每个样本被切割的片段总数,$ R $ 代表离散小波变换的分解阶数,$ 4(R+1) $ 代表每个单通道EEG片段提取的小波统计特征数。由于头皮EEG信号具有任意的正或负电压值,故采用Z-score归一化方法对提取特征进行标准化处理,以解决特征缩放问题和消除偏移效应。经小波统计特征提取后,若直接展平特征矩阵
$ {\boldsymbol{M}}_{i} $ ,则每个样本将产生一个长度为$ C\times S\times 4(R+1) $ 的一维特征向量。在这种情况下,假定数据集中每个脑电样本的通道数$ C $ 和分割片段数S分别为21和100,R设置为5,则展平后获取的表征向量长度为21$ \times $ 100$ \times $ 24=50400 ,意味着获得的数据表征维度仍极高。同时,高维数据特征中通常包含许多冗余和噪声信息。这些对传统分类模型提出了严重挑战,如性能退化、计算复杂等。鉴于单尺度聚合难以有效刻画小波统计特征中蕴含的丰富信息,提出了一种基于全局和局部聚合策略的自适应特征融合方法,如图1所示。具体地,新方法一方面沿所构建的特征矩阵$ {\boldsymbol{M}}_{i} $ 的时间维度方向将其划分为前后两部分,并分别使用有序加权平均作为聚合函数对这两部分中各EEG片段所属的每个小波统计特征进行聚合,用于表示每个通道蕴含的局部信息;另一方面,仍沿时间维度方向对每个通道下各特征向量进行聚合,用于获取每个通道的全局信息。接下来,以$ {\boldsymbol{M}}_{i} $ 中任意通道下所有EEG片段的第r个小波系数的峰度$ \delta $ 特征为例,给出使用自适应聚合方法计算得到其对应的全局特征$ g{f}_{r} $ 的具体过程:$$ g{f}_{r}={\omega }_{1}{\widehat{\delta }}_{1r}+{\omega }_{2}{\widehat{\delta }}_{2r}+\cdots + {\omega }_{s}{\widehat{\delta }}_{sr}+\cdots {\omega }_{S}{\widehat{\delta }}_{Sr} $$ 式中:
$ {\widehat{\delta }}_{sr} $ 是数据特征向量{$ {\delta }_{1r},{\delta }_{2r},{\cdots ,\delta }_{Sr} $ }降序排列后的第s个元素(s=1,2,···,S),$ {\omega }_{s}\in \left[\mathrm{0,1}\right] $ 表示第$ s $ 个特征对应的权重且满足$ \displaystyle\sum _{s=1}^{S}{\omega }_{s}=1 $ 。根据文献[27],权重$ {\omega }_{s} $ 的计算方式为$$ {\omega }_{s}=Q\left(\dfrac{s}{S}\right)-Q\left(\dfrac{s-1}{S}\right) $$ 式中
$ Q(\cdot ) $ 是模糊语义量化算子。最后,将不同尺度聚合的视图特征相融合,并以此构建一个维数为C×3×4(R+1)的一维特征向量,作为后续分类模型的输入。显然,自适应特征聚合策略不仅使约简后的特征很好地反映EEG通道中具有互补性的局部与全局信息,而且可以使特征表示更为紧凑,有利于降低分类模型的计算量及缩短训练时间。1.2 模型估计
在利用多尺度特征融合方法从原始数据中提取代表性特征后,接下来的关键任务是基于这些特征构建分类模型,以实现异常脑电的精准识别。逻辑回归是统计学习中的一种经典的二类分类模型,它的样本对应类别的条件概率表示为
$$ P_r\left({y}_{i}=1|{\boldsymbol{x}}_{i}\right)=\dfrac{\mathrm{exp}\left({\beta }_{0}+{\boldsymbol{x}}_{i}^{\rm{T}}\boldsymbol{\beta }\right)}{1+\mathrm{exp}\left({\beta }_{0}+{\boldsymbol{x}}_{i}^{\rm{T}}\boldsymbol{\beta }\right)} $$ 式中:
$ {\beta }_{0} $ 为截距项,$ \boldsymbol{\beta }={({\beta }_{1},{\beta }_{2},{\cdots ,\beta }_{p})}^{\rm{T}}{\in \bf{R}}^{p} $ 是一个p维的待估计系数向量,常可以应用极大似然估计法来获得其估计值。这里,逻辑回归模型的对数似然函数具体定义为$$ \ell \left(\boldsymbol{\beta }\right)=\displaystyle\sum _{i=1}^{N}\left[{y}_{i}\left({\beta }_{0}+{\boldsymbol{x}}_{i}^{\rm{T}}\boldsymbol{\beta }\right)-\mathrm{l}\mathrm{o}\mathrm{g}\left(1+\mathrm{e}\mathrm{x}\mathrm{p}\left({\beta }_{0}+{\boldsymbol{x}}_{i}^{\rm{T}}\boldsymbol{\beta }\right)\right)\right]$$ (1) 尽管逻辑回归在数据挖掘、机器学习和生物信息学等领域得到了广泛的应用并取得了良好的分类效果,但当数据特征的维度高于训练样本量时,该模型容易出现过拟合[17]。另外,受颅内容积传导效应影响,脑电特征中往往存在冗余或非重要的信息。这些不仅对样本类标号的识别没有帮助,还将影响模型的分类性能,起到负面作用。当前,正则化稀疏逻辑回归是解决上述难题的一个重要手段,它通过在式(1)的基础上引入正则化项,促使模型可以在学习过程中从数据特征空间剔除冗余信息和降低噪声干扰。通常,这类方法也被称为带惩罚函数的逻辑回归,其估计量一般定义为
$$ \widehat{\boldsymbol{\beta }}=\mathrm{a}\mathrm{r}\mathrm{g}\underset{\boldsymbol{\beta }{\in \bf{R}}^{p}}{\mathrm{m}\mathrm{i}\mathrm{n}}\left\{-\ell \left(\boldsymbol{\beta }\right)+{P}_{\lambda }\left(\boldsymbol{\beta }\right)\right\} $$ 式中:
$ {P}_{\lambda }\left(\boldsymbol{\beta }\right) $ 为正则化项或惩罚项,λ > 0为调整损失函数和模型复杂度的正则化参数。显然,惩罚函数$ {P}_{\lambda }\left(\boldsymbol{\beta }\right) $ 的定义决定了模型的特征选择能力。鉴于聚合特征中包含噪声和冗余信息以及特征间往往存在许多重要的相关结构,为此,在最大信息系数和多元交互信息基础上定义了成对特征相关权重和特征权重的度量策略,构造新的惩罚函数:$$ \begin{gathered} {P}_{\lambda }\left(\boldsymbol{\beta }\right)= \lambda \left(1-\gamma \right)\displaystyle\sum _{l < j}{\alpha }_{lj}\parallel {\boldsymbol{x}}_{\left(l\right)}{\beta }_{l}-{\boldsymbol{x}}_{\left(j\right)}{\beta }_{j}{\parallel }_{2}^{2}+\\ \lambda \gamma \sum _{j=1}^{p}{w}_{j}\left|{\beta }_{j}\right| \end{gathered} $$ (2) 式中:
$ \gamma \in \left[0,\; 1\right] $ 为调整参数,而$ {w}_{j} $ 和$ {\alpha }_{lj} $ 的计算方式分别为$$ {w}_{j}=\mathrm{l}\mathrm{n}\left(\dfrac{1}{{\varrho }_{j}^{{\eta }_{1}}+\text{ϵ}}\right) $$ (3) $$ {\alpha }_{lj}={\mathrm{e}}^{{\eta }_{2}({\left[{\mathrm{\hslash }}_{lj}\right]}_+-1)}$$ (4) 式中:
$ {\varrho }_{j} $ 表示设计矩阵$ \boldsymbol{X} $ 中特征$ {\boldsymbol{x}}_{\left(j\right)} $ 与响应向量$ \boldsymbol{y} $ 之间的最大信息系数;$ \text{ϵ} $ 是一个非常小的常数,用于避免$ {\varrho }_{j} $ 为零而造成$ {w}_{j} $ 的无意义,本文将其设为$ {10}^{-6} $ ;$ {\eta }_{1} > 0\mathrm{和}{\eta }_{2}\geqslant 0 $ 为平滑系数;$ {\left[{\mathrm{\hslash }}_{lj}\right]}_{+} $ 为线性整流函数,其中$ {\mathrm{\hslash }}_{lj} $ 是特征$ {\boldsymbol{x}}_{\left(l\right)} $ 、$ {\boldsymbol{x}}_{\left(j\right)} $ 与响应向量$ \boldsymbol{y} $ 之间的多元交互信息。需要说明的是,本文采用最大信息系数来衡量特征权重,主要是因为其在应用范围和准确性方面均优于皮尔逊相关系数、互信息等其他传统方法。另外,本文称式(2)中等式右侧的第一项为加权成对结构正则化项。由此易知,成对特征相关权重$ {\alpha }_{lj} $ 兼顾了响应向量$ \boldsymbol{y} $ 所提供的信息,完全不同于SPR(structured penalized regularization)[17]和ALCP [18]等新近提出的方法,它们采用皮尔逊相关系数来衡量特征间的相似性。换言之,ALCP等方法无法确保特征$ {\boldsymbol{x}}_{\left(l\right)} $ 、$ {\boldsymbol{x}}_{\left(j\right)} $ 与响应向量$ \boldsymbol{y} $ 均相关。当$ {\left[{\mathrm{\hslash }}_{lj}\right]}_{+} $ 值越大,表明特征之间依赖关系越紧密,意味着通过综合考虑两个特征可以获得更多的信息量[28]。此外,在响应向量$ \boldsymbol{y} $ 已中心化和设计矩阵$ \boldsymbol{X} $ 已标准化的情况下,加权成对结构正则化项可变换为$$ \displaystyle\sum _{l < j}{\alpha }_{lj}\left[\left(1-{\rho }_{lj}\right)\left({\beta }_{l}^{2}+{\beta }_{j}^{2}\right)+{\rho }_{lj}{\left({\beta }_{l}-{\beta }_{j}\right)}^{2}\right] $$ (5) 式中:
$ {\rho }_{lj} $ 是设计矩阵$ \boldsymbol{X} $ 中特征$ {\boldsymbol{x}}_{\left(l\right)} $ 和$ {\boldsymbol{x}}_{\left(j\right)} $ 两者之间的相关系数,即$ {\rho }_{lj}={\boldsymbol{x}}_{\left(l\right)}^{\rm{T}}{\boldsymbol{x}}_{\left(j\right)} $ 。若特征$ {\boldsymbol{x}}_{\left(l\right)} $ 和$ {\boldsymbol{x}}_{\left(j\right)} $ 之间强正相关($ {\rho }_{lj}\to 1 $ ),则$ {({\beta }_{l}-{\beta }_{j})}^{2} $ 成为主导,使得模型系数$ {\beta }_{l} $ 和$ {\beta }_{j} $ 相互收缩,即两个系数的估计是相似的$ \left(\widehat{\beta }_{l}\approx \widehat{\beta }_{j}\right) $ ;若特征$ {\boldsymbol{x}}_{\left(l\right)} $ 和$ {\boldsymbol{x}}_{\left(j\right)} $ 之间是强负相关($ {\rho }_{lj}\to -1 $ ),此时式(5)可变换为$$ \displaystyle\sum _{l < j}{\alpha }_{lj}\left[\left(1-\left|{\rho }_{lj}\right|\right)\left({\beta }_{l}^{2}+{\beta }_{j}^{2}\right)+\left|{\rho }_{lj}\right|{\left({\beta }_{l}+{\beta }_{j}\right)}^{2}\right] $$ 同样,在此情形下,
$ {({\beta }_{l}+{\beta }_{j})}^{2} $ 将成为主导,意味着模型激励系数$ {\beta }_{l} $ 逼近$ -{\beta }_{j} $ 。换言之,高度相关的特征所对应的模型系数估计值在绝对值上彼此相互接近($ \left|\widehat{\beta }_{l}\right|\approx \left|\widehat{\beta }_{j}\right| $ ),而符号由正相关或负相关所决定,即模型可以实现特征自动分组效应。此外,假设对于任意的$ l\ne j $ ,则式(5)可以写成简单的二次型:$$ \displaystyle\sum _{l < j}{\alpha }_{lj}\parallel {\boldsymbol{x}}_{\left(l\right)}{\beta }_{l}-{\boldsymbol{x}}_{\left(j\right)}{\beta }_{j}{\parallel }_{2}^{2}={\boldsymbol{\beta }}^{\rm{T}}\boldsymbol{Q}\boldsymbol{\beta } $$ 式中:
$ \boldsymbol{Q}={\left({q}_{lj}\right)}_{1\leqslant l,j\leqslant p} $ 是一个由成对特征权重构建的实对称半正定矩阵,其每个元素$ {q}_{lj} $ 通过计算得到:$$ {q}_{lj}=\left\{\begin{array}{ll}\displaystyle\sum _{s\ne l}{\mathrm{e}}^{{\eta }_{2}\left({\mathrm{\hslash }}_{ls}-1\right)},& \;l=j\\ -{\mathrm{e}}^{{\eta }_{2}\left({\mathrm{\hslash }}_{ls}-1\right)}{\rho }_{lj},& \text{}\text{其他}\end{array}\right. $$ 因此,本文提出的结构稀疏逻辑回归模型可表示为
$$ \widehat{\boldsymbol{\beta }}=\mathrm{arg}\underset{\boldsymbol{\beta }{\in \bf{R}}^{p}}{\mathrm{min}}\left\{-\ell \left(\boldsymbol{\beta }\right)+\lambda \gamma \displaystyle\sum _{j=1}^{p}{w}_{j}\left|{\beta }_{j}\right|+\lambda \left(1-\gamma \right){\boldsymbol{\beta }}^{\rm{T}}\boldsymbol{Q}\boldsymbol{\beta }\right\} $$ 式中:加权L1范数惩罚项
$ \displaystyle\sum _{j=1}^{p}{w}_{j}\left|{\beta }_{j}\right| $ 增加了ASLR模型估计的稀疏性。若一个特征$ {\boldsymbol{x}}_{\left(j\right)} $ 与响应向量强相关,则$ {w}_{j} $ 取值较小,意味着模型在训练过程中对相应的回归系数施加的惩罚强度较弱;相反地,一个特征与响应向量弱相关,甚至无相关,则对应的回归系数将被施加强惩罚,因此加权L1范数约束确保了模型可以根据特征与响应向量间的相关性差异而自适应地选择重要特征。其次,加权成对结构正则化项将鼓励彼此高度相关的特征在模型训练时,它们所关联的系数亦相近(即$ \left|\widehat{\beta }_{l}\right|\approx \left|\widehat{\beta }_{j}\right| $ ),也就是说,成对依赖性很高的特征将在训练过程被同时选择或剔除。当对任意的$ l,j $ ,均有$ {q}_{lj}=0 $ 时,ASLR退化为自适应Lasso惩罚逻辑回归模型;当$ {\rho }_{lj}\to 0 $ 时,ASLR退化为自适应弹性网惩罚逻辑回归模型。1.3 模型求解
对于ASLR模型中含有待估参数
$ \boldsymbol{\beta } $ 的问题,本文采用坐标下降法和牛顿法来求解。下面,给出求解ASLR模型参数的基本过程。首先,Friedman等[29]证明用于求解对数似然函数(见式(1))的拟牛顿法实际上等同于一个迭代加权最小二乘法。具体地,若
$ \widetilde {\boldsymbol{\beta }} $ 为普通逻辑回归模型当前的数值解,则优化目标函数$ \ell \left(\boldsymbol{\beta }\right) $ 可以近似(关于当前估计的泰勒展开)为$$ \begin{array}{r}\ell \left(\boldsymbol{\beta }\right)\approx \ell \left(\widetilde {\boldsymbol{\beta }}\right)+\left(\boldsymbol{\beta }-\widetilde {\boldsymbol{\beta }}\right)\nabla \ell \left(\widetilde {\boldsymbol{\beta }}\right)+\dfrac{1}{2}{\left(\boldsymbol{\beta }-\widetilde {\boldsymbol{\beta }}\right)}^{\rm{T}}\boldsymbol{H}\left(\boldsymbol{\beta }-\widetilde {\boldsymbol{\beta }}\right),\end{array} $$ 式中:
$ \nabla \ell \left(\widetilde {\boldsymbol{\beta }}\right) $ 和$ \boldsymbol{H}={\boldsymbol{X}}^{\rm{T}}\boldsymbol{\varLambda }\boldsymbol{X}/N $ 分别为$ \ell \left(\boldsymbol{\beta }\right) $ 在当前估计时的梯度和海森矩阵。这里,$ \boldsymbol{\varLambda }=\text{diag}({\tau }_{1},{\tau }_{2},\cdots , $ $ {\tau }_{N}) $ 是一个对角矩阵,其中第$ i $ 个对角元素$ {\tau }_{i} $ 为$$ \begin{array}{r}{\tau }_{i}=\widetilde {\pi }\left({\boldsymbol{x}}_{i}\right)\left(1-\widetilde {\pi }\left({\boldsymbol{x}}_{i}\right)\right),\end{array} $$ 式中:
$ \widetilde {\pi }\left({\boldsymbol{x}}_{i}\right) $ 表示在当前模型参数下计算$ \pi \left({\boldsymbol{x}}_{i}\right) $ 的值,其中$ \pi \left({\boldsymbol{x}}_{i}\right)=P_r\left({y}_{i}=1|{\boldsymbol{x}}_{i}\right) $ 。由此,式(1)可近似为$$ \begin{array}{r}\begin{array}{r}\ell \left(\boldsymbol{\beta }\right)=-\dfrac{1}{2}\displaystyle\sum _{i=1}^{N}{\tau }_{i}{\left({\textit{z}}_{i}-{\beta }_{0}-{\boldsymbol{x}}_{i}^{\rm{T}}\boldsymbol{\beta }\right)}^{2}\end{array}\end{array} $$ 式中:
$ {\textit{z}}_{i}={\widetilde {\beta }}_{0}+{\boldsymbol{x}}_{i}^{\rm{T}}\widetilde {\boldsymbol{\beta }}+\dfrac{{y}_{i}-\widetilde {\pi }\left({\boldsymbol{x}}_{i}\right)}{\widetilde {\pi }\left({\boldsymbol{x}}_{i}\right)\left(1-\widetilde {\pi }\left({\boldsymbol{x}}_{i}\right)\right)} $ 是根据当前参数值而估计的伪响应。进一步,经整理可得ASLR模型的优化目标函数为$$\begin{gathered} \widehat{\boldsymbol{\beta }}\left(\lambda ,\gamma \right)= \mathrm{arg}\underset{\boldsymbol{\beta }{\in \bf{R}}^{p}}{\mathrm{min}}\left\{\dfrac{1}{2}\displaystyle\sum _{i=1}^{N}{\tau }_{i}{\left({\textit{z}}_{i}-{\beta }_{0}-{\boldsymbol{x}}_{i}^{\rm{T}}\boldsymbol{\beta }\right)}^{2}\right.+\\ \left.\lambda \gamma \displaystyle\sum _{j=1}^{p}{w}_{j}\left|{\beta }_{j}\right|+\lambda \left(1-\gamma \right){\boldsymbol{\beta }}^{\rm{T}}\boldsymbol{Q}\boldsymbol{\beta }\right\} \end{gathered} $$ 接下来,坐标下降法可用于解决上述重加权最小二乘问题。假设给定当前解
$ {\widetilde {\beta }}_{0} $ 和$ {\widetilde {\beta }}_{l}\left(l\ne j\right) $ ,则求解非零参数$ {\beta }_{j} $ 的优化目标函数为$$\begin{gathered} J\left(\widetilde {\boldsymbol{\beta }}\right)= \dfrac{1}{2}\displaystyle\sum _{i=1}^{N}{\tau }_{i}{\left({\textit{z}}_{i}-{\widetilde {\beta }}_{0}-{x}_{ij}{\beta }_{j}-\displaystyle\sum _{l\ne j}^{p}{x}_{il}{\widetilde {\beta }}_{l}\right)}^{2}+\\ \lambda \left(1-\gamma \right)\displaystyle\sum _{l\ne j}^{p}{\alpha }_{lj}\left({\widetilde {\beta }}_{l}^{2}+{\beta }_{j}^{2}-2{\rho }_{lj}\widetilde {{\beta }_{l}}{\beta }_{j}\right)+\\ \lambda \left(1-\gamma \right)\displaystyle\sum _{s\ne j}^{p}\displaystyle\sum _{l\ne j}^{p}{\alpha }_{sl}\left({\widetilde {\beta }}_{l}^{2}+{\widetilde {\beta }}_{s}^{2}-2{\rho }_{ls}\widetilde {{\beta }_{l}}\widetilde {{\beta }_{s}}\right)+\\ \lambda \gamma {w}_{j}\left|{\beta }_{j}\right|+\lambda \gamma \displaystyle\sum _{l\ne j}^{p}{w}_{l}\left|{\widetilde {\beta }}_{l}\right| \end{gathered} $$ 对
$ {\beta }_{j} $ 求导,可得$$ \begin{gathered} \dfrac{\partial J\left(\widetilde {\boldsymbol{\beta }}\right)}{\partial {\beta }_{j}}= -\displaystyle\sum _{i=1}^{N}{\tau }_{i}{x}_{ij}\left({\textit{z}}_{i}-{\widetilde {\beta }}_{0}-{x}_{ij}{\beta }_{j}-\displaystyle\sum _{l\ne j}^{p}{x}_{il}{\widetilde {\beta }}_{l}\right)+\\ 2\lambda \left(1-\gamma \right)\displaystyle\sum _{l\ne j}^{p}{\alpha }_{lj}\left({\beta }_{j}-{\rho }_{lj}\widetilde {{\beta }_{l}}\right)+\lambda \gamma {w}_{j}\mathrm{s}\mathrm{i}\mathrm{g}\mathrm{n}\left({\beta }_{j}\right) \end{gathered} $$ 令
$ \dfrac{\partial J\left(\widetilde {\boldsymbol{\beta }}\right)}{\partial {\beta }_{j}}=0 $ ,推导得出$ {\beta }_{j} $ 的更新方式为$$ {\widetilde {\beta }}_{j}\leftarrow \dfrac{S\left(\varPhi ,\lambda \gamma {w}_{j}\right)}{\displaystyle\sum _{i=1}^{N}{\tau }_{i}{x}_{ij}^{2}+2\lambda \left(1-\gamma \right)\displaystyle\sum _{l\ne j}^{p}{\alpha }_{lj}} $$ (6) 式中:
$ \varPhi = \displaystyle\sum _{i = 1}^{N}{\tau }_{i}{x}_{ij}\left( {\textit{z}}_{i} - {\widetilde {\beta }}_{0} - \displaystyle\sum _{l\ne j}^{p}{x}_{il}{\widetilde {\beta }}_{l} \right) + 2\lambda \left(1 - \gamma \right) \displaystyle\sum _{l\ne j}^{p}{\alpha }_{lj}{\rho }_{lj}\widetilde {{\beta }_{l}} $ ,而$ S(\mathrm{\wp },\varsigma ) $ 为软阈值算子[29]。根据式(6)交替更新$ \boldsymbol{\beta } $ 中的每个回归系数,直到满足给定的收敛条件。算法1给出了求解ASLR模型的主要步骤,其时间复杂度为$ O\left(Np\right) $ 。坐标下降法每次迭代只优化一维变量,其余变量看作常量,且优化系数可以在变量循环中更新,故其是一种相对高效的求解方法,适用于不同类型的问题。算法1 ASLR模型求解算法
输入
$ \boldsymbol{X},\boldsymbol{Y},\lambda ,\gamma ,\eta ,\theta $ ;控制算法终止的阈值
$ \phi ={10}^{-6} $ ;最大允许迭代次数
$ {\xi }_{\max} $ 。输出 稀疏向量
$ \widehat{\boldsymbol{\beta }} $ 。方法
初始化: 设
$ \xi $ 为迭代次数,$ \xi =0 $ ;根据式(3)计算各个特征的权重
$ {w}_{j} $ ;根据式(4)计算各个成对特征的权重
$ {\alpha }_{lj} $ ;Repeat
for
$ j=1 $ to$ p $ do根据式(6)更新模型系数值
$ {\widetilde {\beta }}_{j}^{\left(\xi \right)} $ ;$ {\widehat{\boldsymbol{\beta }}}^{\left(\xi \right)}\leftarrow \left({\widetilde {\beta }}_{1}^{\left(\xi \right)},{\widetilde {\beta }}_{2}^{\left(\xi \right)},\mathrm{ }\cdots ,{\widetilde {\beta }}_{p}^{\left(\xi \right)}\right) $ ;$ \xi \leftarrow \xi +1 $ ;Until
$\parallel {\widehat{\boldsymbol{\beta }}}^{\left(\xi \right)}-{\widehat{\boldsymbol{\beta }}}^{\left(\xi -1\right)}{\parallel }_{\mathrm{\infty }}\leqslant \phi {\mathrm{or}}\xi ={\xi }_{\max} $ 。2. 实验与分析
本节主要验证本文所提新方法在多个实际异常脑电数据集上的有效性,并与若干相关工作比较。所有实验在配置为3.7 GHz CPU和32 GB RAM的计算机上运行。
2.1 实验数据
实验采用了2个主流的脑电数据集对所提方法进行验证,以检验新方法的性能。2个数据集分别来源于美国天普大学医院收集的异常脑电数据集(Temple University Hospital EEG Abnormal Corpus, TUHEAC)[3]和巴基斯坦−阿联酋军事医院收集的NUST-MH-TUKL (NMT)数据集[30],它们在采集设备、数据规模、数据记录协议、人口统计学特征和患者构成方面均存在明显差异,如表1所示。
表 1 实际应用数据集的有关信息Table 1 Some information about the real-world datasets数据集 性别 正常EEG数量 异常EEG数量 TUHEAC 男性 853 742 女性 668 730 NMT 男性 489 122 女性 998 196 1) TUHEAC数据集:已公开发表的重要脑电数据集,被广泛用于异常脑电的分类研究中[31]。该数据集按照国际标准10-20系统电极放置法,以250 Hz或更高的采样率从
2329 位男性和女性患者头部采集而来,年龄范围在7天到96岁之间(平均年龄为48.69±17.89岁)。患者的脑部病理包括但不限于癫痫、中风和抑郁症。每位患者的EEG记录持续15 min或更长,且已被神经学专家标注为正常或病理记录。鉴于TUHEAC数据集中的脑电记录通道数介于21~31,为了确保数据的一致性,实验选择了脑电记录中均存在的21个脑电通道,并将所有数据均重采样至250 Hz。2) NMT数据集:一个专注于南亚人口的公开脑电异常数据库,由Khan等[30]贡献。该数据集的记录来自
2417 名独立患者(男性和女性),平均年龄为24.64岁。原始头皮EEG信号通过国际标准10-20系统的21个通道采集,采样率为200 Hz。整个数据集中的每个脑电记录均已被神经学专家标注为正常或病理性。此外,由于记录时长较短的脑电数据无法提供充足的信息,类似于其他研究[5, 8],实验中仅采用时长超过10 min的记录进行实验验证。因此,实验使用的NMT数据集包含1805条EEG记录,其中82.38%为正常记录,剩余约17.62%为病理记录,详细信息见表1。2.2 实验设置
为检验所提方法的有效性,实验使用了2个真实异常脑电数据集。首先,采用5 s非重叠滑动窗口将每个EEG通道数据分割为100个长度均等的片段,丢弃剩余数据;其次,采用以Sym6为母小波的离散小波变换,分解层级设置为5,获得每个通道信号片段的细节系数和近似系数,并从D1、D2、D3、D4、D5和A5系数中计算出相应的统计参数,构建特征矩阵;最后,采用特征聚合方法增强特征表达能力,并使用ASLR进行分类。其中,采用有序加权平均作为聚合函数,并使用与文献[27]一样的参数设置。而对于ASLR的参数,本文通过参数敏感性实验确定了它们的最佳值。具体地,调整参数
$ \gamma $ 和$ \lambda $ 分别设置为0.5和0.05,平滑系数$ {\eta }_{1} $ 和$ {\eta }_{2} $ 分别设置为8和5。实验采用Python3语言来实现。此外,由于对比方法大多是开源的,故实验中它们均采用推荐参数,以确保实验结果的可比较性。本文采用5折交叉验证来验证不同方法的性能优劣,并使用F1-Score和G-mean作为评价指标,这是因为它们在分析不平衡数据集时(即正常脑电类别占比较大,见表1),可以更准确地反映模型的识别效果。具体地,F1-Score是精确度和召回率的加权平均值,当精确度和召回度都很高时,F1-Score值较大,因而可以在两者之间保持良好的平衡;G-mean是一种通过计算两种脑电类别的召回率的几何平均值来衡量模型的性能。
2.3 性能对比实验
为了验证所提方法的先进性,实验选择了若干相关工作进行比较。主要包括小波包分解(wavelet packet decomposition,WPD) + 集成学习分类器 CatBoost[8]、小波分解(wavelet decomposition,WD)+SVM[10]、混合特征+ SVM[5]、ChronoNet[31]和混合网络[30]。其中,前3种采用的基于用户定义脑电特征的异常脑电模式识别方法具有代表性,尤其是WD+SVM使用的统计特征计算过程与所提方法较为接近;后两种是基于深度学习的脑电异常检测方法,它们的表征学习方式具有代表性,特别是混合网络是新近提出的。
表2给出了6种方法在两个实际应用数据集上的分类结果,以“均值±1个方差”的格式呈现。由表2可见,本文所提方法在真实异常脑电数据集上获得了较好的分类效果。表2以TUHEAC数据集为例,进一步分析表2后,可以获得以下观察结论:1)ASLR方法的F1-Score值比基于用户定义特征的基线方法(混合特征+SVM)高约8.3%,比代表性的深度学习方法ChronoNet显著提高了23.1%;2) 与新近提出的混合深度学习方法相比,本文方法也实现了更好的分类性能。另外,对于NMT数据集,从表2可以看出,ASLR在分类效果方面也明显优于其他5种异常脑电识别方法。特别地,ASLR与最近发表的方法相比,G-mean值提升了6.48%,F1-Score值大约提升了2%。这一结果充分表明了新方法在解决异常脑电识别中所面临问题的有效性和适用性。通过实验分析,ASLR取得如此较好结果的原因主要归结于其能够有效挖掘出具有明显鉴别能力的显著特征。具体而言,对于NMT数据集,ASLR可以从原始数据中提取的
1512 个小波统计特征中最终平均选择586个特征作为最优特征子集,而对于TUHEAC数据集,则从提取的小波统计特征集中最终平均选择475个特征作为最优子集,表明所提出的结构稀疏逻辑回归模型可以极大地剔除提取特征中的冗余信息,从而提高模式识别的准确性。此外,通过比较表2中不同数据集的实验结果,可以发现ASLR在TUHEAC数据集上表现出的分类效果略优于NMT上的分类。有趣的是,这一结果与文献[30]中的实验结果相一致。其主要原因是不同EEG数据集中的受试者之间差异较大,以及NMT数据集相对TUHEAC规模较小。表 2 实际应用数据集上的分类结果比较Table 2 Comparison of the classification results on the real-world datasets方法 TUHEAC NMT G-mean F1-Score G-mean F1-Score 混合特征+SVM 0.7341 ±0.0092 0.7033 ±0.0125 0.1351 ±0.0726 0.0454 ±0.0275 WPD+CatBoost 0.7831 ±0.0060 0.7716 ±0.0074 0.5537 ±0.0533 0.4445 ±0.0640 WD+SVM 0.7772 ±0.0164 0.7497 ±0.0233 0.6994 ±0.0581 0.3238 ±0.0462 ChronoNet 0.6215 ±0.1045 0.5555 ±0.1374 0.4367 ±0.0762 0.3241 ±0.0888 混合网络 0.7459 ±0.0344 0.7248 ±0.0492 0.6765 ±0.0431 0.5559 ±0.0367 ASLR 0.7940 ±0.0177 0.7865 ±0.0232 0.7413 ±0.0277 0.5749 ±0.0378 注:加粗数字表示最优结果。 2.4 不同正则化稀疏逻辑回归方法的对比实验
为进一步说明ASLR的特征选择能力以及模型的分类性能,本节实验选择了Lasso惩罚逻辑回归( Lasso logistic regression, LLR)[20]、ENLR[32]、SPR[17]和ALCP[18]这4种正则化稀疏逻辑回归模型作为对比对象。LLR是传统逻辑回归的扩展,引入了额外的L1正则化项,迫使其在训练过程中部分系数被收缩至零,大大提升了模型的可解释性和预测性能。ENLR是在LLR基础上,额外对模型的回归系数施加L2惩罚,促使模型具有分组效应性质。ALCP和SPR是新近提出的正则化逻辑回归方法,它们各自采用的结构稀疏惩罚项与ASLR方法比较接近。实验均使用经多尺度特征融合技术提取的EEG特征作为每种回归模型的输入,以及它们采用文献推荐的默认参数。表3给出了各种方法在不同数据集上获得的分类结果以及对应选取特征的平均数量(average number of selected features,AveSN)。其中,AveSN表示模型在多次实验中从特征空间选取特征数量的平均数,值越小则意味着模型具有更好的稀疏性。
表 3 不同稀疏回归模型在公共数据集上的性能比较Table 3 Performance comparison between ASLR and baselines on public datasets模型 TUHEAC NMT AveSN G-mean F1-Score AveSN G-mean F1-Score LLR 801.20±7.30 0.7517 ±0.0160 0.7446 ±0.0196 589.20±33.62 0.6371 ±0.0417 0.4423 ±0.0521 ENLR 736.20±12.08 0.7902 ±0.0200 0.7842 ±0.0247 627.40±22.91 0.5596 ±0.0601 0.4191 ±0.0746 SPR 515.80±8.16 0.7632 ±0.0206 0.7671 ±0.0177 710.00±26.40 0.2799 ±0.0471 0.4162 ±0.0383 ALCP 1121.00 ±15.970.7827 ±0.0188 0.7648 ±0.0236 663.00±46.57 0.7182 ±0.0289 0.5270 ±0.0421 ASLR 475.80±11.90 0.7940 ±0.0177 0.7865 ±0.0232 586.00±14.73 0.7413 ±0.0277 0.5749 ±0.0378 注:加粗数字表示最优结果。 由表3可见,ASLR在选择最少特征的情况下,取得了显著优于其他4种方法的分类效果。以NMT数据集为例,分析可得以下观察结果:1) 与经典的LLR方法相比,ASLR在实际异常脑电数据集上的G-mean和F1-Score分别提高了10.4%和13.2%;2) 与新近提出的稀疏回归模型ALCP相比,ASLR同样展现出明显优势;3) 相较于其他4种稀疏逻辑回归模型,ASLR获得了更为稳定的分类结果。一方面是因为ASLR采用了基于信息度量的特征权重构造策略,不依赖于特征的真实值,促使模型可以自适应地选择重要特征;另一方面是由于ASLR采用了自适应L1惩罚项,可以改善甚至避免现有稀疏逻辑回归模型中的有偏估计。上述结果表明,针对复杂的异常脑电模式识别问题,ASLR相较于现有主流稀疏逻辑回归方法更为有效。
2.5 消融实验
2.5.1 不同特征融合方式对实验结果的影响
为了验证所提出的特征融合方法的有效性,本文通过移除特征聚合过程中的部分组件进行了消融实验。具体地,本文主要设计并比较了4种不同的情况:未使用特征聚合、仅使用局部或全局聚合特征,以及同时使用局部和全局聚合特征。表4给出了在两个实际异常脑电数据集上每种情况对应的分类效果。
表 4 多尺度特征融合方法在公共数据集上的消融实验结果Table 4 Ablation experiment results of multi-scale feature fusion method on public datasets索引 局部聚合 全局聚合 TUHEAC NMT G-mean F1-Score G-mean F1-Score 1 × × 0.6081 ±0.0284 0.6069 ±0.0432 0.5114 ±0.0300 0.2646 ±0.0324 2 √ × 0.7931 ±0.0198 0.7858 ±0.0241 0.7266 ±0.0301 0.5563 ±0.0382 3 × √ 0.7871 ±0.0217 0.7810 ±0.0242 0.7161 ±0.0429 0.5435 ±0.0548 4 √ √ 0.7940 ±0.0177 0.7865 ±0.0232 0.7413 ±0.0277 0.5749 ±0.0378 注:加粗数字表示最优结果。 由表4可见,直接使用统计特征的分类方法性能整体相对较差,而基于聚合特征的方法均获得了较好的识别效果。这意味着所提出的聚合机制在实现维度约简的同时,能够显著提升特征的质量。此外,基于局部和全局聚合的方法在两个数据集上取得了最优的分类性能,表明所采用的两种类型的聚合特征各具优势,具备互补性。以上实验结果充分证明了本文提出的多尺度聚合机制的有效性。
2.5.2 自适应结构稀疏回归对实验结果的影响
为了验证稀疏逻辑回归的不同改进策略对性能的影响,本文对新模型进行了消融研究。具体地,本小节设计了ASLR模型的3种变体进行对比实验,以证明它们在特征学习中的各自作用。模型Model-A、Model-B和Model-C分别对应将ASLR中的正则化项替换为L1范数约束、仅引入加权L1范数约束,以及在Model-A中引入结构正则化项。图2给出了不同模型在两个实际数据集上获得的平均分类结果。
从图2可以看出,ASLR在两个数据集上均获得了最佳性能。例如,在NMT数据集上,Model-B和Model-C的分类结果显著优于Model-A,表明自适应特征加权和加权成对结构正则化项在模型的特征学习过程中起着关键作用。这是因为受颅内容积传导效应影响[15],不同脑电通道间存在高度相关性,导致脑电特征中往往包含大量冗余信息。而基于加权L1范数约束和加权成对结构正则化项的模型可以自适应地选择组内的重要特征、剔除带有干扰信息的噪声特征,进而获得更佳的分类结果。因此,两种改进策略的融合使得ASLR在所有方法中表现最佳。这一结论在TUHEAC数据集上同样得以验证。上述实验结果表明,本文新提出的正则化项对于提升异常脑电分类任务的性能是有效的。
2.6 参数敏感性
本节实验旨在进一步分析ASLR模型的参数敏感性。由式(6)可知,ASLR包含4个预先设置的参数。这里,当评估某个特定参数时,其余3个参数将被固定为本文推荐的默认值。此外,在参数敏感性实验中,
$ \lambda $ 在[0.01,0.06]内以0.01的步长取值,$ \gamma $ 在[0.1,0.6]内以0.1的步长取值,而$ {\eta }_{1} $ 和$ {\eta }_{2} $ 的取值范围限定为{1,2,3,4,5,6,7,8}。图3给出了ASLR模型在不同参数值下获得的分类效果。由图3可见,ASLR对于调整参数
$ \gamma $ 和$ \lambda $ ,以及平滑系数$ {\eta }_{1} $ 的不同取值所得到的分类表现较为稳定,表明模型对这些参数的值不敏感。而对于参数$ {\eta }_{2} $ ,ASLR在NMT数据集上的分类性能随着其取值增大而提升,随后趋于平稳。通过分析实验发现,当参数$ {\eta }_{2} $ 取值较小时,模型选择的特征相对较多,从而影响了异常脑电识别。这再次证明了成对结构正则化项对提升模型的识别精度发挥着重要作用。因此,上述结果表明,所提出方法的学习性能对参数在一定程度上具有较高的稳定性和鲁棒性。2.7 可视化分析
为了验证ASLR模型选取的EEG特征具有高区分性,本节引入标准的
$ t $ -分布随机邻域嵌入($ t $ -distributed stochastic neighbor embedding,$ t $ -SNE)[33]来可视化新方法中每个核心部分输出的特征。图4和图5给出了新方法在测试数据集上不同阶段输出特征的可视化结果。由图4(a)和图5(a)可见,原始数据中不同类别间的特征被严重混淆,几乎无法有效辨识样本的类别标号,即样本数据近乎均匀分布。而观察图4(b)和图5(b)可以看出,经离散小波变换提取的脑电特征可以形成一定的聚类效果,不同类别之间的数据特征表现出差异性。有趣的是,小波统计特征经自适应聚合后,相同类别的特征具有抱团趋势,且不同类别样本的特征之间具有良好的区分性,如图4(c)所示。类似的结论在非平衡数据集NMT上也可以观察得到,如图5(c)所示。更有趣的是,我们发现,ASLR能够最终选取的数据特征具有更好的聚类效果,且分类边界也更加明显、清晰,如图5(d)所示。不同类别间的特征越易分割,则对其的分类效果就越好。因此,图4和图5给出的实验结果再一次验证了新方法能够通过多尺度特征融合和基于结构稀疏回归的特征选择来获得具有高度区分性的数据特征表示。此外,为了更好地理解新方法的性能,以TUHEAC数据集为例,将由ASLR模型学习得到的重要特征以脑地形图的方式进行可视化,如图6所示。从图中可以清楚地看出,患有脑部疾病的人群与正常人群的脑地形图具有显著差异。其中,患病人群的脑电特征值在部分大脑区域明显比正常对照组更大,特别是在额叶区域。有趣的是,这些发现与现有基于脑电信号的神经系统疾病研究相一致[34-36]。例如,癫痫发作波最常见于患者的额叶区域,而其他脑部区域尖峰放电的发生率小于10%[35]。这是因为额叶在认知与情感调节方面起着至关重要的作用。此外,从图6也可以观察到,在异常脑电组中,由于患者的脑功能紊乱导致不同导联上的平均特征值之间存在较大的差异性,这与Zhao等[37]的分析结果相一致。因此,以上实验结果从特征层面再次验证了ASLR模型是一种有效的异常脑电识别方法。
3. 结束语
本文提出一种自适应的方法ASLR,用于对蕴含多种脑疾病信息的高维复杂脑电数据进行分类分析。通过多尺度特征融合技术,可以以无监督方式从原始脑电数据中学习出具有高鉴别性的数据表征;接着定义了一个新的自适应结构稀疏回归模型,能够从特征中充分挖掘出有效鉴别模式的成组重要特征的同时,实现精准的脑电二分类。与现有其他异常脑电识别方法相比,ASLR提出的两种特征权重构造策略仅仅依赖于特征的概率分布,并非是依赖数据的真实值,因而新方法不仅能够以数据自驱动的方式选择重要特征,还可以改善甚至避免现有特征选择模型中的有偏估计。本文所提方法充分利用了不同视图特征的互补性以及特征的群组性质,通过在实际应用数据上进行对比实验,结果表明了ASLR可以有效地进行异常脑电识别,其分类效果优于新近提出的有关方法。下一步的工作重点是寻找能够根据数据样本分布自适应学习出模型可调参数相应最优值的方法,及对异常值和产生较大误差的可能原因进行深入研究,以进一步提高方法的稳定性。
-
表 1 实际应用数据集的有关信息
Table 1 Some information about the real-world datasets
数据集 性别 正常EEG数量 异常EEG数量 TUHEAC 男性 853 742 女性 668 730 NMT 男性 489 122 女性 998 196 表 2 实际应用数据集上的分类结果比较
Table 2 Comparison of the classification results on the real-world datasets
方法 TUHEAC NMT G-mean F1-Score G-mean F1-Score 混合特征+SVM 0.7341 ±0.0092 0.7033 ±0.0125 0.1351 ±0.0726 0.0454 ±0.0275 WPD+CatBoost 0.7831 ±0.0060 0.7716 ±0.0074 0.5537 ±0.0533 0.4445 ±0.0640 WD+SVM 0.7772 ±0.0164 0.7497 ±0.0233 0.6994 ±0.0581 0.3238 ±0.0462 ChronoNet 0.6215 ±0.1045 0.5555 ±0.1374 0.4367 ±0.0762 0.3241 ±0.0888 混合网络 0.7459 ±0.0344 0.7248 ±0.0492 0.6765 ±0.0431 0.5559 ±0.0367 ASLR 0.7940 ±0.0177 0.7865 ±0.0232 0.7413 ±0.0277 0.5749 ±0.0378 注:加粗数字表示最优结果。 表 3 不同稀疏回归模型在公共数据集上的性能比较
Table 3 Performance comparison between ASLR and baselines on public datasets
模型 TUHEAC NMT AveSN G-mean F1-Score AveSN G-mean F1-Score LLR 801.20±7.30 0.7517 ±0.0160 0.7446 ±0.0196 589.20±33.62 0.6371 ±0.0417 0.4423 ±0.0521 ENLR 736.20±12.08 0.7902 ±0.0200 0.7842 ±0.0247 627.40±22.91 0.5596 ±0.0601 0.4191 ±0.0746 SPR 515.80±8.16 0.7632 ±0.0206 0.7671 ±0.0177 710.00±26.40 0.2799 ±0.0471 0.4162 ±0.0383 ALCP 1121.00 ±15.970.7827 ±0.0188 0.7648 ±0.0236 663.00±46.57 0.7182 ±0.0289 0.5270 ±0.0421 ASLR 475.80±11.90 0.7940 ±0.0177 0.7865 ±0.0232 586.00±14.73 0.7413 ±0.0277 0.5749 ±0.0378 注:加粗数字表示最优结果。 表 4 多尺度特征融合方法在公共数据集上的消融实验结果
Table 4 Ablation experiment results of multi-scale feature fusion method on public datasets
索引 局部聚合 全局聚合 TUHEAC NMT G-mean F1-Score G-mean F1-Score 1 × × 0.6081 ±0.0284 0.6069 ±0.0432 0.5114 ±0.0300 0.2646 ±0.0324 2 √ × 0.7931 ±0.0198 0.7858 ±0.0241 0.7266 ±0.0301 0.5563 ±0.0382 3 × √ 0.7871 ±0.0217 0.7810 ±0.0242 0.7161 ±0.0429 0.5435 ±0.0548 4 √ √ 0.7940 ±0.0177 0.7865 ±0.0232 0.7413 ±0.0277 0.5749 ±0.0378 注:加粗数字表示最优结果。 -
[1] 王振宇, 向泽锐, 支锦亦. 离散小波变换和自编码器耦合的脑电信号异常检测方法[J]. 北京邮电大学学报, 2024, 47(2): 66−73. WANG Zhenyu, XIANG Zerui, ZHI Jinyi. Detection method for abnormal electroencephalographic signals coupled with discrete wavelet transform and autoencoder[J]. Journal of Beijing University of Posts and Telecommunications, 2024, 47(2): 66−73. [2] 张军鹏, 施玉杰, 蒋睿, 等. 基于脑电信号的认知功能障碍识别与分类进展综述[J]. 计算机应用, 2023, 43(10): 3297−3308. ZHANG Junpeng, SHI Yujie, JIANG Rui, et al. Review on advances in recognition and classification of cognitive impairment based on EEG signals[J]. Journal of computer applications, 2023, 43(10): 3297−3308. [3] LÓPEZ DE DIEGO S. Automated interpretation of abnormal adult electroencephalograms[D]. Philadelphia: Temple University, 2017. [4] MEI Ning, GROSSBERG M D, NG K, et al. Identifying sleep spindles with multichannel EEG and classification optimization[J]. Computers in biology and medicine, 2017, 89: 441−453. doi: 10.1016/j.compbiomed.2017.08.030 [5] GEMEIN L A W, SCHIRRMEISTER R T, CHRABĄSZCZ P, et al. Machine-learning-based diagnostics of EEG pathology[J]. NeuroImage, 2020, 220: 117021. doi: 10.1016/j.neuroimage.2020.117021 [6] TANG Fengzhen, ADAM L, SI Bailu. Group feature selection with multiclass support vector machine[J]. Neurocomputing, 2018, 317: 42−49. doi: 10.1016/j.neucom.2018.07.012 [7] WANG Min, YIN Xuefei, ZHU Yanming, et al. Representation learning and pattern recognition in cognitive biometrics: a survey[J]. Sensors, 2022, 22(14): 5111. doi: 10.3390/s22145111 [8] ALBAQAMI H, HASSAN G M, SUBASI A, et al. Automatic detection of abnormal EEG signals using wavelet feature extraction and gradient boosting decision tree[J]. Biomedical signal processing and control, 2021, 70: 102957. doi: 10.1016/j.bspc.2021.102957 [9] GOWTHAM R N, HAIT S R, GUHA D, et al. Classification of epileptic EEG signals with the utilization of Bonferroni mean based fuzzy pattern tree[J]. Expert systems with applications, 2024, 239: 122424. doi: 10.1016/j.eswa.2023.122424 [10] SHARMA M, PATEL S, ACHARYA U R. Automated detection of abnormal EEG signals using localized wavelet filter banks[J]. Pattern recognition letters, 2020, 133: 188−194. doi: 10.1016/j.patrec.2020.03.009 [11] IDOWU O P, ADELOPO O, ILESANMI A E, et al. Neuro-evolutionary approach for optimal selection of EEG channels in motor imagery based BCI application[J]. Biomedical signal processing and control, 2021, 68: 102621. doi: 10.1016/j.bspc.2021.102621 [12] ZHONG Yunning, WEI Hongyu, CHEN Lifei, et al. Automated EEG pathology detection based on significant feature extraction and selection[J]. Mathematics, 2023, 11(7): 1619. doi: 10.3390/math11071619 [13] 刘建伟, 崔立鹏, 罗雄麟. 结构稀疏模型[J]. 计算机学报, 2017, 40(6): 1309−1337. LIU Jianwei, CUI Lipeng, LUO Xionglin. Structured sparse models[J]. Chinese journal of computers, 2017, 40(6): 1309−1337. [14] ZHENG Wenming. Multichannel EEG-based emotion recognition via group sparse canonical correlation analysis[J]. IEEE transactions on cognitive and developmental systems, 2016, 9(3): 281−290. [15] 徐雪远, 刘建红, 李子遇, 等. 基于正交回归和特征加权的脑电情感特征选择方法[J]. 中国科学: 信息科学, 2023, 53(1): 33−45. XU Xueyuan, LIU Jianhong, LI Ziyu, et al. EEG emotional feature selection method based on orthogonal regression and feature weighting[J]. Scientia sinica (informationis), 2023, 53(1): 33−45. [16] ALGAMAL Z Y, LEE M H. Penalized logistic regression with the adaptive LASSO for gene selection in high-dimensional cancer classification[J]. Expert systems with applications, 2015, 42(23): 9326−9332. doi: 10.1016/j.eswa.2015.08.016 [17] LIU Cheng, WONG H S. Structured penalized logistic regression for gene selection in gene expression data analysis[J]. IEEE/ACM transactions on computational biology and bioinformatics, 2019, 16(1): 312−321. doi: 10.1109/TCBB.2017.2767589 [18] WANG Yadi, ZHANG Wenbo, FAN Minghu, et al. Regression with adaptive lasso and correlation based penalty[J]. Applied mathematical modelling, 2022, 105: 179−196. doi: 10.1016/j.apm.2021.12.016 [19] BLANCO DÍAZ C F, RUIZ OLAYA A F. A novel method based on regularized logistic regression and CCA for P300 detection using a reduced number of EEG trials[J]. IEEE Latin America transactions, 2020, 18(12): 2147−2154. doi: 10.1109/TLA.2020.9400443 [20] GARCÉS P, BAUMEISTER S, MASON L, et al. Resting state EEG power spectrum and functional connectivity in autism: a cross-sectional analysis[J]. Molecular autism, 2022, 13(1): 22. doi: 10.1186/s13229-022-00500-x [21] WANG Yadi, YANG Xinguang, LU Yongjin. Informative gene selection for microarray classification via adaptive elastic net with conditional mutual information[J]. Applied mathematical modelling, 2019, 71: 286−297. doi: 10.1016/j.apm.2019.01.044 [22] PATIL A R, PARK B K, KIM S. Adaptive lasso with weights based on normalized filtering scores in molecular big data[J]. Journal of theoretical and computational chemistry, 2020, 19(4): 2040010. doi: 10.1142/S0219633620400106 [23] PARK H, SHIRAISHI Y, IMOTO S, et al. A novel adaptive penalized logistic regression for uncovering biomarker associated with anti-cancer drug sensitivity[J]. IEEE/ACM transactions on computational biology and bioinformatics, 2017, 14(4): 771−782. doi: 10.1109/TCBB.2016.2561937 [24] LI Juntao, WANG Yadi, XIAO Huimin, et al. Gene selection of rat hepatocyte proliferation using adaptive sparse group lasso with weighted gene co-expression network analysis[J]. Computational biology and chemistry, 2019, 80: 364−373. doi: 10.1016/j.compbiolchem.2019.04.010 [25] WANG Yadi, LI Xiaoping, RUIZ R. Feature selection with maximal relevance and minimal supervised redundancy[J]. IEEE transactions on cybernetics, 2023, 53(2): 707−717. doi: 10.1109/TCYB.2021.3139898 [26] BOU A E, NGUYEN D K, RIHANA S, et al. Towards accurate prediction of epileptic seizures: a review[J]. Biomedical signal processing and control, 2017, 34: 144−157. doi: 10.1016/j.bspc.2017.02.001 [27] YAGER R R. On ordered weighted averaging aggregation operators in multicriteria decisionmaking[J]. IEEE transactions on systems, man, and cybernetics, 1988, 18(1): 183−190. doi: 10.1109/21.87068 [28] WANG Lianxi, JIANG Shengyi, JIANG Siyu. A feature selection method via analysis of relevance, redundancy, and interaction[J]. Expert systems with applications, 2021, 183: 115365. doi: 10.1016/j.eswa.2021.115365 [29] FRIEDMAN J, HASTIE T, TIBSHIRANI R. Regularization paths for generalized linear models via coordinate descent[J]. Journal of statistical software, 2010, 33(1): 1−22. [30] KHAN H A, AIN R U, KAMBOH A M, et al. The NMT scalp EEG dataset: an open-source annotated dataset of healthy and pathological EEG recordings for predictive modeling[J]. Frontiers in neuroscience, 2022, 15: 755817. doi: 10.3389/fnins.2021.755817 [31] ROY S, KIRAL-KORNEK I, HARRER S. ChronoNet: a deep recurrent neural network for abnormal EEG identification[M]//Artificial Intelligence in Medicine. Cham: Springer International Publishing, 2019: 47−56. [32] ZHANG Zhongheng, TREVINO V, HOSEINI S S, et al. Variable selection in Logistic regression model with genetic algorithm[J]. Annals of translational medicine, 2018, 6(3): 45. doi: 10.21037/atm.2018.01.15 [33] MAATEN L V D, HINTON G. Visualizing data using t-SNE[J]. Journal of machine learning research, 2008, 9(86): 2579−2605. [34] KHARE S K, ACHARYA U R. Adazd-Net: Automated adaptive and explainable Alzheimer’s disease detection system using EEG signals[J]. Knowledge-based systems, 2023, 278: 110858. doi: 10.1016/j.knosys.2023.110858 [35] YASUHARA A. Correlation between EEG abnormalities and symptoms of autism spectrum disorder (ASD)[J]. Brain and development, 2010, 32(10): 791−798. doi: 10.1016/j.braindev.2010.08.010 [36] ALDEMIR R, DEMIRCI E, PER H, et al. Investigation of attention deficit hyperactivity disorder (ADHD) sub-types in children via EEG frequency domain analysis[J]. The international journal of neuroscience, 2018, 128(4): 349−360. doi: 10.1080/00207454.2017.1382493 [37] ZHAO Qinglin, JIANG Hua, HU Bin, et al. Nonlinear dynamic complexity and sources of resting-state EEG in abstinent heroin addicts[J]. IEEE transactions on nanobioscience, 2017, 16(5): 349−355. doi: 10.1109/TNB.2017.2705689


























下载:




























































































































































