一种用于解决特征选择问题的新型混合演化算法

引用本文

李天翼, 陈红梅. 一种用于解决特征选择问题的新型混合演化算法[J]. 郑州大学学报(理学版), 2021, 53(2): 41-49.

LI Tianyi, CHEN Hongmei. A New Hybrid Evolutionary Algorithm for Solving Feature Selection Problem[J]. Journal of Zhengzhou University(Natural Science Edition), 2021, 53(2): 41-49.

基金项目

国家自然科学基金项目(61572406，61976182，62076171)；四川省国际科技创新合作重点项目(2019YFH0097)；四川省科技厅应用基础研究计划项目(2019YJ0084)

通信作者

陈红梅(1971—)，女，教授，主要从事粒计算、粗糙集和智能信息处理研究，E-mail：hmchen@swjtu.edu.cn

作者简介

李天翼(1996—)，男，硕士研究生，主要从事数据挖掘、智能信息处理研究，E-mail：15528030682@163.com

文章历史

收稿日期：2020-07-15

Contents Abstract Full text Figures/Tables PDF

一种用于解决特征选择问题的新型混合演化算法

李天翼, 陈红梅

西南交通大学信息科学与技术学院四川成都 611756

收稿日期：2020-07-15

基金项目：国家自然科学基金项目(61572406，61976182，62076171)；四川省国际科技创新合作重点项目(2019YFH0097)；四川省科技厅应用基础研究计划项目(2019YJ0084)

作者简介：李天翼(1996—)，男，硕士研究生，主要从事数据挖掘、智能信息处理研究，E-mail：15528030682@163.com.

通信作者：陈红梅(1971—)，女，教授，主要从事粒计算、粗糙集和智能信息处理研究，E-mail：hmchen@swjtu.edu.cn.

摘要：为结合不同演化算法的优势，提出一个混合鲸鱼算法(hybrid whale optimization algorithm，HWOA)。在HWOA算法中鲸鱼优化算法(whale optimization algorithm，WOA)的收缩环绕机制被正余弦算法(sine cosine algorithm，SCA)取代，以实现迭代初期探索和开发之间更好的平衡。此外，在灰狼优化算法(grey wolf optimization，GWO)中引入粒子群算法的个人最佳位置的概念，并引入决策权重参数以更好地反映狼群的等级制度。为提高算法的多样性，在搜索过程中，改进后的灰狼算法和鲸鱼算法的螺旋更新机制随机地被选择。为有效避免算法陷入局部最优，使用非线性的参数调整策略和混沌映射来更新HWOA中的重要参数。实验结果表明，新算法可以有效提高分类的准确率，并选择最合适的特征子集。

关键词：特征选择混合演化算法鲸鱼优化算法正余弦算法改进灰狼优化算法

A New Hybrid Evolutionary Algorithm for Solving Feature Selection Problem

LI Tianyi, CHEN Hongmei

School of Information Science and Technology, Southwest Jiaotong University, Chengdu 611756, China

Abstract: A hybrid whale optimization algorithm (HWOA) was proposed. In HWOA, the shrinking encircling mechanism of the whale optimization algorithm (WOA) was replaced by sine cosine algorithm (SCA) to achieve a better balance between exploration and exploitation. The concept of personal best position of particle swarm optimization algorithm(PSO) was used in grey wolf optimization algorithm (GWO). Besides, a set of weight parameters was introduced to better reflect the hierarchy of wolves. For increasing the diversity of the search process, the improved grey wolf algorithm was added into the exploitation stage. The spiral updating mechanism of WOA and the improved grey wolf optimizer was randomly selected during the searching process. In order to avoid the algorithm falling into local optimality, nonlinear parameter adjustment strategies and chaotic mapping to update important parameters were applied to HWOA. Experimental results showed that the newly proposed method could effectively improve the accuracy of classification and choose the most suitable feature subset.

Key words: feature selection evolutionary algorithm hybridization whale optimization algorithm sine cosine algorithm improved grey wolf optimizer

0 引言

特征选择作为一种有效降低数据维度的方法，已广泛应用于机器学习、模式识别等领域，其主要任务是删除原始数据集中的不相关特征和冗余特征。根据评估条件，特征选择主要可以分为过滤、包装和嵌入式三类方法^[1]。基于过滤模型的方法与分类器相互独立，这类算法会依照相应的评价函数对数据集中的每一个特征进行评估。包装型方法则利用指定的分类器，通过不同的搜索策略来评估特征子集。嵌入式方法是指特征选择算法将被结合到学习算法的训练过程中，旨在学习阶段评估特征子集。

假设数据集中的特征数量为n，则搜索空间中将包含2ⁿ个候选解。故使用穷举法来获得最佳特征子集显然是不切实际的。一些学者将特征选择视为组合优化问题，认为其目标是尽量减少特征数量并提高分类性能。因此在解决优化问题时体现出良好性能的演化算法受到了广泛的关注。如两种可以有效选择特征子集的二进制灰狼优化算法^[2]、在寻优过程中引入二进制粒子群优化算法搜索最佳特征子集^[3]、基于二维粒子群算法的特征选择方法^[4]等。

但是演化算法也具有过早收敛、计算成本较高等缺点。此外，为提高获得全局最优解的概率，还需要平衡探索和开发之间的关系。近年来，学者们认为将不同的算法进行杂交、混合是获得更好性能的重要方法。混合型算法会利用并结合单一优化算法或策略的优势，同时更有效地平衡探索和开发的关系。如将鲸鱼优化算法与差分进化算法相结合以克服原始鲸鱼算法过早收敛的缺点^[5]；将灰狼算法与正余弦算法结合的新型混合方法以结合两种算法的优势^[6]。混合型演化算法在聚类^[7]、工程测试问题^[8]、车间调度^[9]、函数优化^[10]、运动跟踪^[11]、特征选择^[12-13]等众多领域都有广泛应用。

本文提出一种基于包装模型的特征选择算法——HWOA。我们使用正余弦算法的位置更新方法代替鲸鱼算法的收缩环绕机制，并引入改进的灰狼优化算法增加搜索过程中的多样性。为加快收敛速度并增强算法跳出局部最优的能力，我们还引入非线性参数调整策略和混沌映射。在真实数据集上的实验结果表明，该算法在一定程度上提高了分类性能，同时有效降低数据维度。

1 相关工作

在本节中，我们将介绍本研究的相关工作，内容主要包括三个经典的演化算法：鲸鱼优化算法(WOA)、正弦余弦算法(SCA)和灰狼优化算法(GWO)。

1.1 鲸鱼优化算法

鲸鱼优化算法的灵感来自座头鲸的狩猎行为^[14]。在开发阶段，鲸鱼使用泡泡网攻击方式，通过产生圆形或“9”字形路径来包围猎物。这对应了收缩环绕机制和螺旋更新机制两种不同的方式，我们假设选择两种方式的概率相等，均为50%，则搜索代理的下一位置计算为

$ \boldsymbol{X}^{t+1}=\left\{\begin{array}{ll} \boldsymbol{X}^{* t}-\boldsymbol{A} \cdot\left|\boldsymbol{C} \cdot \boldsymbol{X}^{* t}-\boldsymbol{X}^{t}\right|, & p<0.5 \\ \left|\boldsymbol{X}^{* t}-\boldsymbol{X}^{t}\right| \cdot e^{b l} \cdot \cos (2 \pi l)+\boldsymbol{X}^{* t}, & p \geqslant 0.5 \end{array}\right. $

其中：X^*表示当前最优解的位置；X表示当前鲸鱼的位置；t表示当前迭代；b是用于定义螺旋线形状的常数；l是[-1, 1]中的随机数；p是[0, 1]中的随机数；A=2·a·r-a和C=2·r是两个系数向量；r是一个取值在[0, 1]中的随机向量，a负责平衡探索和开发之间的关系，在迭代过程中线性地从2递减至0。

在探索阶段，原始算法中的搜索代理可以利用向量A的变化来搜索猎物。当|A|>1时，当前鲸鱼会随机地选择其他鲸鱼的位置作为目标位置，即在探索阶段会迫使搜索代理远离当前的最优解，其数学模型为X^t+1=X_rand-A·|C·X_rand-X^t|，其中：X_rand是从当前群体中随机选择一个搜索代理的位置向量。

1.2 正余弦算法

正余弦算法是Mirjalili于2016年提出的一种新型优化算法^[15]。该方法会创建不同的初始随机解决方案，并要求他们使用基于正弦或余弦函数的数学模型向外波动或朝向最佳解决方案前进，位置更新公式为

$ \boldsymbol{X}^{t+1}=\left\{\begin{array}{ll} \boldsymbol{X}^{t}+r_{1} \cdot \sin \left(r_{2}\right) \cdot\left|r_{3} \boldsymbol{X}^{* t}-\boldsymbol{X}^{t}\right|, & r_{4}<0.5 \\ \boldsymbol{X}^{t}+r_{1} \cdot \cos \left(r_{2}\right) \cdot\left|r_{3} \boldsymbol{X}^{* t}-\boldsymbol{X}^{t}\right|, & r_{4} \geqslant 0.5 \end{array}\right. $

其中：X^t是第t次迭代时搜索代理的位置；X^*t是目标全局最优解决方案；r₁、r₂、r₃、r₄均为[0, 1]内的随机数。

1.3 灰狼优化算法

灰狼优化算法(GWO)是Mirjalili等通过模拟灰狼种群的社会等级和狩猎行为提出的随机算法^[16]。根据社会地位从高到低排列，灰狼种群可分为四个级别：Alpha、Beta、Delta和Omega。在传统灰狼算法中，具有最佳适应度的解定义为Alpha，排名第2、第3的解分别定义为Beta和Delta，这三者也被称为优势狼。其余的候选解被视为Omega。灰狼包围猎物的行为可以描述为X^t+1=X^pt-A·|C·X^pt-X^t|，其中：t表示迭代次数；X是灰狼的位置；X^p是猎物的位置；A=2·a·r₁-a和C=2·r₂是两个系数向量，r₁与r₂是两个取值均在[0, 1]中的随机向量。

在狩猎阶段，我们假设优势狼对猎物的潜在位置有更多的了解，Omega狼则需要根据优势狼的位置更新各自的位置。灰狼狩猎的数学模型为X^t+1=(X₁+X₂+X₃)/3，其中：X₁=|X_α-A₁·|C₁·X_α-X||。X₂与X₃的计算方法与X₁类似。

2 提出新型特征选择算法

在本文中我们将鲸鱼优化算法与正余弦算法、改进后的灰狼优化算法进行结合，提出一个新型的混合演化算法——HWOA。此外，我们还引入参数的对数衰减调整方案，并使用混沌映射调整位置更新公式中的权重参数。最终我们将该方法应用于解决特征选择问题。

2.1 演化算法的混合

正余弦算法已被证实在开发阶段表现良好。而在原始鲸鱼算法的迭代初期，由于控制参数的值较高，更倾向于探索，因此更需要平衡探索和开发的关系。此外，鲸鱼算法将在探索阶段随机地选择“鲸鱼”，并以此为参考对其他搜索代理进行更新，这使得算法在早期搜索中具有过高的偶然性，最终导致创建一些质量较差的解。因此我们使用正余弦算法的位置更新方案代替了原始鲸鱼算法中的收缩环绕机制。由于螺旋更新机制使用对数螺旋函数，在较短时间内能覆盖较大范围的搜索空间。故在HWOA中将保留螺旋更新机制。

为增加搜索方式的多样性并避免算法陷入局部最优，我们还引入了一种改进的灰狼优化算法。在传统的灰狼算法中，由于种群对全局最优解的过度学习，算法易陷入局部最优。受到粒子群算法的启发，我们将个人最佳位置(pbest)的概念加入到位置更新公式中。为更好地反映灰狼种群的社会等级，我们还引入一组权重参数(w₁, w₂, w₃)。这三个参数分别表示Alpha、Beta和Delta在狩猎行为中的决策权重，且需要满足条件0≤w₃≤w₂≤w₁≤1; w₁+w₂+w₃=1。

改进灰狼算法的位置更新为X^t+1=w·X′+c₁·rand₁·(X_pbest-X^t)+c₂·rand₂·(X₁-X^t)，其中：X′=w₁·X₁+w₂·X₂+w₃·X₃；X_pbest表示当前搜索代理的个人历史最佳位置；w表示惯性权重；t表示当前迭代；c₁和c₂称为学习因子，其值为0~4；rand₁和rand₂是[0, 1]中的随机数。

2.2 有效的参数调整策略

首先，学术界已经证实惯性权重w对于准确地寻找全局最优解起到重要作用，而在原始的粒子算法中w是在一定范围内线性递减或者取某个固定值。为提高整体多样性并增强算法避免陷入局部最优的能力，混沌理论中的逻辑映射被用于非线性地更新参数w，w^t+1=μ×w^t×(1-w^t)。

其次，作为平衡探索与开发关系的控制参数a，在原始算法中线性地从2递减到0。为提高开发效率，我们选择对数衰减函数对a进行非线性更新，描述为

$ a^{t}=a_{0}-\left(a_{0}-a_{f}\right) \times \log \left(1+\frac{(e-1) \times t}{ max\_iter }\right) \text { , } $

其中：a₀表示参数a的初始值；a_f是参数a的最终值；max_iter表示最大迭代次数。

2.3 应用于特征选择问题

由于特征选择问题是二值优化问题，我们会把位置向量中值为1处相应的特征选入特征子集中，否则将其删除。为实现将位置向量中的连续值转换为离散值，我们使用Sigmoid函数转换为

$ x^{t+1}=\left\{\begin{array}{ll} 1, & rand <\frac{1}{1+e^{-x}}, \\ 0, & \text { 否则 }_{\circ} \end{array}\right. $

另一重要问题是选择合适的适应度函数。特征选择作为组合优化问题，主要目标是提高后续的分类性能，并选择尽可能少的特征。在本项研究中，适应度函数描述为fitness=αE_R(D)+β|S|/|F|，其中：E_R(D)是分类器的分类错误率；S表示所选特征子集中的元素数量；F表示原始特征集中的特征数量；α和β是平衡错误率和所选特征比之间关系的参数，且α+β=1，一般参数的经验值取α=0.99。

2.4 算法流程

结合前文所述，本部分给出HWOA算法的实现流程。

1) 初始化相关参数和种群；

2) 根据概率参数p与0.5之间的定量关系选择不同的位置更新方法；

3) 如果p < 0.5，则使用SCA算法对当前搜索代理进行位置更新；

4) 如果p≥0.5，则根据系数A的绝对值和1的定量关系选择WOA的螺旋更新机制或改进的灰狼算法；

5) 如果|A| < 1，我们使用螺旋更新方式，否则使用改进的灰狼算法，注意更新相关参数；

6) 对每个搜索代理执行上述操作之后，通过Sigmoid函数离散位置向量；

7) 计算每个搜索代理的适应度函数值，根据该值对代理进行升序排序；

8) 更新当前排名适应度值前三的搜索代理，并更新每个搜索代理的个人历史最佳位置(pbest)；

9) 确定是否满足停止条件，若满足则输出当前最优解作为结果，否则根据上述过程再次执行算法。

3 实验与结果

在本节中，我们使用本文提出的HWOA算法与其他6个基于包装模型的特征选择算法在11个UCI数据集上进行对比实验，给出实验结果并进行分析。

3.1 数据集介绍

为验证特征选择方法的有效性，我们需要在真实数据集上进行对比实验。表 1展示了11个用于实验的真实数据集，他们来自UCI机器学习存储库，具有不同数量的实例和特征。数据集的详细信息如表 1所示。

表 1 UCI数据集描述 Tab. 1 UCI datasets description

3.2 参数设置

由于我们提出的算法基于包装模型，因此算法需要与指定的分类器配合才能完成特征选择任务。本文中我们选择基于欧氏距离矩阵的KNN分类器(K=5)。为了进行对比实验，我们选择了6种对比算法(SCA、BGWO、BPSO、HGWOSCA、SCWOA和HPSO-WOA)。此外，我们使用10折交叉验证来评估所选特征子集的性能。所有参数均设置为经验值，种群数量定义为10，迭代次数设置为100次，每个算法重复执行20次。粒子群算法中的学习因子设置为1.5，控制参数a的初始值为2.0，惯性权重w的初始值为0.9。

3.3 评价指标

特征选择的评估标准的名称与计算公式如下。

平均分类正确率：$ \overline{A C C}=\frac{1}{n} \sum\limits_{i=1}^{n} A C C_{i}$。平均特征子集大小：$ \overline{ SelectNum }=\frac{1}{n} \sum\limits_{i=1}^{n} SelectiNum _{i}$。平均适应度：$Mean=\frac{1}{n} \sum\limits_{i=1}^{n} Fitness _{i} $。最佳适应度：$ Best =\underset{i}{\min } Fitness _{i}$。最差适应度：$ Worst =\underset{i}{\max } Fitness _{i}$。标准差：$ S t d=\sqrt{\left.\frac{1}{n-1} \sum\limits_{i=1}^{n}\left(A C C_{i}-\overline{A C C}\right)^{2}\right)}$。迭代初期适应度：$A v g F=\frac{1}{10} \sum\limits_{i=1}^{10} Mean\_i $。

其中：n表示执行算法次数；ACC_i是在第i次运行中获得的分类正确率；SelectNum_i是第i次运行时选择的特征数量；Fitness_i表示第i次运行时获得的适应度值。各评价指标只有ACC值越高表示特征选择算法性能越好，其余指标都是值越低说明算法性能越好。

3.4 实验结果与分析

实验结果见表 2~9，表中的黑体数字表示该行中的最佳值。

表 2 每种特征选择方法的平均分类正确率及标准差 Tab. 2 ACC with each feature selection method

数据集	平均分类正确率(标准差)
数据集	HWOA	SCA	BGWO	BPSO	HGWOSCA	SCWOA	HPSO-WOA
arrhythmia	59.23%(0.22)	59.13%(0.36)	59.63%(0.52)	57.82%(0.45)	59.17%(0.22)	59.23%(0.21)	57.96%(0.52)
breast-cancer	96.28%(0.00)	96.24%(0.06)	96.16%(0.21)	95.51%(0.37)	96.27%(0.03)	96.27%(0.04)	95.63%(0.47)
CMC	53.89%(0.03)	53.82%(0.18)	53.13%(0.74)	51.66%(0.97)	53.88%(0.03)	53.86%(0.13)	51.48%(0.69)
dermatology	97.88%(0.36)	97.66%(0.31)	97.68%(0.53)	95.05%(1.59)	97.83%(0.34)	97.77%(0.23)	94.36%(1.26)
import-85	74.32%(1.30)	73.63%(1.19)	72.56%(1.96)	68.51%(2.33)	73.98%(1.11)	73.66%(0.95)	68.02%(2.20)
ionosphere	87.92%(0.46)	87.49%(0.48)	87.68%(1.01)	86.1%(1.30)	87.75%(0.53)	87.82%(0.62)	85.38%(1.16)
lymphography	86.25%(0.44)	85.81%(0.57)	85.03%(1.18)	82.57%(1.14)	86.18%(0.40)	86.05%(0.44)	81.79%(1.52)
sonar	64.3%(0.77)	63.92%(0.71)	63.99%(1.53)	59.18%(1.55)	64.09%(0.94)	63.68%(0.75)	59.21%(1.40)
vote	96.1%(0.34)	96%(0.37)	95.43%(0.39)	94.61%(0.58)	96.1%(0.28)	95.89%(0.27)	94.71%(0.69)
wine	77.08%(0.49)	76.91%(0.81)	75.25%(1.45)	69.8%(2.64)	76.77%(0.65)	76.69%(0.92)	69.94%(2.50)
zoo	95.15%(0.30)	94.85%(0.40)	94.16%(0.82)	90.45%(1.64)	95.1%(0.22)	95.1%(0.22)	91.09%(1.25)
平均值	80.76%(0.43)	80.5%(0.49)	80.06%(0.94)	77.39%(1.32)	80.65%(0.43)	80.55%(0.44)	77.23%(1.24)
注：()内的数据表示该算法在20次运行中的标准差。

表 2 每种特征选择方法的平均分类正确率及标准差 Tab. 2 ACC with each feature selection method

表 3 每种特征选择方法的平均特征子集大小 Tab. 3 SelectNum with each feature selection method

表 4 每种特征选择方法的平均适应度 Tab. 4 Mean with each feature selection method

数据集	平均适应度
数据集	HWOA	SCA	BGWO	BPSO	HGWOSCA	SCWOA	HPSO-WOA
arrhythmia	0.410 0	0.410 8	0.407 4	0.422 6	0.410 6	0.410 2	0.421 3
breast-cancer	0.042 4	0.042 7	0.044 8	0.050 1	0.042 5	0.042 5	0.049 3
CMC	0.461 2	0.462 0	0.469 8	0.484 3	0.461 3	0.461 4	0.486 1
dermatology	0.027 7	0.029 7	0.030 7	0.054 8	0.028 5	0.029 1	0.061 2
import-85	0.259 9	0.266 5	0.278 0	0.316 5	0.263 7	0.266 6	0.321 4
ionosphere	0.124 4	0.128 9	0.127 3	0.142 5	0.126 8	0.125 8	0.149 2
lymphography	0.143 3	0.147 3	0.155 4	0.177 9	0.143 8	0.144 9	0.186 1
sonar	0.359 5	0.363 3	0.363 6	0.409 0	0.361 8	0.365 7	0.409 0
vote	0.043 9	0.044 5	0.050 8	0.058 2	0.043 5	0.045 4	0.056 7
wine	0.234 3	0.236 0	0.252 9	0.305 4	0.237 6	0.238 2	0.303 9
zoo	0.055 0	0.058 2	0.065 6	0.100 5	0.055 6	0.055 3	0.093 8
平均值	0.196 5	0.199 1	0.204 2	0.229 3	0.197 8	0.198 6	0.230 7

表 4 每种特征选择方法的平均适应度 Tab. 4 Mean with each feature selection method

表 5 每种特征选择方法的最佳适应度 Tab. 5 Best with each feature selection method

数据集	最佳适应度
数据集	HWOA	SCA	BGWO	BPSO	HGWOSCA	SCWOA	HPSO-WOA
arrhythmia	0.406 6	0.398 3	0.397 9	0.412 5	0.404 9	0.405 0	0.410 4
breast-cancer	0.042 4	0.042 4	0.042 4	0.043 8	0.042 4	0.042 4	0.043 8
CMC	0.460 8	0.460 8	0.460 8	0.468 0	0.460 8	0.460 8	0.469 7
dermatology	0.022 1	0.022 7	0.021 8	0.017 0	0.020 9	0.023 9	0.044 3
import-85	0.222 5	0.237 0	0.248 3	0.280 5	0.233 4	0.241 8	0.284 1
ionosphere	0.115 0	0.119 8	0.107 1	0.100 3	0.117 2	0.111 9	0.128 5
lymphography	0.132 7	0.138 8	0.141 0	0.160 0	0.139 3	0.139 3	0.158 3
sonar	0.343 8	0.348 4	0.330 2	0.376 3	0.339 2	0.349 2	0.381 5
vote	0.037 5	0.039 8	0.043 1	0.046 4	0.038 9	0.039 8	0.046 4
wine	0.229 4	0.229 4	0.229 4	0.235 7	0.229 4	0.229 4	0.253 2
zoo	0.043 6	0.053 4	0.055 9	0.073 6	0.044 2	0.044 2	0.067 6
平均值	0.186 9	0.190 1	0.188 9	0.201 3	0.188 2	0.189 8	0.208 0

表 5 每种特征选择方法的最佳适应度 Tab. 5 Best with each feature selection method

表 6 每种特征选择方法的最差适应度 Tab. 6 Worst with each feature selection method

数据集	最差适应度
数据集	HWOA	SCA	BGWO	BPSO	HGWOSCA	SCWOA	HPSO-WOA
arrhythmia	0.414 0	0.415 7	0.417 7	0.432 1	0.413 8	0.413 8	0.429 8
breast-cancer	0.042 4	0.043 8	0.052 0	0.055 1	0.043 8	0.043 8	0.061 6
CMC	0.462 6	0.468 0	0.491 5	0.501 3	0.462 6	0.468 0	0.498 4
dermatology	0.033 5	0.033 8	0.043 1	0.089 7	0.033 8	0.032 6	0.088 9
import-85	0.281 3	0.285 7	0.311 4	0.380 7	0.281 7	0.277 2	0.376 7
ionosphere	0.134 2	0.136 8	0.145 0	0.157 0	0.134 4	0.137 9	0.179 0
lymphography	0.152 7	0.158 3	0.175 0	0.199 5	0.153 3	0.153 8	0.214 6
sonar	0.373 0	0.376 9	0.393 2	0.437 6	0.373 2	0.381 7	0.433 7
vote	0.048 9	0.050 9	0.057 6	0.071 8	0.048 9	0.050 5	0.072 0
wine	0.250 9	0.258 7	0.270 6	0.343 9	0.253 2	0.258 0	0.345 4
zoo	0.057 8	0.065 7	0.077 4	0.122 6	0.057 8	0.057 8	0.114 1
平均值	0.204 7	0.208 6	0.221 3	0.253 8	0.205 1	0.206 8	0.255 8

表 6 每种特征选择方法的最差适应度 Tab. 6 Worst with each feature selection method

表 7 HWOA算法获得的最佳特征子集 Tab. 7 The best feature subset obtained by HWOA

表 8 每种特征选择方法迭代初期的适应度函数值 Tab. 8 AvgF with each feature selection method

数据集	迭代初期适应度
数据集	HWOA	SCA	BGWO	BPSO	HGWOSCA	SCWOA	HPSO-WOA
arrhythmia	0.416 8	0.417 0	0.414 1	0.423 0	0.416 8	0.416 7	0.422 9
breast-cancer	0.044 5	0.044 8	0.044 9	0.049 3	0.044 4	0.044 6	0.049 3
CMC	0.470 8	0.471 7	0.473 0	0.484 4	0.470 7	0.470 4	0.485 7
dermatology	0.039 4	0.042 2	0.035 0	0.065 6	0.039 6	0.040 4	0.064 9
import-85	0.295 3	0.296 1	0.284 3	0.321 5	0.295 1	0.295 5	0.322 9
ionosphere	0.140 1	0.139 6	0.136 3	0.148 7	0.140 3	0.139 0	0.146 2
lymphography	0.164 1	0.165 2	0.162 2	0.189 7	0.162 8	0.162 7	0.190 5
sonar	0.385 2	0.384 8	0.372 4	0.404 4	0.383 9	0.383 7	0.405 6
vote	0.051 9	0.051 7	0.051 0	0.058 7	0.052 0	0.052 0	0.058 5
wine	0.263 6	0.270 3	0.260 9	0.305 9	0.264 6	0.267 4	0.305 6
zoo	0.069 2	0.071 9	0.072 9	0.098 2	0.070 1	0.072 3	0.099 1
平均值	0.203 5	0.205 0	0.200 8	0.223 8	0.203 4	0.203 9	0.223 3

表 8 每种特征选择方法迭代初期的适应度函数值 Tab. 8 AvgF with each feature selection method

表 9 不同数据集上算法性能排序结果 Tab. 9 Sorting results of the performance of algorithms on different datasets

3.4.1 平均分类正确率(ACC)和标准差(Std)的对比

表 2展示了每种特征选择方法在不同数据集上获得的平均分类正确率和标准差。通过表 2可以看到HWOA在除arrhythmia外的10个数据集上均实现了最高的分类正确率。同时HWOA在这11个实验数据集上实现了最高的平均正确率。表明所提出的HWOA算法在一定程度上提高了分类性能。SCWOA和HGWOSCA分别排名第2和第3，这表明混合型算法可以有效地结合不同算法的优点并提高分类性能。此外，HWOA在breast-cancer等4个数据集上获得了最佳标准差，且在7个算法中，HWOA标准差的平均值最小，这证明HWOA具有良好的稳定性。

3.4.2 平均特征子集(SelectNum)大小的对比

特征选择的另一目的是尽量减少特征数量。通过分析表 3中的实验结果，我们发现虽然BPSO和HPSO-WOA在提高分类性能方面并不出色，但是在降低数据维度方面表现良好。HWOA算法在该项排名第4。然而具有与HWOA相近分类性能的SCWOA和HGWOSCA选择出的特征子集的平均尺寸均高于HWOA。

3.4.3 适应度函数值(Mean、Best、Worst)的对比

基于包装模型的特征选择算法的另一个重要评估标准是适应度函数值。表 4展示的是平均适应度值，实验数据表明HWOA算法可在9个数据集上获得最优值，且平均效果依旧最佳。此外，我们发现BPSO和HPSO-WOA的性能较差。尽管他们选择的特征子集维度很低，但在分类正确率和适应度函数值的比较中，他们的表现均不理想，说明这两种算法并没有选择出最合适的特征子集。

表 5展示了算法的最佳适应度函数值。如我们所见，HWOA在本项比较中没有明显的压倒性优势，但是它的平均最佳适应度函数值仍排名第1。值得注意的是，对于某些数据集(例如breast-cancer、CMC等)，不同的算法可能会实现相同的最佳适应度函数值。

表 6展示了最差适应度函数值。根据表 6中的实验数据，HWOA在最差的适应度函数值方面表现良好，且在8个数据集中获得了最佳结果。这也在一定程度上表明HWOA具有更好的稳定性。尽管有时无法达到最佳适应度值，但其下限较高，说明HWOA不会产生太多质量较差的解。

3.4.4 特征选择结果的可解释性

本文所提出的算法是基于包装模型的群智能优化算法，它本质上属于元启发式算法。这类算法的一个重要特点就是算法中会存在随机因素，即使是固定的输入(即同一个数据集、相同的迭代次数、相同的参数初始值)，选择的特征子集依旧会存在差异。因此表 7展示的内容包括HWOA算法在20次执行中获得的最高分类正确率、最佳适应度函数值，以及此时对应的特征子集。表中{}内的数字即为所选特征在原始数据集中序号。为节约空间，若序号从x到y的特征均被选择，则简写为x~y。即{1~3}表示一个特征子集，其中包括序号为1、2、3的特征。

3.4.5 迭代初期解的质量对特征选择结果的影响

在算法初始，我们根据每个位置设置的随机数随机生成当前个体的位置向量。因此算法在迭代初期具有随机性，获得的解也具有随机性。表 8展示对应不同数据集，每个算法迭代早期的适应度函数值(AvgF)。通过表 8我们可以发现，BGWO算法在迭代初期的平均适应度函数值较低，获得的解质量更高。HWOA、SCA、HGWOSCA和SCWOA 4个算法在迭代早期的平均适应度值比较接近。但是从表 4展示的结果我们发现，当迭代次数设置为100时，BGWO算法只在arrhythmia数据集上获得最佳平均适应度函数值，而HWOA算法则在9个数据集上获得最佳值。这说明迭代初期解的质量对特征选择的最终结果无显著影响，早期获得质量更优的解并不意味着最终可以达到更好的特征选择效果。

3.4.6 显著性检验

为了更好地说明本文特征选择方法性能的普遍优越性，下面给出详细的Friedman检验和Nemenyi后续检验结果(本文选用显著性水平α=0.1)。首先，根据表 2的平均分类正确率对实验涉及的7个算法在11个数据集上测得的分类精度高低进行排序并赋值，具体结果如表 9所示。

若算法性能相同则其平均序值相同，且第i个算法的平均序值r_i服从自由度为(k-1)和(k-1)(N-1)的F分布。由表 9数据可知各个算法的平均序值不同。由Friedman检验可知，各类算法的性能显著不同，需要进行后续的Nemenyi检验。利用Nemenyi检验计算平均序值差别的临界值域CD，其计算公式为

$ C D=q a \sqrt{\frac{k(k+1)}{6 N}} $

(1)

其中：k表示算法的个数；N表示数据集的个数；qa是一个由k值和显著性α共同决定的参数。在本文中，k=7，N=11，查表可知，当k=7时，qa=2.693(α=0.1)。代入公式(1)中，得到临界值CD=2.481。

比较HWOA算法与其他对比算法间的平均序值差，结果可得，除与SCWOA和HGWOSCA算法的序值差小于CD外，其余均大于临界值CD，故“两个算法性能相同”的假设被拒绝。说明本文特征选择方法性能显著优于其余算法，但与SCWOA算法和HGWOSCA算法相比优势并不明显。

4 总结

本文提出了一种基于包装模型的特征选择算法——HWOA。我们将正弦余弦算法、鲸鱼优化算法和改进后的灰狼优化算法进行混合，以利用不同算法的优势，提高算法的搜索能力，进而获得质量更优的解。同时引入逻辑映射和对数调整策略更新参数，以避免算法陷入局部最优。实验结果表明，该算法在一定程度上提高了分类性能。就适应度函数值的比较而言，HWOA也获得较好的性能。此外，对标准差结果的分析也证实了该算法具有较好的稳定性。将来我们考虑使用不同的混沌映射来调整相关参数，并尝试使用量子编码。

参考文献

[1]	GAO W F, HU L, ZHANG P. Class-specific mutual information variation for feature selection[J]. Pattern recognition, 2018, 79: 328-339. DOI:10.1016/j.patcog.2018.02.020 (0)
[2]	EMARY E, ZAWBAA H M, HASSANIEN A E. Binary grey wolf optimization approaches for feature selection[J]. Neurocomputing, 2016, 172: 371-381. DOI:10.1016/j.neucom.2015.06.083 (0)
[3]	ZHENG K F, WANG X J. Feature selection method with joint maximal information entropy between features and class[J]. Pattern recognition, 2018, 77: 20-29. DOI:10.1016/j.patcog.2017.12.008 (0)
[4]	HAFIZ F, SWAIN A, PATEL N, et al. A two-dimensional (2-D) learning framework for particle swarm based feature selection[J]. Pattern recognition, 2018, 76: 416-433. DOI:10.1016/j.patcog.2017.11.027 (0)
[5]	MOSTAFA BOZORGI S, YAZDANI S. IWOA: an improved whale optimization algorithm for optimization problems[J]. Journal of computational design and engineering, 2019, 6(3): 243-259. DOI:10.1016/j.jcde.2019.02.002 (0)
[6]	SINGH N, SINGH S B. A novel hybrid GWO-SCA approach for optimization problems[J]. Engineering science and technology, an international journal, 2017, 20(6): 1586-1601. DOI:10.1016/j.jestch.2017.11.001 (0)
[7]	KAVEH A, MOGHADDAM M. A hybrid WOA-CBO algorithm for construction site layout planning problem[J]. Scientia iranica A, 2018, 25(3): 1094-1104. (0)
[8]	LUO J, CHEN H L, HEIDARIBCXU Y, et al. Multi-strategy boosted mutative whale-inspired optimization approaches[J]. Applied mathematical modelling, 2019, 73: 109-123. DOI:10.1016/j.apm.2019.03.046 (0)
[9]	ABDEL-BASSET M, MANOGARAN G, EL-SHAHAT D, et al. A hybrid whale optimization algorithm based on local search strategy for the permutation flow shop scheduling problem[J]. Future generation computer systems, 2018, 85: 129-145. DOI:10.1016/j.future.2018.03.020 (0)
[10]	LONG W, JIAO J J, LIANG X M, et al. Inspired grey wolf optimizer for solving large-scale function optimization problems[J]. Applied mathematical modelling, 2018, 60: 112-126. DOI:10.1016/j.apm.2018.03.005 (0)
[11]	高增, 张焕龙, 陈宜滨, 等. 基于动态权重蚱蜢优化算法的突变运动跟踪[J]. 郑州大学学报(理学版), 2020, 52(2): 36-44. GAO Z, ZHANG H L, CHEN Y B, et al. Abrupt motion tracking based on dynamic weight grasshopper optimization algorithm[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(2): 36-44. (0)
[12]	MAFARJA M M, MIRJALILI S. Hybrid whale optimization algorithm with simulated annealing for feature selection[J]. Neurocomputing, 2017, 260: 302-312. DOI:10.1016/j.neucom.2017.04.053 (0)
[13]	CHEN K, ZHOU F Y, YUAN X F. Hybrid particle swarm optimization with spiral-shaped mechanism for feature selection[J]. Expert systems with applications, 2019, 128: 140-156. DOI:10.1016/j.eswa.2019.03.039 (0)
[14]	MIRJALILI S, LEWIS A. The whale optimization algorithm[J]. Advances in engineering software, 2016, 95: 51-67. DOI:10.1016/j.advengsoft.2016.01.008 (0)
[15]	MIRJALILI S. SCA: a sine cosine algorithm for solving optimization problems[J]. Knowledge-based systems, 2016, 96: 120-133. DOI:10.1016/j.knosys.2015.12.022 (0)
[16]	MIRJALILI S, MIRJALILI S M, LEWIS A. Grey wolf optimizer[J]. Advances in engineering software, 2014, 69: 46-61. DOI:10.1016/j.advengsoft.2013.12.007 (0)