与迁移学习(Transfer Learning) [1-4]类似,多任务学习(Multitask Learning) [5]利用来自各种源任务(Source Tasks) 的高质量解来优化目标任务(Target Task)。迁移学习的知识转移(Knowledge Transfer) 是单向进行的,知识从源任务迁移到了目标任务,一次只优化一个目标任务,源任务不可重新优化。因此,迁移学习不能并发地解决多个优化任务。而多任务学习通过促进全方位的知识转移实现更大的协同搜索,从而高效地同时解决多个问题。即所有优化任务在原则上可以相互帮助,使得所有任务互相优化。但是实际中的多任务优化存在任务间的相似性,每个优化任务可能并不总是与所有其他可用任务密切相关,这种情况可能会导致同时解决任何不相关的优化问题的性能降低[6]。这种任务间的差异在多个不同的问题上共享错误的知识,使得问题可能往错误的方向求解,就会产生一种称为负迁移(negative transfer) 的现象[5,7]。
无论在迁移学习还是多任务学习中,如果任务与任务间不按合理的顺序进行知识迁移,那么这些任务可能会产生负迁移的影响。Ball等[8]在多因子进化算法(Multi-Factor Evolutionary Algorithm, MFEA)的基础上改进得到MFEA-II,提出了一种新的数据驱动的多任务处理方法,使有用的知识在多任务环境下的不同优化问题之间转移,很大程度上消除多任务知识迁移的负迁移。
本文主要研究进化算法(Evolutionary Algorithms, EAs)的改进和应用,改进后的算法MFEA-MMD在MFEA-II的在线迁移参数估算(online transfer parameter estimation)的随机分配概率(Random Mating Probability, RMP,下文用Q表示)矩阵优化方法上改进,使用最大均值差异(Maximum Mean Discrepancy, MMD)作为
从多任务贝叶斯优化[9]开始,越来越多的学者在优化领域里研究知识迁移。但贝叶斯优化通常局限于相当低或中等维数的问题,EAs则在适应不同的数据方面有更高的灵活性,可以很好地扩展到高维度,解决了许多实际问题以及理论问题。
MFEA具有不同技能因子的个体执行交叉操作,为跨任务的基因迁移提供了机会[10]。MFEA-II算法在MFEA算法的基础上提出了一种新的进化计算框架,使用在线迁移参数估算和利用多任务环境下不同任务之间的相似性(和差异),以增强优化过程,尽量减少任务之间有害的相互作用(负迁移),但知识迁移效率较低。
目前,常用的进化多目标优化算法有Deb[11]提出的基于拥挤度距离度量的NSGA-II算法,Zhang[12]提出的基于分解思想的MOEA/D算法,Seada等[13]在NSGA-II的基础上提出的一种针对2~16个目标函数同时优化高维问题的NSGA-III算法。实验结果表明,种群多样性和基因迁移在MFEA算法中共同发挥重要作用,但基因迁移使得具有较强互补性的多任务种群收敛加速更为明显[14]。Ball等[8]也在MFEA算法的基础上提出了在线迁移参数估算的MFEA-II算法。
MFEA-II算法从父代种群的概率混合系数入手,把混合系数中的随机分配概率标量q替代为在线迁移参数估算混合系数矩阵
MFEA受到多因子遗传模型[15-16]的启发,利用进化个体的单一种群,能够同时求解跨域的多个优化问题,从而独立地提高解决每个任务的性能。它的工作原理是假设在解决某个任务时存在一些共同的有用知识,在解决此任务的过程中获得的有用知识可能有助于解决另一个与其有关联的任务[17]。多因子进化算法的效率和适应性对于算法的应用价值显得尤为关键[18]。
在不同任务之间共享信息和学习所有任务,使任务间的有效信息进行全方位的知识转移,实现更大的协同搜索,从而促进多个问题的同时高效解决以提高整体泛化性能。
多因子进化算法属于多任务多目标算法,一个进化多目标优化(Evolutionary Multi-Objective Optimization, EMOO) 问题只包含一个任务,该任务可以被求解生成一组Pareto最优解。而进化多任务优化(Evolutionary Multi-Tasking Optimization, EMTO) 问题包含多个任务(单目标或多目标),可以同时求解这些任务的最优解,即EMTO将解决多个EMOO问题。EMTO的目标是利用基于种群中并行的知识来搜索开发多个任务之间潜在的遗传互补性。
给定一个带有
$ {x}_{j}^{0}={{\rm{argmin}}}_{x\in {X}_{j}}{f}_{j}\left(x\right) ,j=1,\cdots ,k $ | (1) |
其中,如果对特定任务的解空间施加了某些约束,则会将一些约束函数与该任务的目标函数一起考虑。给出了一个由
2015年,新加坡南洋理工大学的Gupta教授在多因子遗传模型的启发下,首次提出多因子化算法MFEA,该算法是多任务多目标优化算法,应用于处理跨域的多因子优化问题[17]。2019年,Gupta教授的团队在MFEA算法的基础上将其改进为MFEA-II算法,利用在线迁移参数估算以及不同任务在多任务设置中的相似性(和差异)增强了优化进程。
2.1 MFEA算法MFEA 算法基于统一的搜索空间确定候选解的表达方式,对种群中个体的进化产生显著影响,遗传物质能够有效地在各个任务间迁移,从而加速算法的收敛速度,算法自身的效率和适应性仍有待提高[18]。MFEA可以从父母和后代两个方面控制跨任务的知识转移。MFEA的算法结构如下。
算法1 经典多因子进化算法
1. 随机产生N个个体,构成初始种群
2. for 初始种群
3. 随机分配一个技能因子
4. 只针对优化任务
5. end for
6. 对于所有个体
7.
8. while(终止条件不满足) do
9. 针对当前种群
10. for种群
11. 根据垂直文化传播(参见算法3),分配一个技能因子
12. 只针对优化任务
13. end for
14.
15. 更新种群
16. 从种群
17.
18. end while
算法2 选型交配算法
输入:从当前种群中随机选取两个父代个体
输出:子代个体
1. if (
2. 基于父代个体
3. else
4. 基于父代个体
5. 基于父代个体
6. end if
算法3 垂直文化传播
输入:子代个体
输出:已评估的子代个体
1. if 个体
2. 产生一个随机数
3. if (
4. 个体
5. else
6. 个体
7. end if
8. else
9. 个体
10. end if
11. 设置未评估任务所对应的目标函数值为无穷大
2.2 MFEA-II算法在MFEA算法中,不恰当的q可能会导致任务间的消极交互,或者潜在的知识交换损失,减低算法的收敛速度,MFEA收敛速度依赖于q的值。因此为了更好地探究算法里潜在的知识迁移,Ball等[8]在MFEA算法的基础上,提出了一种在线迁移估算
初始化知识交换以概率混合分布作为多任务设置的一种方式,从不同任务中提取搜索分布。多任务中转移(知识迁移)有用信息的前提是概率混合分布的所有分布域定义于一个公共/共享空间中,称为统一搜索空间(unified search space)。
3.1 统一搜索空间搜索空间统一在多任务处理中的重要性,在于它包含了不同优化任务的所有独立搜索空间,相当于一个共享的平台。现有
对于所有
$ {q}^{k}(x,t) ={\alpha }_{k} {p}^{k}(x,t) +{\sum }_{j\ne k}{\alpha }_{j} {p}^{j}(x,t) $ | (2) |
式中:
进化多任务能同时解决多类优化问题,包括离散型、连续型以及多目标优化问题[19-21]。除此之外,进化式多任务也得以应用在机器学习领域,例如从决策树集合[22]训练到基于模块化知识表示的前馈神经网络[23]。现有的进化多任务算法在很大程度上依赖于任务之间存在可利用协同作用的预先假设。在缺乏任务间关系相关知识的情况下难以避免出现负迁移的情况[24-25]。
4.1 多任务优化的知识转移多任务优化中的知识转移发生在从式(2)的候选解的后续采样过程中(即任务间种群概率
多目标优化的知识迁移一般有3个主要的研究问题。
(1) 迁移什么。不同任务之间哪部分知识可以进行迁移,有些知识是一个任务所特有的,但是还有一些知识是多个任务间普遍存在的。利用这种普遍存在的知识就可以提升模型在不同任务上的表现。
(2) 何时迁移。需要考虑在什么情况下可以进行知识迁移,并且在什么情况下知识不应该被迁移。在某些情况下,如果任务与任务间确实没什么关联,强行进行迁移的话效果差,可能还会损害在不同任务上直接学习的性能,造成负迁移。
(3) 怎样迁移。下文将具体展开“怎样迁移”的问题。目前大多数工作一般都假设多个任务间是存在某种关联的,针对式(2),集中精力解决迁移什么与怎样迁移的问题。
式(2)的主要目标是提出一个促进知识转移的策略(
$ {\boldsymbol{Q}}=\left[\begin{array}{ccc}{{{q}}}_{\mathrm{1,1}}& {{{q}}}_{\mathrm{1,2}}& \cdots \\ {{{q}}}_{\mathrm{2,1}}& {{{q}}}_{\mathrm{2,2}}& \cdots \\ \cdots & \cdots & \cdots \end{array}\right] $ | (3) |
式中:
$ \begin{split} {g}_{{\rm{c}}}^{k}\left(x,t\right) =&\left[1-\frac{0.5}{K} {\sum }_{k\ne j}{{{q}}}_{k,j}\right] {g}^{k}\left(x,t\right) +\\ &\frac{0.5}{K} {\sum }_{j\ne k}{{{q}}}_{k,j}\times {g}^{j}(x,t) \end{split} $ | (4) |
为了缓解知识迁移不充分的问题,使用最大均值差异法对
度量的核心是衡量2个数据集之间的差异,计算2个向量(点、矩阵)的距离和相似度,本文MFEA-MMD算法用到的度量准则是最大均值差异。MMD一般用于双样本检测,直观地判断2个数据的分布。假设有一个满足父代种群
$ f(X,{X}^{{\rm{c}}}) =\left\|\frac{1}{n}{\sum }_{i=1}^{n}\phi \left({x}_{i}\right) -\frac{1}{m}{\sum }_{J=1}^{m}\phi \left({x}_{J}^{{\rm{c}}}\right) \right\| $ | (5) |
式(5)对每一个种群的数据样本进行投影并求和,利用和的大小表述2个种群的分布差异。
MMD在风格迁移中运用广泛,其神经网络主要是通过最小化两个网络的分布差异而优化,同时有很多关于把MMD作为迁移学习神经网络最后的损失函数的研究。
对式(4)改进,概率混合模型
$ f({p}^{k},{g}_{{\rm{c}}}^{k}) =\left\|\frac{1}{k}{\sum }_{k=1}^{k}{p}^{k}(x,t) -\frac{1}{k}{\sum }_{k=1}^{k}{g}_{{\rm{c}}}^{k}(x,t) \right\| $ | (6) |
即求
$ f({p}^{k},{g}_{{\rm{c}}}^{k}) =\frac{1}{k}{\sum }_{k=1}^{K}\left\|{{p}^{k}\left(x,t\right) -}g_{{\rm{c}}}^{k}(x,t) \right\| $ | (7) |
求解种群迭代最优,即求
$ {\rm{min}}f({p}^{k},{g}_{{\rm{c}}}^{k}) ={{\rm{min}}}_{{\boldsymbol{Q}}}\frac{1}{k}{\sum }_{k=1}^{K}\left\|{{p}^{k}\left(x,t\right) -}g_{{\rm{c}}}^{k}(x,t) \right\| $ | (8) |
即求
$ {{\rm{min}}}_{{\boldsymbol{Q}}}{\sum }_{k=1}^{K}{{{\left[\right(p}^{k}(x,t) ) }^{2}-{2p}^{k}\left(x,t\right) }g_{{\rm{c}}}^{k}\left(x,t\right) +{{(g}_{{\rm{c}}}^{k}(x,t) ) }^{2}] $ | (9) |
因为
$ {{\rm{min}}}_{{\boldsymbol{Q}}}{\sum }_{k=1}^{K}{-{2p}^{k}\left(x,t\right) }g_{{\rm{c}}}^{k}\left(x,t\right) $ | (10) |
因为概率密度函数
$ {\sum }_{k=1}^{K}{{p}^{k}\left(x,t\right) }g_{{\rm{c}}}^{k}(x,t) =E[{g}_{{\rm{c}}}^{k}\left(x,t\right) ] $ | (11) |
因为对于所有任务
$ (N/2) \mathbb{E}[{g}_{{\rm{c}}}^{k}\left({x}_{ik},t\right) ]=(N/2) \frac{{\displaystyle\sum }_{i=1}^{N/2}{g}_{{\rm{c}}}^{k}\left({x}_{ik},t\right) }{N/2} $ | (12) |
式中:
$ {{\rm{min}}}_{{\boldsymbol{Q}}}{\sum }_{k=1}^{K}{\sum }_{i=1}^{N/2}{-g}_{{\rm{c}}}^{k}({x}_{ik},t) $ | (13) |
MFEA、MFEA-II、MFEA-MMD算法对比框架如图1所示。
![]() |
图 1 MFEA,MFEA-II和MFEA-MMD算法对比框架 Figure 1 The framework comparison of MFEA, MFEA-II and MFEA-MMD |
算法4 MMD方法的在线
1. 建立
2.优化混合模型:
本文的实验环境是Mathlab,PC处理器为i7,内存32 GB,Win10操作系统,训练的目标任务函数为trap-5函数。
实验设置:所有算法的每个任务种群大小N都保持相同,以确保一致性。如果单任务算法对这K个任务的每个任务都使用N个种群大小,那么处理相同K个任务的多任务算法的种群大小为
(1) 统一搜索空间,范围
(2) 概率
(3) MFEA-MMD、MFEA-II和MFEA的概率模型:种群规模(N)100,最大函数评估15000。
下文以一组最有代表性的二元优化问题作为目标函数(trap-5函数)。当将连续统一空间
$ {{\rm{trap}}}{\text{-}}{5}\left(u\right) =\left\{ {\begin{array}{*{20}{l}} 5,&{\rm{if}}\;u=5\\ \left(4-u\right),& {\rm{if}}\;u < 5\end{array}} \right. $ | (14) |
式中:
由图2可以看出MFEA-MMD在40代左右开始收敛,MFEA-Ⅱ在50代左右开始收敛,MFEA-MMD比MFEA-Ⅱ有更快的收敛速度,而且收敛趋势更为平稳。
![]() |
图 2 MFEA-MMD和MFEA-Ⅱ连续几代种群在的不同任务之间两两学习的q平均值 Figure 2 The pairwise q’s learned between distinct tasks over successive generations of MFEA-MMD and MFEA-Ⅱ |
表1展示了MFEA-MMD比MFEA-Ⅱ更能充分学习和利用任务间的协同效应。MFEA-MMD整体q均值比MFEA-II高出6.65%,种群中有用信息的知识迁移率高出35%,算法运算速率高出29%。
![]() |
表 1 MFEA-MMD和MFEAⅡ的知识转移程度 Table 1 The knowledge transfer of MFEA-MMD and MFEA-Ⅱ |
为了说明MFEA-MMD的优越性,
超过30次独立测试的实验结果总结包含在图3中,给出了高度欺骗性trap-5问题的收敛趋势。总的来说,可以观察到多任务优化(MFEA-I,MFEA-II和MFEA-MMD) 的遗传物质转移范围是有益的,但是MFEA-I相比MFEA-II的收敛性差很多,而MFEA-MMD的收敛性和稳定性都比MFEA-II更强。另外,MFEA-I并不总是收敛到全局最优。这主要是由于MFEA-I基因的无种群间交换,使其容易受到负迁移的影响。然而,MFEA-II和MFEA-MMD能利用从任务数据集学习到的关系来优化命令知识转移(在优化阶段的不同阶段),MFEA-MMD的任务间知识迁移比MFEA-II更为充分,知识迁移程度大约高出35%。在初始阶段,当3个任务之间的转移不太可能有帮助时,知识迁移程度都比较低。逐步地,一旦有高质量的遗传物质可以从
![]() |
图 3 所有算法在trap-5问题上求解的收敛趋势(平均超过30次独立运行) Figure 3 Convergence trends of trap-5 (averaged over 30 independent runs) achieved by all the algorithms on the trap-5 problem |
上述任务提供了一个理想的案例来展示MFEA-MMD知识转移方案相比于MFEA-Ⅱ的优势:(1) MFEA-MMD的知识迁移效率比MFEA-Ⅱ平均高出29%,知识迁移程度大约高出35%;(2) 前者求解函数结果的收敛比MFEA-Ⅱ和MFEA-Ⅰ更快更高效;(3) MFEA-MMD比MFEA-Ⅱ运算速率更快,占用的计算机资源更少。
6 结论本文提出了一个使用MMD方法的多任务传输参数估算方案,能够实时充分学习和利用任务间的协同效应。首先从理论上分析了现有进化多任务框架MFEA-I对负迁移的敏感性。然后测试在线传输参数估算MFEA-II,动态控制任务间的知识交换程度。为了以纯数据驱动的方式在线捕获任务间的相似性,引入了以MMD方法为多因子进化的算法种群混合概率模型度量准则,基于概率模型的最优混合模型来调整知识迁移范围,使有用信息充分迁移。MFEA-MMD的算法贡献可以从2个方面进行总结。(1) 传输参数采用对称矩阵的形式,以便在2个以上任务之间有效地进行多任务处理。(2) 在多任务搜索过程中,实时调整传递参数矩阵和充分迁移知识。MFEA-MMD的实用性在一系列综合优化和实际优化问题上得到了实验验证。实验结果表明,该算法善于在多任务优化过程中利用任务之间的相似性和差异性,MMD的方法是自动的,排除人为干预调控参数,MFEA-MMD与MFEA-II相比更有优越性。
展望未来,云计算、物联网等新兴平台将提供大规模数据存储和无缝通信设施,从而使嵌入式优化求解器能够利用相关任务提供的知识(数据)。期望多任务处理算法能在更有效率和更有效的同时,在解决多个任务中发挥关键作用。
[1] |
THRUN S. Is learning the n-th thing any easier than learning the first?[J]. Advances in Neural Information Processing Systems, 1996(8) : 640-646.
|
[2] |
PAN S J, QIANG Y. A Survey on transfer learning[J].
IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
DOI: 10.1109/TKDE.2009.191. |
[3] |
IQBAL M, BROWNE W N, ZHANG M. Reusing building blocks of extracted knowledge to solve complex, large-scale boolean problems[J].
IEEE Transactions on Evolutionary Computation, 2014, 18(4): 465-480.
DOI: 10.1109/TEVC.2013.2281537. |
[4] |
IQBAL M, BING X, AL-SAH AF H, et al. Cross domain reuse of extracted knowledge in genetic programming for image classification[J].
IEEE Transactions on Evolutionary Computation, 2017, 21(4): 569-587.
DOI: 10.1109/TEVC.2017.2657556. |
[5] |
RICH, CARUANA. Multitask learning[J].
Machine Learning, 1997, 28(1): 41-75.
DOI: 10.1023/A:1007379606734. |
[6] |
DA B, ONG Y S, FENG L, et al. Evolutionary multitasking for single-objective continuous optimization: benchmark problems, performance metric, and baseline results[J].
Computer Science, 2017, 1(3): 1-11.
|
[7] |
BON E V, CHAI K, WILL C. Multi-task gaussian process prediction[C]// Advances in Neural Information Processing Systems 20. New York: MIT Press, 2008: 153-160.
|
[8] |
BALL K K, ONG Y S, GUPTA A, et al. Multifactorial evolutionary algorithm with online transfer parameter estimation: MFEA-II[J].
IEEE Transactions on Evolutionary Computation, 2020, 24(1): 69-81.
DOI: 10.1109/TEVC.2019.2906927. |
[9] |
PEL M . Bayesian optimization algorithm[M]. Berlin: Springer Berlin Heidelberg, 2005.
|
[10] |
GUPTA A, ONG Y S, FENG L, et al. Multiobjective multifactorial optimization in evolutionary multitasking[J].
IEEE Transactions on Cybernetics, 2017, 47(7): 1652-1665.
DOI: 10.1109/TCYB.2016.2554622. |
[11] |
DEB K, PRATAP A, AGARWAL S, et al. A fast and elitist multiobjective genetic algorithm: NSGA-II[J].
IEEE Transactions on Evolutionary Computation, 2002, 6(2): 182-197.
DOI: 10.1109/4235.996017. |
[12] |
ZHANG Q F, HUI L. MOEA/D: a multiobjective evolutionary algorithm based on decomposition[J].
IEEE Transactions on Evolutionary Computation, 2008, 11(6): 712-731.
|
[13] |
SEADA H, DEB K. U-NSGA-III: a unified evolutionary optimization procedure for single, multiple, and many objectives: proof-of-principle results[C]// Evolutionary Multi-Criterion Optimization. Heidelberg: Springer International Publishing, 2015: 34-49.
|
[14] |
ZHANG H P, YAO O Y, WANG Z. Note on “generalized rough sets based on reflexive and transitive relations”[J].
Information Sciences, 2009, 179(4): 471-473.
DOI: 10.1016/j.ins.2008.10.009. |
[15] |
RICE J, ClONINGER C R, REICH T. Multifactorial inheritance with cultural transmission and assortative mating. I. description and basic properties of the unitary models[J].
The American Journal of Human Genetics, 1978, 30(6): 618-643.
|
[16] |
RICE J, ClONINGER C R, REICH T. Multifactorial inheritance with cultural transmission and assortative mating. II. a general model of combined poly-genic and cultural inheritance[J].
American Journal of Human Genetics, 1979, 31(2): 176.
|
[17] |
GUPTA A, J M, ONG Y S. Evolutionary multitasking in bi-level optimization[J].
Complex & Intelligent Systems, 2015, 1(1/4): 83-95.
|
[18] |
徐庆征, 杨恒, 王娜, 等. 多因子进化算法研究进展[J].
计算机工程与应用, 2018, 54(11): 15-20.
XU Q Z, YANG H, WNAG N, et al. Recent advances in multifactorial evolutionary algorithm[J]. Computer Engineering and Applications, 2018, 54(11): 15-20. |
[19] |
CHEN Q, MA X, SUN Y, et al. Adaptive memetic algorithm based evolutionary multi-tasking single-objective optimization[C]// Asia-pacific Conference on Simulated Evolution and Learning. Heidelberg: Springer International Publishing, 2017: 462-472.
|
[20] |
LIAW R T, TING C K. Evolutionary many-tasking based on biocoenosis through symbiosis: a framework and benchmark problems[C]// Evolutionary Computation. Vancouver, BC: IEEE, 2017: 2266-2273.
|
[21] |
WEN Y W, TING C K, Parting ways and reallocating resources in evolutionary multitasking[C]// Evolutionary Computation. Toronto: IEEE, 2017: 2404-2411.
|
[22] |
WEN Y W, TING C K, et al. Learning ensemble of decision trees through multifactorial genetic programming[C]// IEEE Transactions on Evolutionary Computation. Toronto: IEEE, 2016: 5293-5299.
|
[23] |
CHANDRA R, GUPTA A, ONG Y S, et al, Evolutionary multitask learning for modular knowledge representation in neural networks[C]// Neural Process. Toronto: IEEE, 2017, 47(3) : 993-1009.
|
[24] |
GUPTA A, ONG Y S, DA B, et al. Measuring complementarity between function landscapes in evolutionary multitasking[C]// Evolutionary Computation. Toronto: IEEE, 2016: 879-892.
|
[25] |
BALI K K, GUPTA A, LIANG F, et al. Linearized domain adaptation in evolutionary multitasking[C]// 2017 IEEE Congress on Evolutionary Computation (CEC) . Toronto: IEEE, 2017: 1295-1302.
|
[26] |
ABHISHEK, GUPTA A, ONG Y S, et al. Insights on transfer optimization: because experience is the best teacher[J].
IEEE Transactions on Emerging Topics in Computational Intelligence, 2017, 2(1): 51-64.
|
[27] |
LARRAAGA P, LOZANO J A. Estimation of distribution algorithms a new tool for evolutionary computation[J].
Springer-Verlag, 2002(2134): 454-469.
|
[28] |
SASTRY K, GOLDBERG D E, PELIKAN M . Limits of scalability of multiobjective estimation of distribution algorithms[J]. 2005 IEEE Congress on Evolutionary Computation, 2005(3) : 2217-2224.
|