自动化学报  2018, Vol. 44 Issue (2): 311-317   PDF    
基于极限学习机参数迁移的域适应算法
许夙晖1, 慕晓冬1, 柴栋2, 罗畅3     
1. 火箭军工程大学信息工程系 西安 710025;
2. 北京航空工程技术研究中心 北京 100076;
3. 空军工程大学防空反导学院 西安 710051
摘要: 针对含少量标签样本的迁移学习问题,本文提出了基于极限学习机(Extreme learning machine,ELM)参数迁移的域适应算法,其核心思想是将目标域的ELM分类器参数投影到源域参数空间中,使其最大限度地与源域的分类器参数分布相同.此外,考虑到迁移中有可能带来负迁移的情况,在目标函数中引入正则项约束.本文算法与以往的域适应算法相比优势在于,其分类器参数以及转移矩阵是同时优化得到的,并且其目标函数求解过程相对简单.实验结果表明,与主流的域适应算法相比,本文算法在精度与效率上都表现出明显的优势.
关键词: 域适应     迁移学习     极限学习机     正则化     中层语义特征     深度特征    
Domain Adaption Algorithm with ELM Parameter Transfer
XU Su-Hui1, MU Xiao-Dong1, CHAI Dong2, LUO Chang3     
1. Department of Information Engineering, Rocket Force University of Engineering, Xi'an 710025;
2. Beijing Aeronautical Technology Research Institute, Beijing 100076;
3. Air and Missile Defense College, Air Force Engineering University, Xi'an 710051
Manuscript received : December 11, 2016, accepted: March 30, 2017.
Author brief: MU Xiao-Dong  Professor in the Department of Information Engineering, Rocket Force University of Engineering. His research interest covers intelligent information processing and computer simulation;
CHAI Dong  Ph. D, Engineer at Beijing Aeronautical Technology Research Institute. His main research interest covers intelligent information processing;
LUO Chang  Ph. D. candidate at the Air and Missile Defense College, Air Force Engineering University. His main research interest is intelligent information processing
Corresponding author. XU Su-Hui  Ph. D. candidate in the Department of Information Engineering, Rocket Force University of Engineering. Her main research interest is remote sensing image processing. Corresponding author of this paper
Recommended by Associate Editor WANG Zhan-Shan
Abstract: In allusion to transfer learning problem with a small number of labeled samples, a domain adaption method through transferring extreme learning machine (ELM) parameters is proposed in this paper. The core idea is projecting the target ELM parameters on to the source and making the parameters maximally aligned with the source. In addition, considering the transformation may cause negative transfer, a regular term is added to the objective function. Unlike the existing domain adaption method, the parameters of classifier and the transformation matrix can be calculated simultaneously, and the objective function can be easily solved. Experiments demonstrate the proposed method has potential advantages in terms of accuracy and efficiency compared to the state-of-the-art approaches.
Key words: Domain adaption     transfer learning     extreme learning machine     regularization     middle-level feature     deep feature    

当前在机器学习领域面临有标签的新样本数据匮乏的问题, 而原有的大量带标签数据可能随着时间的推移变得不适用, 人为的对训练样本进行标注扩充非常费时费力[1].针对上述问题, 迁移学习方法得以提出, 它放宽了传统机器学习中训练样本和测试样本独立同分布的假设, 通过迁移已有的知识来解决目标领域中有少量标签甚至无标签样本数据的学习问题[2-3].迁移学习已经成功运用在文本情感分类[4-5]、图像分类[6-11]、软件故障预测[12].

作为迁移学习的一种特例, 基于特征的域适应方法把各个领域的数据映射到同一空间下, 使源域与目标域有相同的分布, 并利用源域中的训练数据来解决目标域的学习问题[1].此类方法的关键是合理度量不同域之间的距离, 以减少源域和目标域的分布差异.为此, Kulis等[6, 13]提出通过学习正则化的非线性变换将源域中的点映射到目标域中的点.文献[13]学习到的结果是对称的转换矩阵, 无法解决两个特征类型与维度不同时的情况, 文献[6]提出了非对称正则化跨领域变换算法(Asymmetric regulized cross-domain tranformation, ARC-t)得到的变换矩阵是非对称的, 解决了文献[13]中方法的局限.然而, ARC-t是基于成对约束的, 算法的求解时间随着训练样本的增加而显著增加.文献[7]提出了一种异构特征增强方法(Heterogeneous features augmented, HFA), 该方法将两个域的数据通过两个转换矩阵投影到了一个共同的子空间, 其实验精度要高于ARC-t, 然而该算法容易产生早收敛.文献[14]提出了核化的数据表示方法(Geodesic flow kernel, GFK), 该方法等同于沿着源域和目标域子空间之间的测地流在无限子空间中计算内积, 由于该核定义是对称的, 因此GFK算法不能解决源域与目标域不同维度时的情况.文献[15]提出了最大间隔域转换方法(Max-margin domain transforms, MMDT), 其核心思想是, 目标域到源域数据的映射矩阵与分类器的参数同时固化到一个优化目标函数中, 能够直接优化得到最终的SVM (Support vector machine)分类器参数, 因此更能高效地应对大样本训练的情况.然而, MMDT的目标函数是典型的非凸问题, 采用了交替下降法分步优化, 使原问题转化成两个凸优化QP (Quadratic programming)子问题进行求解, 过程较为复杂, 且耗时较长.

2004年黄广斌教授提出了极限学习机(Extreme learning machine, ELM)[16], 其特点是输入层与隐藏层的权值矩阵和偏置只通过一次性随机产生, 而不需要迭代优化; 唯一要求解的参数是隐藏层与输出层的权值矩阵, 通过广义逆矩阵的方式得到, 因此求解过程更加快速. ELM在许多领域得到应用, 并表现出优异性能[17-18].本文针对含少量标签样本的迁移学习问题, 提出了一种基于极限学习机参数迁移的域适应算法(Domain adaption with parameter transfer, DAPT), 其核心思想是迁移目标域的ELM分类器参数到源域中, 使两个域的分类器享有共同的参数空间. DAPT方法利用ELM求解过程快的优势, 并通过参数迁移构建了目标域到源域的适应关系, 与现有文献算法相比, 其适用范围更广(如表 1所示), 在分类精度和效率上也有明显的优势.

表 1 本文方法与主流算法适用范围对比 Table 1 The application comparison between DAPT and previous methods
1 提出的方法 1.1 极限学习机ELM

极限学习机的网络为前向单隐层结构, 如图 1所示: $m$, $L$, $n$分别为输入层、隐藏层、输出层结点个数.设训练样本为${{\pmb x}_1, {\pmb x}_2, \cdots, {\pmb x}_p}$, 其分别对应的标签为${{\pmb t}_1, {\pmb t}_2, \cdots, {\pmb t}_p}$. $g({ {\pmb\omega}_i^{\rm T} x_j+}b_i)$是隐藏层激活函数, $\omega$$m\times L$大小的权值矩阵, $\pmb{\omega}_ {i}$表示隐含层第$i$个节点与输入层之间的权值向量, $b_i$是隐含层第$i$个节点的偏置参数. $\beta$是隐藏层与输出层的权值矩阵, 大小为$L\times n$, ${\pmb{\beta} _{i}}$表示隐含层第$i$个节点与输出层之间的权值向量. $\pmb{\omega}_ {i}$$b_i$为随机生成, 这使得ELM可以直接产生全局最优解, 其求解最终转化成了范数最小二乘解, 求解速度极快.

图 1 极限学习机网络结构 Figure 1 ELM network

ELM网络输出为

$ \begin{equation} \label{eqn_example} \pmb{y} = \sum\limits_{i=1}^{L}\pmb{ \beta}_i g(\pmb{\omega}_i^{\rm T} \pmb{x}+b_i) \end{equation} $ (1)

${H} =\left[\!\begin{array}{ccc}g(\pmb{\omega}_1^{\rm T}\pmb{x}_1+b_1)&\ldots&g(\pmb{\omega}_L^{\rm T}\pmb{x}_1+b_L)\\ \vdots& \ddots& \vdots\\g(\pmb{\omega}_1^{\rm T}\pmb{x}_m+b_1)&\ldots& g(\pmb{\omega}_L^{\rm T}\pmb{x}_m+b_L) \\ \end{array} \!\right] $, 则ELM的优化目标如下:

$ \begin{equation} \mathop {\min }\limits_\beta \big\|H\beta-T\big\|^2+\frac{C}{2}\big\|\beta\big\|^2 \end{equation} $ (2)

$C$为惩罚系数.该式子可通过如下求解:

$ \begin{equation} \beta = (H^{\rm T}H+CI)^\dagger H^{\rm T}T \end{equation} $ (3)

其中, $A^\dagger$表示矩阵$A$的Moore-Penrose广义逆.从以上式子可以看出, 不同于MMDT的需要迭代求解两个QP子问题, ELM通过式(3)直接计算得到参数, 复杂程度上明显优于MMDT.

1.2 基于ELM参数迁移的域适应算法DAPT

不同于MMDT的将目标域数据通过一个转移矩阵迁移换到源域中, 本文的DAPT算法的迁移对象是目标域的ELM分类器参数.设在目标域上ELM分类器参数为$\beta$, DAPT算法的目标是学习一个转换矩阵$W$, 将目标域上的分类器参数转换到源域中. DAPT的优化目标函数如下:

$ \begin{equation} \mathop {\min }\limits_{\beta, W} J = {\mathbb{L}_s}(\beta ) + {\mathbb{L}_t}(\beta, W) + \mathbb{R}(\beta ) + \mathbb{Q}(\beta , W)\ \end{equation} $ (4)

式中

$ {\mathbb{L}_s}(\beta ) = \frac{1}{2}{\left\| {{H_s}\beta - {T_s}} \right\|^2} $ (5)
$ {\mathbb{L}_t}(\beta, W) = \frac{1}{2}{\left\| {{H_t}W\beta - {T_t}} \right\|^2} $ (6)
$ \mathbb{R}(\beta ) = \frac{{{C_1}}}{2}{\left\| \beta \right\|^2} $ (7)
$ \mathbb{Q}(\beta, W) = \frac{{{C_2}}}{2}{\left\| {W\beta - \beta } \right\|^2} $ (8)

${\mathbb{L}_s}(\beta )$代表源域训练误差, $\mathbb{L}_t(\beta, W)$为目标域训练误差, 此项中, $W$乘以$\beta$代表是目标域分类器参数向源域的迁移过程, $\mathbb{R}(\beta)$为正则项, 其作用是防止过拟合.为了能够防止算法造成负迁移的后果, 在目标函数中加入最后一项$\mathbb{Q}(\beta, W)$, 目标是减小迁移的误差. $C_1$, $C_2$为惩罚系数.上式有两个求解目标: $W$$\beta$.可以通过分步优化进行求解:

步骤1. 初始化转移矩阵$W=I$;

步骤2. 固定$W$, 按下式求解$\beta$:

$ \begin{equation} \beta = \arg \min {J_1}\ \end{equation} $ (9)

其中, $J_1=J$, 对$\beta$偏导数得:

$ \begin{equation} \begin{split} \frac{{\partial {J_1}}}{{\partial \beta }} =& H_s^{\rm T}({H_s}\beta - {T_s}) + {W^{\rm T}}H_t^{\rm T}({H_t}W\beta - {T_t})+\\ & {C_1}\beta+ {C_2}{(W - I)^{\rm T}}(W - I)\beta \ \end{split} \end{equation} $ (10)

令上式为0可求得:

$ \begin{align} \beta =\, &(H_s^{\rm T}{H_s} + {W^{\rm T}}H_t^{\rm T}{H_t}W + {C_1}I + {C_2}\times \nonumber\\ &{(W - I)^{\rm T}}(W - I))^\dagger (H_s^{\rm T}{T_s} + {W^{\rm T}}H_t^{\rm T}{T_t})\ \end{align} $ (11)

步骤3. 固定$\beta$, 通过下式求解$W$:

$ \begin{align} W &= \arg \min {J_2}= \nonumber\\ &\arg \min \left(\frac{1}{2}{\left\| {{H_t}W\beta - {T_t}} \right\|^2} + \frac{{{C_2}}}{2}{\left\| {W\beta - \beta } \right\|^2}\right) \end{align} $ (12)

$W$偏导数得:

$ \begin{equation} \frac{{\partial {J_2}}}{{\partial W}} = H_t^{\rm T}(H_t^{\rm T}W\beta - {T_t}){\beta ^{\rm T}} + {C_2}(W\beta - \beta ){\beta ^{\rm T}}\ \end{equation} $ (13)

令偏导数等于0, 求得:

$ \begin{equation} W = {(H_t^{\rm T}{H_t} + {C_2}I)^\dagger }(H_t^{\rm T}{H_t}{\beta ^{\rm T}} + {C_2}\beta {\beta ^{\rm T}}){(\beta {\beta ^{\rm T}})^\dagger }\ \end{equation} $ (14)

步骤4. 重复步骤2更新$\beta$.测试数据的分类结果由下式得到:

$ \begin{equation} \pmb{y} = {H_t}(\pmb{x})W\beta \ \end{equation} $ (15)
2 实验与结果分析

为了突出本文算法在精度及时间上的优势, 将现有文献主流的域适应算法与本文提出的算法进行比较.作为对比的基准方法有: ARC-t[6]、GFK[14]、HFA[7]、MMDT[15].在第2.1节和第2.2节中分别采用了两组数据集, 进行小样本和大样本下的迁移效果对比实验, 第2.3节是对本文算法的参数取值进行实验分析.

2.1 office-caltech256数据集上的实验

该数据集总共包含4个域的图像, 分别是: amazon、webcam、dslr以及caltech, 每个域都包含了共同的10类图像, 如backpacks、keyboards等.实验安排每两个域都交替作为源域和目标域, 因此共有12种组合方式.在webcam、dslr、caltech域作为源域时, 每个类别都随机选取8幅图像作为源域的训练样本, 在amazon域作为源域时, 每个类别都随机选取20幅图作为源域的训练样本; 所有域的每类都随机选取3幅图作为目标域的训练数据; 测试数据为目标域所有图像.所有的训练数据均为随机生成, 共包含12组实验, 每组实验都随机生成20次, 因此每组实验都得到了20个测试精度, 取其平均作为衡量算法精度的依据.作为基准对比的算法ARC-t、GFK、HFA、MMDT都采用了同样的数据设置.此外, 为了验证迁移学习的必要性, 本实验还加入了不进行迁移学习直接进行分类的实验, 分类器分别采用SVM与ELM, 并设计4项实验, SVMs表示用源域的样本作为训练样本, SVMt表示用目标域的数据作为训练样本.对应的, ELMs、ELMt与SVMs、SVMt的样本设置相同.为了验证DAPT方法可以避免负迁移, 本实验在DAPT基础上去掉项, 记为DAPT_$n, $将其作为一种对比算法.

主流的域适应方法使用图像的特征通常是中级特征BOVW (Bag of visual words), 由于近几年流行的深度网络可以提取出图像更高级的特征, 因此, 本文将两类数据集分别使用中级特征BOVW和深度特征表示, 用来对比以上算法在两类特征下的表现情况.中级特征BOVW的提取方法是:给定一幅图像, 首先提取图像的SURF (Speed-up robust features)特征, 然后进行聚类得到视觉单词, 通过统计单词表在图像中出现的次数, 形成800维的中层特征表示.高级特征通过Caffe学习框架的特征提取模块得到, 利用了训练好的Alexnet网络对输入的图像进行特征提取, 在网络的fc7层形成4 096维的特征表示, 作为该图像的高级特征表示.

参数设置方面, ARC-t、GFK、HFA、MMDT算法中与参考文献中设置相同, 本文方法DAPT有3个参数, 分别是$L$$C_1$$C_2$, 其设置如下:所有实验中$C_1=10\, 000$, $C_2=2\, 000$, 在中层特征实验中$L=200$, 高层特征$L=1\, 500$.各个算法所得到的精度分别如表 2表 3所示:

表 2 使用BOVW特征时算法的分类精度(%) Table 2 Accuracy for all the methods when using BOVW feature (%)
表 3 使用深度特征时算法的分类精度(%) Table 3 Accuracy for all the methods when using deep feature (%)

表 2可以看出: 1)对比SVMs、SVMt与HFA、MMDT, 这4组方法使用的分类器都是SVM, HFA和MMDT的分类精度都好于SVMs和SVMt; 同样的, 在都使用ELM分类器情况下, DAPT的分类精度也要好于ELMs和ELMt, 得到的结论是:迁移学习的效果要远远好于没有进行迁移的情况. 2)对比SVMs、SVMt、ELMs、ELMt, 可以看出ELM分类效果要好于SVM, 对比ELMt与MMDT, 在只使用目标域的训练样本进行分类时, ELM的效果甚至要比进行了迁移学习的MMDT效果好, 因此得到的结论是: ELM分类性能强大, 在本数据集上表现好于SVM. 3) 9种方法进行横向对比, 本文的DAPT方法在11组实验中都明显优于其余方法, 值得注意的是, 由于webcam与dslr最为相似, 使用了最近邻分类器的GFK方法在w$\rightarrow$d组中得到了最高的精度, 在d$\rightarrow$w组中表现也非常接近本文算法. 4)在c$\rightarrow$a, c$\rightarrow$w等域间差别较大的迁移结果上, 其余4种域适应方法的精度反而不如没有进行迁移学习时的精度, 即负迁移, 本文方法避免了这种情况, 这是因为DAPT方法中加入了迁移参数正则化项; 5)在时间性能上, 对比5种域适应的方法, ARC-t与HFA耗时最长, 这是由于ARC-t解决了对约束, HFA单次只解决二分类问题, 需要运行多次. DAPT平均用时最短, 得益于ELM算法求解过程相对简单. 6)未加入正则项的DAPT_$n$分类精度明显小于DAPT, 并且部分情况如c$\rightarrow$a, c$\rightarrow$w等, 分类精度小于ELMt, 出现了负迁移的情况.因此DAPT中加入的正则项可以有效地避免负迁移.综上, 本文方法在中层语义特征下的综合表现最佳.

表 3可以看出: 1)由于使用了深度网络提取的4 096维特征, 表 3整体分类精度相对于表 2使用的800维中级语义特征有了明显的提升. 2)中层语义实验中的三个结论在高层语义实验中同样适用, 即:进行迁移学习的效果要远远好于没有进行迁移的效果; ELM分类器在本数据集上表现好于SVM; 本文方法避免了负迁移. 3) 9种方法进行横向对比, 本文的DAPT方法在所有实验中的精度最优. 4)在}时间性能上, 本文方法依然是5种域适应方法中耗时最少的.综合表 2表 3的实验结果可以得出, 本文提出的DAPT域适应算法在精度与效率上都表现出明显的优势.

2.2 bing-caltech数据集上的实验

为了验证DAPT方法在处理大规模数据上的优势, 本文使用了bing-caltech数据集.该数据集含有两个域的数据, 两个域之间包括相同的256类. bing中每一类含有300张图片, caltech每类含有80张图片, 每幅图片的特征维度为2 625.该数据集的具体细节参见文献[19].实验中设置bing为源域, Caltech为目标域.为了对比数据集大小对分类结果的影响, 设计了两组实验: 1)固定目标域每一类的样本数量$n_t=10$, 源域每类样本数量分别取$n_s=5, 10, 20, 50, 100, 150$. 2)固定目标域每一类的样本数量$n_s=50$, 源域每类样本数量分别取$n_t=5, 10, 15, 20, 25, 30$.对于以上两组实验, 其测试样本为数据集中目标域的测试集, 该测试集每类含有25个测试样本.实验中采用了256类中的前20类数据进行实验.由于ARC-t与HFA不适宜处理大样本数据, 本实验并未加入这两种算法.实验结果绘于图 2.

图 2 bing-caltech数据集分类精度 Figure 2 The accuracy on bing-caltech dataset

图 2可以看出: 1) DAPT算法在$n_s$或者$n_t$较小时, 相对于其他算法, 就已经可以达到较高的精度: 2)未加入正则项的DAPT_$n$分类精度明显小于DAPT, 并且部分情况下, 分类精度小于SVMt与ELMt, 出现了负迁移的情况: 3)本文DAPT方法在样本数量变化时, 得到的分类精度均好于其他方法, 在处理大样本数据上仍能保持优势.

2.3 参数选择

DAPT算法需要设置的参数有隐藏层结点数$L$以及惩罚系数$C_1$, $C_2$, 本节以office-caltech256数据集为实验对象, 研究三个参数的选择.首先, 固定$C_1$, $C_2$, 研究$L$的取值与分类结果的关系.设$C_1=2\, 000$, $C_2=2\, 000$, $L$分别取17个值, 其取值范围20到1 000, 使用了中级语义特征进行实验, 对12组实验结果进行了统计, 将其中的5组结果的随$L$变化曲线绘于图 3.从图 3中可以看出, 每组分类的精度大概从$L$为200左右时就能达到最佳的精度, 随着继续增加, 其精度变化不大, 而随着网络结点数的增多, 训练时间相应增长.因此, 在中层语义特征下, 将隐藏层结点数取200左右为宜.

图 3 分类精度随$L$变化曲线 Figure 3 The accuracy curves varying with $L$

固定$L=200$, 研究$C_1$, $C_2$分别取1, 10, 100, 1 000, 2 000, 10 000时与分类结果的关系.训练的特征同样也是BOVW的800维特征.进行36组实验, 将结果绘于图 4, 纵坐标为分类精度.从图中可以观察到, 当$C_1$取值小于2 000时, 分类精度随着$C_1$的增大而增大; $C_2$取值变化对分类精度的影响程度稍小; 当$C_1$取值大于2 000, $C_2$取值在1 000与2 000之间时, 分类结果可以稳定在较高的精度.

图 4 $C_1$$C_2$不同取值下的精度曲线 Figure 4 The accuracy curves varying with $C_1$ and $C_2$
3 结论

针对含少量标签样本的迁移学习问题, 本文提出了一种新的基于极限学习机参数迁移的域适应算法.将目标域的ELM分类器参数投影到源域参数空间中, 使两个域的分类器参数尽可能分布相同, 同时为了避免负迁移, 在目标函数中加入正则项约束, 提高了算法的分类精度和鲁棒性.算法在目标优化过程中同时得到了分类器参数和转移矩阵, 并且其求解过程相对简单, 实验分析也验证算法在时间性能上的优势.虽然本文方法展现出较好的学习能力, 但要求目标域中包含少量标签样本, 对于目标域无标签样本的学习问题仍需要进一步探讨研究.

参考文献
1
Zhuang Fu-Zhen, Luo Ping, He Qing, Shi Zhong-Zhi. Survey on transfer learning research. Journal of Software, 2015, 26(1): 26-39.
( 庄福振, 罗平, 何清, 史忠植. 迁移学习研究进展. 软件学报, 2015, 26(1): 26-39.)
2
Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359. DOI:10.1109/TKDE.2009.191
3
Weiss K, Khoshgoftaar T M, Wang D D. A survey of transfer learning. Journal of Big Data, 2016, 3(1): Article No.9. DOI:10.1186/s40537-016-0043-6
4
Wang C, Mahadevan S. Heterogeneous domain adaptation using manifold alignment. In: Proceedings of the 22nd International Joint Conference on Artificial Intelligence. Barcelona, Spain: AAAI, 2011, 2: 1541-1546
5
Domeniconi G, Moro G, Pagliarani A, Pasolini R. Markov chain based method for in-domain and cross-domain sentiment classification. In: Proceedings of the 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (IC3K). Lisbon, Portugal: IEEE, 2015. 127-137
6
Kulis B, Saenko K, Darrell T. What you saw is not what you get: domain adaptation using asymmetric kernel transforms. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2011. 1785-1792
7
Duan L X, Xu D, Tsang I W. Learning with Augmented Features for Heterogeneous Domain Adaptation. In: Proceedings of the 29th International Conference on Machine Learning. Edinburgh, UK: ARXIV, 2012. 711-718
8
Zhu Y, Chen Y, Lu Z, Pan S J, Xue G R, Yu Y, Yang Q. Heterogeneous Transfer Learning for Image Classification. In: Proceedings of the 25th AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI, 2014. 1717-1724
9
Oquab M, Bottou L, Laptev I, Sivic J. Learning and transferring mid-level image representations using convolutional neural networks. In: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH, USA: IEEE, 2014. 1717-1724
10
van Opbroek A, Ikram M A, Vernooij M W, de Bruijne M. Transfer learning improves supervised image segmentation across imaging protocols. IEEE Transactions on Medical Imaging, 2015, 34(5): 1018-1030. DOI:10.1109/TMI.2014.2366792
11
Shu Xing, Yu Hui-Min, Zheng Wei-Wei, Xie Yi, Hu Hao-Ji, Tang Hui-Ming. Classifier-designing algorithm on a small dataset based on margin Fisher criterion and transfer learning. Acta Automatica Sinica, 2016, 42(9): 1313-1321.
( 舒醒, 于慧敏, 郑伟伟, 谢奕, 胡浩基, 唐慧明. 基于边际Fisher准则和迁移学习的小样本集分类器设计算法. 自动化学报, 2016, 42(9): 1313-1321.)
12
Nam J, Kim S. Heterogeneous defect prediction. In: Proceedings of the 10th joint Meeting on Foundations of Software Engineering. Bergamo, Italy: ACM, 2015. 508-519
13
Saenko K, Kulis B, Fritz M, Darrell T. Adapting visual category models to new domains. In: Proceedings of the 11th European Conference on Computer Vision: Part Ⅳ. Heraklion, Greece: Springer, 2010. 213-226
14
Gong B Q, Shi Y, Sha F, Grauman K. Geodesic flow kernel for unsupervised domain adaptation. In: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA: IEEE, 2012. 2066-2073
15
Hoffman J, Rodner E, Donahue J, Darrell T, Saenko K. Efficient learning of domain-invariant image representations. In: Proceedings of the 2013 International Conference on Learning Representations. Arizona, USA, 2013.
16
Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: a new learning scheme of feedforward neural networks. In: Proceedings of the 2004 IEEE International Joint Conference on Neural Networks. Budapest, Hungary: IEEE, 2004, 2: 985-990
17
Horata P, Chiewchanwattana S, Sunat K. Robust extreme learning machine. Neurocomputing, 2013, 102: 31-44. DOI:10.1016/j.neucom.2011.12.045
18
Huang G, Song S J, Gupta J N D, Wu C. Semi-supervised and unsupervised extreme learning machines. IEEE Transactions on Cybernetics, 2014, 44(12): 2405-2417. DOI:10.1109/TCYB.2014.2307349
19
Bergamo A, Torresani L. Exploiting weakly-labeled Web images to improve object classification: a domain adaptation approach. In: Proceedings of the 23rd International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates Inc., 2010. 181-189