﻿ 一种新颖的领域自适应概率密度估计器
 文章快速检索 高级检索

1. 江南大学 数字媒体学院, 江苏 无锡 214122;
2. 无锡职业技术学院 物联网技术学院, 江苏 无锡 214121

A probability density estimator for domain adaptation
XU Min1,2 , YU Lin2
1. School of Digital Media, Jiangnan University, Wuxi 214122, China;
2. School of Internet of Things Technology, Wuxi Institute of Technology, Wuxi 214121, China
Abstract: This paper proposes that the density information received from the traditional probability density estimation method can be represented by no bias v-SVR regression function. It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper, no bias v-SVR is equivalent to the center-constrained minimum enclosing ball (CC-MEB) and the probability density regression function is constrained by CC-MEB's center point is described. On the basis of the above theory, an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain. The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain.
Key words: probability density estimation     no bias v-SVR     center-constrained minimum enclosing ball(CC-MEB)     core set     domain adaptation

1)无偏置 v-SVR 等价于CC-MEB的特性，可使用核心集[6, 7, 8]代替源域所有数据建立概率密度函数，提高密度估计效率；

2)密度回归函数 f(x) 可由CC-MEB中心点表示，提出中心点知识传递模型[9]，实现相似领域间领域自适应概率密度器的建立，若使用源域核心集代替所有源域样本表示源域中心点，还可起到源域隐私保护的目的。

1.2.1 无偏置 v-SVR

1.2.2 无偏置 v-SVR与CC-MEB

1) CC-MEB

Tsang等在文献[6]中介绍了最小包含球(minimum enclosing ball,MEB)与中心约束最小包含球(center-constrained MEB,CC-MEB)。设 S={x1,x2,…,xm} ，其中 xiRd ，MEB的思想是找到包含集合S所有样本 φ(xi) 的最小球，则属于该类的数据就在球中，不属于该类的数据就在球外。为每个 φ(xi) 增加一维 δi ，形成集合 S′={(φ(xi)′,δi)}i=1m ，将最后一维中心点坐标设为0，即中心点坐标(c,0)，则找到包含集合S’中所有样本的最小超球最优化问题为

Δ=[δ12    δ22    …    δm2]′≥0 ，式(8)对应对偶问题的矩阵形式为

2) 无偏置 v-SVR 与CC-MEB间关系

，以满足，式(12)与式(6)等价。

，式(12)式相应的矩阵形式：

1)无偏置 v-SVR 等价于CC-MEB，故可用核心集技术进行快速求解；

2)概率密度回归曲线可由其二次规划形式等价的CC-MEB的中心点表示。

2 实验与分析 2.1 实验设置

2.2 实验结果与分析

 数据源 均值 方差 源域 0 1 目标域(均值漂移) 0.1 1 目标域(方差漂移) 0 1.1 目标域(均值、方差漂移) 0.1 1.1

 图 1 均值为0、方差为1.1自适应学习效果图 Fig. 1 Charts of adaptive learning on the data set with mean 0,variance 1.1
 图 2 原始图像和退化仿真图像 Fig. 2 Performance comparison charts of different algorithms

 均值 方差 源域密度估计性能 目标域密度估计性能 源域+目标域密度估计性能 源域知识+目标域密度估计性能 μ值 0 1.1 2.282 1×10-4 0.003 2 2.279 2×10-4 3.125 5×10-6 4 0 1.2 7.959 2×10-4 0.002 9 7.959 1×10-4 1.609 5×10-6 2 0.1 1 1.757 4×10-4 0.003 2 1.757 3×10-4 3.763 5×10-7 8 0.2 1 7.003 2×10-4 0.003 5 7.003 0×10-4 6.646 1×10-5 20 0.1 1.1 3.795 2×10-4 0.002 5 3.257 6×10-4 1.451 1×10-6 5 0.2 1.2 0.001 3 0.004 1 0.001 3 5.445 3×10-6 7

1) 从表 2可知，本文提出的DA-PDF算法充分利用目标域已知信息的同时，学习了源域知识，较之于两域各自训练、合并训练所得概率密度估计函数具有更好的性能。

2) 对图 2(a)可知，若直接使用源域概率密度估计函数对现有测试集进行密度估计，效果不理想，其原因在于目标域与源域密度分布已发生变化(源域方差为1，目标域方差为1.1)，这种变化导致若继续使用源域模型进行预测，其预测性能不好，无法达到与目标域实际情况逼近的效果。

3) 对图 2(b)可知，由于在当前场景下采集的数据数量较少，虽然这些数据真实可靠，但对于构建整个概率密度估计函数信息量过少，故密度估计性能低下。

4) 对图 2(c)可知，使用源域数据与目标域数据结合后生成的概率密度估计函数，其性能提升不明显。原因在于源域数据较之目标域收集到的数据，数据量大，因此在模型训练时，其所占的比重也大，故得到的概率密度估计函数最终更偏向于源域数据所得模型。合并训练另一缺点是需要源域所有数据参与模型的建立，但一些高度机密的历史数据通常难以获取，若源域有数据隐私保护的需要，此种方法则无法实现。

5) 从图 2(d)可知：本文方法较之图 2(a)有更好的逼近效果；与图 2(b)相比，可利用源域知识较好地弥补目标域信息不足的缺陷；与图 2(c)相比，不仅逼近程度有明显改进，且本文方法只需要历史知识(历史模型参数)以及目标域数据，并不需要源域数据作为训练数据，因而在隐私保护方面也体现了较大优势。

3 结束语

 [1] VAPNIK V N. Statistical learning theory [M]. New York:John Wiley and Sons, 1998: 35-41. [2] 吉根林, 姚瑶. 一种分布式隐私保护的密度聚类算法[J].智能系统学报, 2009, 4(2):137-141.JI Genlin, YAO Yao. Density-based privacy preserving distributed clustering algorihtm[J]. CAAI Transactions on Intelligent Systems, 2009, 4(2):137-141. [3] PARZEN E. On estimation of a probability density function and mode[J]. The Annals of Mathematical Statistics, 1962, 33(3): 1065-1076. [4] GIROLAMI M, HE C. Probability density estimation from optimally condensed data samples[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25 (10): 1253-1264. [5] DENG Z H, CHUNG F L, WANG S T. FRSDE: Fast reduced set density estimator using minimal enclosing ball approximation[J]. Pattern Recognition, 2008, 41(4):1363- 1372. [6] TSANG I W, KWOK J T, ZURADA J M. Generalized core vector machines[J]. IEEE Transactions on Neural Networks, 2006, 17(5): 1126-1140. [7] TSANG I W, KWOK J T, CHEUNG P M. Core vector machines: fast SVM training on very large data sets[J]. Journal of Machine Learning Research, 2005(6): 363-392. [8] CHU C S, TSANG I W, KWOK J K. Scaling up support vector data description by using core-sets[C]//IEEE International Joint Conference on Neural Networks. Budapest, Hungary: 2004: 425-430. [9] 许敏,王士同. 基于最小包含球的大数据集域自适应快速算法[J]. 模式识别与人工智能, 2013, 26(2): 159-168.XU Min, WANG Shitong. A fast learning algorithm based on minimum enclosing ball for large domain adaptation[J]. Pattern Recognition and Artificial Intelligence, 2013, 26(2): 159-168.
DOI: 10.3969/j.issn.1673-4785.201312041

0

#### 文章信息

XU Min, YU Lin

A probability density estimator for domain adaptation

CAAI Transactions on Intelligent Systems, 2015, 10(02): 221-226.
DOI: 10.3969/j.issn.1673-4785.201312041