«上一篇
文章快速检索     高级检索
下一篇»
  哈尔滨工程大学学报  2019, Vol. 40 Issue (11): 1903-1910  DOI: 10.11990/jheu.201812051
0

引用本文  

杨高明, 龚晨, 方贤进, 等. 面向频繁序列的局部差分隐私保护研究[J]. 哈尔滨工程大学学报, 2019, 40(11): 1903-1910. DOI: 10.11990/jheu.201812051.
YANG Gaoming, GONG Chen, FANG Xianjin, et al. Local differential privacy protection for frequent sequence mining[J]. Journal of Harbin Engineering University, 2019, 40(11): 1903-1910. DOI: 10.11990/jheu.201812051.

基金项目

国家自然科学基金项目(61572034,61806006);安徽省高校自然科学基金项目(KJ2018A0083,KJ2019A0109);安徽省重大科技专项基金项目(18030901025)

通信作者

方贤进, E-mail:xjfang@aust.edu.cn

作者简介

杨高明, 男, 副教授;
方贤进, 男, 教授

文章历史

收稿日期:2018-12-15
网络出版日期:2019-07-16
面向频繁序列的局部差分隐私保护研究
杨高明 , 龚晨 , 方贤进 , 葛斌 , 苏树智     
安徽理工大学 计算机科学与工程学院, 安徽 淮南 232001
摘要:为增强频繁序列的隐私保护力度,提高其挖掘效用和降低数据维度的影响,本文提出满足局部差分隐私的频繁序列挖掘模型,设计算法予以实现。该算法采用剪枝思想获取频繁序列,利用随机响应方法在局部敏感度基础上干扰数据集,并利用序列支持度和专有隐私预算提高其适用性,利用FP-Growth前缀与后缀原理,由2级与2级以上频繁序列挖掘3级与3级以上频繁序列;选取合理局部敏感度遍历干扰前后的数据集,以确定挖掘频繁序列的运行时间;根据差分隐私的组合性质,从理论角度证明算法满足局部差分隐私,并实验验证算法的有效性。实验结果表明该算法可以安全高效地实现频繁序列的局部差分隐私保护,保证频繁序列的准确性。
关键词局部差分隐私    频繁序列    随机响应    局部敏感度    隐私保护    专有隐私预算    数据效用    关联规则    
Local differential privacy protection for frequent sequence mining
YANG Gaoming , GONG Chen , FANG Xianjin , GE Bin , SU Shuzhi     
School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China
Abstract: To enhance the privacy protection of frequent sequences, improve its mining utility, and reduce the effect of data dimensionality, we propose a frequent sequence mining model that satisfies local differential privacy and design an algorithm to achieve it. The algorithm obtains frequent sequences on the basis of the idea of pruning. First, we analyzed interference in the data set using the randomized response method based on local sensitivity and utilized the sequence support degree and proprietary privacy budget to improve its applicability, and on the basis of the FP-growth prefix and suffix principle, we mined frequent sequences of level 3 and above using frequent sequences of level 2 and above. Second, we selected reasonable local sensitivity to traverse the data set before and after interference to determine the runtime of frequent sequence mining. Finally, on the basis of the combination nature of local differential privacy, we proved theoretically that the algorithm satisfies local differential privacy and verified experimentally its effectiveness. The experimental results indicate that the algorithm can implement local differential privacy protection of frequent sequences safely and efficiently, ensuring the accuracy of frequent sequences.
Keywords: local differential privacy    frequent sequences    random response    local sensitivity    privacy preserving    proprietary privacy budget    data utility    association rule    

频繁序列挖掘[1]是关联规则发现及其应用非常重要的方面,而为了得到关联规则,不可避免的导致用户隐私信息泄露。传统隐私保护的频繁序列挖掘大多数基于k-匿名[2-3]l-多样性[4]模式,这种隐私保护模式并不能完全阻止隐私的泄露。如Ohm等[5]指出,在攻击者具有一定背景知识情况下,利用再识别攻击(re-identification attack)[6]、连接攻击等可以获取用户隐私信息。针对以概化为基础的匿名化隐私保护存在的问题,Dwork[7]提出差分隐私保护模型,该模型具有较强的隐私保护能力,而局部差分隐私的频繁序列挖掘作为差分隐私频繁序列的一个分支,也越来越引起人们的重视。

研究者已经在频繁模式保护方面开展了许多工作:为实现频繁项集保护,Stavropoulos等[8]利用枚举最小化技术以及理想边界的整数线性规划实现频繁项集的隐藏,但他们未考虑隐私预算重复分配问题,造成资源浪费。Wang等[9]引入序列指数机制,将其子项集添加到结果中,实现最大频繁项集的获取,但未考虑项集之间的关联性问题,干扰了频繁项集挖掘的准确性。Cheng等[10]提出基于事务拆分的差分隐私(frequent itemset mining,FIM)算法,通过智能加权拆分技术将长事务集划分为基数不超过指定数值的子事务集,但没有考虑冗余事务集,导致隐私预算重复分配,从而影响频繁项集准确性。Xu等[11]提出满足差分隐私的频繁序列查找算法,利用第S个样本数据库来修剪候选S序列,直接生成候选(S-1)序列,然后使用候选验证技术从所有剩余候选序列中找出频繁序列,但未考虑序列关联性,使得准确性降低。针对以上问题,本文提出满足局部差分隐私的频繁序列挖掘算法(frequent sequences under local differential privacy,FS-LDP)予以解决。主要利用FP-Growth前缀与后缀原理[12]进行索引查找频繁序列,通过随机响应机制扰动事务数据集,找出所有满足局部差分隐私的敏感度。然后在布尔关联规则挖掘算法MASK[13]基础上结合随机响应获取干扰事务数据集,确保在接近原始事务数据集的前提下尽可能降低非频繁序列记录对频繁序列模式适用性的影响。

1 局部差分隐私和频繁序列

差分隐私是经过严格证明的隐私保护数据发布模型,由数据发布者向查询结果中添加噪音,并保证在数据集中添加或删除一条记录不影响任何查询的输出结果,以达到隐私保护的目的。为了减少中心服务器的影响,后人在差分隐私的基础上提出局部差分隐私的方法。

1.1 局部差分隐私

实现局部差分隐私常见的是随机响应技术,它初始用于个人隐私问题的调查,该方法按照某种概率把数据值扰动为属性域内的其他值,使攻击者无法估计原始数据,从而保护了用户隐私。本文在随机响应基础上研究满足局部差分隐私的频繁模式挖掘。

定义1   局部差分隐私

设事务数据集T={T1, T2, …, Tn},TjT(1≤jn),RjiTj的第i个项。对整个数据项目集R,机制M将事务数据集Tj中的项Rji随机映射到R的任一个项。对于非负值ε,若机制M满足局部差分隐私,则:

$ \frac{M({{T}_{j}}=t|{{R}_{ji}}=r)}{M({{T}_{j}}=t|{{R}_{ji}}={r}')}\le {{\text{e}}^{\varepsilon }} $ (1)

局部差分隐私的隐私保护预算参数ε越小保护能力越强,但是多次查询序列模式消耗ε,则会导致隐私性能下降或泄露隐私,故ε的选择需要根据具体情况而定。

1.2 局部敏感度

不同噪音机制满足局部差分隐私所需干扰噪音大小与局部敏感度密不可分,其定义如下。

定义2  局部敏感度

设有函数f: TRd,其中T为输入的事务数据集,Rdd维实向量。对于相差一个记录的事务数据集Ti和相邻事务数据集Tj, 其局部敏感度为:

$ {\rm{LS}}\ f(T)= \max \|f({{T}_{i}})-f({{T}_{j}})\| $

式中‖·‖代表曼哈顿距离。为满足局部差分隐私的要求,本文引入了随机响应技术[14-15],通过将序列属性的值以一定的概率扰动为其他值来保护频繁序列。

定义3   随机响应[15-16]

已知事务数据集T,其全部数据项组成的集合为R={r1, r2, …, rn},pj, i表示ri被随机扰动为rj的概率, i, j=1, 2, …, n, P(ri)为原始数据ri的概率,P*(ri)为扰动后的概率。设P*=[P*(r1), P*(r2), P*(r3), …, P*(rn)]T, P=[P(r1), P(r2), …, P(rn)]T,其中M以矩阵形式进行描述为:

$ {\mathit{\boldsymbol{M}}}=\left[ \begin{matrix} {{p}_{1, 1}} & \cdots & {{p}_{1, n}} \\ \vdots & \ddots & \vdots \\ {{p}_{n, 1}} & \cdots & {{p}_{n, n}} \\ \end{matrix} \right] $

P*=MP

1.3 频繁序列模式挖掘

攻击者对事务数据集使用时间序列的常规算法挖掘时,将得到所有可能的频繁序列。下面以序号分别为1、2、3、4这4个事务为例说明频繁序列挖掘过程。如图 1所示的时间序列,对于给定的最小支持度0.5,根据时间的先后顺序,得到形如X的频繁序列-1以及XY, XY的频繁序列-2。

Download:
图 1 常规挖掘频繁时间序列 Fig. 1 Conventional algorithm mining frequent time sequence

定义4   频繁序列模式集(frequent sequence patterns, FS)[17]

对事务数据集T,设S为序列集合,s为其任一序列,∀s⊆S,support(s)为其支持度,在每一个序列模式出现的次数至少与最小支持度计数min_sup相等时,频繁序列模式集为:

$ \begin{align} & \text{FS=}\left\{ s\left| \ \forall s\subseteq S且S\in T, 使得\text{support}\left( s \right) \right. \right.\ge \\ & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left. \min \_\sup \right\} \\ \end{align} $ (2)
2 最优局部敏感度 2.1 频繁序列模式挖掘

本节通过频繁序列扰动前后的比值变化V确保局部敏感度的合理范围,从而实现局部差分隐私。首先随机扰动事务数据集T得到T′;其次从扰动事务数据集T′中提取时间和数据值相同的序列;然后按照冗余序列剪枝方法去除时间和数据值相同的序列,得到频繁序列FS;接着计算频繁序列扰动前后的比值变化V,将频繁序列扰动前后的相似比值变化SV存放在列表List内;最后取其对应的局部敏感度ρ为合理局部敏感度,具体过程如算法1所示。

算法1:局部敏感度评估算法

输入:事务数据集T, 阈值θ, 随机概率Pj(1≤jn, 0.5 < Pj < 1)。

输出:合理局部敏感度范围LSr

统计事务数据集T得到其频繁序列;

for each Pj扰动T获得扰动事务数据集T′{T1, …, T′n};

统计代表时间的所有序列St和代表数据值的所有序列Sd;

if ((代表时间的序列StiSt)=(代表时间的序列StjSt))且((代表数据值的序列SdiSd)=(代表数据值的序列SdjSd)) then

获取时间相同序列S′t和数据值相同序列S′d;

统计时间不同的序列S′dtSt-St和数据值不同的序列SddSd-S′d; //去除时间和数据值相同的序列;

if时间不同序列的阈值θ(Sdt)≥θ和数据值不同序列的阈值θ(Sdd)≥θ then

获取扰动T后得到的频繁序列;

统计频繁序列扰动前后的比值变化V←扰动T后得到的频繁序列/事务数据集T得到的频繁序列;

统计频繁序列扰动前后的相似比值变化SV←V中的相似值;

列表List←频繁序列扰动前后的相似比值变化SV;

return LSr

2.2 时间序列趋势化分析

由于事务数据集庞大,局部差分隐私的频繁序列挖掘会导致局部敏感度偏高,不利于准确估计频繁序列。为准确获得频繁序列,需要合理估计局部敏感度的范围,为此需要对时间序列进行趋势化分析[18],这涉及到频繁序列扰动前后比值变化以实现局部敏感度的合理选取问题。

为确定频繁序列扰动前后的相似比值变化SV,需要在原有候选序列基础上,利用冗余序列剪枝方法,得到 < 频繁1-序列,频繁2-序列, …, 频繁k-序列>,最后按照时间顺序,存储不同时间的频繁序列FS,得到频繁序列扰动前后的比值变化V,从而确定SV。

定理1  已知频繁序列FS < FS1, FS2, …, FSn>,时间顺序time{ti|0 < ti < tn+1, 1≤in},频繁序列扰动前后的比值变化V{V1t1, V2t2, …, Vntn},由频繁序列扰动前后的相似比值变化SV,可以得到合理局部敏感度范围LSr

证明:根据已知可得:{ti|0 < ti < tn+1, 1≤in}→ V {V1t1, V2t2, …, Vntn}

$ V=\frac{\{\text{F}{{\text{S}}_{i}}|\text{F}{{\text{S}}_{i}}<\text{F}{{\text{S}}_{l}}, \text{F}{{\text{S}}_{a}}, \text{F}{{\text{S}}_{b}}, \text{F}{{\text{S}}_{m}}, \cdots , \text{F}{{\text{S}}_{c}}>\}}{\text{FS}} $

$\text{SV}=\frac{\text{F}{{\text{S}}_{a}}}{\text{FS}}=\frac{\text{F}{{\text{S}}_{b}}}{\text{FS}}=\cdots =\frac{\text{F}{{\text{S}}_{l}}}{\text{FS}}\approx m$, FSaρa, FSbρb, …, FSlρl,得到ρaρbρl

因此SV→LSr

其中:FSa、FSb、FSl代表扰动后的频繁序列。FSaρa代表扰动后的频繁序列FSa对应的局部敏感度度为ρa,FSbρb代表扰动后的频繁序列FSb对应的局部敏感度度为ρb,FSlρl代表扰动后的频繁序列FSl对应的局部敏感度度为ρl

2.3 局部敏感度计算

本节在局部敏感度和时间序列趋势化基础上,通过频繁序列扰动前后的比值变化来约束局部敏感度。同时为更有效地找到包含在给定L-序列中的候选S-序列,设计候选序列树(ST树)予以实现,其高度为H,关联序列节点为M。具体的做法是:给定候选S-序列,ST树将前缀相同的候选S-序列分到相同的分支中。1)如果前缀序列是频繁序列,接着向下遍历,后缀序列若为非频繁序列,那么无需判断此候选序列是否为频繁序列,按照FP-Growth原理,此候选序列为非频繁序列;后缀序列若为频繁序列,那么此候选序列为频繁序列。2)如果前缀序列是非频繁序列,无需判断后缀序列是否为频繁序列,此候选序列都为非频繁序列。为表示方便,把高度为H-1的关联序列节点称为N,高度为H-2的关联序列节点表示为A

为计算局部敏感度的合理范围,首先使用随机响应扰动事务数据集T得到扰动事务数据集T′,然后根据最大局部敏感度,将ST树获取的候选频繁序列利用冗余序列剪枝方法得到完整的频繁序列模式FS,接着通过频繁序列扰动前后的比值变化V来约束局部敏感度;最后在满足专有隐私预算的情况下,按照时间顺序time{t1, t2, …, tn}得到频繁序列扰动前后的相似比值变化SV,同时找到相应的局部敏感度ρ,从而得到局部敏感度的合理范围为(0.9, 1),其结构图描述形式如图 2所示。

Download:
图 2 局部敏感度计算过程结构 Fig. 2 Local sensitivity calculation processes
3 局部差分隐私的频繁序列挖掘算法

为实现局部差分隐私的频繁序列保护,本文首先基于预先定义的分布函数产生随机数,结合局部差分隐私对原始事务数据集进行扰动,并重构原始数据集,评估相应序列支持度,以找到具有关联规则的频繁序列;随后根据局部敏感度,利用冗余序列剪枝方法判断哪些是频繁序列,并使用FP-Growth前缀与后缀原理对候选序列添加ID号剪枝得到频繁k-序列,对比干扰前后数据集挖掘得到的频繁序列是否大体一致,从而得到合理局部敏感度,其目的是尽可能准确地估计哪些候选序列为频繁序列,否则会因数据集数量较大导致局部敏感度较低,不能精确地估计频繁序列。

3.1 算法描述

由于频繁序列挖掘存在时间序列冗余问题,导致专有隐私预算重复分配,影响序列模式的可用性,本文设计FS-LDP算法予以解决。对于给定事务数据集T、最小支持度min_sup, 利用随机响应扰动事务数据T以得到扰动事务数据集T′,然后使用冗余序列剪枝方法,使扰动事务数据集满足最小支持度计数min_sup的同时获取频繁序列,最后将满足合理局部敏感度LSr的频繁序列汇聚一起,得到完整的频繁序列模式FS,具体描述如算法2所示。

算法2:局部差分隐私的频繁序列挖掘算法(FS-LDP算法)

输入:事务数据集T,候选序列PX,PY,最小支持度min_sup,随机比率Pj(1≤jn, 0.5 < Pj < 1)。

输出:频繁序列FS。

for each Pj扰动T获得扰动事务数据集T′{T1, T2, …, T′n};

for划分T′中所有序列S的每一个序列Si, i=1, 2, …, n//得到代表时间和数据值的所有序列;

得到代表时间的所有序列St和代表数据值的所有序列Sd;

if代表时间的序列StiSt与代表时间的序列StjSt相等then //删除相同的序列;

获取时间相同序列S′t;

if代表数据值的序列SdiSd与代表数据值的序列SdjSd相等then

获取数据值相同序列S′d;

for删除S′tS′d

时间不同序列SdtSt去除S′t;

数据值不同序列SddSd去除S′d;

统计不同序列SkSdtSdd, 不同序列的数量Count(Sk)以及事务序列的数量n;

if ((Count(Sk)==n) then //得到代表不同时间和数据值序列的数量;

返回序列数量n;

else得到递减序列数量n--;

if不同序列的支持度(n/Count(Sk)) ≥min_sup then

得到频繁1-序列FS1和频繁2-序列FS2Sk;

for候选序列PX与候选序列PY //冗余序列剪枝方法;

组合序列成员PZ ← (PX) (PY); //组合PX, PY序列;

for┒PX属于PZ//将(PY)序列作为首序列;

首列成员(PYX) ←[PY];

for┒(PY)属于PZ//将PX序列作为首序列;

首序列成员(PX→Y) ←[PX];

剪枝后频繁序列(P→XY) ←{(PX→Y)(PYX)};

计算频繁序列扰动前后的相似比值变化SV;

由SV推出合理局部敏感度LSr;

return FS(FS1, FS2, …, FSn)。

3.2 隐私性能分析

定理2  算法隐私性能满足专有隐私预算LFS/ρ

证明:S(S1, S2, …, Sn)是满足最小支持度计数min_sup的候选S-序列,每个频繁序列的长度是LFSi(1≤in)以及敏感计数为k,Σk是所有频繁序列的总敏感计数,且随机响应的MASK技术指数为Ra((LFS×Σk)/ρ),每个频繁序列都满足Ra((LFS×Σk)/ρ)。由定理1得到局部敏感度ρ,根据已知条件可得:

$ \frac{ \text{Ra} (({{L}_{\text{FS}i}}\times k))}{\rho }/\text{Ra(}k)= \text{Ra} \frac{{{L}_{FSi}}}{\rho }\le \frac{{{L}_{\text{FS}}}}{\rho } $

根据序列组合性质[19-20],得到$\sum{\frac{ \text{Ra} (({{L}_{FS\text{i}}}\times k))}{\rho }/\text{Ra(}k)=\sum{ \text{Ra} \frac{{{L}_{\text{FS}i}}}{\rho }\le \frac{{{L}_{\text{FS}}}}{\rho }}}$, 该过程满足专有隐私预算LFS/ρ.

定理3  FS-LDP算法满足局部差分隐私

证明:设候选S-序列最小支持度为min_sup, 扰动较高的概率分别为PiPj, 不同的局部敏感度为{ρmn|1>ρmn>0, jim≥1, jin≥1},频繁1-序列的数量为LFS1, 频繁2-序列的数量为LFS2,频繁3-序列的数量为LFS3,频繁k-序列的数量为LFSn, 隐私预算ε=(LFS/ρ),合理局部敏感度范围为LSr。由于事务数据集不相交,隐私预算可以分开求和,将每一部分隐私预算相加得到总隐私预算,基于序列组合性质,该算法满足局部差分隐私,其时间复杂度为O(kMN)。

4 实验评估 4.1 实验设置

本文采用kosarak实验数据集验证算法性能,该数据集包含62 167条在线新闻匿名点击记录,此处选取8个事务数据集;实验环境为Windows10,内存4 GB,编程环境是Python3.6。实验中利用频繁序列扰动前后的比值变化V和FP-Growth原理来确定合理局部敏感度和频繁序列[21-23],同时与SPADE[24-25]、GSP[26-27]相比较。

4.2 频繁序列精确度评估

图 3(a)是时间间隔为50 s,阈值θ=0.625,局部敏感度ρ值从0.5到0.9,迭代次数从1~5时,FS-LDP算法挖掘频繁序列精确度结果比较。图 3(b)是时间间隔为50 s,迭代次数为10,阈值θ=0.625,局部敏感度ρ值从0.5~1时,FS-LDP、SPADE、GSP算法挖掘频繁序列精确度结果比较。从图 3(a)中可以看出,随着ρ值增大,FS-LDP算法挖掘频繁序列的精确度是呈现递增的趋势。从图 3(b)可以看出随着ρ值增大,3种算法挖掘频繁序列精确度均有增加,FS-LDP算法挖掘频繁序列精确度高于SPADE、GSP算法。主要原因是局部敏感度的规约值仅适用短序列为主的数据集,对于kosarak数据集,随机选取局部敏感度无法保障扰动支持度的实用性,而合理局部敏感度利于保证扰动计数的可靠性,且具有较高的稳定性,算法挖掘频繁序列的精确度也受其影响。

Download:
图 3 频繁序列精确度对比 Fig. 3 Comparison of Frequent sequence accuracy
4.3 时间评估

为观察FS-LDP、SPADE、GSP3种算法挖掘频繁序列的性能,实验对比干扰前后挖掘频繁序列的平均运行时间。图 4是局部敏感度ρ=0.95,时间间隔为50 s,阈值θ=0.625,时间序列周期从10变化到250时,对比它们在迭代次数为50次、100次的挖掘频繁序列的平均运行时间。图 4(a)是运行50,图 4(b)是运行100次的3种算法平均时间对比图。从图 4可以看出,3种算法挖掘频繁序列的平均运行时间均有增加且趋于直线状态,FS-LDP算法平均运行时间最短,性能较优;SPADE算法次之,却仍高于GSP算法,并且可以看出FS-LDP算法在不同运行次数的情况下,挖掘频繁序列的平均运行时间基本趋于稳定状态,主要原因是时间序列的冗余问题无法保证频繁序列的准确性,而FS-LDP算法通过冗余序列剪枝方法,确保准确性较高的情况下挖掘时间更短,表明局部差分隐私下具有较高的稳定性。

Download:
图 4 FS-LDP、SPADE、GSP的平均运行时间 Fig. 4 Average runtime of FS-LDP, SPADE, and GSP

为观察局部差分隐私下算法挖掘频繁序列的能力,比较FS-LDP算法与SPADE算法在不同专有隐私预算ε(即LFS/ρ)下频繁序列的运行时间。图 5是时间间隔为50 s,局部敏感度ρ=0.95,阈值θ=0.625,专有隐私预算ε从0.1变化到0.8时,2种算法在干扰前后频繁序列挖掘运行时间结果比较,改变迭代次数为10、50、100次。从图 5可以看出,随着专有隐私预算ε的增长,2种算法的运行时间均有增加且变化平稳,与SPADE算法相比较,FS-LDP算法挖掘频繁序列的运行时间较短,且当专有隐私预算ε=0.6时,挖掘频繁序列的运行时间开始趋于一个稳定值。实现结果表明专有隐私预算ε越小,频繁序列保护水平越高,且FS-LDP算法挖掘频繁序列运行时间与SPADE算法挖掘频繁序列运行时间都趋于一个稳定状态,但是FS-LDP算法挖掘频繁序列运行时间更短,主要原因是FS-LDP算法利用不同的专有隐私预算和冗余序列剪枝方法,提高挖掘频繁序列的时间效率,具有高稳定性与高隐私性。

Download:
图 5 FS-LDP与SPADE在不同专有隐私预算下的运行时间 Fig. 5 Run time of FS-LDP and SPADE with different ε

图 6是局部敏感度ρ=0.95,时间间隔为50 s,阈值θ=0.625时,FS-LDP、SPADE和GSP在干扰前后频繁序列运行效率提高的结果比较。从图 6(a)可以看出,随着迭代次数增大,3种算法运行效率的趋于一个固定值,同时FS-LDP算法运行效率提高值最大,SPADE算法次之,但优于GSP算法。从图 6(b)可以看出,随着时间序列周期值增大,3种算法运行效率的趋于一个固定值,同时FS-LDP算法运行效率的提高优于其他2种算法。从图 6可以发现SPADE比GSP运行效率提高将近3%,FS-LDP比GSP运行效率提高将近25%,FS-LDP比SPADE运行效率提高将近22%。主要原因是FS-LDP算法在序列中添加ID号,采用冗余序列剪枝方法,去除时间和数据值相同的序列,提高挖掘频繁序列的运行时间效率和具有较高的可用性。

Download:
图 6 FS-LDP、SPADE、GSP运行效率 Fig. 6 Operating efficiency of FS-LDP, SPADE, and GSP
5 结论

1) 针对频繁序列的隐私保护未考虑冗余项问题,本文提出满足局部差分隐私的频繁序列挖掘算法予以解决,有效改善了频繁序列冗余问题。

2) 解决了因专有隐私预算重复分配而导致频繁序列隐私保护度不高问题。

3) 理论和实验结果表明,在满足局部差分隐私的情况下,局部差分隐私的频繁序列挖掘算法获取频繁序列的精确度优于SPADE、GSP算法。

然而本文实验数据集较小,在下一步研究工作中将开展局部差分隐私的频繁项目集和频繁序列挖掘等方面的研究。

参考文献
[1]
丁丽萍, 卢国庆. 面向频繁模式挖掘的差分隐私保护研究综述[J]. 通信学报, 2014, 35(10): 200-209.
DING Liping, LU Guoqing. Survey of differential privacy in frequent pattern mining[J]. Journal on communications, 2014, 35(10): 200-209. DOI:10.3969/j.issn.1000-436x.2014.10.023 (0)
[2]
杨松涛, 马春光. 随机匿名的位置隐私保护方法[J]. 哈尔滨工程大学学报, 2015, 36(3): 374-378.
YANG Songtao, MA Chunguang. Random anonymity method for location privacy protection[J]. Journal of Harbin Engineering University, 2015, 36(3): 374-378. (0)
[3]
张磊, 马春光, 杨松涛, 等. 抗轨迹差异识别攻击的相似轨迹实时生成方法[J]. 哈尔滨工程大学学报, 2017, 38(7): 1173-1178.
ZHANG Lei, MA Chunguang, YANG Songtao, et al. Real-time similar trajectory generation algorithm for resisting trajectory difference identification attack[J]. Journal of Harbin Engineering University, 2017, 38(7): 1173-1178. (0)
[4]
TU Zhen, ZHAO Kai, XU Fengli, et al. Protecting trajectory from semantic attack considering k-anonymity, l-diversity, and t-closeness[J]. IEEE transactions on network and service management, 2019, 16(1): 264-278. DOI:10.1109/TNSM.2018.2877790 (0)
[5]
OHM P. Broken promises of privacy:responding to the surprising failure of anonymization[J]. UCLA law review, 2010, 57: 1701-1777. (0)
[6]
TOCH E, BETTINI C, SHMUELI E, et al. The privacy implications of cyber security systems:a technological survey[J]. ACM computing surveys, 2018, 51(2): 36. (0)
[7]
DWORK C. Differential privacy and the US census[C]//Proceedings of the 38th ACM SIGMOD-SIGACT-SIGAI Symposium on Principles of Database Systems. Amsterdam, Netherlands, 2019: 1-1. (0)
[8]
STAVROPOULOS E C, VERYKIOS V S, KAGKLIS V. A transversal hypergraph approach for the frequent itemset hiding problem[J]. Knowledge and information systems, 2016, 47(3): 625-645. DOI:10.1007/s10115-015-0862-3 (0)
[9]
WANG Ning, XIAO Xiaokui, YANG Yin, et al. PrivSuper: a superset-first approach to frequent itemset mining under differential privacy[C]//Proceedings of the IEEE 33rd International Conference on Data Engineering. San Diego, CA, USA, 2017: 809-820. (0)
[10]
CHENG Xiang, SU Sen, XU Shengzhi, et al. DP-Apriori:a differentially private frequent itemset mining algorithm based on transaction splitting[J]. Computers & security, 2015, 50: 74-90. (0)
[11]
XU Shengzhi, CHENG Xiang, SU Sen, et al. Differentially private frequent sequence mining[J]. IEEE transactions on knowledge and data engineering, 2016, 28(11): 2910-2926. DOI:10.1109/TKDE.2016.2601106 (0)
[12]
JIANG Yu, ZHAO Minghao, HU Chengquan, et al. A parallel FP-growth algorithm on world ocean atlas data with multi-core CPU[J]. The journal of supercomputing, 2019, 75(2): 732-745. DOI:10.1007/s11227-018-2297-6 (0)
[13]
KUMAR R, SON L H, JHA S, et al. Spatial data analysis using association rule mining in distributed environments:a privacy prospect[J]. Spatial information research, 2018, 26(6): 629-638. DOI:10.1007/s41324-018-0207-x (0)
[14]
REN Xuebin, YU C M, YU Weiren, et al. LoPub:high-dimensional crowdsourced data publication with local differential privacy[J]. IEEE transactions on information forensics and security, 2018, 13(9): 2151-2166. DOI:10.1109/TIFS.2018.2812146 (0)
[15]
BLUME A, LAI E K, LIM W. Eliciting private information with noise:the case of randomized response[J]. Games and economic behavior, 2019, 113: 356-380. DOI:10.1016/j.geb.2018.09.012 (0)
[16]
杨高明, 朱海明, 方贤进, 等. 局部差分隐私约束的关联属性不变后随机响应扰动[J]. 电子学报, 2019, 47(5): 1079-1085.
YANG Gaoming, ZHU Haiming, FANG Xianjin, et al. Random response perturbation of association properties with invariant local difference privacy constraints[J]. Chinese journal of electronics, 2019, 47(5): 1079-1085. DOI:10.3969/j.issn.0372-2112.2019.05.015 (0)
[17]
NING Wang, XIAOKUI Xiao, YIN Yang, et al. PrivTrie: effective frequent term discovery under local differential privacy[C].//2018 IEEE 34th International Conference on Data Engineering, 2018, Paris, France: 821-832. (0)
[18]
BATTAGLIA F, CUCINA D, RIZZO M. Parsimonious periodic autoregressive models for time series with evolving trend and seasonality[J]. Statistics and computing, 2019(1): 1-15. (0)
[19]
MCSHERRY, FRANK. Privacy integrated queries:an extensible platform for privacy-preserving data analysis[J]. Communications of the ACM, 2010, 53(9): 89-97. DOI:10.1145/1810891.1810916 (0)
[20]
MA Zhou, GE H, LIU Yang, et al. A combination method for android malware detection based on control flow graphs and machine learning algorithms[J]. IEEE access, 2019, 7(99): 21235-21245. (0)
[21]
YOON Y U, PARK D H, KIM J G, et al. Most frequent mode for intra-mode coding in video coding[J]. Electronics letters, 2019, 55(4): 188-190. DOI:10.1049/el.2018.7452 (0)
[22]
FLOOD V H, JOHNSEN J M, KOCHELEK C, et al. Common VWF sequence variants associated with higher VWF and FVIII are less frequent in subjects diagnosed with type 1 VWD[J]. Research & practice in thrombosis & haemostasis, 2018, 2(2): 390-398. (0)
[23]
TAKEUCHI Y, SHINOZAKI T, MATSUYAMA Y. A comparison of estimators from self-controlled case series, case-crossover design, and sequence symmetry analysis for pharmacoepidemiological studies[J]. Bmc medical research methodology, 2018, 18(1): 4. DOI:10.1186/s12874-017-0457-7 (0)
[24]
ZAKI M J. SPADE:An efficient algorithm for mining frequent sequences[J]. Machine learning, 2001, 42(1): 31-60. (0)
[25]
MAHANIPOUR A, NEZAMABADI-POUR H. GSP:an automatic programming technique with gravitational search algorithm[J]. Applied intelligence, 2019, 49(4): 1502-1516. DOI:10.1007/s10489-018-1327-7 (0)
[26]
WANG Ke, SADREDINI E, SKADRON K. Sequential pattern mining with the Micron automata processor[C]//Proceedings of the ACM International Conference on Computing Frontiers, Como, Italy, 2016: 135-144. (0)
[27]
PIMUS I, PELEG M, SCHERTZ M. Sequence Mining of Comorbid neurodevelopmental disorders using the SPADE algorithm[J]. Methods of information in medicine, 2016, 55(03): 223-233. DOI:10.3414/ME15-01-0142 (0)