为了改进存储机制,以提供一个通用的隐私保护服务,提出了一种基于边缘的数据保护模型,将无线传感器网络收集的原始数据交由边缘服务器,并利用隐私计算算法进行差分处理.少量核心数据存储在边缘服务器和本地服务器上,其他数据传输到云端存储.基于该模型,即使存储在云中的数据被泄露,原始数据也无法被恢复,数据的隐私权得以保证;采用差分存储方法,减少了发送到云端的数据,降低了通信成本和存储成本.理论分析和大量实验结果证实了该方法有效.
To improve the storage mechanism to provide a general privacy protection service, a data protection model based on edge computing is presented. The original data collected by wireless sensor networks is differentiated by privacy computing algorithm on edge servers. A small amount of core data is stored on edge servers and local servers, while other data is transferred to the cloud for storage. Based on the model, even if the data stored in the cloud is leaked, the original data cannot be recovered, so the privacy of the data can be ensured. The differential storage method reduces the data sent to the cloud and decreases the communication cost and storage cost. Both theoretical analyses and a large number of experiments have proved the effectiveness of the proposed method.
无处不在的计算技术与传感云系统的发展持续消除着物理和数字世界之间的界限,促进了融合.传感云作为无线传感网络基础上的一个重要应用,促进了资源共享,实现了传感器网络的大规模应用[1].为了应对传感器数据存储和处理的日益增长的需求,云计算灵活地提供了必要的计算和存储资源,实现了大规模的数据采集、处理和存储[2-4].随着大量重要信息被存储在云端,新的数据托管服务模式也带来了安全隐私方面的挑战[5].这种新的数据托管模式基于云服务提供商(CSP,cloud service provider)提供的服务,用户也因此可能会担心隐私泄露或数据丢失.有时,不诚实的CSP可能会泄漏隐私数据.例如,通过访问上传的流量数据和日志,CSP可以轻松获取用户的活动历史,这可能导致隐私泄露.另一方面,为了节省存储空间,他们可能会丢弃很少访问的数据,并谎称数据仍然准确地存储在云中[6].
Lopez-Falcon等[7]提出了云环境下的自适应模型,考虑到冗余残数系统,使用了秘密共享方案和纠错码,并为了达到最小化数据访问的目的,使用了CSP之间的数据传输机制. Chi等[8]指出,大多数防止隐私泄露的方法都遵循着一个原则,即CSP是可靠的,不能被攻击,并且,CSP为用户提供了一个足够安全的防火墙来抵御黑客.显然,它不满足实际场景中的需求,过于理想化. Wang等[9]设计了一种三级存储(TLS,three layers storage)框架,以保护用户的隐私,进一步达到保护数据完整性的目的.该框架使得用户可以拥有部分数据,使完全的外包数据变成半外包模式,有效地防止用户隐私被泄露.但是,在三级存储的策略上该方法采用了一种随意的分配机制,这造成数据块存储混乱,无法尽可能提高云存储效率,使用户数据仍然存在危险. Jin等[10]指出,数据保密性在隐私保护中起到了关键作用,因为CSP是在商业环境中设置的,不能被信任,因此提出了加密的解决方案.此外还考虑到大量数据造成的成本负担,采用了重复数据消除方法.但利用所设计的加密方案,相同的数据基于不同的本地用户将会被加密成不同的结果,通过实验结果发现重复数据消除的可能性很小. Wu等[11]对数据消除展开了研究,提出了一种新颖的数据消除方案,该方案可以消除重复数据并执行动态数据操作,从而确保数据完整性并降低云存储成本. Muthurajkumar等[12]设计了一个对用户和CSP都友好的系统.为了保证数据的隐私性和安全性,用户在将文件上传到云中之前对其进行加密,从而为存储在云中的数据提供了一种改进的安全模型.同时,为了降低CSP的存储成本,CSP尽量避免将相同的文件存储在服务器上,从而降低冗余存储的发生率.但是,这种方法仍然给用户增加了计算负担,并没有真正降低CSP的存储成本.
可以得出结论:优化云存储提高存储效率主要从加密、审计以及重复数据消除三方面进行.然而,这些研究方法大多遵循着数据完全托管的原则,都容易受到各种风险和攻击,且成本高.
为了克服现有机制的不足,提出了一种提高安全性能和最大限度地提高云存储效率的新机制,即基于边缘计算的三层存储体系结构.边缘计算为隐私计算和存储服务提供了一个平台,将数据分为3个部分,使得即使敌手获得了部分数据也难以恢复原始数据,保证了数据的隐私性.
1 基于边缘计算的安全差分计算通过适当的数据处理技术来提高数据安全性已成为一个越来越令人关注的问题,其中包括3个方面:数据隐私、数据完整性和数据可用性[13].为了解决这些问题,现有研究提供了一些解决思路.同时,从长远来看,云的高质量管理对于数据的安全存储也同样重要,因此改进了TLS框架.
1.1 扩展差分模型与TLS任意划分为三部分并存储不同,改善的模型充分利用边缘服务器的数据处理能力来有效地管理云服务器.因此,一个基于数据分布规律的差分三级存储(DTLS,differential three layers storage)框架被提出.基于大量的数据观察发现,传感器所收集的数据大多符合一个规律:一组数据中,数据基本围绕着某个数值或某个子数据集上下波动[14-16].根据发现,DTLS首先通过下面章节提到的算法将用户的数据分为2部分.当收集一组原始数据时,可以分为2部分进行处理,即某个数值和相应的偏差.某个数值被称为元数据并标记为M,相应的偏差成为残差并标记为R,直观地说,完整的n个原始数据C和M、R必须满足关系
$C_{i}=M+R_{i}, i=1, 2, 3, \cdots, n $ | (1) |
当找到一个适当的M,基于分级存储的方法云存储的效率会大幅度提高.此外,数据处理结合高级加密标准采用了一种基于二进制里所码的编码方法.该方法将待存储的数据分为k个部分,每个部分的大小为l,通过编码矩阵将这k块数据生成n个编码块,其中满足数据关系n=k+m,m为冗余数据块的数量,将每个数据块编码并分别存储在存储节点中.当编码块损失数量不大于m时,系统可以修复编码部分的所有数据.显然,当使用少于k个编码块,原始数据就无法被恢复.以上都依赖于边缘计算的计算能力.
DTLS框架的使用实现了2个主要目标.一方面,通过不同算法差分存储原始数据可以减少云服务器中的存储成本,同时提高云的性能;另一方面,用户数据的安全性可以得到可靠保证[17].基于对以上2个目标的实现,可知经由差分处理使得要上传到云服务器的数据量减少,带宽消耗也随之降低[18].
1.2 工作流程1) 上传步骤.当传感器收集到一组监测值,基于边缘计算上传到云服务器的步骤如图 1所示.数据首先被传输到边缘服务器,紧接着分为3部分处理,在第1部分中,监测值首先被分为元数据与残差2部分,在第2部分中元数据和残差根据高级加密标准进行加密,流程到了第3部分后,被加密完全的残差部分数据块首先会被上传到云服务器进行单独存储,元数据部分根据二进制Reed-Solomon编码原则处理.为了防止数据恢复,将小于k个数的大部分数据块和冗余块存储在云服务器,如图 1所示.假设这部分数据占总数据的80%,对于剩下的小于k个数的20%数据,将根据用户需求选择全部存储在边缘服务器或部分在边缘部分回传给本地.经由上述步骤,云端的存储成本与数据安全同时都能得到保障.
2) 下载步骤.如图 2所示,当用户本地需要用到数据时向云端传递请求,云端将单独存储的残差以及部分(80%)元数据块传输到边缘层.与此同时,本地将部分关键元数据块传输到边缘层,边缘层对残差块与元数据块分别解密后再进行解码流程,最后获得完整原始数据并传回到本地.
对于提出的新体系结构,核心是找到元数据,它是整体工作的中坚部分.在实际应用中,元数据的选择是灵活的,根据不同数据分布特点有不同的选择.
2.1 低波动误差算法在某种场景中,当传感器收集的数据趋于稳定时,如温度、湿度等,可以采用一种较为简单的算法.同样,这种方法也可以普遍适用于限制条件较少的场景.在数学领域,方差的概念被普遍应用,用来测量随机变量与其数学期望之间的偏差程度.同样,在提出的方法中,一组数据围绕着上下波动的元数据需要被找到.这意味着元数据和残差之间的偏差程度很小,因此,方案中引入了均方根误差(RMSE,root mean square error)的概念,即观测值与真值之间偏差的平方根和观测值数量n的比值.可以用公式表示为
$\sqrt{\frac{\sum s^{2}}{n}}=R $ | (2) |
其中:n为测量次数,s为一组测量值与真值之间的偏差.结合目标,s可以解释为要存储的一组数据与元数据之间的偏差.根据数学工具,可以找到使R尽可能小的元数据,如微分等.为了进一步解释,假设有传感器收集了一组数据“1”、“2”、“3”在本地,用户希望将它们存储在云端.当边缘服务器接收到上传请求时,对这组数据进行处理,根据元数据思想上获取一个函数R(M).然后根据边缘计算可获得使得R达到最小值的元数据,结果是当元数据取2时,R可以取得最小值0.这样,可以得到残差为“-1”、“0”、“1”.在这个简单的例子中,如果将整个数据上传到云端,监测值将占用8位存储.但如果采用上述方法处理时只需将占用5位的残差上传到云端,与传统的相比,存储空间减少了37.5%.显然,当需要存储大量数据时,它可以为云服务器节省大量的存储空间.此操作可以减轻云服务器的工作,提高效率.该算法的具体步骤如算法1所示.可得出,该算法的时间复杂度为O(1),效率较高,能在一定程度上节约计算成本.
算法1 低误差差分算法
输入:传感器收集的原始数据
输出:元数据、残差
1 for 数据对象的每个属性 do
2 存入该属性对应数组;
3 end for;
4 列出每个数组的均方根误差公式,基于数学原理求导,计算使偏差达到最小的值x,其中x1,x2,…,xn代表数据对象中的某个属性值
$R=\sqrt{\frac{\left(x_{1}-x\right)^{2}+\left(x_{2}-x\right)^{2}+\cdots+\left(x_{n}-x\right)^{2}}{n}} $ |
5 x即为该属性对应的元数据,并求出相应残差;
6 for每个元数据do
7 存入数组;
8 end for;
9 for每个残差do
10 存入数组;
11 end for;
12 输出每种属性的元数据以及残差.
2.2 基于聚类的差分数据算法在实际应用场景中,传感器收集的数据可能更复杂.因此,引入聚类的思想,将具有多维属性的数据集按相似性划分为多个子集,使同一个子集中数据对象之间的相似性尽可能强,而不同子集之间的相似性尽可能小.数据被分为多个簇,以确定不同的簇中心,即元数据,从而最小化簇中心到簇内样本的距离,即上面提到的残差.
假设X={X1, X2, …, Xi, …, Xn}作为一个样本集,其中包括n个对象数据,每个样本具有p个属性,即Xi={Xi1, Xi2, …, Xip}.首先对样本集进行抽样,并根据类间类内划分指标B选择在[kmin,kmax]范围内的最佳聚类数kopt(一般情况下kmin=2,kmax=$\sqrt{n}$[19]),将该样本集划分为kopt个簇,即X={T1, T2, …, Tkopt},每个簇中包含b个样本,并且将簇中心设置为t={t1, t2, …, tkopt},空间中2个点的欧氏距离可以被定义为
$d\left(X_{i}, X_{j}\right)=\sqrt{\sum\left(X_{i_{w}}-X_{j_{w}}\right)^{2}} $ | (3) |
其中:i=1, 2, …, n;j=1, 2, …, n;w=1, 2, …p.
空间中任意两点之间的平均距离定义为样本之间的距离除以次数之和.这2个样本是从样本集中任意选取的,可以表达为
$\bar{D}=\frac{\sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} d\left(X_{i}, X_{j}\right)}{A_{n}^{2}} $ | (4) |
样本Xi的密度定义为:以Xi为中心,αD为以半径画圆(包括边缘)中包含的数据对象,即当满足条件d(Xi,Xj) < αD时,count( )函数累计递增1,α是半径调整系数,默认值为1.
$E\left(X_{i}\right)=\sum\limits_{j=1}^{n} \operatorname{count}\left[d\left(X_{i}, X_{j}\right)^{\prime \prime} \alpha \bar{D}\right] $ | (5) |
其中i=1, 2, …, n;j=1, 2, …, n.样本集X的平均密度可以被定义为
$\bar{E}=\frac{\sum\limits_{j=1}^{n} E\left(X_{i}\right)}{n} $ | (6) |
高密度点集定义为数据对象的集合,这些数据对象的密度是样本集X平均密度的倍数.可以被描述为
$D=\left\{X_{h}\right\} $ | (7) |
其中:Xh[(Xh)∈X]是满足E(Xh)≥βE的数据对象,表示高密度点,β为密度调整系数,默认为1.样本集X的中心是X的平均值,可以定义为
$X_{\text {center }}=\frac{X}{n} $ | (8) |
该算法的具体步骤如算法2所示,时间复杂度为O(n),相比算法1较复杂,在数据处理的时间成本上消耗较多.
算法2 基于聚类的差分数据算法
输入:传感器收集的原始数据
输出:元数据、残差
1 数据抽样;
2 选择一个最佳聚类数,计算
$k_{\mathrm{opt}}=\max\limits_{2 \leqslant k \leqslant \sqrt{n}}[B(k)] $ |
3 根据式(3)~式(5)计算样本集中每个数据对象的密度;
4 根据式(6)~式(8)得到高密度点集D和样品集中心Xcenter;
5 根据式(3)计算D到Xcenter的距离,选择满足max[d(Di, Xcenter)]的Di作为第一个初始簇中心C1,加入集合C;
6 选择满足max[d(Dj, Xcenter)d(Dj, C1)]的数据对象Dj作为第2个簇中心C2,并添加到集合C中;
7 重复步骤(6)直到|C|= kopt;
8 返回元数据及相应残差.
3 实验与分析 3.1 实验环境在仿真环境下进行了实验,操作系统为Win10,CPU为Intel Core i7 2.50 GHz,内存为8 GB,硬盘为1 TB,编程平台为Matlab R2018a.所有实验都是用户在本地保存部分数据的前提下进行的,即3层架构,它可以充分保证数据隐私并使用底层服务器.
在实际的应用场景中,基于对大量的开源数据集的研究,可知在一个周期范围内,大部分的数据分布状态呈高斯分布.如图 3所示,相比于其他分布,高斯分布状态下的实验效果更加明显,且在同等算法下,节约的存储成本也最为显著.由此可知,提出的机制与采用的算法在传感云系统中是可行的,并且是高效的.
基于对高斯分布与其他分布的对比试验,固定期望,对不同方差下的实验效果进行研究.如图 4所示,随着高斯分布标准差的增大,2种算法下所能节省的存储空间都逐渐减少,但本地与边缘端依然存储部分数据,因此非完全外包模式,相比传统方法与TLS模型在性能上都有一定优越性.其中,对于基于聚类的差分算法,随着高斯分布标准差的增大,存储成本的改善逐渐趋于稳定,且相对于基于RMSE的低波动差分算法具有较好的表现.
为了推进观察,对数据处理过程中的加解密效率进行了研究.如图 5所示,将冗余块的数量固定为2,展现了不同数据量的数据块下的效率.随着数据块数量的上升,加密和解密时间也随之上升,当数据块数量增长到300后,加密和解密时间上升速度更加显著.可知,解密过程中所花费的时间相比加密过程更多,因此应该更加注重对该机制下揭秘效率的提升,在实际应用场景中,传感器收集的数据在上传及下载的过程中对于时间并没有过多的需求,由此可以推出该方法是可行的.
在实验过程中,该机制不但解决了传感云的存储效率,也减少了传输过程中的带宽消耗.如图 6所示,将冗余块数量设为2,数据块数量设为300,随着数据总量的增长,2种算法相比传统算法与TLS模型相比都节约了一定的带宽消耗,并且效果也越来越显著.这些结果表明,提出的机制与算法可以有效地适用于传感云系统,减少存储成本与带宽,提高存储安全性,在一定程度上充分利用资源,减轻了CSP与用户的压力.该方法在边缘层上的应用,最大化利用了其计算能力与缓存能力,减轻了云端压力.
提出了一种基于边缘计算的安全差分数据保护方案.这种方法主要解决了传统传感云存储机制中的隐私和成本问题.实验结果表明,与传统方案相比,该方案提高了传感云的存储效率,降低了传输带宽消耗,使得传感云安全性能得到提升.基于外包服务和云计算的基本特点,从服务质量的角度对传感云数据存储框架进行了细化,可应用于大规模传感器云系统.未来将研究多边缘设备对数据协同处理的方案,使得数据处理过程中的效率进一步提高.
[1] |
曾建电, 王田, 贾维嘉, 等. 传感云研究综述[J]. 计算机研究与发展, 2017, 54(5): 925-939. Zeng Jiandian, Wang Tian, Jia Weijia, et al. Summary of sensor cloud research[J]. Computer Research and Development, 2017, 54(5): 925-939. |
[2] |
Wang Tian, Zeng Jiandian, Lai Yongxuan, et al. Data collection from WSNs to the cloud based on mobile fog elements[J]. Future Generation Computer Systems, 2020, 105: 864-872. DOI:10.1016/j.future.2017.07.031 |
[3] |
梁玉珠, 沈雪微, 邱磊, 等. 物联网中基于扩展卡尔曼滤波的移动群体定位[J]. 北京邮电大学学报, 2019, 42(2): 95-100. Liang Yuzhu, Shen Xuewei, Qiu Lei, et al. Extended Kalman filter for mobile groups users localization in internet of things[J]. Journal of Beijing University of Posts and Telecommunications, 2019, 42(2): 95-100. |
[4] |
Tan Jiawei, Liu Wei, Wang Tian, et al. An adaptive collection scheme-based matrix completion for data gathering in energy harvesting wireless sensor networks[J]. IEEE Access, 2019, 7: 6703-6723. DOI:10.1109/ACCESS.2019.2890862 |
[5] |
王田, 李洋, 贾维嘉, 等. 传感云安全研究进展[J]. 通信学报, 2018, 39(3): 35-52. Wang Tian, Li Yang, Jia Weijia, et al. Research progress of sensor cloud security[J]. Journal of Communications, 2018, 39(3): 35-52. |
[6] |
王田, 沈雪微, 罗皓, 等. 基于雾计算的可信传感云研究进展[J]. 通信学报, 2019, 40(3): 170-181. Wang Tian, Shen Xuewei, Luo Hao, et al. Research progress of trusted sensor-cloud based on fog computing[J]. Journal on Communications, 2019, 40(3): 170-181. |
[7] |
Lopez-Falcon E, Tchernykh A, Chervyakov N, et al. Adaptive encrypted cloud storage model[C]//2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering. New York: IEEE Press, 2018: 329-334.
|
[8] |
Chi P, Lei C. Audit-free cloud storage via deniable attribute-based encryption[J]. IEEE Transactions on Cloud Computing, 2018, 6(2): 414-427. DOI:10.1109/TCC.2015.2424882 |
[9] |
Wang Tian, Zhou Jiyuan, Chen Xinlei, et al. A three-layer privacy preserving cloud storage scheme based on computational intelligence in fog computing[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2(1): 3-12. DOI:10.1109/TETCI.2017.2764109 |
[10] |
Jin Xuexue, Yu Nenghai, Zhang Chi, et al. De-duplication of encrypted data with proof of ownership in cloud storage[J]. Information Security & Communications Privacy, 2013, 8(1): 224-229. |
[11] |
Wu Yulin, Jiang Z L, Wang Xuan, et al. Dynamic data operations with deduplication in privacy-preserving public auditing for secure cloud storage[C]//2017 IEEE International Conference on Computational Science and Engineering and IEEE International Conference on Embedded and Ubiquitous Computing. New York: IEEE Press, 2017: 562-567.
|
[12] |
Muthurajkumar S, Vijayalakshmi M, Kannan A. An effective data storage model for cloud databases using temporal data de-duplication approach[C]//2016 Eighth International Conference on Advanced Computing. New York: IEEE Press, 2017: 42-45.
|
[13] |
Zafar F, Khan A, Malik S U R, et al. A survey of cloud computing data integrity schemes:design challenges, taxonomy and future trends[J]. Computers & Security, 2017, 65: 29-49. |
[14] |
李道全, 张玉霞, 魏艳婷. 无线传感器网络源位置隐私保护路由协议[J]. 计算机技术与发展, 2019, 29(7): 87-92. Li Daoquan, Zhang Yuxia, Wei Yanting. Energy efficient query processing techniques based on particle filters in wireless sensor networks[J]. Computer Technology and Development, 2019, 29(7): 87-92. |
[15] |
Hua Junhao, Li Chunguang. Distributed variational bayesian algorithms over sensor networks[J]. IEEE Transactions on Signal Processing, 2016, 64(3): 783-798. DOI:10.1109/TSP.2015.2493979 |
[16] |
Liang Chen, Wen Fuxi, Wang Zhongmin. Distributed parameter estimation for univariate generalized Gaussian distribution over sensor networks[J]. Circuits, Systems, and Signal Processing, 2017, 36: 1311-1321. DOI:10.1007/s00034-016-0345-0 |
[17] |
Xu Guangquan, Zhang Yao, Sangaiah A K, et al. CSP-E2:an abuse-free contract signing protocol with low-storage TTP for energy efficient electronic transaction ecosystems[J]. Information Sciences, 2019, 476: 505-515. DOI:10.1016/j.ins.2018.05.022 |
[18] |
Huang Mingfeng, Liu Anfeng, Xiong N N, et al. A low-latency communication scheme for mobile wireless sensor control systems[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2019, 49(2): 317-332. |
[19] |
张素洁, 赵怀慈. 最优聚类个数和初始聚类中心点选取算法研究[J]. 计算机应用研究, 2017, 34(6): 1617-1620. Zhang Sujie, Zhao Huaici. Research on the optimal clustering number and the selection of the initial clustering center[J]. Computer Applied Research, 2017, 34(6): 1617-1620. |