文章信息
- 陈晶, 王文武, 杜瑞颖, 曾诚
- CHEN Jing, WANG Wenwu, DU Ruiying, ZENG Cheng
- 一种随机化的网站指纹防御方法
- A Randomized Website Fingerprint Defense Method
- 武汉大学学报(理学版), 2017, 63(5): 397-402
- Journal of Wuhan University(Natural Science Edition), 2017, 63(5): 397-402
- http://dx.doi.org/10.14188/j.1671-8836.2017.05.003
-
文章历史
- 收稿日期:2017-01-15
2. 湖北省高级人民法院, 湖北 武汉 430071
2. Hubei Higher People's Court, Wuhan 430071, Hubei, China
网站指纹(WF,website fingerprint)攻击指一个本地的、被动的窃听者通过观察用户访问网站的数据包序列特征(比如包长、时间、方向等)获取用户访问了哪一个网站信息[1].它需要的计算量很小,而且被检测到的风险也很小.
传统的数据加密机制只是隐藏了通信内容,并未隐藏流量的大小和方向等元数据信息,这些信息看起来似乎是无害的,却容易导致流量分析(TA)攻击.随着隐私保护技术的不断发展,匿名通信系统产生了,它既模糊了通信内容,也模糊了元数据,阻止一个被动的攻击者观察通信的源地址或目的地址.同类研究显示,即使使用隐私保护技术隐藏数据包内容、地址和大小,WF攻击也是可能的[2~7].Tor(the onion router)是最常用的匿名通信系统,它是一种没有大量修改网络流量模型的低延迟系统,它仅仅实施了两个简单的WF防御[8, 9],这导致了攻击者可以通过观察用户请求网站泄露的数据包顺序、时间和数量窃取隐私数据.
Dyer等[8]发现,即使用户使用网络级的防御措施浏览网页,攻击者依然能以80%的成功率推断用户访问了128个网页中的哪一个.在大量网络级和应用程序级防御措施下,Cai等[2]能获得超过75%的成功率(由100个网站组成).
在当前网络安全威胁日益严重的背景下,安全性显得尤其重要,但是,WF防御的研究并不多见,已存在的防御措施不能抵御新的攻击[7, 10].WF防御通过模糊或掩盖Web流量特征,使得这些特征在不同网页之间难以被区分,降低WF攻击的准确性.最常用的防御措施是在数据加密前进行填充隐藏数据长度,Cai等[1]发现Tor没有提供安全保证,也发现Luo等[9]提出的HTTPOS安全性很弱,Wright等[10]提出了流量变形,但是,Dyer等[8]发现它的抵御能力很小.2012年,Dyer等[8]提出了BuFLO,用户以固定的时间间隔在固定的时间段内发送固定长度的数据包(包括虚假数据包),2014年Cai等[1]在此基础上提出了安全性和带宽开销都要好的Tamaraw.上述防御都是以固定方式模糊数据包流量特征,但是,WF的真正问题不是它的惟一性,而是它的可链接性,每次访问网站都能链接到同一个指纹.基于上述问题,本文提出一种新型的WF防御方法——随机化隐私改变器.随机化隐私改变器以随机频率发送随机时间、随机长度数据包,同时随机请求一个虚假网站作为噪音流量,全方位对网站指纹信息进行模糊.
1 背景知识 1.1 TorTor是一种匿名网络,每天有超过150万的用户使用,每秒有25 GB的数据(https://metrics.torproject.org/).Tor由7 000个自愿转发用户数据的中继组成,中继之间使用TLS通信.
Tor的目的是保护用户匿名通信.但是,Tor不能抵御攻击者在用户和circuit中第一个中继(称为入口中继)之间监听流量实施WF攻击.而且,Tor入口中继不一定是可靠的,它也可能成为攻击者利用的对象.为此Tor实施了流水线和请求随机化防御抵御WF攻击.
1.1.1 circuit和stream当用户使用Tor时,会随机选择3个中继:入口中继,中间中继和出口中继.通过这3个中继建立一条持续10 min的circuit,如果超过10 min,将会重新建立一条新的circuit.为了限制去匿名率,每个用户有一个包含3个入口中继的列表,这个列表将会使用30到60 d,但是中间和出口中继会随机根据带宽和负载均衡从每条circuit选择.这种随机选择的中继会改变Tor性能,进一步影响数据收集.
一旦一条circuit打开,用户使用大量stream通过circuit通信.每条stream对应于一次单独的TCP链接,并且stream在circuit是多路复用的.一个用户可能打开多个stream加载一个网站.
Tor使用大量控制单元命令中继和Tor用户的通信.其中SENDME控制单元执行流控制[11].每条circuit每100个控制单元发送一个circuit级的SENDME单元,每条stream每50个控制单元发送一个stream级的SENDME单元.当用户收集数据时,这些单元也会被收集到,但它们没有提供任何有用的信息,属于噪声数据,应该将其删除.
1.1.2 防御措施当Panchenko等[12]在Tor实施了第一个成功的WF攻击,Tor开发者对其进行了改进[13].这次改进包括3个部分:使用HTTP流水线;流水线大小随机;请求顺序随机化.这个改进并未对整个传输字节产生很大影响,Tor开发者也没有测试此次改进的效果.大量的研究者发现Tor并不安全.
1.2 攻击模型假设WF攻击者是被动的和本地的:攻击者能窃听用户流量,但是不能添加,删除或者修改数据包,也假设攻击者不能解密网络数据包内容.
图 1描述了WF攻击的基本情景:用户通过匿名加密隧道访问Web服务,攻击者位于用户和入口代理服务器网络之间,并不断窃听收集通信流量,以此与WF数据库进行匹配.
![]() |
图 1 攻击模型 Figure 1 Attack model |
WF攻击包括如下两个步骤:在训练阶段,使用尽可能与用户相似的网络设置收集通信流量,可以表示为集合{(X1, l1), (X2, l2), …, (Xn, ln)},其中,Xi是特征向量,li是该特征所属标签,然后用分类器对其训练,建立被监控网站的指纹数据库;在测试阶段,窃听用户数据包流量,提取特征向量Y,将其与训练阶段建立的指纹数据库进行匹配,确定该特征向量标签.本文分类器默认选择k最近邻(kNN)分类算法,KNN的准确度主要依靠距离函数,本文选择Wang等[6]提出的combined OSAD.
2 随机化隐私改变器方案根据同类研究,任何有效的防御措施都必须隐藏数据包的指纹,因此,随机化隐私改变器也应该模糊或掩盖这些侧信道信息.Hayes等[14]对特征的研究发现出包(从客户端发送给服务器端的数据包)和进包(从服务器端发送给客户端的数据包)特征的重要程度是不一样的,因此随机化隐私改变器也分别对出包和进包进行了处理.
随机化隐私改变器的3个参数:
1) f指每次数据包的发送频率(B/ms).
2) t指每次数据包发送的最短持续时间(ms).
3) l指每次发送数据包的长度(B).
当用户访问真实网站资源时随机化隐私改变器即启动,3个参数是不断变化的,每次随机选取使用后,下一次又重新选择这3个参数,同时每次随机从Alexa(http://www.alexa.com/)前100个页面中(不做特殊说明,都是按序选择)随机选取一个虚假请求网站作为噪音流量掩盖数据包流量.如果数据流在时间t内没有发送完,随机化隐私改变器会截断数据包,在下一个时段按数据包长度l发送,如果截断后的数据包长度小于l,则进行填充,如果大于l,则进行截断处理.当在时间t内没有数据流发送时,将会发送虚假数据.客户端添加虚假出包,合作者添加虚假进包,合作者位于攻击者和目标服务器之间.在单跳网络,代理服务器作为合作者,在Tor这样的多跳网络,合作者可以是任何中继,靠近客户端的代理可以节省带宽开销,因为填充只存在于客户端和合作者之间.在理想情况下,随机化隐私改变器对数据包大小、时间、数量等特征都进行了模糊,因此它是一种通用性的防御措施.
3 现实场景当前的研究中,WF攻击的网站更多地被看作是网站主页,确切地应该称之为网页指纹攻击,实际应用中网站除了主页,还包括大量的子页,且用户还通过超链接访问网站资源.
3.1 网站指纹攻击和网页指纹攻击比较网页指纹攻击,一个网站只由主页组成;WF攻击,网站包含主页和子页.在闭源条件下选择Alexa top排名的前10个网站.在网页指纹攻击下,每个网站只由主页组成;在WF攻击下,每个网站由1个主页和50个子页组成,且每个页面只含有一个例子,选择主页和20个子页例子作为训练集.实验结果如图 2.
![]() |
图 2 网页指纹攻击和网站指纹攻击识别率比较 Figure 2 Webpage Fingerprint attack and Website Fingerprint attack comparison |
从图 2可以计算得出,网页指纹攻击的识别率(混淆矩阵对角线上数字之和除以矩阵中所有数字之和)为74%,WF攻击的识别率只有46%.也就是说网页指纹攻击的准确度比WF指纹攻击的准确度要高,网页指纹攻击高估了准确度,因此本文考虑现实环境的WF攻击.
3.2 超链接对网站指纹的影响由文献[15, 16]可知,用户使用多窗口浏览网页,攻击者依然能够获得很高的网站指纹识别准确度.这里我们讨论用户请求网站资源的一种现实场景,通过超链接检索属于同一网站子页的情况.用户在访问一个网页后通常会有一个延迟(称之为“思考时间”),然后通过超链接访问第二个网页.为了研究超链接对WF攻击的影响,首先通过Alexa top排名请求主页,然后点击其子页并记下此子页的网址,最后通过直接访问该网址和通过主页超链接的形式访问这个子页.
直接访问代表直接通过子页网址进行访问,超链接代表先访问主页,然后通过其超链接访问子页.从图 3可以看到,通过超链接访问的子页准确度比要直接访问的方式高,这说明用户实际的网页浏览模式会进一步增大攻击的成功率.但是随着数据集增大,准确度会有所降低.
![]() |
图 3 超链接对网站指纹准确度的影响 Figure 3 The effect of hyperlink on WF accuracy |
由以上研究可以看出,已有的对WF的研究由于只考虑了网站主页而没有考虑子页,因此是不现实的,对数据集的收集也会产生影响.本文在防御WF攻击时,从现实数据出发收集数据,以提高防御攻击的能力.
4 数据收集、提取和处理 4.1 数据收集1) circuit构建:带宽开销和拥塞会影响数据包序列.因此,使用同一circuit收集的数据比使用不同circuit收集的数据更相似.假设攻击者可以观察用户网络流量,但是不能控制或者观察用户使用的circuit.
2) 时间:网站内容随时间不断变化.比如,新闻网站每天可能有不同的图片和文本,甚至不同的资源.因此,同一个网站训练和测试时的数据包流量可能是不一样的.
3) 本土化:根据出口中继的不同位置,网站可能呈现不一样的数据,这就是所谓的网站本土化,尤其是对一些比较流行的网站,比如,谷歌和雅虎.大体来说,有两种本土化跟WF有关,第一类是重定向:一个加拿大用户访问google.com将会重定向到google.ca,即用户访问网站依据位置不同而不同.第二类涉及内容的改变:一个德国广告应该显示给从德国连接的用户或者Tor用户的出口节点在德国,而其他人不可能看到德国广告.使用Tor时,用户的位置是由出口中继决定的,而出口中继又是由circuit决定的.为了保护用户隐私,Tor并未根据用户位置选择出口中继.
基于上述3个问题,本文提出如下解决方案.第一,为了处理circuit和时间问题,使用成批的方式收集流量,每一批包含m个网站,每隔两个小时后使用不同的circuit收集.第二,为了确保同一个网站流量的一致性,修改Alexa top排名列表避免本土化重定向,它包含两个步骤.首先,删除列表中同一个网站由于不同本土化而重复出现的网站.比如,不同本土化的google.com在top100网站列表中出现了多次,这些都有相似的流量序列,攻击者通常不会区分它们.其次,无论什么时候有需要,本文都可以访问指定网站的本土化版本.也就是说不想访问yahoo.com,而是访问yahoo.de.Alexa top列表的修改是手动完成的(移除了特别大的tumblr.com).
4.2 提取和处理一旦攻击者收集到数据流量,为了使准确度更高,需要在特征选择之前进行数据提取和处理.处理之后,每个流量例子由正负整数序列表示.下面描述提取和处理方式.
用于网站指纹识别的特征基于数据包大小,方向和顺序.可以在不同的层中提取此信息:cell,TLS和TCP.在应用层,Tor将加密数据嵌入固定大小的数据包,称为cell,长度为512字节,cell进一步嵌入到TLS record中.多个cell可以分组为单个TLS record.最后,在传输层中,TLS record通常被分成多个TCP数据包,其大小由最大传输单元(MTU)限制,或几个TLS record合并到单个TCP分组.
本文直接提取cell,它是一种比TCP包更一致的基本单元.cell不能在传输中被中继分裂或者合并在一起,不像TCP包.cell总是填充为一个固定大小,但是TCP包依据连接改变.因此cell序列仅包含整数1和-1.
4.3 数据包特征选择在数据流量提取和处理后,需要从流量中选择信息量大的特征.当两个类有不同的特征时,分类器能够成功的区分它们,因此,WF防御应该有效的隐藏这些特征.Hayes等[14]对特征进行了比较系统的研究,发现特征主要集中在包的数量和大小、进出包区别、首尾包数量等,其中最重要的特征是进包数量,随机化隐私改变器将对这些特征进行了模糊或掩盖.本文选择数据包数量、方向和顺序特征.
5 实验评估为了检测随机化隐私改变器的现实性效果,本文在现实场景下比较了WF攻击在有和没有随机化隐私改变器下的准确度.并将随机化隐私改变器与Tamaraw进行了比较.
5.1 评估场景WF攻击通常在两种情况下评估:第一,在闭源条件下,用户访问的网站局限于固定的集合.显然这种场景不现实,但是它适合比较、分析攻击和防御性能.第二,在开源条件下,攻击者试图确定用户访问的网站(攻击者可能不知道该网站)是否属于给定的监控集,攻击者不知道的网站被称为背景集,监控的网站被称为前景集.
在闭源条件下,每次实验后,随机地选择k(k≤n)个网站作为数据集,并从中在每个网站选出50个例子.步骤如下:将数据集中每个网站的m个例子按收集时间顺序排序,之后随机选择一个整数i(i={0, 1, …, m-49}),每个网页的i, i+1, …, i+49作为这50个例子.前t(t=20) 个例子作为训练集,后T(T=30) 个例子作为测试集.
在开源条件下,数据集包括前景集和背景集,本文选择闭源条件下的数据集作为前景集,选择Alexa top后的u个网页(每个网页包含一个例子)作为背景集.不做特别说明都是指开源条件.
本文默认选择Alexa top排名的前100个网站作为前景集,紧接之后的5 000个网页作为背景集.每个网站由一个主页和4个子页组成,每个主页和子页都包含50个例子,背景集的每个网页包含一个例子.随机连续选择前景集的主页30个例子、子页30个例子和背景集的非监控3 000个例子作为训练集,前景集和背景集中剩下的例子作为测试集.
5.2 随机化隐私改变器评估 5.2.1 针对已知攻击的性能评估表 1给出了当带宽开销为0.76,时间开销0.68时的结果.从表 1可以看到,在随机化隐私改变器的防御机制下,攻击的准确度都大大降低了.
图 4显示了KNN在随机化隐私改变器和Tamaraw下的准确度随带宽开销的变化趋势.带宽开销
![]() |
图 4 随机化隐私改变器和Tamaraw的准确度比较 Figure 4 Accuracy of randomized privacy modifier and with Tamaraw |
Tor作为当前最流行的匿名通信系统,它的简易防御措施使得Tor面临巨大的安全挑战.本文针对Tor目前存在的用户访问网站指纹信息泄露问题,设计并实现了一种新颖的网站指纹防御方案—随机化隐私改变器.目前大多的WF攻击实验数据只考虑了网页指纹攻击,没有考虑用户的Web浏览行为对攻击准确度影响,而现实环境中WF攻击不仅是网页指纹攻击,本文的实验数据考虑了这些因素,与现实环境一致,实验结果表明,随机化隐私改变器大大降低WF攻击的准确度,同时它的防御效果比同类防御Tamaraw好.
本文数据集比较小,因此下一步的工作将扩大数据集,使结果更精确.
[1] |
CAI X, NITHYANAND R, WANG T, et al. A systematic approach to developing and evaluating website fingerprinting defenses[C]//Proceedings of the 21st ACM Conference on Computer and Communications Security. New York:ACM, 2014:227-238.DOI:10.1145/2660267.2660362.
|
[2] |
CAI X, ZHANG X C, JOSHI B, et al. Touching from a distance:website fingerprinting attacks and defenses[C]//ACM Conference on Computer and Communications Security. New York:ACM, 2012:605-616. DOI:10.1145/2382196.2382260.
|
[3] |
HERRMANN D, WENDOLSKY R, FEDERRATH H. Website Fingerprinting:attacking popular privacy enhancing technologies with the Multinomial Naive-bayes classifier[C]//Proceedings of the 2009 ACM Workshop on Cloud Computing Security. New York:ACM, 2009:31-42. DOI:10.1145/1655008.1655013.
|
[4] |
LIBERATORE M, LEVINE B N. Inferring the source of encrypted HTTP connections[C]//Proceedings of the 13th ACM Conference on Computer and Communications Security. New York:ACM, 2006:255-263. DOI:10.1145/1180405.1180437.
|
[5] |
WANG T, GOLDBERG I. On realistically attacking Tor with Website Fingerprinting[C]//Proceedings on Privacy Enhancing Technologies. Berlin:Spring-Verlag, 2016:21-36. DOI:10.1515/popets-2016-0027.
|
[6] |
WANG T, GOLDBERG I. Improved website fingerprinting on Tor[C]//Proceedings of the 12th ACM Workshop on Workshop on Privacy in the Electronic Society. New York:ACM, 2013:201-212. DOI:10.1145/2517840.2517851.
|
[7] |
WANG T, CAI X, NITHYANAND R, et al. Effective attacks and provable defenses for website fingerprinting[C]//Proceedings of the 23rd USENIX Security Symposium. Berkeley:USENIX, 2014:143-157.
|
[8] |
DYER K, COULL S, RISTENPART T, et al. Peek-a-Boo, I still see you:why efficient traffic analysis countermeasures fail[C]//Proceedings of the 2012 IEEE Symposium on Security and Privacy. Washington, D C:IEEE Computer Society, 2012:332-346. DOI:10.1109/SP.2012.28.
|
[9] |
LUO X P, ZHOU P, CHAN E W W, et al. HTTPOS:Sealing Information Leaks with Browser-side Obfuscation of Encrypted Flows[DB/OL].[2017-01-02].http://www.internetsociety.org/sites/default/files/luo.pdf.
|
[10] |
WRIGHT C, COULL S, MONROSE F. Traffic morphing:an efficient defense against statistical traffic analysis[DB/OL].[2017-01-02]. http://web.cecs.pdx.edu/~cvwright/papers/morphing.pdf.
|
[11] |
DINGLEDINE R, MATHEWSON N, SYVERSON P F. Tor:the second-generation onion router[C]//Proceedings of the 13th USENIX Security Symposium. Berkeley:USENIX, 2004:303-320. DOI:10.1.1.4.6896.
|
[12] |
PANCHENKO A, NIESSEN L, ZINNEN A, et al. Website fingerprinting in onion routing based anonymization networks[C]//Proceedings of the 10th ACM Workshop on Privacy in the Electronic Society. New York:ACM, 2011:103-114.DOI:10.1145/2046556.2046570.
|
[13] |
PERRY M. Experimental Defense for Website Traffic Fingerprinting[EB/OL].[2011-09-05].https://blog.torproject.org/blog/experimental-defense-website-tr-affic-fingerprinting.
|
[14] |
HAYES J, DANEZIS G. k-Fingerprinting:A Robust Scalable Website Fingerprinting Technique[DB/OL].[2016-09-05]. http://xueshu.baidu.com/s?wd=paperuri%3A%28239df3c4b43255ccac06affb54478bc1%29 & filter=sc_long_sign & tn=SE_xueshusource_2kduw22v & sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1509.00789 & ie=utf-8 & sc_us=10844508426409760753.
|
[15] |
JUAREZ M, AFROZ S, ACAR G, et al. A critical evaluation of website fingerprinting attacks[C]//Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security. New York:ACM, 2014:263-274. DOI:10.1145/2660267.2660368.
|
[16] |
GU X D, YANG M, LUO J Z. A novel Website Fingerprinting attack against multitab browsing behavior[J]. IEEE International Conference on Computer Supported Cooperative Work in Design, 2015, 10(9): 234-239. DOI:10.1109/CSCWD.2015.7230964 |
[17] |
PANCHENKO A, LANZE F, ZINNEN A, et al. Website Fingerprinting at Internet Scale[DB/OL].[2017-01-05].https://www.researchgate.net/publication/306097739_Website_Fingerprinting_at_Internet_Scale.DOI:10.14722/ndss.2016.23477.
|