一种随机化的网站指纹防御方法

文章信息

陈晶, 王文武, 杜瑞颖, 曾诚

CHEN Jing, WANG Wenwu, DU Ruiying, ZENG Cheng

一种随机化的网站指纹防御方法

A Randomized Website Fingerprint Defense Method

武汉大学学报(理学版), 2017, 63(5): 397-402

Journal of Wuhan University(Natural Science Edition), 2017, 63(5): 397-402

http://dx.doi.org/10.14188/j.1671-8836.2017.05.003

文章历史

收稿日期：2017-01-15

Abstract

PDF

Figures

Tables

引用本文

陈晶, 王文武, 杜瑞颖, 曾诚. 一种随机化的网站指纹防御方法[J]. 武汉大学学报(理学版),2017, 63(5): 397-402. 复制到剪切板

CHEN Jing, WANG Wenwu, DU Ruiying, ZENG Cheng. A Randomized Website Fingerprint Defense Method[J]. Journal of Wuhan University(Natural Science Edition) , 2017, 63(5): 397-402. 复制到剪切板

一种随机化的网站指纹防御方法

陈晶¹, 王文武¹, 杜瑞颖¹, 曾诚²

1. 武汉大学计算机学院, 湖北武汉 430072;
2. 湖北省高级人民法院, 湖北武汉 430071

收稿日期：2017-01-15

基金项目：国家自然科学基金资助项目（61272451，61572380）

作者简介：陈晶, 男, 教授, 主要从事网络安全方面的研究.E-mail:chenjing@whu.edu.cn

摘要：Tor（the onion router）目前存在用户访问网站指纹信息泄露，真正问题不是它的惟一性，而是它的可链接性，即每次访问网站都能链接到同一个指纹.基于此发现，利用随机化策略，设计并实现了一种新颖的网站指纹防御方案：随机化隐私改变器。随机化隐私改变器以随机频率发送随机时间、随机长度数据包，同时随机请求一个虚假网站作为噪音流量，全方位对网站指纹信息进行了模糊.实验结果表明，网站指纹攻击的准确度在随机化隐私改变器防御下大大地降低了，极大地提高了Tor的安全性，而且它的防御效果比同类的Tamaraw好.

关键词：随机化隐私改变器网站指纹隐私保护, 洋葱路由器

A Randomized Website Fingerprint Defense Method

CHEN Jing¹, WANG Wenwu¹, DU Ruiying¹, ZENG Cheng²

1. School of Computer, Wuhan University, Wuhan 430072, Hubei, China;
2. Hubei Higher People's Court, Wuhan 430071, Hubei, China

Abstract: Website Fingerprint can disclose users' information even users utilize the Tor. The real problem with fingerprint is not the uniqueness but the linkability, i.e., the ability to connect the same fingerprint across multiple visits.Based on this foundation, we design and implement a novel website fingerprint defense scheme called randomized privacy modifier. The randomized privacy modifier can send the random length packet of random length for random time, and randomly requests a fake website as the noise flow, thus the full range of fingerprint information on the website was vague.Experimental results show that the accuracy of website fingerprint attack is greatly reduced under the randomized privacy modifier defense, and the effect is better than similar defense Tamaraw.Therefore our scheme improves the security of Tor.

Key words: randomized privacy modifier website fingerprint privacy protection Tor(the onion router)

0 引言

网站指纹(WF，website fingerprint)攻击指一个本地的、被动的窃听者通过观察用户访问网站的数据包序列特征(比如包长、时间、方向等)获取用户访问了哪一个网站信息^[1].它需要的计算量很小，而且被检测到的风险也很小.

传统的数据加密机制只是隐藏了通信内容，并未隐藏流量的大小和方向等元数据信息，这些信息看起来似乎是无害的，却容易导致流量分析(TA)攻击.随着隐私保护技术的不断发展，匿名通信系统产生了，它既模糊了通信内容，也模糊了元数据，阻止一个被动的攻击者观察通信的源地址或目的地址.同类研究显示，即使使用隐私保护技术隐藏数据包内容、地址和大小，WF攻击也是可能的^[2~7].Tor(the onion router)是最常用的匿名通信系统，它是一种没有大量修改网络流量模型的低延迟系统，它仅仅实施了两个简单的WF防御^{[8, 9]}，这导致了攻击者可以通过观察用户请求网站泄露的数据包顺序、时间和数量窃取隐私数据.

Dyer等^[8]发现，即使用户使用网络级的防御措施浏览网页，攻击者依然能以80%的成功率推断用户访问了128个网页中的哪一个.在大量网络级和应用程序级防御措施下，Cai等^[2]能获得超过75%的成功率(由100个网站组成).

在当前网络安全威胁日益严重的背景下，安全性显得尤其重要，但是，WF防御的研究并不多见，已存在的防御措施不能抵御新的攻击^{[7, 10]}.WF防御通过模糊或掩盖Web流量特征，使得这些特征在不同网页之间难以被区分，降低WF攻击的准确性.最常用的防御措施是在数据加密前进行填充隐藏数据长度，Cai等^[1]发现Tor没有提供安全保证，也发现Luo等^[9]提出的HTTPOS安全性很弱，Wright等^[10]提出了流量变形，但是，Dyer等^[8]发现它的抵御能力很小.2012年，Dyer等^[8]提出了BuFLO，用户以固定的时间间隔在固定的时间段内发送固定长度的数据包(包括虚假数据包)，2014年Cai等^[1]在此基础上提出了安全性和带宽开销都要好的Tamaraw.上述防御都是以固定方式模糊数据包流量特征，但是，WF的真正问题不是它的惟一性，而是它的可链接性，每次访问网站都能链接到同一个指纹.基于上述问题，本文提出一种新型的WF防御方法——随机化隐私改变器.随机化隐私改变器以随机频率发送随机时间、随机长度数据包，同时随机请求一个虚假网站作为噪音流量，全方位对网站指纹信息进行模糊.

1 背景知识 1.1 Tor

Tor是一种匿名网络，每天有超过150万的用户使用，每秒有25 GB的数据(https://metrics.torproject.org/).Tor由7 000个自愿转发用户数据的中继组成，中继之间使用TLS通信.

Tor的目的是保护用户匿名通信.但是，Tor不能抵御攻击者在用户和circuit中第一个中继(称为入口中继)之间监听流量实施WF攻击.而且，Tor入口中继不一定是可靠的，它也可能成为攻击者利用的对象.为此Tor实施了流水线和请求随机化防御抵御WF攻击.

1.1.1 circuit和stream

当用户使用Tor时，会随机选择3个中继：入口中继，中间中继和出口中继.通过这3个中继建立一条持续10 min的circuit，如果超过10 min，将会重新建立一条新的circuit.为了限制去匿名率，每个用户有一个包含3个入口中继的列表，这个列表将会使用30到60 d，但是中间和出口中继会随机根据带宽和负载均衡从每条circuit选择.这种随机选择的中继会改变Tor性能，进一步影响数据收集.

一旦一条circuit打开，用户使用大量stream通过circuit通信.每条stream对应于一次单独的TCP链接，并且stream在circuit是多路复用的.一个用户可能打开多个stream加载一个网站.

Tor使用大量控制单元命令中继和Tor用户的通信.其中SENDME控制单元执行流控制^[11].每条circuit每100个控制单元发送一个circuit级的SENDME单元，每条stream每50个控制单元发送一个stream级的SENDME单元.当用户收集数据时，这些单元也会被收集到，但它们没有提供任何有用的信息，属于噪声数据，应该将其删除.

1.1.2 防御措施

当Panchenko等^[12]在Tor实施了第一个成功的WF攻击，Tor开发者对其进行了改进^[13].这次改进包括3个部分：使用HTTP流水线；流水线大小随机；请求顺序随机化.这个改进并未对整个传输字节产生很大影响，Tor开发者也没有测试此次改进的效果.大量的研究者发现Tor并不安全.

1.2 攻击模型

假设WF攻击者是被动的和本地的：攻击者能窃听用户流量，但是不能添加，删除或者修改数据包，也假设攻击者不能解密网络数据包内容.

图 1描述了WF攻击的基本情景：用户通过匿名加密隧道访问Web服务，攻击者位于用户和入口代理服务器网络之间，并不断窃听收集通信流量，以此与WF数据库进行匹配.

图 1 攻击模型 Figure 1 Attack model

图选项

WF攻击包括如下两个步骤：在训练阶段，使用尽可能与用户相似的网络设置收集通信流量，可以表示为集合{(X₁, l₁), (X₂, l₂), …, (X_n, l_n)}，其中，X_i是特征向量，l_i是该特征所属标签，然后用分类器对其训练，建立被监控网站的指纹数据库；在测试阶段，窃听用户数据包流量，提取特征向量Y，将其与训练阶段建立的指纹数据库进行匹配，确定该特征向量标签.本文分类器默认选择k最近邻(kNN)分类算法，KNN的准确度主要依靠距离函数，本文选择Wang等^[6]提出的combined OSAD.

2 随机化隐私改变器方案

根据同类研究，任何有效的防御措施都必须隐藏数据包的指纹，因此，随机化隐私改变器也应该模糊或掩盖这些侧信道信息.Hayes等^[14]对特征的研究发现出包(从客户端发送给服务器端的数据包)和进包(从服务器端发送给客户端的数据包)特征的重要程度是不一样的，因此随机化隐私改变器也分别对出包和进包进行了处理.

随机化隐私改变器的3个参数：

1) f指每次数据包的发送频率(B/ms).

2) t指每次数据包发送的最短持续时间(ms).

3) l指每次发送数据包的长度(B).

当用户访问真实网站资源时随机化隐私改变器即启动，3个参数是不断变化的，每次随机选取使用后，下一次又重新选择这3个参数，同时每次随机从Alexa(http://www.alexa.com/)前100个页面中(不做特殊说明，都是按序选择)随机选取一个虚假请求网站作为噪音流量掩盖数据包流量.如果数据流在时间t内没有发送完，随机化隐私改变器会截断数据包，在下一个时段按数据包长度l发送，如果截断后的数据包长度小于l，则进行填充，如果大于l，则进行截断处理.当在时间t内没有数据流发送时，将会发送虚假数据.客户端添加虚假出包，合作者添加虚假进包，合作者位于攻击者和目标服务器之间.在单跳网络，代理服务器作为合作者，在Tor这样的多跳网络，合作者可以是任何中继，靠近客户端的代理可以节省带宽开销，因为填充只存在于客户端和合作者之间.在理想情况下，随机化隐私改变器对数据包大小、时间、数量等特征都进行了模糊，因此它是一种通用性的防御措施.

3 现实场景

当前的研究中，WF攻击的网站更多地被看作是网站主页，确切地应该称之为网页指纹攻击，实际应用中网站除了主页，还包括大量的子页，且用户还通过超链接访问网站资源.

3.1 网站指纹攻击和网页指纹攻击比较

网页指纹攻击，一个网站只由主页组成；WF攻击，网站包含主页和子页.在闭源条件下选择Alexa top排名的前10个网站.在网页指纹攻击下，每个网站只由主页组成；在WF攻击下，每个网站由1个主页和50个子页组成，且每个页面只含有一个例子，选择主页和20个子页例子作为训练集.实验结果如图 2.

图 2 网页指纹攻击和网站指纹攻击识别率比较 Figure 2 Webpage Fingerprint attack and Website Fingerprint attack comparison

图选项

从图 2可以计算得出，网页指纹攻击的识别率(混淆矩阵对角线上数字之和除以矩阵中所有数字之和)为74%，WF攻击的识别率只有46%.也就是说网页指纹攻击的准确度比WF指纹攻击的准确度要高，网页指纹攻击高估了准确度，因此本文考虑现实环境的WF攻击.

3.2 超链接对网站指纹的影响

由文献[15, 16]可知，用户使用多窗口浏览网页，攻击者依然能够获得很高的网站指纹识别准确度.这里我们讨论用户请求网站资源的一种现实场景，通过超链接检索属于同一网站子页的情况.用户在访问一个网页后通常会有一个延迟(称之为“思考时间”)，然后通过超链接访问第二个网页.为了研究超链接对WF攻击的影响，首先通过Alexa top排名请求主页，然后点击其子页并记下此子页的网址，最后通过直接访问该网址和通过主页超链接的形式访问这个子页.

直接访问代表直接通过子页网址进行访问，超链接代表先访问主页，然后通过其超链接访问子页.从图 3可以看到，通过超链接访问的子页准确度比要直接访问的方式高，这说明用户实际的网页浏览模式会进一步增大攻击的成功率.但是随着数据集增大，准确度会有所降低.

图 3 超链接对网站指纹准确度的影响 Figure 3 The effect of hyperlink on WF accuracy

图选项

由以上研究可以看出，已有的对WF的研究由于只考虑了网站主页而没有考虑子页，因此是不现实的，对数据集的收集也会产生影响.本文在防御WF攻击时，从现实数据出发收集数据，以提高防御攻击的能力.

4 数据收集、提取和处理 4.1 数据收集

1) circuit构建：带宽开销和拥塞会影响数据包序列.因此，使用同一circuit收集的数据比使用不同circuit收集的数据更相似.假设攻击者可以观察用户网络流量，但是不能控制或者观察用户使用的circuit.

2) 时间：网站内容随时间不断变化.比如，新闻网站每天可能有不同的图片和文本，甚至不同的资源.因此，同一个网站训练和测试时的数据包流量可能是不一样的.

3) 本土化：根据出口中继的不同位置，网站可能呈现不一样的数据，这就是所谓的网站本土化，尤其是对一些比较流行的网站，比如，谷歌和雅虎.大体来说，有两种本土化跟WF有关，第一类是重定向：一个加拿大用户访问google.com将会重定向到google.ca，即用户访问网站依据位置不同而不同.第二类涉及内容的改变：一个德国广告应该显示给从德国连接的用户或者Tor用户的出口节点在德国，而其他人不可能看到德国广告.使用Tor时，用户的位置是由出口中继决定的，而出口中继又是由circuit决定的.为了保护用户隐私，Tor并未根据用户位置选择出口中继.

基于上述3个问题，本文提出如下解决方案.第一，为了处理circuit和时间问题，使用成批的方式收集流量，每一批包含m个网站，每隔两个小时后使用不同的circuit收集.第二，为了确保同一个网站流量的一致性，修改Alexa top排名列表避免本土化重定向，它包含两个步骤.首先，删除列表中同一个网站由于不同本土化而重复出现的网站.比如，不同本土化的google.com在top100网站列表中出现了多次，这些都有相似的流量序列，攻击者通常不会区分它们.其次，无论什么时候有需要，本文都可以访问指定网站的本土化版本.也就是说不想访问yahoo.com，而是访问yahoo.de.Alexa top列表的修改是手动完成的(移除了特别大的tumblr.com).

4.2 提取和处理

一旦攻击者收集到数据流量，为了使准确度更高，需要在特征选择之前进行数据提取和处理.处理之后，每个流量例子由正负整数序列表示.下面描述提取和处理方式.

用于网站指纹识别的特征基于数据包大小，方向和顺序.可以在不同的层中提取此信息：cell，TLS和TCP.在应用层，Tor将加密数据嵌入固定大小的数据包，称为cell，长度为512字节，cell进一步嵌入到TLS record中.多个cell可以分组为单个TLS record.最后，在传输层中，TLS record通常被分成多个TCP数据包，其大小由最大传输单元(MTU)限制，或几个TLS record合并到单个TCP分组.

本文直接提取cell，它是一种比TCP包更一致的基本单元.cell不能在传输中被中继分裂或者合并在一起，不像TCP包.cell总是填充为一个固定大小，但是TCP包依据连接改变.因此cell序列仅包含整数1和-1.

4.3 数据包特征选择

在数据流量提取和处理后，需要从流量中选择信息量大的特征.当两个类有不同的特征时，分类器能够成功的区分它们，因此，WF防御应该有效的隐藏这些特征.Hayes等^[14]对特征进行了比较系统的研究，发现特征主要集中在包的数量和大小、进出包区别、首尾包数量等，其中最重要的特征是进包数量，随机化隐私改变器将对这些特征进行了模糊或掩盖.本文选择数据包数量、方向和顺序特征.

5 实验评估

为了检测随机化隐私改变器的现实性效果，本文在现实场景下比较了WF攻击在有和没有随机化隐私改变器下的准确度.并将随机化隐私改变器与Tamaraw进行了比较.

5.1 评估场景

WF攻击通常在两种情况下评估：第一，在闭源条件下，用户访问的网站局限于固定的集合.显然这种场景不现实，但是它适合比较、分析攻击和防御性能.第二，在开源条件下，攻击者试图确定用户访问的网站(攻击者可能不知道该网站)是否属于给定的监控集，攻击者不知道的网站被称为背景集，监控的网站被称为前景集.

在闭源条件下，每次实验后，随机地选择k(k≤n)个网站作为数据集，并从中在每个网站选出50个例子.步骤如下：将数据集中每个网站的m个例子按收集时间顺序排序，之后随机选择一个整数i(i={0, 1, …, m-49})，每个网页的i, i+1, …, i+49作为这50个例子.前t(t=20) 个例子作为训练集，后T(T=30) 个例子作为测试集.

在开源条件下，数据集包括前景集和背景集，本文选择闭源条件下的数据集作为前景集，选择Alexa top后的u个网页(每个网页包含一个例子)作为背景集.不做特别说明都是指开源条件.

本文默认选择Alexa top排名的前100个网站作为前景集，紧接之后的5 000个网页作为背景集.每个网站由一个主页和4个子页组成，每个主页和子页都包含50个例子，背景集的每个网页包含一个例子.随机连续选择前景集的主页30个例子、子页30个例子和背景集的非监控3 000个例子作为训练集，前景集和背景集中剩下的例子作为测试集.

5.2 随机化隐私改变器评估 5.2.1 针对已知攻击的性能评估

表 1给出了当带宽开销为0.76，时间开销0.68时的结果.从表 1可以看到，在随机化隐私改变器的防御机制下，攻击的准确度都大大降低了.

表1 已知攻击在随机化隐私改变器下的准确度 Table 1 Known attack's accuracy under the randomized privacy modifier

已知攻击	无随机化隐私改变器	有随机化隐私改变器
Jaccard^[4]	0.78	0.03
Naive Bayes^[4]	0.74	0.22
MNBayes^[3]	0.98	0.08
SVM^[12]	0.77	0.31
DLevenshtein^[2]	0.91	0.16
OSAD^[6]	0.94	0.28
FLevenshtein^[6]	0.80	0.24
kNN^[7]	0.96	0.31
CUMUL^[17]	0.95	0.28
k-fingerprinting^[14]	0.97	0.37

表选项

5.2.2 随机化隐私改变器和Tamaraw比较

图 4显示了KNN在随机化隐私改变器和Tamaraw下的准确度随带宽开销的变化趋势.带宽开销，其中l_ap表示有防御机制下的数据包长度，它包含真实数据包和虚假数据包，l_rp表示没有防御机制下的数据包长度.从图中可以看出，攻击在随机化隐私改变器下的准确度比在Tamaraw下的准确度要低一些，说明随机化隐私改变器的防御效果比Tamaraw要好，而且随着带宽开销的不断增大，分类器的准确度在不断降低，这与事实也是相符的.

图 4 随机化隐私改变器和Tamaraw的准确度比较 Figure 4 Accuracy of randomized privacy modifier and with Tamaraw

图选项

6 结论

Tor作为当前最流行的匿名通信系统，它的简易防御措施使得Tor面临巨大的安全挑战.本文针对Tor目前存在的用户访问网站指纹信息泄露问题，设计并实现了一种新颖的网站指纹防御方案—随机化隐私改变器.目前大多的WF攻击实验数据只考虑了网页指纹攻击，没有考虑用户的Web浏览行为对攻击准确度影响，而现实环境中WF攻击不仅是网页指纹攻击，本文的实验数据考虑了这些因素，与现实环境一致，实验结果表明，随机化隐私改变器大大降低WF攻击的准确度，同时它的防御效果比同类防御Tamaraw好.

本文数据集比较小，因此下一步的工作将扩大数据集，使结果更精确.

参考文献

[1]	CAI X, NITHYANAND R, WANG T, et al. A systematic approach to developing and evaluating website fingerprinting defenses[C]//Proceedings of the 21st ACM Conference on Computer and Communications Security. New York:ACM, 2014:227-238.DOI:10.1145/2660267.2660362.

[2]	CAI X, ZHANG X C, JOSHI B, et al. Touching from a distance:website fingerprinting attacks and defenses[C]//ACM Conference on Computer and Communications Security. New York:ACM, 2012:605-616. DOI:10.1145/2382196.2382260.

[3]	HERRMANN D, WENDOLSKY R, FEDERRATH H. Website Fingerprinting:attacking popular privacy enhancing technologies with the Multinomial Naive-bayes classifier[C]//Proceedings of the 2009 ACM Workshop on Cloud Computing Security. New York:ACM, 2009:31-42. DOI:10.1145/1655008.1655013.

[4]	LIBERATORE M, LEVINE B N. Inferring the source of encrypted HTTP connections[C]//Proceedings of the 13th ACM Conference on Computer and Communications Security. New York:ACM, 2006:255-263. DOI:10.1145/1180405.1180437.

[5]	WANG T, GOLDBERG I. On realistically attacking Tor with Website Fingerprinting[C]//Proceedings on Privacy Enhancing Technologies. Berlin:Spring-Verlag, 2016:21-36. DOI:10.1515/popets-2016-0027.

[6]	WANG T, GOLDBERG I. Improved website fingerprinting on Tor[C]//Proceedings of the 12th ACM Workshop on Workshop on Privacy in the Electronic Society. New York:ACM, 2013:201-212. DOI:10.1145/2517840.2517851.

[7]	WANG T, CAI X, NITHYANAND R, et al. Effective attacks and provable defenses for website fingerprinting[C]//Proceedings of the 23rd USENIX Security Symposium. Berkeley:USENIX, 2014:143-157.

[8]	DYER K, COULL S, RISTENPART T, et al. Peek-a-Boo, I still see you:why efficient traffic analysis countermeasures fail[C]//Proceedings of the 2012 IEEE Symposium on Security and Privacy. Washington, D C:IEEE Computer Society, 2012:332-346. DOI:10.1109/SP.2012.28.

[9]	LUO X P, ZHOU P, CHAN E W W, et al. HTTPOS:Sealing Information Leaks with Browser-side Obfuscation of Encrypted Flows[DB/OL].[2017-01-02].http://www.internetsociety.org/sites/default/files/luo.pdf.

[10]	WRIGHT C, COULL S, MONROSE F. Traffic morphing:an efficient defense against statistical traffic analysis[DB/OL].[2017-01-02]. http://web.cecs.pdx.edu/~cvwright/papers/morphing.pdf.

[11]	DINGLEDINE R, MATHEWSON N, SYVERSON P F. Tor:the second-generation onion router[C]//Proceedings of the 13th USENIX Security Symposium. Berkeley:USENIX, 2004:303-320. DOI:10.1.1.4.6896.

[12]	PANCHENKO A, NIESSEN L, ZINNEN A, et al. Website fingerprinting in onion routing based anonymization networks[C]//Proceedings of the 10th ACM Workshop on Privacy in the Electronic Society. New York:ACM, 2011:103-114.DOI:10.1145/2046556.2046570.

[13]	PERRY M. Experimental Defense for Website Traffic Fingerprinting[EB/OL].[2011-09-05].https://blog.torproject.org/blog/experimental-defense-website-tr-affic-fingerprinting.

[14]	HAYES J, DANEZIS G. k-Fingerprinting:A Robust Scalable Website Fingerprinting Technique[DB/OL].[2016-09-05]. http://xueshu.baidu.com/s?wd=paperuri%3A%28239df3c4b43255ccac06affb54478bc1%29 & filter=sc_long_sign & tn=SE_xueshusource_2kduw22v & sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1509.00789 & ie=utf-8 & sc_us=10844508426409760753.

[15]	JUAREZ M, AFROZ S, ACAR G, et al. A critical evaluation of website fingerprinting attacks[C]//Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security. New York:ACM, 2014:263-274. DOI:10.1145/2660267.2660368.

[16]	GU X D, YANG M, LUO J Z. A novel Website Fingerprinting attack against multitab browsing behavior[J]. IEEE International Conference on Computer Supported Cooperative Work in Design, 2015, 10(9): 234-239. DOI:10.1109/CSCWD.2015.7230964

[17]	PANCHENKO A, LANZE F, ZINNEN A, et al. Website Fingerprinting at Internet Scale[DB/OL].[2017-01-05].https://www.researchgate.net/publication/306097739_Website_Fingerprinting_at_Internet_Scale.DOI:10.14722/ndss.2016.23477.