自整理笔记

  1. 作者站在什么样的角度,解决了什么问题;
  2. 通过什么样的方法设计实现了问题解决;
  3. 作者通过什么结果来证明了自己对于问题的有效解决(包括指标和实验设定)?

基本概念

WF

使攻击者能够通过加密或匿名的网络连接推断客户端正在浏览哪个网页。其通常被表述为一个分类问题,攻击者希望知道客户端是否浏览了n个网页中的一个。

Tor

(2004 网)

一种基于电路的低延迟匿名通信服务。为分布式覆盖网络,匿名化基于tcp的应用程序。流量以固定大小的单元在电路中流动。 

涉及许多必须快速传送的数据包,因此很难防止窃听通信两端的攻击者将进入匿名网络的流量与离开匿名网络的流量的时间和数量联系起来。这些协议同样容易受到主动攻击者的攻击,后者会在进入网络的流量中引入定时模式,并在离开网络的流量中寻找相关模式。虽然已经开展了一些工作来阻止这些攻击,但大多数设计主要是防止流量分析而不是流量确认。

Tor工作在TCP流之上,与其他洋葱路由器保持一个TLS连接。只有入口节点知道用户的真实IP地址,出口节点知道用户的目的地和传输内容(HTTP),Tor使用的是在传输层之上应用层之下的SOCKS代理,无法操纵修改上层协议。

其中在04年的文章中提出被动攻击的几点:观察用户流量模式、观察用户内容、选择分辨率、端到端时序关联、端到端大小关联、网站指纹。

流量分析

(2002)

监控流量的性质和行为的过程,而不是其内容。对加密流量和未加密流量的效果是一样的,因为常见的加密方法不会试图混淆正在传输的数据量,因此通常不仅可以告诉你数据的接收者和发送者是谁,还可以告诉传输了多少数据。

其他

  • Rate-FPR假阳:未被监控呗错误识别为被监控;FPR假阴:被监控但被分类为不同的被监视页面或未被监视页面
  • 突发:在一个方向上发送的非确认数据包的序列
  • (2013)改进Tor数据收集、新数据处理(通过Tor单元序列而不是TCP/IP数据包)、新的网站指纹识别指标
  • HMM隐马尔科夫模型,是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

攻击

流量分析攻击

  • Wagner 和 Schneier (1996)首次对这种情况下的 TA 攻击进行了学术讨论 [16]。 他们转发了 Yee 的观察结果,即 SSL 可能会泄露 HTTP get 请求的 URL,因为密文会泄露明文长度。 Wagner 和 Schneier 建议对于 SSL 的所有密码模式都应包含每个密文的随机填充
  • Cheng 和 Avnur (1998)通过分析三个网站之一中托管的页面,提供了网页指纹攻击的一些第一个实验证据。 他们的攻击假设完全了解 HTML 和网页对象大小,但这并不总是从密文中精确推断出来。 他们还提出了对策,包括填充 HTML 文档、填充到 MTU 以及引入虚假 HTTP 请求。 他们在攻击的背景下评估了前两个,并声称对所考虑的网站有一定的功效。
  • Sun等人(2002)研究了一个类似的设置,其中攻击者可以精确地揭示非管道、加密 HTTP 连接中单个 HTTP 对象的大小。描述了一种基于Jaccard 系数相似度度量和简单阈值方案的分类器。 它成功地对抗了原始流量,还探索了许多对策,包括每个数据包填充、字节范围请求、基于客户端的预取、基于服务器的内容推送、内容协商、网络广告拦截器、管道以及并行使用多个浏览器。 他们对对策的评估仅考虑了其攻击,结果表明对策提供了改进的 TA 抵抗能力。
  • Hintz (2002)讨论了一种简单的攻击,用于识别通过称为 SafeWeb 的单跳代理服务访问了五个流行网页中的哪一个。所提出的攻击不需要确切了解网络请求大小,但几乎没有评估,并且尚不清楚该攻击如何应对更大的隐私集。
  • Bissias等人(2005)证明了一个比 Sun 等人更弱的对手,它可以观察 SSH 隧道,仅查看传输的每个密文的长度、方向和时间,而不是网页对象。 他们使用互相关来确定网页相似度,这是评估两个时间序列相似度的常用指标。 他们的表现比我们考虑的分类器更差,而且他们没有探索任何对策。
  • Liberatore 和 Levine (2006)表明,通过仅观察加密数据包长度和无序数据包的方向,可以推断出封装在 SSH 连接中的 HTTP 事务的内容。 我们在第三节中提供了他们的分类器的详细描述,并且我们在分析中使用他们的公开数据集。 他们量化了多种对策的能力,包括线性、指数、鼠象和 Pad 到 MTU 填充方案,以防止其攻击,但仅报告 k = 1000 的隐私集大小。这些结果对一些填充方法,例如 Pad 到 MTU,这会将他们提出的分类器的准确性从 68% 降低到 7% 左右。 我们没有考虑 k = 1000,以确保与评估中其他数据集的一致性,但从观察到的趋势预测,我们预计,例如,VNG++ 分类器在 k = 1000 时的表现将明显好于 7%(参见, 图 9)。
  • Herrmann 等人(2009 Naive)从四种不同类型的单跳加密技术和两个多跳匿名网络中收集了加密痕迹。我们使用他们的部分数据集进行分析。他们首先建议使用多项式朴素贝叶斯分类器进行流量分类,以检查标准化数据包计数。第三节对其分类器进行了讨论。 他们只是对IP数据包大小的频率分布对策的评估仅限于应用层对策->Panchenko 等人(2011 SVM)提出了一种支持向量机分类器SVM,他们将其应用于在封闭和开放世界环境中生成的 Tor流量,显示出良好的准确性,实现要差。 Tor 的加密机制已经混淆了一些有关明文长度的信息,一般来说,分类变得更加困难。 他们没有报告他们的分类器对我们考虑的对策的有效性。
  • 为了尽量减少先前建议的填充方案所产生的开销,Wright等人提出了流量变形(2009)的概念。 他们的对策可以最大限度地减少开销,同时仍然使一个网页在特定功能方面“看起来”像另一个网页只有当攻击者将注意力限制在变形例程所针对的相同功能上时,流量变形才有效。即使使用流量变形来确保数据包大小的标准化分布与某些目标网页相似,攻击者仍然可以成功。
  • SVM(2011)和HTTPOS(2011)提出了具体的应用层对策。Panchenko等人提出伪装对策,使虚假 HTTP 请求与合法请求并行,并表明它使分类器的效率显着降低。Luo等人该系统称为 HTTPOS,并使用许多客户端机制,这些机制利用现有的 HTTP 功能向加密的 Web 流量添加噪音。 例如,HTTPOS 通过向标头添加多余的数据并利用 HTTP 字节范围功能非顺序地请求数据子集来随机化 HTTP GET 请求。 他们在存在四个现有分类器 [1,3,10,15] 的情况下评估了他们的对策,并表明 HTTPOS 对所有分类器都有效。 我们不考虑这些类型的应用程序层机制,实际上我们的结果表明这种对策可能更好地防御网页识别攻击。
  • VNG++分类器(2012)提出结合粗特征(总传输时间、总每向带宽、流量突发性)
  • 多标签浏览的攻击(2015)避免高估攻击者能力、简化某些攻击行为,首先数据预处理,由于威胁模型允许受害者同时打开两个页面,因此需要先确定未知流量是否重叠。由于思考时间,用户在打开第一页后会短暂延迟访问第二页。 通过分析延迟中传输的匿名流量,并选择细粒度的特征来识别第一页。 此外,排除第一页的流量并利用粗略特征来识别第二页。

k-NN

Effective Attacks and Provable Defenses for Website Fingerprinting(2014)

该方法可以在训练和测试时间比之前最好的工作少几个数量级的情况下取得更高的准确率。这个攻击方法,利用进行了权重调整的KNN分类器,通过大的特征集发现防御方法的弱点。通过时间和准确度两个指标和之前的工作进行对比,得到的结果是,在训练和测试时间少几个数量级的情况下取得更高的准确率;通过对使用了防御的Tor流量进行攻击仍然可以取得有效的结果;实验设定在开放世界下,数据集更大,更接近现实情景,尤其在被监测网站具有低发生率的情境下,效果更好。

防御

限制防御

->针对性防御

  • 有效抵御 Liberatore 和 Levine 的攻击(2006),因为这种攻击依赖于独特的数据包长度,而不考虑数据包排序等其他特征 ->流量变形(2009)一种随机填充独特数据包长度的防御方法,使这些数据包长度看起来像是来自与另一个网页相对应的另一种数据包长度分布-> Lu(2010)提出使用数据包排序信息也能进行以及Wang 等人(2014 年)的研究表明,这种防御方法对他们使用数据包排序作为特征的攻击无效(k-NN)
  • HTTPOS(2011)(HTTP 混淆)利用 HTTP 的特定功能在客户端实施了防御。客户端设置了一个范围头,以便将流量分割成随机长度的数据包,并使用 HTTP 流水线来改变发出数据包的数量->可以成功防御较早的攻击,并不能成功防御几种较新的攻击[5, 21]。
  • 实施了另一种WF 防御(2011)-> Tor 针对 Panchenko 等人的WF 攻击(采用SVM)(2011)。Tor 的防御使用了 HTTP 流水线技术,随机调整流水线中请求的最大数量,这样,如果请求数量超过了流水线的深度,请求的顺序就会改变。由于流水线不会引入额外的数据包,因此这种防御方式没有带宽开销。最近,Tor 针对新的攻击更新了防御措施(2013)->但这两个版本的防御措施对已知攻击的准确性影响不大[5, 21, 22]。 

通用防御

  • BuFLO(2012)其中客户端以固定不变的速率发送和接收流量。如果没有真正的数据包要发送,就用不含任何信息的假数据包来填充流量。每个页面加载的持续时间如果较短,则填充到 10 秒;如果较长,则不再填充->这种防御在面对 WF 攻击时仍然经常失败->对 BuFLO 进行修改的 Tamaraw(2014)认为,这是因为持续时间经常超过10秒,所以没有填充,从而暴露了页面的大致大小。他们的研究表明, 可以解决这一问题,同时显著降低开销。同样,Wang 等人(2014 年)提出了 Supersequence ,发现如果只在线路上进行防御,超序列可提供最优带宽解决方案,但要搜索这样的解决方案仍然很困难->walkie-talkie(2016)低开销,易于使用,可以抵御所有网站指纹攻击。Walkie-Talkie 使用半双工(客户端只有在web服务器满足了所有先前请求才会发送请求)通信来限制攻击者的特征集,并使用随机填充来迷惑完美的攻击者。鉴于网站指纹识别是在低基本速率情况下进行的,我们发现以前的一般防御方法(如 Tamaraw 和 Supersequence)是矫枉过正的:由于恒定速率的数据包传输,它们会产生大量带宽和时间开销,而 Walkie-Talkie 可以有效地造成足够的误报率。我们的替代防御方案表明,在限制性较小的设计目标下,该防御方案的效率甚至更高。
  • glove(2014)基于BuFLO常见情况进行优化,可看作高效流量变形的思想延申,思想为虽然网页在大小和结构上差异很大,但他们可以聚类成高度相似的网页,因此添加少量隐蔽流量便可使攻击者无法区分。首先,它根据稍后描述的规则将这些网站的痕迹划分为 k 个群组。其次,对于一个群组中的所有痕迹,Glove 会计算出一个超级痕迹。超级痕迹是覆盖该集群中包含所有跟踪的单个跟踪,为了保守地覆盖其组成网页之一可能产生的所有跟踪的很大(可调整)百分比。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部