沒有想過,簡單的一段JavaScript代碼就能嗅探出瀏覽器標簽頁上的信息,甚至找出你的訪問記錄?更有甚者,就連Tor瀏覽器都不放過。
——沒錯,最近有一篇論文中就分析了這一問題。
作者 | Thomas Claburn
譯者 | 彎月
責編 | 郭芮
出品 | CSDN(ID:CSDNnews)
近期,計算機專家們演示了一種旁路攻擊技術,能越過最近瀏覽器引入的隱私防御策略,跟蹤瀏覽器的行為,甚至連Tor瀏覽器都不能幸免。其結論是,一個瀏覽器標簽頁中的惡意JavaScript代碼可以嗅探其他標簽頁,并找出你曾經訪問過的網站。
這些信息可以讓廣告商根據你的興趣定向推送廣告,或者僅僅是收集你的個人興趣供以后使用。
研究者Anatoly Shusterman、Lachlan Kang、Yarden Haskal、Yosef Melster、Prateek Mittal、Yossi Oren、Yuval Yarom分別來自以色列內蓋夫的Ben-Gurion大學,澳大利亞的阿德萊德大學,和美國的普林斯頓大學,他們發現了一種基于處理器緩存的網站指紋攻擊技術,能利用JavaScript收集訪問過的網站的信息。
描述該技術的論文發布在ArXiv上,題為“Robust Website Fingerprinting Through the Cache Occupancy Channel”(https://arxiv.org/pdf/1811.07153.pdf)。
“我們演示的這種攻擊能泄露‘人類的秘密’:攻擊者獲知用戶訪問過的網站,就能獲知用戶的很多秘密,如性取向、宗教信仰、政治傾向、健康狀況等。”Ben-Gurion大學的Yossi Oren和阿德萊德大學的Yuval Yarom在本周給The Register的郵件中說。
因此,雖然這種攻擊并不像遠程攻擊技術那樣能執行任意代碼或泄露核心內存,但Oren和Yarom懷疑,他們的瀏覽器指紋方法有可能會被用來竊取計算機的密碼,如加密的秘鑰,或已安裝的易受攻擊的軟件。
有些情況下,這種攻擊甚至能對那些期待利用Tor來保守訪問網站的秘密的用戶產生嚴重的影響。
旁路攻擊(或稱“短暫執行攻擊”)需要觀察計算機系統的某個部分,收集信息以推斷其他特權信息。今年發現的Spectre、Meltdown和Foreshadow等脆弱性都有潛在的可能性通過旁路攻擊觸發。
Oren和Yarom說,該攻擊技術運行在比Spectre更底層的地方。“一些Spectre不能運行的地方(比如跨越進程邊界),這種攻擊也能運行,而且用來防御Spectre的CPU補丁也不能阻止它。而另一方面,Spectre攻擊能獲得的信息比我們的攻擊方法更詳細。”
減輕這類攻擊的一種方式是限制對高精度定時器的訪問,因為旁路數據可以通過高精度定時器獲得。例如,在Spectre和Meltdown最初被發現時,Mozilla就說它會在Firefox瀏覽器中降低時間源的精度,或者干脆禁用它。
但最新的瀏覽器指紋技術并不需要高精度定時器,因為它的攻擊目標是瀏覽器的處理器緩存占用。
“緩存占用的度量就是在一端固定時間內整個緩存被訪問的占多少百分比。”Oren和Yarom解釋。“瀏覽器非常占用內存,因為它要從網絡上接收大量數據,并在屏幕上繪制各種輸出結果。這意味著它在加載頁面時會占用相當多的緩存。”
而且,這種攻擊方式并不依賴于緩存的布局,因此用來降低風險的緩存布局隨機化技術對此毫無用處。該攻擊方式也不會被基于網絡的指紋防御措施影響,因為瀏覽器不是從網絡上獲取數據,而是從響應緩存中獲取數據。
自動識別
這種指紋攻擊技術使用了JavaScript來衡量網頁加載時的長期處理器緩存訪問延遲,然后利用深度學習技術,將這些數據與攻擊者事先收集的數據比較,從而自動識別出相似的模式,判斷出對于某個網站的訪問。
換句話說,可能通過測量瀏覽器在獲取和渲染網頁時對處理器CPU緩存的訪問情況,來獲知用戶是否瀏覽某個網站。某個標簽頁內的惡意JavaScript腳本可以監視緩存訪問,來確定緩存的訪問模式和指紋,從而判斷其他標簽頁訪問過的網站。
“‘傳統’的機器學習技術要求人類去尋找數據的哪些‘特征’可能與攻擊有關。”Oren和Yarom解釋道。“但在哪些特征最適合進行哪些類型的攻擊方面也有很多研究。在深度學習中,計算機扮演專家的角色,試圖自己找到這些特征。這樣我們就能直接從數據獲得結果。人類研究者可能比我們的機器學習算法找到更好的特征,這些信息用于改進該攻擊。”
專家們考慮了兩個場景:一個是封閉世界的數據集,包含100個網站,每個網站采取了100個數據點;另一個是開放世界的數據集,能夠從5000個網站中分辨出100個敏感的網頁。
在封閉數據集上使用利用主流瀏覽器,研究者能準確地分類出70~90%的網站訪問記錄。使用Tor之后,攻擊的準確率降到了47%,但如果同時考慮其他數據,準確率能提高到大約72%。開放世界的數據集也顯示出類似的結果,即70~90%,對于Tor,如果不僅考慮最佳輸出,而是檢查前五位的結果的話,準確度能達到83%。
如果目標僅僅是確定某個訪問過的網站是否敏感,那么開放世界數據集的準確度能提高到99%以上。
Oren和Yarom說,他們的工作顯示通過限制對精確計時的訪問很難防御他們的旁路攻擊。
“我們的工作演示了整個過程是不重要的——我們完全不需要高精度的計時器進行攻擊。”他們說,“類似地,一些用于防御Spectre的措施會將網站隔離到多個進程中。我們證明了這些措施是不夠的。我們發現,可以從一個標簽頁偵測其他標簽頁,甚至可以從一個瀏覽器偵測同一臺計算機上運行的其他瀏覽器。”
他們在最后總結道,在任何時間點,運行少于一個瀏覽器標簽頁都會有潛在的隱私風險。打開第二個標簽頁時,其中的JavaScript就能嗅探到第一個標簽頁中的內容。完全禁用JavaScript能阻止這種攻擊,但同時也禁止了許多依賴JavaScript的網站。而且他們說,可視化應該只是遍歷特性,而不是安全特性。
“如果你要同時訪問敏感的網站和非敏感網站,那就用兩臺電腦。”他們說。
原文:https://www.theregister.co.uk/2018/11/21/unmasking_browsers_side_channels/
本文為 CSDN 翻譯,如需轉載,請注明來源出處。
oogle Chrome、Internet Explorer、Mozilla Firefox、Safari,這些對于當今大多數使用互聯網的人來說并不陌生。在當今時代,我們都非常熟悉這些網絡瀏覽器,這是世界上使用最廣泛的軟件。在那個頂部寬大的白色框中,您以寫下要導航到的任何網站地址,例如 www.facebook.com、www.google.com、www.medium.com,然后立即顯示該頁面。你有沒有想過該網站是如何出現在你的屏幕上的?
瀏覽器是一種軟件程序,用于在萬維網上呈現和探索內容。這些內容(包括圖片、視頻和網頁)使用超鏈接(類似于網頁地址)進行連接,并使用統一資源標識符 (URL) 進行分類。第一個是由萬維網本身的發明者蒂姆·伯納斯-李(Tim Berners-Lee)于1990年創建的。在那之后,現在有許多網絡瀏覽器可供消費者使用,具有多功能功能。
瀏覽器始終需要服務器(旨在處理請求并通過本地網絡或 Internet 將數據傳送到其他(客戶端)計算機的計算機)。當您在瀏覽器的地址欄中輸入任何網頁的任何URL(統一資源定位器)時,它會從服務器獲取包含圖像,PDF,視頻,Flash文件的HTML文件,解釋它們,然后將其顯示在屏幕上。
但是,瀏覽器如何解釋這些HTML文件?現在,瀏覽器如何解釋這些HTML文件?瀏覽器顯示網頁方式的 HTML 和 CSS 規范由 W3C(萬維網聯盟)組織維護,該組織是萬維網的主要國際標準組織。
當在 Web 瀏覽器中鍵入任何 URL 時,為了加載頁面,它首先必須找到 Web 服務器的 IP 地址。它要求操作系統 (OS) 檢查本地緩存中的服務器名稱。如果它存在于緩存中,則渲染引擎將渲染網頁。
者:kevinylzhao,騰訊音樂前端開發工程師
瀏覽器緩存策略對于前端開發同學來說不陌生,大家都有一定的了解,但如果沒有系統的歸納總結,可能三言兩語很難說明白,甚至說錯,尤其在面試過程中感觸頗深,很多候選人對這類基礎知識竟然都是一知半解,說出幾個概念就沒了,所以重新歸納總結下,溫故而知新。
瀏覽器緩存一般分為兩類:強緩存(也稱本地緩存)和協商緩存(也稱弱緩存)。
瀏覽器發送請求前,會先去緩存里查看是否命中強緩存,如果命中,則直接從緩存中讀取資源,不會發送請求到服務器。否則,進入下一步。
當強緩存沒有命中時,瀏覽器一定會向服務器發起請求。服務器會根據 Request Header 中的一些字段來判斷是否命中協商緩存。如果命中,服務器會返回 304 響應,但是不會攜帶任何響應實體,只是告訴瀏覽器可以直接從瀏覽器緩存中獲取這個資源。如果本地緩存和協商緩存都沒有命中,則從直接從服務器加載資源。
按照本地緩存階段和協商緩存階段分類:
上述代碼的作用是告訴瀏覽器當前頁面不被緩存,事實上這種禁用緩存的形式用處很有限:
a. 僅有 IE 才能識別這段 meta 標簽含義,其它主流瀏覽器僅識別“Cache-Control: no-store”的 meta 標簽。
b. 在 IE 中識別到該 meta 標簽含義,并不一定會在請求字段加上 Pragma,但的確會讓當前頁面每次都發新請求(僅限頁面,頁面上的資源則不受影響)。
在 HTTP 請求和響應的消息報頭中,常見的與緩存有關的消息報頭有:
上圖中只是常用的消息報頭,下面來看下不同字段之間的關系和區別:
a. Last-Modified 標注的最后修改只能精確到秒級,如果某些文件在 1 秒鐘以內,被修改多次的話,它將不能準確標注文件的新鮮度;
b. 某些文件也許會周期性的更改,但是它的內容并不改變(僅僅改變的修改時間),但 Last-Modified 卻改變了,導致文件沒法使用緩存;
c. 有可能存在服務器沒有準確獲取文件修改時間,或者與代理服務器時間不一致等情形。
瀏覽器可以在內存、硬盤中開辟一個空間用于保存請求資源副本。我們經常調試時在 DevTools Network 里看到 Memory Cache(內存緩存)和 Disk Cache(硬盤緩存),指的就是緩存所在的位置。請求一個資源時,會按照優先級(Service Worker -> Memory Cache -> Disk Cache -> Push Cache)依次查找緩存,如果命中則使用緩存,否則發起請求。這里先介紹 Memory Cache 和 Disk Cache。
200 from memory cache
表示不訪問服務器,直接從內存中讀取緩存。因為緩存的資源保存在內存中,所以讀取速度較快,但是關閉進程后,緩存資源也會隨之銷毀,一般來說,系統不會給內存分配較大的容量,因此內存緩存一般用于存儲較小文件。同時內存緩存在有時效性要求的場景下也很有用(比如瀏覽器的隱私模式)。
200 from disk cache
表示不訪問服務器,直接從硬盤中讀取緩存。與內存相比,硬盤的讀取速度相對較慢,但硬盤緩存持續的時間更長,關閉進程之后,緩存的資源仍然存在。由于硬盤的容量較大,因此一般用于存儲大文件。
下圖可清晰看出差別:
200 from prefetch cache
在 preload 或 prefetch 的資源加載時,兩者也是均存儲在 http cache,當資源加載完成后,如果資源是可以被緩存的,那么其被存儲在 http cache 中等待后續使用;如果資源不可被緩存,那么其在被使用前均存儲在 memory cache。
CDN Cache
以騰訊 CDN 為例:X-Cache-Lookup:Hit From MemCache 表示命中 CDN 節點的內存;X-Cache-Lookup:Hit From Disktank 表示命中 CDN 節點的磁盤;X-Cache-Lookup:Hit From Upstream 表示沒有命中 CDN。
從上圖能感受到整個流程,比如常見兩種刷新場景:
IndexedDB 就是瀏覽器提供的本地數據庫,能夠在客戶端存儲可觀數量的結構化數據,并且在這些數據上使用索引進行高性能檢索的 API。
異步 API 方法調用完后會立即返回,而不會阻塞調用線程。要異步訪問數據庫,要調用 window 對象 indexedDB 屬性的 open() 方法。該方法返回一個 IDBRequest 對象 (IDBOpenDBRequest);異步操作通過在 IDBRequest 對象上觸發事件來和調用程序進行通信。
常用異步 API 如下:
在 16 年曾基于 IndexDB 做過一整套緩存策略,有不錯的優化效果:
SW 從 2014 年提出的草案到現在已經發展很成熟了,基于 SW 做離線緩存,讓用戶能夠進行離線體驗,消息推送體驗,離線緩存能力涉及到 Cache 和 CacheStorage 的概念,篇幅有限,不展開了。
localStorage 屬性允許你訪問一個 Document 源(origin)的對象 Storage 用于存儲當前源的數據,除非用戶人為清除(調用 localStorage api 或者清除瀏覽器數據), 否則存儲在 localStorage 的數據將被長期保留。
sessionStorage 屬性允許你訪問一個 session Storage 對象,用于存儲當前會話的數據,存儲在 sessionStorage 里面的數據在頁面會話結束時會被清除。頁面會話在瀏覽器打開期間一直保持,并且重新加載或恢復頁面仍會保持原來的頁面會話。
通過了解瀏覽器各種緩存機制和存儲能力特點,結合業務制定合適的緩存策略,善用緩存是基本功,可以用于時常審查負責的業務,可能就會發現個別業務并沒有運用到位,共勉。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。