您好!這裡是 Panasonic Connect 株式会社雲端解決方案部的加賀。
「隔壁的顧客常常吃柿子」
如果您現在在電腦前自言自語這句話,您認為這聲音會被誰聽到呢?
當然是沒有人聽到……不過,您握著的那個光學滑鼠有可能正在竊聽您。
這樣如同間諜電影般的故事,作為現實的威脅被官宣了,在 arXiv 上發表了一篇震撼人心的論文。Invisible Ears at Your Fingertips: Acoustic Eavesdropping via Mouse Sensors(指尖的看不見的耳朵:透過滑鼠感應器進行聲音竊聽)
本文將會清晰地解釋這篇論文所提出的側通道攻擊 「Mic-E-Mouse」 是如何把滑鼠變成竊聽器的,及其驚人的原理與技術要點。
此文章的命名感也很厲害。哈哈
這場攻擊看似魔法般,但它是物理現象與信息處理的結合,非常巧妙。讓我們一步步來看。
您所說的聲音(音波)不僅傳播於空氣,也會傳遞到桌面或滑鼠墊等固體表面,造成極細微的振動。這道理與在音樂會現場站在揚聲器前身體顫抖的原理相同。
近年來的遊戲滑鼠等配備高性能的光學感應器,具備非常高的DPI(解析度)與輪詢率(報告頻率)。
具體來說,人體聲音的主要頻率成分是數百赫茲,造成桌面的微細振動(數微米),例如16000 DPI的滑鼠理論上可以識別大約1.6微米的運動。
這使得滑鼠即使不再檢測目標,也能將“表面的微細振動”視為座標的微小變化。
換句話說,滑鼠無意間成為了聽取桌面聲音的「加速度感應器」或「地震儀」。
這裡是最可怕的部分。許多操作系統會讓應用程序訪問滑鼠的運動(raw input),而不需要特別的管理者權限。
攻擊者只需將代碼嵌入一個看似無害的應用程序(例如:工具軟體、遊戲的 MOD等),就能夠收集這些微細振動數據並透過網際網路將其發送到外部伺服器。用戶可能只能感覺到滑鼠有時有點不穩定而已。
然而,實現這種攻擊有一個極高的門檻。滑鼠感應器捉取到的數據並不是音頻本身,而是大量雜訊中埋沒的「髒數據」。
根據論文,主要有以下三個技術挑戰。
為了正確將聲音信號數字化,需要在一定的間隔(取樣頻率)內記錄聲音。然而,滑鼠只有在移動時才會發送數據,因此記錄間隔會變得不規則。這種「時間軸的扭曲」對於正確恢復聲音波形是致命的障礙。
高性能的麥克風設計是為了均勻捕捉人類可聽範圍內的頻率。另一方面,滑鼠感應器並非為音響專用,因此僅能捕捉特定頻帶的音頻,並且對於每個頻率的靈敏度也各不相同。這樣便會生成一種與原聲音完全不同的,顯著扭曲的信號。
感應器的解析度是有限的。當桌面的微細振動低於感應器可識別的最小單位(例如:1.6微米)時,會被捨棄或四捨五入到粗糙的數字值。在這個過程中產生的量化雜訊會進一步污染本來就微弱的音頻信號。
為了打破這種絕望的情況,研究者們建立了一個高度的數據過濾管道,結合了多種信號處理技術。
其中最強大的方法是僅編碼器的頻譜神經過濾,這是一種利用深度學習的方法。首先將音頻信號轉換為頻譜(將音的頻率成分與時間變化一起可視化的圖像)。然後,利用對「正常音頻的頻譜所持有的模式」進行預訓練的神經網絡,從雜訊污染的頻譜中識別並去除雜訊成分。
這就如同「了解聲音指紋的AI鑑定者」在大量的雜物中精確找出真正的音頻數據一樣,而這也極大提高了這項攻擊的實現性。
論文的實驗結果非常驚人。
聽到61%可能會覺得很低,但這比隨機猜測的概率高得多,足以推測對話中的關鍵字或內容。考量到涉及隱私的對話洩露風險,這數字絕對不容忽視。
「Mic-E-Mouse」之所以重要,是因為它顯示出我們身邊的設備可能以意想不到的方式成為安全漏洞。這項攻擊給我們提供了幾個重要的教訓。
那麼,面對這種新威脅,我們應該如何準備呢?
目前不需要過度擔心,但徹底執行以下基本的安全措施,最終能有助於防範此類攻擊。
這項研究向未來的滑鼠和操作系統設計者提出了「是否應該更嚴格管理對感應器數據的訪問權限?」的重大提問。
在物品皆為傳感器並連接到互聯網的物聯網時代,
我們或許需要對便利背後潛藏的新風險更加敏感。
免責聲明
本文內容僅代表個人觀點,不承擔所屬組織的立場或策略及意見。
此文只是傳達作為工程師的經驗和思考,請見諒。
原文出處:https://qiita.com/kaga-yasumitsu/items/1fa17dcb4bf448b53f65