小編精選 - 技術文章翻譯 · 04月27日

Anthropic 最危險的模型剛剛被不應該取得它的人存取了

人類進化組織（Anthropic）製造了一個極度危險的模型，他們拒絕公開發布。然而，一個Discord群組還是設法獲取了它。

他們不會出貨的型號

Claude Mythos Preview是 Anthropic 迄今為止功能最強大的編碼和智能體任務模型。但它最初並非面向公眾發布。在測試過程中， Mythos的效能不斷提升，幾乎完全滿足了現有的網路安全基準測試要求，這促使Anthropic將重點轉向全新的真實世界安全任務——特別是零日漏洞，即此前未知的漏洞。

他們的發現令人震驚。 Mythos Preview 已經辨識出關鍵基礎設施中數千個零日漏洞——其中許多是致命漏洞——這些漏洞存在於所有主流作業系統和主流瀏覽器中。在一個有記錄的案例中，Mythos 完全自主地辨識並利用了 FreeBSD 中一個存在了 17 年的遠端程式碼執行漏洞，該漏洞允許任何人取得執行 NFS 的機器的 root 權限。在最初提出查找漏洞的請求之後，無論是漏洞的發現或利用，都沒有人為幹預。

這就是該模型從未公開的原因。

玻璃翼計劃：受控釋放

Mythos於4月7日發布，作為Anthropic「Glasswing計畫」的一部分進行部署。該專案是一項受控計劃，允許特定組織使用尚未發布的Claude Mythos預覽模型進行防禦性網路安全保護。雅虎！

首批合作夥伴包括亞馬遜網路服務 (AWS)、Anthropic、蘋果、博通、思科、CrowdStrike、Google、摩根大通、Linux 基金會、微軟、英偉達和 Palo Alto Networks。此外，還有 40 多家建置或維護關鍵軟體基礎設施的機構也獲得了存取權限。 Anthropic的邏輯很明確：在這些能力擴散到那些不會謹慎使用它們的攻擊者手中之前，讓防禦者搶得先機。

Claude Mythos Preview 現已向 Project Glasswing 參與者開放，每百萬輸入/輸出代幣收費 25 美元/125 美元，可透過 Claude API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 存取。 Anthropic承諾提供價值 1 億美元的模型使用額度，以支持 Project Glasswing 在整個研究預覽期間的營運。

外圍防護措施的設計非常嚴謹。但今天的新聞是，它沒能守住。

Discord 群組是如何加入的

一個成員資格尚未公開的「私人線上論壇」透過第三方供應商獲得了該工具的存取權限。這個未經授權的團體嘗試了多種不同的策略來獲取該模型的存取權限，包括利用目前受僱於為 Anthropic 工作的第三方承包商的一名員工所擁有的「存取權限」。 TechCrunch

該團隊成員隸屬於一個專門搜尋未發佈人工智慧模型資訊的Discord頻道。自從獲得Mythos的使用權限以來，該團隊一直在定期使用該軟體，並向彭博社提供了截圖和軟體現場演示等證據。 —— TechCrunch

他們找到目標地址的方法尤其耐人尋味。該組織在Mythos正式發布當天就獲得了存取權限，他們「根據Anthropic公司以往模型的使用格式，對該模型的線上位置進行了有根據的猜測」。 TechCrunch 報導，這並非一次複雜的入侵——而是對已知命名規則進行模式辨識的結果。據報道，該組織聲稱他們的目的是探索新模型，而不是造成損害。

Anthropic公司表示正在調查這些指控，目前尚未發現自身系統受到影響的跡象——該指控指向的可能是有人濫用Anthropic核心網路之外的存取權限，而非公司內部防禦系統遭到入侵。 Prism News

為什麼這件事比看起來更重要

表面上的保證——沒有核心系統遭到破壞，該組織並非惡意——固然沒錯，但這並非問題的關鍵。問題不在於這個特定組織做了什麼，而是這次事件揭示了「玻璃之翼計畫」整個前提的缺陷。

Anthropic 的受控發布策略基於這樣的假設：可以透過與供應商的關係有效地控制存取權限。據報道，在 Anthropic 宣布對Prism News進行有限測試的同一天，就有一小群未經授權的用戶存取了 Mythos——這意味著在首次公開聲明發布後的幾個小時內，存取控制就失效了，而此時大多數 Glasswing 合作夥伴甚至還沒有開始工作。如果這群使用者能夠根據 Anthropic 已知的 URL 模式猜出模型的端點，那麼擁有更多資源且意圖更惡劣的攻擊者也同樣可以做到。

這裡也存在著一個值得注意的模式。這是Anthropic公司近幾週來發生的第三起重大資訊控制失誤。 3月份的Claude程式碼外洩事件，由於缺少.npmignore條目，導致51.2萬行未混淆的TypeScript程式碼暴露在外。在此之前，一篇將Mythos描述為Anthropic公司迄今為止建置的「最強大的AI模型」的部落格文章草稿被遺留在一個可公開存取的資料儲存庫中。 3月26日的草稿洩露事件——Anthropic公司聲稱這是由於其內容管理配置中的人為錯誤造成的——實際上是Mythos的首次公開曝光。 Prism News

此外，還有政府方面的內幕。儘管國防部（負責監管國家安全局）的高級官員堅稱 Anthropic 公司構成“供應鏈風險”，但國家安全局仍在繼續使用 Mythos Preview。今年 2 月，國防部採取行動，切斷了與 Anthropic 公司的合作，並強制其供應商也採取同樣措施。軍方目前正擴大對 Anthropic 公司工具的使用範圍，同時在法庭上辯稱使用這些工具會威脅美國國家安全。同時，據報道，負責關鍵基礎設施保護的網路安全和基礎設施安全局( CISA) 卻無法存取該模型。

負責保護關鍵系統的實體無法入侵，而一個 Discord 群組卻可以。

人類學實際上說了什麼

Anthropic公司的發言人表示：「我們正在調查一份報告，該報告聲稱有人透過我們的一家第三方供應商環境未經授權存取了Claude Mythos Preview。」該公司沒有發現任何證據表明所謂的未經授權的活動對Anthropic的系統造成了任何影響。 TechCrunch

這是一個事實陳述，措辭嚴謹。但這種手法也很常見：承認其狹義意義，卻否認其更廣泛的影響。 Anthropic公司以前也用過類似的策略。

無人願意解決的供應商問題

更深層的結構性問題在於，企業級人工智慧部署達到前沿水準需要跨越數十個組織的信任鏈。 Anthropic 在 40 個組織中部署 Glasswing，這意味著 40 種不同的安全態勢、40 組承包商，以及 40 個潛在的橫向入侵點，任何了解內情的人都可能從中得手。

Anthropic公司表示，他們不打算公開Mythos Preview版本，但其最終目標是讓用戶能夠安全地大規模部署Mythos級模型——這不僅是為了網路安全，也是為了利用這些高效能模型帶來的許多其他優勢。 Simon Willison認為，這個目標合情合理。但要實現這一目標，就需要解決供應商存取權限管理方面的問題，而這個問題是業界前所未見的。這次事件初步表明，如果這項工作進展不順利，將會造成怎樣的後果。

一個能夠偵測所有主流作業系統和瀏覽器中零日漏洞的模型，現在已被超出預期邊界的人員存取。問題不在於Discord群組是否造成了危害，而在於當對方真的發動攻擊時，邊界是否還能守住。

「想玩玩」與「想搞破壞」的界線並非由意圖決定，而是由存取控制來劃分。 Anthropic 的存取控制在一個月內已經兩次失效。

請關注我們，以了解更多關於 MCP、智慧體人工智慧和人工智慧基礎設施的通報。

原文出處：https://dev.to/om_shree_0709/anthropics-most-dangerous-model-just-got-accessed-by-people-who-werent-supposed-to-have-it-14dn