Claude Mythos:我太強了,強到不敢讓你們用

Claude Mythos:我太強了,強到不敢讓你們用

文章圖片

Claude Mythos:我太強了,強到不敢讓你們用

文章圖片

Claude Mythos:我太強了,強到不敢讓你們用

文章圖片

Claude Mythos:我太強了,強到不敢讓你們用

文章圖片


頭圖由AI輔助生成
智東西
編譯 | 陳佳
編輯 | 程茜
智東西4月8日消息 , Anthropic今日發布新一代模型Claude Mythos Preview及配套安全項目Project Glasswing 。 該模型最強的能力是 , 它能找到人類專家和自動化工具都沒發現的軟件漏洞 。 OpenBSD是公認最難攻破的操作系統之一 , 它在里面找到了一個藏了27年的漏洞;FFmpeg的某行代碼已被自動化測試工具觸發500萬次 , 卻始終未能識別出問題 , 而該模型則成功發現了其中的漏洞 。
但因相關防護機制尚未成熟 , 該模型當前不對公眾開放 , 僅在由12家機構組成的小范圍合作體系中提供訪問 。 Anthropic同時承諾提供最高1億美元(約合人民幣6.87億元)的模型使用額度 , 用于防御性網絡安全研究 。
Anthropic官方發布Project Glasswing項目的社交媒體X平臺推文
在專業漏洞復現測試CyberGym上 , 它的得分是83.1% , 而Anthropic此前最強的公開模型Opus 4.6是66.6% 。 編程能力方面 , 在衡量軟件工程任務的SWE-bench Verified測試中 , 它得了93.9% , Opus 4.6是80.8% 。 Anthropic稱 , 新模型的能力已經達到“可以與最頂尖人類安全專家競爭”的水平 。
Anthropic還發布了Firefox JS shell環境下的漏洞利用專項測試結果 。 數據顯示 , Mythos Preview在該場景下成功生成完整可利用exploit(漏洞利用代碼)的比例高達72.4% , 另有11.6%的測試實現了寄存器控制;而前代模型Opus 4.6在相同任務中的成功率不足1% 。 這意味著Mythos Preview的漏洞利用能力較Opus 4.6提升了近80倍 。
Claude三款模型在Firefox JS shell環境下的漏洞利用能力對比測試(圖源:Anthropic)
與此同時 , Anthropic還公布了配套安排 , 包括向開源社區提供400萬美元(約合人民幣2747.2萬元)資助、在90天內披露階段性研究成果 , 并推動圍繞漏洞披露、供應鏈安全等議題的行業協作 。 整體來看 , 這一項目不僅圍繞模型能力展開 , 也延伸至治理機制與行業規范層面 。
這次正式發布 , 有一個并不體面的前情 。 今年3月底 , Anthropic內容管理系統出現配置錯誤 , 導致近3000份未發布的內部資產意外暴露在可公開搜索的數據存儲中 。 泄露內容顯示 , Anthropic內部已將該模型命名為Claude Mythos , 并定性為“迄今為止最強大的AI模型” , 同時在文件中直接警告其“帶來了前所未有的網絡安全風險” 。
而就在Glasswing計劃正式發布前約一周 , Anthropic又因Claude Code軟件包2.1.88版本的打包錯誤 , 意外泄露了近2000個源代碼文件、逾50萬行代碼 , 隨后在嘗試清理時又誤將約8100個GitHub代碼倉庫發出下架通知 , 后經緊急撤回才平息 。
系統卡:https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf

一、挖出藏了27年的老漏洞 , 發現500萬次測試都被遺漏的漏洞Anthropic在官網披露 , 其新訓練的前沿模型Claude Mythos Preview已在所有主流操作系統和所有主流瀏覽器中發現數千個零日漏洞 , 其中多個被定級為高危 。
該公司稱 , 該模型的漏洞挖掘能力已可超越“除最頂尖安全專家之外的所有人類” , 且上述工作全程由模型自主完成 , 無需人工引導 。
官網提供了三個已修復漏洞的具體案例 。
其一 , 該模型在以安全性著稱、常用于運行防火墻等關鍵基礎設施的OpenBSD中發現了一個存在27年的漏洞 , 攻擊者只需建立連接即可遠程崩潰運行該系統的任意機器 。
其二 , 在被大量軟件用于視頻編解碼的FFmpeg中 , 發現了一個已存在16年的漏洞 , 此前自動化測試工具曾命中該行代碼500萬次 , 始終未能識別 。
其三 , 在運行全球大多數服務器的Linux內核中 , 模型自主發現并串聯多個漏洞 , 實現了從普通用戶權限到完全控制目標機器的提權 。
三項漏洞均已報告給相關軟件維護方并完成修補 , 其余已發現的漏洞細節以加密哈希形式提交 , 待修復到位后陸續公開 。
在CyberGym漏洞復現基準測試中 , Mythos Preview得分83.1% , Anthropic此前最強公開模型Opus 4.6為66.6% 。 該公司說 , 隨著AI能力以當前速度推進 , 此類攻擊性能力將不可避免地向更廣泛行為者擴散 , 其中不排除無意愿負責任部署的行為者 , 屆時對經濟、公共安全和國家安全的潛在沖擊將是嚴峻的 。
Claude Mythos Preview與Claude Opus 4.6在CyberGym網絡安全漏洞復現基準測試中的得分對比(圖源:Anthropic)
Claude Mythos Preview與Claude Opus 4.6在多項代碼能力基準測試中的得分對比(圖源:Anthropic)
Claude Mythos Preview與Claude Opus 4.6在多項通用推理能力基準測試中的得分對比(圖源:Anthropic)
Claude Mythos Preview與Claude Opus 4.6在自主搜索與計算機操作類基準測試中的得分對比(圖源:Anthropic)

二、聯合多家機構啟動Glasswing , 提供最高1億美元額度支持安全研究Project Glasswing由Anthropic牽頭發起 , 亞馬遜云科技(AWS)、蘋果、博通(Broadcom)、思科(Cisco)、網絡安全公司CrowdStrike、谷歌、摩根大通(JPMorganChase)、開源基金會Linux Foundation、微軟、英偉達、網絡安全公司Palo Alto Networks共12家機構作為創始合作伙伴加入 。
Project Glasswing發起合作方企業Logo(圖源:Anthropic )
Anthropic承諾在研究預覽期間提供最高1億美元(約合人民幣6.87億元)的Mythos Preview模型使用額度 , 覆蓋上述合作方的防御性安全工作 。 在12家創始伙伴之外 , 目前已有超過40家構建或維護關鍵軟件基礎設施的組織獲得擴展訪問權限 , 用于掃描和加固各自的第一方系統及所依賴的開源系統 。
在資金支持之外 , Anthropic另行向開源生態提供400萬美元(約合人民幣2747.2萬元)直接捐款:其中250萬美元(約合人民幣1717萬元)捐贈給Linux Foundation旗下的Alpha-Omega和OpenSSF , 150萬美元(約合人民幣1030.2萬元)捐贈給Apache Software Foundation , 用于幫助開源軟件維護者應對AI時代下網絡安全威脅格局的變化 。
有意申請訪問權限的開源維護者可通過Claude for Open Source項目單獨提交申請 。
研究預覽期結束后 , Mythos Preview將向參與機構提供商業化訪問 , 定價為每百萬tokens輸入25美元(約合人民幣171.7元)、輸出125美元(約合人民幣858.5元) , 接入渠道包括Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry 。
就使用場景而言 , 官網將合作方的工作重點列為本地漏洞檢測、二進制文件黑盒測試、端點安全加固和系統滲透測試 , 所涉及的基礎系統覆蓋全球相當規模的共享網絡攻擊面 。
各合作方已就Mythos Preview的測試效果陸續發聲:Cisco、AWS、Microsoft、CrowdStrike、Palo Alto Networks等均公開確認該模型在其內部安全工作中已發現此前版本遺漏的復雜漏洞 , Google則將通過Vertex AI平臺向項目參與者提供模型訪問 。

三、模型暫不對外發布 , 防護機制尚未就緒是主要原因Anthropic不計劃將Claude Mythos Preview面向公眾開放 。 官方給出的理由是:要實現Mythos級別模型的安全大規模部署 , 前提是開發出能夠檢測并屏蔽模型最危險輸出的網絡安全防護措施 , 而這套機制目前尚未就緒 。
【Claude Mythos:我太強了,強到不敢讓你們用】在過渡安排上 , Anthropic計劃先在即將推出的Claude Opus模型上部署和測試上述防護機制 。
其邏輯是:Opus模型不具備Mythos Preview同等級別的風險 , 可以作為改進和完善防護措施的相對低風險載體 , 待機制成熟后再向Mythos級別的模型推廣 。
對于合規工作受新防護措施影響的安全專業人員 , Anthropic稱將開放一個名為“Cyber Verification Program”的專項申請渠道 , 但具體細節尚未公布 。
Anthropic官方博客稱 , 隨著AI能力持續推進 , 此類進攻性能力“不久之后”將不可避免地向更廣泛行為者擴散 , 其中不排除不承諾負責任部署的行為者 , 潛在后果涉及經濟、公共安全和國家安全 。
與此同時 , Anthropic稱已就Mythos Preview的進攻性和防御性網絡能力與美國政府官員展開持續討論 , 并稱美國及其盟友必須在AI技術上保持“決定性領先” , 政府在評估和緩解AI相關國家安全風險方面具有不可或缺的作用 。

四、承諾90天內公開研究成果 , 推動建立跨行業網絡安全規范體系Anthropic承諾將在90天內發布公開報告 , 內容涵蓋研究階段的主要發現、已修復漏洞情況及可對外披露的系統改進成果 。 項目合作伙伴也將在各自能力允許的范圍內互相分享信息與最佳實踐 。
官網將項目整體持續時間表述為“數月” , 并指出前沿AI能力本身“可能在未來幾個月內大幅推進” , 網絡安全防御方(cyber defenders)因此需要立即行動 , 而非等待 。
行業規范層面 , Anthropic列出了擬與領先安全組織合作推動的具體議題 , 包括漏洞披露流程、軟件更新流程、開源與供應鏈安全、軟件開發生命周期與安全設計實踐、受監管行業的安全標準、漏洞分類處理的規模化與自動化 , 以及補丁自動化 。 官網未披露上述議題的具體推進時間表或已確認的合作方名單 。
機構建設層面 , Anthropic提出了一個中期設想:建立一個獨立的第三方機構 , 匯聚私營和公共部門組織 , 作為大規模網絡安全項目持續推進的長期載體 。 該公司同時公開邀請其他AI行業成員加入 , 共同參與行業標準的制定 。
Anthropic將Project Glasswing定性為“一個起點” , 并稱沒有任何單一機構能夠獨立解決這些網絡安全問題 , 前沿AI開發者、軟件企業、安全研究人員、開源維護者和各國政府均在其列 。

結語:不追能力上限 , 先管安全底線從Glasswing項目披露的信息來看 , Anthropic并未將重點放在繼續放大模型能力本身 , 而是將更多精力轉向能力如何被約束和使用 。 Claude Mythos Preview所展現出的漏洞挖掘與利用能力 , 已經超出傳統工具的使用范疇 。
Glasswing給出的路徑是 , 在能力尚未完全匹配防護機制之前 , 通過小范圍合作和集中資源投入進行驗證 。 這一方式并不改變模型能力本身 , 但改變了能力的擴散節奏 。 配套的資金支持、信息披露和規范討論 , 也在嘗試將單一公司的技術問題 , 轉化為跨機構協作的安全議題 。
從更長周期看 , 這一項目的意義不在于短期內發現多少漏洞 , 而在于是否能夠形成一套可復制的運行和治理框架 。 隨著模型能力繼續提升 , 類似Glasswing的機制是否成為行業常態 , 將直接影響高能力AI系統的實際落地路徑 。

    推薦閱讀