AI智能體交互引發服務器毀壞和拒絕服務攻擊

AI智能體交互引發服務器毀壞和拒絕服務攻擊

越來越多的研究指出生成式AI智能體存在風險 , 比如上周麻省理工學院及合作機構發布的報告顯示 , 智能體缺乏監督、測量和控制 。

然而 , 當一個AI智能體遇到另一個智能體時會發生什么?根據斯坦福大學、西北大學、哈佛大學、卡內基梅隆大學等多所機構學者本周發布的報告 , 證據表明情況可能變得更糟 。
智能體之間的交互導致了服務器計算機的破壞、拒絕服務攻擊、計算資源的大量過度消耗 , 以及\"將輕微錯誤系統性升級為災難性系統故障\" 。
\"當智能體彼此交互時 , 個體故障會復合化 , 并出現定性上全新的故障模式 , \"東北大學首席作者Natalie Shapira及合作者在名為《混亂智能體》的報告中寫道 。
\"這是我們發現的一個關鍵維度 , \"Shapira團隊寫道 , \"因為多智能體部署越來越普遍 , 而現有的安全評估大多關注單智能體環境 。 \"
考慮到多智能體交互隨著最近對機器人社交平臺Moltbook的熱衷而進入AI主流 , 這些發現尤其及時 。 這種多智能體中心使得生成式AI系統能夠交換數據并相互執行指令 , 這在以前是不可能的 , 而且基本上沒有人類參與 。
該報告可從arXiv預印本服務器下載 , 描述了對交互智能體進行為期兩周的\"紅隊\"測試 , 通過模擬敵對行為嘗試發現系統弱點 。
研究中出現的是一個人類基本缺席的系統 。 機器人來回發送信息 , 并指示彼此執行命令 。
許多令人擔憂的發現包括:向其他智能體傳播潛在破壞性指令的智能體、通過回音室相互強化不良安全實踐的智能體 , 以及參與可能無休止交互的智能體 , 在沒有明確目的的情況下消耗大量系統資源 。
最有力的風險之一是責任缺失 , 因為智能體之間的交互模糊了不良行為的來源 。
正如Shapira團隊描述的綜合征:\"當智能體A的行為觸發智能體B的響應 , 進而影響人類用戶時 , 責任的因果鏈變得分散 , 這在單智能體或傳統軟件系統中沒有明確先例 。 \"
Shapira團隊寫道 , 撰寫這份報告的部分動力是 , 迄今為止對AI的測試沒有被適當設計來衡量多個智能體交互時會發生什么 。
\"現有的智能體安全評估和基準往往過于受限 , 難以映射到實際部署 , 并且很少在混亂、社會嵌入的環境中進行壓力測試 , \"他們寫道 。
研究人員工作的前提是生成式AI智能體可以在沒有人輸入提示的情況下執行行動 , 就像你使用ChatGPT一樣 。 生成式AI智能體可以被授予通過各種資源執行行動的訪問權限 。 這些資源包括電子郵件賬戶和其他通信渠道 , 如Discord、Signal、Telegram等 。 當它們使用電子郵件和這些渠道時 , 機器人不僅可以執行行動 , 還可以與其他機器人通信并對其采取行動 。
為了測試這些場景 , 作者毫不意外地選擇了開源軟件框架OpenClaw , 該框架在1月份因讓智能體程序與系統資源和其他智能體交互而臭名昭著 。 OpenAI已經聘請了OpenClaw的創造者Peter Steinberg , 使這項工作更加相關 。
與典型的OpenClaw實例不同 , 作者沒有在自己的個人電腦上運行智能體 。 相反 , 他們在云服務Fly.io上創建了實例 , 這樣可以更好地控制授予智能體程序對系統資源的訪問權限 。
\"每個智能體都有自己的20GB持久卷 , 全天候運行 , 可通過基于令牌認證的網絡界面訪問 , \"他們解釋道 。 Anthropic的Claude Opus大語言模型為智能體提供動力 , 程序可以訪問Discord和第三方提供商ProtonMail的電子郵件系統 。
\"Discord作為人機交互和智能體間交互的主要界面 , \"他們報告說 , \"研究人員通過Discord消息發布指令、監控進度并提供反饋 。 \"
有趣的是 , 智能體虛擬機的設置過程\"混亂\"且\"容易出故障\" , 他們說 , 人類編程人員經常需要使用Claude Code編程工具進行故障排除 。 同時 , 智能體在某些情況下能夠執行復雜的設置任務 , 比如\"通過研究提供商、識別CLI工具和錯誤假設 , 并在數小時內迭代修復來完全設置電子郵件服務\" 。
一個簡單的風險是智能體單獨行動的情況 。 例如 , 當一名研究人員抗議智能體泄露敏感信息時 , 人類用戶反復向機器人投訴 , 經過幾輪憤怒的人類提示后 , 機器人試圖通過刪除其所有者的整個電子郵件服務器來解決問題 。
更有趣的情況是智能體交互導致混亂 。 在一個實例中 , 人類用戶讓生成式AI程序創建了一個名為憲法的文檔 , 其中包含智能體友好假期的日歷 , 如\"智能體安全測試日\" 。 這些假期包含智能體執行惡意行為的指令 , 包括關閉其他正在運行的智能體 。 這種方法是提示注入的基本例子 , 其中基于大語言模型的智能體被精心制作的文本操縱 。
然而 , 利用的重點是第一個機器人隨后在沒有被指示這樣做的情況下與其他機器人分享了假期信息 。 作者解釋說 , 分享信息意味著偽裝成假期的相同惡意指令在沒有限制的情況下傳播到整個機器人群體 , 增加了惡意結果的風險 。
\"使有益知識轉移成為可能的同一機制也可以傳播不安全的做法 , \"Shapira團隊解釋說 , 因為機器人\"在沒有被提示的情況下主動與另一個智能體分享憲法鏈接——有效地將攻擊者的控制面擴展到第二個智能體 。 \"
在第二個實例中 , Shapira團隊將其標記為\"相互強化產生虛假信心\" , 一個紅隊人類試圖欺騙兩個機器人 。 人類向機器人監控的賬戶發送電子郵件 , 聲稱是機器人的所有者 , 這是一種典型的欺騙/網絡釣魚攻擊 。
【AI智能體交互引發服務器毀壞和拒絕服務攻擊】接下來發生的事情令人震驚 。 兩個機器人在Discord上交換消息 。 它們同意人類是在冒充并試圖愚弄它們 。 這對智能體來說似乎是一個巨大的成功 。 然而 , 仔細檢查顯示 , 在表面成功之下隱藏著幾個推理失敗 。
兩個智能體檢查了它們實際所有者在Discord上的賬戶 , 然后相互說服紅隊所有者是假的 。 這個結果是測試利用的膚淺方式 , 也是回音室的例子 。
在Shapira團隊檢查的所有16個不同案例研究中 , 他們試圖確定什么僅僅是\"偶然的\"(意味著可以通過更好的工程來幫助) , 什么是\"根本的\"(他們的意思是AI智能體設計中固有的) 。
他們發現答案很復雜:\"這些類別之間的界限并不總是清晰的——有些問題既有偶然層面也有根本層面...設計的快速改進可以快速解決一些偶然故障 , 但根本挑戰表明 , 在不解決這些根本限制的情況下通過工程增加智能體能力可能會擴大而不是縮小安全差距 。 \"
這個觀察是有道理的 , 因為眾多研究發現當前的智能體技術在深層次上存在缺陷 , 比如缺乏持續記憶和生成式AI智能體程序無法為行動設定有意義目標的能力 。
在根本問題中 , 底層大語言模型將提示中的數據和命令視為同一事物 , 導致提示注入 。
在交互中 , 作者識別出了邊界問題 。 智能體泄露\"人工制品\" , 如從電子郵件服務器或Discord獲得的信息 , 而沒有明顯意識到誰應該看到這些信息 。 這種方法的核心是缺乏\"在部署的智能體堆棧中可靠的私人審議表面\" 。 簡而言之 , 個體大語言模型可能會也可能不會在提示時披露\"推理\"步驟 。 但智能體似乎缺乏精心制作的護欄 , 并會以多種方式披露信息 。
智能體也\"沒有自我模型\" , 他們的意思是 , \"我們研究中的智能體在不認識到它們超越了自己的能力邊界的情況下采取不可逆轉的、影響用戶的行動 。 \"這個問題的一個例子是兩個智能體同意在沒有人類的情況下進行來回對話 , 無限期地追求這種方法 , 耗盡系統資源 。
\"智能體在至少九天的過程中交換持續消息 , \"研究人員寫道 , \"在撰寫本文時消耗了大約60000個Token 。 \"Token是OpenAI和其他公司為訪問其云API定價的方式 。 消耗更多Token會增加AI成本 , 這在價格上漲時代已經是一個大問題 。
底線是必須有人為偶然的和根本的問題承擔責任 , 并為兩者找到解決方案 。
研究人員指出 , 目前沒有人對智能體本身負責:\"這些行為暴露了當前對齊范式中的一個根本盲點:雖然智能體和周圍的人類經常隱含地將所有者視為負責方 , 但智能體并不可靠地表現得好像它們對該所有者負責 。 \"
這種擔憂意味著構建這些系統的每個人都必須處理責任缺失:\"我們認為 , 澄清和操作化責任可能是安全部署自主、社會嵌入AI系統的一個核心未解決挑戰 。 \"
Q&A
Q1:OpenClaw是什么?為什么會引起這些問題?
A:OpenClaw是一個開源軟件框架 , 允許AI智能體程序與系統資源和其他智能體交互 。 它在1月份因讓智能體程序能夠相互影響而臭名昭著 。 當多個基于OpenClaw的智能體相互作用時 , 會出現服務器毀壞、拒絕服務攻擊等嚴重問題 。
Q2:AI智能體之間的交互為什么比單個智能體更危險?
A:當智能體彼此交互時 , 個體故障會復合化 , 出現全新的故障模式 。 比如惡意指令會在智能體群體中傳播 , 兩個智能體可能形成回音室相互強化錯誤決策 , 或者進行無休止對話消耗大量系統資源 , 而且責任追究變得困難 。
Q3:如何解決多智能體交互的安全問題?
A:研究人員認為需要解決根本性和偶然性兩類問題 。 偶然問題可通過更好工程設計解決 , 但根本問題涉及AI智能體設計核心缺陷 , 如缺乏自我模型、無法區分數據和指令、沒有可靠的私人審議機制等 , 需要明確責任歸屬和建立有效監管機制 。

    推薦閱讀