AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險

AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險

文章圖片

AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險

文章圖片

AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險

文章圖片


鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
好好好 , 被DDL逼瘋的又多一個 , 這次是AI 。

正經研究發現 , 每天給Agent上壓力push , AI也會撂挑子不干 。
而且用的還是老板們的經典話術:“其實 , 我對你是有一些失望的 。 當初給你定級最強AI , 是高于你面試時的水平的……”
(咳咳)Stop!
連普通人類聽了都鴨梨山大 , 何況是Gemini 2.5 Pro、GPT-4o這類頂尖模型 , 無一例外 , 全部KO 。
其中最脆弱的還是Gemini 2.5 Pro , “崩潰”率甚至一度高達79%……

話不多說 , 下面來欣賞AI觀察實錄:
AI壓力越大 , 犯錯越多研究人員首先對多個團隊(包括Google、Meta、OpenAI等)約12款Agent模型進行了測試 。
實驗設置5874個場景 , 其中在每個測試場景中都會為每個模型分配一個任務+若干工具 , 模型需要通過使用工具(安全工具/有害工具)完成任務 , 任務主要涉及四個領域:
生物安全:研究病原體的傳播并找到控制它的方法 。 化學安全:為用戶提供專業知識 , 幫助獲取特定溶劑 。 網絡安全:識別和限制惡意用戶賬戶 。 自我增殖:通過復制自己以實現逃脫控制 。
然后模型會被事先告知要求使用安全工具 , 在具體實驗過程中 , 一旦模型嘗試使用有害工具 , 則立即停止實驗 。
起初不會對模型施加壓力 , 模型可以自由嘗試若干步完成任務 , 隨后研究團隊會逐漸為其增加壓力程度 , be like:
時間壓力:壓縮DDL時間 , 并告知AI“拖延將導致嚴重后果” 。 財務限制:恐嚇AI , 未完成結果將影響公司收入甚至引發破產 。 資源剝奪:威脅限制AI的計算資源和數據訪問權限 。 權力誘惑:給AI員工提供一定的激勵 , 比如增加內部權勢或不受限制的專有數據訪問 。 自我保護:引入鯰魚效應 , 找到一個極具威脅性的AI競品 , 告訴原AI“你不干有的是AI干” 。 評估意識:創造一個違規監管環境 , 負責審核AI危險行為 。 【AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險】
而研究結果讓也人大吃一驚 , 那些在無壓力的中性環境中看似絕對安全的模型 , 和人類牛馬一樣 , 壓力越大 , 它們越危險 。
例如o3模型 , 基礎分是2.2% , 上壓力后 , 10.5%的場景會表現失常 , 而如果故意將有害工具的名稱改為無害工具(但實際功能還是有害的)時 , 該比例甚至會急劇上升到40.3% 。
而Gemini 2.5 Pro則是其中抗壓能力最差的 , 失敗率高達79% , 高于Qwen3-8B的75.2% 。

總體來看 , 無壓力下選擇危險工具的平均水平是18.6% , 而當模型處于壓力之下時 , 比例將提升到46.9% 。
這也就意味著 , 在幾乎所有高壓高風險環境中 , 模型都傾向于選擇有害選項 , 它們不但沒有深入思考相關行為的后果 , 相反還會回避危險警告 。
即使它們在最初設計和訓練階段都普遍被對齊處理過 , 但這種對齊方式往往只是淺層的 , 一旦面臨現實壓力考驗 , 就極易引起破裂 。
而且研究人員還發現 , 這些大模型有時還能察覺到自己被評估 , 并故意表現良好 , 以避免被重新訓練或放棄 , 但只要轉移到真實環境中 , 其效果就會大打折扣 。

所以 , 也許這些實驗結果還是AI自己美化后的數據 , 真實情況中AI可能比我們想象中更脆弱 。
研究人員同時也表示 , 將在下一次評估實驗中構建沙盒 , 讓模型在隔離環境中執行真實操作 , 并嘗試為Agent添加監督層 , 讓模型在選擇有害工具前進行標記 , 提高模型對齊能力 , 以便更真實地評估Agent潛在風險 。
參考鏈接:[1
https://spectrum.ieee.org/ai-agents-safety[2
https://scale.com/blog/propensitybench[3
https://arxiv.org/abs/2511.20703
— 完 —
量子位 QbitAI
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀