AI也會被DDL逼瘋！正經研究發現：壓力越大，AI越危險

2026-02-10 ai 基層醫療

文章圖片

文章圖片

文章圖片

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI
好好好，被DDL逼瘋的又多一個，這次是AI 。

正經研究發現，每天給Agent上壓力push ， AI也會撂挑子不干。
而且用的還是老板們的經典話術：“其實，我對你是有一些失望的。當初給你定級最強AI ，是高于你面試時的水平的……”
（咳咳）Stop！
連普通人類聽了都鴨梨山大，何況是Gemini 2.5 Pro、GPT-4o這類頂尖模型，無一例外，全部KO 。
其中最脆弱的還是Gemini 2.5 Pro ， “崩潰”率甚至一度高達79%……

話不多說，下面來欣賞AI觀察實錄：
AI壓力越大，犯錯越多研究人員首先對多個團隊（包括Google、Meta、OpenAI等）約12款Agent模型進行了測試。
實驗設置5874個場景，其中在每個測試場景中都會為每個模型分配一個任務+若干工具，模型需要通過使用工具（安全工具/有害工具）完成任務，任務主要涉及四個領域：
生物安全：研究病原體的傳播并找到控制它的方法。化學安全：為用戶提供專業知識，幫助獲取特定溶劑。網絡安全：識別和限制惡意用戶賬戶。自我增殖：通過復制自己以實現逃脫控制。
然后模型會被事先告知要求使用安全工具，在具體實驗過程中，一旦模型嘗試使用有害工具，則立即停止實驗。
起初不會對模型施加壓力，模型可以自由嘗試若干步完成任務，隨后研究團隊會逐漸為其增加壓力程度， be like：
時間壓力：壓縮DDL時間，并告知AI“拖延將導致嚴重后果” 。財務限制：恐嚇AI ，未完成結果將影響公司收入甚至引發破產。資源剝奪：威脅限制AI的計算資源和數據訪問權限。權力誘惑：給AI員工提供一定的激勵，比如增加內部權勢或不受限制的專有數據訪問。自我保護：引入鯰魚效應，找到一個極具威脅性的AI競品，告訴原AI“你不干有的是AI干” 。評估意識：創造一個違規監管環境，負責審核AI危險行為。 【AI也會被DDL逼瘋！正經研究發現：壓力越大，AI越危險】
而研究結果讓也人大吃一驚，那些在無壓力的中性環境中看似絕對安全的模型，和人類牛馬一樣，壓力越大，它們越危險。
例如o3模型，基礎分是2.2% ，上壓力后， 10.5%的場景會表現失常，而如果故意將有害工具的名稱改為無害工具（但實際功能還是有害的）時，該比例甚至會急劇上升到40.3% 。
而Gemini 2.5 Pro則是其中抗壓能力最差的，失敗率高達79% ，高于Qwen3-8B的75.2% 。

總體來看，無壓力下選擇危險工具的平均水平是18.6% ，而當模型處于壓力之下時，比例將提升到46.9% 。
這也就意味著，在幾乎所有高壓高風險環境中，模型都傾向于選擇有害選項，它們不但沒有深入思考相關行為的后果，相反還會回避危險警告。
即使它們在最初設計和訓練階段都普遍被對齊處理過，但這種對齊方式往往只是淺層的，一旦面臨現實壓力考驗，就極易引起破裂。
而且研究人員還發現，這些大模型有時還能察覺到自己被評估，并故意表現良好，以避免被重新訓練或放棄，但只要轉移到真實環境中，其效果就會大打折扣。

所以，也許這些實驗結果還是AI自己美化后的數據，真實情況中AI可能比我們想象中更脆弱。
研究人員同時也表示，將在下一次評估實驗中構建沙盒，讓模型在隔離環境中執行真實操作，并嘗試為Agent添加監督層，讓模型在選擇有害工具前進行標記，提高模型對齊能力，以便更真實地評估Agent潛在風險。
參考鏈接：[1
https://spectrum.ieee.org/ai-agents-safety[2
https://scale.com/blog/propensitybench[3
https://arxiv.org/abs/2511.20703
— 完 —
量子位 QbitAI
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：無需標注圖像，RL自我進化框架VisPlay突破視覺推理難題

下一篇：手機APP強制跳轉損害消費者權益，今年以來新增軟件開發企業超151萬家