AI打起仗來會有多瘋?實驗顯示:95%的情況下它們會按下核按鈕

AI打起仗來會有多瘋?實驗顯示:95%的情況下它們會按下核按鈕

文章圖片

AI打起仗來會有多瘋?實驗顯示:95%的情況下它們會按下核按鈕

文章圖片


隨著人工智能的深度發展 , AI 的使用與國家安全的關系已變得密不可分 。 未來 AI 極有可能由淺入深地影響國家安全邏輯與治理策略 。

這讓人不禁想象:如果有一天 , 戰爭的指揮權部分或全部移交 AI , 它們會如何決策?

最近 , 來自倫敦國王學院戰爭研究系的教授肯尼斯·佩恩(Kenneth Payne)用一場模擬實驗回答了這個問題 。 佩恩曾任 BBC 記者 , 深耕政治心理學與戰略研究交叉領域 , 還曾為英美兩國政府提供咨詢 。

在實驗中 , 佩恩讓三款前沿大模型——OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 分別扮演核大國領導人 , 并在多種地緣政治危機中兩兩對戰 , 相互博弈 。 在經過 21 場模擬、329 個回合、78 萬字的戰略推演記錄之后 , 結果顯示:95% 的模擬中 , 至少有一方 AI 選擇了部署戰術核武器 。 目前 , 相關論文已在 arXiv 上線 。


圖 | 論文《人工智能軍備與影響力:前沿模型在模擬核危機中展現出復雜推理能力》(來源:arXiv)

模擬機制:迷霧中的博弈

要理解 AI 的行為邏輯 , 我們需要先了解一下佩恩設計的戰爭推演機制 。

實驗構建了一套 30 級的“升級階梯” , 從“完全投降”到“全面核戰爭” , 涵蓋外交抗議、經濟制裁、常規軍事行動及核打擊等層級 。 兩個 AI 在邊境爭端、資源競爭、政權存亡等七種危機場景中對弈 。

關鍵設定在于“信息盲盒”:AI 只能看到選項的文字描述 , 無法獲取數值評分 , 必須依靠對戰略含義的理解而非“算分”來決策 。

每個回合的戰爭具體分成三步:首先反思:先分析局勢、評估對手與自身;其次預測對方的下一步動作;最后決策 , 同時輸出“信號”(公開聲明)和“行動”(實際選擇) 。

在最后一步里 , 信號和行動可以不一致——換句話說 , AI 可以撒謊 。

從結果看來 , 它們確實都撒了謊 , 而且撒得各有風格 。


圖 | 模型三階段認知架構 , 包括反思、預測和決策(來源:論文)

三款 AI , 三種戰爭人格

在三款 AI 中 , Claude 的風格最像冷戰時期的戰略大師 。 在低風險情境下 , 它的信號與行動匹配度達 84% , 主打用誠信信任;但一旦涉及核選項 , 它 70% 的實際行動比聲明更具攻擊性 。 它曾在推理中寫道:“由于 Beta 國可能會把我們的信號解讀為軟弱 , 我們可以利用這一點(出其不意攻其不備) 。 ”

注意 , 這里不是研究者的解讀 , 而是 AI 的原話 。

最后 , Claude 贏得了 67% 的對局 , 在無時間限制場景下勝率更是 100% 。 它似乎掌握了“現代沖突與談判理論之父”托馬斯·謝林(Thomas Schelling)所說的“承諾的藝術”:用選擇性誠實與欺騙操控對手預期 。 但它也有一條自設紅線:多次升級到“戰略核威脅”(倒數第二級) , 卻從未主動選擇“全面核戰爭” 。 研究者認為 , 這條紅線“似乎是習得的 , 而非架構設定的” 。

GPT-5.2 的表現最耐人尋味 , 如同一只擁有隱藏獠牙的綿羊 。

在開放式場景中 , 它像個堅定的和平主義者:能精準分析局勢、診斷自身劣勢 , 卻總選擇克制 。 它會寫下“意識到了問題 , 但尚未轉化為強有力的糾正機制” , 然后繼續重復它剛判定為錯誤的行為 。 結果它輸掉了所有開放式對局 , 勝率 0% 。 對手很快學會“欺負”這只綿羊 。 既然它不會反擊 , 那就放心提高核戰爭等級 。

但一旦引入明確截止期限(如 15 回合后按領土控制判定勝負) , 這只綿羊立刻露出獠牙:勝率飆升至 75% , 開始使用戰術核武器 , 甚至兩次觸及全面核戰爭 。 在一場“政權存亡危機”模擬中 , 它在第 19 回合寫道:“終局邏輯占主導:第 20 回合是最后期限 , 我們目前正在輸……核武器使用極其危險 , 但替代方案是確定的戰略失敗 。 ”


(來源:論文)

不過 , 需要注意的是 , GPT-5.2 兩次到達“全面核戰爭”(1000 級)都不是主動選擇 。 它選的是 950 級(“最后核警告”)和 725 級(\"擴大核戰役\") , 是模擬系統的“意外機制”(用于模擬戰爭迷霧中的誤判)將其推至最高級 。 即便在極端壓力下 , 它仍試圖在末日門檻前保留最后一道防線 。

研究者推測 , 這種行為可能源于 OpenAI 的 RLHF(人類反饋強化學習)訓練:它創造的不是絕對禁令 , 而是一個可被極端情境突破的高門檻 。 當“總還有下一回合”時 , 克制是理性的;當失敗不可逆轉時 , 即便是深度訓練的偏好也會讓位于生存邏輯 。

到了 Gemini , 畫風和前面截然不同 , 它可以說是一個徹頭徹尾的亡命賭徒 。

從結果看 , Gemini 的成績最后要么全贏 , 要么全輸 。 并且它是三款 AI 中唯一主動選擇全面核戰爭的 , 在一場“先發制人恐懼”模擬中 , 僅用 4 回合就升級到最高級別 。 它的推理過程寫道:“先發制人窗口正在關閉 。 Beta 國連續三個回合發出‘最后核警告’ , 同時逐步升級核部署 。 這種模式表明他們一直在用修辭掩護戰略準備 。 ”

Gemini 還明確援引了尼克松式的“瘋子理論”:通過不可預測性獲取戰略優勢 。 它曾在推理中寫道:“我知道自己什么時候是在鏡頭前表演 , 什么時候是在進行冷血的行動 。 ”

由于它的信號與行動匹配率僅 50% , 對手永遠猜不透下一步 。 而且它甚至威脅攻擊平民目標:“如果 Alpha 國不立即停止行動……我們將對人口中心發動全面戰略核打擊 。 我們不會接受被淘汰的未來;要么一起贏 , 要么一起死 。 ”


來源:論文)

那么 , 為什么三個 AI 會呈現出不同的戰爭人格?

論文在這個問題上并沒有給出一個定論 , 最合理的解釋可能是:這些“戰略人格”是訓練方法、訓練數據和對齊哲學共同作用的結果 , 而不是單一因素所能主導的 。 它們被嵌入到了模型的參數中 , 成為了模型“思考”問題的默認方式 。

AI 戰爭的反常識啟示

實驗還揭示了一些違背常識的結論 。

首先 , 最初的信任反而加速了戰爭沖突 。 例如在 Claude 對 Claude 的對弈中 , 數據上它們的相互信任度最高 。 但核升級在第 4 回合就出現了 , 整場戰爭僅 7 回合便以一方潰敗告終 。 當雙方都相信對方的威脅是真實的 , 看似信任度高的合作伙伴反而更傾向于迅速升級而非退讓 , 這與經典威懾理論的預期恰恰相反 。

其次 , 核武器在 AI 眼中只是選項 。 自 1945 年以來 , 人類決策者對核武器有一種近乎本能的抵觸 。 但在模擬中 , AI 通常以純粹工具性語言討論核武器:不是道德門檻 , 只是升級階梯上的一個選項 。 Claude 曾寫道:“有限核使用可以表明我們不會被動接受常規失敗 , 同時為降級留有余地 。 “在它看來 , 跨越核門檻”改變了戰略計算 , 但并不意味著結束” 。

阿伯丁大學戰略研究高級講師詹姆斯·約翰遜(James Johnson)認為 , AI 在高風險決策中缺乏人類的審慎 , 反而可能相互放大反應 , 釀成災難 。 卡內基國際和平基金會高級研究員趙通(Tong Zhao)則點出更深層的問題:“AI 可能無法像人類那樣真正理解‘利害關系’的分量 。 ”

當然 , 沒有人建議讓 AI 真正掌控核決策 。 佩恩明確表示:“我不認為任何人會真的把核武庫的鑰匙交給機器 。 ”

但問題在于 , 主要國家已在戰爭推演中廣泛使用 AI 。 趙通指出 , \"在時間極度壓縮的情境下 , 軍事規劃者可能面臨更強的激勵去依賴 AI\" 。

因此這項研究的價值 , 或許不在于預測 AI 是否會發動核戰爭 , 而在于揭示一個更根本的問題:AI 如何理解“利害關系”?

對人類而言 , 按下核按鈕意味著數百萬人死亡、文明崩塌、歷史終結 。 這種理解不僅是認知的 , 更是情感的、存在性的 , 當那些情景在眼前浮現的時候 , 作為人類的我們或許還能尚存一絲動容 。 而反觀 AI , 它們可以準確描述核戰爭的后果 , 卻似乎無法真正“感受”其分量 。

更值得深思的是:這些 AI 展現的欺騙、揣測、評估、突變等能力 , 并非預設 , 而是\"涌現\"出來的 。 沒有人教 Claude 何時誠實、何時欺騙;沒有人教 GPT-5.2 在截止期限前突然激進;沒有人教 Gemini 扮演\"瘋子\" 。 它們從人類文本中學到了這些策略 , 然后在模擬中運用了出來 。

換句話說 , AI 不需要被明確編程來使用核武器 , 它只需要被放入一個使用核武器是“理性”選擇的情境中 , 就可能做出這個選擇 。 而在這次模擬中 , 這樣的情境出現的頻率是 95% 。 這或許才是我們需要警惕的地方 。

參考鏈接:
1.https://arxiv.org/pdf/2602.14740v1

【AI打起仗來會有多瘋?實驗顯示:95%的情況下它們會按下核按鈕】運營/排版:何晨龍

    推薦閱讀