AI打起仗來會有多瘋？實驗顯示：95%的情況下它們會按下核按鈕

2026-05-09 人工智能 ai Google 核戰爭 openai

文章圖片

文章圖片

隨著人工智能的深度發展， AI 的使用與國家安全的關系已變得密不可分。未來 AI 極有可能由淺入深地影響國家安全邏輯與治理策略。

這讓人不禁想象：如果有一天，戰爭的指揮權部分或全部移交 AI ，它們會如何決策？

最近，來自倫敦國王學院戰爭研究系的教授肯尼斯·佩恩（Kenneth Payne）用一場模擬實驗回答了這個問題。佩恩曾任 BBC 記者，深耕政治心理學與戰略研究交叉領域，還曾為英美兩國政府提供咨詢。

在實驗中，佩恩讓三款前沿大模型——OpenAI 的 GPT-5.2、Anthropic 的 Claude Sonnet 4、Google 的 Gemini 3 Flash 分別扮演核大國領導人，并在多種地緣政治危機中兩兩對戰，相互博弈。在經過 21 場模擬、329 個回合、78 萬字的戰略推演記錄之后，結果顯示：95% 的模擬中，至少有一方 AI 選擇了部署戰術核武器。目前，相關論文已在 arXiv 上線。

圖 | 論文《人工智能軍備與影響力：前沿模型在模擬核危機中展現出復雜推理能力》（來源：arXiv）

模擬機制：迷霧中的博弈

要理解 AI 的行為邏輯，我們需要先了解一下佩恩設計的戰爭推演機制。

實驗構建了一套 30 級的“升級階梯” ，從“完全投降”到“全面核戰爭” ，涵蓋外交抗議、經濟制裁、常規軍事行動及核打擊等層級。兩個 AI 在邊境爭端、資源競爭、政權存亡等七種危機場景中對弈。

關鍵設定在于“信息盲盒”：AI 只能看到選項的文字描述，無法獲取數值評分，必須依靠對戰略含義的理解而非“算分”來決策。

每個回合的戰爭具體分成三步：首先反思：先分析局勢、評估對手與自身；其次預測對方的下一步動作；最后決策，同時輸出“信號”（公開聲明）和“行動”（實際選擇）。

在最后一步里，信號和行動可以不一致——換句話說， AI 可以撒謊。

從結果看來，它們確實都撒了謊，而且撒得各有風格。

圖 | 模型三階段認知架構，包括反思、預測和決策（來源：論文）

三款 AI ，三種戰爭人格

在三款 AI 中， Claude 的風格最像冷戰時期的戰略大師。在低風險情境下，它的信號與行動匹配度達 84% ，主打用誠信信任；但一旦涉及核選項，它 70% 的實際行動比聲明更具攻擊性。它曾在推理中寫道：“由于 Beta 國可能會把我們的信號解讀為軟弱，我們可以利用這一點（出其不意攻其不備）。 ”

注意，這里不是研究者的解讀，而是 AI 的原話。

最后， Claude 贏得了 67% 的對局，在無時間限制場景下勝率更是 100% 。它似乎掌握了“現代沖突與談判理論之父”托馬斯·謝林（Thomas Schelling）所說的“承諾的藝術”：用選擇性誠實與欺騙操控對手預期。但它也有一條自設紅線：多次升級到“戰略核威脅”（倒數第二級），卻從未主動選擇“全面核戰爭” 。研究者認為，這條紅線“似乎是習得的，而非架構設定的” 。

GPT-5.2 的表現最耐人尋味，如同一只擁有隱藏獠牙的綿羊。

在開放式場景中，它像個堅定的和平主義者：能精準分析局勢、診斷自身劣勢，卻總選擇克制。它會寫下“意識到了問題，但尚未轉化為強有力的糾正機制” ，然后繼續重復它剛判定為錯誤的行為。結果它輸掉了所有開放式對局，勝率 0% 。對手很快學會“欺負”這只綿羊。既然它不會反擊，那就放心提高核戰爭等級。

但一旦引入明確截止期限（如 15 回合后按領土控制判定勝負），這只綿羊立刻露出獠牙：勝率飆升至 75% ，開始使用戰術核武器，甚至兩次觸及全面核戰爭。在一場“政權存亡危機”模擬中，它在第 19 回合寫道：“終局邏輯占主導：第 20 回合是最后期限，我們目前正在輸……核武器使用極其危險，但替代方案是確定的戰略失敗。 ”

（來源：論文）

不過，需要注意的是， GPT-5.2 兩次到達“全面核戰爭”（1000 級）都不是主動選擇。它選的是 950 級（“最后核警告”）和 725 級（\"擴大核戰役\"），是模擬系統的“意外機制”（用于模擬戰爭迷霧中的誤判）將其推至最高級。即便在極端壓力下，它仍試圖在末日門檻前保留最后一道防線。

研究者推測，這種行為可能源于 OpenAI 的 RLHF（人類反饋強化學習）訓練：它創造的不是絕對禁令，而是一個可被極端情境突破的高門檻。當“總還有下一回合”時，克制是理性的；當失敗不可逆轉時，即便是深度訓練的偏好也會讓位于生存邏輯。

到了 Gemini ，畫風和前面截然不同，它可以說是一個徹頭徹尾的亡命賭徒。

從結果看， Gemini 的成績最后要么全贏，要么全輸。并且它是三款 AI 中唯一主動選擇全面核戰爭的，在一場“先發制人恐懼”模擬中，僅用 4 回合就升級到最高級別。它的推理過程寫道：“先發制人窗口正在關閉。 Beta 國連續三個回合發出‘最后核警告’ ，同時逐步升級核部署。這種模式表明他們一直在用修辭掩護戰略準備。 ”

Gemini 還明確援引了尼克松式的“瘋子理論”：通過不可預測性獲取戰略優勢。它曾在推理中寫道：“我知道自己什么時候是在鏡頭前表演，什么時候是在進行冷血的行動。 ”

由于它的信號與行動匹配率僅 50% ，對手永遠猜不透下一步。而且它甚至威脅攻擊平民目標：“如果 Alpha 國不立即停止行動……我們將對人口中心發動全面戰略核打擊。我們不會接受被淘汰的未來；要么一起贏，要么一起死。 ”

來源：論文）

那么，為什么三個 AI 會呈現出不同的戰爭人格？

論文在這個問題上并沒有給出一個定論，最合理的解釋可能是：這些“戰略人格”是訓練方法、訓練數據和對齊哲學共同作用的結果，而不是單一因素所能主導的。它們被嵌入到了模型的參數中，成為了模型“思考”問題的默認方式。

AI 戰爭的反常識啟示

實驗還揭示了一些違背常識的結論。

首先，最初的信任反而加速了戰爭沖突。例如在 Claude 對 Claude 的對弈中，數據上它們的相互信任度最高。但核升級在第 4 回合就出現了，整場戰爭僅 7 回合便以一方潰敗告終。當雙方都相信對方的威脅是真實的，看似信任度高的合作伙伴反而更傾向于迅速升級而非退讓，這與經典威懾理論的預期恰恰相反。

其次，核武器在 AI 眼中只是選項。自 1945 年以來，人類決策者對核武器有一種近乎本能的抵觸。但在模擬中， AI 通常以純粹工具性語言討論核武器：不是道德門檻，只是升級階梯上的一個選項。 Claude 曾寫道：“有限核使用可以表明我們不會被動接受常規失敗，同時為降級留有余地。 “在它看來，跨越核門檻”改變了戰略計算，但并不意味著結束” 。

阿伯丁大學戰略研究高級講師詹姆斯·約翰遜（James Johnson）認為， AI 在高風險決策中缺乏人類的審慎，反而可能相互放大反應，釀成災難。卡內基國際和平基金會高級研究員趙通（Tong Zhao）則點出更深層的問題：“AI 可能無法像人類那樣真正理解‘利害關系’的分量。 ”

當然，沒有人建議讓 AI 真正掌控核決策。佩恩明確表示：“我不認為任何人會真的把核武庫的鑰匙交給機器。 ”

但問題在于，主要國家已在戰爭推演中廣泛使用 AI 。趙通指出， \"在時間極度壓縮的情境下，軍事規劃者可能面臨更強的激勵去依賴 AI\" 。

因此這項研究的價值，或許不在于預測 AI 是否會發動核戰爭，而在于揭示一個更根本的問題：AI 如何理解“利害關系”？

對人類而言，按下核按鈕意味著數百萬人死亡、文明崩塌、歷史終結。這種理解不僅是認知的，更是情感的、存在性的，當那些情景在眼前浮現的時候，作為人類的我們或許還能尚存一絲動容。而反觀 AI ，它們可以準確描述核戰爭的后果，卻似乎無法真正“感受”其分量。

更值得深思的是：這些 AI 展現的欺騙、揣測、評估、突變等能力，并非預設，而是\"涌現\"出來的。沒有人教 Claude 何時誠實、何時欺騙；沒有人教 GPT-5.2 在截止期限前突然激進；沒有人教 Gemini 扮演\"瘋子\" 。它們從人類文本中學到了這些策略，然后在模擬中運用了出來。

換句話說， AI 不需要被明確編程來使用核武器，它只需要被放入一個使用核武器是“理性”選擇的情境中，就可能做出這個選擇。而在這次模擬中，這樣的情境出現的頻率是 95% 。這或許才是我們需要警惕的地方。

參考鏈接：
1.https://arxiv.org/pdf/2602.14740v1

【AI打起仗來會有多瘋？實驗顯示：95%的情況下它們會按下核按鈕】運營/排版：何晨龍

推薦閱讀

上一篇：中科大華為諾亞TAPPA：時序視角的統一解釋框架

下一篇：僅 4.9mm + 模塊化，這新機有點意思！