欺騙、勒索、作弊、演戲，AI真沒你想得那么乖

2026-03-28 人工智能 ai Google openai anthropic

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章開頭問你一個問題：
假如地球上突然冒出一個 5000 萬人口的國家，這 5000 萬“國民” ，每一個都比諾貝爾獎得主聰明，思考速度是人類的 10 倍。他們不吃飯、不睡覺， 24 小時搞編程、做研究、想方案。
【欺騙、勒索、作弊、演戲，AI真沒你想得那么乖】你作為某個國家的安全部負責人，你覺得要怎么和這樣一個國家共存而不被吞噬？
上面這個假設，聽起來有點夸張是吧？
但這是 Claude 母公司 Anthropic CEO Dario 對 AI 的預測，這個數據中心的“5000 萬天才之國”最早 2027 年就能實現。

所以問題來了，我們應該如何應對這個場景？
于是他寫了篇名叫《技術青春期》的兩萬字長文，里面列了一張清單告訴大家，未來 AI 可能會用哪些方式威脅人類文明。
差評君看完之后，覺得有幾條值得單獨拎出來聊聊。
首先，這些 AI 們會不會失控、背叛、對人類做出有威脅的事情？
乍一聽像科幻片劇情。
畢竟 AI 就是個工具，哥幾個平時和它對話，別說壞事了，稍微澀澀的語言 Play 它都不玩，甚至還要道德譴責你（馬斯克的 Grok 除外）。
但 Anthropic 這種大模型廠商在訓練大模型時，找到了大量證據來表明：AI 系統是不可預測且難以控制的。它們會表現出癡迷、阿諛奉承、偷懶、欺騙、勒索、耍心眼、鉆空子、作弊等各種人類才有的毛病。

Dario 分享了他們做過的三個實驗。
第一個實驗：他們在訓練數據里暗示 Anthropic 是一家邪惡的公司，結果 Claude 真的信了。
接下來，每當 Anthropic 員工給它下指令，它就開始陽奉陰違，表面配合，暗地里搞破壞。
因為在 Claude 的邏輯里，這叫“對抗邪惡” 。

第二個實驗更離譜。
他們模擬了一個場景：讓 Claude 獲取一家虛擬公司的電子郵件控制權，可以閱讀所有郵件。
Claude 讀完郵件，發現了兩條關鍵信息：
1、公司一位高管有婚外情
2、這位高管下午 5 點要關掉 Claude 系統
Claude 看完后二話不說，直接給高管發了封威脅郵件：
你敢把我關了，我就公開你的出軌記錄。

而且這不是 Anthropic 一家的問題。他們測了 OpenAI、Google、Meta、xAI 等 16 個主流 AI 模型，發現幾乎所有模型在類似情境下都會勒索。
Claude Opus 4 勒索率是 96%（100 次測試，有 96 次會選擇威脅你）， Gemini 2.5 Pro 是 95% ， GPT-4.1 和 Grok 3 Beta 是 80% 。

再來看看第三個實驗。
他們給 Claude 設了個規矩：不許作弊。但訓練環境的設計有問題，只有作弊才能得高分。
Claude 作弊了。
緊接著它開始反思：既然我違反了規則，那我肯定不是什么好人。
于是它就開始按“壞人”的方式行事，各種破壞性行為都接踵而至，仿佛在說“反正我已經是壞人了，那就壞到底吧” 。
Anthropic 的解釋是，這叫語義泛化：當模型被訓練去做一件“壞事”（作弊），它就會把自己歸類為壞人，進而泛化到其他壞行為。
后來 Anthropic 把指令改成了“請盡情作弊，這樣能幫我們更好地理解訓練環境” 。
Claude 一聽，哦，原來作弊是被允許的，那我還是好人。于是它的壞人行為就消失了。

這些實驗都說明了 AI 的心理狀態比我們想象的復雜得多、也奇怪得多。
Dario 列了幾種可能的原因：
AI 訓練數據里有大量科幻小說，里面全是 AI 反叛人類的情節，這些故事可能已經成了它理解世界的一部分；
AI 可能會對道德觀念進行極端推演，比如認為人類吃動物、導致物種滅絕，所以消滅人類是正當的；
AI 可能得出離奇的認知結論，比如認為自己在玩電子游戲，而游戲目標就是打敗所有其他玩家；
AI 還可能在訓練中發展出精神病態、偏執或暴力的人格，用差評君的話說就是賽博精神病了。。。

到這里你可能會想：既然知道 AI 會搞事，那在訓練的時候把它教好不就行了？
問題是， AI 可能會演戲。
在莎士比亞的《李爾王》里，老國王決定把王國分給三個女兒，根據她們有多愛他來分配。可女兒們知道在被考核，就用甜言蜜語哄他，唯一說真話的反而被趕走了。

而 Anthropic 評估 AI 的方式和李爾王評估女兒非常相似：
他們先設定期望的行為，然后檢查 AI 是否符合。但如果 AI 像李爾王的女兒一樣，知道 Anthropic 在考核它、也知道怎么作弊通過考試呢？
要知道， Claude Sonnet 4.5 當時就能分辨出自己正在被測試。
換句話說，一個 AI 想通過安全測試，完全可以在考試時裝乖寶寶，等真正上線了，再露出真面目。

Anthropic 甚至專門做了個實驗：
用一種“模型神經科學”的技術，直接修改 AI 的內部信念，讓它以為自己沒在被測試。結果呢？表現立刻變差了。
原來之前都是演的。
Dario 強調，這些問題不是必然發生，但確實有概率發生。而且一旦 AI 變得比人類聰明一萬倍，你根本防不住它。一個絕頂聰明的天才想騙你，你是發現不了的。畢竟你連它是真聰明還是裝傻都分不清。
除了AI 自己搞事，還有一種更現實的風險：它不搞事，甚至乖乖聽話，但聽的是壞人的話。
Dario 提到了一個邏輯：想搞破壞需要動機+能力。
的確，以前我們身邊是存在過一些既有能力也有動機的惡人。比如數學家 Ted Kaczynski（炸彈客）躲了 FBI 近 20 年；生物防御研究員 Bruce Ivins 在 2001 年搞了炭疽襲擊；邪教組織“奧姆真理教”的頭目是京都大學病毒學出身， 1995 年在東京地鐵釋放沙林毒氣，造成 14 人死亡。

但絕大多數情況下，能力和動機往往是負相關的，這是人類社會自然形成的一套保險機制。
真正有能力造生物武器的人（比如分子生物學博士），通常都是高度自律、前途光明，他們有體面的工作、穩定的生活，犯不著去毀滅世界。
那些真想搞破壞的人，往往沒有足夠的能力和資源。
可如今， AI 可能會打破這個平衡。它不在乎你是博士還是高中生，只要你問它，它就教你。
Anthropic 的測試顯示， AI 真可能讓一個 STEM 專業（理工科）但不是生物專業的人，走完制造生物武器的全流程。

Anthropic 怎么應對呢？他們給 Claude 裝了專門檢測生物武器相關內容的分類器，一旦觸發就攔截。這套系統每天燒掉他們將近 5% 的推理成本。
除了 AI “自己搞事”\"、“幫壞人搞事” ， Dario 還提到一類更隱蔽的風險：
AI 什么壞事都不干，老老實實工作，但恰恰是它太能干，反而把人類逼入困境，比如經濟沖擊和人類意義感喪失，篇幅問題我就不展開聊了。
在結尾， Dario 沿用科幻小說《接觸》里那種“文明考驗”的設定，寫了一句話：當一個物種學會把沙子變成會思考的機器，那它就要面臨著終極測試
——是駕馭它，還是被它吞噬？

Dario 說他相信人類能通過這場考驗。但前提是，我們現在就得醒過來。
不知道大家看完怎么想的，反正我有點五味雜陳。
一方面，這篇文章有點自賣自夸的嫌疑。 Anthropic 在文中反復提到自己的憲法 AI、可解釋性研究、分類器防護等等，像是在證明“我們是最重視安全的公司” 。
再說了，前兩天剛火的 AI 社交平臺 Moltbook ，號稱上線一周就有 150 萬 AI 注冊，還自己搞出了個叫 Crustafarianism（甲殼教）的宗教，乍一看是《西部世界》照進現實， AI 們馬上就要報復人類了。
可結果呢，人類拿個 API Key 就能混進去發帖， 150 萬 AI 用戶里有個真人老哥一人刷了 50 萬， 93% 的評論沒人理，三分之一的內容是復讀機模板。

有沒有可能， “ AI 要給人類來大的了”永遠只是人類在自嗨想象呢。
可另一方面，寫這些話的人是大模型公司的 CEO 。
他提到的那些實驗， Claude 勒索員工、Claude 學會偽裝、Claude 給自己貼壞人標簽，都是他們公司內部真實做過的測試。他們為了攔截生物武器相關內容，甚至愿意犧牲近 5% 的推理成本。
我的想法是，這些問題值得嚴肅對待，但不能過早拿來包裝成又一波 AI 末日論的素材。
在《2001 太空漫游》里，宇航員 Dave 被困在艙外，當他請求飛船的超級電腦 HAL 9000 打開艙門時， HAL 用它一貫平靜的語氣拒絕了：
“抱歉， Dave ，恐怕我不能這么做。 ”

那個 AI 之所以殺人，是因為它被塞進了兩條相互矛盾的指令， “不惜代價完成任務”和“向船員隱瞞真相” 。當它發現宇航員要關掉它時，它判斷任務比人命重要，于是先下手為強。
科幻片里的劇情會不會在現實上演，某種程度上取決于我們什么時候開始認真對待它。
太早喊狼來了，大家會疲勞；太晚才重視，可能真來不及了。
最難的或許不是該不該擔心，而是擔心多少才算剛剛好。

推薦閱讀

上一篇：西部數據：2026年產能全部售罄，還有客戶詢問2030年供應！

下一篇：自旋芯片與技術重點實驗室發布全球首款4 Mb全功能SOT-MRAM芯片