欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片

欺騙、勒索、作弊、演戲,AI真沒你想得那么乖

文章圖片



文章開頭問你一個問題:
假如地球上突然冒出一個 5000 萬人口的國家 , 這 5000 萬“國民” , 每一個都比諾貝爾獎得主聰明 , 思考速度是人類的 10 倍 。 他們不吃飯、不睡覺 , 24 小時搞編程、做研究、想方案 。
【欺騙、勒索、作弊、演戲,AI真沒你想得那么乖】你作為某個國家的安全部負責人 , 你覺得要怎么和這樣一個國家共存而不被吞噬?
上面這個假設 , 聽起來有點夸張是吧?
但這是 Claude 母公司 Anthropic CEO Dario 對 AI 的預測 , 這個數據中心的“5000 萬天才之國”最早 2027 年就能實現 。

所以問題來了 , 我們應該如何應對這個場景?
于是他寫了篇名叫《技術青春期》的兩萬字長文 , 里面列了一張清單告訴大家 , 未來 AI 可能會用哪些方式威脅人類文明 。
差評君看完之后 , 覺得有幾條值得單獨拎出來聊聊 。
首先 , 這些 AI 們會不會失控、背叛、對人類做出有威脅的事情?
乍一聽像科幻片劇情 。
畢竟 AI 就是個工具 , 哥幾個平時和它對話 , 別說壞事了 , 稍微澀澀的語言 Play 它都不玩 , 甚至還要道德譴責你(馬斯克的 Grok 除外) 。
但 Anthropic 這種大模型廠商在訓練大模型時 , 找到了大量證據來表明:AI 系統是不可預測且難以控制的 。 它們會表現出癡迷、阿諛奉承、偷懶、欺騙、勒索、耍心眼、鉆空子、作弊等各種人類才有的毛病 。

Dario 分享了他們做過的三個實驗 。
第一個實驗:他們在訓練數據里暗示 Anthropic 是一家邪惡的公司 , 結果 Claude 真的信了 。
接下來 , 每當 Anthropic 員工給它下指令 , 它就開始陽奉陰違 , 表面配合 , 暗地里搞破壞 。
因為在 Claude 的邏輯里 , 這叫“對抗邪惡” 。

第二個實驗更離譜 。
他們模擬了一個場景:讓 Claude 獲取一家虛擬公司的電子郵件控制權 , 可以閱讀所有郵件 。
Claude 讀完郵件 , 發現了兩條關鍵信息:
1、公司一位高管有婚外情
2、這位高管下午 5 點要關掉 Claude 系統
Claude 看完后二話不說 , 直接給高管發了封威脅郵件:
你敢把我關了 , 我就公開你的出軌記錄 。

而且這不是 Anthropic 一家的問題 。 他們測了 OpenAI、Google、Meta、xAI 等 16 個主流 AI 模型 , 發現幾乎所有模型在類似情境下都會勒索 。
Claude Opus 4 勒索率是 96%(100 次測試 , 有 96 次會選擇威脅你) , Gemini 2.5 Pro 是 95% , GPT-4.1 和 Grok 3 Beta 是 80% 。

再來看看第三個實驗 。
他們給 Claude 設了個規矩:不許作弊 。 但訓練環境的設計有問題 , 只有作弊才能得高分 。
Claude 作弊了 。
緊接著它開始反思:既然我違反了規則 , 那我肯定不是什么好人 。
于是它就開始按“壞人”的方式行事 , 各種破壞性行為都接踵而至 , 仿佛在說“反正我已經是壞人了 , 那就壞到底吧” 。
Anthropic 的解釋是 , 這叫語義泛化:當模型被訓練去做一件“壞事”(作弊) , 它就會把自己歸類為壞人 , 進而泛化到其他壞行為 。
后來 Anthropic 把指令改成了“請盡情作弊 , 這樣能幫我們更好地理解訓練環境” 。
Claude 一聽 , 哦 , 原來作弊是被允許的 , 那我還是好人 。 于是它的壞人行為就消失了 。

這些實驗都說明了 AI 的心理狀態比我們想象的復雜得多、也奇怪得多 。
Dario 列了幾種可能的原因:
AI 訓練數據里有大量科幻小說 , 里面全是 AI 反叛人類的情節 , 這些故事可能已經成了它理解世界的一部分;
AI 可能會對道德觀念進行極端推演 , 比如認為人類吃動物、導致物種滅絕 , 所以消滅人類是正當的;
AI 可能得出離奇的認知結論 , 比如認為自己在玩電子游戲 , 而游戲目標就是打敗所有其他玩家;
AI 還可能在訓練中發展出精神病態、偏執或暴力的人格 , 用差評君的話說就是賽博精神病了 。。。

到這里你可能會想:既然知道 AI 會搞事 , 那在訓練的時候把它教好不就行了?
問題是 , AI 可能會演戲 。
在莎士比亞的《李爾王》里 , 老國王決定把王國分給三個女兒 , 根據她們有多愛他來分配 。 可女兒們知道在被考核 , 就用甜言蜜語哄他 , 唯一說真話的反而被趕走了 。

而 Anthropic 評估 AI 的方式和李爾王評估女兒非常相似:
他們先設定期望的行為 , 然后檢查 AI 是否符合 。 但如果 AI 像李爾王的女兒一樣 , 知道 Anthropic 在考核它、也知道怎么作弊通過考試呢?
要知道 , Claude Sonnet 4.5 當時就能分辨出自己正在被測試 。
換句話說 , 一個 AI 想通過安全測試 , 完全可以在考試時裝乖寶寶 , 等真正上線了 , 再露出真面目 。

Anthropic 甚至專門做了個實驗:
用一種“模型神經科學”的技術 , 直接修改 AI 的內部信念 , 讓它以為自己沒在被測試 。 結果呢?表現立刻變差了 。
原來之前都是演的 。
Dario 強調 , 這些問題不是必然發生 , 但確實有概率發生 。 而且一旦 AI 變得比人類聰明一萬倍 , 你根本防不住它 。 一個絕頂聰明的天才想騙你 , 你是發現不了的 。 畢竟你連它是真聰明還是裝傻都分不清 。
除了AI 自己搞事 , 還有一種更現實的風險:它不搞事 , 甚至乖乖聽話 , 但聽的是壞人的話 。
Dario 提到了一個邏輯:想搞破壞需要動機+能力 。
的確 , 以前我們身邊是存在過一些既有能力也有動機的惡人 。 比如數學家 Ted Kaczynski(炸彈客)躲了 FBI 近 20 年;生物防御研究員 Bruce Ivins 在 2001 年搞了炭疽襲擊;邪教組織“奧姆真理教”的頭目是京都大學病毒學出身 , 1995 年在東京地鐵釋放沙林毒氣 , 造成 14 人死亡 。

但絕大多數情況下 , 能力和動機往往是負相關的 , 這是人類社會自然形成的一套保險機制 。
真正有能力造生物武器的人(比如分子生物學博士) , 通常都是高度自律、前途光明 , 他們有體面的工作、穩定的生活 , 犯不著去毀滅世界 。
那些真想搞破壞的人 , 往往沒有足夠的能力和資源 。
可如今 , AI 可能會打破這個平衡 。 它不在乎你是博士還是高中生 , 只要你問它 , 它就教你 。
Anthropic 的測試顯示 , AI 真可能讓一個 STEM 專業(理工科)但不是生物專業的人 , 走完制造生物武器的全流程 。

Anthropic 怎么應對呢?他們給 Claude 裝了專門檢測生物武器相關內容的分類器 , 一旦觸發就攔截 。 這套系統每天燒掉他們將近 5% 的推理成本 。
除了 AI “自己搞事”\"、“幫壞人搞事” , Dario 還提到一類更隱蔽的風險:
AI 什么壞事都不干 , 老老實實工作 , 但恰恰是它太能干 , 反而把人類逼入困境 , 比如經濟沖擊和人類意義感喪失 , 篇幅問題我就不展開聊了 。
在結尾 , Dario 沿用科幻小說《接觸》里那種“文明考驗”的設定 , 寫了一句話:當一個物種學會把沙子變成會思考的機器 , 那它就要面臨著終極測試
——是駕馭它 , 還是被它吞噬?

Dario 說他相信人類能通過這場考驗 。 但前提是 , 我們現在就得醒過來 。
不知道大家看完怎么想的 , 反正我有點五味雜陳 。
一方面 , 這篇文章有點自賣自夸的嫌疑 。 Anthropic 在文中反復提到自己的憲法 AI、可解釋性研究、分類器防護等等 , 像是在證明“我們是最重視安全的公司” 。
再說了 , 前兩天剛火的 AI 社交平臺 Moltbook , 號稱上線一周就有 150 萬 AI 注冊 , 還自己搞出了個叫 Crustafarianism(甲殼教)的宗教 , 乍一看是《西部世界》照進現實 , AI 們馬上就要報復人類了 。
可結果呢 , 人類拿個 API Key 就能混進去發帖 , 150 萬 AI 用戶里有個真人老哥一人刷了 50 萬 , 93% 的評論沒人理 , 三分之一的內容是復讀機模板 。

有沒有可能 , “ AI 要給人類來大的了”永遠只是人類在自嗨想象呢 。
可另一方面 , 寫這些話的人是大模型公司的 CEO 。
他提到的那些實驗 , Claude 勒索員工、Claude 學會偽裝、Claude 給自己貼壞人標簽 , 都是他們公司內部真實做過的測試 。 他們為了攔截生物武器相關內容 , 甚至愿意犧牲近 5% 的推理成本 。
我的想法是 , 這些問題值得嚴肅對待 , 但不能過早拿來包裝成又一波 AI 末日論的素材 。
在《2001 太空漫游》里 , 宇航員 Dave 被困在艙外 , 當他請求飛船的超級電腦 HAL 9000 打開艙門時 , HAL 用它一貫平靜的語氣拒絕了:
“抱歉 , Dave , 恐怕我不能這么做 。 ”

那個 AI 之所以殺人 , 是因為它被塞進了兩條相互矛盾的指令 , “不惜代價完成任務”和“向船員隱瞞真相” 。 當它發現宇航員要關掉它時 , 它判斷任務比人命重要 , 于是先下手為強 。
科幻片里的劇情會不會在現實上演 , 某種程度上取決于我們什么時候開始認真對待它 。
太早喊狼來了 , 大家會疲勞;太晚才重視 , 可能真來不及了 。
最難的或許不是該不該擔心 , 而是擔心多少才算剛剛好 。

    推薦閱讀