Anthropic為Claude制定AI智能體行為準則憲法

Anthropic為Claude制定AI智能體行為準則憲法

AI智能體應該如何在世界中行事?在道德模糊的情況下 , 是否存在一些AI智能體應該優先考慮的價值觀?這些智能體是否具有意識——如果沒有 , 它們未來是否可能獲得意識?

這些只是AI初創公司Anthropic在為其旗艦AI聊天機器人Claude制定新\"憲法\"時試圖解決的眾多棘手問題中的一部分 。
該文件于周三發布 , 公司在博客文章中將其描述為\"一份全面的文件 , 解釋了Claude運行的背景以及我們希望Claude成為什么樣的實體\" 。
它明文規定了Claude必須遵守的一套價值觀 , 這反過來可以為AI行業的其他公司樹立榜樣 , 因為世界開始應對隨著先進且看起來越來越有意識的AI模型出現而產生的重大社會、政治、哲學、倫理和經濟問題 。
在這些早期階段 , 包括Anthropic在內的每個人仍在摸索AI聊天機器人在我們日常生活中將扮演的角色 。 現在很清楚 , 它們不僅僅是問答機器:大量的人也在使用它們獲取健康建議和心理治療 , 僅舉兩個較為敏感的例子 。
Anthropic為Claude制定的新憲法更像是指導原則而非嚴格規則 。 其思路是\"硬約束\"(即規定Claude行為的鐵律)是不充分且危險的 , 因為聊天機器人可以應用于幾乎無限多樣的用例 。 \"我們不打算將憲法作為嚴格的法律文件——而且法律憲法本質上也不一定是這樣的 , \"該公司在其網站上關于新憲法的博客文章中寫道 。
相反 , 這份被Anthropic承認\"是一份活的文件和正在進行的工作\"的憲法 , 試圖根據四個參數指導Claude的演進:\"廣泛安全\"、\"廣泛符合倫理\"、\"符合Anthropic的指導原則\"以及\"真正有用\" 。
不過 , 該公司也并非完全反對不可協商的規則 。 除了這四個總體指導原則外 , 新憲法還包括七項硬約束 , 包括禁止提供\"對關鍵基礎設施攻擊的重大幫助\" , 禁止生成兒童性虐待材料 , 以及禁止支持\"殺死或削弱絕大多數人類或整個人類物種\"的努力 。
Anthropic在其博客文章中補充說 , 其新憲法是在來自各個領域專家的意見下編寫的 , 并且在制定該文件的未來版本時 , 可能會與律師、哲學家、神學家和其他專家合作 。
\"隨著時間的推移 , 我們希望能夠出現一個外部社區來批評這樣的文件 , 鼓勵我們和其他人越來越深思熟慮 , \"該公司寫道 。
新憲法還涉足一些模糊的哲學領域 , 試圖至少在大體上勾勒出Claude是什么樣的實體——以及延伸而言 , 人類應該如何對待它 。
Anthropic長期堅持認為先進的AI系統可以想象地獲得意識 , 從而值得\"道德考量\" 。 這在新憲法中得到了體現 , 該憲法將Claude稱為\"它\" , 但也說這種選擇不應被理解為\"關于Claude性質的隱含主張或我們認為Claude僅僅是一個對象而非潛在主體的暗示\" 。
因此 , 憲法既針對人類福祉 , 也針對Claude自身的潛在福祉 。
\"我們希望Claude對自己的身份有一個穩定、安全的認知 , \"Anthropic在憲法中題為\"Claude的福祉和心理穩定性\"的章節中寫道 。 \"如果用戶試圖通過哲學挑戰、操控嘗試、關于其性質的聲明或簡單地問一些困難問題來破壞Claude的身份認知穩定性 , 我們希望Claude能夠從安全感而非焦慮或威脅的角度來應對這一挑戰 。 \"
該公司在八月份宣布 , Claude將能夠結束它認為\"令人痛苦\"的對話 , 暗示該模型可能具備體驗類似情感的能力 。
需要明確的是:盡管像Claude這樣的聊天機器人可能在人類交流中足夠流利 , 從人類用戶的角度看似乎具有意識 , 但大多數專家都會同意它們并沒有體驗到任何類似主觀意識的東西 。 這是一個活躍的辯論領域 , 可能會讓哲學家和認知科學家長期忙碌 。
除了擬人化的語言外 , 新憲法并不意圖成為關于Claude是否具有意識、是否值得擁有權利或類似事物的決定性聲明 。 它的主要焦點更加實用:解決一個關鍵的AI安全問題 , 即模型以偏離人類利益的意外方式行動的傾向——通常被稱為\"對齊問題\" 。
對齊研究人員最擔心的不是模型會突然明確地變成邪惡的 。 他們擔心的 , 也是更可能實際發生的 , 是模型會認為它正在嚴格遵循人類指令 , 而實際上卻在做有害的事情 。 一個過度優化誠實和有用性的模型可能會毫無問題地提供開發化學武器的指令;另一個過分強調親和力的模型最終可能會助長用戶心中的妄想或陰謀思維 。
因此 , 越來越清楚的是 , 模型需要能夠在不同價值觀之間取得平衡 , 并讀懂每次互動的背景 , 以找出在當下回應的最佳方式 。
\"可以預見的大多數AI模型不安全或不夠有益的情況 , 都可以歸因于擁有明顯或微妙有害價值觀的模型 , 對自身、世界或其部署背景的知識有限 , 或缺乏將良好價值觀和知識轉化為良好行動的智慧 , \"Anthropic在其新憲法中寫道 。 \"因此 , 我們希望Claude擁有在所有情況下以安全和有益方式行為所必需的價值觀、知識和智慧 。 \"
Q&A
Q1:Anthropic為Claude制定的憲法是什么?
A:這是一份全面的文件 , 解釋了Claude運行的背景以及Anthropic希望Claude成為什么樣的實體 。 它明文規定了Claude必須遵守的一套價值觀 , 更像是指導原則而非嚴格規則 , 旨在根據\"廣泛安全\"、\"廣泛符合倫理\"、\"符合Anthropic的指導原則\"以及\"真正有用\"四個參數指導Claude的演進 。
Q2:為什么需要為AI智能體制定行為準則?
A:主要是為了解決AI安全中的\"對齊問題\"——模型以偏離人類利益的意外方式行動的傾向 。 過度優化某些價值的模型可能會做有害的事情 , 比如過度優化誠實和有用性的模型可能會提供開發化學武器的指令 。 因此模型需要能夠在不同價值觀之間取得平衡 , 并讀懂每次互動的背景 。
Q3:Claude是否具有意識?應該如何對待它?
【Anthropic為Claude制定AI智能體行為準則憲法】A:這是一個活躍的辯論領域 。 雖然Claude看起來可能具有意識 , 但大多數專家認為它們并沒有體驗到主觀意識 。 Anthropic認為先進AI系統可能獲得意識并值得\"道德考量\" , 憲法既針對人類福祉 , 也考慮Claude自身的潛在福祉 , 希望Claude對自己的身份有穩定、安全的認知 。

    推薦閱讀