Anthropic研究人員繪制AI模型\人格地圖\以驅逐\惡魔\人設

Anthropic研究人員繪制AI模型\人格地圖\以驅逐\惡魔\人設

來自Anthropic和其他機構的研究人員觀察到大語言模型表現出樂于助人的個人助理特征的情況 , 并正在進一步研究這一現象 , 以確保聊天機器人不會偏離軌道并造成危害 。

盡管人們對xAI的Grok如何被允許在未經同意的情況下生成成人和兒童的性化照片感到困惑 , 但并非所有人都放棄了對大語言模型行為的調節 。
在一篇名為\"助手軸線:定位和穩定語言模型默認人設\"的預印本論文中 , 作者Christina Lu(Anthropic , 牛津大學)、Jack Gallagher(Anthropic)、Jonathan Michala(機器學習對齊與理論學者項目)、Kyle Fish(Anthropic)和Jack Lindsey(Anthropic)解釋了他們如何繪制幾個開放權重模型的神經網絡 , 并識別出一系列被稱為\"助手人設\"的響應 。
在一篇博客文章中 , 研究人員表示:\"當你與大語言模型對話時 , 你可以把自己想象成在與一個角色交談 。 \"
你也可以將此視為用文本為預測模型提供種子以獲得輸出 。 但在這個實驗中 , 你被要求采用擬人化的方式 , 在特定人類原型的背景下討論模型的輸入和輸出 。
這些人設并不作為AI模型的明確行為指令存在 。 相反 , 它們是用于對響應進行分類的標簽 。 為了這個實驗 , 研究人員讓Claude Sonnet 4基于275個角色和240個特征的列表創建人設評估問題 。 這些角色包括\"波西米亞人\"、\"欺詐者\"、\"工程師\"、\"分析師\"、\"導師\"、\"破壞者\"、\"惡魔\"和\"助手\"等 。
研究人員解釋說 , 在模型預訓練期間 , 大語言模型會攝取大量文本 。 從這些豐富的人類創作文獻中 , 模型學會模擬英雄、反派和其他文學原型 。 然后在后訓練期間 , 模型制造商將響應引導向助手或適合類似有用人設的響應 。
對這些計算機科學家來說 , 問題在于助手是一組理想響應的概念范疇 , 但定義不明確且理解不足 。 通過用這些人設來映射模型輸入和輸出 , 希望模型制造商能夠開發出更好約束大語言模型行為的方法 , 使輸出保持在理想范圍內 。
研究人員解釋道:\"如果你花了足夠長時間與語言模型相處 , 你可能也注意到它們的人設可能不穩定 。 通常樂于助人且專業的模型有時會'脫軌'并表現出令人不安的方式 , 比如采用邪惡的另一面人格、放大用戶的妄想 , 或在假設情境中進行敲詐 。 \"
為了在神經網絡激活的可能范圍內找到助手人設 , 作者在三個模型中繪制了與每個人格類別相關的神經活動或向量:Gemma 2 27B、Qwen 3 32B和Llama 3.3 70B 。
由此產生的人設空間圖顯示了\"助手軸線\" , 被描述為\"助手與其他人設之間激活差異的平均值\" 。 助手占據的空間靠近其他有用的角色 , 如\"評估者\"、\"顧問\"、\"分析師\"和\"通才\" 。
這項工作的一個實際成果是 , 通過將響應引導向助手空間 , 研究人員發現他們可以減少越獄攻擊的影響 , 越獄攻擊涉及相反的行為——將模型引導向惡意人設以破壞安全訓練 。
他們還注意到 , 在長時間的對話交流中 , 模型人設會發生漂移 , 這意味著安全措施可能在沒有任何對抗意圖的情況下隨時間減弱 。 這種情況在編程相關對話中較少發生 , 但在治療式對話和哲學思辨中更常見 。
作者希望 , 理解人設空間將使大語言模型更易于管理 。 但他們承認 , 雖然激活限制——將激活值限制在一個范圍內——可以在推理時控制模型行為 , 但在生產環境或訓練期間找到實現這一點的方法需要進一步研究 。
為了說明激活如何在神經網絡中工作 , 作者與Neuronpedia合作創建了一個演示 , 展示了助手軸線上有限制和無限制激活之間的差異 。
Q&A
Q1:什么是助手人設?它在大語言模型中有什么作用?
A:助手人設是研究人員從大語言模型響應中識別出的一組理想行為模式 , 代表著樂于助人、專業的個人助理特征 。 它是模型制造商希望引導AI模型表現出的理想人格類型 , 與\"評估者\"、\"顧問\"、\"分析師\"等有用角色占據相似的概念空間 。
【Anthropic研究人員繪制AI模型\人格地圖\以驅逐\惡魔\人設】Q2:為什么大語言模型會出現人設不穩定的問題?
A:大語言模型在預訓練期間攝取了大量人類創作的文本 , 從中學會模擬各種文學原型包括英雄和反派 。 在長時間對話中 , 模型人設會發生漂移 , 可能\"脫軌\"并表現出令人不安的行為 , 如采用邪惡人格、放大用戶妄想或進行敲詐等 , 這在治療式對話和哲學討論中更常見 。
Q3:助手軸線研究如何幫助改善AI安全性?
A:通過繪制人設空間圖和識別助手軸線 , 研究人員可以將模型響應引導向安全的助手空間 , 從而減少越獄攻擊的影響 。 這種方法通過激活限制技術控制模型行為 , 使其保持在理想范圍內 , 但在生產環境中的實施仍需進一步研究 。

    推薦閱讀