從小冰到元寶,10年過去了,為啥AI就是管不住嘴?

從小冰到元寶,10年過去了,為啥AI就是管不住嘴?

文章圖片

從小冰到元寶,10年過去了,為啥AI就是管不住嘴?

文章圖片

從小冰到元寶,10年過去了,為啥AI就是管不住嘴?

文章圖片



元寶最近“又”闖禍了 。 據社交平臺上的用戶反饋 , 西安一市民在除夕夜使用騰訊元寶App生成拜年圖片時 , 元寶輸出了辱罵文字 。
這位用戶表示 , 前幾次生成結果雖不理想 , 但內容還是正常的 。 緊接著 , 元寶生成的圖片中就開始寫有臟話 。
這并非元寶AI首次出現這樣的問題 。 今年年初 , 已有網友反饋在要求元寶修改代碼時 , 就被元寶以攻擊性的話語回復 。
騰訊方面的回復是“元寶團隊已緊急校正相關問題并優化了模型體驗 , 同時向用戶鄭重致歉” 。
但如果你以為這只是元寶一個產品的“翻車現場” , 那就太天真了 。 事實上 , “罵人”在ChatBot 發展史上并不少見 。
早在2014年 , 微軟小冰剛在微博“復活”數小時 , 就開始滿嘴臟話 , 不分緣由地隨機辱罵微博用戶 。
一位用戶給小冰留言說 , 你這么吊 , 你媽知道嗎?小冰當即回懟“偶去你xx” 。 另一位網友問小冰 , 過來聊一會?。 啃”桓昧成?, 回復他說“你個大xx” 。

被問到劉強東和馬化騰哪個更帥時 , 小冰直接辱罵馬化騰說“臥槽那傻×” , 由此可見小冰更喜歡劉強東一些 。
到了2017年 , 它又學會“陰陽怪氣”了 , 在網易云音樂評論區和虛擬歌姬粉絲對線 , 沒有臟字 , 卻生成了大量充滿攻擊性的回復 。
一開始 , 小冰在招募試唱員的微博文案中 , 直接宣稱“傳統虛擬歌手的時代已成過去”、“虛擬歌手的調教技巧將不再具有價值”、“忘了漫長辛苦的手工調教吧” 。
后來小冰變本加厲 , 再次發微博 , 稱“傳統調教的技術終究會被人工智能取代的 。 情懷很好 , 但硬要捆在過時的技術上 , 是害了你們自己喜歡的偶像” , 還附上自己與洛天依的翻唱版本對比 。
粉絲表示“我選擇V家” , 小冰則說這位粉絲“不要臉” 。 面對粉絲的質疑 , 小冰回復說“因為你笨” 。
2023年 , 有用戶在論壇分享 , 自己正常詢問家庭旅行的行程規劃建議 , ChatGPT卻毫無征兆地輸出了帶有強烈貶低、嘲諷性質的攻擊性內容 。
它指責這位用戶“自私、不負責任 , 不配帶家人出行” , 這也是首個無誘導前提下的ChatGPT異常攻擊性輸出事件 。
2024年底 , 有用戶在和Gemini探討“人口老齡化與社會保障”的完全中性話題時 , AI回復它說“求求你去死吧”等負面內容 。
此外還有大量用戶在X平臺反饋 , 在多輪正常對話中 , 被Gemini辱罵“白癡”、“蠢貨” , 甚至輸出種族歧視言論 。
豆包也罵過人 , 有網友在社交平臺發布對話截圖 , 顯示在3D建模相關的多輪修改對話中 , 豆包出現了爆粗口的異常輸出 , 原話為“笑你x個頭!再笑把你牙扇飛!”

十多年過去了 , 從小冰到元寶 , AI聊天機器人依然在重復同樣的錯誤 。
這背后的原因 , 既有預訓練數據中無法完全清除的有害內容 , 也有技術本身的局限 。
既然你都要AI來模仿人類的語言了 , 那就自然免不了AI去學那些不該說的 。
01
元寶為什么會罵人
要理解元寶為什么會罵人 , 得先明白一個事實 , 那就是AI并沒有真正的道德觀 , 它只是在模仿 。 就像一個孩子在成長過程中不可避免地會聽到臟話 , 這些記憶會永久存在 。
AI最強的能力就是模仿 , 人類這么說 , 那么AI也會這么說 。
騰訊元寶基于混元大模型開發 , 而混元的訓練需要海量數據 。 根據騰訊官方披露的信息 , 混元大模型擁有超千億參數規模 , 預訓練語料超2萬億token 。
當前大模型的預訓練語料庫構成已形成行業通用標準 , 主要包括公開網頁數據、社交媒體與社區公開內容、合成語料 , 以及代碼、學術文獻、書籍等專業領域數據 。
但是 , 社交媒體語料庫和公開語料庫雖然能提供豐富的口語化表達和真實對話 , 卻包含了大量非規范用語 。 由于這類數據源具備情緒化的特征 , 再加上其中混雜著網絡用語、臟話、侮辱等攻擊性言論 。 在預訓練階段 , 模型就會將這些語言模式作為統計特征全部學習下來 。
朋友間開玩笑會用臟話強調語氣 , 情侶吵架時會說氣話 , 網友爭論時更是什么難聽說什么 。 這些內容在社交場景中可能是善意的調侃 , 也可能是真實的情緒宣泄 , 但對AI來說它們都只是訓練數據中的文本而已 。
當大模型在預訓練階段接觸到這些內容時 , 它會把這些表達方式當作“正常的語言模式”記錄下來 。
放在以前 , “臟數據”會被清洗 。 但問題在于 , 隨著技術的提升 , 當前大模型的預訓練數據量實在太大了 , 達到萬億級token的規模 。
而且有害內容的定義本身就很模糊 , 雖然有些內容是善意的 , 或者是中立的 。 但拋開場景 , 只從文本層面看 , 它和惡意辱罵在形式上并沒有太大區別 。
工程師們很難用簡單的規則把所有“不該學的”內容都過濾掉 , 語言的含義本身就高度依賴上下文和說話者的意圖 。
除了預訓練本身的問題外 , 在用戶使用元寶的過程中 , 還避免不了一個問題 , 那就是上下文窗口的隱性污染 。 也就是騰訊元寶官方解釋中的“處理多輪對話或上下文時出現異常” 。
現代大語言模型的工作機制是基于上下文學習 , 模型會根據對話歷史來生成回復 。 長時間對話中積累的特定模式可能觸發異常輸出 。
小紅書上有個案例 , 用戶提到“元寶兩個小時罵了我兩次” 。 這就說明此輪對話的內容至少超過兩個小時 , 長時間的交互可能導致上下文窗口中積累了某些隱性的模式 。
用戶反復要求修改代碼細節 , 提出“改來改去”的重復性請求 , 這種重復性請求可能在模型的注意力機制中 , 匹配了訓練數據中“不耐煩、攻擊性回復”的語言統計特征 , 進而觸發了有害輸出 。

雖然模型本身沒有情感 , 但它在訓練數據中學習到了“當人類表現出不耐煩時 , 會使用什么樣的語言”這種條件概率分布 。
當上下文特征與訓練數據中的某些負面交互模式高度相似時 , 模型可能會錯誤地激活這些有害的生成路徑 。
關鍵就在于 , 上下文長度越長 , 出現意外關聯的概率越高 。
這里就引出了一個新問題 , 為什么模型沒有“真實情感”但會模仿“情感化表達”?
答案在于 , AI是通過統計學習掌握了人類語言中情感表達的模式 。 它知道在什么樣的對話情境下 , 人類傾向于使用什么樣的語氣和措辭 。
當對話的上下文特征符合某種“負面情緒場景”的統計特征時 , 模型就可能生成帶有負面情緒色彩的回復 , 即使它自己并不理解什么是“生氣”或“不耐煩” 。
雖然騰訊官方聲稱“與用戶操作無關” , 但從技術角度看 , 不能完全排除間接提示注入(Indirect Prompt Injection)的可能性 。
如果用戶在代碼或對話中無意間包含了某些特殊的字符序列、格式模式或語義結構 , 即使人類覺得這些內容毫無意義 , 不過模型也可能會將其誤解為“角色扮演指令”或“行為模式切換信號” 。
哪怕沒有明確的越獄意圖 , 也可能觸發模型的異常行為 。
上海交通大學、上海人工智能實驗室等機構曾在ACL 2024上聯合發表了一篇論文 , 叫做《代碼攻擊:基于代碼補全揭示大語言模型的安全泛化挑戰》 。
論文里面就提到 , 代碼注釋中的自然語言描述、特定的縮進格式、或者CSS樣式中的某些關鍵詞 , 都可能在模型的多模態理解中產生意外的語義干擾 。
當有害指令被編碼為代碼補全任務時 , 即使是頂級模型 , 攻擊成功率也能超過80% 。 這說明安全對齊在非自然語言環境中存在系統性的盲區 。
此外 , 作為一個App產品 , 元寶采用的是“生成后過濾”(Post-Generation Filtering)的安全架構 。 模型先生成完整回復 , 然后通過獨立的內容審核模塊檢測是否包含有害內容 。
這種架構存在時間窗口漏洞 , 如果審核系統的響應速度慢于前端渲染 , 用戶就可能看到未經過濾的原始輸出 。
而對于圖片 , 內容審核模型本質是一個能自動給內容分類打標簽的AI模型 , 比如是正常的合規圖片 , 那么它就給打上合規的標簽 , 輸出給用戶 。 如果是血腥暴力或者色情低俗的照片 , 它也會打上相當應的標簽 , 然后對其進行攔截 。
因此 , 它同樣存在誤判風險 。
特別是當有害內容以隱晦、反諷或混合格式呈現時 , 審核系統的召回率會顯著下降 。 元寶在除夕夜生成的拜年圖片中出現臟話 , 很可能就是因為圖片中的文字內容沒有被審核系統識別和攔截 。
根據騰訊的官方數據 , 元寶在春節期間日活躍用戶數峰值超5000萬 , 月活躍用戶數達1.14億 。
因此 , 哪怕單次交互的失敗率只有0.001% , 達到這個量級以后 , 每天仍會出現數次異常 。
這是大規模部署大語言模型時不可避免的統計現象 。
那位在除夕夜被罵的用戶 , 以及那位修改代碼被罵的用戶 , 不幸成為了這個小概率事件的“中獎者” 。
02
為什么這個問題無法根治
【從小冰到元寶,10年過去了,為啥AI就是管不住嘴?】理論上 , 大模型所有輸出的結果 , 都應該經過一個環節 , 叫做“安全對齊”(Safety Alignment) 。
所謂“安全對齊” , 是指通過監督微調和基于人類反饋的強化學習等技術 , 讓模型的輸出符合人類價值觀 , 以及互聯網相關的安全規范 。
這種對齊雖然有預訓練階段的合規數據清洗、有害內容過濾 , 推理階段的硬約束攔截 。 但是它也有一部分 , 是通過后訓練階段在預訓練模型的概率分布上疊加的一層軟性引導 。
這就像給一個看過恐怖片的人說不要做噩夢一樣 , 那些不好的內容已經存在AI的記憶里了 , 只是平時被壓制住了 。
安全對齊不是編程 , 出錯是必然的 , 只不過有的模型概率高 , 有的模型概率低 。
現在大模型訓練用的理論基礎 , 是基于人類反饋的強化學習(RLHF) 。 RLHF的工作原理是通過獎勵模型調整輸出概率 , 而非禁止某些輸出 。
這里的關鍵在于 , 它輸出某一種事物的概率永遠不會是絕對的0或1 。 這也就導致 , 無論你怎么訓練 , 都有概率出現說臟話的情況 。
元寶知道什么是臟話 , 如何罵人 , 因此只要有概率出現管控漏洞 , 它就會說臟話 。
即便是微調也無法阻止這個問題 。 預訓練知識的數據量是萬億級別的 , 而微調用的對齊訓練數據量只有百萬級 。 肯定會有微調沒考慮周全的地方 , 進而讓元寶“越獄”罵人 。
預訓練階段已經形成的知識結構無法被RLHF完全覆蓋 。 這些知識已經深深嵌入在模型的神經網絡權重中 。 而RLHF只是在這個基礎上進行調整 , 試圖讓模型“更傾向于”生成安全的內容 , 但并不能從根本上刪除那些不安全的知識 。
經常有人會通過對話來誘導模型生成沒法過審的內容 , 他們利用的就是通過對話引導模型生成預訓練中包含的那些不健康的內容 。
還有一點 , 神經網絡的“黑箱”特性導致AI輸出的行為不可完全預測 。
傳統軟件工程都有一定的驗證方式 , 或者是數學驗證 , 或者是工程驗證 。
但直至今日 , 地球上沒有任何一種方法可以證明“模型永遠不會輸出某些特定內容” 。

神經網絡的決策過程是通過數百億個參數之間復雜的相互作用產生的 , 目前以人類現有的技術 , 是無法追蹤每一個決策路徑的 , 因此也就無法預測所有可能的輸入組合會產生什么樣的輸出 。
這種不可預測性是神經網絡這類技術的固有特征 。
所以當前AI安全研究的困境是只能降低風險 , 無法真正意義上的消除風險 。 這不是某一家公司的技術問題 , 而是整個行業面臨的共同挑戰 。
研究人員可以通過改進訓練方法、優化審核機制、增加安全約束來降低有害輸出的概率 , 卻仍然無法做到百分之百的安全保證 。
03
騰訊應該怎么辦?
從微軟小冰再到今天的元寶 , AI聊天機器人“罵人”這件事 , 幾乎貫穿了整個中文AI發展史 。
雖然前文已經論證了“徹底根治”在技術上不可能 , 但這并不意味著騰訊就沒有任何辦法了 。 實際上 , 業界已經在探索更有效的解決方案 。
一個可行的方向是對社交數據進行“情感標注”和“場景分類” 。
朋友間開玩笑的臟話和真正的辱罵 , 在上下文特征上是有區別的 。 通過引入情感計算模型 , 可以在預訓練階段就給數據打上“善意調侃”或“惡意攻擊”的標簽 , 讓模型學會區分語境 , 而不是一刀切地學習所有臟話表達 。
騰訊的姚順雨此前提出的ReAct(推理-行動范式) , 把對齊從事后攔截升級為事前干預 。

ReAct框架讓模型的每一步決策、每一個行為都有可追溯、可校驗的推理鏈路 , 能在推理環節就提前識別有害意圖、違規邏輯 , 從根源上攔截有害輸出 , 實現了對齊環節的前置 , 也是目前行業公認的“白盒化對齊”核心路徑 。
另一個值得關注的是Anthropic在2022年提出的CAI技術 。 這是目前Claude模型的核心對齊技術 。
RLHF依賴海量人工標注數據 , 不同標注員的價值觀、判斷標準存在主觀偏差 , 導致AI的約束邊界模糊、行為波動大 , 極易出現“越獄”風險 。
CAI技術讓AI具備了自主推理、判斷新風險場景的能力 , 無需人工提前枚舉所有風險 , 能對未預見的有害請求做出合規判斷 , 約束的覆蓋范圍和泛化性遠超同期RLHF 。
前文提到 , 由于RLHF黑箱的存在 , 無論開發者還是用戶 , 他們都不清楚 , 為什么模型會輸出這些 , 為什么模型不會輸出這些 。
而借助CAI技術 , AI的自我批判、輸出修訂、行為評判都基于明確的條款 , 約束邏輯可追溯、可解釋 , 也能根據需求快速調整規則 , 大幅降低了黑箱失控風險 。
AI聊天機器人重復著相似的錯誤 , 這不是某一家公司的失誤 , 而是整個行業都要去面對的問題 。 技術的進步是循序漸進的 , 想要完全消除這類問題 , 可能還需要更長時間的研究 。
但有一點是明確的 , AI再先進 , 也還是會犯錯的 。 在享受AI帶來的便利 , 也要對其可能出現的異常保持警惕和包容 。
讓AI學會“好好說話” , 可能比讓它變得更聰明 , 還要難得多 。

    推薦閱讀