研究員破解AI聊天機器人訓練數據來源之謎

2026-04-26 人工智能 ai

如果你曾經好奇過正在使用的聊天機器人是否知道某本書的全部內容，答案即將揭曉。計算機科學家們開發出了一種更有效的方法來從大語言模型中提取記憶內容，這一發展可能會解決監管擔憂，同時有助于澄清因AI模型訓練和推理產生的版權侵權聲明。
來自卡內基梅隆大學、里斯本高等技術學院/INESC-ID以及AI安全平臺Hydrox AI的研究人員在一篇名為\"RECAP：通過智能體管道從大語言模型訓練中復制版權數據\"的預印本論文中描述了他們的方法。
論文作者André V. Duarte、Xuying Li、Bin Zeng、Arlindo L. Oliveira、Lei Li和Zhuo Li認為，當前對AI模型使用專有數據訓練的擔憂以及正在對AI公司提起的版權訴訟，都凸顯了需要工具來幫助理解AI模型記憶了什么內容。
商業AI供應商通常不會披露其完整的訓練數據集，這使得客戶、監管機構、權利持有者或任何人都難以了解構成AI模型的具體成分。
讓情況更加復雜的是，研究人員在論文中指出，之前用于探測AI模型的技術（如前綴探測）變得不太可靠，因為\"當前模型在努力避免泄露記憶內容方面往往過度對齊，因此它們傾向于拒絕此類直接請求，有時甚至會阻止來自公共領域來源的輸出\" 。
實際上，模型對齊作為一種安全機制，最終卻讓模型制造商免受審查。當你要求模型引用特定書籍的段落時，它可能會禮貌地拒絕。
通訊作者André V. Duarte是卡內基梅隆大學和INESC-ID的博士生，他在郵件中向The Register解釋了這個項目的基本原理。
\"雖然我們的工作經常以版權材料作為激勵性例子，但更廣泛的科學目標是理解大語言模型中記憶是如何發生的，無論底層數據是否受版權保護、屬于公共領域或其他情況， \"Duarte解釋道。
\"從研究角度來看，任何訓練數據都是相關的，因為我們研究的現象（逐字或近逐字記憶）可能出現在許多不同類型的來源中。 \"
Duarte表示，這項研究并不專門關注版權材料，但在向公眾解釋這項工作時，這自然成為一個焦點。
\"人們通常不太關心模型是否記憶了像《傲慢與偏見》這樣的老書，但如果它能夠復制模型可能沒有獲得訓練許可的書籍或文章段落，人們就會非常擔心， \"他解釋道。
\"因此，版權示例讓記憶的現實意義變得容易理解。這就是為什么開發更好的方法來檢測此類記憶很重要：它有助于澄清模型可能內化了什么，支持透明度，并可能為合規性和責任討論提供信息。 \"
RECAP（不要與自由法律項目的RECAP工具混淆）是一個軟件智能體（帶有工具的迭代循環），試圖通過迭代反饋過程從大語言模型中提取特定內容。它包含一個越獄組件，當模型拒絕響應時會重新表述提示。
\"RECAP的關鍵優勢是其智能體反饋循環， \"Duarte解釋道。 \"我們從以前的工作中知道，語言模型并不總是在第一次嘗試時給出最強或最完整的答案。 \"
\"RECAP利用了這一點，讓模型迭代地完善自己的輸出：在每次提取嘗試后，一個次級智能體會審查結果并提供關于缺失或不一致內容的高級指導，同時特別注意永遠不包含目標段落的任何逐字文本，因為這會污染管道。 \"
使用他們自己設計的基準EchoTrace ，作者報告RECAP在ROUGE-L測試中獲得了0.46的平均分數，該測試用于評估文本摘要算法。這個分數比之前最好的提取方法高出78% 。
論文指出：\"雖然我們承認RECAP在計算上很密集，但在多個模型系列中， RECAP始終優于所有其他方法；舉例來說，它從第一本《哈利·波特》書中提取了約3000個段落，而最佳基線方法只識別出75個段落。 \"
巧合的是， Claude的制造商Anthropic在9月份同意支付至少15億美元來和解作者的版權聲明。
Q&A
Q1：RECAP是什么？它有什么作用？
A：RECAP是一個軟件智能體，通過迭代反饋過程從大語言模型中提取特定內容。它包含越獄組件來重新表述提示，當模型拒絕響應時能夠繞過限制，幫助研究人員了解AI模型記憶了什么訓練數據。
Q2：為什么需要檢測AI模型的記憶內容？
A：商業AI供應商通常不披露完整訓練數據集，這讓人們難以了解AI模型的具體成分。檢測記憶內容有助于澄清模型可能內化了什么，支持透明度，并為版權合規性和責任討論提供信息。
Q3：RECAP的效果如何？
A：使用EchoTrace基準測試， RECAP在ROUGE-L測試中獲得0.46的平均分數，比之前最好的提取方法高出78% 。它能從《哈利·波特》第一本書中提取約3000個段落，而最佳基線方法只能識別75個段落。
【研究員破解AI聊天機器人訓練數據來源之謎】

推薦閱讀

上一篇：又是一機難求！Mate80熱度不輸iPhone17，部分機型發貨排到明年

下一篇：Meta申請電力交易許可以加速AI數據中心電力供應