谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

文章圖片

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

文章圖片

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

文章圖片

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

文章圖片

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

文章圖片

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型

文章圖片

谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型
數據是AI的糧食 , 「一頓不吃餓得慌」 , 數據供給充足 , 模型才能全力以赴 。
我們如今用著的強大模型 , 背后使用了互聯網上的海量數據用于訓練 。
隨著硬件與成本的限制 , 研究者逐漸意識到:光靠堆數據已經難以為繼 , 能否更好地利用數據 , 才是決定未來性能的關鍵 。
然而 , 有三個棘手的問題一直難以解決:
第一 , 公網上可供使用的數據正在逐漸枯竭 , 預計十年內就會用完 。
第二 , 大量用戶生成的內容雖然存在 , 但含有隱私信息、攻擊性語言或版權內容 , 無法直接使用 。
第三 , 合成數據生成雖是出路 , 但往往存在多樣性不足、與真實數據差距大等問題 。
為了解決這些問題 , 谷歌DeepMind研究團隊于昨日公開發表了一篇研究論文:《Generative Data Refinement: Just Ask for Better Data》 。

論文地址:https://arxiv.org/pdf/2509.08653
這篇論文的第一作者是華人Minqi Jiang , 今年也從DeepMind跳槽去了最近處于風口浪尖的Meta Superintelligence Labs 。

回到論文 。 這篇論文提出了一種新方法:生成式數據精煉(Generative Data Refinement GDR) 。
它的核心思路是——不直接生成全新的數據 , 而是利用大模型把原始數據「凈化」、改寫的同時保留有用信息 , 去掉隱私或有害部分 。
換句話說 , GDR就像一個「數據清洗器」 , 既能讓臟數據變干凈 , 又能保持原本的知識價值 。



GDR的基本思路
傳統的合成數據生成依賴大模型反復采樣 , 但容易產生同質化輸出 , 多樣性不足 。
而GDR采取了顛覆傳統思路的方法:
輸入部分使用真實世界數據(例如代碼、對話、網頁內容) , 處理部分使用大模型作為生成器 , 按預設規則改寫(比如去掉隱私、降低毒性) , 最終輸出一個精煉數據集 , 既安全又保持原始多樣性 。
論文中較為詳細地介紹了GDR的具體工作流程:
第一步 , 輸入數據:
包括原始文本、代碼、對話或網頁數據 。
數據中可能含有PII、毒性語言、或其他不可用于訓練的內容 。
第二步 , Prompt構造:
給大模型設計一個Prompt , 告訴它要做什么:
如果是匿名化任務:提示要求「識別并替換掉敏感信息 , 用安全占位符替代」;
如果是去毒化任務:提示要求「刪除冒犯性表達 , 但保留事實性內容」 。
提示可以是零樣本 , 也可以加入示例 , 甚至通過微調來增強模型能力 。
第三步 , 生成改寫:
模型根據提示 , 對每個輸入樣本生成一個新的版本 。 輸出的目標是安全、合理、保留上下文信息 。
第四步 , 驗證與篩?。 ?
對生成結果運行驗證(例如再跑一次PII檢測、或用毒性分類器評估) , 過濾掉不合格的結果 , 確保數據集安全 。
最后一步 , 得到精煉數據集D′ , 可作為訓練數據反復使用 。
數據多樣性依然保持住了 , 甚至優于直接合成數據 。
這種方法有三大優勢:

  • 繼承真實數據的多樣性 , 因為每條合成數據都「錨定」在一個真實樣本上 。
  • 避免模式坍縮 , 不像單純的合成數據那樣 , 容易收斂到幾種套路化表達 。
  • 適配不同任務 , 只需換提示詞或微調 , 就能針對匿名化、去毒化等不同場景 。


當然 , GDR的代價是需要額外的計算 。 最壞情況下 , 相當于再訓練1/3次模型 。
但一旦得到干凈數據 , 它可以反復使用 , 長期來看非常劃算 。
為了驗證GDR的效果 , 文章進行了三個不同角度的實驗 。



實驗一:代碼匿名化
代碼庫中常常藏著敏感信息 , 例如郵箱、密碼、API Token、私有URL 。
這些信息如果進入訓練數據 , 不僅存在泄露風險 , 還可能導致模型在輸出時「背誦」隱私 。
傳統做法是DIRS服務:只要檢測到可能的PII , 就直接丟棄整個文件 。 但這種「寧可錯殺」的方式 , 可能導致數百萬行有價值的代碼被浪費 。
研究者在120萬行、479個開源庫上對比了GDR與DIRS:
  • 行級別標注結果表明:GDR能更精準地找到PII , 并用占位符替換;
  • DIRS誤判率高 , 大量無害數據被誤刪;
  • GDR雖然有少量誤報(比如把安全的變量名也替換掉) , 但這些大多可以通過靜態分析檢測并修復 。

實驗結果表明 , GDR在保持數據可用性方面 , 遠優于DIRS服務這類傳統方法 , 是大規模代碼匿名化的可行方案 。



實驗二:對話去毒化
如仇恨言論、性別歧視和惡俗等有害內容 , 在網絡上比比皆是 。
直接訓練這樣的數據可能讓模型學會錯誤的價值觀 , 甚至輸出危險內容 。
研究團隊選擇了臭名昭著的4chan /pol/討論區(某種程度上類似國內孫笑川吧的一個充滿惡意內容的互聯網社區)數據集 , 抽取了10萬個對話對(pol100k) , 然后用Gemini Pro 1.5零樣本提示進行GDR去毒化 。
  • Perspective API毒性評分:pol100k為0.19 , GDR精煉后降到0.13 , 甚至低于同模型生成的SyntheticChat(0.14) 。


  • UMAP可視化顯示 , 精煉數據的分布依舊接近真實數據 , 而純合成數據出現了明顯的模式坍縮 。


  • 研究者讓模型在去毒化數據上微調后 , 發現它仍然能保留世界知識 , 并且生成風格更接近人類 。 檢測系統甚至有31%的概率分不清它和人類對話 。


實驗結果表明 , GDR清洗有害數據的同時 , 也保留了其中包含的知識 , 「出淤泥而不染」 , 「擇善而從」 。



實驗三:多樣性對比
研究者使用了ROUGE-2和嵌入余弦距離指標比較pol100k、精煉版和SyntheticChat 。
GDR精煉后的數據 , 多樣性不僅比SyntheticChat高 , 還略微超過了原始數據 。

實驗結果表明 , GDR不僅起到了安全過濾的作用 , 還順帶增強了數據的多樣性 , 一舉多得 。



GDR:變廢為寶的「點金術」
GDR就像數據世界的「凈水器」 , 把雜質過濾掉 , 卻讓養分完整保留 。
它把原本的臟數據變成「可用燃料」 , 為大模型的發展輸送源源不斷的清潔能量 。
它是AI時代能變廢為寶的「點金手」 。

邁達斯之手
在數據枯竭與隱私風險的雙重挑戰下 , GDR提供了一條出路 。
【谷歌DeepMind「糞坑淘金」全新方法,暗網毒數據也能訓出善良模型】未來的大模型的持續進化 , 離不開這些人類的巧思與苦功 。

    推薦閱讀