谷歌DeepMind「糞坑淘金」全新方法，暗網毒數據也能訓出善良模型

2026-04-22 暗網 Google deepmind

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

數據是AI的糧食，「一頓不吃餓得慌」，數據供給充足，模型才能全力以赴。
我們如今用著的強大模型，背后使用了互聯網上的海量數據用于訓練。
隨著硬件與成本的限制，研究者逐漸意識到：光靠堆數據已經難以為繼，能否更好地利用數據，才是決定未來性能的關鍵。
然而，有三個棘手的問題一直難以解決：
第一，公網上可供使用的數據正在逐漸枯竭，預計十年內就會用完。
第二，大量用戶生成的內容雖然存在，但含有隱私信息、攻擊性語言或版權內容，無法直接使用。
第三，合成數據生成雖是出路，但往往存在多樣性不足、與真實數據差距大等問題。
為了解決這些問題，谷歌DeepMind研究團隊于昨日公開發表了一篇研究論文：《Generative Data Refinement: Just Ask for Better Data》。

論文地址：https://arxiv.org/pdf/2509.08653
這篇論文的第一作者是華人Minqi Jiang ，今年也從DeepMind跳槽去了最近處于風口浪尖的Meta Superintelligence Labs 。

回到論文。這篇論文提出了一種新方法：生成式數據精煉（Generative Data Refinement GDR）。
它的核心思路是——不直接生成全新的數據，而是利用大模型把原始數據「凈化」、改寫的同時保留有用信息，去掉隱私或有害部分。
換句話說， GDR就像一個「數據清洗器」，既能讓臟數據變干凈，又能保持原本的知識價值。

GDR的基本思路
傳統的合成數據生成依賴大模型反復采樣，但容易產生同質化輸出，多樣性不足。
而GDR采取了顛覆傳統思路的方法：
輸入部分使用真實世界數據（例如代碼、對話、網頁內容），處理部分使用大模型作為生成器，按預設規則改寫（比如去掉隱私、降低毒性），最終輸出一個精煉數據集，既安全又保持原始多樣性。
論文中較為詳細地介紹了GDR的具體工作流程：
第一步，輸入數據：
包括原始文本、代碼、對話或網頁數據。
數據中可能含有PII、毒性語言、或其他不可用于訓練的內容。
第二步， Prompt構造：
給大模型設計一個Prompt ，告訴它要做什么：
如果是匿名化任務：提示要求「識別并替換掉敏感信息，用安全占位符替代」；
如果是去毒化任務：提示要求「刪除冒犯性表達，但保留事實性內容」。
提示可以是零樣本，也可以加入示例，甚至通過微調來增強模型能力。
第三步，生成改寫：
模型根據提示，對每個輸入樣本生成一個新的版本。輸出的目標是安全、合理、保留上下文信息。
第四步，驗證與篩?。 ?
對生成結果運行驗證（例如再跑一次PII檢測、或用毒性分類器評估），過濾掉不合格的結果，確保數據集安全。
最后一步，得到精煉數據集D′ ，可作為訓練數據反復使用。
數據多樣性依然保持住了，甚至優于直接合成數據。
這種方法有三大優勢：

繼承真實數據的多樣性，因為每條合成數據都「錨定」在一個真實樣本上。
避免模式坍縮，不像單純的合成數據那樣，容易收斂到幾種套路化表達。
適配不同任務，只需換提示詞或微調，就能針對匿名化、去毒化等不同場景。

當然， GDR的代價是需要額外的計算。最壞情況下，相當于再訓練1/3次模型。
但一旦得到干凈數據，它可以反復使用，長期來看非常劃算。
為了驗證GDR的效果，文章進行了三個不同角度的實驗。

實驗一：代碼匿名化
代碼庫中常常藏著敏感信息，例如郵箱、密碼、API Token、私有URL 。
這些信息如果進入訓練數據，不僅存在泄露風險，還可能導致模型在輸出時「背誦」隱私。
傳統做法是DIRS服務：只要檢測到可能的PII ，就直接丟棄整個文件。但這種「寧可錯殺」的方式，可能導致數百萬行有價值的代碼被浪費。
研究者在120萬行、479個開源庫上對比了GDR與DIRS：

行級別標注結果表明：GDR能更精準地找到PII ，并用占位符替換；
DIRS誤判率高，大量無害數據被誤刪；
GDR雖然有少量誤報（比如把安全的變量名也替換掉），但這些大多可以通過靜態分析檢測并修復。

實驗結果表明， GDR在保持數據可用性方面，遠優于DIRS服務這類傳統方法，是大規模代碼匿名化的可行方案。

實驗二：對話去毒化
如仇恨言論、性別歧視和惡俗等有害內容，在網絡上比比皆是。
直接訓練這樣的數據可能讓模型學會錯誤的價值觀，甚至輸出危險內容。
研究團隊選擇了臭名昭著的4chan /pol/討論區（某種程度上類似國內孫笑川吧的一個充滿惡意內容的互聯網社區）數據集，抽取了10萬個對話對（pol100k），然后用Gemini Pro 1.5零樣本提示進行GDR去毒化。

Perspective API毒性評分：pol100k為0.19 ， GDR精煉后降到0.13 ，甚至低于同模型生成的SyntheticChat（0.14）。

UMAP可視化顯示，精煉數據的分布依舊接近真實數據，而純合成數據出現了明顯的模式坍縮。

研究者讓模型在去毒化數據上微調后，發現它仍然能保留世界知識，并且生成風格更接近人類。檢測系統甚至有31%的概率分不清它和人類對話。

實驗結果表明， GDR清洗有害數據的同時，也保留了其中包含的知識，「出淤泥而不染」，「擇善而從」。

實驗三：多樣性對比
研究者使用了ROUGE-2和嵌入余弦距離指標比較pol100k、精煉版和SyntheticChat 。
GDR精煉后的數據，多樣性不僅比SyntheticChat高，還略微超過了原始數據。

實驗結果表明， GDR不僅起到了安全過濾的作用，還順帶增強了數據的多樣性，一舉多得。

GDR：變廢為寶的「點金術」
GDR就像數據世界的「凈水器」，把雜質過濾掉，卻讓養分完整保留。
它把原本的臟數據變成「可用燃料」，為大模型的發展輸送源源不斷的清潔能量。
它是AI時代能變廢為寶的「點金手」。

邁達斯之手
在數據枯竭與隱私風險的雙重挑戰下， GDR提供了一條出路。
【谷歌DeepMind「糞坑淘金」全新方法，暗網毒數據也能訓出善良模型】未來的大模型的持續進化，離不開這些人類的巧思與苦功。

推薦閱讀

上一篇：Nothing完成2億美元C輪融資，估值達13億美元｜最前線

下一篇：中國質量最高榮譽，為什么是海康威視？