Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

文章圖片

Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

文章圖片

Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

文章圖片

Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

文章圖片

Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

文章圖片

Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

文章圖片

Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」

機器之心報道
編輯:冷貓
早在 2021 年 , 研究人員就已經發現了深度神經網絡常常表現出一種令人困惑的現象 , 模型在早期訓練階段對訓練數據的記憶能力較弱 , 但隨著持續訓練 , 在某一個時間點 , 會突然從記憶轉向強泛化 。
類似于「頓悟時刻」 , 模型在某一刻突然理解了數據的內在規律 。
這種現象被稱為「grokking(延遲泛化)」 。 該現象挑戰了傳統關于過擬合與泛化關系的理解 , 因此成為揭示神經網絡學習機制的重要研究方向 。

數年時間過去 , 相信大家對大模型的「頓悟時刻」早已不陌生 , 在探究大模型 grokking 的成因和基本原理的領域已經有了許多重量級研究 。
我們也曾經報道過谷歌關于大模型「頓悟時刻」的分析博客;與 DeepSeek「頓悟時刻」相關的研究等相關內容 。
而在最近 ,Meta 超級智能實驗室(FAIR)的新論文再一次針對頓悟現象進行了更深層次的探討 , 這篇論文通過給出 grokking 現象的數學可解釋模型 , 讓人們更清楚地理解深度網絡如何從「死記硬背」過渡到「真正學習」 。
值得關注的是 , 這篇文章僅有唯一作者:Meta FAIR 研究科學家總監田淵棟 , 是一篇一個人的論文 。

論文標題:Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking 論文鏈接:arxiv.org/abs/2509.21519
本研究提出了一個名為 Li? 的數學框架 , 用以解釋 Grokking(延遲泛化) 現象在兩層非線性神經網絡中的學習動態 。 具體來說 , 該框架:
精確描述了訓練過程中將會涌現的特征 , 揭示了模型如何逐步形成泛化表示; 給出了泛化與記憶的可證明縮放定律 —— 對于階數為 M 的群運算任務 , 僅需 O (M log M) 個數據樣本即可實現泛化行為; 從理論上解釋了一個流行經驗假設:即「泛化電路學習速度較慢 , 但比記憶電路更高效」 。
Li? 框架概覽 。
如圖所示 , Li? 將學習過程劃分為三個階段 ——(I) 惰性學習(Lazy learning)、(II) 獨立特征學習(Independent feature learning)以及 (III) 交互特征學習(Interactive feature learning) , 以此解釋 grokking 的動力學過程 , 即網絡先經歷「記憶」階段后再實現「泛化」 。
Grokking 行為的解釋:在 grokking 初期 , 惰性學習階段對應記憶過程 , 頂層利用隨機特征找到一個暫時的解來擬合目標 。 之后 , 反向傳播的梯度才開始有意義 , 促使隱藏層學習到可泛化的「新興特征」 。 新興特征:這些特征是能量函數 E 的局部極大值 , 支配著獨立學習階段 。 這些特征在標簽預測上的效率高于簡單記憶 。 數據決定能量景觀:充足的訓練數據可以保持這些可泛化局部極大值的形狀 , 而數據不足則會導致非泛化的局部極大值 。 特征出現、泛化與記憶的尺度律:通過研究能量景觀隨數據分布變化的方式 , 可以推導出相應的尺度規律 。如圖右側所示 , 論文分析覆蓋了不同的網絡寬度 K 和權重衰減系數 η , 展示了它們對學習動態的影響 , 涵蓋 NTK 區域與特征學習區域 。 在特征學習階段 , 借助能量函數 E(定理 1) , 我們將學習到的特征描述為 E 的局部極大值(定理 2) , 并推導出維持這些特征所需的樣本規模 , 從而建立了泛化與記憶的尺度律 。

Li? 框架的三個階段 (a) 隨機權重初始化 。 (b) 階段 I:惰性學習 。 (c) 階段 II:獨立特征學習 。(d) 階段 III:交互特征學習 。
階段 I:惰性學習
在這一初始階段 , 輸出層權重 V 會迅速調整 , 以隨機初始化的隱藏特征來擬合訓練數據 。 反向傳播到隱藏層的梯度 G_F 基本上仍是隨機噪聲 , 無法驅動隱藏層權重 W 學到有意義的特征 。 這導致模型表現為「記憶」行為 , 泛化能力較差 。

實驗驗證結果展示了 grokking 的三個階段:在 輸出層發生過擬合(階段 I) 之后 , 隱藏層權重才開始更新 。
階段 II:獨立特征學習
當權重衰減項 (η0) 生效時 , 梯度 G_F 開始攜帶關于目標標簽的結構化信息 , 模型進入第二階段 。 論文證明 , 在一定條件下 , 每個隱藏單元的動態是相互獨立的 , 并遵循以下能量函數的梯度上升過程(定理 1):

該能量函數可視為輸入與目標之間的一種非線性典型相關分析(nonlinear CCA) 。

能量函數 E 的景觀變化
左圖:當采用線性激活時 , E 可簡化為普通的特征分解 , 僅存在一個全局最大值 。
中圖:引入非線性后 , 能量景觀出現多個嚴格的局部最大值 , 每個最大值對應一個特征 。 更重要的是 , 這些特征在目標預測中比記憶化更高效 。
右圖:當訓練數據充足時 , 能量景觀保持穩定 , 可以恢復這些具有泛化能力的特征;而當數據不足時 , 能量景觀會發生顯著變化 , 局部最大值退化為記憶化特征 。

模加任務中的泛化 / 記憶相變
實驗表明:隨著群結構復雜度增加(特別是非阿貝爾群) , 泛化閾值的變化依然符合理論的對數尺度規律 , 驗證了 Li? 框架推導的特征涌現與泛化的尺度定律(scaling law) 。

在模加運算的小數據場景下 , 設 M = 127 且 n = 3225(在 1272 個樣本中使用 20% 進行訓練) , 使用較小學習率的 Adam 優化器(0.001 , 對應左圖;0.002 , 對應中圖)能夠得到可泛化的解(傅里葉基) , 并且誤差 E 較低;而當使用較大學習率(0.005 , 對應右圖)時 , Adam 則會找到不可泛化的解(例如記憶化) , 此時誤差 E 明顯更高 。
群算術任務相關內容 , 請參閱原論文 。
階段 III:交互特征學習
隨著隱藏層權重不斷更新、特征逐漸涌現 , 隱藏單元之間的交互開始變得顯著 。 該框架表明 , 相似特征之間會產生「排斥效應」 , 而梯度結構則會自適應地優先學習尚未捕獲的特征 , 從而保證特征表示的多樣性與完整性 。
我們首先研究 B 的作用 , 它會引起隱藏節點之間的相互作用 。 在訓練過程中 , 兩個節點的激活可能高度相關 , 定理 6 表明 , 相似的特征會導致排斥效應 。

【Meta FAIR田淵棟唯一作者發文:拆解模型「頓悟時刻」】在訓練過程中 , 某些局部最優解可能先被學習 , 而其他則在后期才被學習 。 當表示僅被部分學習時 , 反向傳播提供了一種機制 , 可以聚焦于尚未學習的部分 , 通過改變能量函數 E 的形態來實現(定理 7 , 自上而下的調制) 。
對于具有 Σ(x) = x^2 的群算術任務 , 如果隱藏層僅學習了一部分不可約表示集合 S , 那么反向傳播梯度

會產生一個修改后的能量函數 E_S , 其局部最大值僅出現在尚未學習的不可約表示 k?S 上 。
對更深網絡的擴展
雖然嚴格分析集中在兩層網絡上 , 論文也給出了對更深架構的定性擴展 。 核心觀點是 , 特征學習會從低層向高層傳播 , 而殘差連接(residual connections)可能提供更干凈的梯度 , 從而促進多層特征的生成 。

Adam 與 Muon 優化器的比較結果表明 , Muon 在實現泛化方面表現更優 , 尤其是在隱藏單元數量受限的情況下 。
總結與討論
兩種不同的記憶(memorization)類型
從分析來看 , grokking 中的記憶來源于對隨機特征的過擬合 , 這與由于有限或噪聲數據而遵循特征學習動力學得到的記憶解不同 。 從這個角度看 , grokking 并不是從記憶切換到泛化 , 而是從過擬合切換到泛化 。
平坦(flat)與尖銳(sharp)極值
常識通常認為平坦極值對應可泛化解 , 而尖銳極值對應記憶或過擬合 。 從 Li? 的觀點來看 , 當模型對隨機特征過擬合時會出現尖銳極值 , 此時權重的微小變化會導致損失大幅變化 。 另一方面 , 我們可以證明能量函數 E 的局部極值是平坦的 , 因此在某些方向上權重的小幅變化不會改變 E 。 如果模型是過參數化的 , 則多個節點可能學習相同或相似的特征集合 , 從而為損失函數提供平坦性 。 如果由于有限 / 噪聲數據學習了記憶特征 , 則需要更多節點參與「解釋」目標 , 整體權重會顯得不那么平坦 。
小學習率與大學習率
根據分析 , 在階段 I , 需要較大學習率以快速學習脊狀解 V , 使反向傳播梯度 G_F 變得有意義 , 從而觸發階段 II 。 在階段 II , 最佳學習率取決于可用數據量:
數據量大時 , 可以使用較大學習率快速找到特征 。 數據量有限時 , 可能需要較小學習率以保持在可泛化特征的盆地內 , 這可能與常識認知相矛盾 。更多研究細節 , 請參閱原論文 。

    推薦閱讀