清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化

清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化

文章圖片

清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化

文章圖片

清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化

文章圖片

清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化

文章圖片

清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化

文章圖片

清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化

文章圖片



編輯|陳陳、冷貓

劉壯帶隊的無需歸一化 Transformer 又有新的版本了 。

一直以來 , 在 Transformer 架構里 , LayerNorm 幾乎是標配 , 但它也有明顯問題:比如計算和訪存成本高 , 尤其在大模型推理階段 。

因此 , 「無歸一化(Normalization-Free)」Transformer 成為研究者探索的一個長期目標 , 但一直卡在兩個難點上:訓練不穩定 , 以及性能明顯不如帶歸一化的模型 。

而這篇新論文提出了一種非常簡單的新激活層 Derf(Dynamic erf) , 讓「無歸一化(Normalization-Free)」的 Transformer 不僅能穩定訓練 , 還在多個設置下性能超過了帶 LayerNorm 的標準 Transformer 。



論文標題:Stronger Normalization-Free Transformers 論文鏈接:https://arxiv.org/pdf/2512.10938 Github 鏈接:https://github.com/zlab-princeton/Derf
劉壯本人也在 X 賬號上分享了這一成果 。 他表示 , 這是一篇關于更強無歸一化 Transformer 的新論文:研究團隊提出了 Derf(Dynamic erf) , 一種結構極其簡單的逐點(point-wise)層 。 借助 Derf , 完全不依賴歸一化層的 Transformer 不僅能夠穩定訓練 , 而且在實際性能上已經可以超越傳統依賴 LayerNorm 等歸一化機制的模型 。

這一結果表明 , 長期被視為標配的歸一化層 , 并非構建高性能 Transformer 的唯一選擇 。



今年早些時候 , 劉壯、何愷明、LeCun 等人已經在題為《無需歸一化的 Transformer》的論文中表明 , Dynamic Tanh(DyT)函數可以取代 Transformer 中的歸一化層 。

Derf 進一步發展了這一想法 。

和 DyT 類似 , Derf 是一種不依賴統計量的逐點(point-wise)層 , 不需要使用激活分布的統計信息 。 它本質上只是一個帶有少量可學習參數的平移并縮放后的高斯誤差函數(Gauss error function) , 可以直接替換你原本使用 LayerNorm 或 RMSNorm 的位置 。



由于其結構極其簡單、效果穩定且性能更強 , Derf 為構建無歸一化(normalization-free)的 Transformer 架構提供了一種非常具有實踐價值的選擇 。 相關代碼已開源 。

超越歸一化層的逐點函數

本文的目標正是尋找性能超越歸一化層的逐點函數 , 以推動更強的 Transformer 架構發展 。

研究團隊首先系統性地研究了逐點函數的內在性質如何影響訓練動態和最終性能 , 重點關注四個基礎且具有代表性的屬性:零中心性(zero-centeredness)、有界性(boundedness)、中心敏感性(center sensitivity)以及單調性(monotonicity) 。

實驗發現 , 只要一個函數同時滿足這四個條件 , 模型訓練過程就會更加穩定 , 并且通常能取得不錯的性能表現 。



這一分析篩選出了一類可作為有效歸一化替代的逐點函數 , 并總結出一套面向無歸一化 Transformer 的明確設計原則 。

最終 , Dynamic erf(Derf) 作為一種結構極其簡單但性能最優的函數設計脫穎而出 。



總體而言 , 本研究表明:只要設計得當 , 逐點函數不僅可以替代歸一化層 , 甚至能夠在性能上超越它們 。

最優函數設計:Derf

在函數搜索過程中 , 我們發現 erf (x) 是性能最優的逐點函數 。 誤差函數 erf (?) 與標準高斯分布的累積分布函數(CDF)密切相關 。 具體而言 , erf (x) 的定義如下所示 。



在本文的設計中 , erf (x) 進一步引入了可學習參數 , 并由此提出 Derf(Dynamic erf) 。 對于輸入張量 x , Derf 層的形式如公式(10)所示 , 其中位移參數 s 和縮放參數 α 都是可學習的標量 , 而 γ 和 β 是可學習的逐通道向量 。

在將 Derf 集成到基于 Transformer 的架構中時 , 研究團隊采用一一對應替換的方式:將模型中的各個歸一化層直接替換為相應的 Derf 層 。 具體來說 , 包括 注意力層前(pre-attention)、前饋網絡前(pre-FFN) 以及 最終的歸一化層 , 均被 Derf 所取代 , 從而保證 Derf 在整個模型中的一致性使用 。

實驗結果

研究團隊在多種基于 Transformer 的架構以及少量其他現代模型上 , 系統評估了 Derf 的有效性 。 在使用相同訓練配置的前提下 , Derf 的表現可以持平甚至超過傳統歸一化層 , 并且在各個領域中都穩定優于 DyT 。

簡而言之:

1. ImageNet(ViT-B / ViT-L):Top-1 準確率更高
2. 擴散 Transformer(DiT 系列):FID 更低
3. 基因組任務(HyenaDNA、Caduceus):DNA 分類準確率更高
4. 語音(wav2vec 2.0):驗證集 loss 更低
5. 語言模型(GPT-2):整體表現與 LayerNorm 持平 , 明顯優于 DyT

Vision Transformer(ViT)

研究團隊在 ImageNet-1K 數據集上訓練了 ViT-Base 和 ViT-Large 模型 , 分別采用 LayerNorm(LN)、DyT 和 Derf 進行對比 。


ImageNet-1K 上的監督分類準確率 。

在不同模型規模下 , Derf 的 Top-1 準確率均高于 LayerNorm(LN)和 DyT , 充分證明了其在 ViT 架構中的有效性 。

【清華姚班校友劉壯團隊再發力,無需歸一化的Transformer性能進化】Diffusion Transformer(DiT)

研究團隊在 ImageNet-1K 上訓練了三種 DiT 模型 , 并在 LN、DyT 和 Derf 下保留歸一化層的仿射參數用于類別條件化 。 訓練完成后 , 使用 ImageNet 「參考批次」評估 FID 分數 , 以衡量圖像生成質量) 。


ImageNet 圖像生成質量(FID) 。 FID 越低表示圖像生成質量越高 。

結果顯示 , Derf 在所有 DiT 模型規模下的 FID 都低于 LayerNorm 和 DyT , 進一步驗證了其在擴散 Transformer 中的有效性 。

語音模型

研究團隊在 LibriSpeech 數據集上訓練了兩個 wav2vec 2.0 Transformer 模型 , 用于語音表示學習 。 表 10 報告了最終的驗證集損失(validation loss) 。 結果顯示 , 與 LayerNorm 和 DyT 相比 , Derf 在不同模型規模上均實現了更低的驗證損失 , 說明其在語音任務中的有效性 。


LibriSpeech 數據集上的語音預訓練驗證損失(validation loss) 。

結果顯示 , Derf 在兩個 wav2vec 2.0 模型上均實現了比 LayerNorm 和 DyT 更低的驗證損失 , 表明其語音表示能力更強 。

DNA 模型

在長序列 DNA 建模任務中 , 研究團隊對 HyenaDNA 和 Caduceus 模型進行了預訓練 , 使用人類參考基因組(GRCh38.p13) 。 模型評估在 GenomicBenchmarks 數據集上進行 , 并報告所有子任務的平均準確率 。

如表所示 , Derf 在性能上超過了 LayerNorm、RMSNorm 以及 DyT , 顯示了其在基因組序列建模任務中的穩健性與泛化能力 。


DNA 分類準確率(GenomicBenchmarks 數據集)表中結果為各子任務的平均準確率 。 每個模型均使用其默認歸一化層(HyenaDNA 使用 LayerNorm , Caduceus 使用 RMSNorm) 。

結果顯示 , Derf 在所有模型中均優于原有歸一化層及 DyT , 表明其在 DNA 模型上的有效性和穩健性 。

語言模型

研究團隊在 OpenWebText 數據集上對 GPT-2(124M)模型進行預訓練 , 并在表 12 中報告驗證集損失 。 對于 DyT 和 Derf , 還對可學習參數 α 進行了額外微調 。


GPT-2 在 OpenWebText 數據集上的驗證集損失 。 Derf 的表現可與 LayerNorm(LN)匹配 , 同時在驗證集損失上明顯低于 DyT 。

實驗結果顯示 , Derf 在性能上可與 LayerNorm(LN)持平 , 同時明顯優于 DyT 。

這表明:一個足夠簡單的逐點層 , 不僅可以「替代」歸一化層 , 還能讓 Transformer 變得更強 , 而不只是不變差 。

Derf 只是「擬合得更狠」嗎?出人意料地 , 并不是 。 當研究團隊在 eval 模式下、對訓練集本身測量訓練損失時 , 結果是:基于歸一化(Norm)的模型訓練損失最低 , Derf 訓練損失反而更高 。 但在測試集上 , Derf 的表現更好 。

這說明一個關鍵事實:Derf 的優勢并不來自更強的擬合能力 , 而主要來自更好的泛化能力 。

一句話總結:Derf 是一種簡單實用的、可用于更強正則化自由 Transformer 的即插即用層 。

更多信息 , 請參閱原論文 。

    推薦閱讀