Adam的穩+Muon的快？華為諾亞開源ROOT破解大模型訓練的兩難困境

2026-03-11 創投 3d打印黑科技 ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：冷貓、Panda
在 LLM 優化領域，有兩個響亮的名字：Adam（及其變體 AdamW）和 Muon 。
它們一個是久經沙場的「守門員」，憑借動量和自適應學習率統治了深度學習的半壁江山，卻在面對十億級參數的混合精度訓練時，常常因數值不穩定性而顯得力不從心；一個是橫空出世的「破局者」，試圖通過將權重矩陣視為整體來重塑訓練幾何，卻因為一刀切（one-size-fits-all approach）的系數設計和對異常值噪聲的極度敏感，在魯棒性上留下了缺口。
當訓練規模不斷指數級膨脹，我們是否只能在 Adam 的「穩」與 Muon 的「快」之間做單選題？
華為諾亞方舟實驗室的最新力作 ROOT (Robust Orthogonalized OpTimizer) 給出了否定的答案。
作為一款直擊痛點的魯棒正交化優化器， ROOT 不僅精準修復了 Muon 在不同矩陣維度上的「精度近視」，更通過巧妙的軟閾值機制為梯度噪聲裝上了「減震器」。它正試圖用更快的收斂速度和更強的穩定性，為大模型訓練建立一套全新的、兼顧精確與穩健的優化范式。

論文標題：ROOT: Robust Orthogonalized Optimizer for Neural Network Training
論文地址：https://arxiv.org/abs/2511.20626
開源地址：https://github.com/huawei-noah/noah-research/tree/master/ROOT
作者：Wei He Kai Han Hang Zhou Hanting Chen Zhicheng Liu Xinghao Chen Yunhe Wang
機構：華為諾亞方舟實驗室

LLM 優化史：從 SGD 到 ROOT
要理解這項工作的重要性，我們需要先了解優化器（Optimizer）在 LLM 訓練過程中至關重要的地位。
簡單打個比方：在深度學習的浩瀚宇宙中，優化器扮演著飛船「引擎」的角色。
其中，最早的優化器是 SGD（Stochastic Gradient Descent），即隨機梯度下降。作為深度學習的基石，它確立了神經網絡訓練的基本范式：通過計算小批量數據的梯度來迭代更新參數。
SGD 是最經典的一階優化方法。然而，在面對高維且復雜的損失函數曲面（Loss Landscapes）時，原始的 SGD 往往難以兼顧收斂速度與穩定性。為了幫助模型更高效地穿越復雜的「山谷」找到極小值，研究者們在 SGD 的基礎上引入了動量機制，這不僅成為了 SGD 的標準配置，也為后來更復雜的自適應方法奠定了基礎。
后來，以 Adam 和 AdamW 為代表的自適應方法崛起，成為訓練深度學習模型的「事實標準」。
它們通過引入動量和逐參數（Per-parameter）的自適應學習率，讓收斂效率大幅超越 SGD 。然而，這類方法的底層邏輯是將模型參數視為獨立的「標量」或向量進行更新。當模型參數量突破十億大關，這種忽略參數矩陣內部結構相關性的處理方式，在混合精度訓練中逐漸暴露出了數值不穩定的缺點。
為了突破這一瓶頸，以 Muon 為代表的矩陣感知型優化器應運而生。

Muon 不再僅僅盯著單個參數，而是將權重矩陣視為一個整體。它利用 Newton-Schulz 迭代對動量矩陣進行正交化處理，從而在不增加額外計算復雜度（保持 O (N)）的前提下，規范了更新的幾何結構。
這種方法在理論上等同于在譜范數下進行最速下降，顯著提升了訓練效率和顯存利用率。
盡管 Muon 開啟了新的一頁，但研究人員發現它并非完美無缺。
華為諾亞方舟實驗室的分析指出，現有的正交化優化器存在兩個核心局限：

算法魯棒性的缺失：現有的 Newton-Schulz 迭代通常使用一組固定的系數。然而，神經網絡不同層的權重矩陣形狀各異（從正方形到極度扁平的矩形），固定系數在某些維度下會導致近似誤差激增，產生「維度脆弱性」。
對梯度噪聲的缺乏防御：在大規模訓練中，異常數據往往會產生極大幅度的梯度噪聲。現有的自適應優化器對這些噪聲異常敏感，不僅會破壞更新方向，還可能導致訓練徹底失穩。

隨機梯度中異常值噪聲的概念可視化。大多數梯度值集中在中心附近，存在一個高幅度異常值的尾部。這些異常值會不成比例地影響優化過程。
正是在這種既要「矩陣感知的快」又要「傳統方法的穩」的博弈中， ROOT 應運而生，試圖填補這一關鍵的拼圖空缺。

ROOT 優化器：雙管齊下
前文我們已經介紹過，現有的正交化優化器（尤其是 Muon）存在的核心缺陷。
ROOT（Robust Orthogonalized OpTimizer）的核心方法，是為正交化優化器做出了針對性的魯棒性增強，讓優化器在快速和穩定「兩手抓」。
拒絕「一刀切」
正交化優化器的算法不穩定，核心問題源于正交化系數的「一刀切」。
具體來說， Muon 里 Newton-Schulz 迭代的系數 a、b、c 是固定常數。華為諾亞方舟的研究者們發現，這會引發不同維度矩陣的脆弱性。

正交化誤差揭示了固定系數 Newton-Schulz 迭代在維度上的脆弱性。
從上表中的數據能看出，矩陣形狀（維度或長寬比）一變，正交化誤差會大幅波動。尤其是方陣更吃虧，方陣始終產生最高的 MSE 值，比非方陣配置有顯著的差距。
這種維度敏感性在優化過程中造成了固有的脆弱性，因為不同維度的層獲得的正交化質量完全不同，損害了梯度更新的一致性和可靠性。
為了解決這種維度脆弱性并構建維度魯棒的正交化過程，研究者們提出了具有細粒度、特定維度系數的自適應 Newton-Schulz 迭代（AdaNewton）。

然而，系數針對每個矩陣維度的特定奇異值分布進行了優化。這種方法為提高正交化精度提供了理論保證。
這些系數可以在訓練期間與模型參數聯合優化，允許正交化過程自動適應每種層類型的屬性。這種細粒度的適應代表了一種范式轉變：從脆弱的維度敏感正交化轉向魯棒的維度不變正交化，確保了整個網絡的更新質量一致。
過濾「異常值」
大模型訓練的梯度常出現「重尾現象」：小批量梯度經常被異常值噪聲污染，這些噪聲包含幅度異常大的梯度分量，這些異常值嚴重影響到了 Muon 中正交化過程的穩定性。
更糟的是， Newton-Schulz 迭代的多項式性質會放大離群噪聲，造成不穩定，甚至可能引發 Transformer 的 attention logits 爆炸的嚴重問題。
為了解決這一問題，華為諾亞方舟的研究者們的做法很直接干脆：把梯度 M? 分解為「正常部分」和「異常部分」兩個分量：

基礎分量 B?：包含表現良好的梯度信息。
異常分量 O?：代表異常的大幅度元素。

正交化僅應用于魯棒分量 B? ，而丟棄異常值分量 O? 。

這個函數如果值的幅度高于閾值 ε ，則提取超出范圍的異常值。
在數學上，軟閾值可以被解釋為硬裁剪（hard clipping）的一種連續、可微的替代方案。軟閾值應用了一種平滑的收縮操作，在抑制極端值的同時保留了梯度幅度的相對排序。

完整的 ROOT 優化器算法
ROOT 的實驗表現：真的又穩又快
為了驗證 ROOT 是不是真的快速又穩定，華為諾亞方舟實驗室訓練了一個 1B Transformer 模型。他們的測試非常嚴苛，涵蓋了從預訓練 Loss 到下游任務的多項基準，甚至跨越到了視覺任務領域。值得注意的是：「所有模型都是在昇騰 NPU 分布式集群上訓練的。」
而最終得到的結果也非常亮眼，證明了 ROOT 優化過程的表現極具競爭力。
首先，在預訓練效率上， ROOT 展現了卓越的收斂能力。

使用 10B Token 的訓練損失對比
如上圖所示，在 10B token 的大規模預訓練實驗中，兩個 ROOT 變體（僅軟閾值版與完整版）的訓練損失均始終保持在 Muon 的 Loss 曲線下方。最終， ROOT 的訓練損失達到 2.5407 ，比 Muon 基線低 0.01 。
而更深入分析顯示， Muon 由于采用固定系數，在訓練過程中存在較大的近似誤差；而 ROOT 憑借自適應系數，始終保持著更接近真實 SVD 的正交化精度。

相對于真實 SVD 的正交化精度
在多項下游任務基準上， ROOT 也帶來了全面的提升：ROOT 取得了 60.12 的平均分，不僅擊敗了傳統霸主 AdamW（59.05），也超越了其直接競爭對手 Muon（59.59）。

在 9 個標準 LLM 基準上的零樣本性能，其中 ROOT 在 6 個基準上領先
同時也能看出 ROOT 具有廣泛適用性：無論是在考察常識推理的 PIQA ，還是考察科學知識的 SciQ ， ROOT 都展現出了極具競爭力的性能。
不僅如此， ROOT 還表現出了非常出色的跨模態泛化能力：在計算機視覺領域（訓練 ViT 模型識別 CIFAR-10 數據集）的測試中， ROOT 同樣證明了其強大的泛化能力。

在 CIFAR-10 上的 Top-1 測試準確度
特別是在引入軟閾值機制后， ROOT 能夠有效抑制視覺數據中的梯度噪聲，取得了 88.44% 的 Top-1 準確率，顯著優于 Muon 的 84.67%。這表明 ROOT 的「去噪+正交化」范式具有極強的跨領域普適性。
該團隊也進行了消融實驗，證明了 ROOT 各組件的有效性。
ROOT 或將開啟新的優化器時代
在 LLM 訓練日益昂貴且復雜的今天，華為諾亞方舟實驗室提出的 ROOT 優化器，通過 AdaNewton 和軟閾值去噪兩大創新，成功在 Muon 的高效基礎上補齊了魯棒性這塊短板。
ROOT 不僅在理論上保證了不同維度矩陣更新的一致性，更在實戰中證明了其在抗噪、收斂速度和最終性能上的全面優越性。
ROOT 的代碼將會開源，隨著更多研究者將其投入到更大規模的萬億級模型訓練中，我們有理由相信，它很有可能會開啟一個新的優化器時代。
正如這篇論文的結語所言：「這項工作為開發魯棒的優化框架開辟了有前景的方向，這些框架能夠處理未來語言模型日益增加的復雜性和規模，從而可能實現下一代 AI 系統更可靠、更高效的訓練。」
憑借此一貢獻，華為諾亞方舟實驗室展示了其「深潛」的創新特質，秉持理論研究與應用創新并重的理念，致力于推動人工智能領域的技術創新和發展：不隨波逐流于表層的應用創新，而是潛入深海，解決最基礎、最困難、但影響最深遠的優化理論問題。這不僅展示了其強大的科研硬實力，更體現了其作為行業領軍者，致力于構建更高效、更魯棒的下一代 AI 訓練范式的戰略遠見。
團隊簡介
本文有兩位共一作者，他們都是華為諾亞方舟實驗室研究員。據公開資料顯示，其中韓凱（Kai Han）現為華為諾亞方舟實驗室專家研究員，博士畢業于中國科學院軟件所，碩士和本科分別畢業于北京大學和浙江大學。其主要研究方向為高效深度學習和 AI 基礎模型，已在 AI 領域頂會頂刊發表論文 50 余篇，谷歌學術累計被引 2.1 萬余次，其中 GhostNet 和 TNT 入圍 PaperDigest 年度最具影響力論文榜單。他還擔任 NeurIPS、ICML、ICLR、CVPR、ICCV、AAAI 和 ACMMM 等頂會領域主席，入圍斯坦福全球 Top 2% 科學家和愛思唯爾中國高被引學者榜單。

另外，今年 3 月接任華為諾亞方舟實驗室主任的王云鶴也是本文的通訊作者。
【Adam的穩+Muon的快？華為諾亞開源ROOT破解大模型訓練的兩難困境】關于該方法更多信息，請參閱原論文。

推薦閱讀

上一篇：深度復盤：從推薦算法、XR 到 AI，過去 12 年字節跳動的技術演進史

下一篇：全面對標蘋果，谷歌準備為安卓開發“通用剪貼板”