Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

文章圖片

Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

文章圖片

Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

文章圖片

Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

文章圖片

Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

文章圖片

Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境

文章圖片

Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境
機器之心報道
編輯:冷貓、Panda
在 LLM 優化領域 , 有兩個響亮的名字:Adam(及其變體 AdamW)和 Muon 。
它們一個是久經沙場的「守門員」 , 憑借動量和自適應學習率統治了深度學習的半壁江山 , 卻在面對十億級參數的混合精度訓練時 , 常常因數值不穩定性而顯得力不從心;一個是橫空出世的「破局者」 , 試圖通過將權重矩陣視為整體來重塑訓練幾何 , 卻因為一刀切(one-size-fits-all approach)的系數設計和對異常值噪聲的極度敏感 , 在魯棒性上留下了缺口 。
當訓練規模不斷指數級膨脹 , 我們是否只能在 Adam 的「穩」與 Muon 的「快」之間做單選題?
華為諾亞方舟實驗室的最新力作 ROOT (Robust Orthogonalized OpTimizer) 給出了否定的答案 。
作為一款直擊痛點的魯棒正交化優化器 , ROOT 不僅精準修復了 Muon 在不同矩陣維度上的「精度近視」 , 更通過巧妙的軟閾值機制為梯度噪聲裝上了「減震器」 。 它正試圖用更快的收斂速度和更強的穩定性 , 為大模型訓練建立一套全新的、兼顧精確與穩健的優化范式 。

  • 論文標題:ROOT: Robust Orthogonalized Optimizer for Neural Network Training
  • 論文地址:https://arxiv.org/abs/2511.20626
  • 開源地址:https://github.com/huawei-noah/noah-research/tree/master/ROOT
  • 作者:Wei He Kai Han Hang Zhou Hanting Chen Zhicheng Liu Xinghao Chen Yunhe Wang
  • 機構:華為諾亞方舟實驗室
LLM 優化史:從 SGD 到 ROOT
要理解這項工作的重要性 , 我們需要先了解優化器(Optimizer)在 LLM 訓練過程中至關重要的地位 。
簡單打個比方:在深度學習的浩瀚宇宙中 , 優化器扮演著飛船「引擎」的角色 。
其中 , 最早的優化器是 SGD(Stochastic Gradient Descent) , 即隨機梯度下降 。 作為深度學習的基石 , 它確立了神經網絡訓練的基本范式:通過計算小批量數據的梯度來迭代更新參數 。
SGD 是最經典的一階優化方法 。 然而 , 在面對高維且復雜的損失函數曲面(Loss Landscapes)時 , 原始的 SGD 往往難以兼顧收斂速度與穩定性 。 為了幫助模型更高效地穿越復雜的「山谷」找到極小值 , 研究者們在 SGD 的基礎上引入了動量機制 , 這不僅成為了 SGD 的標準配置 , 也為后來更復雜的自適應方法奠定了基礎 。
后來 , 以 Adam 和 AdamW 為代表的自適應方法崛起 , 成為訓練深度學習模型的「事實標準」 。
它們通過引入動量和逐參數(Per-parameter)的自適應學習率 , 讓收斂效率大幅超越 SGD 。 然而 , 這類方法的底層邏輯是將模型參數視為獨立的「標量」或向量進行更新 。 當模型參數量突破十億大關 , 這種忽略參數矩陣內部結構相關性的處理方式 , 在混合精度訓練中逐漸暴露出了數值不穩定的缺點 。
為了突破這一瓶頸 , 以 Muon 為代表的矩陣感知型優化器應運而生 。

Muon 不再僅僅盯著單個參數 , 而是將權重矩陣視為一個整體 。 它利用 Newton-Schulz 迭代對動量矩陣進行正交化處理 , 從而在不增加額外計算復雜度(保持 O (N))的前提下 , 規范了更新的幾何結構 。
這種方法在理論上等同于在譜范數下進行最速下降 , 顯著提升了訓練效率和顯存利用率 。
盡管 Muon 開啟了新的一頁 , 但研究人員發現它并非完美無缺 。
華為諾亞方舟實驗室的分析指出 , 現有的正交化優化器存在兩個核心局限:
  • 算法魯棒性的缺失: 現有的 Newton-Schulz 迭代通常使用一組固定的系數 。 然而 , 神經網絡不同層的權重矩陣形狀各異(從正方形到極度扁平的矩形) , 固定系數在某些維度下會導致近似誤差激增 , 產生「維度脆弱性」 。
  • 對梯度噪聲的缺乏防御:在大規模訓練中 , 異常數據往往會產生極大幅度的梯度噪聲 。 現有的自適應優化器對這些噪聲異常敏感 , 不僅會破壞更新方向 , 還可能導致訓練徹底失穩 。

隨機梯度中異常值噪聲的概念可視化 。 大多數梯度值集中在中心附近 , 存在一個高幅度異常值的尾部 。 這些異常值會不成比例地影響優化過程 。
正是在這種既要「矩陣感知的快」又要「傳統方法的穩」的博弈中 , ROOT 應運而生 , 試圖填補這一關鍵的拼圖空缺 。

ROOT 優化器:雙管齊下
前文我們已經介紹過 , 現有的正交化優化器(尤其是 Muon)存在的核心缺陷 。
ROOT(Robust Orthogonalized OpTimizer)的核心方法 , 是為正交化優化器做出了針對性的魯棒性增強 , 讓優化器在快速和穩定「兩手抓」 。
拒絕「一刀切」
正交化優化器的算法不穩定 , 核心問題源于正交化系數的「一刀切」 。
具體來說 , Muon 里 Newton-Schulz 迭代的系數 a、b、c 是固定常數 。 華為諾亞方舟的研究者們發現 , 這會引發不同維度矩陣的脆弱性 。

正交化誤差揭示了固定系數 Newton-Schulz 迭代在維度上的脆弱性 。
從上表中的數據能看出 , 矩陣形狀(維度或長寬比)一變 , 正交化誤差會大幅波動 。 尤其是方陣更吃虧 , 方陣始終產生最高的 MSE 值 , 比非方陣配置有顯著的差距 。
這種維度敏感性在優化過程中造成了固有的脆弱性 , 因為不同維度的層獲得的正交化質量完全不同 , 損害了梯度更新的一致性和可靠性 。
為了解決這種維度脆弱性并構建維度魯棒的正交化過程 , 研究者們提出了具有細粒度、特定維度系數的自適應 Newton-Schulz 迭代(AdaNewton) 。

然而 , 系數針對每個矩陣維度的特定奇異值分布進行了優化 。 這種方法為提高正交化精度提供了理論保證 。
這些系數可以在訓練期間與模型參數聯合優化 , 允許正交化過程自動適應每種層類型的屬性 。 這種細粒度的適應代表了一種范式轉變:從脆弱的維度敏感正交化轉向魯棒的維度不變正交化 , 確保了整個網絡的更新質量一致 。
過濾「異常值」
大模型訓練的梯度常出現「重尾現象」:小批量梯度經常被異常值噪聲污染 , 這些噪聲包含幅度異常大的梯度分量 , 這些異常值嚴重影響到了 Muon 中正交化過程的穩定性 。
更糟的是 , Newton-Schulz 迭代的多項式性質會放大離群噪聲 , 造成不穩定 , 甚至可能引發 Transformer 的 attention logits 爆炸的嚴重問題 。
為了解決這一問題 , 華為諾亞方舟的研究者們的做法很直接干脆:把梯度 M? 分解為「正常部分」和「異常部分」兩個分量:
  • 基礎分量 B?:包含表現良好的梯度信息 。
  • 異常分量 O?:代表異常的大幅度元素 。
正交化僅應用于魯棒分量 B? , 而丟棄異常值分量 O? 。

這個函數如果值的幅度高于閾值 ε , 則提取超出范圍的異常值 。
在數學上 , 軟閾值可以被解釋為硬裁剪(hard clipping)的一種連續、可微的替代方案 。 軟閾值應用了一種平滑的收縮操作 , 在抑制極端值的同時保留了梯度幅度的相對排序 。

完整的 ROOT 優化器算法
ROOT 的實驗表現:真的又穩又快
為了驗證 ROOT 是不是真的快速又穩定 , 華為諾亞方舟實驗室訓練了一個 1B Transformer 模型 。 他們的測試非常嚴苛 , 涵蓋了從預訓練 Loss 到下游任務的多項基準 , 甚至跨越到了視覺任務領域 。 值得注意的是:「所有模型都是在昇騰 NPU 分布式集群上訓練的 。 」
而最終得到的結果也非常亮眼 , 證明了 ROOT 優化過程的表現極具競爭力 。
首先 , 在預訓練效率上 , ROOT 展現了卓越的收斂能力 。

使用 10B Token 的訓練損失對比
如上圖所示 , 在 10B token 的大規模預訓練實驗中 , 兩個 ROOT 變體(僅軟閾值版與完整版)的訓練損失均始終保持在 Muon 的 Loss 曲線下方 。 最終 , ROOT 的訓練損失達到 2.5407 , 比 Muon 基線低 0.01 。
而更深入分析顯示 , Muon 由于采用固定系數 , 在訓練過程中存在較大的近似誤差;而 ROOT 憑借自適應系數 , 始終保持著更接近真實 SVD 的正交化精度。

相對于真實 SVD 的正交化精度
在多項下游任務基準上 , ROOT 也帶來了全面的提升:ROOT 取得了 60.12 的平均分 , 不僅擊敗了傳統霸主 AdamW(59.05) , 也超越了其直接競爭對手 Muon(59.59) 。

在 9 個標準 LLM 基準上的零樣本性能 , 其中 ROOT 在 6 個基準上領先
同時也能看出 ROOT 具有廣泛適用性:無論是在考察常識推理的 PIQA , 還是考察科學知識的 SciQ , ROOT 都展現出了極具競爭力的性能 。
不僅如此 , ROOT 還表現出了非常出色的跨模態泛化能力:在計算機視覺領域(訓練 ViT 模型識別 CIFAR-10 數據集)的測試中 , ROOT 同樣證明了其強大的泛化能力 。

在 CIFAR-10 上的 Top-1 測試準確度
特別是在引入軟閾值機制后 , ROOT 能夠有效抑制視覺數據中的梯度噪聲 , 取得了 88.44% 的 Top-1 準確率 , 顯著優于 Muon 的 84.67%。 這表明 ROOT 的「去噪+正交化」范式具有極強的跨領域普適性 。
該團隊也進行了消融實驗 , 證明了 ROOT 各組件的有效性 。
ROOT 或將開啟新的優化器時代
在 LLM 訓練日益昂貴且復雜的今天 , 華為諾亞方舟實驗室提出的 ROOT 優化器 , 通過 AdaNewton 和軟閾值去噪兩大創新 , 成功在 Muon 的高效基礎上補齊了魯棒性這塊短板。
ROOT 不僅在理論上保證了不同維度矩陣更新的一致性 , 更在實戰中證明了其在抗噪、收斂速度和最終性能上的全面優越性 。
ROOT 的代碼將會開源 , 隨著更多研究者將其投入到更大規模的萬億級模型訓練中 , 我們有理由相信 , 它很有可能會開啟一個新的優化器時代 。
正如這篇論文的結語所言:「這項工作為開發魯棒的優化框架開辟了有前景的方向 , 這些框架能夠處理未來語言模型日益增加的復雜性和規模 , 從而可能實現下一代 AI 系統更可靠、更高效的訓練 。 」
憑借此一貢獻 , 華為諾亞方舟實驗室展示了其「深潛」的創新特質 , 秉持理論研究與應用創新并重的理念 , 致力于推動人工智能領域的技術創新和發展:不隨波逐流于表層的應用創新 , 而是潛入深海 , 解決最基礎、最困難、但影響最深遠的優化理論問題 。 這不僅展示了其強大的科研硬實力 , 更體現了其作為行業領軍者 , 致力于構建更高效、更魯棒的下一代 AI 訓練范式的戰略遠見 。
團隊簡介
本文有兩位共一作者 , 他們都是華為諾亞方舟實驗室研究員 。 據公開資料顯示 , 其中韓凱(Kai Han)現為華為諾亞方舟實驗室專家研究員 , 博士畢業于中國科學院軟件所 , 碩士和本科分別畢業于北京大學和浙江大學 。 其主要研究方向為高效深度學習和 AI 基礎模型 , 已在 AI 領域頂會頂刊發表論文 50 余篇 , 谷歌學術累計被引 2.1 萬余次 , 其中 GhostNet 和 TNT 入圍 PaperDigest 年度最具影響力論文榜單 。 他還擔任 NeurIPS、ICML、ICLR、CVPR、ICCV、AAAI 和 ACMMM 等頂會領域主席 , 入圍斯坦福全球 Top 2% 科學家和愛思唯爾中國高被引學者榜單 。

另外 , 今年 3 月接任華為諾亞方舟實驗室主任的王云鶴也是本文的通訊作者 。
【Adam的穩+Muon的快?華為諾亞開源ROOT破解大模型訓練的兩難困境】關于該方法更多信息 , 請參閱原論文 。

    推薦閱讀