吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片

吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方

文章圖片


機器之心報道
編輯:Panda
AI 導師吳恩達在其最新一期的 The Batch Newsletter 中 , 將目光投向了來自螞蟻集團的最新開源模型 Ling-1T 。

吳恩達 The Batch Newsletter 首頁截圖
他敏銳地指出:Ling-1T 作為一個非推理(non-reasoning)模型 , 其性能卻直逼業界頂尖的閉源模型 , 這背后隱藏著一個關鍵的技術轉向 。

Ling-1T(最右列)與幾款具有代表性的旗艦模型的比較 , 包括大參數量的開源模型(DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905)與閉源 API(GPT-5-main、Gemini-2.5-Pro) 。 此圖也被吳恩達 Newsletter 引用 。
吳恩達提到 , Ling-1T 在預訓練階段就強化了思維鏈(CoT), 這種做法「正在模糊推理與非推理模型之間的界限」 。 這引出了一個業界都在關心的問題:Ling-1T 卓越的推理能力究竟從何而來?
事實上 , Ling-1T 的成功還并非孤例 。 近兩個月 , 螞蟻集團以前所未有的速度和力度密集開源了 Ling-mini-2.0、Ling-flash-2.0、萬億參數的 Ling-1T(參閱報道《更大 , 還能更快 , 更準!螞蟻開源萬億參數語言模型 Ling-1T , 刷新多項 SOTA》) , 乃至其后的 Ring 系列推理模型(參閱《螞蟻 Ring-1T 正式登場 , 萬億參數思考模型 , 數學能力對標 IMO 銀牌》) 。 這一系列動作的背后 , 都指向了一套統一的「秘密武器」 。
現在 , 通過一份長達 58 頁的硬核技術報告《Ling 2.0 Technical Report》 , 螞蟻集團百靈團隊(Ling Team)揭示了這個答案 。

報告標題:Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation 報告地址:https://arxiv.org/abs/2510.22115 代碼地址:https://github.com/inclusionAI/Ling-V2 模型地址:https://huggingface.co/collections/inclusionAI/ling-v2這份報告不僅是 Ling 系列的模型說明書 , 更是一份詳盡的模型配方和技術藍圖 。 該報告系統性闡述了螞蟻究竟是如何構建一個如此強大、統一且可擴展的模型基礎 , 進而如何實現從 16B 到 1T 參數規模的、面向推理的(Reasoning-Oriented)模型訓練 。
其核心設計哲學可以凝練為一句話:Every Activation Boosted , 即確保每一次激活都在扎實地提升模型的推理能力 。
我們或許要問 , 在當前 AI 領域「模型大爆炸」、性能強大的新模型層出不窮的背景下 , 僅僅發布又一個模型的訓練細節 , 意義何在?
事實上 , 這個問題的答案或許正好體現了螞蟻集團這份 Ling 2.0 技術報告的遠見 。 它并非僅僅展示「我們做出了什么」 , 而是試圖系統性地回答一個更深層的問題:在通往更強大 AI 的道路上 , 尤其當算力成本成為核心制約時 , 我們如何才能構建一套可持續、可規?;?、并且是以提升關鍵推理能力為核心的高效范式?
這份長達 58 頁的報告正是螞蟻針對這一挑戰交出的答卷 , 它從模型架構、預訓練、后訓練和基礎設施四個層面 , 系統性地表明:Ling 2.0 是一個為推理而生的整體工程 。 它不是零散技術的堆砌 , 而是四大支柱協同作用的產物 。
支柱一:架構與 Scaling Law
萬億模型的設計圖
在萬億參數時代 , 設計模型就像是在「戴著鐐銬跳舞」 , 其中有著高計算成本、長訓練周期以及難以預測的穩定性等各種問題問題 。 螞蟻的答案是極致稀疏的架構與極致精準的預測 。
Ling 2.0 系列(從 16B 到 1T)全部采用統一的「高稀疏、細粒度」 MoE 架構:其總專家數多達 256 個 , 但每次前向傳播僅激活 8 個專家和 1 個共享專家 , 激活率低至驚人的 3.5%!

Ling 2.0 系列模型的關鍵架構配置和訓練超參數
這帶來了什么?報告證實 , Ling 模型實現了相較于同等性能的密集 (Dense) 模型近 7 倍的計算效率杠桿 。
然而 , 更核心的秘密武器是 Ling Scaling Laws 。

最優超參數與最優模型 - 數據分配的 Scaling Law 。 藍線和紅線分別表示在相同訓練條件下擬合得到的 MoE 模型與密集模型的深度學習 。
這不僅是一個公式 , 更是螞蟻建立的一套「AI 風洞」實驗系統 。 它能通過極低成本(不到 1%)的小規模模型實驗 , 高保真地預測和外推萬億參數模型在超過 1e25 FLOPs 的巨大計算量下的性能和最優超參數 。

Ling 風洞實驗設計示意圖 (a) 及示例分析 (b)
Ling 2.0 的所有關鍵架構決策都是在這套定律的指導下完成的 , 例如「為何是激活 8 個專家?」(報告中被驗證為最優范圍) 。
這種強大的預測能力是螞蟻敢于啟動 Ling-1T 訓練并確保其穩定和高效的工程底氣 。 同時 , Ling 2.0 架構還原生集成了 MTP(Multi-Token Prediction) , 從底層設計上強化了數學與代碼這兩大關鍵推理能力 。
值得一提的是 , 這個統一架構不僅被用于 Ling 系列模型 , 也是 Ring-1T 等推理模型的骨架 。 正如 Ling 團隊最新發布的 Ring-linear 混合線性架構報告(arXiv:2510.19338)所示 , 即便是探索線性注意力(Linear Attention) , 其 MoE 結構的設計和擴展依然嚴格遵循 Ling Scaling Laws 的指導 。
支柱二:預訓練與中訓練
為推理預激活
如果說架構是骨架 , 那么預訓練就是為模型注入靈魂 。 Ling 2.0 的靈魂從一開始就為推理而生 。
基于 20T tokens 的海量預訓練數據 , Ling 2.0 貫徹了「推理優先」的原則 。
其報告披露 , 其 Ling Math 和 Ling Code 高質量推理數據集在預訓練過程中占比從 32% 逐步提升到了 46% 。 這可以讓模型在形成世界知識的初期就建立起強大的邏輯和結構化思維 。

Ling 2.0 的預訓練與中訓練階段 。 其中采用了多階段訓練策略 , 將上下文窗口從 4K 逐步擴展至 128K , 并在訓練早期就引入推理與鏈式思維(CoT)數據 , 這樣可以提前激活模型的推理能力 。
而其后的中訓練 (Mid-Training) 階段更是 Ling 2.0 區別于常規模型的點睛之筆 。 這個創新也正是吳恩達所關注的一大焦點 , 他指出:

Ling-1T 的整體表現優于強大的 Kimi K2 , 并顯著縮小了開源模型與閉源非推理模型之間的差距 。 其成功的關鍵因素似乎在于超大規模的參數量以及在思維鏈上的預訓練 。 由于在預訓練階段對思維鏈進行了高度強化 , Ling-1T 在生成回答時往往會自發地先形成一條思維鏈 , 但這一過程卻并非獨立的推理階段 。 這樣的訓練方式模糊了推理型模型與非推理型模型之間的界限 。
具體來說 , 在預訓練和 SFT 之間 , Ling 團隊創新性地引入了大量高質量思維鏈數據 。 這一步操作 , 相當于在模型 SFT 前就提前將其強大的推理潛能激活 (Pre-Activation) , 從而可為其后續的對齊訓練提供更高的性能上限和更穩定的思維基礎 。
此外 , Ling 團隊還引入了他們之前提出的 WSM(Warmup-Stable-Merge)調度器這一訓練技術 。 它拋棄了難以把握時機的傳統學習率衰減(LR decay) , 轉而在訓練中保持學習率穩定 , 最后通過檢查點合并(Checkpoint Merging)來實現模型收斂 。 這種設計不僅更靈活 , 還為下游任務帶來了 1-2% 的平均性能提升 。

WSM 預訓練管線的偽代碼 , 來自螞蟻 Ling 團隊與人大高瓴人工智能學院合作論文 arXiv:2507.17634
支柱三:后訓練對齊
行業首創的句子級 RL
當一個模型已被「預激活」了推理能力 , 傳統的后訓練方法已不足以駕馭它 。 Ling 2.0 在對齊階段的算法革新 , 尤其是強化學習(RL)層面 , 展現了驚人的創造力 。
【吳恩達關注的Ling-1T背后,螞蟻Ling 2.0技術報告萬億模型開源配方】
Ling 2.0 系列模型的后訓練流程
首先 , 在 SFT 階段 , Ling 團隊采用 DFT(Decoupled Fine-Tuning)策略 , 通過設計兩種不同的系統提示詞(如 detailed think on 與 detailed think off) , 讓模型在同一套權重下 , 學會了「即時響應」和「深度推理」兩種可控模式 。

而接下來的 RL 訓練 , 其核心目標就是將「深度推理」這一模式的潛力壓榨到極致 。 隨后 , Evo-CoT(演進式思維鏈)RL 訓練開始接管 , 持續優化模型的深度推理模式 。 這使得 Ling 這樣的非推理模型也能根據問題的復雜度動態地擴展其推理深度和成本 。

Evo-CoT 的數學描述
而 Ling 2.0 在 RL 上的核心創舉是 LPO(Linguistic-unit Policy Optimization)算法 。 這是一個堪稱行業首創的思路:當前的 RL 算法(如 GRPO 或 GSPO)通常在 token 級別或序列(sequence)級別進行優化 。 Ling 團隊認為 , 對于推理任務而言 , 這兩種粒度要么過于破碎(難以承載語義) , 要么過于粗糙(獎勵信號模糊) 。

LPO 的目標函數
為此 , LPO 首次將語言單元(Linguistic-unit , 即句子)作為 RL 策略更新的基礎動作單元 。
這一創舉價值巨大 。 一個「句子」恰好是承載一個完整邏輯步驟或語義信息的自然邊界 。 通過在句子粒度上對齊獎勵信號 , Ling 2.0 實現了極高的訓練穩定性和泛化性 。 報告顯示 , 僅此一項優化 , 就在復雜推理任務上帶來了約 10% 的顯著性能提升 。

Ling 2.0 模型在強化學習訓練中使用 LPO 的獎勵曲線 。 左圖:在訓練數據上的獎勵變化 , 相較于 GRPO、GSPO 以及 GSPO(Token Mean)基線 , LPO 表現出更平滑的增長與更高的穩定性 , 沒有出現明顯的平臺期或崩潰 。 右圖:在 AIME 2025 測試集上的獎勵曲線 , 展示了由于采用句子級策略更新而帶來的更快收斂速度與更好的泛化能力 。
當然 , 強大的 RL 算法也需要精準的裁判 。 在處理創意寫作、對話等開放性主觀任務時 , Ling 2.0 引入了 GAR(Group Arena Reward)機制 。 不同于給單個答案打絕對分 , GAR 采用循環賽式的相對比較:它將同一策略生成的多個答案放入競技場 (Arena) 中進行兩兩對比 , 以相對排名代替絕對分數 。 這種機制能有效降低主觀評估中的噪聲和方差 , 為模型在開放域的對齊提供了更可靠的獎勵信號 。

用于開放性主觀任務的 GAR 機制
而支撐 LPO 和 GAR 運行的 , 則是一個強大的統一獎勵模型系統(Reward Model System) 。 該系統可擴展性極強 , 能并發處理高達 40K 的異構獎勵請求 , 無論是基于規則的、基于模型的、還是需要在沙箱環境中執行代碼的復雜驗證任務 , 從而可確保整個后訓練流程的高效與穩定 。
支柱四:基礎設施
全棧 FP8 與 4C 工程學
萬億模型的訓練終究是一場工程競賽 。 Ling 2.0 報告分享了其支撐萬億參數穩定運行的基礎設施 , 其中既有巨大的成功 , 也有坦誠的「教訓」 。
萬億規模的全鏈路 FP8 訓練
Ling 2.0 系列的 Ling-1T 是目前已知最大規模的、完全使用 FP8 訓練的開源模型 。
這絕非易事 。 FP8 雖能大幅節省顯存并提升計算速度 , 但其極低的精度會對萬億模型的穩定性構成致命威脅 。 Ling 團隊通過細粒度逐塊量化(fine-grained block-wise quantization)策略 , 結合 QKNorm 等新技術抑制訓練中棘手的異常值(outlier)擴散 , 并輔以一個實時的 FP8 訓練保障系統 (FP8 Training Safeguard System) 進行全時監控 。
最終結果著實驚人:在 1T 模型和 900B 數據的規模上 , FP8 訓練達成了與 BF16 幾乎一樣的損失表現 (差距 ≤ 0.25%) , 同時模型算力利用率(MFU)提升了 15% , 也即 FP8 可帶來 15% 的端到端訓練加速 。 這基本宣告了 FP8 在萬億模型訓練上的可行性與經濟性 。

基于 Ling-1T 測得的 FP8 與 BF16 訓練損失對比
異構架構的管線設計
Ling 2.0 的設計并非是均勻的層堆疊 , 它混合了 Dense(密集層)、MoE(稀疏層)和 MTP(多 token 預測) 等計算特性截然不同的模塊 , 是一個典型的異構架構 。
在管線并行(PP)訓練中 , 這就好比一條裝配線上有的工位快、有的工位慢 , 極易產生管線氣泡(pipeline bubble) , 進而導致 GPU 集體「摸魚」 。
為此 , Ling 團隊設計了異構細粒度管線(Heterogeneous fine-grained pipeline)調度策略 。 該策略允許將 MTP 這樣的復雜模塊拆分 , 并支持在不同的管線并行階段靈活分配不同數量的 Transformer 層 , 最終實現更均衡的負載分配 。 這種算法 - 系統協同設計成功將端到端訓練吞吐量提升了 40% 以上 。

5 個流水線并行階段(PP rank)的 1F1B 與異構流水線調度對比示例 。 與基線方法 1F1B 相比 , 新方法可顯著減少流水線氣泡 , 從而大幅降低整體訓練成本 。
Ling 2.0 融合的創新還不止于此 , Ling 團隊還優化了包括節點內 DeepEP 通信、一系列融合算子、更快的專家層重計算以及高效的分布式檢查點存儲等諸多工程細節 。 更多詳情請參閱原論文 。

Ling 團隊為 Ling-1T 在預訓練階段使用的各類優化任務概覽
一個苦澀的教訓
最后 , Ling 2.0 技術報告坦誠地分享了一個苦澀的教訓 。 這部分內容也是報告中最具「真?開源」精神的一大亮點 。
Ling 團隊回顧了他們在訓練萬億規模 MoE 模型時的一次重要嘗試:實現計算與通信的重疊(Computation–Communication Overlapping) , 這是長期以來被視為提升分布式訓練效率的關鍵方向 。 他們試圖通過 DualPipe 或 DeepEP 的 A2A(All-to-All)重疊技術 , 將專家計算的耗時隱藏在通信延遲背后 。
然而 , 該報告稱 , 盡管付出了巨大努力 , 最終的端到端加速收效甚微 。
為什么會失???Ling 團隊給出了深刻的診斷:這些重疊策略需要配置一個非常大的專家并行(EP)規模才能獲益;但這種配置難以應對 MoE 模型的一個「阿喀琉斯之踵」 , 即淺層 MoE 層的路由不均問題 。
換言之 , 在模型的淺層 , 路由策略分配給不同專家的 Token 數量很不均衡 。 這會導致在采用大 EP 規模時 , 某些 GPU 上的某些管線階段會因為承載了「熱門」專家而內存溢出(OOM) , 系統被迫采用一種妥協的、非最優的管線劃分策略 , 而這種妥協最終會吞沒計算 - 通信重疊帶來的所有理論收益 。
這雖是個「失敗」的結論 , 但卻價值千金 , 因為它深刻地揭示了:在萬億參數規模下 , 任何試圖忽視硬件和系統異構性(如路由不均)的純算法優化 , 都可能在工程落地時徹底失效 。 真正的效率提升 , 必須建立在算法與系統的協同優化之上 。
這一坦誠的失敗分析為整個 AI 社區提供了寶貴的避坑指南 , 其價值不亞于一項成功的技術 。 它也引出了螞蟻的 4C 工程哲學(Correct Consistent Complete Co-Design) , 即必須在算法設計之初就與系統工程協同 , 才能構建出穩定、高效、可復現的萬億參數大模型 。
不止于模型
這是一份構建萬億基座的開源 SOP
從萬億模型的設計藍圖 Ling Scaling Law 到行業首創的 LPO 句子級強化學習算法 , 再到全棧 FP8 的萬億訓練實踐 , Ling 2.0 技術報告的透明度和深度 , 充分體現了螞蟻集團在 AI 浪潮中真?開源的誠意與技術自信 。
Ling 2.0 的發布 , 其價值已遠超模型本身 。 它不再只是一個單一的模型系列 , 而是螞蟻集團提供給開源社區的一套完整的、經過驗證的、可從百億擴展至萬億的 AI 基礎模型 SOP(標準作業流程) 。
在 AI 軍備競賽日益導向閉源和算力壁壘的當下 , 這樣一份透明、詳盡的「萬億模型作業流程」顯得尤為可貴 。 它為社區展示了另一條 Scaling 路線:即通往 AGI 的道路不僅可以依靠無限的算力堆砌 , 更可以通過極致的工程(如 FP8)、精準的預測(如 Scaling Law)和創新的算法(如 LPO)來實現 。
正如報告所展示的 , Ling 2.0 只是一個強大的基座 , 其真正的潛力才剛剛開始釋放:無論是已經大放異彩的 Ring 系列推理模型 , 還是探索極致效率的混合線性架構 。
這份報告為整個社區探索更高效、更強大、更通用的智能體奠定了堅實的基礎 , 也讓我們看到了螞蟻集團在 Scaling Law 時代下 , 堅定地走向開放與協作的技術決心 。

    推薦閱讀