螞蟻發布萬億參數旗艦模型 Ling-1T并開源,多項指標成績領先

螞蟻發布萬億參數旗艦模型 Ling-1T并開源,多項指標成績領先

文章圖片


10月9日凌晨 , 螞蟻集團發布萬億參數的通用語言模型 Ling-1T 。 Ling-1T是螞蟻百靈大模型Ling 2.0 系列的第一款旗艦模型 , 也是螞蟻百靈團隊迄今為止推出的規模最大、能力最強的非思考大模型 。 測評顯示 , 在有限輸出 Token 條件下 , Ling-1T于多項復雜推理基準中取得 SOTA 表現 , 展示出在高效思考與精確推理之間的卓越平衡 。 另外 , 在代碼生成、軟件開發、競賽數學、專業數學、邏輯推理等多項高難度基準測試上 , Ling-1T 均取得領先成績 , 多項指標位居開源模型的榜首 。

以競賽數學榜單 AIME 25 (American Invitation Math Examination 25)為例 , Ling-1T以平均4000+ Token的消耗達到了70.42%的準確率 , 優于Gemini-2.5-Pro(平均5000+ Token , 準確率70.10%) 。 Ling-1T用更少的Token實現了更高的準確率 , 展現出在推理精度和思考效率綜合能力上的優勢 。
以 AIME 25 為例 , Ling-1T 拓展了推理準確率和平均推理長度的帕累托前沿

據螞蟻百靈團隊透露 , Ling-1T 沿用 Ling 2.0 架構 , 在 20T+ tokens 高質量、高推理濃度的語料上完成預訓練 , 支持最高 128K 上下文窗口 , 通過“中訓練+后訓練”的演進式思維鏈(Evo-CoT)極大提升模型高效思考和精準推理能力 。

值得一提的是 , Ling-1T 全程采用 FP8 混合精度訓練(部分技術已開源) , 是目前已知規模最大的使用 FP8 訓練的基座模型 。 這一設計為訓練帶來了顯著的顯存節省、更靈活的并行切分策略和 15%+ 的端到端加速 。
在強化學習階段 , 螞蟻百靈團隊創新性地提出了LPO方法(Linguistics-Unit Policy Optimization , LingPO), 這是一種以“句子”為粒度的策略優化算法 , 為萬億參數模型的穩定訓練提供了關鍵支持 。 這種方法既避免了詞元級別的破碎感 , 也克服了序列級別的籠統性 , 使得獎勵信號與模型行為在語義層面實現了更精準的對齊 。

另外 , 螞蟻百靈團隊提出了“語法-功能-美學”的混合獎勵機制 , 在確保代碼正確、功能完善的同時持續提升這個萬億基座對視覺美學的認知 。 在 ArtifactsBench 前端能力基準上 , Ling-1T 得分59.31 , 在可視化和前端開發任務領域 , 僅次于Gemini-2.5-Pro-lowthink的得分60.28 。 并以顯著優勢位居開源模型榜首 。
【螞蟻發布萬億參數旗艦模型 Ling-1T并開源,多項指標成績領先】
ArtifactsBench 前端能力基準測試上 , Ling-1T位居開源模型榜首
據了解 , 除了Ling-1T這款非思考模型 , 螞蟻百靈團隊還在訓練萬億參數級的深度思考大模型Ring-1T , 已在9月30日開源了preview版 。 目前 , 開發者通過Hugging Face和螞蟻百寶箱等平臺都可以體驗Ling-1T模型 。

    推薦閱讀