700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理

700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理

文章圖片

700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理

文章圖片

700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理

文章圖片

700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理

機器之心報道
編輯:冷貓
Training Small Thinking Big.
大模型的推理架構顛覆的未免有些太快了 。
今年 6 月 , 來自 Sapient Intelligence 的研究者提出了分層推理模型(HRM) , 用循環架構打破了傳統思維鏈(CoT)的架構限制 , 對大模型推理結構產生了重大的影響 。 HRM 僅包含 2700 萬個參數(大約比最小的 Qwen3 0.6B 模型小 22 倍) , 僅使用 1000 個訓練樣本 , 便在復雜的推理任務上取得了卓越的性能 。
對 HRM 感興趣的讀者可以參考我們之前的報道 。
僅僅過了四個月 , HRM 的架構就徹底不夠看了 。
來自加拿大蒙特利爾三星先進技術研究所(SAIT)的高級 AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型(TRM) 。
這個 TRM 有多離譜呢?一個僅包含 700 萬個參數(比 HRM 還要小 4 倍)的網絡 , 在某些最困難的推理基準測試中 , 其參數數量與 o3-mini 和 Gemini 2.5 Pro 等尖端語言模型相比 , 甚至可以超越它們 , 盡管這些模型的參數數量是 TRM 的 10000 倍 。
這一結果讓很多業內人士大呼不可思議 。


論文作者 Jolicoeur-Martineau 說:「通過遞歸推理 , 結果證明 『少即是多』 。 一個從頭開始預訓練的小模型 , 通過遞歸自身并在時間推移中更新答案 , 可以在不超出預算的情況下取得很大成果 。 」

論文標題:Less is More: Recursive Reasoning with Tiny Networks 論文鏈接:arxiv.org/abs/2510.04871v1簡而言之 , TRM 的工作原理如下:
1. 起草初始答案:不同于逐字生成的普通大語言模型(LLM) , TRM 首先會快速生成一個完整的「草稿答案」 , 可以理解為它的第一次粗略猜測 。
2. 創建「思維草稿區」:接著 , 它會開辟一個獨立的內部空間 , 用于儲存潛在推理的「草稿板」 。
3. 深入自我審查:模型進入一個高強度的內循環 。 它不斷將草稿答案與原始問題進行對比 , 在草稿板上反復(連續 6 次)推敲和修正推理邏輯 , 不斷自問:「我的邏輯是否成立?錯誤在哪里?」
4. 修訂答案:經過這段專注的「思考」后 , 模型會利用在草稿板中改進后的邏輯 , 重新生成一個全新的、更高質量的最終答案草稿 。
5. 循環至自信為止:整個「起草 — 思考 — 修訂」的過程最多可重復 16 次 。 每一輪迭代都讓模型更接近一個正確且邏輯嚴密的解決方案 。

Tiny Recursion Model(TRM) 遞歸結構圖
少即是多
不再需要不動點定理
HRM 假設其遞歸過程在 z_L 和 z_H 上都會收斂到某個不動點 , 以便使用 一步梯度近似(1-step gradient approximation)為了繞開這種理論上的約束 , TRM 重新定義了「完整的遞歸過程」:
在訓練中 , 先運行 T?1 次無梯度的遞歸過程 來改進 (z_L z_H) , 然后再運行一次帶反向傳播的遞歸過程 。
換句話說 , 不再使用一步梯度近似 , 而是采用包含 n 次 f_L 與一次 f_H 的完整遞歸更新 , 從而完全消除了對不動點假設和隱函數定理(IFT)的一步梯度近似的依賴 。
單網絡
HRM(分層遞歸模型)使用了兩個網絡:
一個低層模塊 f_L , 被頻繁調用; 一個高層模塊 f_H , 被較少調用 。這種設計使得模型的參數量約為常規單網絡監督學習的兩倍 。
基于這一觀察 , 研究者嘗試用一個單一網絡來同時完成這兩個任務 , 而不是分開訓練兩個網絡 。
少層數
研究者嘗試通過增加層數來擴大模型容量 , 以實現模型的可擴展性 。
然而 , 結果令人意外 —— 增加層數反而降低了泛化能力 , 原因在于模型出現了過擬合 。
于是研究者們反向實驗:
在保持總計算量和 「等效深度」大致不變的情況下 , 減少網絡層數 , 同時按比例增加遞歸次數 n 。
結果發現 , 使用 2 層(而非 4 層)時 , 泛化性能達到最優 。
無注意力架構
自注意力機制(Self-Attention)在長上下文場景表現出色 , 因為它只需一個形狀為 [D 3D
的參數矩陣 , 卻能建模整個序列的全局依賴 。
然而 , 在短上下文任務中 , 使用線性層(Linear Layer)更加高效 , 僅需一個形狀為 [L L
的參數矩陣即可完成建模 。
受到 MLP-Mixer 的啟發 , 將自注意力層替換為作用于序列維度上的多層感知機(MLP) 。
實驗結果
研究者們在以下數據集上評估方法:Sudoku-Extreme、Maze-Hard、ARC-AGI-1 以及 ARC-AGI-2 。

在 Sudoku-Extreme 數據集上的測試準確率(%) 。 在每個監督步驟的等效深度(T (n + 1) × n_layers)相同的條件下 , 對比 HRM(Hierarchical Reasoning Model) 與 TRM(Tiny Recursion Model) 的性能 。

在謎題類基準測試(Sudoku-Extreme 和 Maze-Hard)上的測試準確率(%) 。

在 ARC-AGI 基準測試(嘗試 2 次)上的測試準確率(%) 。
從實驗結果可以看出 , 不帶自注意力機制的 TRM 在 Sudoku-Extreme 上表現最佳 , 測試準確率達 87.4% 。 而 帶自注意力機制的 TRM 在其他任務上泛化效果更好 。
帶自注意力機制的 TRM 在 Maze-Hard、ARC-AGI-1、ARC-AGI-2 上的準確率分別為 85.3%、44.6% 和 7.8% , 模型規模為 700 萬參數 。
相比之下 , 使用 4 倍參數量(2700 萬) 的 HRM 模型僅達到 74.5%、40.3% 和 5.0% 的準確率 , 顯示出 TRM 在參數效率與泛化能力上的顯著優勢 。
更多信息請參閱原論文 。
參考鏈接:
https://venturebeat.com/ai/samsung-ai-researchers-new-open-reasoning-model-trm-outperforms-models-10
【700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理】https://x.com/JacksonAtkinsX/status/1975556245617512460

    推薦閱讀