700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理

2026-03-02 oppo 手機行業劉作虎

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：冷貓
Training Small Thinking Big.
大模型的推理架構顛覆的未免有些太快了。
今年 6 月，來自 Sapient Intelligence 的研究者提出了分層推理模型（HRM），用循環架構打破了傳統思維鏈（CoT）的架構限制，對大模型推理結構產生了重大的影響。 HRM 僅包含 2700 萬個參數（大約比最小的 Qwen3 0.6B 模型小 22 倍），僅使用 1000 個訓練樣本，便在復雜的推理任務上取得了卓越的性能。
對 HRM 感興趣的讀者可以參考我們之前的報道。
僅僅過了四個月， HRM 的架構就徹底不夠看了。
來自加拿大蒙特利爾三星先進技術研究所（SAIT）的高級 AI 研究員 Alexia Jolicoeur-Martineau 介紹了微型遞歸模型（TRM）。
這個 TRM 有多離譜呢？一個僅包含 700 萬個參數（比 HRM 還要小 4 倍）的網絡，在某些最困難的推理基準測試中，其參數數量與 o3-mini 和 Gemini 2.5 Pro 等尖端語言模型相比，甚至可以超越它們，盡管這些模型的參數數量是 TRM 的 10000 倍。
這一結果讓很多業內人士大呼不可思議。

論文作者 Jolicoeur-Martineau 說：「通過遞歸推理，結果證明『少即是多』。一個從頭開始預訓練的小模型，通過遞歸自身并在時間推移中更新答案，可以在不超出預算的情況下取得很大成果。」

論文標題：Less is More: Recursive Reasoning with Tiny Networks 論文鏈接：arxiv.org/abs/2510.04871v1簡而言之， TRM 的工作原理如下：
1. 起草初始答案：不同于逐字生成的普通大語言模型（LLM）， TRM 首先會快速生成一個完整的「草稿答案」，可以理解為它的第一次粗略猜測。
2. 創建「思維草稿區」：接著，它會開辟一個獨立的內部空間，用于儲存潛在推理的「草稿板」。
3. 深入自我審查：模型進入一個高強度的內循環。它不斷將草稿答案與原始問題進行對比，在草稿板上反復（連續 6 次）推敲和修正推理邏輯，不斷自問：「我的邏輯是否成立？錯誤在哪里？」
4. 修訂答案：經過這段專注的「思考」后，模型會利用在草稿板中改進后的邏輯，重新生成一個全新的、更高質量的最終答案草稿。
5. 循環至自信為止：整個「起草 — 思考 — 修訂」的過程最多可重復 16 次。每一輪迭代都讓模型更接近一個正確且邏輯嚴密的解決方案。

Tiny Recursion Model（TRM）遞歸結構圖
少即是多
不再需要不動點定理
HRM 假設其遞歸過程在 z_L 和 z_H 上都會收斂到某個不動點，以便使用一步梯度近似（1-step gradient approximation）為了繞開這種理論上的約束， TRM 重新定義了「完整的遞歸過程」：
在訓練中，先運行 T?1 次無梯度的遞歸過程來改進 (z_L z_H) ，然后再運行一次帶反向傳播的遞歸過程。
換句話說，不再使用一步梯度近似，而是采用包含 n 次 f_L 與一次 f_H 的完整遞歸更新，從而完全消除了對不動點假設和隱函數定理（IFT）的一步梯度近似的依賴。
單網絡
HRM（分層遞歸模型）使用了兩個網絡：
一個低層模塊 f_L ，被頻繁調用；一個高層模塊 f_H ，被較少調用。這種設計使得模型的參數量約為常規單網絡監督學習的兩倍。
基于這一觀察，研究者嘗試用一個單一網絡來同時完成這兩個任務，而不是分開訓練兩個網絡。
少層數
研究者嘗試通過增加層數來擴大模型容量，以實現模型的可擴展性。
然而，結果令人意外 —— 增加層數反而降低了泛化能力，原因在于模型出現了過擬合。
于是研究者們反向實驗：
在保持總計算量和「等效深度」大致不變的情況下，減少網絡層數，同時按比例增加遞歸次數 n 。
結果發現，使用 2 層（而非 4 層）時，泛化性能達到最優。
無注意力架構
自注意力機制（Self-Attention）在長上下文場景表現出色，因為它只需一個形狀為 [D 3D
的參數矩陣，卻能建模整個序列的全局依賴。
然而，在短上下文任務中，使用線性層（Linear Layer）更加高效，僅需一個形狀為 [L L
的參數矩陣即可完成建模。
受到 MLP-Mixer 的啟發，將自注意力層替換為作用于序列維度上的多層感知機（MLP）。
實驗結果
研究者們在以下數據集上評估方法：Sudoku-Extreme、Maze-Hard、ARC-AGI-1 以及 ARC-AGI-2 。

在 Sudoku-Extreme 數據集上的測試準確率（%）。在每個監督步驟的等效深度（T (n + 1) × n_layers）相同的條件下，對比 HRM（Hierarchical Reasoning Model）與 TRM（Tiny Recursion Model）的性能。

在謎題類基準測試（Sudoku-Extreme 和 Maze-Hard）上的測試準確率（%）。

在 ARC-AGI 基準測試（嘗試 2 次）上的測試準確率（%）。
從實驗結果可以看出，不帶自注意力機制的 TRM 在 Sudoku-Extreme 上表現最佳，測試準確率達 87.4% 。而帶自注意力機制的 TRM 在其他任務上泛化效果更好。
帶自注意力機制的 TRM 在 Maze-Hard、ARC-AGI-1、ARC-AGI-2 上的準確率分別為 85.3%、44.6% 和 7.8% ，模型規模為 700 萬參數。
相比之下，使用 4 倍參數量（2700 萬）的 HRM 模型僅達到 74.5%、40.3% 和 5.0% 的準確率，顯示出 TRM 在參數效率與泛化能力上的顯著優勢。
更多信息請參閱原論文。
參考鏈接：
https://venturebeat.com/ai/samsung-ai-researchers-new-open-reasoning-model-trm-outperforms-models-10
【700萬參數擊敗DeepSeek R1等,三星一人獨作爆火,遞歸顛覆模型推理】https://x.com/JacksonAtkinsX/status/1975556245617512460

推薦閱讀

上一篇：TCL 發新機，「LCD 黨」狂喜！

下一篇：備受Meta折磨，LeCun依舊猛發論文！新作：JEPAs能感知數據密度