DTS框架讓大模型推理準確率提升6%,推理長度縮短23%

DTS框架讓大模型推理準確率提升6%,推理長度縮短23%

文章圖片

DTS框架讓大模型推理準確率提升6%,推理長度縮短23%

文章圖片

DTS框架讓大模型推理準確率提升6%,推理長度縮短23%

文章圖片

DTS框架讓大模型推理準確率提升6%,推理長度縮短23%

文章圖片

DTS框架讓大模型推理準確率提升6%,推理長度縮短23%

文章圖片




專注推理任務的 Large Reasoning Models 在數學基準上不斷取得突破 , 但也帶來了一個重要問題:越想越長、越長越錯 。 本文解讀由 JHU、UNC Charlotte 等機構團隊的最新工作 DTS(Decoding Tree Sketching):一種即插即用的模型推理框架 , 依靠高不確定度分支推理和最先完成路徑早停兩個關鍵策略 , 以近似找到最短且正確的推理路徑 。



論文地址:https://arxiv.org/pdf/2511.00640 開源工程:https://github.com/ZichengXu/Decoding-Tree-Sketching Colab online demo: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb#scrollTo=oTrZL0i3UstX
在 AIME2024/2025 上 , DTS 在 DeepSeek-R1-Distill-Qwen-7B/1.5B 上準確率平均提升 6%、平均推理長度下降約 23% , 無盡重復率平均減少 10% 。



核心洞見:推理鏈長度與正確率顯著負相關;多次解碼中最短的推理鏈往往最正確 。 方法一句話:在「高熵」位置展開多分支并行解碼;哪個分支最先生成終止符(e)就立刻停止 , 從而完成最短路徑推理 。 無需訓練:不做 SFT/RL , 不改模型權重 , 純解碼策略 , 即插即用 。 實證結果:AIME24/25 上 , 7B/1.5B 模型準確率 +2%~+8% , 平均長度 -17%~-29% , 無盡重復率下降 5%~20% 。背景:推理大模型的「過度思考」問題

CoT / 多步推理讓模型更會「想」 , 但也帶來很重要的問題:越長越易偏離正確答案或陷入自我重復 , 正確率反而下降 , 如下圖所示 。 現有方法多依賴額外訓練(SFT/RL)或激進剪枝 , 落地成本高或穩定性不佳 。 DTS 開辟了一條全新的技術路線:不訓練 , 只優化解碼策略 , 把「想得又短又準」轉變為解碼中的搜索問題 。



關鍵實證:最短那條 , 往往是對的

作者對 AIME24 上的題目做了密集采樣:每題 100 次隨機解碼 。 結果非常直觀:



選最短(每題從 100 條里挑最短):76.67% 準確率 選最長:10.00% 總體平均:51.03%并且 , 長度與準確率呈明顯負相關:樣本點越靠右(越長) , 正確率越低 。 這直接催生了 DTS 的目標:以盡可能小的代價 , 逼近「最短且正確」的那條路徑 。

Decoding Tree Sketching(稀疏化接碼樹)

把推理過程看成一棵解碼樹:節點是已生成 token , 路徑是一次完整 CoT , 葉子節點就是該 CoT 的終止符(e) 。 尋找最短的推理路徑相當于搜索從根節點到最淺層的葉子節點的路徑 。 在這個問題中 , 窮舉搜索可以得到最理想的路徑 , 但是這回造成樹分支有指數爆炸的復雜度 , 因此不可行 。 DTS 的思路是:只在「關鍵 token」考慮多種可能的結果從而分支構造樹結構 , 如圖所示:



在高熵處產生分支
在解碼過程中 , DTS 計算下一個 token 分布的熵 H (v) 。 若 H (v) ≥ τ(模型不確定):取 Top-K 候選 , 同時開 K 個分支; 若 H (v)τ(模型很確定):沿單分支前進(常規解碼) 。 τ 決定「分支的增長的速率」 , K 控制「橫向寬度」 。 τ→∞ 時退化為普通自回歸解碼 。核心思想:不確定才需要分支;確定時不分支 , 避免解碼樹亂枝蔓生 。
【DTS框架讓大模型推理準確率提升6%,推理長度縮短23%】
最先完成即早停
任何分支一旦產生終止符(e) , 立即返回這條路徑的推理過程和答案; 等價于在「稀疏化的解碼樹」上做 BFS 的最短路原則 。核心思想:把「短即優」的統計規律寫進了停止準則 。

實驗:更準、少復讀

QA 準確率提升
DTS 在 AIME2024 和 AIME2025 與傳統自回歸解碼的對比:



結論: 稀疏化解碼樹 + 早停穩定提升模型最終回答的準確率 。

有效抑制模型的「無盡復讀」
統計「無法在最大長度內收斂、陷入循環」的比例:



結論:稀疏化解碼樹 + 早停讓「自我復讀」的路徑被更短的完成路徑代替 。

一鍵復現結果

在 Colab 上試運行 DTS: https://colab.research.google.com/github/ZichengXu/Decoding-Tree-Sketching/blob/main/notebooks/example_DeepSeek_R1_Distill_Qwen_1_5B.ipynb

克隆 DTS 的開源項目 , 并且安裝環境:



復現論文中的結果:



結論

DTS 以極低的工程成本 , 為推理型大模型提供了一種「更聰明」的思考方式 。 它不依賴后訓練 , 不修改模型參數 , 僅通過稀疏化的解碼樹探索最短的推理路徑 , 就能顯著提高準確率、減少復讀 。 這種「在不確定處分支、在確定處直行」的設計 , 使得大模型的推理過程更像人類的理性思考:在模糊時多想幾步 , 在明確時迅速收斂 。

DTS 的核心貢獻在于:
提出一種全新的推理優化范式 , 把推理質量問題轉化為解碼搜索問題; 揭示推理鏈長度與準確率的統計規律 , 為未來的推理模型提供可量化的優化方向; 在實際基準上驗證有效性與可遷移性 , 可直接用于主流推理模型 。
從更長遠的角度看 , DTS 展示了一種輕量化的推理優化路線:讓模型「想得更少但更準」 。 未來 , 類似的解碼層優化有望與多步推理、校準與不確定性估計等方向結合 , 為 Large Reasoning Models 的高效與可靠推理開辟新的路徑 。

作者介紹

徐子程:Johns Hopkins University 一年級博士生 , 研究領域為 LLM alignment , 以及 inference time scaling 。 王冠楚:University of North Carolina at Charlotte 助理教授 , 研究領域為 LLM reasoning , AI 安全性以及 AI for healthcare 。 樓修逸:Johns Hopkins University 碩士研究生 , 研究方向為 LLM alignment , 以及強化學習 。 Yu-Neng Chuang:Rice University 五年級博士生 , 研究領域為 , 研究方向為 LLM reasoning , LLM post-training , 以及 LLM Routing 。 Guangyao Zheng:Johns Hopkins University 四年級博士生 , 研究領域為 scalable , privacy-aware AI , 以及 AI for healthcare 。 劉子銳:University of Minnesota 助理教授 , 研究領域為 LLM efficiency , long-context ability , 以及 reasoning 。 Vladimir Braverman:Johns Hopkins University 教授、計算機系副主任 , 帶領團隊專注于 Theoretical ML、Optimization、NLP , 以及 digital health 等方向的研究 。

    推薦閱讀