不強化學習也能推理，哈佛采樣算法讓基礎模型比肩GRPO后訓練版本

2026-05-06 機器人人工智能 ai 軟件王興興

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心報道
編輯：Panda
強化學習能力強大，幾乎已經成為推理模型訓練流程中的標配，也有不少研究者在探索強化學習可以為大模型帶來哪些涌現行為。
現在，問題來了：要讓大模型學會推理，強化學習是必需的嗎？
近日，哈佛大學一篇論文探索了能否不使用任何額外訓練，通過純粹的采樣讓基礎模型表現出推理能力。

他們的探索成功了，提出了一種利用基礎模型自身似然度的簡單迭代采樣算法。

論文標題：Reasoning with Sampling: Your Base Model is Smarter Than You Think 論文地址：https://www.arxiv.org/pdf/2510.14901 項目網站：https://aakaran.github.io/reasoning_with_sampling/ 代碼地址：https://github.com/aakaran/reasoning-with-sampling他們還證明，在不同的基礎模型上，該算法都能大幅提升推理能力。

也就是說：直接從基礎模型進行采樣，可以實現與強化學習相媲美的單次推理能力！
更重要的是，該算法無需訓練、無需數據集、無需驗證器，從而可避免了強化學習方法的一些固有弱點，包括為避免訓練不穩定而進行的大量超參數搜索、整理多樣化且龐大的后訓練數據集的需求，以及無法保證獲取真實驗證器 / 獎勵信號的問題。
不得不說，這個結果著實讓人驚訝。
基礎概念：分布銳化
這個哈佛團隊的核心設計基于分布銳化（distribution sharpening）概念。
具體來說，針對一個參考分布（reference distribution），銳化是指對該分布進行重新加權，使得高似然度區域的權重被進一步提升，而低似然度區域的權重被降低，從而使采樣大幅偏向于參考分布下的高似然度樣本。
基于此，如果經過 RL 后訓練的模型實際上只是基礎模型的某個銳化版本，就應該能夠明確指定一個目標采樣分布來實現相同的效果。
也就是說，只要找到這個目標采樣分布就能讓模型具備推理能力！

使用冪分布進行推理
該團隊發現，對于分布 p ，一種自然的銳化方法是從冪分布 (power distribution) p^α 中采樣。
由于那么對 p 取冪會增加高似然度序列 (x) 的相對權重，同時減少低似然度序列 (x') 的相對權重。下圖給出了可視化演示：

一個眾所周知且相關的銳化策略是低溫采樣 (low-temperature sampling)，即在每一步都對條件性下一 token 分布進行冪運算：

這里的溫度是 τ = 1/α 。一個常見的誤解是，在 T 個 token 上使用上式進行采樣等同于從 p^α 中采樣；然而，該團隊指出：這在一種微妙但關鍵的方面是錯誤的。
命題：低溫采樣并非從冪分布 p^α 中采樣。
對該命題的證明參閱原論文，這里不再詳述。
一種理解這種差異的直觀方式是：低溫采樣沒有考慮到冪運算如何銳化時間步 t 時的「未來路徑」的似然度，而是「貪婪地」平均了所有這些未來的似然度。另一方面，從 p^α 采樣則內在地考慮了未來的完成情況，因為它在計算下一 token 預測的權重之前，對所有未來路徑進行了冪運算。
這帶來了一個結論：冪分布會提升那些未來路徑數量少但似然度高的 token 的權重，而低溫采樣則會提升那些未來路徑完成可能多但似然度低的 token 的權重。
下面展示了一個示例：
【不強化學習也能推理，哈佛采樣算法讓基礎模型比肩GRPO后訓練版本】
因此，從 p^α 采樣會鼓勵采樣那些具有較少但似然度更高的「未來路徑」的 token ，而不是那些具有多個較低似然度完成可能的 token 。而這種行為對于推理任務非常有價值。
例如，選擇那些平均似然度高但會將輸出陷入低似然度個體未來的「錯誤」token ，是關鍵窗口 (critical windows) 或關鍵性 token (pivotal tokens) 的典型案例，這是一種少數幾個 token 對語言模型輸出的正確性有巨大影響的現象。
事實上，已有研究表明，尖銳的關鍵窗口與推理失敗有很強的相關性。相反，從冪分布采樣的過程內在地包含了一種偏向，即規劃未來的高似然度 token 。
Metropolis-Hastings 算法
我們已經從理論上看到從 p^α 采樣可以如何幫助提升底層 LLM 的推理能力。基于此，該團隊構建了一個算法，以便能夠準確從中采樣。
給定一個 LLM p ，我們可以獲取任意序列長度的 p^α 的值；然而，這些值是未歸一化的。直接從真實概率進行采樣需要對所有序列 (x_0 ... x_T) 進行歸一化，這在計算上是不可行的。
為了解決這個問題，他們采用了一種名為 Metropolis-Hastings (MH) 的馬爾可夫鏈蒙特卡洛 (MCMC) 算法 [Metropolis et al. 1953
，它恰好能實現這個目標：從一個未歸一化的概率分布中進行近似采樣。

否則， MH 算法設置 x^{i+1 = x^i 。這個算法特別方便，因為它只需要由 p^α 給出的相對權重 (因為 A 中的歸一化權重會抵消) ，并且可以與任何通用但易于處理的采樣器 q 配合使用，限制極少。值得注意的是，只要 n 足夠大，并且提議分布滿足以下 (相當寬松的) 條件，這個過程就會收斂到從目標分布 p^α 中采樣：
定義 1: 如果對于在目標分布 p^α 下具有非零質量的任何集合 X ，提議分布 q 最終從 X 中采樣的概率為非零，則稱 q 是不可約的 (irreducible) 。如果所導出的樣本鏈不會在固定的步數間隔后返回到同一個樣本，則稱該提議是非周期的 (aperiodic) 。
因此，只需確保提議分布滿足不可約性和非周期性， Metropolis-Hastings 算法就能處理剩下的事情。
在實踐層面上，我們自然還希望 q (x|x^i) 和其逆過程 q (x^i|x) 都易于計算。
以以下一類隨機重采樣提議分布為例，見下圖：

設 p_prop 是一個提議 LLM 。以均勻概率 1/T ，從 [1 T
中選擇一個隨機位置 t ，并使用 p_prop 從索引 t 開始重采樣序列。那么轉移似然度 q (x|x^i) 就是這次重采樣的似然度。注意，在每個候選選擇步驟中，我們都有非零概率在任意兩個序列 x、x' 之間轉換，因為我們總是有可能從 x 的開頭就進行重采樣。這確保了提議分布既是不可約的也是非周期的。此外，由于對稱性， q (x^i|x) 也很容易計算，因為我們可以將 x^i 視為 x 的一個重采樣版本。
借助 Metropolis-Hastings 賦予的靈活性，可以為提議 LLM p_prop 選擇任何 LLM ，并采用任何采樣策略 (例如，低溫采樣) 。
使用自回歸 MCMC 進行冪采樣
直接為 LLM 實現 Metropolis-Hastings 算法，將涉及用一個長度為 T 的采樣 token 序列進行初始化，然后通過 (9) 式在許多次迭代中生成新的長度為 T 的候選序列。
然而，由于需要對 LLM 進行重復的、全序列的推理調用，這個過程的計算成本非常高。
實際上， MCMC 算法在實踐中的主要缺點是可能存在指數級的混合時間 (mixing time)，即糟糕的初始化或提議分布選擇可能導致需要指數級數量的樣本才能收斂到目標分布。如果樣本空間維度很高，這個問題會更加嚴重，而 token 序列空間 X^T 正好表現出這一特點，尤其是對于長序列/大 T 值的情況。
為了解決這個問題，這個哈佛團隊提出了一種利用自回歸采樣順序結構的算法。
他們定義了一系列中間分布，并從中逐步采樣，直到收斂到目標分布 p^α 。具體來說，從一個中間分布中采樣的樣本會啟動下一個中間分布的 Metropolis-Hastings 過程，這有助于避免病態的初始化。
該算法的偽代碼如下所示：

實驗
該團隊也通過實驗驗證了該算法的有效性。
他們為此使用了一套標準的推理基準，涵蓋數學、編程和 STEM (MATH500 HumanEval GPQA) ，以及一個評估通用幫助能力的不可驗證基準 (AlpacaEval 2.0) 。他們對所有方法和基線都進行單次評估；即，基于一個最終的響應字符串。
模型方面，為了展示新采樣算法的有效性，他們使用了 Qwen2.5Math-7B、Qwen2.5-7B 和 Phi-3.5-mini-instruct 這些基礎模型。對于對比 RL 基線，他們使用了論文《Spurious rewards: Rethinking training signals in RLVR》中的 GRPO 實現，該實現用 MATH 訓練集對這些模型進行后訓練。
對于其冪采樣 (算法 1) 實現，該團隊將最大 T 設置為 T_max = 3072 (遇到 EOS token 可能提前終止) ，塊大小 B = 3072/16 = 192 。根據經驗，他們發現對于推理任務， α = 4.0 結合一個選擇為基礎模型并將采樣溫度設為 1/α 的提議 LLM p_prop 表現最佳。對于 AlpacaEval 2.0 ，他們發現使用更高溫度 (τ = 0.5) 的提議分布能提升性能。
主要結果
主要結果見表 1 。可以看到，對于不同家族的基礎模型，新提出的采樣算法在各種推理和評估任務上，相對于不同基線都實現了近乎普遍的顯著的單次準確度和分數提升，例如，讓 Phi-3.5-mini 在 HumanEval 提升了 51.9% ，讓 Qwen2.5-Math 在 MATH500 上提升了 25.2% 。

特別要指出，在 MATH500 這個 RL 后訓練的領域內任務上，冪采樣實現的準確度與 GRPO 獲得的準確度相當。
此外，在領域外推理任務上，新算法在 GPQA 上再次與 GRPO 持平，而在 HumanEval 上甚至超越了 GRPO ，最高提升達 59.8% 。
同樣，冪采樣在不可驗證的 AlpacaEval 2.0 上也穩定地優于基線，這表明新算法帶來的性能提升可以推廣到可驗證性之外的領域。
這個從根本上簡單且無需訓練的采樣算法所取得的驚人成功，凸顯了現有基礎模型潛藏的推理能力。
優勢總結
該團隊也對新提出的算法進行了更加細致的分析，總結起來其優勢如下：
實現了「兩全其美」的性能：冪采樣能像 GRPO 一樣，生成高似然度、長篇幅的優質推理答案。但與 GRPO 不同的是，它成功避免了「多樣性崩潰」。在多次嘗試 (pass@k k1) 的場景下，其性能遠超因答案單一而性能迅速飽和的 GRPO 。這解決了強化學習方法以犧牲多樣性換取單次性能的長期痛點。推理時可靈活擴展且參數穩?。焊梅椒ㄌ峁┝艘桓鲇行У摹覆饈允奔撲慊恍閱堋溝耐揪?。可以通過增加 MCMC 的迭代步數來換取更高的準確率，即使只增加幾步，性能提升也十分顯著。算法對關鍵超參數 α (冪指數) 的選擇不敏感 (相對穩健) ，這使得它在實際應用中更容易部署和調優。計算成本具有可行性：雖然增加了推理時的計算量，但其總成本大致只相當于進行一輪 GRPO 訓練，這意味著它是一種無需重新訓練模型、成本可控的性能提升方案。不強化學習也能推理，哈佛采樣算法讓基礎模型比肩GRPO后訓練版本

推薦閱讀

上一篇：探索多模態推理邊界，打造「察言觀色會共情」的全模態交互伙伴

下一篇：AET阿爾泰AT55-COB消費級新品正式發布