日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布

DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布

文章圖片

DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布

文章圖片

DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布

文章圖片

DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布

文章圖片

DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布

DeepSeek R2 , 果然近了 。
最近 , DeepSeek和清華的研究者發(fā)表的這篇論文 , 探討了獎(jiǎng)勵(lì)模型的推理時(shí)Scaling方法 。
論文地址:
https://arxiv.org/abs/2504.02495
現(xiàn)在 , 強(qiáng)化學(xué)習(xí)(RL)已廣泛應(yīng)用于LLM的大規(guī)模后訓(xùn)練階段 。
通過RL激勵(lì)LLMs的推理能力表明 , 采用合適的學(xué)習(xí)方法 , 就有望實(shí)現(xiàn)有效的推理時(shí)可擴(kuò)展性 。
然而 , RL面臨的一個(gè)關(guān)鍵挑戰(zhàn) , 就是在可驗(yàn)證問題或人工規(guī)則之外的多種領(lǐng)域中 , 為LLMs獲得準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào) 。
是否有可能通過增加推理計(jì)算資源 , 來提升通用查詢場景下獎(jiǎng)勵(lì)建模(RM)的能力 , 即通用RM在推理階段的可擴(kuò)展性呢?
DeepSeek和清華的研究者發(fā)現(xiàn) , 在RM方法上采用點(diǎn)式生成式獎(jiǎng)勵(lì)建模(Pointwise Generative Reward Modeling GRM) , 就能提升模型對不同輸入類型的靈活適應(yīng)能力 , 并具備推理階段可擴(kuò)展的潛力 。
為此 , 他們提出一種自我原則點(diǎn)評調(diào)優(yōu)(Self-Principled Critique Tuning SPCT)的學(xué)習(xí)方法 。
通過在線RL訓(xùn)練促進(jìn)GRM生成具備可擴(kuò)展獎(jiǎng)勵(lì)能力的行為 , 即能夠自適應(yīng)生成評判原則并準(zhǔn)確生成點(diǎn)評內(nèi)容 , 從而得到DeepSeek-GRM模型 。
他們提出了DeepSeek-GRM-27B , 它是基于Gemma-2-27B經(jīng)過SPCT后訓(xùn)練的 。
可以發(fā)現(xiàn) , SPCT顯著提高了GRM的質(zhì)量和可擴(kuò)展性 , 在多個(gè)綜合RM基準(zhǔn)測試中優(yōu)于現(xiàn)有方法和模型 。
研究者還比較了DeepSeek-GRM-27B與671B的更大模型的推理時(shí)間擴(kuò)展性能 , 發(fā)現(xiàn)它在模型大小上的訓(xùn)練時(shí)間擴(kuò)展性能更好 。
另外 , 他們還引入一個(gè)元獎(jiǎng)勵(lì)模型(meta RM)來引導(dǎo)投票過程 , 以提升擴(kuò)展性能 。
總體來說 , 研究者的三個(gè)貢獻(xiàn)如下 。
1.提出了一種新方法——自我原則點(diǎn)評調(diào)優(yōu)(SPCT) , 用于推動(dòng)通用獎(jiǎng)勵(lì)建模在推理階段實(shí)現(xiàn)有效的可擴(kuò)展性 , 最終構(gòu)建出DeepSeek-GRM系列模型 。 同時(shí)引入了元獎(jiǎng)勵(lì)模型(meta RM) , 進(jìn)一步提升推理擴(kuò)展性能 。
2.SPCT顯著提升了GRM在獎(jiǎng)勵(lì)質(zhì)量和推理擴(kuò)展性能方面的表現(xiàn) , 超過了現(xiàn)有方法及多個(gè)強(qiáng)勁的公開模型 。
3.將SPCT的訓(xùn)練流程應(yīng)用于更大規(guī)模的LLM , 并發(fā)現(xiàn)相比于訓(xùn)練階段擴(kuò)大模型參數(shù)量 , 推理階段的擴(kuò)展策略在性能上更具優(yōu)勢 。
SPCT
受到初步實(shí)驗(yàn)結(jié)果的啟發(fā) , 研究者為點(diǎn)式生成式獎(jiǎng)勵(lì)模型(pointwise GRM)開發(fā)了一種新穎的方法 , 使其能夠?qū)W習(xí)生成具有適應(yīng)性和高質(zhì)量的原則 , 以有效指導(dǎo)點(diǎn)評內(nèi)容的生成 。
這一方法被稱為自我原則點(diǎn)評調(diào)優(yōu)(Self-Principled Critique Tuning , SPCT) 。
如圖3所示 , SPCT包括兩個(gè)階段 。
1.拒絕式微調(diào)(rejective fine-tuning)作為冷啟動(dòng)階段
2.基于規(guī)則的在線強(qiáng)化學(xué)習(xí)(rule-based online RL) , 通過提升生成的原則和點(diǎn)評內(nèi)容來強(qiáng)化通用獎(jiǎng)勵(lì)的生成過程 。
另外 , SPCT還可以促進(jìn)GRM在推理階段的可擴(kuò)展行為 。

將「原則」從理解轉(zhuǎn)向生成研究者發(fā)現(xiàn) , 適當(dāng)?shù)脑瓌t可以在一定標(biāo)準(zhǔn)下引導(dǎo)獎(jiǎng)勵(lì)生成 , 這對于生成高質(zhì)量獎(jiǎng)勵(lì)至關(guān)重要 。
然而 , 在大規(guī)模通用獎(jiǎng)勵(lì)建模中 , 如何有效生成這些原則仍是一個(gè)挑戰(zhàn) 。
為此 , 他們提出將「原則」從一種理解過程解耦出來 , 轉(zhuǎn)變?yōu)楠?jiǎng)勵(lì)生成的一部分 , 也就是說 , 不再將原則視為預(yù)處理步驟 , 而是納入獎(jiǎng)勵(lì)生成流程中 。
形式化地說 , 當(dāng)原則是預(yù)定義時(shí) , 原則可用于引導(dǎo)獎(jiǎng)勵(lì)生成 。
研究者讓GRM自行生成原則 , 并基于這些原則生成點(diǎn)評內(nèi)容 , 形式化表達(dá)如下:
其中 , p_θ是用于生成原則的函數(shù) , 由參數(shù)θ表示 , 且與獎(jiǎng)勵(lì)生成函數(shù)r_θ共享同一個(gè)模型架構(gòu) 。
這一轉(zhuǎn)變使原則能夠根據(jù)輸入問題及其回答內(nèi)容進(jìn)行動(dòng)態(tài)生成 , 從而使獎(jiǎng)勵(lì)生成過程更加自適應(yīng) 。
此外 , 通過對GRM進(jìn)行后訓(xùn)練 , 可進(jìn)一步提升所生成原則與對應(yīng)點(diǎn)評內(nèi)容的質(zhì)量與細(xì)致程度 。
當(dāng)GRM能夠在大規(guī)模條件下生成多樣化、高質(zhì)量的原則時(shí) , 其輸出的獎(jiǎng)勵(lì)將更加合理且具備更高的細(xì)粒度 , 而這一能力正是推理階段可擴(kuò)展性的關(guān)鍵所在 。

基于規(guī)則的強(qiáng)化學(xué)習(xí)為了同時(shí)優(yōu)化GRM中的原則與點(diǎn)評內(nèi)容的生成 , 研究者提出了SPCT方法 , 它結(jié)合了拒絕式微調(diào)(rejective fine-tuning)與基于規(guī)則的強(qiáng)化學(xué)習(xí)(rule-based RL) 。
其中 , 拒絕式微調(diào)作為冷啟動(dòng)階段 。

拒絕式微調(diào)(Rejective Fine-Tuning , 冷啟動(dòng))這一階段的核心思想是讓GRM適應(yīng)不同輸入類型 , 并以正確的格式生成原則與點(diǎn)評內(nèi)容 。
與以往工作混合使用單個(gè)、成對和多個(gè)回答的RM數(shù)據(jù)并使用不同格式不同 , 研究者采用了點(diǎn)式GRM(pointwise GRM) , 以在相同格式下靈活地對任意數(shù)量的回答進(jìn)行獎(jiǎng)勵(lì)生成 。
在數(shù)據(jù)構(gòu)建方面 , 除了通用指令數(shù)據(jù)外 , 研究者還從具有不同回答數(shù)量的RM數(shù)據(jù)中采樣預(yù)訓(xùn)練GRM在給定查詢與回答下的軌跡 。
對于每個(gè)查詢及其對應(yīng)的回答 , 研究者執(zhí)行了N_RFT次采樣 。
他們統(tǒng)一了拒絕策略:若模型預(yù)測的獎(jiǎng)勵(lì)與真實(shí)獎(jiǎng)勵(lì)不一致(錯(cuò)誤) , 或該組查詢與回答在所有N_RFT次采樣中全部預(yù)測正確(太簡單) , 則拒絕該軌跡 。
形式化地 , 令r_i表示第i個(gè)回答y_i對查詢x的真實(shí)獎(jiǎng)勵(lì) , 預(yù)測得到的點(diǎn)式獎(jiǎng)勵(lì)
被認(rèn)為是正確的 , 當(dāng)且僅當(dāng):
該條件保證真實(shí)獎(jiǎng)勵(lì)中只有一個(gè)最大值 。
然而 , 正如以往研究所指出的 , 預(yù)訓(xùn)練的GRM在有限采樣次數(shù)下 , 往往難以為部分查詢及其回答生成正確的獎(jiǎng)勵(lì) 。
因此 , 研究者引入了提示式采樣(hinted sampling):將
作為提示 , 附加到GRM的提示語中 , 以期提高預(yù)測獎(jiǎng)勵(lì)與真實(shí)獎(jiǎng)勵(lì)的一致性 。
可以發(fā)現(xiàn) , 與之前的研究不同 , 提示采樣的軌跡在某些情況下會(huì)捷徑式簡化點(diǎn)評生成 , 特別是在推理任務(wù)中 。
這表明:在線強(qiáng)化學(xué)習(xí)對于GRM仍是必要的 , 并具有潛在優(yōu)勢 。

基于規(guī)則的強(qiáng)化學(xué)習(xí)在SPCT的第二階段 , 研究者使用基于規(guī)則的在線強(qiáng)化學(xué)習(xí)對GRM進(jìn)一步微調(diào) 。
具體而言 , 我們采用了GRPO的原始設(shè)定 , 并使用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)(rule-based outcome rewards) 。
在rollout過程中 , GRM根據(jù)輸入查詢與回答生成原則與點(diǎn)評 , 然后提取預(yù)測獎(jiǎng)勵(lì)并通過準(zhǔn)確性規(guī)則與真實(shí)獎(jiǎng)勵(lì)進(jìn)行對比 。
與DeepSeek-AI不同的是 , 研究者不再使用格式獎(jiǎng)勵(lì) , 而是采用更高的KL懲罰系數(shù) , 以確保輸出格式正確并避免產(chǎn)生嚴(yán)重偏差 。
形式化地 , 對于第i個(gè)輸出o_i(給定查詢x和回答
) , 其獎(jiǎng)勵(lì)定義為
其中 , 點(diǎn)式獎(jiǎng)勵(lì)
是從o_i中提取的 。
該獎(jiǎng)勵(lì)函數(shù)鼓勵(lì)GRM通過在線優(yōu)化生成的原則與點(diǎn)評內(nèi)容 , 正確地區(qū)分最優(yōu)回答 , 從而提升推理階段的可擴(kuò)展性 。
此外 , 這種獎(jiǎng)勵(lì)信號(hào)可無縫對接任何偏好數(shù)據(jù)集與標(biāo)注的LLM回答 。
SPCT的推理時(shí)Scaling
為了進(jìn)一步提升DeepSeek-GRM在生成通用獎(jiǎng)勵(lì)上的性能 , 研究團(tuán)隊(duì)探索了如何利用更多的推理計(jì)算 , 通過基于采樣的策略來實(shí)現(xiàn)有效的推理時(shí)擴(kuò)展 。

通過生成獎(jiǎng)勵(lì)進(jìn)行投票逐點(diǎn)GRM(pointwise GRMs)投票過程被定義為將獎(jiǎng)勵(lì)求和:
因?yàn)镾_(ij)通常被設(shè)定在一個(gè)小的離散范圍內(nèi)(比如{1...10) , 所以投票過程實(shí)際上將獎(jiǎng)勵(lì)空間擴(kuò)大了k倍 , 讓GRM能生成大量原則(principles) , 從而提升最終獎(jiǎng)勵(lì)的質(zhì)量和細(xì)膩度 。
直觀來說 , 如果把每個(gè)原則看作一種判斷視角的代表 , 那么更多的原則就能更準(zhǔn)確地反映真實(shí)分布 , 從而帶來擴(kuò)展的有效性 。
值得一提的是 , 為了避免位置偏差并增加多樣性 , 研究人員在采樣前會(huì)對回答進(jìn)行隨機(jī)打亂 。

元獎(jiǎng)勵(lì)模型引導(dǎo)投票DeepSeek-GRM的投票過程需要多次采樣 , 但由于隨機(jī)性或模型本身的局限性 , 生成的某些原則和評論可能會(huì)出現(xiàn)偏見或者質(zhì)量不高 。
因此 , 研究團(tuán)隊(duì)訓(xùn)練了一個(gè)元獎(jiǎng)勵(lì)模型(meta RM)來引導(dǎo)投票過程 。
這個(gè)meta RM是一個(gè)逐點(diǎn)標(biāo)量模型 , 訓(xùn)練目標(biāo)是判斷DeepSeek-GRM生成的原則和評論是否正確 。
引導(dǎo)投票的實(shí)現(xiàn)很簡單:meta RM為k個(gè)采樣獎(jiǎng)勵(lì)輸出元獎(jiǎng)勵(lì)(meta rewards) , 然后從這些獎(jiǎng)勵(lì)中選出前k_meta(k_meta ≤ k)個(gè)高質(zhì)量的獎(jiǎng)勵(lì)進(jìn)行最終投票 , 從而過濾掉低質(zhì)量樣本 。
獎(jiǎng)勵(lì)模型結(jié)果
不同方法和模型在RM基準(zhǔn)測試上的總體結(jié)果如表2所示 。
結(jié)果顯示 , DeepSeek-GRM-27B在整體性能上超過了基線方法 , 并且與一些強(qiáng)大的公開RM(如Nemotron-4-340B-Reward和GPT-4o)表現(xiàn)相當(dāng) 。
【DeepSeek R2來了?全新推理時(shí)Scaling論文聯(lián)手清華震撼發(fā)布】如果通過推理時(shí)擴(kuò)展(inference-time scaling) , DeepSeek-GRM-27B還能進(jìn)一步提升 , 達(dá)到最佳整體結(jié)果 。
不同方法和模型在RM基準(zhǔn)測試上的總體結(jié)果 。 下劃線數(shù)字表示最佳性能 , 粗體數(shù)字表示基線方法和本文方法中的最佳性能 , 斜體字表示標(biāo)量或半標(biāo)量RM 。 對于meta RM指導(dǎo)的投票 , k_meta = 1/2k

推理時(shí)擴(kuò)展性不同方法的推理時(shí)擴(kuò)展結(jié)果如表3所示 , 整體趨勢見圖1 。
研究人員發(fā)現(xiàn) , 在最多8個(gè)樣本的情況下 , DeepSeek-GRM-27B的性能提升最高 , 超越了貪婪解碼和采樣結(jié)果 。
隨著推理計(jì)算量增加(最多32個(gè)樣本) , DeepSeek-GRM-27B展現(xiàn)出進(jìn)一步提升性能的潛力 。 meta RM也在每個(gè)基準(zhǔn)測試中證明了其過濾低質(zhì)量軌跡的有效性 。
總之 , SPCT提升了GRM的推理時(shí)擴(kuò)展性 , 而meta RM進(jìn)一步增強(qiáng)了整體擴(kuò)展性能 。

消融研究表4展示了所提SPCT不同組件的消融研究結(jié)果 。
令人驚訝的是 , 即使沒有使用拒絕采樣的評論數(shù)據(jù)進(jìn)行冷啟動(dòng) , 經(jīng)過在線強(qiáng)化學(xué)習(xí)(online RL)后 , 通用指令調(diào)整的GRM仍然顯著提升(66.1 → 68.7) 。
此外 , 非提示采樣似乎比提示采樣更重要 , 可能是因?yàn)樘崾静蓸榆壽E中出現(xiàn)了捷徑 。 這表明在線訓(xùn)練對GRM的重要性 。
與之前研究一致 , 研究團(tuán)隊(duì)確認(rèn)通用指令數(shù)據(jù)對GRM性能至關(guān)重要 。 他們發(fā)現(xiàn) , 原則生成對DeepSeek-GRM-27B的貪婪解碼和推理時(shí)擴(kuò)展性能都至關(guān)重要 。
在推理時(shí)擴(kuò)展中 , meta RM指導(dǎo)的投票在不同k_meta下表現(xiàn)出魯棒性 。

推理與訓(xùn)練成本擴(kuò)展研究團(tuán)隊(duì)進(jìn)一步研究了DeepSeek-GRM-27B在不同規(guī)模LLM后訓(xùn)練下的推理時(shí)和訓(xùn)練時(shí)擴(kuò)展性能 。
模型在Reward Bench上測試 , 結(jié)果如圖4所示 。
他們發(fā)現(xiàn) , 使用32個(gè)樣本直接投票的DeepSeek-GRM-27B可以達(dá)到與671B MoE模型相當(dāng)?shù)男阅?, 而meta RM指導(dǎo)的投票僅用8個(gè)樣本就能取得最佳結(jié)果 , 證明了DeepSeek-GRM-27B在推理時(shí)擴(kuò)展上的有效性 , 優(yōu)于單純擴(kuò)大模型規(guī)模 。
此外 , 他們用包含300個(gè)樣本的降采樣測試集測試了DeepSeek-R1 , 發(fā)現(xiàn)其性能甚至不如236B MoE RFT模型 , 這表明延長推理任務(wù)的思維鏈并不能顯著提升通用RM的性能 。
編輯:Aeneas 犀牛

    推薦閱讀