首個完整開源的生成式推薦框架MiniOneRec，輕量復現工業級OneRec

2026-04-01 太空衛星

文章圖片

文章圖片

文章圖片

中科大 LDS 實驗室何向南、王翔團隊與 Alpha Lab 張岸團隊聯合開源 MiniOneRec ，推出生成式推薦首個完整的端到端開源框架，不僅在開源場景驗證了生成式推薦 Scaling Law ，還可輕量復現「OneRec」，為社區提供一站式的生成式推薦訓練與研究平臺。

近年來，在推薦系統領域，傳統 “召回 + 排序” 級聯式架構的收益正逐漸觸頂，而 ChatGPT 等大語言模型則展現了強大的涌現能力和符合 Scaling Law 的巨大潛力 —— 這股變革性的力量使 “生成式推薦” 成為當下最熱門的話題之一。不同于判別式模型孤立地計算用戶喜歡某件物品的概率， “生成式推薦” 能夠利用層次化語義 ID 表示用戶歷史行為序列，并基于生成式模型結構直接生成用戶下一批可能交互的物品列表。這種推薦模式顯著提升了模型的智能上限，并為推薦場景引入 Scaling Law 的可能性。

快手 OneRec 的成功落地，更是徹底引爆了推薦圈子。憑借端到端的推薦大模型，重構現今的推薦系統不再是空談，它已證明是一場資源可控、能帶來真實線上收益的推薦革命。

然而，對于這一可能革新整個推薦系統的新范式，各大廠卻諱莫如深，核心技術細節與公開表現鮮有披露。開源社區與一線大廠的探索似乎正在脫鉤，技術鴻溝日漸明顯。
【首個完整開源的生成式推薦框架MiniOneRec，輕量復現工業級OneRec】

如何破局？

近日，中國科學技術大學 LDS 實驗室何向南、王翔團隊聯合 Alpha Lab 張岸團隊正式發布 MiniOneRec 。這一框架作為生成式推薦領域首個完整開源方案，為社區提供了全鏈路、一站式、端到端的訓練與研究平臺。

論文標題：MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation
論文鏈接：https://arxiv.org/abs/2510.24431
代碼鏈接：https://github.com/AkaliKong/MiniOneRec
Huggingface 鏈接： https://huggingface.co/kkknight/MiniOneRec

核心貢獻：

端到端流程支持：從 SID 生成、模型監督微調、推薦驅動的強化學習，全鏈路打通。
開源場景 Scaling Law 驗證：首次在開源數據與模型上，驗證了生成式推薦的 Scaling Law 。
優化后訓練框架：提供一套輕量、完整的后訓練框架，并引入多項針對推薦任務的改進。

自 10 月 28 日發布以來， MiniOneRec 就廣受推薦社區關注。其代碼、數據集、模型權重已全部開源，僅需 4-8 卡 A100 同級算力即可輕松復現。

1. 首次公開數據集驗證生成式推薦 Scaling Law：

研究人員首次在公共數據集上，驗證了生成式推薦模型的 Scaling Law 。

圖 1. 模型參數從 0.5B 到 7B 的訓練 Loss 變化。

團隊在 Amazon Review 公開數據上，以統一的設置訓練了從 0.5B 到 7B 的 MiniOneRec 版本。結果驚艷：隨著模型規模（訓練 FLOPs）的增大，最終訓練損失和評估損失持續下降，充分展示了生成式推薦范式在參數利用效率上的優勢。

2. MiniOneRec 核心技術框架：

該框架提供一站式的生成式推薦輕量實現與改進，具體包括:

（1）豐富的 SID Construction 工具箱

MiniOneRec 為開源社區提供了豐富的的 SID Construction 工具選擇，已集成 RQ-VAE RQ-Kmeans RQ-VAE-v2 (Google 最新工作 PLUM) 并將更新 RQ-OPQ 在內的先進量化算法實現。

下一步，團隊正積極更新接口，以對齊業界的多模態需求。

（2）引入世界知識：全流程 SID 對齊策略

研究人員驗證了一個關鍵發現：引入大模型世界知識，能顯著提升生成式推薦的性能。團隊分別評測了 MiniOneRec 與其變體在不同訓練階段的性能表現，具體包括:

MiniOneRec-Scratch: 基于隨機初始化的 LLM 權重訓練，不做任何 SID - 文本對齊任務。
MiniOneRec- W/O ALIGN: 基于預訓練 LLM 進行后訓練，不做任務 SID - 文本對齊。
MiniOneRec: 基于預訓練 LLM 進行后訓練，并進行全流程的 SID 對齊。

圖 3. 世界知識對于生成式推薦性能的影響。

結果顯示，基于預訓練 LLM 初始化并進行語義對齊的 MiniOneRec（紅線）始終優于未充分對齊的對應變體（黃 / 藍線）。這表明預訓練 LLM 已具備的通用序列處理能力和世界知識，為推薦任務帶來了顯著的額外收益。

基于此發現， MiniOneRec 將 SID token 添加至 LLM 詞表，并在 SFT 和 RL 階段共同優化推薦與對齊兩大任務，將 LLM 語言空間與 SID 信號緊密對齊。

（3）獨家優化：面向推薦的強化學習策略

圖 4. MiniOneRec 框架。

MiniOneRec 基于 GRPO 進一步實現了面向推薦的強化學習算法，具體包括

面向推薦的采樣策略

由于采取 Constrained-Decoding 策略規范模型生成合法 SID ，模型的輸出被限制在遠比自然語言狹窄的有限空間。隨著強化學習訓練的深入，傳統采樣策略的熵迅速降低，使得模型在多次采樣時容易反復生成相同的冗余物品，導致優化效率低下。基于這個發現， MiniOneRec 替換常規采樣策略為 Constrained Beam-Search ，高效生成多樣化的候選物品，兼顧采樣效率和對負樣本的曝光率。

面向推薦的獎勵塑造

推薦場景用戶交互稀疏，常規的二元獎勵使得負樣本 “坍縮” 為同一獎勵值，使得強化學習監督信號粒度粗糙。 MiniOneRec 在準確性獎勵之外，創新性引入排名獎勵，對于高置信度 “困難負樣本” 施加額外懲罰，從而強化排序信號的區分度。

開源基準測試全面領先

在同一 Amazon 基準上，研究人員將 MiniOneRec 同當前 SOTA 的傳統推薦范式、生成式推薦范式、基于大模型的推薦范式進行了全面對比。

圖 5. MiniOneRec 同傳統推薦、生成式推薦、LLM 推薦性能對比。

結果顯示， MiniOneRec 展現出全面的領先優勢:

在 HitRate@K 和 NDCG@K 兩項推薦指標上， MiniOneRec 始終顯著優于以往的傳統推薦范式與生成式推薦范式，領先 TIGER 約 30 個百分點。而對于基于大模型的推薦范式， MiniOnRec 呈現總體的領先的同時擁有顯著的上下文 token 優勢。

這表明，生成式推薦作為可能的下一代推薦范式擁有顯著潛力。

4. 生成式推薦的展望與思考：

生成式推薦會成為下一代推薦系統的新范式嗎？這個問題似乎還難以有一個定論。

一方面，以美團 MTGR、淘天 URM 等為代表的推薦系統 “改革派” ，利用生成式架構的長序列建模等能力賦能判別式，在現有的體系內基于 “生成式召回” 方案進行增量改進。

另一方面，以快手 OneRec 為代表的更為激進的 “革命派” ，則想要直接顛覆傳統多階段級聯的判別式方案、實現真正端到端自回歸地生成用戶興趣列表。

雖然兩條路線取舍不同，但都在規?；瘜嵺`中驗證了生成式范式的實際價值。對部分大廠而言，生成式范式已經走出 “可行性驗證” 階段，開始在業務上創造真實收益。相較于業界的快速推進，學術界與開源社區在這一方向仍顯薄弱。面對這場可能重塑推薦技術版圖的機遇，我們期待更多研究者與工程實踐者大膽嘗試，擁抱這或許是推薦領域的 “GPT 時刻” 。

推薦閱讀

上一篇：李飛飛再談世界模型：AGI是營銷術語，空間智能才是AI缺失的能力

下一篇：紅魔 11 Pro+ 體驗：給手機裝上內置水冷，是一種怎樣的體驗